RAZVOJ METODOLOGIJE ZA AVTOMATIČNO KLASIFIKACIJO ELEKTRONSKIH PUBLIKACIJ V UNIVERZALNO DECIMALNO KLASIFIKACIJO - UDK |
Matjaž Kragelj, študent
dr. Mirjana Kljajić Borštnar, mentorica
- kopija publikacij na dLib.si ali
- vsebina namesto originalnega portala
- povečevanje števila partnerjev
- največja porast števila/količine
publikacij na dLib.si
- začetek arhiviranja v repozitorij
po shemi OAIS
image: https://wiki.archivematica.org
- predstavitev zgolj z (meta)podatki
- graf: publikacija / avtorji
- uporabniški vmesnik
https://www.nuk.uni-lj.si/d3/test/knjiznica_1980.html
- graf: oznake vsebine / naslovi
Analiza teksta vključuje iskanje informacij, leksikovno analizo za proučevanje razdelitve frekvence besed, prepoznavanje vzorcev, označevanje, ekstrakcijo informacij, tehnike preiskovanja podatkov, z vključevanjem povezav, vizualizacijo in prediktivno analizo.
- proces pridobivanja visokokvalitetnih informacij iz teksta
Za te publikacije - iskanje mogoče samo po naslovu, številki in polnem besedilu
S pomočjo text mininga je moč ustvariti klasifikacijo, fasete oz. filtre,..
Univerzalna decimalna klasifikacija (UDK) :
Obsegajo sistematično ureditev vseh področij človeškega znanja. Celotno človeško vedenje je razporejeno v deset glavnih skupin, ki so označene s številkami od 0 do 9
Vanj se lahko vgrajujejo vrstilci za nova znanja. Vrstilci so neodvisni od jezika ali pisave in so sestavljeni iz arabskih številk ter sprejetih znakov
Trenutno preveden v 51 jezikov
0 Znanost in znanje. Organizacije. Informacije. Dokumentacija. Bibliotekarstvo. Institucije. Publikacije 1 Filozofija. Psihologija 2 Teologija. Verstva 3 Družbene vede. Politika. Ekonomija. Pravo. Izobraževanje 5 Matematika. Narovoslovje 6 Uporabne znanosti. Medicina. Tehnika 7 Umetnost. Arhitektura. Fotografija. Glasba. Šport 8 Jezik. Književnost 9 Geografija. Biografija. Zgodovina
UDK= 821.163.6 --> Slovenska književnost
UDK= 008(497.4)"18/19“ --> Jezik, književnost (Slovenija) 18XX-19XX.
ZA VSE TRI „časopise“ velja: zgolj en zapis v knjižničnem katalogu COBISS za vse pripadajoče publikacije časopisa
Text
Text
HIPOTEZA:
Ali lahko (s pomočjo metod strojnega učenja) z verjetnostjo vsaj 0.8,
za vsako naključno publikacijo, ki vstopa v sistem, pozitivno potrdimo avtomatsko dodeljen vsaj en primeren UDK vrstilec?
STRUKTURA PUBLIKACIJ na dLib.si
(časovna komponenta - leto nastanka)
znanstveno časopisje
cca. 70.000 enot
staro časopisje
90% celotnega dLib.si
V prvi iteraciji se ukvarjamo z znanstvenimi besedili,
v drugi s starimi članki.
POTEK RAZISKAVE po fazah:
1) Izbor podatkov ( MSSQL, izbor člankov, URN, naslov, UDK-ji, Full-text)
2) Izvoz podatkov (export metapodatkov in polnega besedila v .json)
3) Priprava podatkov (čiščenje, lematizacija)
4) Pretvorba besedil v vektorje (doc2vec, tfidfVectorizer)
5) Strojno učenje (nadzorovano, nenadzorovano)
6) Analiza rezultatov
1,2) Izbor in izvoz podatkov
1,2) Izbor in izvoz podatkov
Text
čebel, čebela, čebelah, čebelam, čebelama, čebelami, čebele, čebeli, čebelo, bčela, zhbele, zhebela, zhebelle, zhebéla, zhebéle, bzhéla, bčela, bčela, bčele, zhbel, zhbelam, zhbelami, zhbele, zhebelam, zhebelam, zhebéla, zhebéle, zhebęla, zhebęli, čebele, čbela, čbele, čbéla, čbéla, čebel, čebelami, čebele
čebelar, čebelarja, čebelarje, čebelarjem, čebelarjema, čebelarjev, čebelarji, čebelarjih, čebelarju, zhbelar, zhbelarja, zhbelarjam, zhbelarjev, zhbelarji
term frequency–inverse document frequency
https://medium.com/@MSalnikov/text-clustering-with-k-means-and-tf-idf-f099bcf95183
Algoritem razdeli dane vhodne podatke, po svojih kriterijih, v več kategorij, ki imajo svoje značilnosti. To se imenuje rojenje (clustering). Število kategorij in njihove značilnosti izlušči algoritem iz vhodnih podatkov, brez nadzora učitelja.
Nenadzorovano učenje (unsupervised learning):
odkrivanje zakonitosti učnih primerov.
Vprašanje:
- ali lahko primere razdelimo v smiselne skupine?
CILJ:
Nenadzorovano učenje (clustering, k-means)
https://bigdata-madesimple.com/possibly-the-simplest-way-to-explain-k-means-algorithm/
k-means je iterativni algoritem. Deluje v dveh korakih
k=število gruč
Nenadzorovano učenje (clustering, k-means)
Nenadzorovano učenje (clustering, k-means)
Nenadzorovano učenje (k-means 3d predstavitev):
Nenadzorovano učenje (k-means 3d predstavitev):
"čista" skupina: 27 - Krščanstvo
več kot 90% elementov ima UDK skupino 27
gruča (cluster) sili na dva dela
58 - botanika
59 - zoologija
Algoritem uči stroj s podanimi pari vhodnih in želenih izhodnih podatkov. Pri tem želene izhodne vrednosti določa učitelj, oz. človek - nadzornik.
Algoritem nadzorovanega učenja analizira podatke o vadbi in izdela sklepano funkcijo, ki jo lahko uporabimo za preslikavo novih primerov. Optimalni scenarij bo omogočil algoritmu, da pravilno določi oznake razredov za nove primerke.
Nadzorovano učenje (supervised learning):
podatki: 70.000+ znanstvenih dokumentov
razmerje učna / testna množica: 80% - 20%
Večina znanstvenih člankov ima dodeljen več kot en UDK vrstilec.
Ko testiramo naučen model, dobimo navadno dodeljenih več kot en UDK za posamezen članek (v testni množici).
Spremenimo / dopolnimo hipotezo:
Ali lahko zagotovimo, z verjetnostjo vsaj 0.8, da bo naključni primerek iz testne množice "padel" v enega izmed prvih štirih (max. frequency) predlaganih UDK s strani modela?
Support Vector Machine: natančnost: 0.963, f1: 0.8489 |
Multilayer Perceptron: natančnost: 0.944, f1: 0.8046 |
Logistic regression: natančnost: 0.940, f1: 0.6561 |
Naive Bayes: natančnost: 0.872, f1: 0.7427 |
Precision - Precision is the ratio of correctly predicted positive observations to the total predicted positive observations. The question that this metric answer is of all passengers that labeled as survived, how many actually survived? High precision relates to the low false positive rate.
Recall (Sensitivity) - Recall is the ratio of correctly predicted positive observations to the all observations in actual class - yes. The question recall answers is: Of all the passengers that truly survived, how many did we label? We have got recall of 0.631 which is good for this model as it’s above 0.5.
podatki: 70.000+ znanstvenih dokumentov
razmerje učna / testna množica: 80% - 20%
Support Vector Machine: natančnost: 0.931, f1: 0.7823 |
Multilayer Perceptron: natančnost: 0.943, f1: 0.8142 |
Logistic regression: natančnost: 0.839, f1: 0.4206 |
Naive Bayes: natančnost: 0.753, f1: 0.5901 |
Precision - Precision is the ratio of correctly predicted positive observations to the total predicted positive observations. The question that this metric answer is of all passengers that labeled as survived, how many actually survived? High precision relates to the low false positive rate.
Recall (Sensitivity) - Recall is the ratio of correctly predicted positive observations to the all observations in actual class - yes. The question recall answers is: Of all the passengers that truly survived, how many did we label? We have got recall of 0.631 which is good for this model as it’s above 0.5.
obstoječi model (na 70.000 člankih) bomo uporabili za klasifikacijo
200.000+ starih člankov, besedil
ponovimo:
Uporabljeni algoritmi:
Support Vector Machines (SVM), Multilayer Perceptron (MLP), Logistic Regression (LOG), Naive Bayes Classifier (NB) in K-nearest neighbors algorithm (k-NN).
PRIMER: |
LOG: [('02', 0.2588), ('070', 0.1872), ('027', 0.0485), ('821', 0.0482), ('930', 0.04372932160459208), ('908', 0.0207), ('27', 0.01577), ('81', 0.0149), ('655', 0.0126), ('050', 0.0117)] |
SVM: [('070', 0.4878), ('02', 0.3359), ('027', 0.0866), ('929', 0.0128), ('821', 0.0073), ('026', 0.0062), ('025', 0.0052), ('016', 0.0043), ('930', 0.0036), ('002', 0.0035)] |
KNN: [('070', 0.5039), ('02', 0.2984), ('027', 0.1976)] in sorodno za ostale algoritme |
|
še dva primera:
Bibliotekar "pobarva / potrdi" predlagani UDK, če je:
PRIMER članka: ELEKTRIČNI ROBOT, Slovenski gospodar, 1938
V Preravi na češkoslovaškem so uvedli mehanično napravo, ki avtomatično regulira prižiganje in ugašanje luči.
Robot sestoji iz dveh celic. Prva je v poslopju mestne elektrarne, druga pa na transformatorju, čim se znoči, reagirata obe celici na spremembo svetlobe s tem, da zažarijo povsod električne luči.
UDK nadrejenega zapisa: 070 - Časopisi. Tisk. Novinarstvo.
Med predlaganimi UDK sta:
620: Preiskava materiala. Blagoznanstvo. Energetske centrale. Energetika.
621: Splošno o strojništvu. Jedrska tehnika. Elektrotehnika.
Mehanska tehnologija nasploh
Primer: Deželni zbor, Slovenski gospodar, 1899
V predzadnji seji je utemeljeval poslanec Hagenhofer svoj predlog za ustanovitev deželne hipotečne banke. Povedal je, da je deželni zbor že od leta 1862 sem mnogokra sklepal o tej zadevi, da je pa stvar vednc obtičala. Skušal je dokazati, da bi dolžnik vknjiženih dolgov gotovo nad 1 milijon gld obresti vsako leto manje plačevali, če imamc tak deželni denarni zavod. Stvar se je izročila posebnemu gospodarskemu odseku, kis« bo izvolil v seji 14. aprila in bo štel lš udov. Nemški naprednjaki in narodnjaki se vložili predlog, da ima ustavoverni odsek obstoječ iz 12 udov, presoditi krivico, ki s« baje Nemcem godi vsled tega, da vlada zda na podlagi znanega § 14 temeljnega zakon* opravlja vse državine posle. V seji 11. aprje Poš vtemeljeval ta predlog ter zopet ii zopet tarnal nad zatiranjem Nemcev v Avstriji. Kdo se mu ne bi smejal? Saj ti ljudje sami sebi ne morejo verjeti, ko kričijo o zatiranji nemštva v Avstriji! V seji 12 aprila je vtemeljeval poslanec Hagenhofer svoj predlog, naj se odpravijo vse mitnice na nedržavnih cestah in mostih; poslanec Kurz pa predlog o zatiranji škodljivih mrčesov; poslanec Mosdorfer stavi predlog, da prevzame dežela v svojo skrb vse ceste po deželi in poslanec Žička r predlog, da se ima popraviti struga Sotle v okrajih Rogatec, Šmarje, Kozje in Brežice. Vsi štirje predlogi so se izročili odseku za deželno kulturo v presojo. Finančni odsek je v seji 11. aprila sklenil zboljSati plačilo profesorjem na višji deželni realki v Gradcu in na 5razredni gimnaziji v Ptuju. To zboljšanje se ima pričeti s 1. januarjem 1899. Profesorji na državnih gimnazijah zavživajo zboljšanje že od 1. oktobra 1898. Tudi meščanskim učiteljem se je zboljšala plača (po večini glasov) od 1. januvarija t. 1. Ob enem je sklenil finančni odsek deželnemu zboru priporočati predlog, da se višja deželna realka v Gradcu podržavi. Oskrbovalna vsprejetišča prizadevajo deželi leto za letom več stroškov. Že lani je sklenil finančni odsek, naj se odpravijo vsaj nekatera vsprejetišča; a vlada ni pritrdila temu predlogu. Letos se je ta predlog ponovil in se je nasvetovalo marsikaj, da se znižajo ti stroški, ki so preračunjeni za 1. 1899 na 114.000 gold. Ko so se ta vsprejetišča od liberalne nemške | večine deželnega zbora vstanovila, se je reklo: ljudje, ki bodo semkaj zahajali, naj ali delajo kot obrtniki ali pa pomagajo pri poljedelstvu. A liberalci s« se zmotili. Iz teh vsprejetišč ne dobiš lahko kakšnega delavca. Vlada se pa protivi zategavoljo odpravi kakšnega vsprejetišča, ker se boji, da se po tistem kraju začne potem beračenje.
UDK nadrejenega zapisa: 070 - Časopisi. Tisk. Novinarstvo.
Primer: Deželni zbor, Slovenski gospodar, 1899
Zaključek in predlogi za nadalnje delo:
Možna uporaba:
Matjaž Kragelj, študent
dr. Mirjana Kljajić Borštnar, mentorica