KRNJENJE SLOVENSKIH BESEDIL S PODROČJA BIBLIOTEKARSTVA

Polona Vilar, Jasna Maver

Povzetek

Izvleček

Prispevek predstavlja pripravo algoritma za krnjenje slovenskih besedil s področja bibliotekarstva, ki je potekal v treh fazah: učni, testni in evalvacijski. Predstavljena je priprava oz. učenje Optimalnega algoritma za krnjenje bibliotekarskih besedil, njegovo testiranje in primerjava z dvema drugima algoritmoma za krnjenje, imenovanima Popovičev in Generični. Za učenje je bil uporabljen korpus 790.000 besed s področja bibliotekarstva. Zgrajeni so bili seznami krnov, besednih končnic ter blokiranih besed. Testna faza je obsegala testiranje algoritma, predvsem zgrajenih sestavnih delov, z dodatnim korpusom, obsegajočim 167.000 besed. V evalvacijski fazi je bila izvedena primerjava delovanja omenjenih treh algoritmov na istem korpusu. Rezultati delovanja algoritmov so primerjani z intelektualno pripravljenim kontrolnim rezultatom. V njem so množice semantično povezanih besed, zastopane s krni. Spremljano je premalo natačno krnjenje – koliko krnov za semantično povezane besede izdela posamezen algoritem. Rezultati so statistično obdelani s Kruskal-Wallisovim testom. Optimalni algoritem daje najboljše rezultate. Največkrat doseže popolno ujemanje s kontrolnim rezultatom in hkrati izdela najmanj krnov za en pomen. Sledi Popovičev z majhnim odstopanjem. Najmanj natančen je Generični. Opisani postopki lahko predstavljajo izhodišče za nadaljnjo gradnjo orodij za avtomatsko indeksiranje dokumentov s področja bibliotekarstva in poizvedovanje po njih.

Ključne besede

avtomatsko krnjenje; algoritmi; slovenski jezik; bibliotekarstvo; science

Celotno besedilo:

PDF

Literatura

Adamič, Š. (1995). Temelji biostatistike. Ljubljana: Medicinska fakulteta. 2. Dimec, J., Todorovski, L., Hristovski, D., & Džeroski, S. (1999). The personalized search engine for Slovenian and English medical documents. V Managing multimedia collections. 23rd Library systems seminar, Bled, 21-23 April 1999 (str. 56-63). Ljubljana: National and University Library..

Dimec, J., Todorovski, L., Hristovski, D., & Džeroski, S. (2000). Three new stemmers for Slovenian language. Pridobljeno 29.2.2000 s spletne strani: http://www.mf.uni-lj.si/ds/new-stemmers.html

Popovič, M. (1991). Implementation of a Slovene language free-text retrieval system: a study submitted in fulfilment of the requirements for the degree of Doctor of Philosophy at the University of Sheffield. Sheffield: Department of Information Studies.

Popovič, M., & Willett, P. (1992). The effectiveness of stemming for natural language access to Slovene textual data. Journal of the American Society for Information Science, 43 (5), 384-390.

Vilar, P., & Dimec, J. (2000). Krnjenje kot osnova nekaterih nekonvencionalnih metod poizvedovanja. Knjižnica, 44 (4), 7-31.

Vilar, P. (2001). Krnjenje slovenskih besedil s področja bibliotekarstva. Magistrsko delo. Ljubljana: Oddelek za bibliotekarstvo, informacijsko znanost in knjigarstvo.