JEZIKOSLOVNI VIRI STAREJŠE SLOVENŠČINE

Tomaž Erjavec

Povzetek

IZVLEČEK

V prispevku so predstavljeni trije jezikovni viri starejšega slovenskega jezika: zbirka besedil oz. digitalna knjižnica, referenčni jezikoslovno označeni korpus in slovar oz. besedišče. Zbirka besedil vsebuje 158 del, večinoma knjig z redigirano transkripcijo besedila in faksimili, skupaj nekaj več kot 13.000 strani. Korpus sestavlja 1000 strani, vzorčenih iz te zbirke, kjer je vsaki besedni pojavnici pripisana ročno pregledana sodobna ustreznica besedne oblike, njena lema in leksikalna oblikoskladenjska oznaka. Slovar je bil zajet iz razširjenega ročno pregledanega korpusa in ima 25.000 gesel, ki vsebujejo sodobne ustreznice in korpusno atestirane besedne oblike. Vsi trije viri so zapisani skladno s smernicami za zapis besedil TEI (Text Encoding Initiative Guidelines) in dostopni na spletu za pregledovanje in preiskovanje, kot tudi za prenos pod licenco Creative Commons – priznanje avtorstva. Namen virov je po eni strani omogočiti empirično podprte diahrone jezikoslovne raziskave in približati starejša besedila in leksiko sodobnemu bralcu, po drugi pa ti predstavljajo podatkovno infrastrukturo za razvoj jezikovnih tehnologij, ki lahko npr. omogočajo iskanje po polnem besedilu pisne kulturne dediščine. Zbirka besedil, korpus in slovar so dostopni na http://nl.ijs.si/imp/.

EXTENDED ABSTRACT:

The paper presents three language resources enabling better full-text access to digitised printed historical Slovenian texts: a hand-annotated corpus, a hand-annotated lexicon of historical words and a collection of transcribed texts. The aim of the resources is twofold: on one hand they support empirical linguistic research (corpus, collection) and represent a reference tool for the research of historical Slovenian (lexicon) while on the other hand they may serve as training data for the development of Human Language Technologies enabling better full-text search in digital libraries containing Slovenian written cultural heritage, modernisation of historical texts, and the development of better technological solutions for text recognition and scanning. The hand annotated corpus of historical Slovenian contains the text from 1,000 pages sampled from the years 1750 to 1900, two texts date to the end of the 16th or 17th century. The corpus contains a little more than 250,000 word tokens; each of them being annotated with hand validated linguistic features: modernised form, lemma or base form, and morhpo-syntactic description. Thus the word token »ajfram« is annotated with the normalised form »ajfrom«, by the lemma »ajfer« and morphosyntactic description »Som« or »Samostalnik« (noun), »občni« (common), »moški« (masculine) and a modernised form »gorečnost« (fervour). At first the corpus was annotated automatically and then manually verified and corrected. The lexicon was created automatically from the hand-annotated corpus. It contains only attested word-forms and examples of use. The word-forms are ordered under their modern equivalents. All the modern forms of a particular word constitute a dictionary entry, defined by its lemma with conjoint information i.e. the morpho-syntactic description and the closest contemporary synonyms. Thus the entry »ajfrer/Som/gorečnost« is annotated by two modernised words »ajfra « and »ajfrom« and their archaic forms »ajfram« and »aifram« and by attestattion: »…shaz noi frihtei tu shebranje karbo sdei udrukono is velzhim aifram noi is flisam inu is andohtjo 3 vezhiere saporedama …« (Tapravi inu tazieli Colemone-Shegen, 1800, p. 183). At present, the lexicon contains over 25,000 entries (including modern words in archaic texts), 50,000 word-forms and 70,000 archaic forms. The third resource is represented by an extensive collection of digitised texts similar to the corpus. The difference is that the words are annotated automatically by a tool developed to process historical Slovenian text named ToTrTaLe. The tool implements a pipeline, where it first tokenises the text and then attempts to transcribe the archaic words to their modern day equivalents. Then, the text is tagged and lemmatised using the models for modern Slovenian language. It contains about 5 million words of hand-corrected transcriptions from the following digitised texts: • Slovenian books and editions of the newspaper »Kmetijske in rokodelske novice«, digitised by the National University Library (NUK) in the frame of the EU project IMPACT (5000 pages); • Digital library AHLib,1 comprising Slovenian books translated from German (100 books); • A selection of Slovenian books2 All three resources (corpus, lexicon, collection) are encoded according to the Text Encoding Initiative Guidelines TEI P5, which enable the definition of XML schemas for encoding texts for scholarly purposes. The home page of the project at http://nl.ijs.si/imp/ enables access to the resources. The collection and the lexicon are available for on-line browsing, the corpus and the automatically annotated collection for linguistics searches via a concordancer, while all the resources can be also downloaded in their source XML form under the Creative Commons Attribution Licence. In future we expect to extend the resources, however, even their present scope is sufficient for corpus based diachronic studies of historical Slovenian language and for developing useful language technology tools for processing cultural heritage texts.

Ključne besede

digitalne knjižnice; starejša slovenščina; referenčni korpusi; slovarji

Celotno besedilo:

PDF

Literatura

Arhar, Š. in Gorjanc, V. (2007). Korpus FidaPLUS: nova generacija slovenskega referenčnega korpusa. Jezik in slovstvo, 52 (2). Povzeto 10. julija 2012 s spletne strani http://www.jezikinslovstvo.com/pdf/2007-02-Razprave-SpelaArharInVojkoGorjanc.pdf

Christ, O. (1994). A Modular and Flexible Architecture for an Integrated Corpus Query System. V: Proceedings of COMPLEX ’94, Budimpešta, str. 23–32.

Erjavec, T. (2011b). Automatic linguistic annotation of historical language: ToTrTaLe and XIX century Slovene. V: LaTeCH 2011: The 5th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. Portland, ZDA. Portland: Association for Computational Linguistics, str. 33−38. Povzeto10. julija 2012 s spletne strani http://aclweb.org/anthology-new/W/W11/W11-1505.pdf

Erjavec, T., Vodopivec, I. in Kodrič, M. (2011). Izdelava korpusa starejših slovenskih besedil v okviru projekta IMPACT. Meddisciplinarnost v slovenistiki. Obdobja, 30. Ljubljana: Znanstvena založba Filozofske fakultete, str. 41-47. Povzeto 10. julija 2012 s spletne strani http://www.centerslo.net/files/file/simpozij/simp30/Zbornik/Erjavec_Jerel_Kodric.pdf

Erjavec, T. in Krek. S. (2008). Oblikoskladenjske specifikacije in označeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije. Ljubljana. Povzeto 10. julija 2012 s spletne strani http://nl.ijs.si/jos/bib/jos_isltc08.pdf

Erjavec, T. (2009). Odprtost jezikovnih virov za slovenščino. Infrastruktura slovenščine in slovenistike. Obdobja, 28. Ljubljana: Znanstvena založba Filozofske fakultete, str. 115−121. Povzeto 10. julija 2012 s spletne strani http://www.centerslo.net/files/file/simpozij/simp28/Erjavec.pdf

Erjavec, T. (2011a). Slovenska prevodna književnost 1848−1918 : digitalna knjižnica in korpus AHLIB. Meddisciplinarnost v slovenistiki. Obdobja, 30. Ljubljana: Znanstvena založba Filozofske fakultete, str. 33-40. Povzeto 10. julija 2012 s spletne strani http://www.centerslo.net/files/file/simpozij/simp30/Zbornik/Erjavec.pdf

Erjavec, T. (2012). The goo300k corpus of historical Slovene. V: Eight International Conference on Language Resources and Evaluation (LREC'12), Istanbul. European Language Resources Association (ELRA). Povzeto 10. julija 2012 s spletne strani http://www.lrec-conf.org/proceedings/lrec2012/summaries/445.html

Golec, B. (2009). Mestna prisežna besedila v slovenskem jeziku do začetka 19. stoletja. Ljubljana : Inštitut za slovensko literaturo in literarne vede ZRC SAZU, Zgodovinski inštitut Milka Kosa ZRC SAZU Povzeto 10. julija 2012 s spletne strani http://nl.ijs.si/e-zrc/prisege/

Grafenauer, I. (1940). »Duhovna bramba« in »Kolomonov žegen« (nove najdbe in izsledki). Razprave I. Filozofsko-filološko-historični razred. Akademija znanosti in umetnosti v Ljubjani. Povzeto 10. julija 2012 s spletne strani http://nl.ijs.si/imp/bib/Bramba_in_Kolemon.pdf

Herrity, P. (2001). Konstituiranje slovenskega knjižnega jezika: vloga zgodovine in lingvistike. Slovenski knjižni jezik - aktualna vprašanja in zgodovinske izkušnje. Obdobja, 20. Ljubljana: Znanstvena založba Filozofske fakultete, str. 531-539. Povzeto10. julija 2012 s spletne strani http://www.centerslo.net/files/File/simpozij/sim20/herrity.pdf

Hladnik, M. (2009). Infrastruktura slovenistične literarne vede. Infrastruktura slovenščine in slovenistike. Obdobja, 28, str. 161–169. Povzeto 10. julija 2012 s spletne strani http://www.centerslo.net/files/file/simpozij/simp28/Hladnik.pdf

Keber, J. (2006). Nova izdaja Pleteršnikovega Slovensko-nemškega slovarja. Jezikoslovni zapiski, 12(2), str. 161−166.

Krstulović, Z. in Šetinc, L. (2005). Digitalna knjižnica Slovenije – dLib.si. V: Informatika kot temelj povezovanja: zbornik posvetovanja, str. 683-689.

Merše, M., Jakopin, F. in Novak, F. (1992). Fonološki sistem knjižnega jezika slovenskih protestantov. Slavistična revija, 40(4), str. 321−340.

Orožen, M. (1996). Oblikovanje enotnega slovenskega knjižnega jezika v 19. stoletju. Ljubljana: Filozofska fakulteta.

Pletschacher, S. in Antonacopoulos, A. (2010). The PAGE (Page Analysis and Ground-Truth Elements) Format Framework. V: 20th International Conference on Pattern Recognition (ICPR2010). Istanbul, 23.−26. avgust 2010, IEE‐CS Press, str. 257−260.

Prunč, E. (2007). Deutsch-slowenische/kroatische Übersetzung 1848−1918. Ein Werkstättenbericht. Wiener Slavistisches Jahrbuch, 53. Dunaj: Založba Avstrjske Akademije znanosti, str. 163−176.

Šorn, M. in Hadalin, J. (2010). Spletni portal SIstory: prost dostop do dosežkov slovenskega zgodovinopisja. Zbornik prispevkov 4. skupnega posvetovanja Sekcije za specialne knjižnice in Sekcije za visokošolske knjižnice Zveze bibliotekarskih društev Slovenije, Ljubljana, 27. in 28. oktober 2010, str. 103−107.

TEI Consortium (2007). TEI P5: Guidelines for Electronic Text Encoding and Interchange. Povzeto 10. julija 2012 s spletne strani http://www.tei-c.org/Guidelines/P5/