Uporabna vrednost podatkov spletnih zajemov: arhiviranje spletnih mest in analiza spletnih vsebin

  • Matjaž Kragelj Narodna in univerzitetna knjižnica, Turjaška 1, 1000 Ljubljana e-pošta: matjaz.kragelj@nuk.uni-lj.si
  • Mitja Kovačič Narodna in univerzitetna knjižnica, Turjaška 1, 1000 Ljubljana e-pošta: mitja.kovacic@nuk.uni-lj.si
Ključne besede: spletni arhivi, frekvenca pojavljanja, tf-idf, luščenje podatkov, spletni zajemi, domena .si

Povzetek

Izvleček
Zakon o obveznem izvodu publikacij (2006) Narodni in univerzitetni knjižnici (NUK) nalaga skrb za zajem, ohranjanje in nudenje dostopa uporabnikom do zajetih spletnih publikacij, spletnih mest in vsebin. Leta 2015 je NUK opravil prvi zajem slovenske domene .si, naslove spletnih domen je priskrbel Arnes (Akademska in raziskovalna mreža Slovenije). V prispevku se osredotočamo na pomen zajema spletnih vsebin zaradi vsakodnevnega propadanja spletnih domen. Poleg zajema in dejavnosti za zagotavljanje ohranjanja zajetih vsebin je v prispevku tematizirano tudi pridobivanje informacij iz nestrukturiranih vsebin (spletnih dokumentov). Omenjeni so primeri in delovanje aplikacij za zajemanje specifičnih informacij iz različnih spletnih dokumentov, npr. zajem cene določenega artikla v določeni trgovini z namenom obveščanja končnega uporabnika o najugodnejši ponudbi na trgu. Večji del prispevka je namenjen analizi zajetih spletnih vsebin in možnosti luščenja ter uteževanja besedišča, pridobljenega iz spletnih dokumentov. Z algoritmi in statistikami za označevanje in razvrščanje terminov v množici spletnih vsebin se spletni arhiv iz pasivne podatkovne zbirke spremeni v okolje, ki omogoča dodano vrednost povezovanja podatkov, iskanja sorodnosti znotraj podatkov spletnega arhiva in s podatki zunaj njega.

Literatura

Archive-It. (2014). San Francisco: Archive-It. Pridobljeno 11. 3. 2017 s spletne strani: https://archive-it.org

Bag of words and TF-IDF [blog zapis]. (2017). S.l.: Deeplearning4j. Pridobljeno 17. 3. 2017 s spletne strani: https://deeplearning4j.org/bagofwords-tf-idf

Brown, A. (2013). Practical digital preservation: a how-to guide for organizations of any size. London: Facet Publishing.

Dexi.io. (2012). Copenhagen: Dexi.io. Pridobljeno 11. 3. 2017 s spletne strani: https://dexi.io

Dramowicz, K. (2016). Acquiring geographical data with web harvesting. IOP conference series: earth and environmental science, 34(1), 1–8. doi:10.1088/1755-1315/34/1/012006

February 2016 web server survey [blog zapis]. (2017). Bath: Netcraft. Pridobljeno 10. 3. 2017 s spletne strani: https://news.netcraft.com/archives/category/web-server-survey/

GNU Wget. (2017). S.l.: GNU Operating System. Pridobljeno 11. 3. 2017 s spletne strani: https://www.gnu.org/software/wget

How many active sites are there? [blog zapis]. (2008). Bath: Netcraft. Pridobljeno 10. 3. 2017 s spletne strani: https://www.netcraft.com/active-sites

HTTrack website copier: version 3.49-1. (2017). S.l.: Xavier Roche and other contributors. Pridobljeno 11. 3. 2017 s spletne strani: http://www.httrack.com/

Import.io. (2017). Los Gatos, CA: Import.io. Pridobljeno 11. 3. 2017 s spletne strani: https://www.import.io

Internet archive wayback machine. (2014). San Francisco: Internet Archive. Pridobljeno 11. 3. 2017 s spletne strani: https://archive.org/web

ISO 28500:2009, Information and documentation – WARC file format. (2009). Geneva: ISO.

Jack, P. (2014). Heritrix. S.l.: Confluence. Pridobljeno 11. 3. 2017 s spletne strani: https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

Lematizacija. (B. l.). V Wikipedija: prosta enciklopedija. Pridobljeno 15. 3. 2017 s spletne strani: https://sl.wikipedia.org/wiki/Lematizacija

Luhn, H. P. (1957). A statistical approach to mechanized encoding and searching of literary information. IBM journal of research and development, 1(4), 309–317. doi:10.1147/rd.14.0309

Parsehub. (2017). Toronto: ParseHub. Pridobljeno 11. 3. 2017 s spletne strani: https://www.parsehub.com

Perma.cc. (2013). Cambridge, MA: Harvard Law School Library. Pridobljeno 12. 3. 2017 s spletne strani: https://perma.cc

Scrapinghub. (2010). Cork: Scrapinghub. Pridobljeno 11. 3. 2017 s spletne strani: https://scrapinghub.com

Term frequency-Inverse document frequency. (B. l.). V Wikipedia: the free encyclopedia. Pridobljeno 10. 3. 2017 s spletne strani: https://en.wikipedia.org/wiki/Tf%E2%80%93idf

WebCite. (B. l.). Toronto: WebCite Consortium. Pridobljeno 11. 3. 2017 s spletne strani: http://www.webcitation.org/

Zakon o obveznem izvodu publikacij (ZOIPub). (2006). Uradni list RS, št. 69/2006 in 86/2009.

Objavljeno
2017-10-06
Rubrike
ČLANKI