Upload
kunibert-kappus
View
104
Download
0
Embed Size (px)
Citation preview
Einsatz neuer Technologienauf dem Slavistik-Portal
Ivo Ulrich, Staatsbibliothek zu Berlin
32. ABDOS-Tagung, Martin (Slowakei), 19. Mai 2009
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 2
Übersicht
Was ist das Slavistik-Portal?
Neue Technologien im Einsatz Suchmaschinentechnologie Föderierte Indexsuche Vollautomatischer Linksammler
Retrokonversionsprojekt “130 Jahre deutsche Slavistik”
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 3
Was ist das Slavistik-Portal?
… ein Produkt der Virtuellen Fachbibliothek Slavistik
gefördert durch Deutsche Forschungsgesellschaft (DFG)
seit 10/2005 im Aufbau, seit 5/2007 online
angesiedelt an der Staatsbibliothek zu Berlin (SBB), Projektleitung: Osteuropa-Abteilung
Kooperationen Universitätsbibliothek Bochum ViFaOst (BSB München) Vascoda Bibliothekarische und wissenschaftliche Einrichtungen in
Osteuropa (Russland, Tschechien, Polen, Südosteuropa)
Adresse: http://www.slavistik-portal.de
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 4
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 5
Suchmaschinentechnologie I
Begriffsklärung
Erweiterung des Suchraumes bzw. maschinelle Erschließung unterschiedlicher Dokumentenformate
Architektur: Crawler - Indexer - Searcher
HTML
DOC
TXT
XML
...
Index
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 6
Suchmaschinentechnologie II
Apache Lucene = Opensource-Software, kostenfrei
Volltextrecherche in Webseiten (= „Fachgoogle“)
Volltextrecherche in strukturierten Daten:
Stemming- und Transliterationsmodule verfügbar
Hohe Performance
Trefferliste nach Relevanz sortiert
geplant: Erschliessung von ca. 5 Mio. slavistikrelevanten Webseiten Erschliessung von fachrelevanten PDF-Dokumenten der SBB
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 7
Aufbau eines kooperativen Fachnetzwerkes für Slavistik
Metasuchmaschine iPort™ + Apache Lucene
schnell, stabil und skalierbar
wird enthalten: – 5 Mio. slavistische Webseiteninhalte, z.Zt. 35.000 (Berlin)
– 16.000 bibliographische Datensätze (Bamberg)
– 150 Mio. tschechische Webseiten (Prag)
– 80.000 polnische Volltext-Dokumente (Poznań)
Föderierte Indexsuche
BerlinDeutschland
PoznańPolen
PragTschechische RepublikBamberg
Deutschland
Slavistik-Portal
SRU
SRU
SRU
SRU
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 8
Vollautomatischer Linksammler
liefert täglich 5-10 neue Web-2.0-Community-generierte Weblinks
Einsatz bei Weblink-Katalogisierung bzw. für Indizierungsprozess
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 9
Retrokonversionsprojekt “130 Jahre deutsche Slavistik”
Digitalisierung von vier mehrbändigen Bibliographien; enthalten Veröffentlichungen der deutschsprachigen Slavistik seit 1876
~ 60.000 bibliographische Einheiten, inkl. Schlagworten
Scanprozess bereits abgeschlossen
zur Zeit: OCR-Bearbeitung
geplant: softwaregesteuerte Konversion der Daten in Lucene-Indizes
einfacher Zugriff über Metasuche des Slavistik-Portals
Weltweiter Zugriff auf Daten durch SRU-Schnittstelle
Fertigstellung Anfang 2010
18. Mail 2009 |Slavistik-Portal | Osteuropa-Abteilung S. 10
Zusammenfassung
Neue Technologien
… erhöhen Trefferqualität durch größere Datenmenge
… bieten Recherche in unterschiedlichen Ressourcentypen
… verbinden ViFas mit Fachcommunity
Automatisierte Prozesse
… unterstützen Arbeit der Fachreferenten
… liefern fachrelevanten Content ohne Mehraufwand
… vereinfachen die Verstetigung von ViFas
Danke für Ihre Aufmerksamkeit!
Ivo Ulrich
Staatsbibliothek zu Berlin, Deutschland
Osteuropa-Abteilung
Tel.: +49-30-266 435782