Das Webarchiv Österreich - Bibliotheksverband · 2019. 6. 26. · Top-Level Domain .at (1,3 Mio)...

Preview:

Citation preview

Das Webarchiv Österreich

Andreas Predikaka

Österreichische Nationalbibliothek

webarchiv@onb.ac.at https://webarchiv.onb.ac.at

Kulturerbe Web, 29.03.2019 1

2

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Rechtliche Basis

• 1998 ezines.onb.ac.at 1

• 1999 Pilotprojekt AOLA 2

• 2005 Anregung einer Novelle zum Mediengesetz

• 2007 Machbarkeitsstudie

• 2008 Begutachtungsverfahren abgeschlossen und Projektstart Webarchiv Österreich

• Herbst 2008 Neuwahlen

• 2009 Mediengesetznovelle

3

(1) https://webarchiv.onb.ac.at/web/20120203110731/http://ezines.onb.ac.at:8080/quint/

(2) https://www.ifs.tuwien.ac.at/~aola/

Das Webarchiv Österreich, 16.05.2019

Mediengesetz (Sammlung)

• Novelle 1. März 2009 1

• Ablieferungspflicht für Online-Medien

• Berechtigt 4x jährlich die generelle Sammlung von Medieninhalten unter .at oder Domains mit inhaltlichen Bezug zu Österreich

• Berechtigt auch einzelne Medieninhalte zu sammeln, wenn der Medieninhaber davor schriftlich in Kenntnis gesetzt wird

• Passwort geschützte Seiten, wenn archivierungswürdig

4

(1) https://www.ris.bka.gv.at/Dokument.wxe?Abfrage=BgblAuth&Dokumentnummer=BGBLA_2009_I_8

Das Webarchiv Österreich, 16.05.2019

5

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Domain Crawl

Domain-Listen von Registrierungsstellen

Top-Level Domain .at (1,3 Mio)

TLD .wien (15.000)

TLD .tirol (4.000)

Andere Domains mit Österreich-Bezug (11.000, manuelle Auswahl)

Durchführung anfangs alle zwei Jahre (2009/11/13/15), seit 2017 jährlich

6 Das Webarchiv Österreich, 16.05.2019

Selektive Crawls

Medieninhaber wird per Email informiert

Medienkollektion (täglich)

Politikkollektion (täglich)

Frau / Gender (mehrmals jährlich)

Demnächst Crawl on demand

7 Das Webarchiv Österreich, 16.05.2019

Event Crawls

EU-Wahl 2009, 2014, 2019

Bundespräsidenten-Wahl 2010, 2016

Olympia 2010, 2014

Gedenkjahr Erster Weltkrieg 2014

Song Contest 2015

Flüchtlingskrise 2015

EU-Ratsvorsitz 2018

100 Jahre Republik 2018

8 Das Webarchiv Österreich, 16.05.2019

9

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Software

• NetarchiveSuite 5.5

• Heritrix 3.3

• Umbra (dockerized)

• Openwayback 2.3.2

• Elasticsearch 6.5

• Kibana 6.5

10

Betriebssystem

• CentOS

Das Webarchiv Österreich, 16.05.2019

NetarchiveSuite

• Entwicklung http://netarchive.dk 2004

• Open Source seit 7/2007 (LGPL)

• Kooperation:

• KB Dänemark (Kopenhagen/Aarhus)

• Bibliothèque nationale de France

• Spanische Nationalbibliothek

• KB Schweden

• Österreichische Nationalbibliothek

Das Webarchiv Österreich, 16.05.2019 11

NetarchiveSuite

• Java 8 (auch OpenJDK)

• Postgresql

• Heritrix 3.3 (eigener Fork) voll integriert

• ARC und WARC Support

• Umbra Support

• Horizontal skalierbar

• Keine Benutzerverwaltung

• Domain steht im Zentrum

• Domains nicht löschbar

12 Das Webarchiv Österreich, 16.05.2019

NetarchiveSuite

13 Das Webarchiv Österreich, 16.05.2019

14

NetarchiveSuite

15

NetarchiveSuite

16

NetarchiveSuite

17

NetarchiveSuite

Infrastruktur

• 8 Server für NetarchiveSuite (8 GB, 500 GB)

• 7 Server für Volltext (4-24 GB RAM)

• 4 Server für Tests, Umbra, Reporting und Administration (4-8 GB RAM)

• 3 Server für Zugriff (4 GB RAM) Zur Zeit Infrastrukturänderung: Server mit 16 GB für NetarchiveSuite. Die alten Server werden den Volltextcluster erweitern

• Speicher bis 2017 im Bundesrechenzentrum

• Seit 2017 im ZID (gespiegelt, Kopie ZAS)

• Speicherbudget: 6 TB pro Jahr

18 Das Webarchiv Österreich, 16.05.2019

19

1. RECHTLICHE BASIS 2. SAMMELN 3. TECHNIK 4. ZUGRIFF

Das Webarchiv Österreich, 16.05.2019

Mediengesetz (Benützung)

• Benützung nur am Standort von berechtigten Bibliotheken

• Nur Ausdruck, kein elektronisches Verarbeiten

• Passwortgeschützte Seiten nur Einzeluser

• Sperren bis 1 Jahr möglich

• Regionale Aufteilung bei Selektiven und Event Harvestings (nach Sitz des Medieninhabers)

20

Das Webarchiv Österreich, 16.05.2019

Zugänge

Online Suche https://webarchiv.onb.ac.at

API https://webarchiv.onb.ac.at/api.html

Metadaten (auch kein Vorschautext)

Suche an Uni- und Landesbibliotheken

Daten aus den Domaincrawls

Suche an ÖNB und Administrativer Bibliothek des Bundeskanzleramtes

Alle Daten

21

Das Webarchiv Österreich, 16.05.2019

Berechtigte Bibliotheken

Administrative Bibliothek des Bundeskanzleramtes

Burgenländische Landesbibliothek

Kärntner Landesbibliothek

Niederösterreichische Landesbibliothek

Oberösterreichische Landesbibliothek

Österreichisches Staatsarchiv

Parlamentsbibliothek

Salzburger Landesarchiv (Bibliothek)

Steiermärkische Landesbibliothek

Tiroler Landesarchiv (Bibliothek)

Universitäts- und Landesbibliothek Tirol

Universitätsbibliothek der Universität Klagenfurt

Universitätsbibliothek Graz

Universitätsbibliothek Linz

Universitätsbibliothek Salzburg

Universitätsbibliothek Wien

Vorarlberger Landesbibliothek

Wienbibliothek im Rathaus

22 Das Webarchiv Österreich, 16.05.2019

Zugriff von berechtigten Bibliotheken

VPN (demnächst Zwei-Faktor Authentifizierung)

RDP-Session auf einen Terminalserver ohne Internet

Wayback mit eigenem Domain-Crawl Index

Zwischenablage-Funktion deaktiviert

Keine vertragliche Regeln mit Bibliothek

Bibliothek bestätigt nur, dass Weitergabe der Zugangsdaten ausgeschlossen ist

Elektronische Verarbeitung über Screenshots kann nicht ausgeschlossen werden

23 Das Webarchiv Österreich, 16.05.2019

webarchiv.onb.ac.at

24 NetarchiveSuite Meeting, Aarhus, 29./30.10.12

25 Kulturerbe Web, 29.03.2019

26 Das Webarchiv Österreich, 16.05.2019

27 Das Webarchiv Österreich, 16.05.2019

28 Kulturerbe Web, 29.03.2019

Monat Unique Visitors

7/2016 29

7/2017 529

7/2018 556

8/2018 547

9/2018 653

10/2018 776

11/2018 895

12/2018 760

1/2019 911

2/2019 757

3/2019 814

4/2019 734

Kennzahlen

127 TB Speicher (komprimiert & dedupliziert 57,5 TB)

> 2 Mio. Domains

> 3,46 Mrd. Dateien

16 % ohne PUID (541 Mio. Dateien)

> 600.000 Arc Dateien

> 110 Mio. Objekte im Volltext (zur Zeit reduziert auf knapp 8 Mio.)

30 Das Webarchiv Österreich, 16.05.2019

Fragen?

Danke!

Kulturerbe Web, 29.03.2019 31

Andreas Predikaka

Österreichische Nationalbibliothek

webarchiv@onb.ac.at https://webarchiv.onb.ac.at

Recommended