22
http://www.webarchiv.cz AKM'06 Praha NA Nové nástroje pro archivaci Nové nástroje pro archivaci webu webu Ing. Petr Žabička, MZK Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK Mgr. Jan HUTAŘ, NK

Nové nástroje pro archivaci webu

Embed Size (px)

DESCRIPTION

Nové nástroje pro archivaci webu. Ing. Petr Žabička, MZK Mgr. Jan HUTAŘ, NK. WebArchiv – kdo a proč?. potřeba zachránit netištěné informace kulturní a historické hodnoty pro další generace až 90% webových dokumentů existuje pouze v elektronické podobě - PowerPoint PPT Presentation

Citation preview

Page 1: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Nové nástroje pro archivaci webuNové nástroje pro archivaci webu

Ing. Petr Žabička, MZKIng. Petr Žabička, MZK

Mgr. Jan HUTAŘ, NKMgr. Jan HUTAŘ, NK

Page 2: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

WebArchiv – kdo a proč?WebArchiv – kdo a proč? potřeba zachránit netištěné informace kulturní a historické

hodnoty pro další generace

až 90% webových dokumentů existuje pouze v elektronické podobě

NK ČR je depozitní knihovnou, odpovídá za trvalé uchovávání fondu bohemikálních dokumentů jako součásti národního historického a kulturního dědictví

WA vznikl v rámci programového projektu MK ČR VaV - "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet"

řešen od roku 2000 v NK ČR ve spolupráci s MZK Brno a ÚVT Masarykovy univerzity v Brně

Page 3: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Cíle WebArchivuCíle WebArchivu

zajistit pokud možno trvalý přístup k „domácím” elektronickým zdrojům publikovaným v síti Internet

připravit podmínky pro získávání, zpracování, archivaci a ochranu online přístupných elektronických zdrojů

zajistit zpřístupnění zdrojů z digitálního archivu za podmínek respektujících autorské právo

stanovit kritéria výběru zdrojů pro národní bibliografii

Page 4: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Kritéria výběru webových zdrojů

množství online dokumentů je obrovské, kvalita různá nutno aplikovat kritéria výběru uchovat dokumenty, které mají dokumentární hodnotu

Pro akvizici (harvesting) zdrojů se aplikují dva přístupy:

1. výběrová archivace - sklízejí a archivují se pouze dokumenty vybrané podle určitých kritérií

2. plošná archivace – např. celé národní domény. Nutná pouze kritéria technické povahy a nastavení harvesteru.

3. tematické sklizně – např. volby, povodně apod.

trend – oba přístupy najednou (např. Austrálie, Dánsko)

Page 5: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Co máme za sebou Co máme za sebou průběžné testování:

SW nástrojů s využitím HW pořízeného v rámci finančních možností

tj. aplikací pro stahování, archivaci, indexaci a zpřístupnění webových stránek

SW výhradně open source snaha o změnu zákonů mezinárodní spolupráce (aktivní účast na výzkumu a

vývoji v rámci IIPC – členství od roku 2007) zpřístupňování veřejné části archivu online pomocí

fulltextového prohledávání od podzimu 2005 zpřístupnění indexu celého archivu prostřednictvím

aplikace Wayback

Page 6: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Registrované domény v .cz

0

50000

100000

150000

200000

250000

300000

IX.9

9

XII.99

III.0

0VI.0

0IX

.00

XII.00

III.0

1VI.0

1IX

.01

XII.01

III.0

2VI.0

2IX

.02

XII.02

III.0

3VI.0

3IX

.03

XII.03

III.0

4VI.0

4IX

.04

XII.04

III.0

5VI.0

5IX

.05

XII.05

III.0

6VI.0

6IX

.06

Page 7: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Provedené sklizně domény .czProvedené sklizně domény .cz 2001 1. pokus o plošnou sklizeň domény .cz, 1 stroj +

páskový robot, nedokončena z tech. důvodů 2002 sklizeň po několika měsících přerušena pro

omezený výkon serveru a záplavy ( tematická sklizeň Povodně)

2004 zastavena po zaplnění dostupného úložného prostoru.

>> všechny sklizně prováděny s >> všechny sklizně prováděny s NEDLIBNEDLIB harvesterem, harvesterem, hloubka zanoření 25-50 odkazůhloubka zanoření 25-50 odkazů << <<

2005 1. pokus o sklizení domény .cz pomocí Heritrixu, neúspěch kvůli nedostatkům použité verze programu

září 2006 2. sklizeň domény .cz pomocí Heritrixu. Zastavena předčasně pro zaplnění dostupné diskové kapacity. Limity: max. 5000 dokumentů na server, max. velikost souboru 100 MB

Page 8: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Sklizně domény .cz v číslechSklizně domény .cz v číslech

Rok Počet stažených souborů

Nekomprimovaná velikost [GB]

Doba stahování [dny]

Počet domén druhé úrovně

% z reg. domén

2001 3,015,057 104 21 41,322 38%

2002 10,249,302 307 93 79,022 69%

2004 32,141,575 1,034 204 101,378 75%

2005 9,336,123 247 12 4,795 2%

2006 72,378,019 3,416 40 196,880 74%

Page 9: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Současný stav projektuSoučasný stav projektu 4-6x ročně4-6x ročně je sklízen soubor zdrojů (asi 300 serverů), na

které má NK smlouvu o zpřístupnění. (nově se sklízejí se i vybrané zdroje bez smluv, ale ty nejsou zpřístupňovány).

právě skončená sklizeň těchto zdrojů se stane základem průběžného sklízení s využitím deduplikátoru.

příležitostné tematické sklizně (letos sklizeň volby) čeká se na zprovoznění datového úložiště NK, které

umožní dokončit letošní celoplošnou sklizeň. Zbývá cca 20.000 domén.

v současné době je ve WebArchivuWebArchivu uloženo cca 5,5 TB dat (před kompresí) ≈ 135 milionů archivovaných souborů.

Page 10: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

document count per day

0

500000

1000000

1500000

2000000

2500000

3000000

1.9.

2001

1.11

.200

1

1.1.

2002

1.3.

2002

1.5.

2002

1.7.

2002

1.9.

2002

1.11

.200

2

1.1.

2003

1.3.

2003

1.5.

2003

1.7.

2003

1.9.

2003

1.11

.200

3

1.1.

2004

1.3.

2004

1.5.

2004

1.7.

2004

1.9.

2004

1.11

.200

4

1.1.

2005

1.3.

2005

1.5.

2005

1.7.

2005

1.9.

2005

1.11

.200

5

1.1.

2006

1.3.

2006

1.5.

2006

1.7.

2006

1.9.

2006

1.11

.200

6

cz2006

cz2004

cz2002cz2001

cz2005

agreements

agreements

Počet dokumentů sklizených za denPočet dokumentů sklizených za den

Page 11: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Počet souborů a objem dat

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

4 B

8 B

16 B

32 B

64 B

128

B25

6 B

512

B1

kB2

kB4

kB8

kB16

kB32

kB64

kB

128

kB

256

kB

512

kB1

MB

2 M

B4

MB

8 M

B

16 M

B

32 M

B

64 M

B

128

MB

256

MB

2001 count

2001 size

2002 count

2002 size

2004 count

2004 size

2006 count

2006 size

all count

all size

Page 12: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Změny softwarového vybaveníZměny softwarového vybavení 2004-2005 postupný přechod na SW vyvíjený konsorciem

IIPC (International Internet Preservation Consortium – www.netpreserve.org)

vývoj softwarového vybavení v rámci IIPC stále probíhá archivní souborový formát tar.gz nahrazen ARCARC

formátem (podporovaným nástroji IIPC) bylo nutno převést již uložená data do nového formátu.

připravuje se nová verze formátu ARC, formát WARC, vylepšující stávající formát o nové vlastnosti.

podpora komprese dat a správy jejich integrity schopnost ukládat jedinečné identifikátory záznamů schopnost uložit metadata o datových transforamcích a o

duplikovaném obsahu podpora pro zpracování velmi rozsáhlých záznamů

Page 13: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Budoucnost projektu Budoucnost projektu pokračovánípokračování

maximálně zautomatizovat proces od výběru zdroje, oslovení vydavatele k podpisu smlouvy s vydavatelem až po zpřístupnění

legální lokální zpřístupnění celého archivu (vyhledávání podle URL a času sklizně dokumentu) – počátkem roku 2007

vylepšení indexace (inkrementální indexování, distribuovaný index?)

pokus o automatizované sklízení bohemikálních zdrojů mimo doménu .cz

podpora standardů digitálních knihoven (OAI protokol, METS, jednoznačná identifikace dokumentů)

2008 integrace do připravované „Digitální knihovny ČR”

Page 14: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Webarchiv – jak to funguje

A1 nová sklizeň A2 konec sklízení -> indexovat A3 aktualizovat fulltext A4 aktualizovat seznam souborů

Page 15: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Akvizice - Heritrix Akvizice - Heritrix modulární, rozšiřitelný, probíhá neustálý vývoj (nyní

verze 1.10.1) zkvalitňování systému zvýšení bezpečnosti

platformě nezávislý (java aplikace) kvalitní a rychlá podpora vývojářů z Internet Archive open source kódy a modularita umožňují spolupráci

třetích stran na jeho vývoji v nejnovější verzi vylepšena ochrana před pádem do pastí nelze dlouhodobě sklízet web bez odborných zásahů v

průběhu sklizně

Page 16: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Akvizice - Akvizice - DeDuplicatorDeDuplicator

Modul pro Heritrix Snaží se detekovat duplikáty ještě před jejich stažením Využívá toho, že některé typy dokumentů (např. HTML) se

mění častěji (jsou dynamicky generovány) než jiné (např. obrázky, video).

formát ARC neumožňuje plně využít možností DeDuplicatoru (např. možnost odkazovat na dokument stažený z jiného URL) => WARC

Page 17: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Akvizice – WEB CURATOR TOOLAkvizice – WEB CURATOR TOOL nástroj pro správu sklízení první verze uvolněna v září 2006 vyvinut v rámci IIPC díky spolupráci Britské knihovny a

Národní knihovny Nového Zélandu. umožňuje správu sklízení méně kvalifikovaným uživatelům

prostřednictvím graficky přívětivého a propracovaného webového rozhraní

výborná podpora uživatelských oprávnění nepodporuje inkrementální sklízení multiplatformní, ale stávající verze optimalizována pro

platformu Windows (problém s malými a velkými písmeny při komunikaci s databází).

nekonzistentní konfigurace

Page 18: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Indexace – Nutch, NutchWAX Indexace – Nutch, NutchWAX Nutch volně dostupný modulární vyhledávací enginevyhledávací engine umí stáhnout a zpracovat miliony stránek měsíčně;

spravovat jejich index, vyhledávat v něm 1000x za vteřinu

NutchWAX nástavba vyhledávacího rozhraní Nutch vytvořená pro

potřeby indexování dokumentů archivovaných Heritrixem (ARC formát), přidává do indexu potřebná metadata, především časové razítko

Od letošní verze 0.6 pracuje nad MapReduce Nutch (podpora zpracování velkých objemů dat, distribuovaný filesystem Hadoop)

tato verze je zatím nestabilní

Page 19: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

WERA - WERA - WEb aRchive AccessWEb aRchive Access

spolupráce konsorcia IIPC, Internet Archive a NWA využívá hlavní části NWA Toolset velmi snadná navigace a propracované uživatelské

rozhraní (časová osa zobrazuje časové verze dokumentu) výsledky vyhledávání v podobě URL zobrazeny velmi

přehledně a u každého odkazu jsou linky na získání dalších časových verzí téhož URL

zobrazovat archivované stránky lze i pomocí zadání přesné URL adresy

archivované dokumenty a WERA propojeny skrz index NutchWAXe

Problémy s javascriptem v některých stránkách Vývoj ukončen, přechod na Wayback

Page 20: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

WAYBACKWAYBACK Aplikace, která v budoucnu nahradí stávající Wayback

Machine Internet Archivu

Dokumenty jsou indexovány a zpřístupňovány pomocí URL a času, podporuje hvězdičkovou konvenci

Režimy zpřístupnění: Archival URL = úprava odkazů na stránce (link zpět do

archivu) Proxy = chová se jako proxy server, ale je pak složité

měnit časové verze (WAX Toolbar – plugin pro Firefox) Timeline = časová osa, zatím experimentální

Připravuje se podpora fulltextového vyhledávání a lokalizace

Page 21: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Zkusíte to také??Zkusíte to také??

dejte nám tipy na zdroje převezměte naše zkušenosti

začněte sklízet sami minimální požadavky: slušné PC,

přiměřené množství úložného prostoru, dobrý správce systému/programátor

realizovaná spolupráce: Univerzitná knižnica Bratislavav budoucnu maďarská NK?

po dohodě sklizeň na požádání

Page 22: Nové nástroje pro archivaci webu

http://www.webarchiv.cz AKM'06 Praha NA

Děkujeme za pozornost

a těšíme se na budoucí spolupráci!

[email protected]