View
79
Download
0
Embed Size (px)
Citation preview
WebarchivKurz webové archivace, AIS142
Webová archivace
Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.
Proč archivovat web?
Web scale archiving
• webové archivy se snaží archivovat tak velkou část internetu, že není možné kontrolovat akvizici, ochranu, zpřístupnění ani kontrolu kvality jednotlivých webových stránek pouze lidskými silami.
Limity webové archivace
• legislativa + budget
• deep web (?)
• web 2.0 (streaming, passwords, databases)
• dlouhodobá ochrana
Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje
Kdo jsou webové archivy
• Internet Archive
• Národní knihovny
• Univerzity, neziskové organizace
Memento
• agregátor webových archivů
• https://www.youtube.com/watch?v=WtZHKeFwjzk
Dark archives
• veřejně nepřístupné archivy
• většinou pouze v místě samé, někdy ani to ne
• autorský zákon, knihovní licence
WebarchivČeský webový archiv, více
Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
Profil archivu
• stáří archivu: 3. 9. 2001
• ~ 200 TB
• frekvence sklízení: 1x - 1x|2x|6x|12x/year
• hloubka sklízení: 5000 - 15 000 objects
• přístupnost: in house/online access
Rozložení domén
Tempo růstu
• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na archiv
• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
Designated community
• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci
Zpřístupnění
• Wayback Machine (zobrazování)
• Vyhledávání:
• primárně WWW
• katalog Aleph
• Wayback Machine
Role kurátora
• komunikace s vydavateli
• “plnění” konspektu
• správa webových zdrojů vč. hodnocení
• katalogizace
• quality assurance
Kurátorství ve světě
• Technicky vyřešeno
• Důraz na kolekce
• IIPC collaborative collections
• Sociální sítě
Jak to děláme my?
• Tematické sklizně
• Plníme konspekt
• Chystáme kolekce a zapojení dalších institucí