Narzędzia wyszukiwawcze repozytoriów cyfrowych Piotr Gawrysiak Warszawa, 200 9

Narzędzia wyszukiwawcze repozytoriów cyfrowych

Piotr Gawrysiak

Warszawa, 2009

Repozytoria informacji Współczesne repozytoria informacji to już przede wszystkim repozytoria cyfrowe

Nie oznacza to bynajmniej, iż „produkujemy” mniej informacji na tradycyjnych jej nośnikach – zostaje ona jednak „zagłuszona” przez łatwo dostępną informację w postaci cyfrowej

Wykładniczy wzrost globalnych zasobów informacji nazywany określany bywa1,2 mianem „kryzysu informacji” czy wręcz „eksplozji informacyjnej” – czy słusznie?

Liczba serw erów w sieci Internetźródło - Internet Systems Consortium Domain Survey Host Count, 2009

0,00

100,00

200,00

300,00

400,00

500,00

600,00

700,00

800,00

lip-9

3lip

-94

lip-9

5lip

-96

lip-9

7lip

-98

lip-9

9lip

-00

lip-0

1lip

-02

lip-0

3lip

-04

lip-0

5lip

-06

lip-0

7lip

-08

lip-0

9

Miliony

1. Weinberg A.., ” Science, Government, and Information”, Oak Ridge National Laboratory, USA, 19632. Lyman P., Varian R. , „How Much Information?”, University of Berkeley, USA 2003

Światowa roczna „produkcja” informacji2

Nośnik 2002 TBGórna granica

2002 TBDolna granica

1999 TBGórna granica

1999 TBDolna granica

Zmiana (górne granice oszacowania)

Papierowy 1,634 327 1,200 240 36%

Światłoczuły 420,254 76,69 431,690 58,209 -3%

Magnetyczny 5,187,130 3,416,230 2,779,760 2,073,760 87%

Optyczny 103 51 81 29 28%

Suma 5,609,121 3,416,281 3,212,731 2,132,238 74.5%

Narzędzia wyszukiwawcze

Mechanizm wyszukiwawczy zapewniać może w szczególności:

a) Odszukanie konkretnego obiektu (np. książki) – gdy znana jest jego dokładna charakterystyka (np. autor, tytuł, wydawca, rok wydania);

b) Odszukanie obiektów, zawierających żądaną przez użytkownika biblioteki informację – np. książek o pewnej tematyce, lub też akapitów traktujących o zadanym temacie;

c) Agregacja informacji zapisanej w przechowywanych obiektach w celu udzielenia odpowiedzi na pytanie użytkownika – np. podanie definicji terminu.

Systemy, jakie możemy stworzyć dla bibliotek klasycznych, mogą posiadać funkcjonalność określoną powyżej w punktach a) i - do pewnego stopnia - b). Wynika to bezpośrednio ze specyfiki repozytorium fizycznego, uniemożliwiającego bezpośredni dostęp do zawartości przechowywanych obiektów.

Co jest zaś możliwe w przypadku repozytoriów cyfrowych?

Jakiekolwiek repozytorium informacji (np. biblioteka) jest użyteczne jedynie gdy istnieje mechanizm organizacji i przeszukiwania jego zasobów

Repozytoria cyfrowe Czym jest repozytorium cyfrowe?

Nie wystarcza tu jedynie samo przechowywanie informacji w postaci cyfrowej – niezbędna jest możliwość automatycznego przetwarzania i transmisji tej informacji – co współcześnie oznacza dostęp poprzez sieć Internet.

Internet jest jednak nie tylko siecią transmisji danych pomiędzy bibliotekami cyfrowymi, a ich użytkownikami. Jego część (sieć WWW) to także repozytorium cyfrowe (oraz narzędzie kreacji treści typu digital born)

Łatwość tworzenia i publikacji treści o atrakcyjnej formie graficznej,

Sieciowość – możliwość łatwego i niekontrolowanego tworzenia odnośników do innych zasobów (inspirowana koncepcją Vannevara Busha memexu),

Praktyczny brak kontroli nad zawartością powstającej sieci - zarówno organizacyjnej jak i merytorycznej oraz prawnej (anonimowość!),

Łatwość kopiowania i przywłaszczania istniejącej już treści (tu mają także znaczenie kwestie prawne m.in. związane z tzw. otwartymi licencjami).

Powyższe cechy łączy ze sobą brak kontroli – sieć WWW to swego rodzaju cyfrowa anarchia! Nb. warto porównać WWW z innym projektem inspirowanym ideą Vannevara Busha memexu – tj. systemem Teda Nelsona XANADU tworzonym od 1960 roku1.

1. Tuomi I., „The Vision of Xanadu” w „Networks of Innovation”, Oxford University Press, 2002, s. 48-50

Pierwsze systemy wyszukiwawcze WWW

Wczesny Internet traktowany jest przez większość użytkowników jako duża (cyfrowa oczywiście) biblioteka1

Jak duża? Jest to trudne do określenia, jednak można szacować iż wielkość sieci WWW wynosi obecnie kilkanaście miliardów stron

Pierwsze narzędzia wyszukiwawcze stanowią zatem odpowiedniki narzędzi klasycznych bibliotek cyfrowych:

Systemy klasyfikacji – w postaci ręcznie tworzonych katalogów, takich jak projekt DMOZ, czy też wczesne portale internetowe (np. Yahoo, Wirtualna Polska),

Wykorzystanie metadanych (odpowiednie nagłówki stron WWW – tzw. tag META),

Systemy wyszukiwawcze i języki zapytań (np. W3QL, WebSQL) traktujące sieć jako klasyczną bazę danych o dużym rozmiarze.

… i okazują się nieefektywne.

1. Dokładniej zaś kolekcja powiązanych ze sobą bibliotek – patrz koncepcje „autostrady informacyjnej” np. Gates B., „The Road Ahead”, Penguin Books, 19962. Gulli A. et al.., „The Indexable Web is more than 11.5 billion pages” In WWW '05 conf. proc., ACM, New York, USA, s. 902-903

Pierwsze systemy wyszukiwawcze WWW Potrzebne jest zatem inne podejście, nie oparte o dane kontrolowane –

wyszukiwarka internetowa

Różnice w stosunku do narzędzi klasycznych bibliotek cyfrowych: analiza pełnotekstowa dokumentów (z racji braku metadanych), automatyczne zbieranie dokumentów (z racji braku kontrolowanego repozytorium)

Elementy systemu1:

Robot sieciowy (tzw. pająk, ang. web crawler) – wykorzystanie hiperpołączeń

Indekser – budujący zbiór odwrócony

Mechanizm wykonywania zapytań

Wielkość sieci powoduje, iż budowa takiego systemu stanowi wyzwanie technologiczne

Początkowo najpopularniejsze systemy, posiadające największy indeks (AltaVista – Digital Equipment Corporation) - 1996

Systemy te działają, jednak jakość wyszukiwania (w szczególności precyzja) okazuje się bardzo niezadowalająca

Ważne dla użytkowników informacje okazują się bowiem trudne do odnalezienia w „śmietniku Internetu”2

1. Brin, S. and Page, L. „Anatomy of a large scale hypertextual search engine”, w WWW7 Conf. Proceedings, Brisbane, Australia, 19982. Por. np. Oramus M., „Mózg w malinach”, Polityka, nr 2243, kwiecień 2000

Kosztowne obliczeniowo

Systemy skuteczne

Rozwiązaniem problemu niewielkiej precyzji okazały się metody oszacowania jakości stron – wykorzystujące specyficzne cechy sieci WWW (takie jak znaczna redundancja informacji, obecność hiperpołączeń, dane behawioralne)

Podejście (miara PageRank) podobne do metod bibliometrycznych – istotność źródła jest bezpośrednio związana z liczbą cytowań (tu – wskazujących na stronę hiperpołączeń) i jakością cytujących źródeł

PageRank nie jest oczywiście miarą idealną – ale jest metodą skuteczną

Dysponujemy także innymi metodami analizy treści zawartej w sieci WWW – nie tak spektakularnymi, lecz także skutecznymi:

Rozwiązania maszynowe (automatyczna klasyfikacja i grupowanie dokumentów, maszynowe budowanie ontologii, wizualizacja, …)

Rozwiązania „społecznościowe” (collaborative filtering, tagging, reblogging, …)

Wszystkie wymagają otwartości zasobów cyfrowych które analizują

Narzędzia społeczeństwa informacyjnego?Internet przestaje być „śmietnikiem” a staje się „repozytorium wiedzy” dzięki możliwości skutecznego odnajdywania tejże wiedzy…

…ale…

jest to repozytorium, którego właściwie nie można przeglądać, można je jedynie przeszukiwać – to zaś wymaga aktywnego sformułowania zapytania.

Treść cyfrowa konkuruje o swego potencjalnego odbiorcę poprzez jakość, a raczej „odnajdywalność” – ta zaś staje się dostępna także dla elementów trudnych do odszukania (czy wręcz umieszczenia!) w klasycznych bibliotekach.

Zmiana sposobu korzystania z repozytoriów wiedzy – zamiast najpierw wybierać dostawcę wiedzy (np. agencję prasową, bibliotekę itd.) korzystać poczynamy z usług pośrednika, którym stają się narzędzia wyszukiwawcze.

Coraz łatwiej łączyć „okruchy wiedzy” pochodzące z różnych źródeł.

Biblioteki cyfrowe (versus Wikipedia)Powstaje coraz więcej bibliotek cyfrowych, zaś nakłady na cyfryzację zasobów bibliotecznych rosną – lecz ich popularność pozostaje niewielka.

Biblioteki cyfrowe nie potrafią „sprzedać” swoich zasobów użytkownikom, są bowiem niewygodne i nieefektywne – i poprawienie tej sytuacji nie będzie zadaniem prostym:

Repozytoria bibliotek nie posiadają informacji o połączeniach semantycznych pomiędzy zasobami, która umożliwiłaby zastosowanie efektywnych algorytmów wyszukiwawczych, takich jak PageRank,

Restrykcyjne często ograniczenia IPR uniemożliwiają bezpośredni dostęp do zasobów dla wszystkich użytkowników (zjawisko cyfrowego wykluczenia dokumentów),

Format przechowywania cyfrowych danych uniemożliwia tworzenie bezpośrednich odnośników do treści zasobów (ang. deep linking),

„Siłą” bibliotek mogłyby być wysokiej klasy metadane będące wynikiem pracy katalogerów – jednak ich użyteczność, szczególnie dla użytkowników przyzwyczajonych do jakości i specyfiki działania wyszukiwarek sieciowych, jest znikoma1.

1. Gawrysiak P., „Cyfrowe biblioteki a wyszukiwanie informacji”, w Przegląd biblioteczny, 4/2008, s.111-118

Biblioteki cyfrowe (versus Wikipedia)Serwisy takie jak Wikipedia czy też nawet Google Books są obecnie po prostu znacznie bardziej bardziej wygodne – i przez to bardziej popularne,

Problem nie zniknie sam – zaś tworzenie metabibliotek cyfrowych (harvesting, OAI) powoduje, iż biblioteki cyfrowe zaczynają upodabniać się, pod względem objętości ale i jakości zasobów informacyjnych – do wczesnej sieci WWW,

Czy rozwiązaniem byłoby pełne otwarcie zawartości bibliotek cyfrowych – i umożliwienie przeszukiwania przechowywanych tamże zasobów przez uniwersalne systemy wyszukiwawcze takie jak Google Search?

Co zatem z profesją „bibliotekarza – katalogera”?

Być może przeciwnie – należy tworzyć skomplikowane mechanizmy katalogowania, wyposażone w narzędzia sztucznej inteligencji, które przekształcą biblioteki cyfrowe z repozytoriów informacji w źródła (kontrolowanej) wiedzy („curated knowledge”) – przykład: WolframAlpha

1. Gawrysiak P., „Cyfrowe biblioteki a wyszukiwanie informacji”, w Przegląd biblioteczny, 4/2008, s.111-118

WyzwaniaProblemy techniczne - dostęp do energii elektrycznej oraz możliwości chłodzenia urządzeń

elektronicznych mogą ograniczyć w przyszłości wzrost zarówno repozytoriów cyfrowych jak i ich narzędzi wyszukiwawczych,

Grey web – nie wszystkie rodzaje treści cyfrowych są łatwe, czy wręcz możliwe, do indeksowania,

Transparentność systemów wyszukiwawczych – czy możemy wierzyć firmom takim jak Google?

Nowe rodzaje treści – Internet coraz częściej poczyna być wykorzystywany nie tylko jako źródło wiedzy, lecz także medium komunikacji błyskawicznej. Przeszukiwanie takich wiadomości (np. z serwisów twitter) wymaga specyficznych algorytmów i metod – innych niż te używane przez współczesne wyszukiwarki sieciowe,

Nowe metody dostępu – coraz częściej także wykorzystujemy zasoby sieci WWW przy użyciu urządzeń mobilnych – to zaś wymaga jeszcze (sic!) szybszych i prostszych narzędzi wyszukiwawczych

Nowe problemy wyszukiwawcze – współczesny Internet to nie tylko baza wiedzy, to także globalny rynek, na którym poszukujemy także towarów i usług

Zakończenie

Documents

Narzędzia wyszukiwawcze repozytoriów cyfrowych Piotr Gawrysiak Warszawa, 200 9