32
0/58 Pronalaženje informacija na Internetu

Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

  • Upload
    others

  • View
    12

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

0/58

Pronalaženje informacijana Internetu

Page 2: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

1/58

Sadržaj

• Internetski prostor informacija• Mrežni izvori informacija (resursi)• Identifikacija mrežnih resursa• Meta podaci (metadata)• Pretraživanje mrežnih resursa (posebno Weba)• Servisi imena

Page 3: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

2/58

Prostor informacija

Web

InternetPisane

informacije

ostalo

Page 4: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

3/58

Internetski prostor informacija• NIJE UREĐEN - unificiran• Postoje različiti izvori informacija (resursi)• Mnoštvo tema• Informacije su dostupne u različitim

formatima• Pristup je moguć pomoću različitih alata

(programa)• Postoje informacije koje (još) nisu:

– publikovane u elktronskom obliku– dostupne putem mreže

Page 5: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

4/58

Internetski prostor informacija

Mnoštvo dostupnih tema i formata:

• dokumenta različitog formata• multimedijalni zapisi• elektronska izdanja novina, časopisa, knjiga, ...• katalozi, ...• baze podataka• javno dostupna programska podrška• ...• zabava ...

Page 6: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

5/58

Mrežni izvori informacija (resursi)

• Informacije se publikuju pomoću različitih Internet servisa:– Web– FTP arhive– mailing liste– mrežne novine (USENET)– elektronska pošta– baze podataka dostupne putem mreže– ...

Page 7: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

6/58

Web prostor informacija

• 85% korisnika koristi pretraživačke mahanizme ili tematske kataloge kako bi pronašli informacije

.

• korisnici smatraju da je Internet važan izvor informacija– 2/3 korisnika smatra da je Internet važan ili vrlo

važan izvor informacija

Page 8: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

7/58

Problemi?• velika očekivanja korisnika• alati i mehanizmi

– još uvijek nedovoljno dobri– u stalnom razvoju

• prostor informacija nije (dobro) organizovan • nepouzdana:

– kvaliteta informacija– integritet informacija– povjerenje u izvor informacija

Page 9: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

8/58

Znate li ...

• ko je bila prva žena pilot u nekoj komercijalnoj avio-kompaniji? Možete li pronaći njenu sliku (traži se tačna URL adresa)?

•Odgovor: Helen Richey; da (http://iswap.org/images/richey.jpg)•Put: Koristimo Google s upitom "first woman airline pilot". Jedan od prvih 10 odgovora je i link na ISAfaqs.html Web stranicu.•URL: http://iswap.org/ISAfaqs.html

Page 10: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

9/58

Identifikacija mrežnih resursa

• URI - Uniform Resource Identifier (RFC 2396)– URL - Uniform Resource Locator (RFC 1630, RFC 1738)

• određuje: način pristupa, adresu računala, naziv datoteke ...• protocol://host_name[:port_num][/path][/file_name]• PURL - Persistent URL

– URN - Uniform Resource Name (RFC 1737, RFC 2141)

• URC - Uniform Resource Characteristics– podaci o mrežnom resursu– metadata = podaci o podacima

Page 11: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

10/58

Sistemi za pretraživanje

• mnoštvo različitih sistema (alata)• većinom su specijalizirani za pretraživanje određenih

resursa• (gotovo) svi alati imaju Web izgled• pretraživanje može biti globalno ili lokalno• nema savršenog niti sveobuhvatnog alata• opterećeni su problemom ažurnosti i/ili kvalitete• postoje alati koji se temelje na Webu, ali ne pretražuju

Web resurse

Page 12: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

11/58

Sistemi za pretraživanje Web-a

• Pretraživači (search engines)– pretraživači(search engines)– metapretraživači (metasearch engines, unified search

interfaces)• Tematski katalozi (subject catalogs, subject

directories, ...)– po pravilu pretraživi (searchable indexes, searchable

catalogs)• Portali

Page 13: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

12/58

Pretraživači

• automatski sistemi• prikupljaju informacije o mrežnim resursima i

omogućuju pretraživanje prikupljenih informacija• posebni programi - roboti (robot, crawler, spider)

– skeniraju dostupne mrežne resurse (Web stranice)– grade/održavaju pretraživu kolekciju podataka (bazu

podataka)• sistem za pretraživanje (baze podataka)

– Web interfejs omogućuje korisniku postavljanje upita– posebna pravila za postavljanje upita– ispis rezultata pretraživanja (hits)

Page 14: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

13/58

Web

dokumenti

http:// ...

baza podataka

Pretraživač

robot

Pretraživači

Page 15: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

14/58

Roboti

• mogu jako opteretiti i mrežu i računar (klijent)– vodite brigu o robotima, ali i o tuđim resursima

• postoje pravila ponašanja (etika) za robote:– robot exclusion protocol– ROBOT META tag

• korisne URL adrese:– http://info.webcrawler.com/mak/projects/robots/robots.html– http://www.searchenginewatch.com/webmasters/spiderchart.html

Page 16: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

15/58

Robot Exclusion Protocol

• može ga koristiti samo osoba s pravom pisanja u odgovarajućem direktoriju (webmaster)

• robot.txt datoteka– posebna sintaksa– u početnom direktoriju Web poslužitelja– URL: http://hostname/robots.txt

• primjer:User-agent: *Disallow: /archives/Disallow: /radni/

Page 17: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

16/58

Pretraživači

Google - http://www.google.com/GO.com (InfoSeek) - http://www.go.com/Lycos Search - http://www.lycos.com/Alta Vista - http://www.altavista.com/excite! NetSearch - http://www.excite.com/HotBot - http://hotbot.lycos.com/WebCrawler - http://www.webcrawler.com/Nothern Light Search - http://www.northernlight.com/FAST - http://www.alltheweb.com/Raging Search - http://ragingsearch.altavista.com/

Lokalni pretraživačhttp://krstarica.com/

Page 18: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

17/58

PretraživačiPostavljanje upita

• Sintaksa upita i spektar mogućnosti zavisi od pretraživača– postoji standardni spektar mogućnosti

(uporaba malih i velikih slova, fraze, kontrola ključnih riječi, …)

• Moguć je izbor resursa koje pretražujemo– Web ili neki drugi resursi; čitavi dokumenti ili samo

naslovi, ...• Korisno je pri prvom susretu s nekim alatom

pročitati raspoložive upute ili HELP

Page 19: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

18/58

• uporaba malih i velikih slovaJohn Decemberisland

• uporaba fraza“John December”“NASA Space shuttle program”

• uporaba logičkih operatora (AND, OR, NOT)vegetables AND greenfruit NOT apple

• kontrola ključnih riječi (+, -)+film +noir -”pinot noir”+python -monty

PretraživačiPostavljanje upita

Page 20: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

19/58

• susjednost - proximity searchInternet NEAR training

• uporaba dijelova (korijena) riječi (truncation; stemming) – wildchars: *, ?, %alumi*umcomput*

• kontrola resursatitle:”Internet training” (AltaVista, HotBot, …)host:www.fer.hr (AltaVista)cache: www.carnet.hr (Google)

PretraživačiPostavljanje upita

Page 21: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

20/58

• Baza podataka (veličina, ažurnost, složenost) / 2001.• Google - 1000 miliona Web stranica• INKTOMI - 500 miliona Web stranica• AltaVista - 550 miliona Web stranica• FAST - 625 miliona Web stranica

• Mogućnosti postavljanja (složenih) upita• Brzina rada (odziv)• Rangiranje rezultata (ranking)• Kvaliteta i mogućnost kontrole ispisa• Dodatne mogućnosti

(kaskadno pretraživanje/profinjavanje upita, ...)

Pretraživačisvojstva

Page 22: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

21/58

Tematski katalozi

• tematski organizovane kolekcije podataka o odabranim mrežnim resursima (odabrani resursi klasifikovani po temama)

• sadrže URL adrese mrežnih resursa • mogu sadržati i nazive resursa, sažetke, ...• ne održavaju se automatski (programski) već

se baziraju na radu urednika

Page 23: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

22/58

Tematski kataloziPrimjeri

Yahoo - http://www.yahoo.com/LookSmart - http://www.looksmart.com/EINet Galaxy - http://galaxy.einet.net/Magellan - http://magellan.excite.com/NetGuide - http://www.netguide.com/About.com - http://www.about.com/Open Directory - http://dmoz.org/

Page 24: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

23/58

Tematski kataloziosobine

• veličina (broj klasificiranih resursa) • Yahoo - >100 urednika, 1,8 miliona Webova• Open Directory - 36000 urednika, 2,6 miliona Webova• LookSmart - 200 urednika, 2,5 miliona Webova

• tematsko stablo - način klasifikacije• dodatne informacije o resursima• rangiranje resursa• mogućnost pretraživanja• veze s pretraživačima• dodatne mogućnosti

Page 25: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

24/58

• Imenički servisi utemeljeni na Webu– White pages & Yellow pages

• Web alati za pretraživanje ne-Web resursa– USENET (http://www.deja.com/usenet/)– FTP search (http://ftpsearch.lycos.com/)– mailing liste (http://www.liszt.com)– . . .

Ostali sistemi

Page 26: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

25/58

• pretraživanje kolekcija (baza) podatakaInivisible Web - http://www.invisibleweb.com/Lycos Seach. DB - http://dir.lycos.com/Reference/Searchable_Databases/INFOMINE - http://infomine.ucr.edu/Terraserver - http://terraserver.com/

• i ... – rečnici, enciklopedije, vodiči, pretražive kolekcije

multimedijalnih sadržaja, ….

PORTALI

Ostali sistemi

Page 27: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

26/58

Portali• ulaz u informacioni prostor Interneta• hibridni alat - pravo rješenje • nude pristup (svim) mrežnim servisima na jednom mjestu• temelje se na pretraživačima i/ili tematskom katalogu• nude kvalitetne informacije• nude personaliziran interfejs• opšte ili specijalizovane (tema ili interesna grupa)

– http://cnn.com/– http://www.excite.com/– http://www.yahoo.com/– http://www.ihlth.com/– http://www.digitalessays.com/– ...

Page 28: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

27/58

Sistemi za pretraživanje WebaZaključak

• svaka grupa alata ima svojih prednosti i mana• orijentisani su na tekst dokumenta

(multimedijalni zapis nije moguće pretraživati po sadržaju)

• očekuje se da obuhvataju i ne-Web resurse• problemi:

– kako biti ažuran– kako očuvati kvalitetu (precision .vs. recall)– kako odijeliti “mrežno smeće” od kvalitetne informacije

• budućnost je u “intergraciji”• pobjednik: PORTAL• korisna adresa: http://searchenginewatch.com/

Page 29: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

28/58

Pretraživanje Web resursaKako pretraživati?

• dobar izbor ključnih riječi je presudan• biti usmjeren ka cilju (Ne lutati!)• treba se koncentrisati na temu, a ne na

postavljanje uputa• ići ka cilju postepeno (profinjavati upite)• upoznati alat (Pročitajte HELP i FAQ!) • biti fleksibilan i probati više različitih

(tipova) alata• graditi vlastite kolekcije zanimljivih

mjesta na mreži (Favorites)

Page 30: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

29/58

Imenički servisi

• Directory Services• “Telefonski imenici Interneta”• Omogućuju publiciranje i pronalaženje

elektroničkih adresa i ostalih podataka o pojedincima, ustanovama i resursima u Internetu

• Mogu biti: – lokalni ili globalni– distribuirani ili centralizovani

Page 31: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

30/58

Imenički servisi

• Dijele se na:– White Pages - podaci o pojedincima– Yellow Pages - ostalo (ustanove, resursi)

• Koriste se putem:– odgovarajućih klijent programa– Web interfejsa koje olakšava postavljanje upita, ali

smanjuje mogućnost kontrole• Naglasak na White Pages servisima

Page 32: Pronalaženje informacija na Internetu · Pronalaženje informacija na Internetu. 1/58 Sadržaj • Internetski prostor informacija • Mrežni izvori informacija (resursi) • Identifikacija

31/58

Imenički servisi bazirani na Web tehnologiji

• osim Web interfejsa za pojedine imeničke servise postoje i imenički servisi bazirani na Web-u

• primjeri (White Pages):http://www.iaf.net/http://www.four11.com/http://www.whowhere.com/http://www.bigfoot.com/http://www.pc411.com/http://www.switchboard.com/

• primjeri (Yellow Pages):http://www.globalyp.com/world.htmhttp://www.bigbook.com/