30
Indeksiranje i pretraživanje Web-a Student: Profesor: Milo  š Ilić Prof. Dr Milena Stanković  Broj indeksa:12896 

Indeksiranje i Pretrayivanje Web-A

Embed Size (px)

Citation preview

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 1/30

Indeksiranje i pretraživanje

Web-a 

Student: Profesor: 

Milo š Ilić Prof. Dr Milena Stanković 

Broj indeksa:12896 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 2/30

Oblasti koje su obraĎene u okviru 

rada

•  Web mining

Agenti za pretraživanje Web-a• Agoritmi i osnovni problemi u implementaciji Web

 pretraživača 

• Metode pretraživanja Web-a

• Pretraživači sličnosti i razlike • Optimizacija

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 3/30

Web mining

• Web mining je prikupljanje zanimljivih i potencijalno

korisnih obrazaca i implicitnih informacija iz predmeta i

aktivnosti vezanih za WorldWide Web.

• Izdvajaju se tri tehnike.

 – Web Content Mining

 – Web Structure Mining

 – Web Usage Mining

Svaka od tehnika se bavi nekom odreĎenom oblašću Web-a.

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 4/30

Klasifikacija Web mining-a

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 5/30

Agenti za pretraživanje Web-a

• „Lutaju“ Web-om u potrazi za novim stranicama, i kada ih pronaĎu„dovlače“ ih i snimaju u bazu.

• Stacionirani su na računaru i tu dovlače stranice.

• Ono što agent sagledava su reči HTML dokumenta naučene korištenjem programskih detektora ( senzora ) povezanih kroz celu mrežu ( Internet )uz pomoć HTTP-a.

• Agent deluje na okolinu koristeći izlazne metode kako bi obavestiokorisnika o statusu pretraživanja ili krajnjim rezultatima, koji bi trebali

 predstavljati postignut cilj

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 6/30

Inteligentni agenti za pretraživanje Web-a 

• Inteligentnim agentima za pretraživanje Web-a nazivaju se

računarski programi koji samostalno izvode neki pretraživački posao “u ime i za račun” korisnika. 

•  Smešteni su u računaru vlasnika, što ne mora biti ( a najčešde

i nije ) računar krajnjeg korisnika, ved neko web mesto.

Korisnik defini še informacije o omenima svog interesovanja,pravilima pretraživanja, prioritetima... 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 7/30

Podela inteligetnih agenata

•  Web crawler

• Web pauci ( Web spider  )

• Web roboti ( Web robot  )

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 8/30

Oblasti primene inteligentnih agenata

• Statističke analize 

• Osvežavanje URL adresa 

• Mirroring

• Indeksiranje

• Pronalaženje podataka 

• Kombinirana upotreba 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 9/30

Crawling 

Arhitektura crawling sistema

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 10/30

Funkcionalnosti koje obavlja crawling

• Robustnost

• Pristojnost

• Distribuiranost

• Skalabilnost

• Performanse i efikasnost 

• Kvalitet

• Ažurnost rezultata • Proširivost 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 11/30

Spajderi

Arhitektura spajdera

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 12/30

• Spajderi obično kreću svoje krstarenje web-om sa najpopularnijih sajtova i

servera i dalje preteći linkove obilaze sve ostale stranice.

• Dve veoma bitne karakteristike Web-a iktiraju ponašanje spajera i njihov

zaatak čine veoma teškim: 

 – Veliki broj stranica. Ovo ima za posledicu da spajderi mogu samo da posete

delić web-a, što znači da taj delić treba da bude posebno odabran. 

 – Brzina promene. Dok spajder poseti poslednju stranicu na sajtu, veoma je

verovatno da su u meĎuvremenu neke strane dodate, neke obrisane, a neke

izmenjene. Ovo je pogotovo karakteristično za velike sajtove. 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 13/30

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 14/30

Jedan osnovni primer Robots.txt fajla koji zabranjuje svim pretraživačima daindeksiraju bilo sta sa web sajta.

User-agent: *Disallow: /

Ako želimo da Yahoo web crawler ne indeksira neki folder, to se može postićinaredbom. 

User-agent: Yahoo! SlurpDisallow: neki-folder

Google robot ima pristup celom sajtu dok je svim ostalim robotima zabranjeno da

pristupe.

User-agent: Google

Disallow:

User-agent: *

Disallow: /

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 15/30

Osim posebnog robots.txt fajla koji se postavlja u root direktorijum sajta

na web serveru, mogu se koristiti i robots meta tagovi, koji se ubacuju u

head deo html dokumenta.

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

NOINDEX - ne indeksira se data strana

INDEX - indeksira se data strana

FOLLOW - prate se linkovi sa strane na kojoj je dati meta tag

NOFOLLOW ne prate se linkovi sa strane na kojoj je dati meta tag

http://www.google.com/support/webmasters/bin/answer.py?a

nswer=79812&topic=15262 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 16/30

Indeksiranje 

• Invertovani indeks, predstavlja osnovnu struktura podataka koja se korisiti u

okviru Web pretraživača i information retrieval  ( IR-oblast koja se bavi

izučavanje metoda za pronalazak informacija u okviru dokumenata i van njih )softvera uopšte.

• Dve osnovne varijante realizacije invertovanog indeksa su:

 – na nivou zapisa ( record level inverted index )

 – nivou reči (word level inverted index)

Pored vrlo jednostavnog odreĎivanja fizičke veličine samog indeksa kadasu u pitanju Web pretraživači tako definisana veličina je od veoma malogznačaja jer ne pruža informaciju o količini informacija koje se nalaze uindeksu.

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 17/30

PageRank  

• Algoritam (koristi se kod Google pretraživača), dodeljuje

vrednost od 0 do1 svakom čvoru u Web Grafu, pri čemu datavrednost prvenstveno zavisi od link strukture Web Grafa.

• Algoritam se zasniva na činjenici da se Web Graf može predstaviti kao povezani graf.

• Primer je model slučajnog surfera 

http://www.prchecker.info/check_page_rank.php 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 18/30

Clustering 

• Predstavlja način obrade podataka, kojim se u samim podacimaotkrivaju tzv. “grupe” ( clusters ) podataka koje pokazuju izvestanstepen “ prirodne bliskosti”.

• Dva najčešća pristupa problematici grupisanja su 

 – Supervised learning

 – Unsupervised learning

Često se koristi u “istraživanju podataka”, kada ne postoji prethodno definisani korpus podataka ili kada nismo sigurni

šta tačno tražimo u podacima. 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 19/30

Metode pretraživanja Web-a

• Postoje dve osnovne klase algoritama za pretraživanje 

 – Blin search or uninforme search ( neinformisano pretraživanje ) 

 – Heuristic or informe search ( informisano pretraživanje ) 

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 20/30

Blind search or uninformed search

( neinformisano pretraživanje ) 

U ovu grupu pretraživanja spadaju: 

−pretraživanja po dubini ( eng. Depth-first search )

− pretraživanja po širini ( eng. Breadth-first search )

− pretraživanja s jednakom cenom ( eng. Uniform-cost search )

− pretraživanje do odreĎene dubine ( eng. Depth-limiting search )

− iterativno pretraživanje po dubini ( eng. Iterative deeping search )

− dvosmerno pretraživanje ( eng. Bidirectional search )

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 21/30

Heuristic or informed search

( informisano pretraživanje ) 

• U ovu grupu pretraživanja spadaju: 

− pretraživanje najboljim prvim ( eng. Best first search )− pretraživanje penjanjem ( eng. Hill-climbing search )

− A* pretraživanje ( eng. A* search )

− ograničeno pretraživanje po širini ( eng. Beam search )

− IDA* pretraživanje ( eng. Iterative deeping A* search )

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 22/30

Pretraživači sličnosti i razlike 

• Prvi “ pretraživač ” 1990. god Archie, od strane studenta Alan Emtage

• 1994 - Yahoo!, (David Filo, Jarry Yang);

• 1997 - Google,( Larry Page, Sergey Brin )

• 1998 - MSN Search

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 23/30

Google

Google daje najpreciznije i najrelevantnije rezultate pretrage pomoćPageRank algoritma koji klasifikuje Web stranice (rangira ih) i na osnovu

tog rangiranja pravi redosled u rezultatima pretrage

Faktori za visoko rangiranje na Google pretraživaču

1) ulazni linkovi

2) starost

3) sadržaj 

4) uspeh na rezultatima pretrage

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 24/30

Yahoo

•  Nije samo Internet pretraživač nego i najpoznatiji Webdirektorijum koji predstavlja ogromnu listu Web sajtova

uredno razvrstanih po kategorijama i podkategorijama.

•  Nastao je kao lista omiljenih linkova dvoje ljudi koji su danas

vlasnici ove multi-kompanije.

• Smatra se da je glavni konkurent Googl-u

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 25/30

Faktori za visoko rangiranje na Yahoo

 pretraživaču 

1) gustina ključnih reči

2) struktura web stranice

3) ulazni linkovi

4) starost

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 26/30

MSN

• Relativno nov pretraživač 

• Sistem rangiranja prvenstveno zavisi od sadržaja Web sajtova 

Faktori za visoko rangiranje na MSN-u

1) saržaj stranice 

2) struktura unutrašnjeg povezivanja 

3) broj stranica i relevantnost

4) naslovi, zaglavlja i posebni formati

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 27/30

Optimizacija

• Termin se pojavljuje sredinom 90-tih.

• Proces zavisi od primenjene tehnologije i arhitekture web

stranica

• Klasične ( HTML, statične ) stranice je potrebno ručnooptimizovati

 – Uredjenjem sadržaja 

 – Dodavanjem meta podataka

• Kod dinamičkih je postupak delimično automatizovan

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 28/30

Metodi za optimizaciju web stranica

• Onpage – Pojedina stranica se prilagodjava svom sadržaju 

 – Meta tagovi (description, keywords, author, Content-Type ...)

omogućavaju da stranuca ne bude svrstana duplicate content filter

 –  Naslov Web stranice 64 karaktera po W3 konzorcijumu

 – Struktura stranice

 – Izgled URL-a

• Offpage

 – Radi se nakon Onpage optimizacije

 – Orijentisana na poboljšanje Web lokacije sa drugim Web lokacijama 

 – Suština je predstavljanje web stranica razmenom linkova i link building-om

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 29/30

Pitanja!

• Podela Web mininga.

•Oblasti primene inteligentnih agenata.

• PageRank.

• Metoe pretraživanja Web-a.

• Metodi za optimizaciju web stranica.

7/27/2019 Indeksiranje i Pretrayivanje Web-A

http://slidepdf.com/reader/full/indeksiranje-i-pretrayivanje-web-a 30/30

 

Hvala na pažnji!