23
Sistemi Di Elaborazione Dell’informazione Dott. Antonio Calanducci Lezione V: Google Web Search Corso di Laurea in Scienze della Comunicazione Anno accademico 2009/2010

Sistemi lezione-v-google-web-search

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Sistemi lezione-v-google-web-search

Sistemi Di Elaborazione Dell’informazione

Dott. Antonio Calanducci

Lezione V: Google Web SearchCorso di Laurea in Scienze della Comunicazione

Anno accademico 2009/2010

Page 2: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

• 1995: incontro di Larry Page con Sergey Brin alla Stanford University (CA)

• 1996: i due iniziano a lavorare su BackRub

- motore di ricerca basato sull’analisi dei link

• 1998: comprano una serie di hard disk d’occasione

- primo server di Google (Lego case)

- Andy Bechtolsheim (Sun co-founder) stacca un assegno di $100,000 => nasce Google, Inc.

Storia di Google

2

Page 3: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Storia di Google• Primo sede: garage di un amico a Menlo Park (CA) - 1 impiegato

• Passaparola su Internet

- interfaccia minimalista

- ricerche pertinenti

- “Mi sento fortunato”

• Feb 1999: nuova sede a Palo Alto (8 impiegati)

- $25,000,000 di finanziamento

• Set 1999: nuova sede a Mountain View (40 impiegati)

• Dic 2007: circa 20000 dipendenti

• http://www.google.com/corporate/history.html

3

Page 4: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Google laboratory• Continuo miglioramento dei servizi esistenti e aggiunta

di nuovi

• Oltre ai servizi Web:

- nuovo browser: Google Chrome

- Google Earth, Sketch Up, Android OS

- Android e Google Phone (Nexus One)

- http://www.project10tothe100.com/intl/IT/index.html

- 10 milioni di dollari per idee originali

- piani per installare i propri server in mezzo al mare!!!

4

Page 5: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Origine del termine Google• to google = “fare una ricerca sul web”

• etimologia:

- googol (un 1 seguito da 100 zeri)

- goggles: “binocolo” --> guardare la rete da vicino

- formula magica africana, buon auspicio per la caccia

5

Page 6: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Ricerca Web• Il più popolare “motore di ricerca” (search engine)

• disponibile in 118 lingue su 162 domini nazionali

• Interfaccia sobria ed essenziale

- la versione statunitense (www.google.com) è la più aggiornata

- versione italiana (www.google.it) attiva dal 15 settembre 2002

• Demo: Analisi interfaccia principale di www.google.it

6

Page 7: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Loghi celebrativi• In occasioni di eventi speciali ed eventi storici:

- Natale, 1 aprile, Thanksgiving, 1st of the year, etc..

- olimpiadi, festa nazionale della bastiglia, etc..

• disegnati da Dennis Hwang

• primo doodle (=disegnino, ghirigoro): agosto 1998, in occasione del Burning Man Festival (Nevada)

• http://www.google.com/logos/

• http://www.doodlesource.com/

7

Page 8: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Ricerca di base• chiavi di ricerca (keywords) nel campo ricerca

• “Mi sento fortunato” => reindirizzamento al primo risultato

• Risultati:

- riepilogo (numero, tempo di esecuzione)

- Titolo

- Breve testo con keywords in grassetto

- URL, data e dimensione

- links a “Copia cache” e “Pagini Simili”

• Il “suggeritore”: correttore lessicale8

Page 9: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Il PageRank• Successo di Google: pertinenza dei risultati

• Algoritmo di classificazione delle pagine in base all’importanza (indice di popolarità, rango)

- classifiche di rilevanza -> determina la posizione nei risultati di una ricerca

• Tecnologia brevettata da Google Inc

• PageRank definito per singola pagina

• “Democrazia” nel web: ogni link verso una pagina è come un “voto” in una elezione

- numero di link (di “voti”)

- “importanza” della pagina web che ha assegnato il voto9

Page 10: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

PageRank e risultati• Più link verso una determinata pagina, più alto è il PageRank

• simile al meccanismo citazioni articoli scientifici

• PageRank espresso in decimi

• conoscere il valore di PageRank di una pag:

- Google Toolbar o www.prchecker.info

• Rilevanza nei risultati:

- integrazione di PageRank con numero di occorrenze delle chiavi di ricerca nella pagina (e in quelle collegate ad essa)

• Sistema difficile da “hackerare” dai webmasters

• I clienti di Google non possono salire di posizione10

Page 11: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Indicizzazione e cache• Google archivia le pagine analizzate sui propri server

giornalmente (cache)

• Ricerca nella cache:

- utile nel caso in cui il server che ospita una data pagina non risulta più accessibile

- cons: non è aggiornata il real time

• Demo

11

Page 12: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Operatori ricerca• Case insensitive: non c’è distinzione tra lettere minuscole e

maiuscole

• Operatore AND (automatico)

- cerca pagine che contengono TUTTI i termini, tenendo conto dell’ordine

• Operatore OR

- cerca pagina che contengono ALMENO uno dei termini

• Operatore +

- esclusione automatica di parole e carattere d’uso comune (singole cifre e lettere, preposizioni, “dove”/”quando”)

- usare “+” per una ricerca esplicita

-12

Page 13: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Operatori ricerca• Operatore “-”

- esclude uno o più termini dai risultati

- es: televisione -satellitare

• Operatore virgolette (“”)

- ricerca esatta della frase tra virgolette

- es: “Mario Rossi”

• Operatore asterisco (*)

- termine jolly, in sostituzione di qualsiasi termine all’interno di una frase

- es: mi * di immenso13

Page 14: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Composizione degli operatori• Gli operatori possono concatenati per la creazione di

complesse interrogazioni:

- es: televisione “domenica sportiva” -calcio

14

Page 15: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Domini delle ricerche• Opzione “pagine in Italiano”

- solo pagine il cui contenuto è scritto nella ns lingua

• Opzione “pagine provenienti da: Italia”

- pagine redatte in Italiano su server con dominio .it

• Opzione “Cerca tra i risultati”

- affina ulteriormente la ricerca, filtrando i risultati correnti

- applicazione di un AND 15

Page 16: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Ricerca avanzata• http://www.google.it/advanced_search?hl=it

• Campi “Trova risultati”: semplificano l’uso degli operatori AND, “”, OR, -

• Pagine redatte in una data lingua e situate in un dato paese

• Formato file: permette di includere/escludere alcuni formati di files dai risultati della ricerca (DOC, PDF, PPT, XLS, RTF, ...)

• Data: pagine aggiornate nelle ultime 24 ore, ultima settimana, ultimo mese, ultimo anno

16

Page 17: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Ricerca avanzata• Cerca in: consente di specificare se cercare le chiavi di

ricerca nel titolo, nel corpo, nell’indirizzo, nei collegamenti, ovunque nella pagina

• Dominio: ricerca all’interno di un dato sito o dominio

• Diritti di utilizzo: in base alla licenza (Creative Commons) di utilizzo:

- utilizzati e condivisi/modificati gratuitamente (e anche a scopo commerciale)

• SafeSearch: filtro per contenuti espliciti

17

Page 18: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Ricerca avanzata• Terza sezione della ricerca avanzata:

- possibilità di fornire una URL

• Pagine simili: pagine apparteneti allo stesso argomento

• Collegamenti: pagine che contengono collegamenti alla pagina di cui viene fornito la URL

- verificare chi mi sta “linkando”

18

Page 20: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Funzioni speciali• Conversione di valute

- 10 USD in euro

- converti 5 euro in pesos messicani

• Meteo

- meteo catania

• Quotazioni di borsa

- AAPL, CSCO

• Risultati sportivi, programmazione film locali, ricerca locale

- AC Milan, film Catania, pizzerie a Catani

20

Page 21: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Operatori avanzati• operatore site:

- limita la ricerca ad un dominio o sito specifico

• operatore link:

- tutte le pagine che dispongono di un collegamento al sito stesso

• operatore related:

- un elenco di pagine considerate “simili”

• operatore filetype:

- restringe la ricerca ad un solo tipo di file21

Page 22: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Operatori avanzati• operatore inurl, allinurl:

- una (inurl) chiave di ricerca contenuta nella URL o tutte le chiavi (allinurl)

• operatore intitle, allintitle:

- come sopra ma riferito al title di una pagina

• operatore cache:

- ottiene la copia cache di una pagina

• operatore info:

- restituisce tutte le informazione che google conosce sulla pagina indicata dopo l’operatore

• Per approfondimenti sugli operatori:

- http://www.googleguide.com/advanced_operators.html22

Page 23: Sistemi lezione-v-google-web-search

wdwdwdwdwdw

A. Calanducci - Sistemi: Lezione V - Catania, 07/04/2010

Preferenze di Google• Accessibili da “Impostazioni di ricerca”

• Lingua dell’interfaccia

• Lingua della ricerca

• Filtro SafeSearch

- restrizioni contenuti espliciti sessuali

• Numero di risultati

- risultati per pagina (10/20/30/50/100)

• Finestra dei risultati

• Proposta suggerimenti23