Upload
luigi-antonella
View
221
Download
3
Embed Size (px)
Citation preview
Internet ed il World Wide WebInternet ed il World Wide Web
Monica BianchiniMonica BianchiniDipartimento di Ingegneria dell’InformazioneDipartimento di Ingegneria dell’Informazione
E-mail: [email protected]
Monica BianchiniMonica BianchiniDipartimento di Ingegneria dell’InformazioneDipartimento di Ingegneria dell’Informazione
SommarioSommario
Introduzione: le reti di calcolatoriIntroduzione: le reti di calcolatori Internet: indirizzamento e protocolli di Internet: indirizzamento e protocolli di
comunicazionecomunicazione Il World Wide Web: come funziona e a Il World Wide Web: come funziona e a
cosa servecosa serve Ricerca di informazione sul WebRicerca di informazione sul Web
Parte 1Parte 1
IntroduzioneIntroduzione
Introduzione Introduzione 1 1
Una reterete è costituita da due o più computer collegati tra loro in modo tale da permettere flusso di informazione
La più grande rete esistente al mondo è InternetInternet: ogni computer connesso ad Internet è in grado di comunicare con tutti i computer collegati
Introduzione Introduzione 2 2
“Internet ha rivoluzionato il mondo dei calcolatori Internet ha rivoluzionato il mondo dei calcolatori e della comunicazione come nulla aveva fatto e della comunicazione come nulla aveva fatto prima. È allo stesso tempo capacità di diffusione a prima. È allo stesso tempo capacità di diffusione a livello mondiale, un meccanismo per disseminare livello mondiale, un meccanismo per disseminare informazioni ed un mezzo per collaborazione ed informazioni ed un mezzo per collaborazione ed interazione fra individui ed i loro calcolatori, senza interazione fra individui ed i loro calcolatori, senza riguardo alla collocazione geografica.riguardo alla collocazione geografica.” (Leiner et al., “A brief history of the Internet”, Feb. `97, http://www.isoc.org/internet–historyhttp://www.isoc.org/internet–history)
Internet offre una notevole varietà di servizi informativi: posta elettronica, ftp, login remoto, accesso a newsgroup, etc.; il WWW WWW è di gran lunga il più conosciuto
Reti localiReti locali
Una rete localerete locale — LANLAN (Local Area NetworkLocal Area Network) — connette dispositivi hardware che si trovano fisicamente vicini, nello stesso edificio o nella stessa università
Per le LAN, il proprietario delle macchine è anche il proprietario dei mezzi di comunicazione: non occorre acquistare servizi forniti da terzi, come la compagnia telefonica
Il modello più diffuso di LAN è chiamato EthernetEthernet Sono oltre 60 milioni nel mondo gli utenti stimati delle LAN
basate su Ethernet
Reti geograficheReti geografiche
Le WAN sono connesse tramite linee di comunicazione punto–a–puntopunto–a–punto che collegano direttamente due calcolatori, anziché per mezzo di canali condivisi, normalmente utilizzati per le LAN
Una rete geograficarete geografica — WANWAN (Wide Area NetworkWide Area Network ) — connette dispositivi che possono essere ai poli opposti della stessa città o in città vicine (in questo caso si parla più propriamente di MANMAN — Metropolitan Area NetworkMetropolitan Area Network) o dall’altra parte dell’oceano
Poiché le WAN attraversano proprietà pubbliche, gli utenti di una WAN devono acquistare servizi di telecomunicazione
Servizi di reteServizi di rete
Condivisione delle risorseCondivisione delle risorse — sia fisichefisiche (memorie di massa, periferiche) che logichelogiche (dati, software)
Condivisione delle informazioniCondivisione delle informazioni — accesso ad informazioni remote, di carattere scientifico, medico, legale, commerciale
Posta elettronicaPosta elettronica — convenienteconveniente (può essere scritta/letta a qualsiasi ora del giorno e della notte), veloceveloce (un messaggio dagli USA arriva in meno di un minuto), economicaeconomica (i costi di trasmissione non dipendono dalla distanza); “documenti” di qualsiasi tipo (file, archivi, foto, musica) possono essere acclusi in allegato
Parte 2Parte 2
InternetInternet
La storia diLa storia di Internet Internet 1 1 Internet è la rete telematica più grande del mondo, per
estensione geografica e per numero di utenti Nel periodo della guerra fredda, il governo USA sollecitò la
creazione di DARPADARPA, Defense Advanced Research Project Defense Advanced Research Project AgencyAgency, una struttura del Dipartimento della Difesa con il compito di mantenere le comunicazioni in caso di attacco nucleare
Fu Paul Baran a ipotizzare, in un documento dal titolo On On Distributed Communication NetworksDistributed Communication Networks, la creazione di una rete priva di autorità centrale, in cui tutti i nodi fossero indipendenti, di pari gerarchia ed in grado di originare, passare e ricevere messaggi (indipendentemente dalla tipologia dei computer collegati)
La storia diLa storia di Internet Internet 2 2
I messaggi dovevano essere scomposti in pacchetti, ognuno dei quali in grado di raggiungere la propria destinazione seguendo un percorso qualsiasi, qualora quello stabilito fosse interrotto
Nel 1965, il DARPA finanziò uno studio sulle reti cooperative di computer
Nel 1969, il Dipartimento della Difesa commissionò ARPANETARPANET, con lo scopo di promuovere la ricerca per un piano di rete nazionale militare; il primo collegamento fu stabilito tra due computer dell’Università della California (UCLA) e dello Stanford Research InstituteStanford Research Institute
La storia diLa storia di Internet Internet 3 3
Internet non è gestita da alcuna istituzione politica, culturale o economica, ma da un gruppo di volontari, conosciuto come ISOC ISOC (Internet Society Internet Society )
Fornire le dimensioni di Internet è impossibile: si calcola vi siano centinaia di milioni di utenti, localizzati in ogni paese del mondo; la crescita esponenziale di Internet continua
Le tappe fondamentaliLe tappe fondamentali 1984 nasce la prima comunità virtuale,
The The
WellWell (Whole Earth Electronic Link)1987 10000 host; nasce NSFnetNSFnet (58 kbps)1989 100000 host1990 ARPANET diviene InternetInternet, Tim Berners-Lee del CERN di Ginevra progetta il WWWWWW; nasce l’HTMLHTML1991 primi software di navigazione
(GopherGopher) 1992 nasce il protocollo HTTPHTTP1993 prima versione (gratuita) di MosaicMosaic, il primo browser grafico1994 NetscapeNetscape distribuisce gratuitamente via Internet, la versione beta del NavigatorNavigator1995 Microsoft realizza ExplorerExplorer, sulla base di Mosaic
1969 primo nodo di ARPANETARPANET1971 ARPANET conta 15 nodi1972 ARPANET congiunge 37 nodi1973 prima connessione
internazionale fra Inghilterra e Norvegia1976 la regina Elisabetta è il primo capo di stato a spedire e-mail; Jimmy Carter e Walter Mondale coordinano la campagna
elettorale via e-mail (4$ a messaggio) 1979 fu inaugurata UsenetUsenet1982 nasce il protocollo TCP/IPTCP/IP1983 la rete conta più di mille nodi; MILNETMILNET (rete militare) si scinde da ARPANET (rete di ricerca del mondo universitario)
Internet: la rete delle retiInternet: la rete delle reti
Conseguentemente ad ARPANET, nacquero HEPNet (High Energy Physics Network), CSNET (Computer Science Network), SPAN (Space Physics Access Network), etc., per supportare lo scambio di informazione scientifica nelle specifiche aree di ricerca
La proliferazione rapida e non pianificata di reti indipendenti causa incompatibilità e ostacola la comunicazione fra utenti di reti distinte
InternetworkingInternetworking — ogni WAN è libera di gestire autonomamente la comunicazione al suo interno, ma deve utilizzare uno schema comune di indirizzamento e protocolli identici per interfacciarsi alle altre reti
Internet diviene la rete delle retirete delle reti — reti distinte si interconnettono attraverso gatewaygateway, che realizzano la connessione effettiva e forniscono i servizi di routingrouting fra le diverse WAN
IndirizzamentoIndirizzamento Uno schema globale e gerarchico di indirizzamento identifica
univocamente ogni utente ovunque localizzato nel mondo:[email protected]@dii.unisi.it
identifica l’utente “Monica (Bianchini)”, con un account su un calcolatore il cui indirizzo di rete è rappresentato da ciò che sta a destra di atat, @; il calcolatore è situato nel Dipartimento di Ingegneria dell’Informazione (dii) dell’Università di Siena (unisi), in Italia (it)
Lo schema gerarchico di indirizzamento, che procede dallo specifico al generale, è chiamato Domain Name SystemDomain Name System (DNSDNS)
Nella realtà, gli indirizzi di Internet sono numeri binari a 32 bit: gli indirizzi simbolici — più facili da memorizzare — sono convertiti automaticamente negli indirizzi numerici prima della trasmissione di dati sulla rete
Protocolli di comunicazioneProtocolli di comunicazione
In informatica, le regole comuni per lo scambio di informazioni vengono definite protocolli protocolli — “usi e norme che regolano le formalità, il diritto di precedenza e di cerimoniale diplomatico ”: definizione che si adatta perfettamente al contesto della trasmissione dell’informazione
TCP/IPTCP/IP — Transmission Control Protocol/Internet ProtocolTransmission Control Protocol/Internet Protocol, descrive le regole e le procedure cui le diverse WAN devono attenersi per indirizzamento, formato dei messaggi, routing e controllo degli errori: è il linguaggio comunelinguaggio comune parlato dalle reti di tutto il mondo
Internet: la diffusione Internet: la diffusione 1 1
Dalle origini al gennaio 2000, Internet è cresciuto fino a più di 72.4 milioni di calcolatori localizzati in ogni parte del mondo, ed il DNS include estensioni per 239 paesi, territori e possedimenti, compresi il continente antartico (.aq), Guinea Bissau (.gw), le isole Cocos (.cc), Pitcairn (.pn), etc.
Secondo uno studio dell’americana Telcordia TechnologiesTelcordia Technologies, il numero degli Internet host presenti nel mondo avrebbe superato i 100 milioni nel 2000 Questo dato rappresenta un incremento del 45%45% rispetto al
1999 Nel 2000, gli utenti di Internet sono circa 3.4 per host, con
un totale mondiale vicino ai 350 milioni Negli USA il rapporto utenti/host è 2.4, nei paesi meno
industrializzati (come la Cina) arriva anche a 100
Internet: la diffusione Internet: la diffusione 2 2
Negli USA, l’ultima parte del DNS non identifica lo stato, ma il tipo di sito: commerciale (.biz, .com), universitario (.edu), governativo (.gov), militare (.mil), organizzazioni no profit (.org)
I principali servizi offerti (tramite TCP/IP) sono il telnettelnet, per realizzare il login remoto, l’FTPFTP (File Transfer ProtocolFile Transfer Protocol ) per il trasferimento di file da macchine remote, l’SMTP SMTP (Simple Simple Mail Transfer ProtocolMail Transfer Protocol ) per la posta, ed il World Wide Web World Wide Web per la condivisione di informazione ipertestuale, che si avvale del protocollo HTTPHTTP (HyperText Transfer ProtocolHyperText Transfer Protocol )
199095: In italia si passa da 650 a 45000 host
Luglio 2000: 1574000 host in Italia
Attualmente: Internet sta crescendo vertiginosamente (e sta cambiando) ad opera della più importante applicazione sviluppata dopo l’e–maile–mail, il WWWWWW
Parte 3Parte 3
Il World Wide WebIl World Wide Web
Internet, ovvero… il World Wide Web Internet, ovvero… il World Wide Web 11
WWW: Whatever, Wherever, WheneverWWW: Whatever, Wherever, Whenever WWW: World Wide Wait (l’attesa planetaria)WWW: World Wide Wait (l’attesa planetaria) Information NirvanaInformation Nirvana ““Internet è la più grande anarchia operante nel mondo.” (Kevin Kelly)Internet è la più grande anarchia operante nel mondo.” (Kevin Kelly) Internet è la passeggiata curiosa in un grande mercato delle pulci, dove Internet è la passeggiata curiosa in un grande mercato delle pulci, dove
ci si può divertire a cercare notizie sugli extraterrestri, conoscere il ci si può divertire a cercare notizie sugli extraterrestri, conoscere il canto degli uccelli australiani o scambiarsi opinioni sul gioco delle boccecanto degli uccelli australiani o scambiarsi opinioni sul gioco delle bocce
““Internet è l’equivalente dell’invenzione di una città.” (William Gibson)Internet è l’equivalente dell’invenzione di una città.” (William Gibson) Ognuno proietta su Internet quello che fa (o avrebbe voluto fare) nella Ognuno proietta su Internet quello che fa (o avrebbe voluto fare) nella
vita “reale”: un ospedale virtuale, un supermercato elettronico, una vita “reale”: un ospedale virtuale, un supermercato elettronico, una galleria con le emozioni vissute…galleria con le emozioni vissute…
““Il desiderio di Internet è così intenso che può essere compreso solo Il desiderio di Internet è così intenso che può essere compreso solo come un fatto spirituale. Quel desiderio indica che c’è qualcosa che come un fatto spirituale. Quel desiderio indica che c’è qualcosa che manca nella nostra vita. E quello che manca è la voce umana. Il Web manca nella nostra vita. E quello che manca è la voce umana. Il Web promette il ritorno della voce umana.” (David Weinberger)promette il ritorno della voce umana.” (David Weinberger)
Internet, ovvero… il World Wide Web Internet, ovvero… il World Wide Web 22
Ogni sito è un punto di vista su Internet Internet non è né buono né cattivo, ma un semplice mezzo per
l’uso e l’abuso; siamo noi che gli diamo l’anima, la nostra, buona o cattiva; inutile lodare, inutile maledire
“Sembra che il nuovo medium assomigli ad un test di Rorscahch, un blob elettronico all’interno del quale ognuno proietta fantasie, desideri e timori per la società. I tradizionalisti trovano le forze oscure della degenerazione. I libertari trovano la mano pesante del governo. La sinistra trova una nuova comunità, priva della materiale avarizia del busisness privato.” (Eli Noam, direttore del Columbia Institute for TeleInformation)
Cercare informazioni su Internet equivale a versare un aperitivo con la pompa della benzina
Internet è la “Mecca dei grafomani” Internet è quel posto dove tutti navigano per trovare un motivo per
navigare
Internet, ovvero… il World Wide Web Internet, ovvero… il World Wide Web 33
Il motore a vapore all’inizio non ha cambiato la vita che di poche persone; ma quando è stato montato su una locomotiva e messo sulle rotaie, la società intera è stata trasformata. Il computer è il motore a vapore, Internet le rotaie. Saranno le rotaie di Internet a diffondere la “rivoluzione digitale” e a cambiare il mondo.
“La nuova Internet sarà questa: non più utenti che comunicano fra di loro via computer, bensì computer in rete 24 ore su 24 che comunicano tra loro per conto degli utenti.” (Philip Greenspun, MIT, Boston)
Internet è quella realtà nella quale gli investitori pagano prezzi assurdi per azioni di aziende di cui non sanno spiegare il business
“La parola più ricercata su Internet: SEX” (Deb Levine, autrice di “The Joy of Cybersex”)
“Internet è un vero e proprio <<campo di prova>> per migliorare le proprie capacità di <<flirting>> o fare errori relazionali senza rischiare (si può rimanere anonimi), trovare supporto e costruire la propria <<self-confidence>>.” (Deb Levine)
Il World Wide WebIl World Wide Web
Grazie al Web stiamo assistendo ad una rivoluzione nell’accesso alle fonti di informazione
Cercare nel Web è come accedere ad un’enciclopedia di miliardi di pagine senza un indice né un ordine apparente
La e–revolutione–revolution avrà un enorme impatto in tutti i campi del sapere e nella nostra vita quotidiana
Il Web ha cambiato completamente le nostre aspettative da una fonte di informazione: il Web si modifica ed evolve costantemente
Come rappresentiamo e misuriamo il Web ha un severo impatto nei metodi di ricerca che riusciamo a modellare
3 utenti su 5 cercano nel Web sottoponendo queryquery (interrogazioni) a motori di ricerca come GoogleGoogle o AltavistaAltavista
Il Web italiano Il Web italiano 1 1
Il motore di ricerca italiano Il TrovatoreIl Trovatore ha raccolto i dati 2002 sulle dimensioni del Web italiano:
Dall’analisi di circa 260mila siti italiani è emerso che il Web Italiano (it, sm, va) era costituito da circa 48 milioni di pagine
Aumentano considerevolmente i link che portano a pagine non più esistenti (rispetto al 2001 viene registrato un incremento del 110%: dai 700000 “File not Found File not Found ”del 2001, ai 1472000 del 2002)
Il Web italiano Il Web italiano 2 2
Al 2002, sono circa 45.7 milioni le pagine Web raggiungibili nella rete italiana: tra queste 553.000 pagine presentano un redirectredirect verso un altro sito contro le 500.000 del 2001, con un aumento del 10.6% tendenza all’acquisto di domini o cambi di providerprovider
52.000 pagine Web richiedono la password per l’accesso, con un incremento del 73% circa rispetto al 2001, quando le pagine erano 30.000 aumento di siti con accesso ristretto, procedura prevista per i servizi a pagamento o per intranet aziendali
L’informazione ipertestuale L’informazione ipertestuale 1 1
IpertestoIpertesto — raccolta di documenti connessi da puntatori, gli hyperlinkhyperlink; un documento contenente informazione ipertestuale è una paginapagina, nel linguaggio del Web
Lo standard linguistico per la scrittura di pagine è HTMLHTML — Hypertext Markup LanguageHypertext Markup Language
NavigareNavigare sul Web significa accedere a pagine successive, utilizzando i link per spostarsi da pagina a pagina
I documenti ipertestuali possono essere memorizzati ovunque nei miliardi di computer collegati ad Internet e un link è il nome di una pagina e l’indirizzo Internet della macchina su cui è memorizzata
L’informazione ipertestuale L’informazione ipertestuale 2 2
Un link di un ipertesto fa riferimento ad un URL (Uniform Uniform Resource LocatorResource Locator ),
protocollo://indirizzo_Internet/risorsaprotocollo://indirizzo_Internet/risorsa “protocolloprotocollo” indica la natura dell’informazione contenuta
nella pagina (httphttp(s) : ipertesto; ftpftp: file download; newsnews : per informazioni da bollettini e newsgroup; mailtomailto: web– mail) “indirizzo_Internetndirizzo_Internet” è l’indirizzo DNS della macchina su cui la pagina è locata “risorsarisorsa” è l’identificativo della risorsa, un file memorizzato sulla macchina specificata
http://www–dii.ing.unisi.it/people.htmlhttp://www–dii.ing.unisi.it/people.html
L’informazione ipertestuale L’informazione ipertestuale 3 3
Quando si “clicca ” su un link, la rete utilizza i protocolli TCP/IP–HTTP per stabilire una connessione tra la macchina dell’utente e la macchina remota il cui indirizzo Internet è puntato dall’URL
Quando la connessione è stabilita, la pagina richiesta viene trasferita alla macchina dell’utente e visualizzata sullo schermo: il fetchfetch (reperimento) delle pagine e la loro visualizzazione è gestita da un browserbrowser (NetscapeNetscape, MS MS ExplorerExplorer)
Il WWW è la “killer appkiller app ”, l’applicazione dalla crescita più rapida e la più importante di Internet
InternetInternet
38 years
4 years
13 years 16 years
Radio Radio Televisione Televisione PC PC
Numero di anni per raggiungere 50.000.000 di Numero di anni per raggiungere 50.000.000 di utentiutenti
Il commercio elettronico Il commercio elettronico
Termine applicato all’utilizzo del Web per lo scambio di merci, informazioni e servizi nel settore commerciale
I primi servizi offerti dall’e–commercee–commerce riguardavano soprattutto aspetti di e–businesse–business, con l’emissione di bonifici, l’attivazione di sportelli automatici per la gestione di transazioni finanziarie da siti remoti, l’utilizzo di dispositivi di lettura alle casse per la raccolta automatica di informazioni di vendita
I POSPOS (Point of SalePoint of Sale) per la lettura di carte di credito e Bancomat sono esempi di servizi di e–business
Più recentemente, con il WWW, si è assistito alla diffusione del servizio in maniera capillare; i siti commerciali offrono tour interattivi nei loro negozi virtuali
In rete possono essere acquistati — con transazioni sicure — libri, cd musicali, dvd, magliette, generi alimentari, che vengono rapidamente recapitati a domicilio
Commercio elettronico in ItaliaCommercio elettronico in Italia
Nella sua accezione più sommaria, il commercio elettronico è il risultato di un insieme di transazioni commerciali svolte attraverso un processo telematico
Tuttavia, il Ministero dell'Industria, del Commercio e dell'Artigianato lo definisce come… «L'E-Commerce […] consiste nello svolgimento di attività
commerciali e di transazioni per via elettronica e comprende attività diverse quali: la commercializzazione di beni e servizi per via elettronica, la distribuzione on-line di contenuti digitali, l'effettuazione per via elettronica di operazioni finanziarie e di borsa, gli appalti pubblici per via elettronica ed altre procedure di tipo transattivo della pubblica Amministrazione »
Le società multizionali per tecnologiche avanzate (come Cisco e Oracle) sono state tra le prime che hanno trasferito i loro acquisti e gran parte delle loro vendite sul Web
Sicurezza in reteSicurezza in rete
Dalla rapida crescita delle transazioni economiche sulla rete proviene la necessità di incrementare la sicurezzasicurezza ;; se un hackerhacker rubasse i numeri delle carte di credito usate per acquisti on–lineon–line o ottenesse l’accesso agli archivi di una banca, potrebbero verificarsi perdite economiche catastrofiche
La sicurezza in rete coinvolge: il problema dell’autenticazioneautenticazione (verifica dell’identità di chi effettua la transazione) il problema della crittazione/decrittazionecrittazione/decrittazione (per la sicurezza dell’informazione durante la trasmissione) la tolleranza ai guastitolleranza ai guasti (per la sicurezza delle transazioni in presenza di guasti software/hardware)
Parte 4Parte 4
Ricerca di informazione Ricerca di informazione
sul Websul Web
Perché non è facile trovare Perché non è facile trovare informazione sul Web?informazione sul Web?
Enorme massa di informazione — 20 miliardi di pagine (stimate), 3 milioni di pagine aggiunte ogni giorno; il Web raddoppia ogni 2 anni
L’informazione è spesso accessibile solo attraverso maschere di ricerca
I motori di ricerca indicizzano le pagine con circa 15 giorni di ritardo
Poca o nessuna possibilità di personalizzare i tooltool (strumenti) di ricerca
Attualità e previsioni Attualità e previsioni 1 1Asilomar Report su ricerca su Database:
“The majority of human information will be on the Web in ten years. It will be an exabyte (260 1018) spread across the planet in many formats. Absent new tools, finding and understanding answers to our questions will be even harder than it is today.”
Nuove prospettive di calcolo: “Internet è il computer, il browser, il sistema operativo, etc. Universal & pervasive computation.”
E-commerce: “By 2003, the Internet will become the predominant mechanism for conducting
business either to consumers or between businesses.” — Gartner Group “5% of the world's commerce, $3.2 trillion, will be Internet–based by 2003.” —
Forrester Research
Popular Press: “The Internet is the Gutenberg press on steroids. Gutenberg wasn't about how many
Bibles were printed, but the fact that you no longer had to listen to the clerics. You could read it yourself and make your own interpretations.” — W. Wacker
Attualità e previsioni Attualità e previsioni 2 2
Ci saranno più di 765 milioni di utenti nel mondo 118 ogni 1000 persone alla fine del 2005, in base a quanto stimato dal CIA CIA (Computer Industry Almanac) La quota di utenti Internet statunitensi è destinata a calare dal
43% del totale di utenti nel mondo alla fine del 1999 al 27% per la fine del 2005
L’Europa dell’ovest sta crescendo più velocemente del nord America ed è destinata a diventare la seconda area nel 2005 con più di 213 milioni di utenti
La regione AsiaPacifico sta crescendo ancora più velocemente ed avrà approssimativamente 190 milioni di utenti nel 2005
La quota di utilizzatori in centro e sud America, e Africa, sta crescendo più lentamente, in particolare in Africa (studi hanno dimostrato che esiste una connessione diretta tra livello culturale, occupazione ed utilizzo di Internet)
Internet interplanetarioInternet interplanetario
Misurare il WebMisurare il Web
Statistiche utili: numero di pagine, di server, di domain name, durata e dimensione delle pagine, duplicati, lingue
Analisi della connettività: numero di link, raggiungibilità delle pagine, “diametro” e struttura del Web
Modelli matematici: grafi, sistemi evolutivi
Dinamiche: numero di accessi, velocità di crescita, proprietà emergenti
Il modello a Il modello a papillonpapillon
Modello generato Modello generato dalla dalla
dalla raccolta di dalla raccolta di 200200
milioni di paginemilioni di pagine
Il raggio del “core” Il raggio del “core” èè
stimato pari a 19 clicstimato pari a 19 clic
Stima delle dimensioni del Web Stima delle dimensioni del Web (Febbraio `99)(Febbraio `99)
Campionamento casuale dello spazio degli indirizzi: 2564,
cioè 4.3 miliardi; testati 3.6 milioni di indirizzi IP
Molti siti riproducono la stessa informazione con indirizzi IP distinti (mirrormirror ) per ottenere ridondanza nell’informazione ed un minor carico di accessi per sito
Molti server non appartengono al “Publicly Indexable WebPublicly Indexable Web (PIW)(PIW)” 16 milioni di Web server16 milioni di Web server di cui solo 2.8 milioni 2.8 milioni appartengono al PIWappartengono al PIW
Marzo 2003: 39.174.349 Web serverMarzo 2003: 39.174.349 Web server
Quante pagine Web? (1999Quante pagine Web? (19992000)2000)
222.5 miliardi di pagine effettive2.5 miliardi di pagine effettive
Northern LightNorthern Light: 650 milioni di pagine nel Giugno ‘99
InktomiInktomi: oltre 800 milioni di pagine nel Giugno ’99; almeno 1 miliardo di pagine nel Gennaio ‘00
Internet ArchiveInternet Archive: 1.2 miliardi di URL nel Giugno ‘99
GoogleGoogle: 1 miliardo di pagine raccolte nel Giugno ‘00
Deep Web Deep Web 1 1
Il “deep Webdeep Web” è rappresentato da tutti i siti inaccessibili ai motori di ricerca tradizionali: 500 miliardi di documenti racchiusi in oltre 100.000 siti che permettono di accedere dinamicamente ad informazioni strutturate nei propri archivi
I motori di ricerca censiscono solo le singole pagine statiche dei siti, e cioè il “surface Websurface Web”
Deep Web Deep Web 2 2 Il 95% del deep Web è accessibile liberamente ai navigatori della rete Principali categorie di siti del deep Web: database medici, finanziari, brevetti, etc. (54%); siti aziendali consultabili
mediante interrogazioni; libri, giornali, annunci; portali; biblioteche, librerie; Yellow/White page e cataloghi Siti pubblici che compongono il deep Web:
Fonte Dimensioni archivioNational Climatic Data Center 366.000 GbNASA 219.000 GbNational Oceanographic Data Center 32.940 GbMP3.com 4.300 GbAmazon 461 GbLibrary Of Congress Online Catalog 116 Gb
Che tipo di informazione si trova Che tipo di informazione si trova sul Web?sul Web?
Le homepage di 2500 server Web sono state classificate manualmente 83% siti commerciali
Il numero di siti su argomenti specifici è abbastanza piccolo; è perciò possibile creare motori di ricerca verticali relativi ad un singolo argomento
Il 65% dei siti è in inglese Circa il 7% degli utenti
Internet sono di lingua tedesca, il 51% parlano inglese, e poco più del 7% sono giapponesi
Motori di ricercaMotori di ricerca
Ve ne sono probabilmente + di 3000, ma i 20 più usati 20 più usati coprono il 98% di tutte le ricerchecoprono il 98% di tutte le ricerche
AltaVistaAltaVista (estate, 1998): Indicizza 0.8 Tb (il 30% dei dati raccolti) 37 milioni di interrogazioni al giorno Tempo medio di risposta 0.6 secondi 20 computer a 64 bit, ciascuno dotato di 10 CPU, clock a
625 MHz, 12Gb RAM, 300 Gb RAID GoogleGoogle (primavera, 2000):
2500 PC, 30 nuovi acquisti al giorno, ogni PC dismesso definitivamente dopo il primo guasto
L’architettura dei motori di ricercaL’architettura dei motori di ricerca
Web crawlerWeb crawler — colleziona documenti di testo, html, etc. IndexerIndexer — indicizza alcune delle pagine raccolte e, a fronte di
ogni interrogazione, fornisce una serie di documenti in ordine ordine di importanzadi importanza
Query engineQuery engine — effettua le query sul database locale Query interfaceQuery interface — realizza l’interfaccia per la formula- zione delle interrogazioni
Criteri di valutazioneIndicizzazione delle pagineCopertura Freschezza dell’informazioneVelocitàAffidabilitàFacilità di utilizzo
Confrontare i motori di ricercaConfrontare i motori di ricerca
Come i Come i Web navigatorWeb navigator usano i usano i motori di ricercamotori di ricerca
Le interrogazioni fatte in base ad un’unica chiave di ricerca sono il 50%, mentre l’1% dei termini più usati è presente nel 10% delle interrogazioni
La categoria “sesso ” è nettamente la più richiesta Per una data ricerca, ciascun utente effettua, in media, 4.87
query In media, vengono utilizzati 2.11 termini per ricerca; nei normali
database, le interrogazioni sono tra 3 e 7 volte più articolate Gli operatori booleani (andand e oror ) sono usati 1 volta ogni 15
query, ma il 33% delle volte non sono immessi in modo corretto I modificatori (+, , “ ”) sono usati 1 volta ogni 9 query, ma il
75% delle volte l’utilizzo è scorretto
Informazione non reperibile dai Informazione non reperibile dai motori di ricercamotori di ricerca
L’hiddenhidden Web, è il Web nascosto dietro maschere di ricerca o firewall
Porzioni di Web non raggiungibili dalle altre pagine (pagine mai puntate dall’esterno)
Pagine a cui i robot dei motori di ricerca non possono accedere a causa dei “Robots exclusion standardsRobots exclusion standards ”
Il Web dinamico dinamico (deep Web), che varia più velocemente della frequenza di aggiornamento dei database dei motori di ricerca
Copertura del Web per vari Copertura del Web per vari motori di ricercamotori di ricerca (2000)(2000)
Copertura rispetto alla Copertura rispetto alla dimensione stimata del Web dimensione stimata del Web (2000)(2000)
Copertura dei motori di ricercaCopertura dei motori di ricerca
Copertura del miglior motore di ricerca (nel 2000): 16%16%
Copertura combinata degli 11 motori di ricerca più famosi (nel 2000): 42%42% del PIW
Stesso esperimento pubblicato su ScienceScience nell’Aprile ‘98 Miglior motore di ricerca: 34%34% Copertura di 6 motori di ricerca combinati: 60%60%
Freschezza: link non validi Freschezza: link non validi (2000)(2000)
Northern Light: 9.8% Snap: 2.8% AltaVista: 6.7% HotBot: 2.2% Microsoft: 2.6% Infoseek: 5.5% Google: 7.0% Yahoo: 2.9% Excite: 2.7% Lycos: 14.0% EuroSeek: 2.6%
Media: 5.3%Media: 5.3%
Freschezza dell’informazione dei Freschezza dell’informazione dei motori di ricercamotori di ricerca
Una nuova pagina viene indicizzata in Una nuova pagina viene indicizzata in media dopo 57 giorni…media dopo 57 giorni… L’ indicizzazione di pagine nuove o modificate può avvenire dopo
settimane o mesi !
Bias nell’indicizzazione (2000)Bias nell’indicizzazione (2000)
Siti con più link entranti Siti con più link entranti authorityauthority hanno maggiore probabilità di hanno maggiore probabilità diessere indicizzatiessere indicizzati
Indicizzazione in base al dominio Indicizzazione in base al dominio (2000)(2000)
Perché i motori non indicizzano Perché i motori non indicizzano tutto il Web?tutto il Web?
Limiti tecnologici a) Banda/tempo per effettuare il download b) Spazio su disco per memorizzare l’informazione
Vi è un limite oltre il quale non è economicamente conveniente indicizzare di più…
Soluzione: Motori di ricerca specializzatiMotori di ricerca specializzati,, portali portali verticaliverticali
Una generazione avanti:Una generazione avanti: GoogleGoogle
Google Google tiene in considerazione l’informazione topologica inclusa nell’ipergrafo del Web PageRankPageRank, il metodo di indicizzazione utilizzato da Google, usa concetti simili a quelli classici dell’editoria cartacea per valutare l’importanza di una pagina; tiene conto di…
…quanti link puntano ad una pagina per deciderne l’importanza inoltre, link da pagine popolari sono più importanti
Esamina il testo dei link della pagina per valutare la necessità di sondarli in relazione alla stessa interrogazione
Google raccoglie 6 miliardi di pagine (comunicato del 18.04.2004) e ne indicizza 2: raggiunge così un numero di elementi web indicizzati e ricercabili che supera quello di qualsiasi altro concorrente
Le Le metaricerchemetaricerche
Un solo motore di ricerca copre una piccola porzione di Web richiesta di informazione a più sorgenti (motori di ricerca) in
parallelo Si aggregano i risultati tramite l’utilizzo di una opportuna funzione di fusione
Information
Need
Query FusionPolicy
ResultSet
SearchEngine
#1
SearchEngine
#2
SearchEngine
#3etc.
Suggerimenti per rendere popolare Suggerimenti per rendere popolare un sito Webun sito Web
Registrare un proprio domain namedomain name e non far ospitare le proprie pagine presso siti di providerprovider
Registrarsi a molti motori di ricerca
Usare keywordskeywords (parole chiave) appropriate in titoli, headingheading (intestazioni) e metatagmetatag (parole chiave dell’HTML)
Utilizzare HTML in maniera semplice e appropriata
Farsi “linkarelinkare ” da tutti gli amici e/o i partner commerciali
Contattare (eventualmente) compagnie che vendono servizi per migliorare l’indicizzazione del proprio sito
Guida pratica all’utilizzo diGuida pratica all’utilizzo di
AltavistaAltavista
Introduzione Introduzione 1 1
È stato forse il più noto ed utilizzato fra i motori di ricercahttp://www.altavista.comhttp://www.altavista.com
AltavistaAltavista, nato nel 1995, offre la possibilità di effettuare ricerche avanzate (link Ricerca avanzata), di formulare preferenze su dove le informazioni debbano essere ricercate, sulla loro freschezza, sulla lingua e le modalità di presentazione
Nella pagina iniziale di AltavistaAltavista è presente un link alla pagina StrumentiStrumenti (link Altro>>), nella quale sono elencati vari percorsi di ricerca per acquisire conoscenza e poter effettuare un uso appropriato del motore
La seguente presentazione descrive brevemente quanto riportato nella pagina StrumentiStrumenti di AltavistaAltavista
Introduzione Introduzione 2 2
Dalla pagina StrumentiStrumenti di AltavistaAltavista: Ricerca avanzata: Crea richieste specifiche che
comunichino ad AltavistaAltavista di cercare risultati più precisi Ricerca Webmaster: Trova le pagine del proprio sito
nell’indice di AltavistaAltavista o trova le pagine collegate al proprio sito
Ricerca con opzione SoloTesto: Effettua le ricerche nel Web con la versione più veloce e senza immagini del motore di ricerca AltavistaAltavista
Traduci: Traduce testi o interi siti Web Ricerca rapida: Inserisce la funzione di QuickSearchQuickSearch in
qualsiasi sito per cercare, con un solo clic, pagine Web, immagini, video o notizie
Impostazioni: Fornisce la possibilità di impostare la ricerca in modo personalizzato
Introduzione Introduzione 3 3
Inoltre… Funzione Filtro aiuta a filtrare materiale non desiderato dai
risultati della ricerca su Internet
Quando il filtro è “Attivato”, AltavistaAltavista esclude i risultati della ricerca giudicati discutibili a causa di contenuto a sfondo sessuale, violento e/o sgradevole
Nota: con il filtro impostato su “Tutti” (i tipi di informazione: pagine Web, immagini, audio e video) è possibile effettuare ricerche sul Web solo in inglese, francese, tedesco e spagnolo; il filtro funziona solo in lingua inglese; per eseguire la ricerca in altre lingue, è preferibile lasciare il filtro disattivato
Introduzione Introduzione 4 4
Per ulteriori informazioni su ricerca, traduzione, aggiunta o rimozione di URL ed impostazione di paese/lingua è di utile consultazione la pagina Aiuto (“linkata” alla pagina iniziale ed a tutte le pagine principali del motore di ricerca)
Infine, a partire dalla pagina di Aiuto alla Ricerca, seguendo il link Termini di ricerca speciali, si possono ottenere spiegazioni su come utilizzare gli operatori booleani (ed altri) per effettuare ricerche mirate sia semplici che avanzate
AltavistaAltavista permette quattro opzioni di ricerca specifica (oltre al Web): Immagini, MP3/Audio, Video, Directory
Ricerche di base in Ricerche di base in Altavista Altavista 1 1
SUGGERIMENTI:SUGGERIMENTI: Quando si inseriscono parole multiple nella casella di
ricerca, AltaVista AltaVista cerca pagine Web che contengono tutte le parole
Più parole chiave garantiscono maggior precisione (Esempio: Baltimore RavensBaltimore Ravens invece di RavensRavens )
Utilizzo di parole che si pensa possano apparire nella pagina Web oggetto della ricerca; AltaVistaAltaVista inserisce nei suoi indici tutte le parole di ogni pagina Web
Per cercare una frase esatta, racchiuderla tra virgolette (Esempio: “essere o non essereessere o non essere ”)
Le lettere maiuscole e minuscole sono trattate allo stesso modo; per osservare la differenza, racchiudere il termine di ricerca tra virgolette
Ricerche di base in Ricerche di base in Altavista Altavista 2 2
SUGGERIMENTI (continua…):SUGGERIMENTI (continua…): Le parole con punteggiatura vengono trattate come se
fossero racchiuse tra virgolette; tutti i segni di interpunzione sono trattati allo stesso modo (Esempio: Ford.mustang/convertibleFord.mustang/convertible fornisce gli stessi risultati di “ford mustang convertibleford mustang convertible ”)
Per ottenere risultati in altre lingue, si può sia effettuare la Traduzione della pagina Web, che selezionare la propria lingua preferita nella casella di ricerca
Se si include un accento nella ricerca di una parola, AltaVistaAltaVista cercherà solo parole che contengono quell’accento; se l’accento viene omesso, AltaVistaAltaVista cercherà la parola sia con che senza accento; ciò permette di effettuare ricerche di parole francesi, tedesche o spagnole, attraverso tastiera italiana (o inglese)
Ricerche avanzate in Ricerche avanzate in AltavistaAltavista Maschera per la ricerca avanzata;
vengono specificati... …i termini della ricerca,
eventualmente sotto forma di frase (racchiusi fra virgolette) o connessi tramite operatori logici (esempio: Arachidi AND burroArachidi AND burro, trova documenti con entrambi i termini arachidi e burro)
…un intervallo temporale dei documenti di interesse
…il tipo di file Inoltre: possono essere specificati
termini da evitare; in questo caso AltavistaAltavista seleziona tutte le pagine che contengono i termini oggetto della ricerca, ma non contengono il set di parole contenuto in “nessuna di queste parole”
Guida pratica all’utilizzo diGuida pratica all’utilizzo di
GoogleGoogle
Introduzione Introduzione 1 1
Le ricerche più frequenti effettuate attraverso il motore di ricerca
http://www.google.comhttp://www.google.com vengono realizzate utilizzando un’unica parola chiave per la
formulazione della query
GoogleGoogle offre tuttavia la possibilità di effettuare ricerche avanzate, di formulare preferenze su dove le informazioni debbano essere ricercate, sulla lingua e le modalità di presentazione
Nella pagina iniziale del motore di ricerca sono presenti link alle pagine relative a Ricerca avanzata, Preferenze, Strumenti per le lingue, Tutto su Google
Introduzione Introduzione 2 2In particolare… Ricerca avanzata — Visualizza la pagina che permette di
impostare parametri che limitano l’ambito della ricerca Preferenze — Visualizza la pagina che permette di impostare le
preferenze per le ricerche, quali il numero predefinito di risultati da visualizzare su ciascuna pagina, la lingua dell’interfaccia e della ricerca, l’apertura o meno di una nuova finestra del browser per produrre i risultati
Strumenti per le lingue — Visualizza la pagina che permette di limitare la ricerca a pagine scritte in particolari lingue, di tradurre le pagine nella propria lingua e di accedere all’interfaccia GoogleGoogle nella propria lingua
Tutto su Google — La pagina contiene link significativi, in particolare verso pagine che evidenziano le caratteristiche che differenziano Google Google dagli altri motori di ricerca, e ne descrivono le modalità di utilizzo, ma anche i particolari architetturali
Introduzione Introduzione 3 3
Il pulsante
Mi sento fortunato apre, a fronte di una particolare query, la pagina ritenuta
più significativa (segnalando sulla barra di fondo il numero totale di pagine che rispondono all’interrogazione)
GoogleGoogle permette quattro opzioni di ricerca specifica (oltre al Web): Immagini, Gruppi, Directory, News
Ricerche di base in Ricerche di base in GoogleGoogle
Per effettuare una ricerca con GoogleGoogle, occorre immettere alcune parole descrittive, quindi premere il tasto InvioInvio (oppure fare clic sul pulsante Cerca con Google ) per elencare i risultati più rilevanti
GoogleGoogle utilizza tecniche di corrispondenza molto sofisticate per trovare parole che siano importanti e rilevanti ai fini della ricerca
Quando GoogleGoogle analizza una pagina, esamina anche il contenuto delle pagine associate linkatelinkate, dando la precedenza a quelle in cui i termini ricercati sono presenti in sequenza
Ricerche con “and” automatico e Ricerche con “and” automatico e visualizzazione del contesto di ricercavisualizzazione del contesto di ricerca
GoogleGoogle visualizza solo le pagine che contengono tutti i termini ricercati, aggiungendo automaticamente l’operatore booleano “and”
Per limitare ulteriormente la ricerca, è sufficiente aggiungere altri termini
Tutti i risultati trovati da GoogleGoogle contengono una o più sintesi della pagina Web, che mostrano il contesto in cui vengono utilizzati i termini ricercati
Parole comuniParole comuni
GoogleGoogle ignora le parole ed i caratteri di uso comune (ad esempio le congiunzioni, gli articoli, etc.), denominati anche “stop wordsstop words”, scartando automaticamente termini come httphttp e .com.com, nonché alcune singole cifre e lettere, poiché tale informazione non aiuta a restringere il campo di ricerca, ma anzi contribuisce a rallentare i tempi di risposta
Utilizzare il segno “+” per includere parole comuni nella ricerca; ricordarsi di lasciare uno spazio prima del segno “+” ; il segno “+” può essere utilizzato anche per la ricerca di frasi
Le frasi su cui effettuare la ricerca possono altrimenti essere racchiuse fra doppi apici (virgolette)
Ricerca di radici di parole (Ricerca di radici di parole (StemmingStemming))
Per garantire la massima precisione nei risultati, GoogleGoogle non supporta la ricerca di radici di parole (“stemming” ), né le ricerche con caratteri jolly (*, ?, etc.)
GoogleGoogle cerca solo le parole esatte digitate nel campo di ricerca; se si inserisce “googl” o “googl*” , il risultato non sarà “googler” o “googlin”
Nei casi dubbi, provare ad usare sia il singolare che il plurale per la ricerca; ad esempio “linea aerea” e “linee aeree”
Lettere maiuscole/minuscole o accentiLettere maiuscole/minuscole o accenti
GoogleGoogle non fa distinzione tra lettere minuscole e maiuscole, poiché considera tutte le lettere come minuscole; ad esempio, digitando “google”, “GOOGLE" e “GoOgLE" si ottengono sempre gli stessi risultati
Per impostazione predefinita, GoogleGoogle non riconosce accenti o altri segni diacritici; in altre parole, se si digita [Muenchen] e [München] si ottengono sempre gli stessi risultati
Per fare una distinzione tra le parole, anteporre il segno +; ad esempio [+Muenchen] rispetto a [+München]
Ricerche avanzate in Ricerche avanzate in GoogleGoogle Maschera per la ricerca avanzata; vengono specificati...
…i termini della ricerca, eventualmente sotto forma di frase, o connessi attraverso l’operatore OR
…l’intervallo temporale dei documenti di interesse, il formato dei file, la lingua ed il dominio di ricerca, la collocazione dell’informazione all’interno della pagina
Inoltre: possono essere effettuate “ricerche per similitudine” o relative a pagine che puntano ad una data pagina di riferimento