Google & Google-Labs
Adrian Schuster
Übersicht Google
Geschichtliches Arbeitsweise/Technik Funktionen
– Suchmaschine• Google.com vs. Google.de
– Bilder, Newsgroups, Nachrichten, Katalog, Directory, Expertenrat, Toolbar, Compute
Übersicht Google Labs
Funktionen– VoiceSearch– Keys– Glossary– Sets
Rund um Google– Google Weblog, Googlefight
Googol ~ Google– 1000000000000000000000000000...0– 10100
– Milton Sirotta (Neffe von Edward Kasner) Gründerväter
– Sergey Brin– Lawrence Page
Geschichtliches
Suchmaschinenprojekt an der Stanford University
„BackRub“ mit Fähigkeit, die Links zur indizierten Seite zu erfassen.
Nutzung von gewöhnlicher Hardware Suche nach Investoren
Geschichtliches
7. September 1998: Google Inc. Menlo Park, California– Garagenfirma– 10.000 Anfragen
1999: Suchmaschine von AOL/Netscape mit 3 Mill. Anfragen
2001: Aufkauf von Deja.com
Geschichtliches
heute:– >500 Angestellte– >150 Millionen Anfragen– >54 Millionen Benutzer (50% non-US)– >3 Milliarden Webseiten– >800 Millionen usenet-Posts– >330 Millionen Bilder– 36 Länderdomains
Geschichtliches
heute:– >100 Millionen Dollar jährlicher Umsatz– ca. 100% jährliches Wachstum
Geschichtliches
Geschichtliches
Browserhäufigkeit Nutzersprachen
Mai 2001 - Oktober 2002
Technik „The Anatomy of a
Large-Scale Hypertextual Web Search Engine“ 1998
„The PageRank Citation Ranking: Bringing Order to the Web“ 1998
Technik
größter kommerzieller Linux-Cluster >10.000 Maschinen 5 verteilte Datacenter
Google Search Appliances– Linux-Server
Suchmaschine– simpel– leichtgewichtig– beständig
einfach– AND-Verknüpfung– keine Wildcards
Funktionen
Filetypen– 12 Haupttypen
• Portable Document Format (pdf), PostScript (ps), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), * Lotus WordPro (lwp), MacWrite (mw), Excel (xls), PowerPoint (ppt), Word (doc), Works (wks, wps, wdb), Write (wri), Rich Text Format (rtf), Text (ans, txt)
– [filetype:rtf]
ähnliche Seiten (GoogleScout)
Suchmaschine
Übersetzungen– Englisch übersetzt in
• Deutsch• Französisch• Spanisch• Portugiesich• Italienisch
– Erkennung von 36 Sprachen „I´m feeling lucky“
Suchmaschine
erweitert
Syntax– [_-ausgeschlossen]– [_+eingeschlossen]– keine Wildcards (aber Paltzhalter * )– keine Groß-/Kleinschreibung
Suchmaschine
Syntax– ["genauer Wortlaut"]– OR oder |– [site:www.distributed.net]– [link:www.distributed.net]– [related:www.distributed.net]– [info:www.distributed.net]– [stocks: amd shr]
Suchmaschine
Syntax– [allintitle:arthur dent]– [intitle:beeblebrox ]– [allinurl:online/public]– [inurl:public_html]– z. B. inurl:fu-berlin site:fu-berlin.de– cache:www.inf.fu-berlin.de/inst/ags.html– date: ?
Suchmaschine
.com vs. .de
Filtermechanismus, der Suchergebnisse des deutschen Ablegers zensiert– auch Frankreich, Schweiz– keine offiziellen Informationen erhältlich
gleicher Datenbstand wie google.com Filterung der URLs vor Anzeige der
Suchergebnisse Seiten im Cache vorhanden
.com vs. .de
z.B. Stormfront.org nicht sichtbar:
– www2.stromfront.org– www3.stromfront.org– www4.stromfront.org– women.stromfront.org
sichtbar:– irc.stormfront.org:8000
Bilder images.google.com
390 Millionen Bilder
Bilder images.google.com
Beurteilung/Indizierung– <ALT>-Tag– Bildbeschreibung– Seiteninhalt– Bildanalyse– Duplikatentfernung
alle Suchtags möglich
Bilder images.google.com
Bilder images.google.com
SafeSearch– Filterung von „pornography and explicit
sexual content “
Newsgroups groups.google.com
usenet
Newsgroups groups.google.com
>35.000 Gruppen >700 Millionen Postings usenet-Start in 1979
Newsgroups groups.google.com
Übersicht einer Newsgroup
Newsgroups groups.google.com
ältestes Posting in Net.general
From: sdcarl!rusty Mon May 11 09:00:58 1981
To: ucbvax^mark
Subject: newsgroup fa, net, etc.
Won't we need to change the .ngfile also? Also is ALL an acceptable newsgroup on
the left side of the dot such that ALL.ALL will catch everything?
Rusty is right (or is that "Rusty is Wright"?) - we have ALL in our .ngfile
so I tend to forget this. ALL.ALL may or may not work, but ALL certainly does.
Mark
I plan to make the change on Tuesday unless something horrible happens.
Newsgroups groups.google.com
archiviert von Henry Spencer (Department of Zoology Toronto)– 1981 - 1991 – 141 Bänder á 120 MB
Nachrichten news.google.com
Nachrichten news.google.com
4000 Nachrichtenquellen mehrmals tägliche Aktualisierung Gruppierung nach Themen
ausschließlich mittels Algorithmen Artikel der letzten 30 Tage
Directory directory.google.com
Directory directory.google.com
Webinterface für Open Directory Project (dmoz.org)
>1,5 Millionen Einträge Verknüpfung mit Webindex zur
besseren Sortierung
Kataloge catalogs.google.com
Kataloge catalogs.google.com
5400 Rubriken mailorder-Kataloge verschiedenster
Anbieter
Kataloge catalogs.google.com
Ergebnisanzeige
Expertenrat answers.google.com
Expertenrat answers.google.com
500 freiwillige Experten für verschiedenste Fachgebiete bzw. Informationssuche
2 - 200$ Kosten für Expertenantwort entsprechend der selbst eingeschätzten Schwierigkeit
0,50$ Gebühr für Google
Toolbar toolbar.google.com
Button-Leiste zur Integration in Browser– nur Windows ab M$IE 5.x
Eingabefeld für Suche PageRank-Anzeige integrierte Update-Funktion mit integriertem
Compute toolbar.google.com/dc
Distributed Computing– Berechnung der dreidimensionalen Faltung
von Proteinen mit bekannter Aminosäurenstruktur
– ca. 20 MB pro Monat unauffällig mit Toolbar installiert zufällige Aktivierung durch Google-
Server
labs.google.com
„Spielwiese“ für Google-Entwickler erste Stufe im Entwicklungsprozeß keine direkte Unterstützung der
Funktionen möglicherweise zukünftige Bestandteile
der Google Services
Google Labs Technologien
VoiceSearch (labs.google.com/gvs.html)
– Suchanfrage via Telefon– Spracherkennung und Darstellung des
Ergebnisses auf spezieller Seite
Keyboard Shortcuts (labs.google.com/keys)
– Navigation innerhalb der Suchergebnisse mittels Tastatur
Glossary labs.google.com/glossary
Finden von Wörtern, Phrasen und Akronymen
Glossary labs.google.com/glossary
z. B. Benzodiazepine
Sets labs.google.com/sets
generierte Wortlisten anhand von eigenen Beispielen
labs.google.com/sets
Rund um Google
Google Weblog (google.blogspace.com)
– Sammlung von Links bezüglich Google
Rund um Google
Googlefight (www.googlefight.com)
– Vergleich der Ergebnisanzahl zweier Suchbegriffe