Upload
wanda-wertman
View
118
Download
0
Embed Size (px)
Citation preview
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 1
Smart Search Engines
Sam Joachim
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 2
Motivation
‚Information Overload‘ Suche nach konkreten Inhalten im Netz
Z.B.:
Ziel: „bessere“ Suchergebnisse, aber weniger Einsatz von Manpower
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 3
Agenda
The CLEVER Project
Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail)
Ontology-Focused Crawling
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 4
Clever Searching
Problem: traditionelle automatische Methoden zum Finden von Informationen werden durch qualitativ schlechte, unverknüpfte Inhalte ‚überwältigt‘
Zur Lösung werden mehrere Ansätze gebraucht: Enhancements to HITS algorithm Hypertext Classification Mining Communities Focused Crawling
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 5
kurz angerissen: HITS Algorithmen
Verbesserung der Ranking-Algorithmen von Suchmaschinen
Prezision und Funktionalität der zugrunde liegenden Algorithmen verbessern z.B. durch Geschwindigkeit und größeren
Datenvorhalt Nutzung von Querverweisen (Google u.a.) Werbung
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 6
kurz angerissen: Hypertext Classification
Kombination von Textauswertung und eines Graphes der Verlinkung
z.B. gut geeignet für einheitlich strukturierte Daten (Patentdatenbank oder Yahoo-Kategorien) Fehler fällt von 36 auf 21%
Probleme bei vielen nicht direkt verlinkten Webseiten
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 7
kurz angerissen: Mining Communities
Im Netz findet man rund 100,000 verschiedene Gruppen von Leuten, die, basierend auf gleichen Interessen innerhalb oder für ihre Community, Webseiten erstellen und pflegen
meist qualitativ hochwertige Informationen auf speziellen Gebieten
Problem: Finden solcher Gruppen / Seiten Einbinden in ein einheitliches Framework
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 8
Agenda
The CLEVER Project
Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail)
Ontology-Focused Crawling
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 9
Beispiel ARC – Anfänge
Automatic Recource Compiler Motivation: Yahoo und andere
Webkataloge beschäftigen viele Leute als ‚Surfer‘, das geht auch automatisch
Annahme: 2 Sorten von interessanten Seiten authority pages – beinhalten Informationen hub pages – verlinken thematisch
verbundene authority pages
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 10
ARC - Ablauf
Rootset mit Suchmaschine erstellen Erweitern des Rootsets durch alle in-
linking und out-linking Seiten Wertung der Seiten (Wiederholt):
authority a(p) = sum h(p) in-linking hub a(p) = sum a(p) out-linking
Wichtung der Werte durch den Text rund um den href-Tag
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 11
ARC – Berechnung
einfachen, schnelle Berechnung 2 Vektoren (a, h), 2 Matrix (W, Z=WT) h wird auf 1 gesetzt
k mal { a = W * h h = Z * a }
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 12
ARC - Ergebnisse
15 beste authority und hub pages wurden mit den Ergebnissen von Yahoo und Infoseek an die Probanden gegeben (kein Blindtest)
Einschätzung: ARC gleichauf mit von Menschen
erstellten Listen etwas besser bei speziellen oder nicht
kommerziellen Topics
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 13
Motivation: Focused Crawler
Crawler soll sich einen optimalen Weg durch das Web suchen gezieltes ‚Raten‘ durch Abschätung der
Relevanz Unwichtig Netzteile werden ignoriert
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 14
Beispiel – Focused Crawler
relevante Seiten zu einer Themenliste (gegeben als Webseiten) erstellen
Relevanz–Taxonomie aus Beispiel-Seiten entwickeln
2 Programmteile zum Hypertextmining classifier – Relevanz des Dokuments distiller – identifiziert Seiten, die innerhalb
weniger Links auf relevante Seiten verweisen (hubs)
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 15
Focused Crawler – Ergebnisse
keine irrelevanten Seiten innerhalb der ersten par hundert
im Durchschnitt: rund 3000 relevante Seiten innerhalb
eine Stunde mit Desktop PC Problem:
Verbesserung des destillers in Bezug auf nicht-textuelle Inhalte, zu untersuchende Linktiefe
Auswahl der „Lernstichprobe“
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 16
Agenda
The CLEVER Project
Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail)
Ontology-Focused Crawling
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 17
Ontology Focused Crawling
CATYRPEL – ontology focused crawling framework
Einbeziehung von Ontologien und neuen begrifflich und linguistisch Mitteln zur Verbesserung der Relevanz-Berechnung
verständliche Arbeitsumgebung / Tools
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 18
System Parts
User Interaktion Ontologie, Start-URLs vorgeben
Web crawling abrufen von Links (Relevanz-geordnet)
Preprozessing Text normalisieren, Wörterbücher
anwenden Ontologie Management Relevanz Berechnung
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 19
Abläufe im System
2 Kreisprozesse1) Ontology cycle
hauptsächlich manuell definieren des crawling targets durch
instanziierte Ontologie output:
Dokumentenliste mit gefundenen Seiten Vorschläge zur Erweiterung der Ontologie
2) Internet crawler Seiten holen und durch Verknüpfung mit
der Ontologie Relevanz berechnen ‚interssante‘ Links erkennen
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 20
System Parts & Ablauf
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 21
Relevanz Berechnung – 3 Phasen
Establish Entity Reference mit Hilfe von Lexikas, Grammatiken und
Thesaurus einzelne Begriffs-Token identifizieren
zählen Background Knowlegde Computation
Relevanz der Token berechnen Summarisation
Berechnen des Seitenrankings nur Elemente des Suchraums werden
einbezogen
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 22
Ontologie (Ausschnitt)
airplane
vehicle
transports
passenger
person
Marc Muster
military airplane
commercial airplane
B747A340
owned by
airline
Lufthansa
flies
flight
subClassOf
domain
range
instanceOf
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 23
Relevanz Sets
Wirken wie ein Filter, die nur bestimmte Token in die Berechnung einfließen lassen:
Single: Elemente, die im Dokument vorkommen Taxonomic: Elemente, die in der Ontologie direkt
verknüpft sind Relational: Elemente, die direkt verknüpft sind,
+ ihre Relationen (also mit Reichweite 2) Total: Elemente aus gesammter Ontologie, aber
gewichtet durch Entfernung von zentralem Fragebegriff
mit jedem Entfernungschritt wird das Gewicht um 50% geringer
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 24
Relevanz Sets
airplane
vehicle
transports
passenger
person
Marc Muster
military airplane
commercial airplane
B747A340
owned by
airline
Lufthansa
flies
flightSingle
Taxonomic
RelationalTotal
subClassOf
domain
range relation
instanceOf
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 25
Beispiel – Berechnung
Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane.
Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane.
text count rating score
ontology ontology
airbu_
lufthansa
airplane
vers_
airbus = 2
lufthansa = 1
airplane = 1
airbus = 2
lufthansa = 1
airplane = 4
score = 4
1. le
xic
on looku
p
2. re
levance
re
lati
onal, s
um
3. su
mm
ari
zati
on
Anscheinend nicht vollständig, oder nicht konsequent mit den selben Vorgaben gearbeitet.
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 26
Ergebnisse
deutliche Verbesserung von Standard-Crawlern nächste Ausbaustufe: auch Auswertung von Metadata
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 27
Zusammenfassung
weites Forschungsfeld
sehr gute Möglichkeiten zur Suche spezieller Informationen in bestimmten Einsatzgebieten
es fehlt eine Engine, die schon gegebene Ontologien auswertet
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 28
Quellen
1) S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan. D. Gibson, J. Kleinberg, „Automatic resource compilation by analyzing hyperling structure and associated text“, WWW7 1998
2) S. Chakrabarti, B. Dom and P. Indyk, „Enhanced hypertext categorization using hyperlinks“, ACM SIGMOD 1998
3) S. Chakrabarti, M. van den Berg, B. Dom, „Focused crawling: a new approach to topic-Specific Web resource discovery“, Elsevier Science 1999
4) S. Chakrabarti, K. Punera, M. Subramanyam, „Accelerated Focused crawling through Online Relevance Feedback“, WWW2002 2002
5) B. Berendt, A. Hotho, G. Stumme, „Towards Semantic Web Mining“, The Semantic Web - ISWC 2002
6) M. Ehring, A. Maedche, „Ontology-Focused Crawling of Web Dokuments“, SAC 2003