28
"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 1 Smart Search Engines Sam Joachim [email protected]

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim [email protected]

Embed Size (px)

Citation preview

Page 1: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 1

Smart Search Engines

Sam Joachim

[email protected]

Page 2: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 2

Motivation

‚Information Overload‘ Suche nach konkreten Inhalten im Netz

Z.B.:

Ziel: „bessere“ Suchergebnisse, aber weniger Einsatz von Manpower

Page 3: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 3

Agenda

The CLEVER Project

Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail)

Ontology-Focused Crawling

Page 4: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 4

Clever Searching

Problem: traditionelle automatische Methoden zum Finden von Informationen werden durch qualitativ schlechte, unverknüpfte Inhalte ‚überwältigt‘

Zur Lösung werden mehrere Ansätze gebraucht: Enhancements to HITS algorithm Hypertext Classification Mining Communities Focused Crawling

Page 5: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 5

kurz angerissen: HITS Algorithmen

Verbesserung der Ranking-Algorithmen von Suchmaschinen

Prezision und Funktionalität der zugrunde liegenden Algorithmen verbessern z.B. durch Geschwindigkeit und größeren

Datenvorhalt Nutzung von Querverweisen (Google u.a.) Werbung

Page 6: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 6

kurz angerissen: Hypertext Classification

Kombination von Textauswertung und eines Graphes der Verlinkung

z.B. gut geeignet für einheitlich strukturierte Daten (Patentdatenbank oder Yahoo-Kategorien) Fehler fällt von 36 auf 21%

Probleme bei vielen nicht direkt verlinkten Webseiten

Page 7: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 7

kurz angerissen: Mining Communities

Im Netz findet man rund 100,000 verschiedene Gruppen von Leuten, die, basierend auf gleichen Interessen innerhalb oder für ihre Community, Webseiten erstellen und pflegen

meist qualitativ hochwertige Informationen auf speziellen Gebieten

Problem: Finden solcher Gruppen / Seiten Einbinden in ein einheitliches Framework

Page 8: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 8

Agenda

The CLEVER Project

Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail)

Ontology-Focused Crawling

Page 9: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 9

Beispiel ARC – Anfänge

Automatic Recource Compiler Motivation: Yahoo und andere

Webkataloge beschäftigen viele Leute als ‚Surfer‘, das geht auch automatisch

Annahme: 2 Sorten von interessanten Seiten authority pages – beinhalten Informationen hub pages – verlinken thematisch

verbundene authority pages

Page 10: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 10

ARC - Ablauf

Rootset mit Suchmaschine erstellen Erweitern des Rootsets durch alle in-

linking und out-linking Seiten Wertung der Seiten (Wiederholt):

authority a(p) = sum h(p) in-linking hub a(p) = sum a(p) out-linking

Wichtung der Werte durch den Text rund um den href-Tag

Page 11: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 11

ARC – Berechnung

einfachen, schnelle Berechnung 2 Vektoren (a, h), 2 Matrix (W, Z=WT) h wird auf 1 gesetzt

k mal { a = W * h h = Z * a }

Page 12: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 12

ARC - Ergebnisse

15 beste authority und hub pages wurden mit den Ergebnissen von Yahoo und Infoseek an die Probanden gegeben (kein Blindtest)

Einschätzung: ARC gleichauf mit von Menschen

erstellten Listen etwas besser bei speziellen oder nicht

kommerziellen Topics

Page 13: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 13

Motivation: Focused Crawler

Crawler soll sich einen optimalen Weg durch das Web suchen gezieltes ‚Raten‘ durch Abschätung der

Relevanz Unwichtig Netzteile werden ignoriert

Page 14: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 14

Beispiel – Focused Crawler

relevante Seiten zu einer Themenliste (gegeben als Webseiten) erstellen

Relevanz–Taxonomie aus Beispiel-Seiten entwickeln

2 Programmteile zum Hypertextmining classifier – Relevanz des Dokuments distiller – identifiziert Seiten, die innerhalb

weniger Links auf relevante Seiten verweisen (hubs)

Page 15: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 15

Focused Crawler – Ergebnisse

keine irrelevanten Seiten innerhalb der ersten par hundert

im Durchschnitt: rund 3000 relevante Seiten innerhalb

eine Stunde mit Desktop PC Problem:

Verbesserung des destillers in Bezug auf nicht-textuelle Inhalte, zu untersuchende Linktiefe

Auswahl der „Lernstichprobe“

Page 16: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 16

Agenda

The CLEVER Project

Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail)

Ontology-Focused Crawling

Page 17: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 17

Ontology Focused Crawling

CATYRPEL – ontology focused crawling framework

Einbeziehung von Ontologien und neuen begrifflich und linguistisch Mitteln zur Verbesserung der Relevanz-Berechnung

verständliche Arbeitsumgebung / Tools

Page 18: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 18

System Parts

User Interaktion Ontologie, Start-URLs vorgeben

Web crawling abrufen von Links (Relevanz-geordnet)

Preprozessing Text normalisieren, Wörterbücher

anwenden Ontologie Management Relevanz Berechnung

Page 19: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 19

Abläufe im System

2 Kreisprozesse1) Ontology cycle

hauptsächlich manuell definieren des crawling targets durch

instanziierte Ontologie output:

Dokumentenliste mit gefundenen Seiten Vorschläge zur Erweiterung der Ontologie

2) Internet crawler Seiten holen und durch Verknüpfung mit

der Ontologie Relevanz berechnen ‚interssante‘ Links erkennen

Page 20: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 20

System Parts & Ablauf

Page 21: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 21

Relevanz Berechnung – 3 Phasen

Establish Entity Reference mit Hilfe von Lexikas, Grammatiken und

Thesaurus einzelne Begriffs-Token identifizieren

zählen Background Knowlegde Computation

Relevanz der Token berechnen Summarisation

Berechnen des Seitenrankings nur Elemente des Suchraums werden

einbezogen

Page 22: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 22

Ontologie (Ausschnitt)

airplane

vehicle

transports

passenger

person

Marc Muster

military airplane

commercial airplane

B747A340

owned by

airline

Lufthansa

flies

flight

subClassOf

domain

range

instanceOf

Page 23: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 23

Relevanz Sets

Wirken wie ein Filter, die nur bestimmte Token in die Berechnung einfließen lassen:

Single: Elemente, die im Dokument vorkommen Taxonomic: Elemente, die in der Ontologie direkt

verknüpft sind Relational: Elemente, die direkt verknüpft sind,

+ ihre Relationen (also mit Reichweite 2) Total: Elemente aus gesammter Ontologie, aber

gewichtet durch Entfernung von zentralem Fragebegriff

mit jedem Entfernungschritt wird das Gewicht um 50% geringer

Page 24: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 24

Relevanz Sets

airplane

vehicle

transports

passenger

person

Marc Muster

military airplane

commercial airplane

B747A340

owned by

airline

Lufthansa

flies

flightSingle

Taxonomic

RelationalTotal

subClassOf

domain

range relation

instanceOf

Page 25: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 25

Beispiel – Berechnung

Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane.

Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane.

text count rating score

ontology ontology

airbu_

lufthansa

airplane

vers_

airbus = 2

lufthansa = 1

airplane = 1

airbus = 2

lufthansa = 1

airplane = 4

score = 4

1. le

xic

on looku

p

2. re

levance

re

lati

onal, s

um

3. su

mm

ari

zati

on

Anscheinend nicht vollständig, oder nicht konsequent mit den selben Vorgaben gearbeitet.

Page 26: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 26

Ergebnisse

deutliche Verbesserung von Standard-Crawlern nächste Ausbaustufe: auch Auswertung von Metadata

Page 27: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 27

Zusammenfassung

weites Forschungsfeld

sehr gute Möglichkeiten zur Suche spezieller Informationen in bestimmten Einsatzgebieten

es fehlt eine Engine, die schon gegebene Ontologien auswertet

Page 28: "Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim joachim@informatik.hu-berlin.de

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 28

Quellen

1) S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan. D. Gibson, J. Kleinberg, „Automatic resource compilation by analyzing hyperling structure and associated text“, WWW7 1998

2) S. Chakrabarti, B. Dom and P. Indyk, „Enhanced hypertext categorization using hyperlinks“, ACM SIGMOD 1998

3) S. Chakrabarti, M. van den Berg, B. Dom, „Focused crawling: a new approach to topic-Specific Web resource discovery“, Elsevier Science 1999

4) S. Chakrabarti, K. Punera, M. Subramanyam, „Accelerated Focused crawling through Online Relevance Feedback“, WWW2002 2002

5) B. Berendt, A. Hotho, G. Stumme, „Towards Semantic Web Mining“, The Semantic Web - ISWC 2002

6) M. Ehring, A. Maedche, „Ontology-Focused Crawling of Web Dokuments“, SAC 2003