"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim [email protected]

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim 1

Smart Search Engines

Sam Joachim

[email protected]


Motivation

‚Information Overload‘ Suche nach konkreten Inhalten im Netz

Z.B.:

Ziel: „bessere“ Suchergebnisse, aber weniger Einsatz von Manpower


Agenda

The CLEVER Project

Enhancements to HITS algorithm Hypertext Classification Mining Communities. Focused Crawling (en detail)

Ontology-Focused Crawling


Clever Searching

Problem: traditionelle automatische Methoden zum Finden von Informationen werden durch qualitativ schlechte, unverknüpfte Inhalte ‚überwältigt‘

Zur Lösung werden mehrere Ansätze gebraucht: Enhancements to HITS algorithm Hypertext Classification Mining Communities Focused Crawling


kurz angerissen: HITS Algorithmen

Verbesserung der Ranking-Algorithmen von Suchmaschinen

Prezision und Funktionalität der zugrunde liegenden Algorithmen verbessern z.B. durch Geschwindigkeit und größeren

Datenvorhalt Nutzung von Querverweisen (Google u.a.) Werbung


kurz angerissen: Hypertext Classification

Kombination von Textauswertung und eines Graphes der Verlinkung

z.B. gut geeignet für einheitlich strukturierte Daten (Patentdatenbank oder Yahoo-Kategorien) Fehler fällt von 36 auf 21%

Probleme bei vielen nicht direkt verlinkten Webseiten


kurz angerissen: Mining Communities

Im Netz findet man rund 100,000 verschiedene Gruppen von Leuten, die, basierend auf gleichen Interessen innerhalb oder für ihre Community, Webseiten erstellen und pflegen

meist qualitativ hochwertige Informationen auf speziellen Gebieten

Problem: Finden solcher Gruppen / Seiten Einbinden in ein einheitliches Framework


Agenda

The CLEVER Project




Beispiel ARC – Anfänge

Automatic Recource Compiler Motivation: Yahoo und andere

Webkataloge beschäftigen viele Leute als ‚Surfer‘, das geht auch automatisch

Annahme: 2 Sorten von interessanten Seiten authority pages – beinhalten Informationen hub pages – verlinken thematisch

verbundene authority pages


ARC - Ablauf

Rootset mit Suchmaschine erstellen Erweitern des Rootsets durch alle in-

linking und out-linking Seiten Wertung der Seiten (Wiederholt):

authority a(p) = sum h(p) in-linking hub a(p) = sum a(p) out-linking

Wichtung der Werte durch den Text rund um den href-Tag


ARC – Berechnung

einfachen, schnelle Berechnung 2 Vektoren (a, h), 2 Matrix (W, Z=WT) h wird auf 1 gesetzt

k mal { a = W * h h = Z * a }


ARC - Ergebnisse

15 beste authority und hub pages wurden mit den Ergebnissen von Yahoo und Infoseek an die Probanden gegeben (kein Blindtest)

Einschätzung: ARC gleichauf mit von Menschen

erstellten Listen etwas besser bei speziellen oder nicht

kommerziellen Topics


Motivation: Focused Crawler

Crawler soll sich einen optimalen Weg durch das Web suchen gezieltes ‚Raten‘ durch Abschätung der

Relevanz Unwichtig Netzteile werden ignoriert


Beispiel – Focused Crawler

relevante Seiten zu einer Themenliste (gegeben als Webseiten) erstellen

Relevanz–Taxonomie aus Beispiel-Seiten entwickeln

2 Programmteile zum Hypertextmining classifier – Relevanz des Dokuments distiller – identifiziert Seiten, die innerhalb

weniger Links auf relevante Seiten verweisen (hubs)


Focused Crawler – Ergebnisse

keine irrelevanten Seiten innerhalb der ersten par hundert

im Durchschnitt: rund 3000 relevante Seiten innerhalb

eine Stunde mit Desktop PC Problem:

Verbesserung des destillers in Bezug auf nicht-textuelle Inhalte, zu untersuchende Linktiefe

Auswahl der „Lernstichprobe“


Agenda

The CLEVER Project




Ontology Focused Crawling

CATYRPEL – ontology focused crawling framework

Einbeziehung von Ontologien und neuen begrifflich und linguistisch Mitteln zur Verbesserung der Relevanz-Berechnung

verständliche Arbeitsumgebung / Tools


System Parts

User Interaktion Ontologie, Start-URLs vorgeben

Web crawling abrufen von Links (Relevanz-geordnet)

Preprozessing Text normalisieren, Wörterbücher

anwenden Ontologie Management Relevanz Berechnung


Abläufe im System

2 Kreisprozesse1) Ontology cycle

hauptsächlich manuell definieren des crawling targets durch

instanziierte Ontologie output:

Dokumentenliste mit gefundenen Seiten Vorschläge zur Erweiterung der Ontologie

2) Internet crawler Seiten holen und durch Verknüpfung mit

der Ontologie Relevanz berechnen ‚interssante‘ Links erkennen


System Parts & Ablauf


Relevanz Berechnung – 3 Phasen

Establish Entity Reference mit Hilfe von Lexikas, Grammatiken und

Thesaurus einzelne Begriffs-Token identifizieren

zählen Background Knowlegde Computation

Relevanz der Token berechnen Summarisation

Berechnen des Seitenrankings nur Elemente des Suchraums werden

einbezogen


Ontologie (Ausschnitt)

airplane

vehicle

transports

passenger

person

Marc Muster

military airplane

commercial airplane

B747A340

owned by

airline

Lufthansa

flies

flight

subClassOf

domain

range

instanceOf


Relevanz Sets

Wirken wie ein Filter, die nur bestimmte Token in die Berechnung einfließen lassen:

Single: Elemente, die im Dokument vorkommen Taxonomic: Elemente, die in der Ontologie direkt

verknüpft sind Relational: Elemente, die direkt verknüpft sind,

+ ihre Relationen (also mit Reichweite 2) Total: Elemente aus gesammter Ontologie, aber

gewichtet durch Entfernung von zentralem Fragebegriff

mit jedem Entfernungschritt wird das Gewicht um 50% geringer


Relevanz Sets

airplane

vehicle

transports

passenger

person

Marc Muster

military airplane

commercial airplane

B747A340

owned by

airline

Lufthansa

flies

flightSingle

Taxonomic

RelationalTotal

subClassOf

domain

range relation

instanceOf


Beispiel – Berechnung

Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane.

Lufthansa just received ist newest Airbus A340 from the base in Toulouse. Airbus Industries added some new features to this version of the airplane.

text count rating score

ontology ontology

airbu_

lufthansa

airplane

vers_

airbus = 2

lufthansa = 1

airplane = 1

airbus = 2

lufthansa = 1

airplane = 4

score = 4

1. le

xic

on looku

p

2. re

levance

re

lati

onal, s

um

3. su

mm

ari

zati

on

Anscheinend nicht vollständig, oder nicht konsequent mit den selben Vorgaben gearbeitet.


Ergebnisse

deutliche Verbesserung von Standard-Crawlern nächste Ausbaustufe: auch Auswertung von Metadata


Zusammenfassung

weites Forschungsfeld

sehr gute Möglichkeiten zur Suche spezieller Informationen in bestimmten Einsatzgebieten

es fehlt eine Engine, die schon gegebene Ontologien auswertet


Quellen

1) S. Chakrabarti, B. Dom, P. Raghavan, S. Rajagopalan. D. Gibson, J. Kleinberg, „Automatic resource compilation by analyzing hyperling structure and associated text“, WWW7 1998

2) S. Chakrabarti, B. Dom and P. Indyk, „Enhanced hypertext categorization using hyperlinks“, ACM SIGMOD 1998

3) S. Chakrabarti, M. van den Berg, B. Dom, „Focused crawling: a new approach to topic-Specific Web resource discovery“, Elsevier Science 1999

4) S. Chakrabarti, K. Punera, M. Subramanyam, „Accelerated Focused crawling through Online Relevance Feedback“, WWW2002 2002

5) B. Berendt, A. Hotho, G. Stumme, „Towards Semantic Web Mining“, The Semantic Web - ISWC 2002

6) M. Ehring, A. Maedche, „Ontology-Focused Crawling of Web Dokuments“, SAC 2003

Documents

"Smart Search Engines", Seminar "Knowledge and the Web", 2003, Sam Joachim1 Smart Search Engines Sam Joachim [email protected]