View
218
Download
0
Category
Preview:
Citation preview
Ulf Leser: Informationsintegration 2
Inhalt dieser Vorlesung
• Wdh: Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration
Ulf Leser: Informationsintegration 3
Semantik von Namen
Name
Konzept Realweltliche Objekte
Intension Extension
repräsentiert
Ulf Leser: Informationsintegration 4
• Verschiedene Worte für dasselbe Konzept • Immer im Kontext der Anwendung
DB2:
Person( Id, Vorname, Nachname, Geschlecht)
DB1:
Angestellter( Id, Vorname, Name,männlich,weiblich)
Synonyme
Ulf Leser: Informationsintegration 5
• Gleiche Worte verschiedener Bedeutung • Treten oft bei Überschreitung von Domänengrenzen auf
DB2:
Protein( Id, Sequenz, organismus, Funktion, …)
DB1:
Angestellter( Id, Vorname, Name, m, w, Funktion)
Sekr., Sachbearbeiter, Bereichsleiter, etc.
Transport, Katalyse, Signal, …
Homonyme
Ulf Leser: Informationsintegration 6
Probleme
• Mögliche Beziehungen zwischen den Mengen realweltlicher Objekte, die Konzepte repräsentieren • A=B (Äquivalenz): „semantische“ (echte) Synonyme
• Kreditinstitut, Bank (?) • Gibt es echte Synonyme?
• A⊆B (Inklusion): B ist Hyperonym (Oberbegriff) zu A; A ist Hyponym zu B • Tochter ⊆ Kind
• A ∩ B ≠ ∅ ∧ A≠B (Überlappung): Schwierigster Fall • Küche-Kochnische; Haus-Gebäude; Regisseur-Schauspieler
• A ∩ B = ∅ (Disjunktheit): nicht verwandte Begriffe (häufigster Fall) • Dose-Lohnsteuerjahresausgleich
Ulf Leser: Informationsintegration 7
Semantische Integration
• Wie haben wir bisher semantische Heterogenität gelöst?
Ulf Leser: Informationsintegration 8
Semantische Integration
• Bisherige Lösung • Korrespondenzen definieren semantische Beziehungen zwischen Attributen,
Relationen, Anfragen • Die kann man raten (Schema Matching), herleiten (Schema Mapping) oder
spezifizieren • Lösung beschränkt auf Schemaebene
• Auf Datenebene kaum anwendbar, da zu viele Korrespondenzen notwendig wären
• Anfrageplanung ist im Kern „semantikfrei“ • Hantiert nur mit Äquivalenz- und Inklusionsbeziehungen
Ulf Leser: Informationsintegration 9
Software und Semantik
• Natürlichsprachige Webseite für eine Maschine
Quelle: [Hen0
Ulf Leser: Informationsintegration 10
XML ≠ maschinenlesbare Bedeutung
• XML Dokument für eine Maschine
< CV >
< name >
<education>
<work>
<private>
Quelle: [Hen0
Ulf Leser: Informationsintegration 11
Schemata
Gleiche Schemata helfen….
CV
name
education
work
private
< >
< >
< >
< >
< >
< Χς >
< ναµε >
<εδυχατιον>
<ωορκ>
<πριϖατε>
CV
name
education
work
private
< >
< >
< >
< >
< >
< Χς >
< ναµε >
<εδυχατιον>
<ωορκ>
<πριϖατε>
< CV > …indem sie intensional gleiche Elementen in Beziehung setzen.
private
Quelle: [Hen02]
Ulf Leser: Informationsintegration 12
Inhalt dieser Vorlesung
• Semantische Heterogenität • Semantische Integration • Ontologien
• Einführung • Thesauri und semantische Netze
• Beschreibungslogiken • Ontologiebasierte Integration
Ulf Leser: Informationsintegration 13
Andere Idee: Ontologien
• Hoffnung • Computer sollen Schemata „verstehen“ • Durch dieses Verständnis können Korrespondenzen automatisch abgeleitet
werden
• Problem • Computer „verstehen“ überhaupt nichts
• Ansatz der semantischen Integration • Semantische Definition aller Begriffe in einer Ontologie • Verwendung einer speziellen Beschreibungslogik
• Zur Beschreibung von Konzepten und deren Beziehungen zueinander
• Beziehungen zwischen Konzepten lassen sich dann logisch ableiten
Ulf Leser: Informationsintegration 14
Hoffnung
Schema 1 Schema 2 Korrespondenzen
Schema
Schema 1 Schema 2 Korrespondenzen
Ontologie
Ulf Leser: Informationsintegration 15
Ontologiebasierte Integration
KKH Hamburg Fuss Bein
Pat1 X
Pat2 X
UK München Fuss Oberschenkel
Pat1 X
Pat2 X
Körper
UntExtr ObereExtr
Fuss
Unterschenkel
Oberschenkel
Ulf Leser: Informationsintegration 16
Quelle UK München
UK München Fuss Oberschenkel
Pat1 X
Pat2 X
Körper
UntExtr ObereExtr
Fuss
Unterschenkel Oberschenkel
UK_Oberschenkel UK_Fuss
Richtung!
Synonym
Ulf Leser: Informationsintegration 17
Quelle KKH Hamburg
KKH Hamburg Fuss Bein
Pat1 X
Pat2 X
Körper
UntExtr ObereExtr
Fuss
Unterschenkel Oberschenkel
KKH_Fuss KKH_Bein
Ulf Leser: Informationsintegration 18
Anfrage 1
• Welche Semantik haben die Pfeile? • “Verletzungen der unteren Extremitäten“
Körper
UntExtr
Fuss Unterschenkel Oberschenkel
UK_Oberschenkel
UK_Fuss
KKH_Fuss
KKH_Bein UntExtr
Ulf Leser: Informationsintegration 19
Anfrage 2
• „Fußverletzungen“
Körper
UntExtr
Fuss Unterschenkel Oberschenkel
UK_Oberschenkel
UK_Fuss
KKH_Fuss
KKH_Bein
Fuss
Ulf Leser: Informationsintegration 20
Anfrage 3
• Beinverletzungen
Körper
UntExtr
Fuss Unterschenkel Oberschenkel
UK_Oberschenkel
UK_Fuss
KKH_Fuss
KKH_Bein
?
Ulf Leser: Informationsintegration 21
Aber …
• I.A. verwenden verschiedene Quellen verschiedene Ontologien • schauspieler ≡ person ⊓ ∃spielt_in.film • schauspieler ≡ mann ⊓ ∃beruf.schauspiel • schauspieler ≡ mensch ⊓ schummler • Sind das die selben Klassen von Personen?
• Ontologieintegration statt Schemaintegration • Ontologiealignment statt Schema Mapping
Ulf Leser: Informationsintegration 23
Normalfall
Schema 1
Korrespondenzen Ontologie 1
Korrespondenzen Schema 2
Ontologie 2
Ulf Leser: Informationsintegration 24
Standards
Schema 1 Schema 2 Korrespondenzen
Standard-
Ontologie
Ulf Leser: Informationsintegration 25
Idee hinter ontologiebasierter Integration
• Nur durch Verwendung von Ontologien zur Begriffser-klärung ist wenig gewonnen • Beschreibungslogiken sind ausdrucksstärker als relationale Schema / XML
Schema • Angabe der Beziehungen wird dadurch leichter
• Mehr Beziehungstypen sind ausdrückbar • Integrationsproblem wird aber eher schwieriger
• Stärke • Standardontologie zur Beschreibung der Konzepte einer Domäne • Quellen mappen ihre Schemata in diese Ontologie
• Schwäche • Standards werden nicht eingehalten • Hoher Aufwand zur Erstellung umfassender und akzeptierter Ontologien • Web2.0: Folksonomie, freies Tagging statt formale Definitionen
Ulf Leser: Informationsintegration 26
Schema und Daten
• Ontologien setzen Begriffe in Beziehung • Schemata: Begriffe und Struktur • Daten: Nur Begriffe
• Viele Anwendungen von Ontologien behandeln nur Heterogenität in den Daten • U.A. weil Ontologien schlecht mit struktureller Heterogenität umgehen
können • Veredelung von „Controlled Vocabularies“
Ulf Leser: Informationsintegration 27
Inhalt dieser Vorlesung
• Semantische Heterogenität • Semantische Integration • Ontologien
• Einführung • Thesauri und semantische Netze
• Beschreibungslogiken • Ontologiebasierte Integration
Ulf Leser: Informationsintegration 28
Was ist Ontologie?
• Philosophisch: Ontologie = Lehre vom Sein und den Bedingungen des menschlichen Seins
• Beantwortung von Fragen wie [wikipedia]
• What is existence? • What constitutes the identity of an object? • What is a physical object? • What features are the essential, as opposed to merely accidental, attributes
of a given object? • What are an object's properties or relations and how are they related to the
object itself? • When does an object go out of existence, as opposed to merely changing?
• Beispiel • Wenn ein Mensch stirbt – hört er auf zu existieren?
Ulf Leser: Informationsintegration 29
Was ist eine Ontologie für uns?
• Wikipedia.org • „An ontology is a data model that represents a set of concepts within a
domain and the relationships between those concepts. It is used to reason about the objects within that domain.”
• Tom Gruber [Gru93] • Eine Ontologie ist „an explicit specification of a conceptualisation“
• ‚Konzeptionalisierung‘: Abstraktes Modell von Phänomenen der wirklichen Welt durch Identifikation der relevanten Konzepte
• ‘Explizit’: Verwendete Konzepte (und deren Typen und Bedingungen darauf) sind explizit definiert und aufgeschrieben
• Spezifikation: Verwendung einer formalen Sprache
• OntologysWorks.com • „Ontology is not about peoples’ conceptions or interpretations, but about
the world.“
• Was unterscheidet sonst eine schlechte Ontologie von einer guten?
Ulf Leser: Informationsintegration 30
Domäne: Verwandtschaft
• Beantwortung von Fragen wie • Ist jede Großmutter eine Person? • Hat jede Großmutter ein Kind? • Ist jede Großmutter ein Elternteil? • Wie nenne ich jemanden, der mit dem Schwager meiner Schwester verheiratet ist
und keine Kinder hat? • …
Ulf Leser: Informationsintegration 31
Konzeptualisierung
Symbol Ding
Konzept
steht für
symbolisiert durch
• Konzeptualisierung einer Domäne • Anwendung oder Ausschnitt der Welt • Erfassung aller relevanten Konzepte • Erfassung der Beziehungen zwischen diesen Konzepten
• Insbesondere Subkategorie-Beziehungen
• Festlegung des Vokabulars, über das man sprechen kann
Ulf Leser: Informationsintegration 32
Explizite Spezifikation
• Konzepte und Beziehungen werden formal definiert • Verwendung einer formalen Sprache zur Spezifikation
• Wissensrepräsentationssprache
• Unterschiedliche Ausdrucksstärken
Catalog/ ID
General Logical
constraints
Terms/ glossary
Thesauri “narrower
term” relation Formal
is-a Frames
(properties)
Informal is-a
Formal instance
Value Restrs. Disjointness, Inverse, part-
of…
Source: Robert Stevens, From Building and Using Ontologies, U. of Manchester
Ulf Leser: Informationsintegration 33
Kommunikation
• Ontologien wurden ursprünglich zur Kommunikation zwischen Softwareagenten konzipiert • Nachricht: Sachverhalt + Ontologie
• Ziel: Unterstützung der Kommunikation in einer Gruppe von … (Personen, Programmen, Organisationen, …) • = Festlegung von Standards
• Ohne den Austausch von Daten machen Ontologien wenig Sinn • Zu viel Aufwand • Semantik von Begriffen muss dann nicht expliziert werden, sondern kann
verborgen im Code bleibe
Ulf Leser: Informationsintegration 34
Arten von Ontologien
• Domänen- oder anwendungsspezfische Ontologien • Das ist unser Thema
• Top-Level Ontologien • Dömanenübergreifende
Sachverhalte • Verknüpfen Ontologien
miteinander • Arbeitsersparnis • SUMO: Suggested
Upper Ont. (IEEE) • Cyc Upper Ontology
Thing
Individual Intangible
Situation Temporal Thing
Intangible Individual
Something Existing
SetOr Collection
Event Time Interval
Attribute Value
Physical Event
Mathematical Object
Relationship Role
Set- Mathematical
Collecti
TruthFunctional Function- Denotational
Quelle: Cycorp.com
Ulf Leser: Informationsintegration 35
Inhalt dieser Vorlesung
• Semantische Heterogenität • Semantische Integration • Ontologien
• Einführung • Thesauri und semantische Netze
• Beschreibungslogiken • Ontologiebasierte Integration
Ulf Leser: Informationsintegration 36
Thesaurus
• Einfachste Form einer Ontologie • Elemente
• Begriffe • Beziehungen
• ISA, SYNONYM_OF, PART_OF • Haben Eigenschaften (Symmetrie, Transitivität, …)
• Informeller: RELATED_TO, SIMILAR_TO, USED_FOR • Ohne feste Eigenschaften
• Graph der Begriffe und Beziehungen muss zyklenfrei sein (DAG) • Bezüglich der ISA und PART-OF Beziehung
• Anwendung: (Ein)ordnung von Dingen • Zuordnung von Schlagwörter oder Kategorien • Wichtig für die Suche: Transitivität der ISA Beziehung • Schwieriger: PART_OF
• Ist ein Embryo Teil des Körpers der Mutter? • Physikalisch umschlossen (wann)? Konstituierendes Teil? Notwendiges Teil?
Ulf Leser: Informationsintegration 37
Example: Gene Ontology
• Goals of the GO Consortium • Development of a structured vocabularies describing certain aspects of
molecular biology • Use of these vocabularies to annotate database objects
• Genes and gene products • Develop tools for editing and using the GeneOntology
• Three vocabularies • Biological processes • Molecular function • Intra-cellular location
• Created an ontology industry • OBO: Open Biomedical Ontology • Guidelines and best practice (and license) • App. 60 ontologies (1/2009)
Ulf Leser: Informationsintegration 38
Small Fraction of GO
Gene Ontology
Biological Process Molecular Function
Cellular Process
Cell Communication
Signal Transduction
Physiological Process
Metabolism
Protein Metabolism
Protein Modification
Binding
Nucleotide Binding
Catalytic Activity
Transferase Activity
Kinase Activity
Ulf Leser: Informationsintegration 40
Database Annotation InterPro
• Used by many databases • Allows cross-database search • Provides fixed meaning of terms
• As informal textual description, not as formal definitions
Ulf Leser: Informationsintegration 41
GO model
• A GO ontology is • A collection of terms • Each term has a (free text)
description • Each term has a unique ID (GO:XXXX) • Terms may have synonyms and DB-Xrefs • IS-A relationships • PART-OF relationships • IS-A and PART-OF relationships form (each) an acyclic graph • True Path rule: „Every path from a node back to the root must be
biologically accurate“
• Support for versioning • Obsolete terms
Ulf Leser: Informationsintegration 42
Example
• „Little semantic rigor“
• „Obsolete“? • Species specificity? • Equal names? • „... unlocalized is a ... „
Ulf Leser: Informationsintegration 43
Semantische Netze
• Aufgeben der Forderungen nach • Zyklenfreiheit • Begrenzter Zahl von Beziehungstypen
• Entwickelt als Wissensreprä- sentationsmechnismus in der künstlichen Intelligenz
• Kanten können beliebige Label tragen • Sehr flexibel • Aber: Inferenz ist praktisch nicht möglich
• Da keine Eigenschaften von Beziehungen sichergestellt sind
• Häufige Heuristik: Zwei Begriffe sind sich je ähnlicher, je kürzer der kürzeste Pfad zwischen ihnen
Ulf Leser: Informationsintegration 44
UMLS
• NLM project since 1986 • „... make it easy for users to link disparate information systems, including
computer-based patient records, bibliographic databases, factual databases, and expert systems ...“
• It is huge (2007) • 776,940 concepts • 2.10 million concept names • 19.000.000 relationships • 134 concept types • 54 relationship types
• Quarterly releases
Ulf Leser: Informationsintegration 45
UMLS Construction
• „Semantic network“ • Top-level ontology • Defines concept and relationship types
• Metathesaurus • Contains concepts • Amalgamation of 60 vocabularies and classifications • Multilingual
• Merging strategy • ... preserves the meanings, attributes and relationships between terms present in
its source vocabularies, while adding certain basic information and establishing synonymy and new relationships between concepts and terms from different source vocabularies ...
Ulf Leser: Informationsintegration 47
Data Quality of UMLS [Hahn et al. 02]
• Study • Transform UMLS (partly) in LOOM-KB • Check subsumption • Inconsistent: Parallel IS-A and PART-OF relations
Cycles Inconsistencies
Pathology (40000) 400 0
Anatomy (50000) 7 2800
Udo Hahn Ontology Engineering via Thesaurus Re-engineering, Heidelberg, 2002
„You cannot reason on UMLS“
Ulf Leser: Informationsintegration 48
Inhalt dieser Vorlesung
• Wdh: Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration
Ulf Leser: Informationsintegration 49
Wissensrepräsentationssprachen
• Entwickelt in den 80ziger • Urvater ist KL-ONE [BS85] • Beschreibungslogiken, Description Logics (DL), Terminologische Logiken • Vertreter: Classic, Loom, DAML, DAML+OIL, OWL, … • Ein weites Feld, das wir nur anreißen
• Formale Sprachen zur Definition von Konzepten und deren Beziehungen untereinander • Abbildbar auf Prädikatenlogik erster Stufe
• Konzepthierarchien und Klassenzugehörigkeit • Klassenzugehörigkeit und –beziehungen werden definiert oder abgeleitet • DL: Sag mir die Eigenschaften, und ich sage dir die Klasse • OO: Sag mir die Klasse, und ich sage dir die Eigenschaften
Ulf Leser: Informationsintegration 50
Description Logic
• Eine Description Logic ist eine formale Sprache
• Elemente einer DL sind • Atomarer Konzepte und Rollen • Abgeleitete Konzepte und abgeleitete Rollen
• Abgeleitet unter Verwendung einer je nach DL unterschiedlichen Menge von Operationen
• Axiome
• Konzepte werden immer als Mengen von Individuen interpretiert • Mengentheoretische Semantik
Ulf Leser: Informationsintegration 51
Atomare Elemente
• Atomare Konzepte • Uninterpretierte, eindeutige Namen • Konzept ~ Basisklasse
• Atomare Rollen • Uninterpretierte, eindeutige Namen • Rolle ~ Basisbeziehung
• Steht ein Konzept C in der Beziehung R zu einem Konzept D, so füllt C die Rolle R von D
Ulf Leser: Informationsintegration 52
Abgeleitete Konzepte
• Definition Seien C,D (atomare oder abgeleitete) Konzepte und R eine atomare Rolle. Dann können abgeleitete Konzepte wie folgt gebildet werden • C⊓D
• Das Konzept, dass alle Individuen in der Schnittmenge von C und D repräsentiert • C⊔D
• …, dass alle Individuen in der Vereinigungsmenge von C und D repräsentiert • ¬C
• …, dass das Komplement der Menge der Individuen in C repräsentiert • ∀R.C
• …, dass alle Individuen repräsentiert, deren Rollenfüller für R Individuen des Konzeptes C sind
• ∃R.C • …, dass alle Individuen repräsentiert, die mindestens einen Rollenfüller für R haben, der ein
Individuum des Konzeptes C ist • ≥nR
• …, dass alle Individuen repräsentiert, die höchstens n Rollenfüller für R haben (~Kardinalität)
Ulf Leser: Informationsintegration 53
Axiome
• Definition Seien C und D (atomare oder abgeleitete) Konzepte. Dann können Axiome die folgende Form haben • C≡D
• Alle Individuen von C sind auch Individuen von D und umgekehrt • C⊑D
• Alle Individuen von C sind auch Individuen von D
• Bemerkung
• Mit einem Axiom postuliert man eine Subsumptionsbeziehung • Klassifikation leitet eine Subsumptionsbeziehung ab • Wir werden später noch weitere Axiomarten kennen lernen
• Siehe OWL Full
Ulf Leser: Informationsintegration 54
Ontologie
• Definition Eine formale Ontologie besteht aus • einer Menge von atomare Konzepten, • einer Menge von atomaren Rollen, • einer Menge von abgeleiteten Konzepten und • einer Menge von Axiomen über den Konzepten/Rollen.
• Beispiel • Atomare Konzepte:
person, weiblich
• Atomare Rollen: hat_kind
• Abgeleitetes Konzept: person ⊓ weiblich
• Axiome:
Ulf Leser: Informationsintegration 55
Subsumption
• Definition Ein Konzept C subsumiert ein Konzept D, D⊑C, wenn alle Individuen von C auch Individuen von D sind • C ist generischer, abstrakter, allgemeiner als D
• Inferenz in DL bedeutet im wesentlichen das Beweisen von
Subsumptionsbeziehungen zwischen Konzepten • Die Entscheidbarkeit von Subsumption hängt von den
erlaubten Operationen zur Ableitung von Konzepten/Rollen und den erlaubten Axiome ab • In der hier verwendeten Sprache ist Subsumption unentscheibar • Das kümmert uns nicht
Ulf Leser: Informationsintegration 56
Konsistenz und Erfüllbarkeit
• Definition Gegeben ein Konzept C und eine Ontologie O mit C∈O. • C heißt erfüllbar, wenn es Individuen geben kann, die zur Menge der von C
repräsentierten Individuen gehört • O heißt widerspruchsfrei (oder konsistent), wenn alle Konzepte in O
erfüllbar sind
• Bemerkung • Erfüllbarkeit kann auf Subsumption zurückgeführt werden • Ist also Subsumption in einer DL entscheidbar, kann man für jede
Ontologie in diese DL Widerspruchsfreiheit testen
Ulf Leser: Informationsintegration 57
Klassifikation
• Definition Das Klassifikationsproblem für ein Konzept C bzgl. einer Ontologie O berechnet alle C subsumierenden bzw. von C subsumierten Klassen in O.
• Bemerkung • Offensichtlich ist Klassifikation lösbar, wenn Subsumption entscheidbar ist • Durch Klassifikation wird ein (neues) Konzept in die Konzepthierarchie von
O eingeordnet • Klassifikation basiert auf der Beschreibung der Eigenschaften von C durch
abgeleitete Konzepte und Axiome
Ulf Leser: Informationsintegration 58
Beispiel
• Ableitbare Subsumptionsbeziehungen • frau ⊑ person • frau ⊑ weiblich • mutter ⊑ frau ⊑ person • grossmutter ⊑ frau • grossmutter ⊑ elterteil
• Sei o∈grossmutter • Es folgt: o∈frau und o∈∃hat_kind.elternteil • Es folgt: o∈∃hat_kind.vater oder o∈∃hat_kind.mutter • Es folgt: o∈∃hat_kind.person • Es folgt: o∈mutter • Es folgt: o∈elternteil
• Inferenzalgorithmen lösen solche Probleme automatisch • Z.B. Racer, FaCT, …
Ulf Leser: Informationsintegration 59
Erfüllbarkeit
• Wir erweitern unsere Axiome und Konzepte • keine_grossmutter ≡ frau ⊓ ¬∃hat_kind.person • grossmutter ⊑ keine_grossmutter
• Nun haben wir ein unerfüllbares Konzept • Sei o∈grossmutter
• Es folgt: o∈∃hat_kind.elternteil • Es folgt: o∈∃hat_kind.person • Es folgt: o∉¬∃hat_kind.person • Es folgt: o∉keine_grossmutter • Also kann es kein Element von grossmutter geben • Das Konzept grossmutter ist unerfüllbar • Unsere Ontologie ist inkonsistent
Ulf Leser: Informationsintegration 60
Konzepthierarchie
• Sei ⊤ die Menge aller Individuen (das allgemeinste Konzept) • Definition
Die Konzepthierarchie einer Ontologie O ist ein Graph, der alle Konzepte als Knoten und alle Subsump- tionsbeziehungen als Kanten enthält.
• Lemma Ist eine Ontologie O widerspruchsfrei, so ist ihre Konzepthierarchie ein DAG mit ⊤ als Wurzel.
mann
vater
person
elternteil frau
mutter
grossmutter
weiblich
⊤
Ulf Leser: Informationsintegration 61
Ein weiteres Beispiel
• enzyme ≡ protein ⊓ ∃catalyses.reaction • peptide ≡ protein ⊓ <100 aminoacids • short_peptide ≡ Protein ⊓ <50 aminoacids • long_peptide ≡ protein ⊓ >100 aminoacids • long_peptide ⊑ peptide
• Was folgt?
Protein
Enzyme Peptide
Short_Peptide
- enzyme ⊑ protein - peptide ⊑ protein - long_peptide ⊑ protein - Unerfüllbar: long_peptide
Ulf Leser: Informationsintegration 62
DL und relationales Model / OO
• Keine Attribute • Attribute werden als eigene Konzepte definiert • Ob ein Konzept C ein Attribut A hat, wird über eine Rolle definiert
• Beispiel: person hatName name
• Beziehungen werden zu Rollen • Rollen und Attributkonzepte leben unabhängig von Klassen
• Beispiel: organization hatName name, person hatName name • hatName (name) ist eine (globale) Rolle (Konzept) mit einmal definierten
Eigenschaften • Ungleich dem Scope-Konzept in OO oder Programmiersprachen
Ulf Leser: Informationsintegration 63
Das Filmbeispiel
film person
schauspieler regisseur
fuehrt_regie_in
rolle
rolle_in
gespielt_von
titel
laenge name
nationalitaet kritik hat_kritik
hat_nationalitaet
hat_titel
hat_laenge hat_name
Ulf Leser: Informationsintegration 64
Inhalt dieser Vorlesung
• Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration
• Quellenkataloge • Integration durch Subsumption
Ulf Leser: Informationsintegration 65
Quellenkataloge
• Die einfachste Art der Integration vieler Quellen • So einfach, dass wir sie nicht unter Architekturen aufgeführt haben
• Quellenkataloge • Modelliere eine Ontologie (am einfachsten einen Thesaurus) der Domäne • Annotiere jede Quelle mit den Konzepten, zu denen sie Daten enthält • Benutzer verwenden den Thesaurus, um passende Quellen zu finden • Sehr populär (Web-Kataloge, DBCat, Yahoo Directories, …)
• Pro und Contra • Bietet eine schnelle Übersicht über „Was ist da“ • Einfach, schnell, billig, non-intrusive • Quellen müssen nicht kooperieren • Keine Überwindung von Heterogenität, keine Transparenz • Keine Integration in unserem Sinne
Ulf Leser: Informationsintegration 66
Integration durch Subsumption
• Wir konzentrieren uns ganz auf semantische Heterogenität • Bedeutung von Schemaelementen • Klassische Ontologiesprachen tun sich schwer mit struktureller
Heterogenität • Aber es gibt Erweiterungen; Kombinationen von DL und Datalog
• Vorgehen • Angelehnt an das SIMS Projekt [AHK96] • Eine Domänenontologie O fungiert als globales Schema • Exportrelationen der Quellen werden als Konzepte in O definiert • Einordnung in O erfolgt durch Subsumption • Was kann in dieser Welt eine Query sein?
Ulf Leser: Informationsintegration 67
Filmquellen und globale Ontologie
film person
schauspieler regisseur
fuehrt_regie_in
rolle
rolle_in
gespielt_von
titel
laenge name
nationalitaet kritik hat_kritik
hat_nationalitaet
hat_titel
hat_laenge hat_name
Ulf Leser: Informationsintegration 68
Einordnung 1
• Datenquelle spielfilme • Filme mit einer Länge über 79 Minuten • spielfilm ≡ film ⊓ ∀laenge>79
• „ ∀laenge<79“ ist nicht in unserer Sprache ausdrückbar • DL können nicht gut rechnen • Umwege sind möglich (sparen wir uns)
film person
schauspieler regisseur
fuehrt_regie_in
rolle
rolle_in
gespielt_von
titel
laenge name
nationalitaet kritik hat_kritik
hat_nationalitaet
hat_titel
hat_laenge hat_name
spielfilm laenge>79
Ulf Leser: Informationsintegration 69
Einordnung 2
• Datenquelle kurzfilme • Filme mit einer Länge unter 11 Minuten • kurzfilm ≡ film ⊓ ∀laenge<11
spielfilm laenge>79
kurzfilm laenge<11
film person
schauspieler regisseur
fuehrt_regie_in
rolle
rolle_in
gespielt_von
titel
laenge name
nationalitaet kritik hat_kritik
hat_nationalitaet
hat_titel
hat_laenge hat_name
Ulf Leser: Informationsintegration 70
gespielt_von
Einordnung 3
• Datenquelle us_spielfilme • Spielfilme mit Schauspielern aus den USA • Wir brauchen zunächst amerikanische Schauspieler und Rollen
• us_buerger ⊑ nationalitaet • us_schauspieler≡ schauspieler ⊓ ∀hat_nationalitaet.us_buerger • us_rolle ≡ rolle ⊓ ∀gespielt_von.us_schauspieler
• us_spielfilm ≡ spielfilm ⊓ ∀hat_rolle.us_schauspieler
• hat_rolle definieren als inverse Rolle zu rolle_in
film person
schauspieler regisseur
fuehrt_regie_in
rolle
rolle_in
gespielt_von
titel
laenge name
nationalitaet kritik hat_kritik
hat_nationalitaet
hat_titel
hat_laenge hat_name
spielfilm laenge>79
kurzfilm laenge<11
us_buerger
us_schauspieler hat_nationalitaet
us_rolle us_spielfilm
hat_rolle
Ulf Leser: Informationsintegration 71
Zusammen film titel laenge
person name
schauspieler nationalitaet
regisseur
fuehrt_regie_in
rolle kritik
rolle_in
gespielt_von
spielfilm laenge>79
kurzfilm laenge<11
us_schauspieler nationalitaet=‚US‘ us_spielfilm
rolle_in
hauptrolle
filmkritiken
spielfilm_kritiken kurzfilm_rolle
rolle_in
us_rolle
gespielt_von hat_rolle
Ulf Leser: Informationsintegration 73
Anfragebearbeitung
• Ein Konzept • Alle Filme, die kürzer als 20 Minuten sind • query1 ≡ film ⊓ ∀laenge<20
• Können wir per Subsumption in die Konzepthierarchie einordnen • kurzfilm ⊑ query1 ⊑ film
• Wo finden wir Antworten? • Alle spezielleren Konzepte sind sichere Antworten • Alle allgemeineren Konzepte sind potentielle
Antworten • Ergebnis: Inhalt aller spezielleren Konzepte,
die Datenquellen entsprechen
• Modellierung komplexerer Quellen? • Definition von Views auf dem Exportschema • Einordnung der Views in die Ontologie
film titel laenge
spielfilm laenge>79
kurzfilm laenge<11
query1
Ulf Leser: Informationsintegration 74
Inhalt dieser Vorlesung
• Semantische Heterogenität • Semantische Integration • Ontologien • Beschreibungslogiken • Ontologiebasierte Integration
• Quellenkataloge • Integration durch Subsumption
• Bewertung und Einordnung
Ulf Leser: Informationsintegration 76
Bewertung: Ontologiebasierte Integration
• Ausdrucksstark zur Definition semantischer Unterschiede • Schwach bei struktureller Heterogenität • Basiert auf einem globalen Schema
• Benutzer müssen ein komplexes Modell neu lernen
• Ontologiedesign ist kompliziert • Modellierung je komplexer, je ausdrucksstärker die Modellierungssprache • Ontology Engineering – wie geht man vor? Wann hört man auf?
• Wesentliche Erleichterung bei der Integration wird nur erreicht, wenn Ontologien als Standard akzeptiert werden • Durch die semantische Ausdrucksstärke sind sie gut geeignet zur Definition
von Standards
• Kein „silver bullet“
Ulf Leser: Informationsintegration 77
Literaturhinweise
• [AKS96] Arens, Y., Knoblock, C. A. and Shen, W.-M. (1996). "Query Reformulation for Dynamic Information Integration." Journal of Intelligent Information Systems - Special Issue on Intelligent Information Integration 6(2/3): 99-130.
• [BBBG+98] Baker, P. G., Brass, A., Bechhofer, S., Goble, C., Paton, N. and Quinn, M. (1998). "Transparent Access to Multiple Biological Information Sources: An Overview", University of Manchester.
• [BS85] Brachman, R. J. and Schmolze, J. G. (1985). "An Overview of the KL-ONE Knowledge Representation System." Cognitive Science 9(2): 171-216.
• [Gru93] Gruber, T. R. (1993). "A Translation Approach to Portable Ontology Specifications." Knowledge Acquisition 5(2): 199-220.
• [HM01] Haarslev, V. and Möller, R. (2001). "Description of the RACER System and its Applications". Description Logics 2001, Stanford, CA.
Recommended