Schema Matching

Seminar Informationsintegration und –qualität

Andreas Rumpf

7.7.2006

Gliederung Motivation Taxonomie Schemabasierte Verfahren

Cupid Similiarity Flooding S-Match

Instanzenbasierte Verfahren LSD SEMINT

Evaluation Fazit

Motivation

Schema A:

Schema B:

Motivation

Schema A:

Schema B:

Taxonomie

Schema Matcher

Individuelle Matcher Kombinierende Matcher

Schemabasiert Instanzenbasiert Hybride Composite

AutomatischManuellElement-EbeneStruktur-EbeneElement-Ebene

Linguistisch Constraint

Constraint

LinguistischConstraint

Taxonomie (2)

Instanzen- vs. schemabasiert Element- vs. Struktur-Matching Sprache vs. Constraints

Kardinalitäten:

1:1, 1:n, n:1, n:m

2001 von Rahm, Bernstein, Madhavan entwickelt

Soll generisch sein Betrachtet Schemata als gerichtete Graphen Besteht aus linguistischem und strukturellem

Matcher

Cupid: Graph zu Schema A

electronics

Schema A:

Photo and Cameras

PID Name Qty Price

Cupid: Linguistischer Matcher Arbeitet auf Element-Ebene Ziel: Für jedes Element-Paar die Ähnlichkeit sim(s,t)

[0,1] berechnen Arbeitet in drei Phasen:

Normalisierung Tokenization (Photo_and_Cameras =

{Photo;and;Cameras}) Expansion (Qty = Quantity) Elimination (and)

Kategorisierung Vergleich

Cupid: Struktureller Matcher

Benutzt Ergebnisse des linguistischen Matchers und Datentyp-Kompatibilität als Ausgangspunkt

Schemata werden post-order durchlaufen (bottom-up-Strategie)

Starke Verbindung: Ähnlichkeit >= Schwellwert Heuristik: Für zwei Elemente s, t ist die relative

Anzahl von starken Verbindungen ihrer Blätter Maß für Ähnlichkeit

Cupid: Mappings

1:1 Wähle für Element s das t, für das sim(s,t)

maximal (und >= Schwellwert) 1:n

Wähle für Element s alle t, für die sim(s,t) >= Schwellwert

Cupid: Vor- und Nachteile

Vorteile: generisch kann auch 1:n-Kardinalitäten finden

Nachteil: für große Schemata noch ungeeignet

(Speichermangel)

Similarity Flooding

wurde 2001 von Melnik, Garcia-Molina, Rahm entwickelt

generischer Algorithmus, um Ähnlichkeit zwischen gerichteten markierten Graphen zu bestimmen

basiert auf einer Fixpunktiteration Fixpunkt muss nicht existieren Heuristik: Zwei Elemente sind ähnlich, wenn ihre

Nachbarn ähnlich sind

Similarity Flooding: Beispiel

Modell A

Modell B

Modell A

Modell B

Pairwise Connectivity Graph

a1,b1 a2,b1

Induced Propagation Graph

a1,b1 a2,b1

0.5 0,5

Pairwise Connectivity Graph

a1,b1 a2,b1

L2 1,0

1,0 1,0

1.0 1.0

0.5 0,5

1,0 1,0

1.0 1.0

0.5 0,5

1,0 1,0

1.5 2.5

0.5 0,5

1,0 1,0

1.5 2.5

0.5 0,5

1,0 1,0

0.5 0.8

0.5 0,5

1,0 1,0

Nach 5 Iterationen:

a, b a2, b1 a1, b2 a1, b1 a1, b a2, b2

1.0 0.91 0.69 0.39 0.33 0.33

Similarity Flooding: Vor- und Nachteile

Vorteile: allgemeiner Graphenalgorithmus einfach zu implementieren

Nachteile: allgemeiner Graphenalgorithmus stark abhängig von Struktur

S-Match

wurde von Giunchiglia, Shvaiko, Yatskevich 2005 entwickelt

arbeitet ausschließlich auf XML-Schemata Idee: Semantik erfassen Semantik in aussagenlogische Formeln

abbilden suche das mächtigste Matching, das keine

Formel verletzt

S-Match (2) Bezeichner werden durch WordNet auf Konzepte

abgebildet: Photo K(Photo) (Atome) Markierungen werden in aussagenlogische Formel

übersetzt: „Photo and Cameras“ = K(Photo) v K(Camera) Formeln beschreiben Mengen von Instanzen Zusammenhänge von Mengen A, B:

A = B A <-> B A <= B A -> B A >= B B -> A A ┴ B (disjunkt) ~(A & B) A idk B

Ziel: Matrix von Relationen

S-Match: Vor- und Nachteile

Vorteile: keine Ähnlichkeiten, sondern Relationen schnell

Nachteile: Überlappungen werden nicht gefunden

LSD (Learning Source Descriptions) wurde 2001 von Doan, Domingos, Halevy entwickelt

Ziel: Abbildung von mehreren Quell-Schemata zu Ziel-Schema

Benutzt Machine-Learning-Techniken Arbeitet nur auf XML (und DTD) Setzt auf Lern-Algorithmen auf Element-Ebene und auf kombinierenden Lerner (Meta-Lerner)

LSD: Trainingsphase

Ziel-Schema

Quell-Schema Quell-Schema

Extrahierte Daten Extrahierte Daten

Trainingsdaten Trainingsdaten Trainingsdaten

Basislerner Basislerner Basislerner

Meta-Lerner

LSD: Matching-Phase

Nach der Trainingsphase: Automatisches Matchen

Verbesserung der Ergebnisse durch Constraints

Generierte Mappings werden validiert und als Fallbeispiele aufgenommen

LSD: Basislerner Name Matcher:

nutzt Bezeichner eines XML-Elements Bezeichner von „ Qty“ = „Electronics -- Photo and Cameras

– Qty“ Fallbeispiele sind (Quell-Tag, Ziel-Tag)-Paare berechnet mit WHIRL die Ähnlichkeiten und lernt

Schwellwert Content Matcher:

ähnlich dem Name Matcher, aber: arbeitet auf Instanzen Fallbeispiele sind (Quell-Inhalt, Ziel-Tag)-Paare

LSD: Basislerner (2)

Naiver Bayes-Klassifikator arbeitet auf Texten der Instanzen Dokument X = (Token1, Token2, …, TokenN) Klassifikationsproblem: Mit welcher Wahrscheinlichkeit

gehört X zu Klasse C?

XML-Klassifikator baut auf Naivem Bayes-Klassifikator auf nutzt zusätzlich Baumstruktur: unterscheidet Knoten-

Tokens und Kanten-Tokens

LSD: Vor- und Nachteile

Vorteile: lernt dazu kann z.T. mit unstrukturierten Texten umgehen

Nachteile: Mappings als Fallbeispiele müssen manuell

erstellt werden Constraints müssen manuell eingegeben werden

SEMINT

SEMINT (Semantic Integrator) wurde 2000 von Li, Clifton entwickelt

Wie LSD nicht rein instanzenbasiert Benutzt neuronale Netze, um das Match-

Problem als Klassifikationsproblem zu lösen Berechnet Ähnlichkeiten zwischen Attributen

in Datenbanken

SEMINT (2) Parst die Datenbankschemata, um Informationen

aus der Datenbank automatisch zu extrahieren Instanzen statistische Merkmale eines Attributes

(Durchschnittswerte, Minimum, Maximum) Attribut = (x1, x2, …, xN)

Attribut-Typ wird berücksichtigt Punkte werden in Cluster eingeteilt (Schema A) Punkte von Schema B werden in Cluster abgebildet

SEMINT: Vor- und Nachteile

Vorteile: vollautomatisch skaliert gut (dank Clusterbildung)

Nachteile: Mehraufwand durch Clusterbildung für Benutzer String-Daten machen Probleme

Evaluation

Cupid SF S-Match LSD SEMINT

Anzahl Tests

2 9 2 4*5 5

Precision 0.45 - 1.0 0.8 0.78

Recall 0.6 - 0.98 0.8 0.86

Overall -0.13 0.6 0.98 0.6 0.48

Automatisches Schema-Matching ist schwierig; aufwändige Implementierungen

Schema-Matching ist subjektiv Praxis-Tauglichkeit? Schema-Matching ist KI-vollständig!

Schema Matching

Documents

On Evaluating Schema Matching and Mapping · 4 Zohra Bellahsene, Angela Bonifati, Fabien Duchateau, and Yannis Velegrakis E t is an element of the target schema, and e is a matching

Knowledge Base Augmentation · Schema Matching Ritze et al. (2016) Web DBpedia Slot lling Hassanzadeh et al. (2015) Web DBpedia,Schema.org Entity linking YAGO, Wikidata, Schema matching

Automatic Complex Schema Matching across Web …disi.unitn.it/~p2p/.../Matching/complexmatching-tods-hc-dec05.pdfAutomatic Complex Schema Matching across Web Query Interfaces: A Correlation

Informationsintegration Schema Mapping · Mapping Schema Mapping Schema Matching Modellierung Global-as-View und Lokal-as-View Modellierung Global-as-View Anfragebearbeitung Felix

Data and Schema Matching - Penn Engineeringzives/03s/cis650/schema... · 2003. 8. 29. · Data and Schema Matching Zachary G. Ives University of Pennsylvania April 16, 2003 “A survey

Improved Accuracy Evaluation of Schema Matching · PDF fileB. Villányi et al. Improved Accuracy Evaluation of Schema Matching Algorithms – 64 – There are many current, published

Generic Schema Matching using Cupid

Rewrite Techniques for Performance Optimization of Schema Matching Processes

EXPLORING SCHEMA MATCHING TO COMPARE ......(Rahm and Bernstein 2001). Schema matching is an extensive research field and it plays a central role in the context of database and data

A SURVEY OF APPROACHES TO AUTOMATIC SCHEMA MATCHING Sushant Vemparala Gaurang Telang

SCHEMA-BASED SEMANTIC MATCHING Pavel Shvaiko joint work on “semantic matching” with Fausto Giunchiglia and Mikalai Yatskevich joint work on “ontology matching”

Schema Matching Seminar WS 2007/08 Themen & Organisation · Schema Matching Seminar WS 2007/08 Themen & Organisation Prof. Felix Naumann, Alexander Albrecht, Frank Kaufer, Melanie

Schema Matching Using Directed Graph Matchingschema matching technique, whichuses statistics schema instances and does not require value from the interpretations, is proposed in this

Schema & Ontology Matching: Current Research Directions

Mar 27, 2008 Christiano Santiago1 Schema Matching Matching Large XML Schemas Erhard Rahm, Hong-Hai Do, Sabine Maßmann Putting Context into Schema Matching

A survey of approaches to automatic schema matching

On Leveraging Crowdsourcing Techniques for Schema Matching Networks

A Classification of Schema-based Matching Approaches

Multi-column Substring Matching For Database Schema ...lenzerin/DASI-School/materiale... · Multi-column Substring Matching For Database Schema Translation (And other wild thoughts

Informationsintegration Schema Matching 10.1.2006 Felix Naumann