35
Schema Matching Seminar Informationsintegration und –qualität Andreas Rumpf 7.7.2006

Schema Matching

  • Upload
    clyde

  • View
    62

  • Download
    0

Embed Size (px)

DESCRIPTION

Schema Matching. Seminar Informationsintegration und –qualität Andreas Rumpf 7.7.2006. Gliederung. Motivation Taxonomie Schemabasierte Verfahren Cupid Similiarity Flooding S-Match Instanzenbasierte Verfahren LSD SEMINT Evaluation Fazit. 1. Motivation. Schema A: - PowerPoint PPT Presentation

Citation preview

Page 1: Schema Matching

Schema Matching

Seminar Informationsintegration und –qualität

Andreas Rumpf

7.7.2006

Page 2: Schema Matching

Gliederung Motivation Taxonomie Schemabasierte Verfahren

Cupid Similiarity Flooding S-Match

Instanzenbasierte Verfahren LSD SEMINT

Evaluation Fazit

1

Page 3: Schema Matching

Motivation

Schema A:

<electronics> <Photo_and_Cameras> <PID type=string/> <Name type=string/> <Qty type= positiveInteger/> <Price type=double/> </Photo_and_Cameras> ...</electronics>

Schema B:

<electronics> <Cameras_and_Photo> <Accessories/> <DigitalCameras/> <ID type=int/> <Brand type=string/> <Amount type=int/> <Price type=float/> </Cameras_and_Photo> ...</electronics>

?

2

Page 4: Schema Matching

Motivation

Schema A:

<electronics> <Photo_and_Cameras> <PID type=string/> <Name type=string/> <Qty type= positiveInteger/> <Price type=double/> </Photo_and_Cameras> ...</electronics>

Schema B:

<electronics> <Cameras_and_Photo> <Accessories/> <DigitalCameras/> <ID type=int/> <Brand type=string/> <Amount type=int/> <Price type=float/> </Cameras_and_Photo> ...</electronics>

2

Page 5: Schema Matching

Taxonomie

Schema Matcher

Individuelle Matcher Kombinierende Matcher

Schemabasiert Instanzenbasiert Hybride Composite

AutomatischManuellElement-EbeneStruktur-EbeneElement-Ebene

Linguistisch Constraint

Constraint

LinguistischConstraint

3

Page 6: Schema Matching

Taxonomie (2)

Instanzen- vs. schemabasiert Element- vs. Struktur-Matching Sprache vs. Constraints

Kardinalitäten:

1:1, 1:n, n:1, n:m

4

Page 7: Schema Matching

Cupid

2001 von Rahm, Bernstein, Madhavan entwickelt

Soll generisch sein Betrachtet Schemata als gerichtete Graphen Besteht aus linguistischem und strukturellem

Matcher

5

Page 8: Schema Matching

Cupid: Graph zu Schema A

electronics

Schema A:

<electronics> <Photo_and_Cameras> <PID type=string/> <Name type=string/> <Qty type= positiveInteger/> <Price type=double/> </Photo_and_Cameras> ...</electronics>

Photo and Cameras

PID Name Qty Price

6

Page 9: Schema Matching

Cupid: Linguistischer Matcher Arbeitet auf Element-Ebene Ziel: Für jedes Element-Paar die Ähnlichkeit sim(s,t)

[0,1] berechnen Arbeitet in drei Phasen:

Normalisierung Tokenization (Photo_and_Cameras =

{Photo;and;Cameras}) Expansion (Qty = Quantity) Elimination (and)

Kategorisierung Vergleich

7

Page 10: Schema Matching

Cupid: Struktureller Matcher

Benutzt Ergebnisse des linguistischen Matchers und Datentyp-Kompatibilität als Ausgangspunkt

Schemata werden post-order durchlaufen (bottom-up-Strategie)

Starke Verbindung: Ähnlichkeit >= Schwellwert Heuristik: Für zwei Elemente s, t ist die relative

Anzahl von starken Verbindungen ihrer Blätter Maß für Ähnlichkeit

8

Page 11: Schema Matching

Cupid: Mappings

1:1 Wähle für Element s das t, für das sim(s,t)

maximal (und >= Schwellwert) 1:n

Wähle für Element s alle t, für die sim(s,t) >= Schwellwert

9

Page 12: Schema Matching

Cupid: Vor- und Nachteile

Vorteile: generisch kann auch 1:n-Kardinalitäten finden

Nachteil: für große Schemata noch ungeeignet

(Speichermangel)

10

Page 13: Schema Matching

Similarity Flooding

wurde 2001 von Melnik, Garcia-Molina, Rahm entwickelt

generischer Algorithmus, um Ähnlichkeit zwischen gerichteten markierten Graphen zu bestimmen

basiert auf einer Fixpunktiteration Fixpunkt muss nicht existieren Heuristik: Zwei Elemente sind ähnlich, wenn ihre

Nachbarn ähnlich sind

11

Page 14: Schema Matching

Similarity Flooding: Beispiel

a

a1 a2

Modell A

b

b1 b2

Modell B

L1

L1

L2

L2

L1

L2

12

Page 15: Schema Matching

Similarity Flooding: Beispiel

a

a1 a2

Modell A

b

b1 b2

Modell B

L1

L1

L2

L2

L1

L2

Pairwise Connectivity Graph

a,b

a1,b1 a2,b1

a1,b2

a2,b2

a1,b

L1

L1

L2

L2

12

Page 16: Schema Matching

Similarity Flooding: Beispiel

Induced Propagation Graph

a,b

a1,b1 a2,b1

a1,b2

a2,b2

a1,b

0.5 0,5

1,0

Pairwise Connectivity Graph

a,b

a1,b1 a2,b1

a1,b2

a2,b2

a1,b

L1

L1

L2

L2 1,0

1,0

1,0 1,0

13

Page 17: Schema Matching

Similarity Flooding: Beispiel

Induced Propagation Graph

1.0

1.0 1.0

1.0

1.0

1.0

0.5 0,5

1,0

1,0

1,0

1,0 1,0

14

Page 18: Schema Matching

Similarity Flooding: Beispiel

Induced Propagation Graph

1.0

1.0 1.0

1.0

1.0

1.0

0.5 0,5

1,0

1,0

1,0

1,0 1,0

14

Induced Propagation Graph

3.0

1.5 2.5

2.0

2.0

2.0

0.5 0,5

1,0

1,0

1,0

1,0 1,0

Page 19: Schema Matching

Similarity Flooding: Beispiel

Induced Propagation Graph

3.0

1.5 2.5

2.0

2.0

2.0

0.5 0,5

1,0

1,0

1,0

1,0 1,0

Induced Propagation Graph

1.0

0.5 0.8

0.6

0.6

0.6

0.5 0,5

1,0

1,0

1,0

1,0 1,0

14

Page 20: Schema Matching

Similarity Flooding: Beispiel

Nach 5 Iterationen:

a, b a2, b1 a1, b2 a1, b1 a1, b a2, b2

1.0 0.91 0.69 0.39 0.33 0.33

15

Page 21: Schema Matching

Similarity Flooding: Vor- und Nachteile

Vorteile: allgemeiner Graphenalgorithmus einfach zu implementieren

Nachteile: allgemeiner Graphenalgorithmus stark abhängig von Struktur

16

Page 22: Schema Matching

S-Match

wurde von Giunchiglia, Shvaiko, Yatskevich 2005 entwickelt

arbeitet ausschließlich auf XML-Schemata Idee: Semantik erfassen Semantik in aussagenlogische Formeln

abbilden suche das mächtigste Matching, das keine

Formel verletzt

17

Page 23: Schema Matching

S-Match (2) Bezeichner werden durch WordNet auf Konzepte

abgebildet: Photo K(Photo) (Atome) Markierungen werden in aussagenlogische Formel

übersetzt: „Photo and Cameras“ = K(Photo) v K(Camera) Formeln beschreiben Mengen von Instanzen Zusammenhänge von Mengen A, B:

A = B A <-> B A <= B A -> B A >= B B -> A A ┴ B (disjunkt) ~(A & B) A idk B

Ziel: Matrix von Relationen

18

Page 24: Schema Matching

S-Match: Vor- und Nachteile

Vorteile: keine Ähnlichkeiten, sondern Relationen schnell

Nachteile: Überlappungen werden nicht gefunden

19

Page 25: Schema Matching

LSD

LSD (Learning Source Descriptions) wurde 2001 von Doan, Domingos, Halevy entwickelt

Ziel: Abbildung von mehreren Quell-Schemata zu Ziel-Schema

Benutzt Machine-Learning-Techniken Arbeitet nur auf XML (und DTD) Setzt auf Lern-Algorithmen auf Element-Ebene und auf kombinierenden Lerner (Meta-Lerner)

20

Page 26: Schema Matching

LSD: Trainingsphase

21

Ziel-Schema

Quell-Schema Quell-Schema

Extrahierte Daten Extrahierte Daten

Trainingsdaten Trainingsdaten Trainingsdaten

Basislerner Basislerner Basislerner

Meta-Lerner

Page 27: Schema Matching

LSD: Matching-Phase

Nach der Trainingsphase: Automatisches Matchen

Verbesserung der Ergebnisse durch Constraints

Generierte Mappings werden validiert und als Fallbeispiele aufgenommen

22

Page 28: Schema Matching

LSD: Basislerner Name Matcher:

nutzt Bezeichner eines XML-Elements Bezeichner von „ Qty“ = „Electronics -- Photo and Cameras

– Qty“ Fallbeispiele sind (Quell-Tag, Ziel-Tag)-Paare berechnet mit WHIRL die Ähnlichkeiten und lernt

Schwellwert Content Matcher:

ähnlich dem Name Matcher, aber: arbeitet auf Instanzen Fallbeispiele sind (Quell-Inhalt, Ziel-Tag)-Paare

23

Page 29: Schema Matching

LSD: Basislerner (2)

Naiver Bayes-Klassifikator arbeitet auf Texten der Instanzen Dokument X = (Token1, Token2, …, TokenN) Klassifikationsproblem: Mit welcher Wahrscheinlichkeit

gehört X zu Klasse C?

XML-Klassifikator baut auf Naivem Bayes-Klassifikator auf nutzt zusätzlich Baumstruktur: unterscheidet Knoten-

Tokens und Kanten-Tokens

24

Page 30: Schema Matching

LSD: Vor- und Nachteile

Vorteile: lernt dazu kann z.T. mit unstrukturierten Texten umgehen

Nachteile: Mappings als Fallbeispiele müssen manuell

erstellt werden Constraints müssen manuell eingegeben werden

25

Page 31: Schema Matching

SEMINT

SEMINT (Semantic Integrator) wurde 2000 von Li, Clifton entwickelt

Wie LSD nicht rein instanzenbasiert Benutzt neuronale Netze, um das Match-

Problem als Klassifikationsproblem zu lösen Berechnet Ähnlichkeiten zwischen Attributen

in Datenbanken

26

Page 32: Schema Matching

SEMINT (2) Parst die Datenbankschemata, um Informationen

aus der Datenbank automatisch zu extrahieren Instanzen statistische Merkmale eines Attributes

(Durchschnittswerte, Minimum, Maximum) Attribut = (x1, x2, …, xN)

Attribut-Typ wird berücksichtigt Punkte werden in Cluster eingeteilt (Schema A) Punkte von Schema B werden in Cluster abgebildet

27

Page 33: Schema Matching

SEMINT: Vor- und Nachteile

Vorteile: vollautomatisch skaliert gut (dank Clusterbildung)

Nachteile: Mehraufwand durch Clusterbildung für Benutzer String-Daten machen Probleme

28

Page 34: Schema Matching

Evaluation

29

Cupid SF S-Match LSD SEMINT

Anzahl Tests

2 9 2 4*5 5

Precision 0.45 - 1.0 0.8 0.78

Recall 0.6 - 0.98 0.8 0.86

Overall -0.13 0.6 0.98 0.6 0.48

Page 35: Schema Matching

Fazit

Automatisches Schema-Matching ist schwierig; aufwändige Implementierungen

Schema-Matching ist subjektiv Praxis-Tauglichkeit? Schema-Matching ist KI-vollständig!

30