Informationsintegration Schema Matching 10.1.2006 Felix Naumann

Embed Size (px)

Text of Informationsintegration Schema Matching 10.1.2006 Felix Naumann

  • Folie 1
  • Informationsintegration Schema Matching 10.1.2006 Felix Naumann
  • Folie 2
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/062 berblick Klassifikation von Schema Matching Methoden [RB01] Label-basiert Instanz-basiert Struktur-basiert Mischformen Globales Matching Stable Marriage
  • Folie 3
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/063 Wdh: Schema Mapping im Kontext 1. Schema Matching & Korrespondenzen 2. Schema Mapping 3. Mapping Interpretation 4. Daten- transformation
  • Folie 4
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/064 Schema Matching Motivation Groe Schemas > 100 Tabellen, viele Attribute Bildschirm nicht lang genug Unbersichtliche Schemas Tiefe Schachtelungen Fremdschlssel Bildschirm nicht breit genug XML Schema Fremde Schemas Unbekannte Synonyme Irrefhrende Schemas Unbekannte Homonyme Fremdsprachliche Schemas Kryptische Schemas |Attributnamen| 8 Zeichen |Tabellennamen| 8 Zeichen
  • Folie 5
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/065 Man beachte die Scrollbar! Man beachte die Schachtelungstiefe!
  • Folie 6
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/066 Schema Matching Motivation Die Folgen Falsche Korrespondenzen (false positives) Fehlende Korrespondenzen (false negatives) Frustration User verlieren sich im Schema User verstehen Semantik der Schemas nicht
  • Folie 7
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/067 Schema Matching Klassifikation nach [RB01]
  • Folie 8
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/068 Schema Matching Klassifikation Schema Matching basierend auf Namen der Schemaelemente (label-based) Darunterliegende Daten (instance-based) Struktur des Schemas (structure-based) Mischformen
  • Folie 9
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/069 Schema Matching Label- based Gegeben zwei Schemata mit Attributmengen A und B Kernidee: Bilde Kreuzprodukt aller Attribute aus A und B. Fr jedes Paar vergleiche hnlichkeit bezgl. Attributnamen (Label). Z.B. Edit-distance hnlichste Paare sind Matches Probleme: Effizienz Auswahl der besten Matches (globales Matching) Iterativ? Stable Marriage? Synonyme und Homonyme werden nicht erkannt
  • Folie 10
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0610 Schema Matching Label- based Stand der Technik in kommerziellen Produkten Label-based Namensgleichheit Kein globales Matching Keine hnlichkeitsmae Kein Instanz-basiertes Matching
  • Folie 11
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0611 Schema Matching Instance- based Gegeben zwei Schemata mit Attributmengen A und B, jeweils mit darunterliegenden Daten. Kernidee Fr jedes Attribute extrahiere interessante Eigenschaften der Daten Buchstabenverteilung, Lnge, etc. Bilde Kreuzprodukt aller Attribute aus A und B. Fr jedes Paar vergleiche hnlichkeit bzgl. der Eigenschaften Probleme Auswahl der Eigenschaften Datenmenge: Sampling Vergleichsmethode, z.B. Naive Bayes Gewichtung (Maschinelles Lernen)
  • Folie 12
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0612 Instance-based Schema Matching Instance-based Schema Matching: Correspondences based on similar data values or their properties Conventional solution: Vertical Comparison of columns = Attribute classification [ICDE02] Our solution: Horizontal Comparison of rows = Duplicate detection (despite missing attribute correspondences) [ICDE05]
  • Folie 13
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0613 Duplicate-driven Schema Matching ABCDE MaxMichelm601- 4839204... BFEG Michelmaxm601- 4839204UNIX... Temporary matching AB BF CE DG E ? ?
  • Folie 14
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0614 Duplicate-driven Schema Matching ABCDE MaxMichelm601- 4839204 SamAdamsm541- 8127100541- 8121164 BFEG Michelmaxm601- 4839204UNIX Adamsbeer541- 8127164WinXP Temporary matching AB BF CE DG E ? ? ? ? Assumptions There is data in both DBs. There are (at least a few) duplicates in both DBs. Equal or similar values reflect same semantics of attributes.
  • Folie 15
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0615 Duplicate-driven Schema Matching 1. Duplicate detection Goal: Find the top-k duplicates. Problems Correspondences unknown Possibly small intensional overlap 2. Schema Matching Goal: Derive attribute correspondences from attribute values. Problems Attribute values only similar, not equal Synonyms and homonyms in values
  • Folie 16
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0616 Duplicate Detection in Unaligned Tables Cosine measure with TFIDF weights Tuple as vector of term weights Term weights is high if term appears often in tuple (TF) and it appears in only few tuples (IDF). Tuple similarity is the cosine of the angle of both (normalized) vectors. 1 123 Max 601 : 0 0.21 0.3 0.14 : 0.06 0 0.28 0.16 : 123Max Michelmax@michel.com601- 4839204 1Max Michel601- 4839204max@michel.com
  • Folie 17
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0617 Schema Matching Given the top K duplicates. Find a (global) matching I.e., each attribute has 0 or 1 correspondence. Temporary matching AB BF CE DG E Formalized by similarity matrix ABCDE B 0.220.920.0700 F 0.60 0.0700 E 0000.580.64 G 00.070 0.02 Average SoftTFIDF
  • Folie 18
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0618 2. Schema Matching Similarity Measure Fieldwise Comparison Compare attribute values of record pairs. Similarity measure: Edit-distance vs. SoftTFIDF Edit distance Minimal number of edit operations (substitute, insert, delete); several variations exist SoftTFIDF Soft variation of TFIDF that also considers similar terms
  • Folie 19
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0619 Graph Matching Given: Similarity matrix = weighted bipartite graph Find: Maximal weight matching Alternative: Matching with stable marriage property Outlook Produce mappings and not just correspondences 0.640.58000 E 000.070.60 F G B 0.020.070 0 EDCBA 00 0.920.22
  • Folie 20
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0620 Schema Matching Structure- based Gegeben zwei Schemata mit Elementmengen A und B. Kernidee Nutze (komplexe) Struktur des Schemas aus. Hierarchieebene Elementtyp (Attribut, Relation,...) Nachbarschaftsbeziehungen
  • Folie 21
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0621 Schema Matching Structure- based Beispiel: Similarity Flooding nach [MGMR02] Gegeben initiale hnlichkeit zwischen Schemaelementen (z.B. durch edit- distance oder durch Analyse der darunterliegenden Daten) Lasse hnlichkeiten abfrben auf die Nachbarn Nachbarn sind durch Struktur definiert Sind alle Nachbarn von x und y hnlich zueinander, sind (vielleicht) auch x und y ein match. Analogie: Man flutet das Netzwerk der hnlichkeiten bis ein Gleichgewicht erreicht ist.
  • Folie 22
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0622 Schema Matching Mischformen Hybrid Gleichzeitige Anwendung mehrerer Techniken Bsp: Instance-based + Datentypvergleich Composite Repertoire bekannter Techniken (inkl. hybrider Techniken) Kombination dieser unabhngigen Verfahren Bsp: Durch Gewichtung Bsp: Durch automatisches Lernen Des besten Verfahrens Einer guten Gewichtung
  • Folie 23
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0623 Schema Matching in Clio
  • Folie 24
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0624 Schema Matching Weitere Anwendungen Herkmmlich: Korrespondenzen finden Schlssel Fremdschlssel finden hnliche Attribute innerhalb eines Schemas sind gute Kandidaten Hher-stufige Korrespondenzen finden hnlichkeiten von Tabellen durch Aggregation der Matches ihrer Attribute
  • Folie 25
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0625 Schema Matching Erweiterungen 1:n, n:1 matches Vorname, Nachname Name Viele Kombinationsmglichkeiten Viele Funktionen denkbar: Mathematische Operatoren, Konkatenation, etc. Name Vorname, Nachname Viele Kombinationsmglichkeiten Parsingregeln finden! Global matching Matche nicht nur einzelne Attribute (oder Attributmengen) Sondern komplette Tabellen oder komplette Schemata Stable Marriage Problem
  • Folie 26
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0626 Schema Matching Erweiterungen n:1 und 1:n Matches Viele Kombinationsmglichkeiten Viele Funktionen denkbar Parsingregeln Matching in komplexen Schemata Ziel: Finde Mapping, nicht Korrespondenzen Globales Matching Matche Tabellen und Schemata, nicht nur Attribute Stable Marriage bzw. Maximum Weighted Matching Vorname Name Nachname Vorname Name Nachname A C B D 1.0 0.81 0.54 0.27
  • Folie 27
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0627 berblick Klassifikation von Schema Matching Methoden [RB01] Label-basiert Instanz-basiert Struktur-basiert Mischformen Globales Matching Stable Marriage
  • Folie 28
  • 10.1.2006Felix Naumann, VL Informationsintegration, WS 05/0628 Schema Matching Stable Marriage Gegeben n Frauen (Attribute in Schema A) und m Mnner (Attribute in Schema B) Monogamie Je eine Frau kann nur mit je einem Mann verheiratet sein (nu