161
Einf¨ uhrung Informationsintegration Komplexe Informationssysteme Fabian Panse [email protected] Universit¨ at Hamburg

Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung InformationsintegrationKomplexe Informationssysteme

Fabian Panse

[email protected]

Universitat Hamburg

Page 2: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Der Elefant und die sechs blinden Manner

Quelle: Laura M. Haas. Beauty and the beast: The theory and practice of

information integration. ICDT, 2007.

Fabian Panse Einfuhrung Informationsintegration 2

Page 3: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Informationsbedarf und potentielle Einsparungen

1 von 3Manager treffen haufiger Ent-scheidungen auf Basis von Infor-mationen, denen sie nicht vertrau-en oder die sie gar nicht haben.

1 von 3Manager haben nicht Zugriff zuden erforderlichen Informationen.

Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC

Fabian Panse Einfuhrung Informationsintegration 3

Page 4: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Informationsbedarf und potentielle Einsparungen

1 von 3Manager treffen haufiger Ent-scheidungen auf Basis von Infor-mationen, denen sie nicht vertrau-en oder die sie gar nicht haben.

1 von 3Manager haben nicht Zugriff zuden erforderlichen Informationen.

5700 USD/aZeitaufwand je Wissensarbeiterfur Umformatierung von Informa-tionen zwischen Anwendungen.

5300 USD/aZeitaufwand je Wissensarbeiterfur Informationssuche.

Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC

Fabian Panse Einfuhrung Informationsintegration 3

Page 5: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Integrierte Informationssysteme

Fabian Panse Einfuhrung Informationsintegration 4

Page 6: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Integrierte Informationssysteme

DBMSWeb

ServiceHTML Form

IntegriertesInformationssystem

Datei-system Anwendung

Fabian Panse Einfuhrung Informationsintegration 4

Page 7: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Integrierte Informationssysteme

DBMSWeb

ServiceHTML Form

IntegriertesInformationssystem

Datei-system Anwendung

Anfr

age

Fabian Panse Einfuhrung Informationsintegration 4

Page 8: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Integrierte Informationssysteme

DBMSWeb

ServiceHTML Form

IntegriertesInformationssystem

Datei-system

Integriertes Informationssystem

Anwendung

Anfr

age

Fabian Panse Einfuhrung Informationsintegration 4

Page 9: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Agenda

1 Einfuhrung

2 Organisation

3 Integration von InformationssystemenDefinitionAnwendungsbereicheBeispiel

4 ArchitekturenArchitekturparadigmenKomponenten Virtueller Architekturen

5 Anfragebearbeitung

6 Schema Matching, Mapping & Datenintegration

Fabian Panse Einfuhrung Informationsintegration 5

Page 10: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Organisatorisches

Voraussetzungen:

Grundlagen Datenbanken(relationale DBMS, SQL, XML)Interesse an aktuellem Thema

Prufungsinhalt: ausschließlich Vorlesungsstoff

Ubungen: Saalubungen

Acknowledgements: Angelehnt an Folien von

Dr. Armin Roth (IBM)Prof. Dr. Melanie Herschel (Univ. Stuttgart)Folien zum Buch Principles of Data Integration

Fabian Panse Einfuhrung Informationsintegration 6

Page 11: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Organisatorisches

1. Woche (04.09.2017 - 09.09.2017)

Montag Dienstag Mittwoch Donnerstag FreitagVorlesung Vorlesung Vorlesung Vorlesung -

9:30 9:30 9:30 9:30 -13:30 13:30 13:30 13:30 -

2. Woche (11.09.2017 - 15.09.2017)

Montag Dienstag Mittwoch Donnerstag FreitagVorlesung Vorlesung Vorlesung Seminar Seminar

9:30 9:30 9:30 9:30 9:3013:30 13:30 13:30 16:30 16:30

Fabian Panse Einfuhrung Informationsintegration 7

Page 12: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Literatur

Ulf Leser und Felix Naumann.Informationsintegration.dpunkt.verlag, 2006 [LN06]

Anhai Doan, Alon Halevy, ZacharyIves. Principles of Data Integration.Morgan Kaufmann, 2012 [DHI12]

Felix Naumann und MelanieHerschel. Introduction to DuplicateDetection. Morgan & Claypool,2010 [NH10]

Peter Christen. Data Matching.Springer, 2012 [Chr12]

Fabian Panse Einfuhrung Informationsintegration 8

Page 13: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Agenda

1 Einfuhrung

2 Organisation

3 Integration von InformationssystemenDefinitionAnwendungsbereicheBeispiel

4 ArchitekturenArchitekturparadigmenKomponenten Virtueller Architekturen

5 Anfragebearbeitung

6 Schema Matching, Mapping & Datenintegration

Fabian Panse Einfuhrung Informationsintegration 9

Page 14: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Was ist Informationsintegration? [LN06]

Informationsintegration ist die korrekte, vollstandige undeffiziente Zusammenfuhrung von Informationen verschiedener,heterogener Quellen zu einer einheitlichen und strukturiertenInformationsmenge zur effektiven Interpretation durch Nutzerund Anwendungen.

Fabian Panse Einfuhrung Informationsintegration 10

Page 15: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Wofur brauchen wir Informationsintegration? [DHI12]

Informationssysteme in vielen Lebensbereichen.

In der Realitat sind Informationssysteme haufig unabhangigvoneinander konzipiert nur um spater festzustellen, dass dievon ihnen bereitgestellten Informationen kombiniertbetrachtet werden mussen.

Zu diesem Zeitpunkt benutzten die Systeme unterschiedlicheDatenmodelle, unterschiedliche Schemata und bieten oft nureinen eingeschrankten Zugriff auf ihre Daten.

Das Ziel der Informationsintegration ist es verschiedeneInformationsquellen unter einer Sicht zu vereinen.

Fabian Panse Einfuhrung Informationsintegration 11

Page 16: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Wofur brauchen wir Informationsintegration? [DHI12]

Informationssysteme in vielen Lebensbereichen.

In der Realitat sind Informationssysteme haufig unabhangigvoneinander konzipiert nur um spater festzustellen, dass dievon ihnen bereitgestellten Informationen kombiniertbetrachtet werden mussen.

Zu diesem Zeitpunkt benutzten die Systeme unterschiedlicheDatenmodelle, unterschiedliche Schemata und bieten oft nureinen eingeschrankten Zugriff auf ihre Daten.

Das Ziel der Informationsintegration ist es verschiedeneInformationsquellen unter einer Sicht zu vereinen.

Fabian Panse Einfuhrung Informationsintegration 11

Page 17: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Wofur brauchen wir Informationsintegration? [DHI12]

Informationssysteme in vielen Lebensbereichen.

In der Realitat sind Informationssysteme haufig unabhangigvoneinander konzipiert nur um spater festzustellen, dass dievon ihnen bereitgestellten Informationen kombiniertbetrachtet werden mussen.

Zu diesem Zeitpunkt benutzten die Systeme unterschiedlicheDatenmodelle, unterschiedliche Schemata und bieten oft nureinen eingeschrankten Zugriff auf ihre Daten.

Das Ziel der Informationsintegration ist es verschiedeneInformationsquellen unter einer Sicht zu vereinen.

Fabian Panse Einfuhrung Informationsintegration 11

Page 18: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Wofur brauchen wir Informationsintegration? [DHI12]

Informationssysteme in vielen Lebensbereichen.

In der Realitat sind Informationssysteme haufig unabhangigvoneinander konzipiert nur um spater festzustellen, dass dievon ihnen bereitgestellten Informationen kombiniertbetrachtet werden mussen.

Zu diesem Zeitpunkt benutzten die Systeme unterschiedlicheDatenmodelle, unterschiedliche Schemata und bieten oft nureinen eingeschrankten Zugriff auf ihre Daten.

Das Ziel der Informationsintegration ist es verschiedeneInformationsquellen unter einer Sicht zu vereinen.

Fabian Panse Einfuhrung Informationsintegration 11

Page 19: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Wofur brauchen wir Informationsintegration? [DHI12]

Informationssysteme in vielen Lebensbereichen.

In der Realitat sind Informationssysteme haufig unabhangigvoneinander konzipiert nur um spater festzustellen, dass dievon ihnen bereitgestellten Informationen kombiniertbetrachtet werden mussen.

Zu diesem Zeitpunkt benutzten die Systeme unterschiedlicheDatenmodelle, unterschiedliche Schemata und bieten oft nureinen eingeschrankten Zugriff auf ihre Daten.

Das Ziel der Informationsintegration ist es verschiedeneInformationsquellen unter einer Sicht zu vereinen.

Fabian Panse Einfuhrung Informationsintegration 11

Page 20: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Agenda

1 Einfuhrung

2 Organisation

3 Integration von InformationssystemenDefinitionAnwendungsbereicheBeispiel

4 ArchitekturenArchitekturparadigmenKomponenten Virtueller Architekturen

5 Anfragebearbeitung

6 Schema Matching, Mapping & Datenintegration

Fabian Panse Einfuhrung Informationsintegration 12

Page 21: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anwendungen: Business

Quelle: Doan, Halevy and Ives. Principles of data Integration (Slides), 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 13

Page 22: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anwendungen: Biowissenschaften

Quelle: Doan, Halevy and Ives. Principles of data Integration (Slides), 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 14

Page 23: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anwendungen: Web Data Integration

Quelle: Doan, Halevy and Ives. Principles of data Integration (Slides), 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 15

Page 24: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anwendungen: Historische Daten

Quelle: Doan, Halevy and Ives. Principles of data Integration (Slides), 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 16

Page 25: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Warum ist eine solche Integration so schwer? [DHI12]

System-bedingte Grunde:

Verschiedene PlattformenAnfragebearbeitung uber mehrere (autonome) Systeme

Soziale Grunde:

Finden relevanter Daten in UnternehmenBeschaffen relevanter Daten in UnternehmenMenschen zur Zusammenarbeit uberreden

Logik-bedingte Grunde:

Schema- und DatenheterogenitatDies ist unabhangig von der jeweiligen Integrationsarchitektur

Fabian Panse Einfuhrung Informationsintegration 17

Page 26: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Warum ist eine solche Integration so schwer? [DHI12]

System-bedingte Grunde:

Verschiedene PlattformenAnfragebearbeitung uber mehrere (autonome) Systeme

Soziale Grunde:

Finden relevanter Daten in UnternehmenBeschaffen relevanter Daten in UnternehmenMenschen zur Zusammenarbeit uberreden

Logik-bedingte Grunde:

Schema- und DatenheterogenitatDies ist unabhangig von der jeweiligen Integrationsarchitektur

Fabian Panse Einfuhrung Informationsintegration 17

Page 27: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Warum ist eine solche Integration so schwer? [DHI12]

System-bedingte Grunde:

Verschiedene PlattformenAnfragebearbeitung uber mehrere (autonome) Systeme

Soziale Grunde:

Finden relevanter Daten in UnternehmenBeschaffen relevanter Daten in UnternehmenMenschen zur Zusammenarbeit uberreden

Logik-bedingte Grunde:

Schema- und DatenheterogenitatDies ist unabhangig von der jeweiligen Integrationsarchitektur

Fabian Panse Einfuhrung Informationsintegration 17

Page 28: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Agenda

1 Einfuhrung

2 Organisation

3 Integration von InformationssystemenDefinitionAnwendungsbereicheBeispiel

4 ArchitekturenArchitekturparadigmenKomponenten Virtueller Architekturen

5 Anfragebearbeitung

6 Schema Matching, Mapping & Datenintegration

Fabian Panse Einfuhrung Informationsintegration 18

Page 29: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Tatigkeitsfeld:

InternetproviderVerkauf von Produkten wie Routern, voice-over-IP phones, etc.

Verschiedene Abteilungen mit eigenen Datenbanken:

Human Resource Department:

- Datenbank uber Angstellte (Vollzeit und Teilzeit)- Datenbank uber Bewerbungsverfahren

Training and Development Department:

- Datenbank uber Trainingskurse

Sales Department:

- Datenbank uber angebotene Dienste, Kunden undVertrage

- Datenbank uber verkaufte Produkte

Customer Care Department:

- Datenbank uber Anrufe an das Help-Line Center

Fabian Panse Einfuhrung Informationsintegration 19

Page 30: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Tatigkeitsfeld:

InternetproviderVerkauf von Produkten wie Routern, voice-over-IP phones, etc.

Verschiedene Abteilungen mit eigenen Datenbanken:

Human Resource Department:

- Datenbank uber Angstellte (Vollzeit und Teilzeit)- Datenbank uber Bewerbungsverfahren

Training and Development Department:

- Datenbank uber Trainingskurse

Sales Department:

- Datenbank uber angebotene Dienste, Kunden undVertrage

- Datenbank uber verkaufte Produkte

Customer Care Department:

- Datenbank uber Anrufe an das Help-Line Center

Fabian Panse Einfuhrung Informationsintegration 19

Page 31: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Tatigkeitsfeld:

InternetproviderVerkauf von Produkten wie Routern, voice-over-IP phones, etc.

Verschiedene Abteilungen mit eigenen Datenbanken:

Human Resource Department:

- Datenbank uber Angstellte (Vollzeit und Teilzeit)- Datenbank uber Bewerbungsverfahren

Training and Development Department:

- Datenbank uber Trainingskurse

Sales Department:

- Datenbank uber angebotene Dienste, Kunden undVertrage

- Datenbank uber verkaufte Produkte

Customer Care Department:

- Datenbank uber Anrufe an das Help-Line Center

Fabian Panse Einfuhrung Informationsintegration 19

Page 32: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Tatigkeitsfeld:

InternetproviderVerkauf von Produkten wie Routern, voice-over-IP phones, etc.

Verschiedene Abteilungen mit eigenen Datenbanken:

Human Resource Department:

- Datenbank uber Angstellte (Vollzeit und Teilzeit)- Datenbank uber Bewerbungsverfahren

Training and Development Department:

- Datenbank uber Trainingskurse

Sales Department:

- Datenbank uber angebotene Dienste, Kunden undVertrage

- Datenbank uber verkaufte Produkte

Customer Care Department:

- Datenbank uber Anrufe an das Help-Line Center

Fabian Panse Einfuhrung Informationsintegration 19

Page 33: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Tatigkeitsfeld:

InternetproviderVerkauf von Produkten wie Routern, voice-over-IP phones, etc.

Verschiedene Abteilungen mit eigenen Datenbanken:

Human Resource Department:

- Datenbank uber Angstellte (Vollzeit und Teilzeit)- Datenbank uber Bewerbungsverfahren

Training and Development Department:

- Datenbank uber Trainingskurse

Sales Department:

- Datenbank uber angebotene Dienste, Kunden undVertrage

- Datenbank uber verkaufte Produkte

Customer Care Department:

- Datenbank uber Anrufe an das Help-Line Center

Fabian Panse Einfuhrung Informationsintegration 19

Page 34: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Tatigkeitsfeld:

InternetproviderVerkauf von Produkten wie Routern, voice-over-IP phones, etc.

Verschiedene Abteilungen mit eigenen Datenbanken:

Human Resource Department:

- Datenbank uber Angstellte (Vollzeit und Teilzeit)- Datenbank uber Bewerbungsverfahren

Training and Development Department:

- Datenbank uber Trainingskurse

Sales Department:

- Datenbank uber angebotene Dienste, Kunden undVertrage

- Datenbank uber verkaufte Produkte

Customer Care Department:

- Datenbank uber Anrufe an das Help-Line Center

Fabian Panse Einfuhrung Informationsintegration 19

Page 35: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Tatigkeitsfeld:

InternetproviderVerkauf von Produkten wie Routern, voice-over-IP phones, etc.

Verschiedene Abteilungen mit eigenen Datenbanken:

Human Resource Department:

- Datenbank uber Angstellte (Vollzeit und Teilzeit)- Datenbank uber Bewerbungsverfahren

Training and Development Department:

- Datenbank uber Trainingskurse

Sales Department:

- Datenbank uber angebotene Dienste, Kunden undVertrage

- Datenbank uber verkaufte Produkte

Customer Care Department:

- Datenbank uber Anrufe an das Help-Line Center

Fabian Panse Einfuhrung Informationsintegration 19

Page 36: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Employee DatabaseFullTimeEmps(ssn, empID, firstName,

middleName, lastName)

Hire(empID, hireDate, recruiter)

TempEmployees(ssn, hireStart,

hireEnd, name, hourlyRate)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 20

Page 37: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Employee DatabaseFullTimeEmps(ssn, empID, firstName,

middleName, lastName)

Hire(empID, hireDate, recruiter)

TempEmployees(ssn, hireStart,

hireEnd, name, hourlyRate)

Resume DatabaseInterviews(interviewDate, pID, recruiter,

hireDecision, hireDate)

CVs(ID, resume)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 20

Page 38: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Employee DatabaseFullTimeEmps(ssn, empID, firstName,

middleName, lastName)

Hire(empID, hireDate, recruiter)

TempEmployees(ssn, hireStart,

hireEnd, name, hourlyRate)

Training DatabaseCourses(courseID, name, instructor)

Enrollments(courseID, empID, date)

Resume DatabaseInterviews(interviewDate, pID, recruiter,

hireDecision, hireDate)

CVs(ID, resume)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 20

Page 39: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Employee DatabaseFullTimeEmps(ssn, empID, firstName,

middleName, lastName)

Hire(empID, hireDate, recruiter)

TempEmployees(ssn, hireStart,

hireEnd, name, hourlyRate)

Training DatabaseCourses(courseID, name, instructor)

Enrollments(courseID, empID, date)

Resume DatabaseInterviews(interviewDate, pID, recruiter,

hireDecision, hireDate)

CVs(ID, resume)

Services DatabaseServices(packName, textDescription)

Customers(name, ID, zipCode, streedAdr,

phone)

Contracts(custID, packName, startDate)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 20

Page 40: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Employee DatabaseFullTimeEmps(ssn, empID, firstName,

middleName, lastName)

Hire(empID, hireDate, recruiter)

TempEmployees(ssn, hireStart,

hireEnd, name, hourlyRate)

Training DatabaseCourses(courseID, name, instructor)

Enrollments(courseID, empID, date)

Sales DatabaseProducts(prodName, prodID)

Sales(prodID, custID, custName, address)

Resume DatabaseInterviews(interviewDate, pID, recruiter,

hireDecision, hireDate)

CVs(ID, resume)

Services DatabaseServices(packName, textDescription)

Customers(name, ID, zipCode, streedAdr,

phone)

Contracts(custID, packName, startDate)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 20

Page 41: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Employee DatabaseFullTimeEmps(ssn, empID, firstName,

middleName, lastName)

Hire(empID, hireDate, recruiter)

TempEmployees(ssn, hireStart,

hireEnd, name, hourlyRate)

Training DatabaseCourses(courseID, name, instructor)

Enrollments(courseID, empID, date)

Sales DatabaseProducts(prodName, prodID)

Sales(prodID, custID, custName, address)

Resume DatabaseInterviews(interviewDate, pID, recruiter,

hireDecision, hireDate)

CVs(ID, resume)

Services DatabaseServices(packName, textDescription)

Customers(name, ID, zipCode, streedAdr,

phone)

Contracts(custID, packName, startDate)

HelpLine DatabaseCalls(date, agent, custID, text, action)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 20

Page 42: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandierenZukauf des Unternehmens EuroCard

KreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 43: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandieren

Zukauf des Unternehmens EuroCardKreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 44: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandierenZukauf des Unternehmens EuroCard

KreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 45: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandierenZukauf des Unternehmens EuroCard

KreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 46: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandierenZukauf des Unternehmens EuroCard

KreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Employee DatabaseEmp(ID, firstnameMiddleInitial,

lastName, salary)

Hire(ID, hireDate, recruiter)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 47: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandierenZukauf des Unternehmens EuroCard

KreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Employee DatabaseEmp(ID, firstnameMiddleInitial,

lastName, salary)

Hire(ID, hireDate, recruiter)

Resume DatabaseInterviews(ID, date, location, recruiter)

CVs(candID, resume)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 48: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandierenZukauf des Unternehmens EuroCard

KreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Employee DatabaseEmp(ID, firstnameMiddleInitial,

lastName, salary)

Hire(ID, hireDate, recruiter)

Credit Card DatabaseCards(CustID, cardNum,

expiration, currentBalance)

Customers(CustID, name, address)

Resume DatabaseInterviews(ID, date, location, recruiter)

CVs(candID, resume)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 49: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

FullServe will nach Europa expandierenZukauf des Unternehmens EuroCard

KreditkartenanbieterErmoglicht Kunden Zugang zum Internet

EuroCard hat eigene Datenbanken

Employee DatabaseEmp(ID, firstnameMiddleInitial,

lastName, salary)

Hire(ID, hireDate, recruiter)

Credit Card DatabaseCards(CustID, cardNum,

expiration, currentBalance)

Customers(CustID, name, address)

Resume DatabaseInterviews(ID, date, location, recruiter)

CVs(candID, resume)

HelpLine DatabaseCalls(date, agent, custID, description,

followup)

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 21

Page 50: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen DatenBeseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 51: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen DatenBeseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 52: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen DatenBeseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 53: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen DatenBeseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 54: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen DatenBeseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 55: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen Daten

Beseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 56: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen DatenBeseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 57: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Unternehmen FullServe

Beispiel-Szenarien in denen Daten von mehreren Datenbankenbenotigt werden:

Human Resource Department mochte alle Angestellte wissen

Help-Line Center braucht Kundendaten zurProblemlokalisierung und -behebung

Aufsetzen einer Webseite mit allen angebotenen Produktenund Diensten inkl. Kundenbereich

Herausfinden von Angestellten die fruher beiKonkurrenzunternehmen gearbeitet haben

Verknupfung von Help-Line Anrufen mit anderen DatenBeseitigung von Defiziten

- Bsp. Erhohte Fehlerhaufigkeit von Diensten/Produktendie von Angstellten installiert wurden, die einenbestimmten Kurs besucht haben

Erschliessen neuer Geschaftsideen

Fabian Panse Einfuhrung Informationsintegration 22

Page 58: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Agenda

1 Einfuhrung

2 Organisation

3 Integration von InformationssystemenDefinitionAnwendungsbereicheBeispiel

4 ArchitekturenArchitekturparadigmenKomponenten Virtueller Architekturen

5 Anfragebearbeitung

6 Schema Matching, Mapping & Datenintegration

Fabian Panse Einfuhrung Informationsintegration 23

Page 59: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Architekturparadigmen

MaterialisiertA priori-IntegrationZentrale DatenbasisZentrale AnfragebearbeitungTypisches Beispiel: Data Warehouse

VirtuellOn demand-IntegrationDezentrale DatenDezentrale AnfragebearbeitungTypisches Beispiel: Mediator-basiertes Informationssystem

Existierende Architekturen befinden sich oft zwischen diesenExtremen

⇒ einige Daten werden materialisiert vorgehalten(z.B. durch den Einsatz von Caching)

Fabian Panse Einfuhrung Informationsintegration 24

Page 60: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Architekturparadigmen

MaterialisiertA priori-IntegrationZentrale DatenbasisZentrale AnfragebearbeitungTypisches Beispiel: Data Warehouse

VirtuellOn demand-IntegrationDezentrale DatenDezentrale AnfragebearbeitungTypisches Beispiel: Mediator-basiertes Informationssystem

Existierende Architekturen befinden sich oft zwischen diesenExtremen

⇒ einige Daten werden materialisiert vorgehalten(z.B. durch den Einsatz von Caching)

Fabian Panse Einfuhrung Informationsintegration 24

Page 61: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Architekturparadigmen

MaterialisiertA priori-IntegrationZentrale DatenbasisZentrale AnfragebearbeitungTypisches Beispiel: Data Warehouse

VirtuellOn demand-IntegrationDezentrale DatenDezentrale AnfragebearbeitungTypisches Beispiel: Mediator-basiertes Informationssystem

Existierende Architekturen befinden sich oft zwischen diesenExtremen

⇒ einige Daten werden materialisiert vorgehalten(z.B. durch den Einsatz von Caching)

Fabian Panse Einfuhrung Informationsintegration 24

Page 62: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Materialisierte Integration – Datenfluss

Push

Erstmaliges Laden (population)des DW (inkl. Data Cleaning)

Periodischer Datenimport:Updating materialized views

Redundante Datenhaltung

Aggregation und Loschungalter Daten

Quelle 1 Quelle 2 Quelle 3

Anwendung 1

DataWarehouse

ETL 1 ETL 2 ETL 3

Anwendung 2

Fabian Panse Einfuhrung Informationsintegration 25

Page 63: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Materialisierte Integration – Anfragebearbeitung/Schema

Anfragebearbeitung:

Wie normale DBMSOft AggregationsanfragenDecision Support

Schema:

Meist Bottom-Up-EntwurfSchemaintegrationStar-Schema

- Fact Table- Dimension Tables Quelle 1 Quelle 2 Quelle 3

Anwendung 1

DataWarehouse

ETL 1 ETL 2 ETL 3

Anwendung 2

Fabian Panse Einfuhrung Informationsintegration 26

Page 64: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Virtuelle Integration – Datenfluss

Pull

Daten sind in Quellengespeichert

Nur Anfragen und Ergebnissewerden ubertragen(Query Shipping)

Data Cleaning nur onlinemoglich

Quelle 1 Quelle 2 Quelle 3

Anwendung 1 Anwendung 2

Wrapper 2 Wrapper 3Wrapper 1

Mediator

Fabian Panse Einfuhrung Informationsintegration 27

Page 65: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Virtuelle Integration – Anfragebearbeitung/Schema

Anfragebearbeitung:

Optimierung schwierig(Geschwindigkeiten undFahigkeiten der Quellen)Viele mogliche Plane zurBerechnung desAnfrageergebnisses

Schema:

Meist Top-down EntwurfLeicht erweiterbar

- neue Quellen- neue/geanderteMappings

Schema Mapping stattSchemaintegration

Quelle 1 Quelle 2 Quelle 3

Anwendung 1 Anwendung 2

Wrapper 2 Wrapper 3Wrapper 1

Mediator

Fabian Panse Einfuhrung Informationsintegration 28

Page 66: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Materialisiert vs. Virtuelle Integration – Vergleich

Materialisiert VirtuellAktualitat − (Cache) +

Antwortzeit + −Flexibilitat − (GaV) + (LaV)

Komplexitat + ++

Autonomie − +

Anfragemachtigkeit + −Read/Write +/+ +/−Ressourcenbedarf ? (workload) ? (workload)

Vollstandigkeit + ? (OWA, CWA)

Datenreinigung + −Informationsqualitat + −

Legende: −: wenig, +: viel, ++: sehr viel

Fabian Panse Einfuhrung Informationsintegration 29

Page 67: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over materialized data

Source descriptions/Transforms

Fabian Panse Einfuhrung Informationsintegration 30

Page 68: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellen:

verschiedene Datenmodelle

verschiedeneAnfragemachtigkeiten

Quelle kann eineAnwendung sein, diewiederum komplexeBearbeitungsschrittevollzieht

Fabian Panse Einfuhrung Informationsintegration 31

Page 69: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellen:

verschiedene Datenmodelle

verschiedeneAnfragemachtigkeiten

Quelle kann eineAnwendung sein, diewiederum komplexeBearbeitungsschrittevollzieht

Fabian Panse Einfuhrung Informationsintegration 31

Page 70: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellen:

verschiedene Datenmodelle

verschiedeneAnfragemachtigkeiten

Quelle kann eineAnwendung sein, diewiederum komplexeBearbeitungsschrittevollzieht

Fabian Panse Einfuhrung Informationsintegration 31

Page 71: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellen:

verschiedene Datenmodelle

verschiedeneAnfragemachtigkeiten

Quelle kann eineAnwendung sein, diewiederum komplexeBearbeitungsschrittevollzieht

Fabian Panse Einfuhrung Informationsintegration 31

Page 72: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Wrapper:

bekommt Anfrage inSprache desIntegrationssystems(z.B. relational oder XML)

ubersetzt Anfrage inSprache der Quelle(z.B. HTTP Request)

sendet Anfrage an Quelle

transformiert Ergebnis(z.B. HTML Datei) inDatenmodell desIntegrationssystems (z.B.

Tupelmenge oder XML Datei)

Fabian Panse Einfuhrung Informationsintegration 32

Page 73: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Wrapper:

bekommt Anfrage inSprache desIntegrationssystems(z.B. relational oder XML)

ubersetzt Anfrage inSprache der Quelle(z.B. HTTP Request)

sendet Anfrage an Quelle

transformiert Ergebnis(z.B. HTML Datei) inDatenmodell desIntegrationssystems (z.B.

Tupelmenge oder XML Datei)

Fabian Panse Einfuhrung Informationsintegration 32

Page 74: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Wrapper:

bekommt Anfrage inSprache desIntegrationssystems(z.B. relational oder XML)

ubersetzt Anfrage inSprache der Quelle(z.B. HTTP Request)

sendet Anfrage an Quelle

transformiert Ergebnis(z.B. HTML Datei) inDatenmodell desIntegrationssystems (z.B.

Tupelmenge oder XML Datei)

Fabian Panse Einfuhrung Informationsintegration 32

Page 75: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Wrapper:

bekommt Anfrage inSprache desIntegrationssystems(z.B. relational oder XML)

ubersetzt Anfrage inSprache der Quelle(z.B. HTTP Request)

sendet Anfrage an Quelle

transformiert Ergebnis(z.B. HTML Datei) inDatenmodell desIntegrationssystems (z.B.

Tupelmenge oder XML Datei)

Fabian Panse Einfuhrung Informationsintegration 32

Page 76: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Wrapper:

bekommt Anfrage inSprache desIntegrationssystems(z.B. relational oder XML)

ubersetzt Anfrage inSprache der Quelle(z.B. HTTP Request)

sendet Anfrage an Quelle

transformiert Ergebnis(z.B. HTML Datei) inDatenmodell desIntegrationssystems (z.B.

Tupelmenge oder XML Datei)

Fabian Panse Einfuhrung Informationsintegration 32

Page 77: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Wrappers

Fabian Panse Einfuhrung Informationsintegration 33

Page 78: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Mediated/Globales Schema:

dient zur Interaktion mitdem Benutzer

konzipiert fur dieIntegrationsanwendung(beinhaltet daher nur einenTeil der Aspekte aus denQuellen)

ist lediglich logisch unddient zur Formulierung vonAnfragen

Fabian Panse Einfuhrung Informationsintegration 34

Page 79: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Mediated/Globales Schema:

dient zur Interaktion mitdem Benutzer

konzipiert fur dieIntegrationsanwendung(beinhaltet daher nur einenTeil der Aspekte aus denQuellen)

ist lediglich logisch unddient zur Formulierung vonAnfragen

Fabian Panse Einfuhrung Informationsintegration 34

Page 80: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Mediated/Globales Schema:

dient zur Interaktion mitdem Benutzer

konzipiert fur dieIntegrationsanwendung(beinhaltet daher nur einenTeil der Aspekte aus denQuellen)

ist lediglich logisch unddient zur Formulierung vonAnfragen

Fabian Panse Einfuhrung Informationsintegration 34

Page 81: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Mediated/Globales Schema:

dient zur Interaktion mitdem Benutzer

konzipiert fur dieIntegrationsanwendung(beinhaltet daher nur einenTeil der Aspekte aus denQuellen)

ist lediglich logisch unddient zur Formulierung vonAnfragen

Fabian Panse Einfuhrung Informationsintegration 34

Page 82: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellbeschreibungen:

eine Beschreibung proQuelle

enthalt alle Informationendie das System braucht umdie Quelle zu nutzen

mappt deklarativ Konzeptezw. globalem Schema undQuellschema

beschreibt Transformationauf Datenwertebene(z.B. fur Konventionen,Einheiten)

Fabian Panse Einfuhrung Informationsintegration 35

Page 83: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellbeschreibungen:

eine Beschreibung proQuelle

enthalt alle Informationendie das System braucht umdie Quelle zu nutzen

mappt deklarativ Konzeptezw. globalem Schema undQuellschema

beschreibt Transformationauf Datenwertebene(z.B. fur Konventionen,Einheiten)

Fabian Panse Einfuhrung Informationsintegration 35

Page 84: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellbeschreibungen:

eine Beschreibung proQuelle

enthalt alle Informationendie das System braucht umdie Quelle zu nutzen

mappt deklarativ Konzeptezw. globalem Schema undQuellschema

beschreibt Transformationauf Datenwertebene(z.B. fur Konventionen,Einheiten)

Fabian Panse Einfuhrung Informationsintegration 35

Page 85: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellbeschreibungen:

eine Beschreibung proQuelle

enthalt alle Informationendie das System braucht umdie Quelle zu nutzen

mappt deklarativ Konzeptezw. globalem Schema undQuellschema

beschreibt Transformationauf Datenwertebene(z.B. fur Konventionen,Einheiten)

Fabian Panse Einfuhrung Informationsintegration 35

Page 86: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Komponenten Virtueller Architekturen

Mediated Schemaor Warehouse

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

Wrapper/Extractor

MongoDB

Source Source Source Source

Query reformulation/Query over

materialized data

Source descriptions/Transforms

Quellbeschreibungen:

eine Beschreibung proQuelle

enthalt alle Informationendie das System braucht umdie Quelle zu nutzen

mappt deklarativ Konzeptezw. globalem Schema undQuellschema

beschreibt Transformationauf Datenwertebene(z.B. fur Konventionen,Einheiten)

Fabian Panse Einfuhrung Informationsintegration 35

Page 87: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Quellbeschreibungen

Fabian Panse Einfuhrung Informationsintegration 36

Page 88: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Agenda

1 Einfuhrung

2 Organisation

3 Integration von InformationssystemenDefinitionAnwendungsbereicheBeispiel

4 ArchitekturenArchitekturparadigmenKomponenten Virtueller Architekturen

5 Anfragebearbeitung

6 Schema Matching, Mapping & Datenintegration

Fabian Panse Einfuhrung Informationsintegration 37

Page 89: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Quelle: Doan, Halevy and Ives. Principles of data Integration, 2012 [DHI12]Fabian Panse Einfuhrung Informationsintegration 38

Page 90: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageumschreibung:

Gegeben: Anfrage auf globalesSchema

Benotigt: Anfragen aufQuellschemata

Umschreibung mit Hilfe derQuellbeschreibungen

Ergebnis: Logischer Anfrageplan(inkl. Kombination derQuellanfragen)

mehrere Logische Anfrageplanemoglich

Fabian Panse Einfuhrung Informationsintegration 39

Page 91: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageumschreibung:

Gegeben: Anfrage auf globalesSchema

Benotigt: Anfragen aufQuellschemata

Umschreibung mit Hilfe derQuellbeschreibungen

Ergebnis: Logischer Anfrageplan(inkl. Kombination derQuellanfragen)

mehrere Logische Anfrageplanemoglich

Fabian Panse Einfuhrung Informationsintegration 39

Page 92: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageumschreibung:

Gegeben: Anfrage auf globalesSchema

Benotigt: Anfragen aufQuellschemata

Umschreibung mit Hilfe derQuellbeschreibungen

Ergebnis: Logischer Anfrageplan(inkl. Kombination derQuellanfragen)

mehrere Logische Anfrageplanemoglich

Fabian Panse Einfuhrung Informationsintegration 39

Page 93: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageumschreibung:

Gegeben: Anfrage auf globalesSchema

Benotigt: Anfragen aufQuellschemata

Umschreibung mit Hilfe derQuellbeschreibungen

Ergebnis: Logischer Anfrageplan(inkl. Kombination derQuellanfragen)

mehrere Logische Anfrageplanemoglich

Fabian Panse Einfuhrung Informationsintegration 39

Page 94: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageumschreibung:

Gegeben: Anfrage auf globalesSchema

Benotigt: Anfragen aufQuellschemata

Umschreibung mit Hilfe derQuellbeschreibungen

Ergebnis: Logischer Anfrageplan(inkl. Kombination derQuellanfragen)

mehrere Logische Anfrageplanemoglich

Fabian Panse Einfuhrung Informationsintegration 39

Page 95: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageumschreibung:

Gegeben: Anfrage auf globalesSchema

Benotigt: Anfragen aufQuellschemata

Umschreibung mit Hilfe derQuellbeschreibungen

Ergebnis: Logischer Anfrageplan(inkl. Kombination derQuellanfragen)

mehrere Logische Anfrageplanemoglich

Fabian Panse Einfuhrung Informationsintegration 39

Page 96: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageoptimierung:

Ergebnis: Physischer Anfrageplan

bestimmt exakte Reihenfolge inder die Quellen angefragt werden

bestimmt wann, wie (z.B. Join,Union) und wo (in Quelle oderim Zielsystem) Quellergebnissekombiniert werden

bestimmt wann und woSelektionen durchgefuhrt werden

Verteilung von Ressourcen desZielsystems (Speicher,Prozessor)

Schnelligkeit vs. Vollstandigkeit

Fabian Panse Einfuhrung Informationsintegration 40

Page 97: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageoptimierung:

Ergebnis: Physischer Anfrageplan

bestimmt exakte Reihenfolge inder die Quellen angefragt werden

bestimmt wann, wie (z.B. Join,Union) und wo (in Quelle oderim Zielsystem) Quellergebnissekombiniert werden

bestimmt wann und woSelektionen durchgefuhrt werden

Verteilung von Ressourcen desZielsystems (Speicher,Prozessor)

Schnelligkeit vs. Vollstandigkeit

Fabian Panse Einfuhrung Informationsintegration 40

Page 98: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageoptimierung:

Ergebnis: Physischer Anfrageplan

bestimmt exakte Reihenfolge inder die Quellen angefragt werden

bestimmt wann, wie (z.B. Join,Union) und wo (in Quelle oderim Zielsystem) Quellergebnissekombiniert werden

bestimmt wann und woSelektionen durchgefuhrt werden

Verteilung von Ressourcen desZielsystems (Speicher,Prozessor)

Schnelligkeit vs. Vollstandigkeit

Fabian Panse Einfuhrung Informationsintegration 40

Page 99: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageoptimierung:

Ergebnis: Physischer Anfrageplan

bestimmt exakte Reihenfolge inder die Quellen angefragt werden

bestimmt wann, wie (z.B. Join,Union) und wo (in Quelle oderim Zielsystem) Quellergebnissekombiniert werden

bestimmt wann und woSelektionen durchgefuhrt werden

Verteilung von Ressourcen desZielsystems (Speicher,Prozessor)

Schnelligkeit vs. Vollstandigkeit

Fabian Panse Einfuhrung Informationsintegration 40

Page 100: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageoptimierung:

Ergebnis: Physischer Anfrageplan

bestimmt exakte Reihenfolge inder die Quellen angefragt werden

bestimmt wann, wie (z.B. Join,Union) und wo (in Quelle oderim Zielsystem) Quellergebnissekombiniert werden

bestimmt wann und woSelektionen durchgefuhrt werden

Verteilung von Ressourcen desZielsystems (Speicher,Prozessor)

Schnelligkeit vs. Vollstandigkeit

Fabian Panse Einfuhrung Informationsintegration 40

Page 101: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageoptimierung:

Ergebnis: Physischer Anfrageplan

bestimmt exakte Reihenfolge inder die Quellen angefragt werden

bestimmt wann, wie (z.B. Join,Union) und wo (in Quelle oderim Zielsystem) Quellergebnissekombiniert werden

bestimmt wann und woSelektionen durchgefuhrt werden

Verteilung von Ressourcen desZielsystems (Speicher,Prozessor)

Schnelligkeit vs. Vollstandigkeit

Fabian Panse Einfuhrung Informationsintegration 40

Page 102: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageoptimierung:

Ergebnis: Physischer Anfrageplan

bestimmt exakte Reihenfolge inder die Quellen angefragt werden

bestimmt wann, wie (z.B. Join,Union) und wo (in Quelle oderim Zielsystem) Quellergebnissekombiniert werden

bestimmt wann und woSelektionen durchgefuhrt werden

Verteilung von Ressourcen desZielsystems (Speicher,Prozessor)

Schnelligkeit vs. Vollstandigkeit

Fabian Panse Einfuhrung Informationsintegration 40

Page 103: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageausfuhrung:

Ausfuhrung des PhysischenAnfrageplans

verteilt Teilanfragen an dieWrapper

kombiniert die Ergebnisse dereinzelnen Wrapper

Anfrage beim Optimizers fureinen anderen Plan fallsKomplikationen auftreten (z.B.Ausfall einer Quelle)

Fabian Panse Einfuhrung Informationsintegration 41

Page 104: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageausfuhrung:

Ausfuhrung des PhysischenAnfrageplans

verteilt Teilanfragen an dieWrapper

kombiniert die Ergebnisse dereinzelnen Wrapper

Anfrage beim Optimizers fureinen anderen Plan fallsKomplikationen auftreten (z.B.Ausfall einer Quelle)

Fabian Panse Einfuhrung Informationsintegration 41

Page 105: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageausfuhrung:

Ausfuhrung des PhysischenAnfrageplans

verteilt Teilanfragen an dieWrapper

kombiniert die Ergebnisse dereinzelnen Wrapper

Anfrage beim Optimizers fureinen anderen Plan fallsKomplikationen auftreten (z.B.Ausfall einer Quelle)

Fabian Panse Einfuhrung Informationsintegration 41

Page 106: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageausfuhrung:

Ausfuhrung des PhysischenAnfrageplans

verteilt Teilanfragen an dieWrapper

kombiniert die Ergebnisse dereinzelnen Wrapper

Anfrage beim Optimizers fureinen anderen Plan fallsKomplikationen auftreten (z.B.Ausfall einer Quelle)

Fabian Panse Einfuhrung Informationsintegration 41

Page 107: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung (Virtuell)

Wrapper

QueryOptimizer

QueryReformulator

Request to reoptimize

Query over mediated schema

Logical query plan over sources

Physical query planover sources

Subquery or fetch request per source

Wrapper Wrapper Wrapper

MongoDB

Source Source Source Source

ExecutionEngine

Anfrageausfuhrung:

Ausfuhrung des PhysischenAnfrageplans

verteilt Teilanfragen an dieWrapper

kombiniert die Ergebnisse dereinzelnen Wrapper

Anfrage beim Optimizers fureinen anderen Plan fallsKomplikationen auftreten (z.B.Ausfall einer Quelle)

Fabian Panse Einfuhrung Informationsintegration 41

Page 108: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Quelle: Doan, Halevy and Ives. Principles of data Integration (slides), 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 42

Page 109: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

S1: Filme

S2: Filmvorstellungen im ganzen Land (unvollstandig)

S3: Filmvorstellungen in New York (vollstandig)

S4: Filmvorstellungen in San Francisco

S5: Filmreviews

S2 - S4 benotigen einen Filmtitel als Eingabe

Fabian Panse Einfuhrung Informationsintegration 43

Page 110: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

S1: Filme

S2: Filmvorstellungen im ganzen Land (unvollstandig)

S3: Filmvorstellungen in New York (vollstandig)

S4: Filmvorstellungen in San Francisco

S5: Filmreviews

S2 - S4 benotigen einen Filmtitel als Eingabe

Fabian Panse Einfuhrung Informationsintegration 43

Page 111: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

S1: Filme

S2: Filmvorstellungen im ganzen Land (unvollstandig)

S3: Filmvorstellungen in New York (vollstandig)

S4: Filmvorstellungen in San Francisco

S5: Filmreviews

S2 - S4 benotigen einen Filmtitel als Eingabe

Fabian Panse Einfuhrung Informationsintegration 43

Page 112: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

S1: Filme

S2: Filmvorstellungen im ganzen Land (unvollstandig)

S3: Filmvorstellungen in New York (vollstandig)

S4: Filmvorstellungen in San Francisco

S5: Filmreviews

S2 - S4 benotigen einen Filmtitel als Eingabe

Fabian Panse Einfuhrung Informationsintegration 43

Page 113: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

S1: Filme

S2: Filmvorstellungen im ganzen Land (unvollstandig)

S3: Filmvorstellungen in New York (vollstandig)

S4: Filmvorstellungen in San Francisco

S5: Filmreviews

S2 - S4 benotigen einen Filmtitel als Eingabe

Fabian Panse Einfuhrung Informationsintegration 43

Page 114: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

S1: Filme

S2: Filmvorstellungen im ganzen Land (unvollstandig)

S3: Filmvorstellungen in New York (vollstandig)

S4: Filmvorstellungen in San Francisco

S5: Filmreviews

S2 - S4 benotigen einen Filmtitel als Eingabe

Fabian Panse Einfuhrung Informationsintegration 43

Page 115: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

S1: Filme

S2: Filmvorstellungen im ganzen Land (unvollstandig)

S3: Filmvorstellungen in New York (vollstandig)

S4: Filmvorstellungen in San Francisco

S5: Filmreviews

S2 - S4 benotigen einen Filmtitel als Eingabe

Fabian Panse Einfuhrung Informationsintegration 43

Page 116: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Filmvorstellungen in New York bei denen der Regisseur ’WoodyAllen’ heißt:

Movie: title, director, year, genre

Actors: title, actor

Plays: movie, location, startTime

Reviews: title, rating, description

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Quelle: Doan, Halevy and Ives. Principles of data Integration (slides), 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 44

Page 117: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Filmvorstellungen in New York bei denen der Regisseur ’WoodyAllen’ heißt:

Movie: title, director, year, genre

Actors: title, actor

Plays: movie, location, startTime

Reviews: title, rating, description

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Quelle: Doan, Halevy and Ives. Principles of data Integration (slides), 2012 [DHI12]

Fabian Panse Einfuhrung Informationsintegration 44

Page 118: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageumschreibung:

Tuples fur Movie konnen Quelle S1 entnommen werden

Tuples fur Plays in New York konnen den Quellen S2 und S3entnommen werden (S3 ist vollstandig fur New York)

S2 und S3 benotigen Filmtitel (nicht Teil der Anfrage)

⇒ S1 muss zuerst angefragt werden

Zwei Logische Anfrageplane (S1 und S2 oder S1 und S3)

Fabian Panse Einfuhrung Informationsintegration 45

Page 119: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageumschreibung:

Tuples fur Movie konnen Quelle S1 entnommen werden

Tuples fur Plays in New York konnen den Quellen S2 und S3entnommen werden (S3 ist vollstandig fur New York)

S2 und S3 benotigen Filmtitel (nicht Teil der Anfrage)

⇒ S1 muss zuerst angefragt werden

Zwei Logische Anfrageplane (S1 und S2 oder S1 und S3)

Fabian Panse Einfuhrung Informationsintegration 45

Page 120: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageumschreibung:

Tuples fur Movie konnen Quelle S1 entnommen werden

Tuples fur Plays in New York konnen den Quellen S2 und S3entnommen werden (S3 ist vollstandig fur New York)

S2 und S3 benotigen Filmtitel (nicht Teil der Anfrage)

⇒ S1 muss zuerst angefragt werden

Zwei Logische Anfrageplane (S1 und S2 oder S1 und S3)

Fabian Panse Einfuhrung Informationsintegration 45

Page 121: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageumschreibung:

Tuples fur Movie konnen Quelle S1 entnommen werden

Tuples fur Plays in New York konnen den Quellen S2 und S3entnommen werden (S3 ist vollstandig fur New York)

S2 und S3 benotigen Filmtitel (nicht Teil der Anfrage)

⇒ S1 muss zuerst angefragt werden

Zwei Logische Anfrageplane (S1 und S2 oder S1 und S3)

Fabian Panse Einfuhrung Informationsintegration 45

Page 122: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageumschreibung:

Tuples fur Movie konnen Quelle S1 entnommen werden

Tuples fur Plays in New York konnen den Quellen S2 und S3entnommen werden (S3 ist vollstandig fur New York)

S2 und S3 benotigen Filmtitel (nicht Teil der Anfrage)

⇒ S1 muss zuerst angefragt werden

Zwei Logische Anfrageplane (S1 und S2 oder S1 und S3)

Fabian Panse Einfuhrung Informationsintegration 45

Page 123: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageumschreibung:

Tuples fur Movie konnen Quelle S1 entnommen werden

Tuples fur Plays in New York konnen den Quellen S2 und S3entnommen werden (S3 ist vollstandig fur New York)

S2 und S3 benotigen Filmtitel (nicht Teil der Anfrage)

⇒ S1 muss zuerst angefragt werden

Zwei Logische Anfrageplane (S1 und S2 oder S1 und S3)

Fabian Panse Einfuhrung Informationsintegration 45

Page 124: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S1:

SELECT name AS title

FROM Movies

WHERE director = “Woody Allen”

Selektion auf Regisseur kann direkt in Quelle berechnet werden

Umbenennung des Attributes name in title

Fabian Panse Einfuhrung Informationsintegration 46

Page 125: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S1:

SELECT name AS title

FROM Movies

WHERE director = “Woody Allen”

Selektion auf Regisseur kann direkt in Quelle berechnet werden

Umbenennung des Attributes name in title

Fabian Panse Einfuhrung Informationsintegration 46

Page 126: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S1:

SELECT name AS title

FROM Movies

WHERE director = “Woody Allen”

Selektion auf Regisseur kann direkt in Quelle berechnet werden

Umbenennung des Attributes name in title

Fabian Panse Einfuhrung Informationsintegration 46

Page 127: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S2:

SELECT movie AS title, start AS startTime

FROM Cinemas

WHERE place = “New York”

AND movie = @argument

Selektion auf Ort kann direkt in Quelle berechnet werden

Umbenennung der Attribute movie und start

Fabian Panse Einfuhrung Informationsintegration 47

Page 128: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S2:

SELECT movie AS title, start AS startTime

FROM Cinemas

WHERE place = “New York”

AND movie = @argument

Selektion auf Ort kann direkt in Quelle berechnet werden

Umbenennung der Attribute movie und start

Fabian Panse Einfuhrung Informationsintegration 47

Page 129: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S2:

SELECT movie AS title, start AS startTime

FROM Cinemas

WHERE place = “New York”

AND movie = @argument

Selektion auf Ort kann direkt in Quelle berechnet werden

Umbenennung der Attribute movie und start

Fabian Panse Einfuhrung Informationsintegration 47

Page 130: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S3:

SELECT title, startTime

FROM CinemasInNYC

WHERE title = @argument

Selektion auf Ort ist hier nicht notwendig(S3 enthalt nur Filme aus New York)

Umbenennung der Attribute nicht notwendig

Fabian Panse Einfuhrung Informationsintegration 48

Page 131: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S3:

SELECT title, startTime

FROM CinemasInNYC

WHERE title = @argument

Selektion auf Ort ist hier nicht notwendig(S3 enthalt nur Filme aus New York)

Umbenennung der Attribute nicht notwendig

Fabian Panse Einfuhrung Informationsintegration 48

Page 132: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrage fur Quelle S3:

SELECT title, startTime

FROM CinemasInNYC

WHERE title = @argument

Selektion auf Ort ist hier nicht notwendig(S3 enthalt nur Filme aus New York)

Umbenennung der Attribute nicht notwendig

Fabian Panse Einfuhrung Informationsintegration 48

Page 133: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Auswahl eines oder mehrerer Plane:

S3 ist vollstandig fur New York

S2 ist evtl. unvollstandig fur New York

⇒ Wenn nur ein Plan ausgefuhrt werden soll, dann einer mit S3

Fabian Panse Einfuhrung Informationsintegration 49

Page 134: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Auswahl eines oder mehrerer Plane:

S3 ist vollstandig fur New York

S2 ist evtl. unvollstandig fur New York

⇒ Wenn nur ein Plan ausgefuhrt werden soll, dann einer mit S3

Fabian Panse Einfuhrung Informationsintegration 49

Page 135: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Auswahl eines oder mehrerer Plane:

S3 ist vollstandig fur New York

S2 ist evtl. unvollstandig fur New York

⇒ Wenn nur ein Plan ausgefuhrt werden soll, dann einer mit S3

Fabian Panse Einfuhrung Informationsintegration 49

Page 136: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageoptimierung des Planes mit S1 und S3:

Auswahl eines Algorithmus um S1 und S3 zu joinen(streaming Tuples von S1 zu S3 oder komplett S1 vor S3)

Festlegung wo die Selektion auf den Regisseur durchgefuhrtwird (in S1 oder im Zielsystem)

Fabian Panse Einfuhrung Informationsintegration 50

Page 137: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageoptimierung des Planes mit S1 und S3:

Auswahl eines Algorithmus um S1 und S3 zu joinen(streaming Tuples von S1 zu S3 oder komplett S1 vor S3)

Festlegung wo die Selektion auf den Regisseur durchgefuhrtwird (in S1 oder im Zielsystem)

Fabian Panse Einfuhrung Informationsintegration 50

Page 138: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageoptimierung des Planes mit S1 und S3:

Auswahl eines Algorithmus um S1 und S3 zu joinen(streaming Tuples von S1 zu S3 oder komplett S1 vor S3)

Festlegung wo die Selektion auf den Regisseur durchgefuhrtwird (in S1 oder im Zielsystem)

Fabian Panse Einfuhrung Informationsintegration 50

Page 139: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageoptimierung des Planes mit S1 und S3:

Auswahl eines Algorithmus um S1 und S3 zu joinen(streaming Tuples von S1 zu S3 oder komplett S1 vor S3)

Festlegung wo die Selektion auf den Regisseur durchgefuhrtwird (in S1 oder im Zielsystem)

Fabian Panse Einfuhrung Informationsintegration 50

Page 140: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageausfuhrung:

Falls S3 ausfallt oder zu langsam reagiert einen anderenAnfrageplan anfordern (in unserem Fall den mit S1 und S2)

Fabian Panse Einfuhrung Informationsintegration 51

Page 141: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageausfuhrung:

Falls S3 ausfallt oder zu langsam reagiert einen anderenAnfrageplan anfordern (in unserem Fall den mit S1 und S2)

Fabian Panse Einfuhrung Informationsintegration 51

Page 142: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Anfragebearbeitung am Beispiel

Movies: name, actors,

director, genre

Cinemas: place, movie,

start

Cinemas in NYC: cinema, title,

startTime

Cinemas in SF: location, movie,

startingTime

S1 S2

S3 S4

SELECT title, startTime

FROM Movie, Plays

WHERE Movie.title = Plays.movie

AND location = “New York”

AND director = “Woody Allen”

Anfrageausfuhrung:

Falls S3 ausfallt oder zu langsam reagiert einen anderenAnfrageplan anfordern (in unserem Fall den mit S1 und S2)

Fabian Panse Einfuhrung Informationsintegration 51

Page 143: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Agenda

1 Einfuhrung

2 Organisation

3 Integration von InformationssystemenDefinitionAnwendungsbereicheBeispiel

4 ArchitekturenArchitekturparadigmenKomponenten Virtueller Architekturen

5 Anfragebearbeitung

6 Schema Matching, Mapping & Datenintegration

Fabian Panse Einfuhrung Informationsintegration 52

Page 144: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Schema Matching, Mapping & Datenintegration

Schema Matching:

Vergleich von Schema-ElementenZwischen zwei Quellen (Bottom-Up) oder zwischen Quelle undglobalem Schema (Top-Down)

Schema Mapping:

Ableiten einer Quellbeschreibung (virtuell) oderTransformationsanfrage (materialisiert) basierend auf denMatchingergebnissen

Datenintegration:

Zusammenfuhren der Ergebnisse der einzelnenquellenspezifischen Teil-/TransformationsanfragenErkennen von semantischen Redundanzen (Duplikaterkennung)Zusammenfuhren von Duplikaten (Datenfusion)

Fabian Panse Einfuhrung Informationsintegration 53

Page 145: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Schema Matching, Mapping & Datenintegration

Schema Matching:

Vergleich von Schema-ElementenZwischen zwei Quellen (Bottom-Up) oder zwischen Quelle undglobalem Schema (Top-Down)

Schema Mapping:

Ableiten einer Quellbeschreibung (virtuell) oderTransformationsanfrage (materialisiert) basierend auf denMatchingergebnissen

Datenintegration:

Zusammenfuhren der Ergebnisse der einzelnenquellenspezifischen Teil-/TransformationsanfragenErkennen von semantischen Redundanzen (Duplikaterkennung)Zusammenfuhren von Duplikaten (Datenfusion)

Fabian Panse Einfuhrung Informationsintegration 53

Page 146: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Schema Matching, Mapping & Datenintegration

Schema Matching:

Vergleich von Schema-ElementenZwischen zwei Quellen (Bottom-Up) oder zwischen Quelle undglobalem Schema (Top-Down)

Schema Mapping:

Ableiten einer Quellbeschreibung (virtuell) oderTransformationsanfrage (materialisiert) basierend auf denMatchingergebnissen

Datenintegration:

Zusammenfuhren der Ergebnisse der einzelnenquellenspezifischen Teil-/TransformationsanfragenErkennen von semantischen Redundanzen (Duplikaterkennung)Zusammenfuhren von Duplikaten (Datenfusion)

Fabian Panse Einfuhrung Informationsintegration 53

Page 147: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel zu Schema Matching/Datenintegration

Gegeben: Zwei Webservices getMov und myMov

Fabian Panse Einfuhrung Informationsintegration 54

Page 148: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Quellen

1

Web Service getMov

• Operationen:

getMovieByActor(firstName, lastName)

getMovieByTitle(title)

• Ausgabestruktur:

Web Service getMov

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

Web Service myMov

• Operation: myMovies(Actor, Year)

• Ausgabestruktur:

Web ServicemyMov

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

myMov film

name

cast

year

getMov movie Title

Actors

Actor

Quelle: Melanie Herschel, Universitat Stuttgart

Fabian Panse Einfuhrung Informationsintegration 55

Page 149: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Schema Matching

Web Service getMov

Web ServicemyMov

getMov movie Title

Actors

Actor

myMov film

name

cast

year

Fabian Panse Einfuhrung Informationsintegration 56

Page 150: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Schema Matching

Web Service getMov

Web ServicemyMov

intMov movie

title

year

Actors Actor

getMov movie Title

Actors

Actor

myMov film

name

cast

year

Globales Schema

Fabian Panse Einfuhrung Informationsintegration 56

Page 151: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Schema Matching

Web Service getMov

Web ServicemyMov

intMov movie

title

year

Actors Actor

getMov movie Title

Actors

Actor

myMov film

name

cast

year

Globales Schema

Korrespondenzen

Fabian Panse Einfuhrung Informationsintegration 56

Page 152: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Duplikaterkennung

Handelt es sich bei den Filmen, die von Web Services getMovund myMov zuruckgegeben werden, um denselben Film?

Um dies festzustellen, mussen wir(1) semantische Aquivalenzen (Korrespondenzen) beider

Strukturen ermitteln und(2) die Daten vergleichen.

Fabian Panse Einfuhrung Informationsintegration 57

Page 153: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Duplikaterkennung

Handelt es sich bei den Filmen, die von Web Services getMovund myMov zuruckgegeben werden, um denselben Film?

Um dies festzustellen, mussen wir(1) semantische Aquivalenzen (Korrespondenzen) beider

Strukturen ermitteln und(2) die Daten vergleichen.

Fabian Panse Einfuhrung Informationsintegration 57

Page 154: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Duplikaterkennung

Handelt es sich bei den Filmen, die von Web Services getMovund myMov zuruckgegeben werden, um denselben Film?

Um dies festzustellen, mussen wir(1) semantische Aquivalenzen (Korrespondenzen) beider

Strukturen ermitteln und(2) die Daten vergleichen.

Web Service getMov

Web ServicemyMov

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

Fabian Panse Einfuhrung Informationsintegration 57

Page 155: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Duplikaterkennung

Handelt es sich bei den Filmen, die von Web Services getMovund myMov zuruckgegeben werden, um denselben Film?

Um dies festzustellen, mussen wir(1) semantische Aquivalenzen (Korrespondenzen) beider

Strukturen ermitteln und(2) die Daten vergleichen.

Web Service getMov

Web ServicemyMov

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

Korrespondenzen

Fabian Panse Einfuhrung Informationsintegration 57

Page 156: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Duplikaterkennung

Handelt es sich bei den Filmen, die von Web Services getMovund myMov zuruckgegeben werden, um denselben Film?

Um dies festzustellen, mussen wir(1) semantische Aquivalenzen (Korrespondenzen) beider

Strukturen ermitteln und(2) die Daten vergleichen.

Web Service getMov

Web ServicemyMov

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

Vergleich durch Ähnlichkeitsmaß

Korrespondenzen

Fabian Panse Einfuhrung Informationsintegration 57

Page 157: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Datenfusion

Titel stimmt uberein ⇒ kein Konflikt

Eric Bana, Cox & 2003 nur in einer Quelle ⇒ Unsicherheit

Widerspruchliche Daten ⇒ Konflikt

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

<movie> <Title> Troy </Title> <Actors> <Actor> Bana </Actor> <Actor> Pitt </Actor> <Actor> Cox </Actor> </Actors> <year> 2003 </year></movie>

Web Service getMov

Web ServicemyMov

Integriertes Ergebnis

Fabian Panse Einfuhrung Informationsintegration 58

Page 158: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Datenfusion

Titel stimmt uberein ⇒ kein Konflikt

Eric Bana, Cox & 2003 nur in einer Quelle ⇒ Unsicherheit

Widerspruchliche Daten ⇒ Konflikt

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

<movie> <Title> Troy </Title> <Actors> <Actor> Bana </Actor> <Actor> Pitt </Actor> <Actor> Cox </Actor> </Actors> <year> 2003 </year></movie>

Web Service getMov

Web ServicemyMov

Integriertes Ergebnis

Fabian Panse Einfuhrung Informationsintegration 58

Page 159: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Datenfusion

Titel stimmt uberein ⇒ kein Konflikt

Eric Bana, Cox & 2003 nur in einer Quelle ⇒ Unsicherheit

Widerspruchliche Daten ⇒ Konflikt

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

<movie> <Title> Troy </Title> <Actors> <Actor> Bana </Actor> <Actor> Pitt </Actor> <Actor> Cox </Actor> </Actors> <year> 2003 </year></movie>

Web Service getMov

Web ServicemyMov

Integriertes Ergebnis

Fabian Panse Einfuhrung Informationsintegration 58

Page 160: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Beispiel: Datenfusion

Titel stimmt uberein ⇒ kein Konflikt

Eric Bana, Cox & 2003 nur in einer Quelle ⇒ Unsicherheit

Widerspruchliche Daten ⇒ Konflikt

<movie> <Title> Troy </Title> <Actors> <Actor> Eric Bana </Actor> <Actor> Brad Pitt </Actor> </Actors></movie>

<film> <name> Troy </name> <cast> Pitt & Cox</cast> <year> 2003 </year></film>

<movie> <Title> Troy </Title> <Actors> <Actor> Bana </Actor> <Actor> Pitt </Actor> <Actor> Cox </Actor> </Actors> <year> 2003 </year></movie>

Web Service getMov

Web ServicemyMov

Integriertes Ergebnis

Fabian Panse Einfuhrung Informationsintegration 58

Page 161: Einführung Informationsintegration - Komplexe ... · Quelle: IBM: Break Away with Business Analytics and Optimization Study, IDC Fabian PanseEinf uhrung Informationsintegration 3

Einfuhrung Organisation Integration von Informationssystemen Architekturen Anfragebearbeitung Schema/Data Matching

Literatur

[Chr12] Peter Christen.Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution,and Duplicate Detection.Springer, 2012.

[DHI12] Anhai Doan, Alon Halevy, and Zachary Ives.Principles of Data Integration.Morgan Kaufmann, 2012.

[LN06] Ulf Leser and Felix Naumann.Informationsintegration.dpunkt.verlag, 2006.In German.

[NH10] Felix Naumann and Melanie Herschel.An Introduction to Duplicate Detection.Synthesis Lectures on Data Management. Morgan & Claypool Publishers, 2010.

Fabian Panse Einfuhrung Informationsintegration 59