20
Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 1 Datenintegration in der Bioinformatik Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 2 SOAP / HTTP BPEL XML WSDL Verhalten Organisation Daten Funktionen Verhalten Organisation Daten Funktionen Interface Interface Kommunikation Web Service A Web Service B Eine Anleihe bei Prof. Reisig (Vorangegangene RingVL)

Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

1

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 1

Datenintegration in derBioinformatik

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 2

SOAP /HTTP

BPEL

XML

WSDL

Verhalten

Organisation

Daten

Funktionen

Verhalten

Organisation

Daten

Funktionen

InterfaceInterface

Kommunikation

Web Service A Web Service B

Eine Anleihe bei Prof. Reisig(Vorangegangene RingVL)

Page 2: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

2

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 3

Verhalten

Organisation

Daten

Funktionen

Verhalten

Organisation

Daten

Funktionen

InterfaceInterface

Kommunikation

Gegenstand heute

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 4

Ursprüngliche Vortragsankündigung:

R. Eckstein, S. Heymann

XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich

(Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

XML hat auch in der Bioinformatik Einzug gehalten - zum Datenaustausch, aber auch zur Repräsentation der komplexen Informationen. Im ersten Teil werden Aspekte von XML sowie weitergehende Entwicklungen vorgestellt, die für den Life Science Bereich von besonderem Interesse sind. Dazu gehören die konzeptionelle Modellierung von Dokumentschemata sowie für semantische Informationen über die Biodaten. Im zweiten Teil wird ein Überblick für XML-Anwendungen im Life Science Bereich gegeben und ein typisches Anwendungsbeispiel aus dem Forschungsgebiet Biodiversität & Ökologie erläutert: Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter Kladistik. Es wird demonstriert, wie die Konflikte behandelt und die Daten in ein navigierbares Graphenformat transponiert werden. Dabei kommt der GeneViator zum Einsatz.

Page 3: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

3

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 5

Die Vortragsankündigung hätte man auch formularbasiert schreiben können:

Referenten: R. Eckstein, S. Heymann

Titel: XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich

Untertitel: (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

Zusammenfassung: ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter Kladistik. Es wird ...

//

Herkömmliche Dokumentkonventionen

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 6

Die Vortragsankündigung hätte man auch formularbasiert schreiben können:

Referenten: R. Eckstein, S. Heymann

Titel: XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich

Untertitel: (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

Zusammenfassung: ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter Kladistik. Es wird ...

//

Herkömmliche Dokumentkonventionen

(Karteikartenprinzip)

Page 4: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

4

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 7

Gensequenzen: Beispiel SARS

LOCUS AY274119 29736 bp RNA linear VRL 14-APR-2003

DEFINITION SARS coronavirus TOR2, complete genome.

ACCESSION AY274119

VERSION AY274119.1 GI:29826276

KEYWORDS .

ORGANISM SARS Coronavirus Tor2

.......

BASE COUNT 8475 a 5940 c 6186 g 9135 t

ORIGIN

1 ctacccagga aaagccaacc aacctcgatc tcttgtagat ctgttctcta aacgaacttt

61 aaaatctgtg tagctgtcgc tcggctgcat gcctagtgca cctacgcagt ataaacaata

...

29641 agccctaatg tgtaaaatta attttagtag tgctatcccc atgtgatttt aatagcttct

29701 taggagaatg acaaaaaaaa aaaaaaaaaa aaaaaa

//

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 8

Grösse der Datensammlungen

EMBL July 2002

> 150 GbytesMicroarray

1 Petabyte p.A.Sanger Centre

20 TB an DatenGenome Sequenzenwachsen p.A. um das Vierfache

Page 5: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

5

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 9

<vortrag>

<autor> R. Eckstein </autor>

<autor>S. Heymann </autor>

<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>

<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>

<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref="http://...">Kladistik</term>. Es wird ... </zusammenfassung>

</vortrag>

Struktur – Verarbeitbarkeit

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 10

<vortrag>

<autor> R. Eckstein </autor>

<autor>S. Heymann </autor>

<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>

<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>

<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref="http://...">Kladistik</term>. Es wird ... </zusammenfassung>

</vortrag>

Struktur – Verarbeitbarkeit

Lesbarkeit Struktur Verarbeitbarkeit

Page 6: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

6

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 11

<vortrag>

<autor> R. Eckstein </autor>

<autor>S. Heymann </autor>

<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>

<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>

<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref= http://www.visualgenomics.ca/gordonp/xml/ > Kladistik</term>. Es wird ... </zusammenfassung>

</vortrag>

Strukturierter Text

EXTENSIBLE MARKUP LANGUAGE

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 12

EXTENSIBLE MARKUP LANGUAGE

Beschreibungssprachen im Bio-Bereich: http://www.visualgenomics.ca/gordonp/xml/

<vortrag>

<autor> R. Eckstein </autor>

<autor>S. Heymann </autor>

<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>

<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>

<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref= http://www.visualgenomics.ca/gordonp/xml/ > Kladistik</term>. Es wird ... </zusammenfassung>

</vortrag>

Page 7: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

7

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 13

EXTENSIBLE MARKUP LANGUAGE

Beschreibungssprachen im Bio-Bereich: http://www.visualgenomics.ca/gordonp/xml/

<vortrag>

<autor> R. Eckstein </autor>

<autor>S. Heymann </autor>

<titel>XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich</titel>

<untertitel>Schwerpunkt "Große Datenräume in Web-basierten Umgebungen„</untertitel>

<zusammenfassung> ... Die Erfassung und Darstellung von Taxonomie-Daten, den Ubergang von klassischen Morphologie-basierten botanischen Schulen zu genbasierter <term ref= http://www.visualgenomics.ca/gordonp/xml/ > Kladistik</term>. Es wird ... </zusammenfassung>

</vortrag>

Handbücher Dokumenttypdefinitionen

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 14

DTD:

<!ENTITY % local.aa_type.value "">

<!ENTITY % aa_type "type (A|B|C|D|E|F|G|H|I|K|L|M

|N|P|Q|R|S|T|V|W|X|Y|Z

%local.aa_type.value;)

#REQUIRED">

Kompendium aller Erkenntnisse

Page 8: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

8

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 15

<!ENTITY % local.aa_type.value ""> (bis 2002)

<!ENTITY % aa_type "type (A|B|C|D|E|F|G|H|I|K|L|M

|N|P|Q|R|S|T|V|W|X|Y|Z

%local.aa_type.value;)

#REQUIRED">

DTD’s: Kompendium neuer Erkenntnisse

<!ENTITY % local.aa_type.value ""> (seit Feb. 2003)

<!ENTITY % aa_type "type (A|B|C|D|E|F|G|H|I|K|L|M

|N|P|Q|R|S|T|V|U|W|X|Y|Z

%local.aa_type.value;)

#REQUIRED">

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 16http://www.visualgenomics.ca/gordonp/xml/

Beispiele aus der Abstammungslehre

Page 9: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

9

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 17http://www.visualgenomics.ca/gordonp/xml/

Homo sapiens:

Other names:

man[common name]

Lineage( full )

cellular organisms; Eukaryota; Fungi/Metazoa group; Metazoa;Eumetazoa; Bilateria; Coelomata; Deuterostomia; Chordata;Craniata;Vertebrata; Gnathostomata; Teleostomi; Euteleostomi;Sarcopterygii; Tetrapoda; Amniota; Mammalia; Theria; Eutheria; Primates; Catarrhini; Hominidae; Homo/Pan/Gorilla group; Homo

Beispiele aus der Abstammungslehre

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 18http://www.visualgenomics.ca/gordonp/xml/

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="HTMLOutput.xsl"?>

<!DOCTYPE MultipleClassifications SYSTEM "XMLOutput.dtd">

<MultipleClassifications Order="Alpha">

<!--#NEXUS [18-Dec-2001 16:59:36]-->

<ranks>

<rank RankID="Family"><rankName>Family</rankName><rankValue>10</rankValue></rank>

<rank RankID="Sub-Family"><rankName>Sub-Family</rankName><rankValue>15</rankValue></rank>

<rank RankID="Legion"><rankName>Legion</rankName><rankValue>17</rankValue></rank>

<rank RankID="Tribe"><rankName>Tribe</rankName><rankValue>20</rankValue></rank>

<rank RankID="Sub-Tribe"><rankName>Sub-Tribe</rankName><rankValue>25</rankValue></rank>

<rank RankID="Grex"><rankName>Grex</rankName><rankValue>27</rankValue></rank>

<rank RankID="Genus"><rankName>Genus</rankName><rankValue>30</rankValue></rank>

</ranks>

<taxa>

<taxon RankIDREF="Family" TaxonID="TApiaceae">Apiaceae</taxon>

<taxon RankIDREF="Sub-Family" TaxonID="TPauciiugatae">Pauciiugatae</taxon>

...

Beispiele aus der Abstammungslehre

Page 10: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

10

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 19

Hypothese Design Integration

Annotation /Wissens-

Repräsentation

Informations-quellen

InformationFusion

KlinischeBeobachtunge

individualleMedizin

Data Mining

Case-BasedReasoning

DatensammlungKlinische

Bilder/SignaleGenomic/Proteomic

Analyse

Knowledge Repositories

Modell- & Analyse-bibliotheken

Beispiel: Genetik & Medizin

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 20

Herausforderungen…

Formatheterogenität

Datenheterogenität / Anzahl der Datenquellen

Umfang der Daten / Grösse der Datensammlungen

Zugriffsheterogenität

Page 11: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

11

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 21

Formatheterogenität

Multimedia: Bilder & Video (e.g. microarrays, 3D, ...)

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 22

Formatheterogenität (cont.)

Text “Annotationen” & Literaturstrukturiert vs. semistrukturiert vs. unstrukturiert

Unterschiedliche Formate, Strukturen, Schemata, Umfänge, …

Web-Schnittstellen, Verteilung als Dateien, Datenbank-Dumps, XML-Dokumente, …

ID TRBG361 standard; RNA; PLN; 1859 BP.XXAC X56734; S46826;XXSV X56734.1XXDT 12-SEP-1991 (Rel. 29, Created)DT 15-MAR-1999 (Rel. 59, Last updated, Version 9)XXDE Trifolium repens mRNA for non-cyanogenic beta-glucosidaseXXKW beta-glucosidase.XXOS Trifolium repens (white clover)OC Eukaryota; Viridiplantae; Streptophyta; Embryophyta.OC Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots. OC eurosids I; Fabales; Fabaceae; Papilionoideae; Trifolieae.XX

Page 12: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

12

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 23

Daten-/Inhaltsheterogenität

Genomische, proteomische, transcriptomische, metabalomische, Protein-Protein Interactionen, regulatorische Bio-Netzwerke, Alinierungen, Krankheiten, Patterns & Motifs, Proteine Structuren, Proteinklassifikationen und -familien, spezielle Proteine(Enzyme, Receptoren), …

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 24

Zugriffsheterogenität

Page 13: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

13

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 25

Genomisch relevante Bereiche

DNAGenome

RNATranscriptome

Amino AcidsProteome

Pathways Life Evolution

Environment Diseases Experiments

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 26

Inhalt von Datenquellen

DNAGenome

RNATranscriptome

Amino AcidsProteome

Pathways Life Evolution

Environment Diseases Experiments

EMBLRefSeq

LocusLinkEMBL (EST) SWISS-PROT

Interpro

OMIM

TaxonomyBrendaKEGG

Express

Gene Ontology

Page 14: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

14

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 27

Datenmodellierung

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 28

Datenmodellierung

EMBL

TAXONOMY

SWISSPROT

KEGG

BIND

ENSEMBL

UniGene

LIMEPCLUST

GO

Page 15: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

15

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 29

ANALYSISAnalysis_Key

Analysis_Decision

ALGORITHMAlgorithm_key

Algorithm_Name

SNP_FREQUENCYFrequency_Key

Linkage_KeyPopulation_KeyAllele_KeyAllele_Frequency

SNP_POPULATIONPopulation_Key

Sample_Size

ALLELEAllele_Key

Map_KeyAllele_NameBase_Change

PCR_PROTOCOLProtocol_Key

Method_KeySource_KeyBuffer_Key

STS_SOURCESource_Key

QUALIFIERQualifier_Key

Map_KeyChip_KeyGene_Name

RNA_SOURCERNA_Source_Key

Treatment_KeyGenotype_KeyCell_Line_KeyTissue_KeyDisease_KeySpecies

CHIPChip_Key

Chip_NameSpecies

PARAMETER_SETParameter_Set_Key

GE_RESULTSResults_Key

Analysis_KeyParameter_Set_KeyQualifier_KeyRNA_Source_KeyExpression_LevelAbsent_PresentFold_ChangeType

SCOREScore_Key

Alignment_KeyP_ValueScorePercent_Homology

ALIGNMENTAlignment_Key

Algorithm_keySequence_Key

PARAMETER_SETParametet_Set_Key

Algorithm_key

SEQUENCE_DATABASESeq_DB_Key

Seq_DB_Name

SEQUENCESequence_Key

Map_KeyQualifier_KeySeq_DB_KeyTypeName

MAP_POSITIONMap_Key

DISEASEDisease_Key

Name

TISSUETissue_Key

Name

PCR_BUFFERBuffer_Key

SNP_METHODMethod_Key

ORGANISMOrganism_Key

Seq_DB_KeySpecies

CELL_LINECell_Line_Key

Name

GENOTYPEGenotype_Key

Name

TREATMENTTreatmemt_Key

Name

LinkageLinkage_Key

Disease_LinkLinkage_Distance

Gen-Expressionsdaten

SNP Daten

Homologie-Daten

Daten aus unabhängigen Datenquellen

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 30

Logische Datenintegration

SwissProt

TrEMBL

...KABAT

EMBL

Zugriffs-modul bzw.

-schicht

Page 16: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

16

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 31

Logische Datenintegration (cont.)

Quelle 1 Quelle 2 Quelle 3 Quelle 3

Wrapper Wrapper Wrapper Wrapper

MediatorAnfrage/Daten

Anfrage Ergebnis

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 32

Physische IntegrationSwissProt

TrEMBL

...KABAT

EMBL

Datenbank

Modell der realen biologischen Welt

Page 17: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

17

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 33

Data Warehousing

E(Extraction)

T(Transformation)

L(Load)

QuelldatenData Warehouse

Quelle1Quelle2

Quelle3

Quelle4

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 34

Gene-EYe Integrationsplattform

Genome Data Store Layer (GDS Schema)

“Datei”-Daten -> Relationale Entititäten (e.g. EMBL)

Daten

Genome DataBase Layer (GDB Schema)

Relationale Entititäten -> Biologische Entitäten (e.g. Gene)

Inhalt

Genome Data Warehouse Layer (GDW Schema)

Biologische Entititäten -> Biologische Konzepte (e.g. Lebenszyklus)

Wissen

Design

Page 18: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

18

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 35

GDS: Von der Datei zur Datenbank

Genome Data Store Layer (GDS Schema)

EM

BL scanner

SWALL scanner

TAXO

scanner

InterPro scanner

GDS Admin Tools

EN

SE

MB

L scanner

Data StorageData CleansingUpdate/Admin

GDS Load Tools

EM

BL D

DL

SW

ALL D

DL

TAXO

DD

L

InterPro D

DL

EN

SE

MB

L DD

L

Design

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 36

Modellierung des “Wartungsprozesses”

Page 19: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

19

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 37

GDB: von den Daten zur Biologie

Datenspeicherung“Datensäuberung”

(syntaktisch)

Datenintegration“Datensäuberung”

(semantische)

Wird inKooperationmit Experten

definiert

[Data]

Genome Data Store Layer (GDS Schema)

Genome Database Layer (GDB Schema)

EM

BL

SW

ALL

TAXO

InterPro

EN

SE

MB

L

GDB Builder (IBM Clio?)

Gene

Protein

Transcript

Tissue

Variant

GDB Mapper (IBM Clio)

[Definition]

SchemaData

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 38

GDW: Plattform für Forschung

Genome Database Layer (GDB Schema)

Genome Data Warehouse Layer (GDW Schema)Data Mining,

Ontologienutzung,Prozesssimulation(“Virtuelle Zelle”)

GDW Miner

Gene

Protein

Transcript

Tissue

Variant

GDB Explorer

Gene

Protein

Transcript

Tissue

Variant

Ontology

Datenintegration“Datensäuberung”

(semantische)

Page 20: Datenintegration in der Bioinformatik...XML , (Modellierung) & Datenintegration - Fortschritt im Life Science Bereich (Schwerpunkt "Große Datenräume in Web-basierten Umgebungen")

20

Ringvolesung Informatik - Prof. J.C. Freytag, Ph.D. 39

What are the goals?

Source: Dusan Petricic, Toronto, Ontario -- The Toronto Starhttp://cagle.slate.msn.com/news/gene/gene6.asp Fragen??