41
Bayes statisztika és Bayes hálók az asztma/allergia kutatásban Antal Péter BME Méréstechnika és Információs Rendszerek Tanszék Mesterséges Intelligencia Csoport

Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bayes statisztika és Bayes hálók az asztma/allergia kutatásban

Antal PéterBME

Méréstechnika és Információs Rendszerek TanszékMesterséges Intelligencia Csoport

Page 2: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Tartalom• Bayes hálók (grafikus modellek)

– Kronológia– Az általános Bayes hálós modell– Értelmezési szintek– Bayes hálók tanulása

• Bayes statisztika• Bayes hálók és Bayes statisztika orvosbiológiai kutatásban

– Genetikai asszociációs kísérletek– Fúziós kihívások

• Eddigi alkalmazások asthma/allergia kutatásban

Page 3: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bayes-*• Thomas Bayes (c. 1702 – April 17, 1761),

brit matematikus és presbiteriánus lelkész

• Bayes tétel• Bayes statisztika• Bayesi döntéselmélet • Bayes hálók• Bayes faktor• Bayes hiba• Bayes rizikó• Bayes döntés• Bayes becslő• ...

Pathology

RS555835

nem

Kor

RS2513081

RS2509961REVRS7118247

RS528823

RS2302360REV

RS540170REVRS646924

RS607639REV

RS7127662

RS2847204

RS1567083REV

RS525574

RS7925087

RS2074422

RS488483

RS7935803

RS2259606

RS7928208REV

RS2237997

RS11827029

RS11231128REV

RS2233253

RS954237

RS2905506

RS563748

RS10792269REV

RS12792791REV

RS7935186

RS2298559

RS2298553

RS569108

RS514524

RS4939426

RS4939353REV

RS3829247

RS1144744

RS586571REV

RS4939452

RS708498

RS3759666

RS751026

RS17197

RS2273431

RS1307289

RS1254600RS12419635

RS7941395

RS2340943

RS2277494

RS1051069

RS3763840

RS8013756

RS1032936

RS1254601

RS7145029

RS10498475

RS17126074

RS8004624RS4898762

RS735265

RS6572868

RS3825596

RS17127622

RS762063

RS12889199

RS17253619

RS2357947

RS11622740

RS984050

RS946615

RS2277495

RS3751464

RS17127595

RS3765088

RS1695

RS4901200

RS7150275

RS10141001

RS3794042

RS1874569

RS2509712

RS7149810

RS3742536

RS17694496

RS1201378

RS803012

RS708502

RS1209087

RS17125273

RS1565970

RS1957844

RS17666653

RS17128136

RS12587410

RS17831682

RS17666689

RS708486

RS9671722

RS1953861

RS10144326

RS17831675RS1993839

)],([ˆ)|,( SfEff DataSp θθ=≈

)()|()|( ModelpModelDatapDataModelp ∝

Page 4: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Történeti áttekintés• [1921]: S. Wright’s diagrams, „Correlation and causation”• [1970] The first (medical) applications (Dombal).• [1979] The axiomatization of independencies (Dawid)• [1982] The decomposition of a distribution (Lauritzen).• [1988] Representation of independencies (Pearl).• [1988] Inference methods in polytrees (Pearl).• [1989] Exact general inference methods (Lauritzen).• [1990] Closed form for the structure posterior (Cooper,

Herskovits)• [1995] Bayesian inference over BNs (Madigan)• [1998] Bayesian inference about causation (Heckerman)• [2000] Bayesian inference about relevance (Friedman)• [2000] J.Pearl: Causality, Cambridge University Press• …..

Page 5: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bayes tétel

)()|()|( ModelpModelDatapDataModelp ∝

∑==

XXpXYp

XpXYpYp

XpXYpYXp)()|(

)()|()(

)()|()|(

Egy algebrai trivialitás

Egy tudománytörténeti paradigmaváltás

És pszichológiai konzekvenciák, megerősítés

P(betegség|tünet)=??? p(tünet|betegség)=0.79p(betegség)=0.12

Page 6: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bayes tételtől a Bayes hálókig:Naív/idióta Bayes háló

Változók: Asthma-stádium (St), Légzésfunkció(LF), TünetGyakoriság (Gy), TünetSúlyosság (S), ÉjszakaiTünet (É), FizikaiTerhelés (F), Hallgatózási eltérés (H)

Stádium

LégzésFunkció Gyakoriság Súlyosság HallgatózásÉjszakai Fizikai

P(H|St)P(F|St)P(É|St)P(S|St)P(Gy|St)P(LF|St)

P(St)Model

Diagnosztika

∏=

ii StTünetpStp

StHpStFpStÉpStSpStGypStLFpStp

HFÉSGyLFStp

.)|()()|()|()|()|()|()|()(

),,,,,|(

Page 7: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:
Page 8: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Pathfinder• Pathfinder system. (Heckerman, Probabilistic Similarity• Networks, MIT Press, Cambridge MA).• • Diagnostic system for lymph-node diseases.• • 60 diseases and 100 symptoms and test-results.• • 14,000 probabilities.• • Expert consulted to make net.• • 8 hours to determine variables.• • 35 hours for net topology.• • 40 hours for probability table values.• • Apparently, the experts found it quite easy to invent the causal

links and probabilities.• Pathfinder is now outperforming the world experts in diagnosis.

Being extended to several dozen other medical domains.

Page 9: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

És még egy model

Page 10: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bayes háló értelmezési szintek

• Együttes eloszlás hatékony reprezentálása– Hatékony következtetés és tanulás

• Függetlenségi állítások reprezentálása– Direkt függések

• Oksági modell reprezentálása– „A csomópontok változók,– Az élek direkt, okozati relációk”

Page 11: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Eloszlások faktorizációja

• Általános ( Markov hálók)– Potenciálok

• Speciális ( Bayes hálók)– Feltételes eloszlások

∏=

∝Lj

jjjn jLXXXXp

,..,11 ),...,(),,(

1ϕK

=

=−

=

=

niii

niiin

XPaXp

XXXpXXp

,..,1

,..,1111

))(|(

),,|(),,( KK

Page 12: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Eloszlások függetlenségeinek gráfos reprezentálása

• Jelölje Ip(X|Z|Y), hogy X,Y függetlenek Z feltétellel p eloszlásban

• Az Mp függetlenségi modell tartalmazza az összes p-beli függetlenségi állítást

• Kérdések– Lehet-e minden Mp-t egy gráffal reprezentálni? (nem)– Pontosan melyiket lehet? (nem ismert)– Mi a legjobb „közelítés”? (problémafüggő)

„A valószínűségszámítás nem a számokról szól”

Page 13: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Gráffal nem reprezentálhatóeloszlások/függetlenségi modellek• Intranzitív függés (pl. X és Z lehet független)

• Alsóbbrendű függetlenségből nem következik magasabbrendű

(X,Z)-tól együtt függhet Y, mégha páronként független is

X Y Z

X

Y

Z

Page 14: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

A függetlenségi modell vs gráfok II.

• Jó hírek:– Véges karakterizáció egzakt Markov hálós

reprezentációra– D-elválasztottság helyes és teljes kalkulus

• Sejtések– Nincs véges karakterizáció egzakt Bayes hálós

reprezentációra• Rossz hírek

– Léteznek egzakt módon nem reprezentálhatóeloszlások (sem Markov, sem Bayes hálókkal)

– A reprezentáció redundáns oksági értelmezés???

Page 15: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Principles of causality• strong association,• X precedes temporally Y,• plausible explanation without alternative explanations,• necessity (generally: if cause is removed, effect is

decreased or actually: y would not have been occurred with that much probability if x had not been present),

• sufficiency (generally: if exposure to cause is increased, effect is increased or actually: y would have been occurred with larger probability if x had been present).

Page 16: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Függetlenségi vs. oksági modellBAJ: egy függetlenségi modellhez több

Bayes háló is tartozhat

X Z Y

p(X),p(Z|X),p(Y|Z)

X Z Y

p(X|Z),p(Z|Y),p(Y)

X Z Y

p(X|Z),p(Z),p(Y|Z)

“tranzitív” M ≠ „intranzitív” MX Z Y

p(X),p(Z|X,Y),p(Y)

„Az idő nyíl”‘v-struktúra’

Page 17: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Oksági Bayes hálók„Correlation≠causation”, „no cause in, no cause out”

„Csak oksági kapcsolatok” feltevés: több változó esetén bizonyos élek egyértelműek

Több változó esetén bizonyos esetekben még rejtett változók is kizárhatók

KONKLÚZIÓ1: tabula rasa oksági következtetés lehetséges• K2: oksági következtetések spektruma a tárgyterület független feltevések

függvényében– Csak oksági relációk– Rejtett változók– Modell minimalitás– Változószám

„Az okozatiság matematizálása”„a statisztikai idő iránya”

E

X

Y

ZZ?

*?

???

Page 18: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Feladatok Bayes hálóknál• (Passzív megfigyeléses) következtetés

– P(Cél-változók|Megfigyelt-változók) – Legvalószínűbb értékkonfiguráció

• Beavatkozásos következtetés– P(Cél-változók|Megfigyelt-változók, Beállított-változók)

• Kontrafaktuális következtetés– P(Cél-változók|Megfigyelt-változók, Átállított-változók)

• Döntési háló, hasznosság és beavatkozási változók– További információ értéke– Maximális hasznú döntés

• Paraméter tanulás• Struktúra tanulás

– BNET 1995-

Page 19: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bayes hálók tanulása• Hipotézisteszteléssel

– Függetlenségi tesztek diktálják a hálót• Bayes statisztika esetén

)()|()|( ModelpModelDatapDataModelp ∝

-14

-12

-10

-8

-6

-4

-2

0

2

4

1 3 5 7 9 11 13 15 17 19best+75->Abest+10->Abest+79->Abest+75,10->Abest+ALLSNP->A75->79empty

-120

-100

-80

-60

-40

-20

0

20

1 13 25 37 49 61 73 85 97 109 121 133 best+75->Abest+10->Abest+79->Abest+75,10->Abest+ALLSNP->A75->79empty

Változók: SNP75, SNP10,SNP79, Asthma („best model”: 79<-75->10)

Page 20: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bayes háló tulajdonságok• Ötlet: hipotézisek, mint Bayes háló jegyek• Ötlet2: (modellalapú) posterior a hipotézisekre

• Génregularizációs kísérletben– Páronkénti oksági kapcsolatok: független, közös ok, oksági

kapcsolat (direkt/indirekt)• Asszociációs kísérletben

– Relevancia???

)](1[

)(1)|()|(

)|( benmigazgTulajdonsáE

benmigazgTulajdonsáDatampDatadonságModelTulajp

Datamp

m

−−−=

−−−=∑

Page 21: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Feature learning

Feature posterior

• Goal: approximate the full-scale summation(integral)

• Practical methods: MCMC (Markov ChainMonte Carlo) sampling

∑ ===

fFG G GPfFP:

)()(

Page 22: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Y

A kapcsolt BN jegyek relevanciára– Markov Blanket (sub)Graphs (MBGs)

(1) parents of the node(2) its children(3) parents of the childrenMarkov Blanket Sets (MBs)• the set of nodes which

probabilistically isolate the target from the restof the model

– Markov Blanket Membership (MBM)• pairwise relationship

Page 23: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Kapcsolt, eltérő absztrakciós szintűhipotézisosztályok

• Az asszociációs tanulmányok kérdései Bayes hálók strukturális jegyeivel formalizálhatók – Páronkénti asszociáció: Markov Blanket Memberhsips

(MBM)– Többváltozós/multifaktoriális asszociáció: Markov Blanket

sets (MB)– Multifaktoriális asszociáció interakciókkal: Markov Blanket

Subgraphs (MBG, C-RPDAG)– Teljes interakciós modell: Részlegesen irányított Bayes

háló (PDAG) – Teljes oksági modell:Bayes háló (BN)

• Kapcsolt, absztrakciós szinteket alkotnak ezek az asszociációs (feltételes) jegyek– DAG=>PDAG=>MBG=>C-RPDAG=>MB=>MBM

Page 24: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Adatoktól az orvosbiológiai ígéretekig

• Populációs adatok (családfa)

• Klinikai adatok• Genetikai profil

– Egyed– Szövet

• Genomikai profil– Gén-expressziós

profil– mikroRNS profil

• Proteomikai profil

• Személyre szabott– prevenció– szűrés– diagnosztika– gyógyszer– kezelés

• (Nép)betegségek– „biológiai” szintű

megértése – kezelése– Pl. malária, TBC,

asztma, allergia, csontritkulás, elhízás,...

Statisztikai adatelemzés

Bioinformatika

Tudásmérnökség

Rendszermodellek•Génregularizációs hálók•Útvonal elemzés•Modell alapú gyógyszertervezés

Page 25: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Bioinformatika: tudás és adat fúzió

PubMedGene OntologyHAPMAP

dbSNP

TRANSFAC……..PreMod

miRDB

Ingenuity*

KEGGOMIM

Nagy áteresztőképességűmolekuláris biológiai mérések

•DNS chip•(mikroRNS chip)•CGH chip•SNP chip

……

Gén ExpresszióGén Expresszió

mikroRNS expressziómikroRNS expresszió

Comparative Genome HybridizationComparative Genome Hybridization

Egy nukleotidos polimorfizmusEgy nukleotidos polimorfizmus

Komplex, hierarchikus,tudásgazdag hipotézisek•Asszociációk•Multifaktoriális interakciók•Okozati relációk•Alrendszerek, rendszerek

Nagy dimenziójú adatok Nagy mennyiségű, elektronikus tudásKörnyezeti változók

Fenotipusos (klinikai) változók

Page 26: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Tudásmérnöki trendek (fúzióhoz)

• Szabadszöveges tudástárak– Pl. Pubmed 15 millió absztrakt– Cikk állítása formálisan

• Szemi-formális tudásbázisok• Elektronikus ontológiák, taxonómiák

– UMLS, MeSH, Gene Ontology, MGED ontológia, SNP ontológia

• Formális tudásbázisok• Valószínűségi tudásmodellek/logikák• Szemantikus világháló• Annotált, integrált adatbázisok• Annotált, integrált web-szolgáltatások

Tudásreprezen-

táció

létezés

következtésszámítás

közlé

s

helyettesítés

TudTudáásmsméérnrnööki feladatok: ki feladatok: ••reprezentreprezentáácicióó, , ••kinyerkinyeréés,s,••kköövetkeztetvetkeztetéés,s,••fenntartfenntartááss

Elektronikus, hatalmas mennyiségű, egységesített, valószínűségi,empirikusan lehorgonyzott, formálisan reprezentált tudás

Enciklopédisták (D.Diderot)Logikai pozitivizmus/empirizmus (R. Carnap ) “World Brain” (H.G.Wells,1938)

Page 27: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Indukciós trendek (fúzióhoz)• Statisztikai, számításelméleti tanulási elméletek

– Nem-parametrikus konzisztencia eredmények– Nem-aszimptotikus konvergencia eredmények– ...

• Bayes statisztika– Markov Lánc Monte Carlo módszerek (MCMC)– Hibrid/Hierarchikus/Kapcsolt/... MCMC-ek– ..

• Oksági következtetés– Oksági kapcsolatok indukciója passzív megfigyelésekből– Oksági kapcsolatok formalizálása (kauzális Bayes hálókkal/

strukturális egyenletekkel)– Megfigyelések és beavatkozások tervezhetősége (kiváltása)– (Beavatkozások hatásának valószínűségi modellezése– Kontrafaktuális következtetések)

W.OckhamW.OckhamD.HumeD.HumeK.R.PopperK.R.Popper

T.BayesT.BayesP.LaplaceP.Laplace

D.HumeD.HumeH.ReichenbachH.Reichenbach

Page 28: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

• Genome-wide association studies (GWASs)– Sample size: ~1000– |Response/outcome (target) variables|: ~10– Predictor/explanatory:

• |SNPs| (nominal/numeric, unphased genotype): ~105, 106

• |Environmental variables|: ~10– Cost: 1000x1000 Euro

• Partial genome screening studies (PGSSs)– Sample size: ~1000– |Response/outcome (target) variables|: ~10– Predictor/explanatory:

• |SNPs| (nominal/numeric, unphased genotype): ~102

• |Environmental variables|: ~10– Cost: 10000 Euro

• The goal is the exploration of…– the relevance of explanatory variables w.r.t. the

target variables– the interdependence of explanatory variables

Genetic Association Studies (GAS): a statistical view

Page 29: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

The genomic background of asthma

SU/DGCI: András Falus, Csaba Szalai, Ildikó UngváriSample size: 1100SNPs: 46 (150)Clinical variables 4 (10)

Literature

Expertise

Clinical data

Genetic (SNP)data

Pairwise association

Multivariable analysis

Multivariable analysis with interactions

Complete dependency models

Complete causal models:

Page 30: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Overview (SNP)

LocalizationdbSNP, HAPMAP, Gene Ontology,

TRANSFAC, PreMod, miRDB, KEGGHaplotype prediction

Vocabularyconstruction

Earlier data sets

Document corpus

collection

Logical filters

for SNPsRankingmodels

for SNPs

DecisionNetworks

for sets of SNPs

Study design Data analysis

Privateknowledge

bases

Genomic data withphenotypic and environmental variables

Measurement

Expert

Missing data management

Relevance(association)

analysis

BayesianData

Analysis

Causal inference

Classicalanalysis

System(Network)analysis

Predictivemodels

Knowledge-rich interpretationof Bayesiandata analysis

Cross-compared classical and Bayesian

data analysis

Textmining

Priors for study design

Priors for data analysis

Priors for interpretation,

evaluation

Page 31: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

An overview of results

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47

HWE

ODDS

ARM

LRCO

LRCAT

MBM

MBS-1

MBS-2

MBS-3

Relevance: HI

Relevance: MED

Relevance: LO

Irrelevant0.01

SNP identifiers

Prob

abili

ty o

f rel

evan

ce o

f SN

Ps

HWE – Hardy-Weinberg equilibrium test, ODDS – odds ratio, ARM – Cochran-Armitage trend test, LRCO – logistic regression (continuous case), LRCAT – logistic regression (categorical case), MBM –Bayesian pairwise relevance, MBS-1–9 relevant sets by Bayesian analysis. (only MBM values are numeric, others are arbitrary values for visualization)

Uncertainty/sample complexity in multivariate analysis?

Page 32: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

0.00E+000

5.00E-002

1.00E-001

1.50E-001

2.00E-001

2.50E-001

3.00E-001

3.50E-001

0 10 20 30Rank(MBS)

p(M

BS

|D) Posterior

Approximation

Lessons from the applications of the BMLA

• High-level of uncertainty in multivariate analysis• There are stable sub-parts (e.g., subset, subgraphs)• Results for target variables and for certain SNPs could be

aggregatedThe peakness of the posteriors of the most probable MB sets and their MBM-based approximations.(46 variables, 1000 samples)

Page 33: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

0

2

4

6

8

10

12

14

16

18

20

0 1000 2000 3000 4000 5000

Sample size

En

tro

py MBM

MBS

MBG

“Sample complexity” for FSS

The summed entropies of the p(MBM(Y,Xi,G)|D) posteriors, and the entropy of the MBS and MBG posteriors for the artificial model (with 7+1 variables).

0.00E+000

2.00E-001

4.00E-001

6.00E-001

8.00E-001

1.00E+000

1.20E+000

200

500

1000

2000

5000

1000

0

2000

0

Sample size

Po

ste

rio

rso

fM

Bse

ts,p

(MB

S|D

)

S200

S500

S1000

S2000

S5000

The sequential posteriors of relevant MB sets for the model with 50 variables.

Page 34: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Scalable multivariate analysis

0.00E+0001.00E-0012.00E-0013.00E-0014.00E-0015.00E-0016.00E-0017.00E-0018.00E-0019.00E-001

1.00E+000

Alle

rgy

SNP5

, Alle

rgy

SNP7

, SN

P5, A

llerg

y

SNP7

, SN

P5, A

llerg

y, G

ende

r

SNP7

, SN

P14,

SN

P5, A

llerg

y, G

ende

r

SNP7

, SN

P14,

SN

P5, S

NP1

2, A

llerg

y,G

ende

r

SNP9

, SN

P7, S

NP1

4, S

NP5

, SN

P12,

Alle

rgy,

Gen

der

SNP9

, SN

P7, S

NP1

0, S

NP1

4, S

NP5

,SN

P12,

Alle

rgy,

Gen

der

SNP9

, SN

P7, S

NP1

4, S

NP3

, SN

P4,

SNP5

, SN

P12,

Alle

rgy,

Gen

der

SNP9

, SN

P7, S

NP1

0, S

NP1

4, S

NP3

,SN

P4, S

NP5

, SN

P12,

Alle

rgy,

Gen

der

SNP9

, SN

P7, S

NP1

0, S

NP1

4, S

NP1

7,SN

P3, S

NP4

, SN

P5, S

NP1

2, A

llerg

y,G

ende

rSN

P9, S

NP7

, SN

P10,

SN

P6, S

NP1

4,SN

P8, S

NP3

, SN

P4, S

NP5

, SN

P12,

Alle

rgy,

Gen

der

SNP9

, SN

P7, S

NP1

0, S

NP6

, SN

P14,

SNP1

7, S

NP8

, SN

P3, S

NP4

, SN

P5,

SNP1

2, A

llerg

y, G

ende

rSN

P2, S

NP2

2, S

NP7

, SN

P10,

SN

P6,

SNP1

4, S

NP8

, SN

P3, S

NP4

, SN

P31,

SNP5

, SN

P12,

Alle

rgy,

Gen

der

SNP2

, SN

P22,

SN

P7, S

NP1

0, S

NP6

,SN

P14,

SN

P8, S

NP1

1, S

NP3

, SN

P4,

SNP3

1, S

NP5

, SN

P12,

Alle

rgy,

Gen

der

[SN

P9, S

NP7

, SN

P10,

SN

P14,

SN

P5,

SNP1

2, A

llerg

y, G

ende

r]

Problem: the “polynomial”gap between simple and complex features(e.g., MBM (n2) and MBS (2n))

Idea: If all Xi in set S with size k are members of a Markov Boundary set, then S is called a k-ary Markov Boundary subset (O(nk)).

)|)(:( NDGMBSXGp ⊆

The maximal posteriors for k-relevance/k-MBS for Asthma.

Page 35: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

SNP-to-gene aggregation

Abstraction levels: SNP, haplo-block, gene,..., pathway

Note that it is different from aggregated multi-variables.

0

0.2

0.4

0.6

0.8

1

0 1000 2000 3000 4000 5000

Sample size

Po

ste

rio

rp

rob

ab

ility

of

rele

va

nce

Gene-1

Gene-2

Gene-3

Gene-4

Gene-5

Gene-6

Gene-7

Gene-8

The sequential posteriors that a given gene contains a SNP relevant for asthma

Page 36: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Joint analysis for multiple targets

0.00E+0002.00E-0014.00E-0016.00E-0018.00E-0011.00E+000

SNP5SNP7

GenderSNP14

SNP10SNP12

SNP9SNP4

SNP3SNP31

SNP2SNP8

SNP17SNP15

SNP6SNP38

SNP23SNP11

SNP16SNP22

MB

M p

oste

riors

for v

ario

us

targ

ets

All (measured)All (approximated)AsthmaAllergyRhinitis

Targets (Outcome): Asthma, Allergy, Rhinitis

The MBM posteriors that a SNP is relevant for asthma, allergy and rhinitis, both separately and jointly.

Note that it cannot be done off-line (contrary to k-MBS/k-MBG and feature aggregation).

Page 37: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Redundancy and interaction

0.00E+000

2.00E-001

4.00E-001

6.00E-001

8.00E-001

1.00E+000

SNP3,SNP4,

SNP2,SNP31,

SNP6,SNP8,

SNP7,Allergy,

SNP14,Allergy,

SNP12,Allergy,

SNP2,SNP9,

SNP9,SNP31,

Absolute differenceMBM-based approximation2-MBS estimation

The quantification of interaction and redundancy by the decomposability of the posterior.Single measure (instead of many Bayes factors).

)|)(:()|)(:(?

)|)(,:(

NjNi

Nji

DGMBSXGpDGBSXGp

DGMBSXXGp

∈∈

Page 38: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Conditional (and contextual) relevance

Asthma

SNP3

SNP4

SNP31

SNP27

SNP5

Allergy

SNP9

GenderSNP7

SNP46Rhinitis

The maximimum a posterior Markov Blanket subgraph

Page 39: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Fusion using probabilistic logic

• multivariate Bayesian data analysis,• the use of more powerful logic for representing knowledge,• uncertainty management in knowledge representation, induction, and inference,

syntactic semantics: )(),|provable is ()|(pKB

pKBplKBpKBPKBP ∑= φφ

Probabilistic knowledge bases and world-wide web

Data-1 Data-n

KB-1

Literature

Web

KB-n

GO,IngenuityPharmKB,……

Domain-specific knowledge

Text-mining

Web-mining

Kernels

Kernels Posteriors

ExplanationgenerationQuery answering

. . . . .

.

.

.

Discovery

Inductive knowledge

)(),,|provable is ()|(pKB

pKBpkKBlKBpKBPKBP ∑= φφ

Chemoinformatics

Fingerprinting

Mol.docking,

..miningSNP effe

cts

Page 40: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Diákok, kollégák• Végzett diákok

– Ercsényi Dániel: Bayes hálók strukturális tulajdonságainak vizsgálata MCMC módszerekkel (2005)– Gézsi András: Monte Carlo módszerek Bayes hálók komplex strukturális jegyeinek következtetésére

(2006)– Barna Gergely: Bayes-hálók dekomponált tanulása a priori tudás felhasználásával (2005)– Szabadka Zoltán (Grolmusz Vince): Fehérje-kismolekula kölcsönhatások vizsgálata molekuláris

dokkolással (2006)– Iván Gábor(Grolmusz Vince): Protein-ligand komplexek kötőhelyeinek vizsgálata adatbányászati

algoritmusokkal (2006)– Orbán György: Kontextuális függések szerepe Bayes hálók tanulásában (2006)– Rohla Tibor: Monte Carlo módszerek Bayes hálók egyszerű strukturális jegyeinek következtetésére

(2007)– Palotai Robin (Csermely Péter): Modulkeresés, klaszterezés fehérje-fehérje hálózatokban– Temesi Gergely (Falus András): Információ menedzsment és intelligens adatelemzés az SNP analízis

támogatására– Gergely Balázs: Statisztikus szövegbányászat

• Jelenlegi diplomázó, orvosbio. másoddiplomázó, és doktorandusz diákok– Millinghoffer András: A first-order probabilistic logic for fusing data and prior knowledge – Hullám Gábor: Valószínűségi tudásmodellek tanulása– Hajós Gergely: Döntéstámogató keretrendszer SNP asszociációs kísérletek tervezéséhez– Kecskeméthy Péter (Oxford): Bayesi relevancia elemzés feltételes modellekkel– Huszár Ferenc: nem-parametrikus Bayesi modellek a kognitív pszichológiában– Erdélyi Boróka: Bayesi logisztikus regresszió– Szabados Péter: orvosbiológiai tudásbázisok– Arany Ádám: Bayesi térszerkezet predikció

Page 41: Bayes statisztika és Bayes hálók az asztma/allergia …...Oksági Bayes hálók „Correlation≠causation”, „no cause in, no cause out” „Csak oksági kapcsolatok” feltevés:

Köszönöm a figyelmet!