Bayesovský prístup k t-testum v kompozicní analýze …antoch/robust18/... · 2018. 1. 24. · Metabolomika zabývá se malými molekulami (aminokyseliny, sacharidy, ...) soubor

Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

Bayesovský p°ístup k t-test·m

v kompozi£ní analýze

metabolomických dat

Julie Rendlová1,2,3, Karel Hron1, Ond°ej Vencálek1,

David Friedecký2,3

ROBUST 2018

1KMAAM, P°F, Univerzita Palackého2OKB, Fakultní nemocnice Olomouc

3Laborato° metabolomiky, ÚMTM, Univerzita Palackého


Jak vznikají metabolomická data

Pro£ d¥lat bayesovský t-test

Pro£ uplat¬ovat kompozi£ní p°ístup

Co je na posteru


Metabolomika

• zabývá se malými molekulami (aminokyseliny, sacharidy, . . . )• soubor v²ech molekul v daném biologickém materiálu (krev,

mo£, bu¬ky, . . . ) je metabolom

• Cílená metabolomická analýza• seznam metabolit· p°ed analýzou• mén¥ nam¥°ených látek• jednodu²²í interpretace

• Necílená metabolomická analýza• m¥°í se v²e, co se ve vzorku najde• vhodné, kdyº se hledají nové markery nemocí• sloºitá interpretace (metabolity, fragmenty, adukty, ²um)


Postup m¥°ení

• m¥°ení odebraných vzork· pacient· a kontrol v náhodnémpo°adí

• vzorky prochází1) kapalinovým chromatografem

• pr·chod molekul ur£í RT metabolit· → �se°adí� metabolity2) hmotnostním spektrometrem � ²t¥pení na fragmenty dané

hmoty• metabolity se stejným RT se rozbijí na fragmenty• p°echod z dané hmoty na fragmenty ur£í p·vodní metabolit• nejspeci�£t¥j²í p°echod se vykreslí (AUC odpovídá intenzit¥

p·vodního metabolitu)


Postup m¥°ení � p°ístroje


Postup m¥°ení � chromatogra�cké píky

24 26 28 30 32 34 362 4 6 8 10 12 14 16 18 20 220.0

2.0e4

4.0e4

6.0e4

8.0e4

1.0e5

1.2e5

1.4e5

1.6e5

1.8e5

2.0e5

2.2e5

2.4e5

2.6e5

2.8e5

Čas (min)

Inte

nzita

(cp

s)

cytidin

cholin

serin

prolin

threonin/homoserin

cytosin

nikotinamid

4-guanidinobutanoát

histidin

fenylalanin

tyrosin

tryptofan

adenosin

guanosin

AMP


P°edzpracování dat

• píky se zintegrují → AUC• náhodné vlivy ovliv¬ují m¥°ení → narovnání trendu pomocí

LOESS regrese, kontrola CV

• p°edzpracováním se zna£ný po£et metabolit· vy°adí z dat• vstupní data pro statistickou analýzu:

• pozorování � pacienti a kontroly (°ádky)• prom¥nné � plochy intenzit metabolit· (sloupce)

• stovky prom¥nných, jednotky aº desítky pozorování → vysocedimenzionální data


Tradi£ní p°ístup k jednorozm¥rným statistickým metodám

• parametrický t-test nebo neparametrický Wilcoxon·v test nahladin¥ významnosti α = 0.05

• mnohonásobné testování → r·st pravd¥podobnosti získánífale²n¥ pozitivních výsledk·

• p°i stovkách prom¥nných je Bonferroniho korekce p°íli²konzervativní

• p°i stovkách prom¥nných Bonferroniho korekce neumoºníu Wilcoxna zamítat

• výsledky t-test· prudce ovlivn¥ny p°ítomností odlehlých hodnot• výsledky t-test· a Wilcoxonových test· jsou �chudé� � pouze

p-hodnoty → neposkytují moºnost se°adit metabolity dlenejlep²ího


Bayesovský t-test

• apriori p°edpokládáme data z t-rozd¥lení s t¥ºkými chvosty →p°irozen¥ robustní metoda (Kruschke, 2012)• parametry pro apriorní rozd¥lení: st°ední hodnoty (µ1, µ2)

a sm¥rodatné odchylky (σ1, σ2), parametr normality(ν ≡ po£et stup¬· volnosti)

• Bayesova v¥ta � aposteriorní rozd¥lení je proporcionálnív¥rohodnostní funkci (podmín¥ná pravd¥podobnost dat za

podmínky daných parametr·) vynásobené apriorním

rozd¥lením (Kruschke, 2011) → pro aposteriorní rozd¥leníBayesovského t-testu platí:

p(µ1, σ1, µ2, σ2, ν|D) ∝ p(D|µ1, σ1, µ2, σ2, ν)×p(µ1, σ1, µ2, σ2, ν)• k p°ibliºnému výpo£tu aposteriorního rozd¥lení pouºijeme

MCMC � generuje kombinace parametr·〈µj1, σ

j1, µ

j2, σ

j2, ν

j〉, j = 1, . . . ,N


Bayesovský t-test

• zajímá nás p°edev²ím rozdíl µ1 a µ2 → získáme aposteriorníhistogramy MCMC rozdíl· mezi pacienty a kontrolami

• konstrukce HDI interval· � intervaly s 95 % nej£ast¥j²íchaposteriorních hodnot

• pokud HDI neobsahuje nulu, �hypotéza� o rovnosti parametr·se zamítá

µ1 − µ20 1 2 3 4 5

95% HDI4.74 5.56

mean = 5.15

0% < 0 < 100%

µ1 − µ2−2.0 −1.5 −1.0 −0.5 0.0

95% HDI−1.94 −1.43

mean = −1.69

100% < 0 < 0%


Kompozi£ní data

• metabolom v libovolném biologickém materiálu je sloºenýz mnoha metabolit· → relativní struktura metabolomu• relevantní informace pouze v pom¥rech mezi intenzitami

metabolit· → kompozi£ní data na simplexu• simplex se °ídí Aitchisonovou geometrií namísto euklidovské

(Aitchison, 1986; Pawlowsky-Glahn et al., 2015)

→ vyjád°it kompozice ze simplexu v reálných sou°adnicích• centrované logpodílové koe�cienty

clr(x) =

ln x1D

√∏D1 xi

, lnx2

D

√∏D1 xi

, . . . , lnxD

D

√∏D1 xi

• odpovídají centrování log transformovaných dat podle v²ech

prom¥nných• jsou jednodu²e interpretovatelné � dominance daného

metabolitu v·£i pr·m¥rnému chování celého metabolomu


Rozdíl mezi nekompozi£ním a kompozi£ním p°ístupem

µ1 − µ2−0.3 −0.2 −0.1 0.0

95% HDI−0.331 −0.0797

mean = −0.206

99.9% < 0 < 0.1%

µ1 − µ2−0.1 0.0 0.1 0.2 0.3

95% HDI−0.0812 0.289

mean = 0.104

13.3% < 0 < 86.7%


Co je na posteru

• jak je konstruovaný bayesovský t-test � princip testu, apriornírozd¥lení, MCMC

• jak to funguje u vícenásobného testování � hledání marker·,°azení marker· podle st°edních hodnot aposteriorních rozd¥lení

a tzv. b-hodnot

• co to je volcano graf � bayesovská verze, pásma podlevzdálenosti HDI aposteriorních rozd¥lní od nuly

• aplikace na metabolomických datech z necílené analýzy �krevní skvrny pacient· s d¥di£ným metabolomickým

onemocn¥ním (de�cit acyl-CoA dehydrogenázy se st°edn¥

dlouhým °et¥zcem; Najdekr et al., 2015) a zdravých kontrol

• simulace úbytku pozorování na polovinu v obou skupinách �porovnání bayesovského a tradi£ního p°ístupu

• simulace výskytu systematické chyby m¥°ení � porovnáníkompozi£ního a nekompozi£ního p°ístupu


Literatura

Aitchison, J. (1986) The statistical analysis of compositional data.Chapman and Hall, London.

Kruschke, J.K. (2011) Doing Bayesian Data Analysis. AcademicPress, New York.

Kruschke, J.K. (2012) Bayesian Estimation Supersedes the T Test.Journal of Experimental Psychology: General 142(2),pp.73�603.

Najdekr, L., Gardlo, A., Mádrová, L., Friedecký, D., Jane£ková, H.,Correa, E. S., Goodacre, R., Adam, T. (2015)Oxidized phosphatidylcholines suggest oxidative stress in patientswith medium-chainacyl-CoAdehydrogenase de�ciency. Talanta 139 ,pp.2�66.

Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2015)Modeling and analysis of compositional data. Wiley, Chichester.

Jak vznikají metabolomická dataProc delat bayesovský t-testProc uplatnovat kompozicní prístupCo je na posteru

Documents

Bayesovský prístup k t-testum v kompozicní analýze …antoch/robust18/... · 2018. 1. 24. · Metabolomika zabývá se malými molekulami (aminokyseliny, sacharidy, ...) soubor