Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Bayesovský p°ístup k t-test·m
v kompozi£ní analýze
metabolomických dat
Julie Rendlová1,2,3, Karel Hron1, Ond°ej Vencálek1,
David Friedecký2,3
ROBUST 2018
1KMAAM, P°F, Univerzita Palackého2OKB, Fakultní nemocnice Olomouc
3Laborato° metabolomiky, ÚMTM, Univerzita Palackého
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Jak vznikají metabolomická data
Pro£ d¥lat bayesovský t-test
Pro£ uplat¬ovat kompozi£ní p°ístup
Co je na posteru
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Metabolomika
• zabývá se malými molekulami (aminokyseliny, sacharidy, . . . )• soubor v²ech molekul v daném biologickém materiálu (krev,
mo£, bu¬ky, . . . ) je metabolom
• Cílená metabolomická analýza• seznam metabolit· p°ed analýzou• mén¥ nam¥°ených látek• jednodu²²í interpretace
• Necílená metabolomická analýza• m¥°í se v²e, co se ve vzorku najde• vhodné, kdyº se hledají nové markery nemocí• sloºitá interpretace (metabolity, fragmenty, adukty, ²um)
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Postup m¥°ení
• m¥°ení odebraných vzork· pacient· a kontrol v náhodnémpo°adí
• vzorky prochází1) kapalinovým chromatografem
• pr·chod molekul ur£í RT metabolit· → �se°adí� metabolity2) hmotnostním spektrometrem � ²t¥pení na fragmenty dané
hmoty• metabolity se stejným RT se rozbijí na fragmenty• p°echod z dané hmoty na fragmenty ur£í p·vodní metabolit• nejspeci�£t¥j²í p°echod se vykreslí (AUC odpovídá intenzit¥
p·vodního metabolitu)
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Postup m¥°ení � p°ístroje
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Postup m¥°ení � chromatogra�cké píky
24 26 28 30 32 34 362 4 6 8 10 12 14 16 18 20 220.0
2.0e4
4.0e4
6.0e4
8.0e4
1.0e5
1.2e5
1.4e5
1.6e5
1.8e5
2.0e5
2.2e5
2.4e5
2.6e5
2.8e5
Čas (min)
Inte
nzita
(cp
s)
cytidin
cholin
serin
prolin
threonin/homoserin
cytosin
nikotinamid
4-guanidinobutanoát
histidin
fenylalanin
tyrosin
tryptofan
adenosin
guanosin
AMP
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
P°edzpracování dat
• píky se zintegrují → AUC• náhodné vlivy ovliv¬ují m¥°ení → narovnání trendu pomocí
LOESS regrese, kontrola CV
• p°edzpracováním se zna£ný po£et metabolit· vy°adí z dat• vstupní data pro statistickou analýzu:
• pozorování � pacienti a kontroly (°ádky)• prom¥nné � plochy intenzit metabolit· (sloupce)
• stovky prom¥nných, jednotky aº desítky pozorování → vysocedimenzionální data
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Tradi£ní p°ístup k jednorozm¥rným statistickým metodám
• parametrický t-test nebo neparametrický Wilcoxon·v test nahladin¥ významnosti α = 0.05
• mnohonásobné testování → r·st pravd¥podobnosti získánífale²n¥ pozitivních výsledk·
• p°i stovkách prom¥nných je Bonferroniho korekce p°íli²konzervativní
• p°i stovkách prom¥nných Bonferroniho korekce neumoºníu Wilcoxna zamítat
• výsledky t-test· prudce ovlivn¥ny p°ítomností odlehlých hodnot• výsledky t-test· a Wilcoxonových test· jsou �chudé� � pouze
p-hodnoty → neposkytují moºnost se°adit metabolity dlenejlep²ího
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Bayesovský t-test
• apriori p°edpokládáme data z t-rozd¥lení s t¥ºkými chvosty →p°irozen¥ robustní metoda (Kruschke, 2012)• parametry pro apriorní rozd¥lení: st°ední hodnoty (µ1, µ2)
a sm¥rodatné odchylky (σ1, σ2), parametr normality(ν ≡ po£et stup¬· volnosti)
• Bayesova v¥ta � aposteriorní rozd¥lení je proporcionálnív¥rohodnostní funkci (podmín¥ná pravd¥podobnost dat za
podmínky daných parametr·) vynásobené apriorním
rozd¥lením (Kruschke, 2011) → pro aposteriorní rozd¥leníBayesovského t-testu platí:
p(µ1, σ1, µ2, σ2, ν|D) ∝ p(D|µ1, σ1, µ2, σ2, ν)×p(µ1, σ1, µ2, σ2, ν)• k p°ibliºnému výpo£tu aposteriorního rozd¥lení pouºijeme
MCMC � generuje kombinace parametr·〈µj1, σ
j1, µ
j2, σ
j2, ν
j〉, j = 1, . . . ,N
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Bayesovský t-test
• zajímá nás p°edev²ím rozdíl µ1 a µ2 → získáme aposteriorníhistogramy MCMC rozdíl· mezi pacienty a kontrolami
• konstrukce HDI interval· � intervaly s 95 % nej£ast¥j²íchaposteriorních hodnot
• pokud HDI neobsahuje nulu, �hypotéza� o rovnosti parametr·se zamítá
µ1 − µ20 1 2 3 4 5
95% HDI4.74 5.56
mean = 5.15
0% < 0 < 100%
µ1 − µ2−2.0 −1.5 −1.0 −0.5 0.0
95% HDI−1.94 −1.43
mean = −1.69
100% < 0 < 0%
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Kompozi£ní data
• metabolom v libovolném biologickém materiálu je sloºenýz mnoha metabolit· → relativní struktura metabolomu• relevantní informace pouze v pom¥rech mezi intenzitami
metabolit· → kompozi£ní data na simplexu• simplex se °ídí Aitchisonovou geometrií namísto euklidovské
(Aitchison, 1986; Pawlowsky-Glahn et al., 2015)
→ vyjád°it kompozice ze simplexu v reálných sou°adnicích• centrované logpodílové koe�cienty
clr(x) =
ln x1D
√∏D1 xi
, lnx2
D
√∏D1 xi
, . . . , lnxD
D
√∏D1 xi
• odpovídají centrování log transformovaných dat podle v²ech
prom¥nných• jsou jednodu²e interpretovatelné � dominance daného
metabolitu v·£i pr·m¥rnému chování celého metabolomu
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Rozdíl mezi nekompozi£ním a kompozi£ním p°ístupem
µ1 − µ2−0.3 −0.2 −0.1 0.0
95% HDI−0.331 −0.0797
mean = −0.206
99.9% < 0 < 0.1%
µ1 − µ2−0.1 0.0 0.1 0.2 0.3
95% HDI−0.0812 0.289
mean = 0.104
13.3% < 0 < 86.7%
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Co je na posteru
• jak je konstruovaný bayesovský t-test � princip testu, apriornírozd¥lení, MCMC
• jak to funguje u vícenásobného testování � hledání marker·,°azení marker· podle st°edních hodnot aposteriorních rozd¥lení
a tzv. b-hodnot
• co to je volcano graf � bayesovská verze, pásma podlevzdálenosti HDI aposteriorních rozd¥lní od nuly
• aplikace na metabolomických datech z necílené analýzy �krevní skvrny pacient· s d¥di£ným metabolomickým
onemocn¥ním (de�cit acyl-CoA dehydrogenázy se st°edn¥
dlouhým °et¥zcem; Najdekr et al., 2015) a zdravých kontrol
• simulace úbytku pozorování na polovinu v obou skupinách �porovnání bayesovského a tradi£ního p°ístupu
• simulace výskytu systematické chyby m¥°ení � porovnáníkompozi£ního a nekompozi£ního p°ístupu
Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru
Literatura
Aitchison, J. (1986) The statistical analysis of compositional data.Chapman and Hall, London.
Kruschke, J.K. (2011) Doing Bayesian Data Analysis. AcademicPress, New York.
Kruschke, J.K. (2012) Bayesian Estimation Supersedes the T Test.Journal of Experimental Psychology: General 142(2),pp.73�603.
Najdekr, L., Gardlo, A., Mádrová, L., Friedecký, D., Jane£ková, H.,Correa, E. S., Goodacre, R., Adam, T. (2015)Oxidized phosphatidylcholines suggest oxidative stress in patientswith medium-chainacyl-CoAdehydrogenase de�ciency. Talanta 139 ,pp.2�66.
Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2015)Modeling and analysis of compositional data. Wiley, Chichester.
Jak vznikají metabolomická dataProc delat bayesovský t-testProc uplatnovat kompozicní prístupCo je na posteru