14
,, ,

Bayesovský prístup k t-testum v kompozicní analýze …antoch/robust18/... · 2018. 1. 24. · Metabolomika zabývá se malými molekulami (aminokyseliny, sacharidy, ...) soubor

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Bayesovský p°ístup k t-test·m

    v kompozi£ní analýze

    metabolomických dat

    Julie Rendlová1,2,3, Karel Hron1, Ond°ej Vencálek1,

    David Friedecký2,3

    ROBUST 2018

    1KMAAM, P°F, Univerzita Palackého2OKB, Fakultní nemocnice Olomouc

    3Laborato° metabolomiky, ÚMTM, Univerzita Palackého

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Jak vznikají metabolomická data

    Pro£ d¥lat bayesovský t-test

    Pro£ uplat¬ovat kompozi£ní p°ístup

    Co je na posteru

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Metabolomika

    • zabývá se malými molekulami (aminokyseliny, sacharidy, . . . )• soubor v²ech molekul v daném biologickém materiálu (krev,

    mo£, bu¬ky, . . . ) je metabolom

    • Cílená metabolomická analýza• seznam metabolit· p°ed analýzou• mén¥ nam¥°ených látek• jednodu²²í interpretace

    • Necílená metabolomická analýza• m¥°í se v²e, co se ve vzorku najde• vhodné, kdyº se hledají nové markery nemocí• sloºitá interpretace (metabolity, fragmenty, adukty, ²um)

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Postup m¥°ení

    • m¥°ení odebraných vzork· pacient· a kontrol v náhodnémpo°adí

    • vzorky prochází1) kapalinovým chromatografem

    • pr·chod molekul ur£í RT metabolit· → �se°adí� metabolity2) hmotnostním spektrometrem � ²t¥pení na fragmenty dané

    hmoty• metabolity se stejným RT se rozbijí na fragmenty• p°echod z dané hmoty na fragmenty ur£í p·vodní metabolit• nejspeci�£t¥j²í p°echod se vykreslí (AUC odpovídá intenzit¥

    p·vodního metabolitu)

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Postup m¥°ení � p°ístroje

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Postup m¥°ení � chromatogra�cké píky

    24 26 28 30 32 34 362 4 6 8 10 12 14 16 18 20 220.0

    2.0e4

    4.0e4

    6.0e4

    8.0e4

    1.0e5

    1.2e5

    1.4e5

    1.6e5

    1.8e5

    2.0e5

    2.2e5

    2.4e5

    2.6e5

    2.8e5

    Čas (min)

    Inte

    nzita

    (cp

    s)

    cytidin

    cholin

    serin

    prolin

    threonin/homoserin

    cytosin

    nikotinamid

    4-guanidinobutanoát

    histidin

    fenylalanin

    tyrosin

    tryptofan

    adenosin

    guanosin

    AMP

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    P°edzpracování dat

    • píky se zintegrují → AUC• náhodné vlivy ovliv¬ují m¥°ení → narovnání trendu pomocí

    LOESS regrese, kontrola CV

    • p°edzpracováním se zna£ný po£et metabolit· vy°adí z dat• vstupní data pro statistickou analýzu:

    • pozorování � pacienti a kontroly (°ádky)• prom¥nné � plochy intenzit metabolit· (sloupce)

    • stovky prom¥nných, jednotky aº desítky pozorování → vysocedimenzionální data

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Tradi£ní p°ístup k jednorozm¥rným statistickým metodám

    • parametrický t-test nebo neparametrický Wilcoxon·v test nahladin¥ významnosti α = 0.05

    • mnohonásobné testování → r·st pravd¥podobnosti získánífale²n¥ pozitivních výsledk·

    • p°i stovkách prom¥nných je Bonferroniho korekce p°íli²konzervativní

    • p°i stovkách prom¥nných Bonferroniho korekce neumoºníu Wilcoxna zamítat

    • výsledky t-test· prudce ovlivn¥ny p°ítomností odlehlých hodnot• výsledky t-test· a Wilcoxonových test· jsou �chudé� � pouze

    p-hodnoty → neposkytují moºnost se°adit metabolity dlenejlep²ího

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Bayesovský t-test

    • apriori p°edpokládáme data z t-rozd¥lení s t¥ºkými chvosty →p°irozen¥ robustní metoda (Kruschke, 2012)• parametry pro apriorní rozd¥lení: st°ední hodnoty (µ1, µ2)

    a sm¥rodatné odchylky (σ1, σ2), parametr normality(ν ≡ po£et stup¬· volnosti)

    • Bayesova v¥ta � aposteriorní rozd¥lení je proporcionálnív¥rohodnostní funkci (podmín¥ná pravd¥podobnost dat za

    podmínky daných parametr·) vynásobené apriorním

    rozd¥lením (Kruschke, 2011) → pro aposteriorní rozd¥leníBayesovského t-testu platí:

    p(µ1, σ1, µ2, σ2, ν|D) ∝ p(D|µ1, σ1, µ2, σ2, ν)×p(µ1, σ1, µ2, σ2, ν)• k p°ibliºnému výpo£tu aposteriorního rozd¥lení pouºijeme

    MCMC � generuje kombinace parametr·〈µj1, σ

    j1, µ

    j2, σ

    j2, ν

    j〉, j = 1, . . . ,N

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Bayesovský t-test

    • zajímá nás p°edev²ím rozdíl µ1 a µ2 → získáme aposteriorníhistogramy MCMC rozdíl· mezi pacienty a kontrolami

    • konstrukce HDI interval· � intervaly s 95 % nej£ast¥j²íchaposteriorních hodnot

    • pokud HDI neobsahuje nulu, �hypotéza� o rovnosti parametr·se zamítá

    µ1 − µ20 1 2 3 4 5

    95% HDI4.74 5.56

    mean = 5.15

    0% < 0 < 100%

    µ1 − µ2−2.0 −1.5 −1.0 −0.5 0.0

    95% HDI−1.94 −1.43

    mean = −1.69

    100% < 0 < 0%

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Kompozi£ní data

    • metabolom v libovolném biologickém materiálu je sloºenýz mnoha metabolit· → relativní struktura metabolomu• relevantní informace pouze v pom¥rech mezi intenzitami

    metabolit· → kompozi£ní data na simplexu• simplex se °ídí Aitchisonovou geometrií namísto euklidovské

    (Aitchison, 1986; Pawlowsky-Glahn et al., 2015)

    → vyjád°it kompozice ze simplexu v reálných sou°adnicích• centrované logpodílové koe�cienty

    clr(x) =

    ln x1D

    √∏D1 xi

    , lnx2

    D

    √∏D1 xi

    , . . . , lnxD

    D

    √∏D1 xi

    • odpovídají centrování log transformovaných dat podle v²ech

    prom¥nných• jsou jednodu²e interpretovatelné � dominance daného

    metabolitu v·£i pr·m¥rnému chování celého metabolomu

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Rozdíl mezi nekompozi£ním a kompozi£ním p°ístupem

    µ1 − µ2−0.3 −0.2 −0.1 0.0

    95% HDI−0.331 −0.0797

    mean = −0.206

    99.9% < 0 < 0.1%

    µ1 − µ2−0.1 0.0 0.1 0.2 0.3

    95% HDI−0.0812 0.289

    mean = 0.104

    13.3% < 0 < 86.7%

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Co je na posteru

    • jak je konstruovaný bayesovský t-test � princip testu, apriornírozd¥lení, MCMC

    • jak to funguje u vícenásobného testování � hledání marker·,°azení marker· podle st°edních hodnot aposteriorních rozd¥lení

    a tzv. b-hodnot

    • co to je volcano graf � bayesovská verze, pásma podlevzdálenosti HDI aposteriorních rozd¥lní od nuly

    • aplikace na metabolomických datech z necílené analýzy �krevní skvrny pacient· s d¥di£ným metabolomickým

    onemocn¥ním (de�cit acyl-CoA dehydrogenázy se st°edn¥

    dlouhým °et¥zcem; Najdekr et al., 2015) a zdravých kontrol

    • simulace úbytku pozorování na polovinu v obou skupinách �porovnání bayesovského a tradi£ního p°ístupu

    • simulace výskytu systematické chyby m¥°ení � porovnáníkompozi£ního a nekompozi£ního p°ístupu

  • Jak vznikají metabolomická data Pro£ d¥lat bayesovský t-test Pro£ uplat¬ovat kompozi£ní p°ístup Co je na posteru

    Literatura

    Aitchison, J. (1986) The statistical analysis of compositional data.Chapman and Hall, London.

    Kruschke, J.K. (2011) Doing Bayesian Data Analysis. AcademicPress, New York.

    Kruschke, J.K. (2012) Bayesian Estimation Supersedes the T Test.Journal of Experimental Psychology: General 142(2),pp.73�603.

    Najdekr, L., Gardlo, A., Mádrová, L., Friedecký, D., Jane£ková, H.,Correa, E. S., Goodacre, R., Adam, T. (2015)Oxidized phosphatidylcholines suggest oxidative stress in patientswith medium-chainacyl-CoAdehydrogenase de�ciency. Talanta 139 ,pp.2�66.

    Pawlowsky-Glahn, V., Egozcue, J.J., Tolosana-Delgado, R. (2015)Modeling and analysis of compositional data. Wiley, Chichester.

    Jak vznikají metabolomická dataProc delat bayesovský t-testProc uplatnovat kompozicní prístupCo je na posteru