15
Imputace nulov´ ych hodnot v metabolomice Alˇ zbˇ eta Gardlo a , Matthias Templ b , Karel Hron c , Peter Filzmoser b [email protected] a Laboratoˇ r metabolomiky, ´ Ustav molekul´ arn´ ı a translaˇ cn´ ı medic´ ıny, ırodovˇ edeck´ a fakulta, UPOL, Fakultn´ ı nemocnice Olomouc; b Vienna University of Technology, Austria; c ırodovˇ edeck´ a fakulta, UPOL. Robust, 13.9. 2016

Imputace nulových hodnot v metabolomiceantoch/robust16/prednasky/Utery/... · 2016. 9. 1. · Metabolomika Kompozi cn data Imputace nulov ych hodnot Simula cn studieZ av er Obsah

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • Imputace nulových hodnot v metabolomice

    Alžběta Gardloa, Matthias Templb, Karel Hronc , PeterFilzmoserb

    [email protected]

    a Laboratǒr metabolomiky, Ústav molekulárńı a translačńı medićıny,Př́ırodovědecká fakulta, UPOL,Fakultńı nemocnice Olomouc;

    b Vienna University of Technology, Austria;c Př́ırodovědecká fakulta, UPOL.

    Robust, 13.9. 2016

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Obsah

    1 Metabolomika

    2 Kompozičńı data

    3 Imputace nulových hodnot

    4 Simulačńı studie

    5 Závěr

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Metabolomika

    (Wu et al., 2011)

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Pivotové isometrické logratio (ilr) soǔradnice

    • Chceme vytvǒrit ortonormálńı bázi vzhledem k Aitchisonověgeometrii, ve které prvńı ilr soǔradnice vysvětluje veškeroudůležitou informaci o zvolené složce.

    • Máme kompozičńı matici Xn×D = (x1, . . . , xD).Přeuspǒrádaná kompozice s l-tým prvkem, l = 1, . . . ,D,posunutým na prvńı pozici je označena jakoX(l) = (xl , x1, . . . , xl−1, xl+1, . . . , xD) =

    (x(l)1 , x

    (l)2 , . . . , x

    (l)l , x

    (l)l+1, . . . , x

    (l)D ).

    Pivotové ilr soǔradnice

    z(l)i =

    √D − i

    D − i + 1ln

    x(l)i

    D−i√∏D

    j=i+1 x(l)j

    , i = 1, . . . ,D − 1. (1)

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Druhy nulových hodnot

    • Chyběj́ıćı hodnoty• Hodnota chyb́ı z nějakého důvodu - nelze změ̌rit, respondent

    neodpověděl na otázku.• Nahrazeńı rozumnou hodnotou.• V metabolomice se nevyskytuj́ı často.

    • Zaokrouhlené nuly• Vznikaj́ı zaokrouhlováńım dat bĺızkých nule nebo d́ıky tzv.

    detekčńımu limitu p̌ŕıstroje.• Citlivost každého p̌ŕıstroje má své limity (detekčńı limit - DL) -

    hodnoty pod DL jsou vyhodnoceny jako nula, i když by mělybýt p̌ŕıtomny nějaké koncentrace.

    • Je ťreba nahradit s ohledem na DL.• Časté v metabolomice, zejména p̌ri použit́ı tzv. nećıleného

    p̌ŕıstupu.

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Imputace zaokrouhlených nul

    • Věťsina současných statistických metod neńı schopnapracovat s nulovými hodnotami → poťreba imputace.

    • Současné metody nahrazováńı:

    • Nahrazeńı nulových hodnot 2/3 limitu detekce nebo jinouvhodně zvolenou konstantou - často už́ıvané, ale ignorujemnohorozměrnou strukturu dat a podhodnocuje kovariančńıstrukturu.

    • Metoda založená na k nejbližš́ıch sousedech - mnohorozměrná,ale pǒrád ne zcela ideálńı.

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Imputace zaokrouhlených nul - p̌ŕıstupy

    • Baĺıček zCompositions v softwaru R.

    • Multiplicative replacement (mult repl) - nahrazeńı pomoćıčásti DL (nap̌r. 2/3 DL).

    • Multiplicative log-normal replacement (mult lognorm) -nahrazeńı nul s využit́ım multiplikativńıho lognormálńıhorozděleńı.

    • Multiplicative Kaplan-Meier smoothing splinereplacement (mult KMSS) - nahrazeńı pomoćıgeometrického pr̊uměru náhodného výběru z kubickévyhlazovaćı funkce (odpov́ıdá inverzi Kaplan-Meierovy EDF).

    • Log-ratio data augmentation algorithm (lr da) - využit́ıMarkov chain Monte Carlo p̌ŕıstupu pro aditivńı logratio (alr)soǔradnice.

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Imputace zaokrouhlených nul - p̌ŕıstupy

    • Additive log-ratio EM algorithm (lr em) - postupné využit́ıEM algoritmu pro alr soǔradnice.

    • PLS - využit́ı pivotových ilr soǔradnic a metody d́ılč́ıchnejmenš́ıch čtverc̊u - bere v úvahu kompozičńı podstatu dat iexistenci DL (v́ıce v posteru).

    • Pre-selection of variables and model-based replacementof rounded zeros (method varOLS) - využ́ıvá variačńımatici pro výběr proměnných a redukci dimenze dat.

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Validačńı kritéria

    1 Average difference in covariance structure (ADCS)

    ADCS =

    √√√√ 1(D − 1)2

    D−1∑i=1

    D−1∑j=1

    (sij − s∗ij

    )2=

    1

    D − 1‖S−S∗‖F ,

    kde ∗ označuje imputovanou matici, S je výběrová kovariančńımatice, ‖ · ‖F je Frobeniova maticová norma.

    2 Compositional error deviation (CED)

    1nM

    ∑k∈M

    da(xk , x∗k)

    max{xi ,xj∈X}

    {da(xi , xj)},

    Aitchisonova vzdálenost dvou kompozic x a x̃:

    dA(x, x̃) =

    [1D

    ∑D−1i=1

    ∑Dj=i+1

    (log xixj − log

    x̃ix̃j

    )2]1/2.

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Simulačńı studie

    • Normálńı rozděleńı na simplexu (výběrovém prostorukompozic).

    1 Ńızko-dimenzionálńı scéná̌r: datová matice X s n = 50pozorováńımi a D = 16 proměnnými. Pod́ıl hodnot pod DL(nul) je v rozpět́ı od 0 do 0.3, ty jsou v každé druhé proměnné.

    2 Vysoce-dimenzionálńı scéná̌r: datová matice X s n = 50pozorováńımi a D = 128 proměnnými. Pod́ıl nul stejný jako vńızko-dimenzionálńım scéná̌ri.

    3 10% zaokrouhlených nul, rozd́ılné dimenze: datová maticeX s n = 50 pozorováńımi a měńıćım se počtem prvk̊ukompozice (2, 4, 8, 16, 32, 64, 128, 256).

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Simulačńı studie - Ńızko-dimenzionálńı scéná̌r

    ● ●

    ● ●

    ●●

    ●●

    ●●

    ADCS CED

    1

    10

    0.01

    0.10

    1.00

    0.0 0.1 0.2 0.3 0.0 0.1 0.2 0.3relative amount of rounded zeros

    erro

    r m

    easu

    re

    ● varOLS

    PLS

    mult lognorm

    mult repl

    lr da

    lr em

    mult KMSS

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Simulačńı studie - Vysoce-dimenzionálńı scéná̌r

    ● ●

    ●● ● ●

    ●●

    ADCS CED

    2

    4

    6

    8

    0.0

    0.1

    0.2

    0.3

    0.0 0.1 0.2 0.3 0.0 0.1 0.2 0.3relative amount of rounded zeros

    erro

    r m

    easu

    re

    ● varOLS

    PLS

    mult lognorm

    mult repl

    lr da

    lr em

    mult KMSS

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Simulačńı studie - Rozd́ılné dimenze

    ●●

    ●● ● ●

    ADCS CED

    1

    10

    100

    0.1

    1.0

    10.0

    0 50 100 150 200 250 0 50 100 150 200 250number of variables

    erro

    r m

    easu

    re

    ● varOLS

    PLS

    mult lognorm

    mult repl

    lr da

    lr em

    mult KMSS

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Závěr

    • Častý výskyt zaokrouhlených nul v metabolomických datech→ poťreba jejich imputace.

    • Současně použ́ıvané metody nahrazeńı (nap̌r. použit́ı 2/3detekčńıho limitu) nefunguj́ı korektně.

    • Výhodné použit́ı metody, která kombinuje p̌ŕıstup logratiometodiky a metody d́ılč́ıch nejmenš́ıch čtvrec̊u - je zachovánamnohorozměrná povaha kompozičńıch dat.

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

  • Metabolomika Kompozičńı data Imputace nulových hodnot Simulačńı studie Závěr

    Literatura

    M. Templ, K. Hron, P. Filzmoser, A. Gardlo. Imputation of rounded zeros forhigh-dimensional compositional data. Chemometrics and Intelligent LaboratorySystems, 155:183-190, 2016.

    J. Aitchison. The Statistical Analysis of Compositional Data. Chapman & Hall,London, 1986.

    B. Walczak, D.L. Massart. Dealing with missing data. Part I. Chemometrics andIntelligent Laboratory Systems, 58:15-27, 2001.

    J.A. Mart́ın-Fernández, K. Hron, M. Templ, P. Filzmoser, J. Palarea-Albaladejo.Model-based replacement of rounded zeros in compositional data: Classical androbust approaches. Computational Statistics & Data Analysis, 56(9):2688-2704,2012.

    K. Hron, M. Templ, P. Filzmoser. Imputation of missing values for compositionaldata using classical and robust methods. Computational Statistics & DataAnalysis, 54(12):3095-3107, 2010.

    L. Najdekr, A. Gardlo, L. Mádrová, D. Friedecký, H. Janečková, E.S. Correa, R.Goodacre, and T. Adam. Oxidized phosphatidylcholines suggest oxidative stressin patients with medium-chain acyl-coa dehydrogenase defficiency. Talanta,139:62-66, 2015.

    Alžběta Gardloa , Matthias Templb , Karel Hronc , Peter Filzmoserb Imputace nulových hodnot v metabolomice

    MetabolomikaKompozicní dataImputace nulových hodnotSimulacní studieZáver