R Componentes Principales

  • Upload
    nipnip

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

  • 7/23/2019 R Componentes Principales

    1/9

    1. Componentes principales

    Qu es el anlisis de componentes principales?

    El Anlisis de Componentes Principales (PCA) es una tcnica estadsticade sntesis de la informacin, o reduccin de la dimensin (nmero de

    variables). Es decir, ante un banco de datos con mucas variables, elob!etivo ser reducirlas a un menor nmero perdiendo la menor cantidadde informacin posible. "os nuevos componentes principales o factoressern una combinacin lineal de las variables ori#inales, $ adems sern

    independientes entre s.

    %n aspecto clave en PCA es la interpretacin de los factores, $a &ue stano viene dada a priori, sino &ue ser deducida tras observar la relacin de

    los factores con las variables iniciales (abr, pues, &ue estudiar tanto elsi#no como la ma#nitud de las correlaciones). Esto no siempre es fcil, $ser de vital importancia el conocimiento &ue el e'perto ten#a sobre lamateria de investi#acin.

    ases de un Anlisis de Componentes Principales

    *. Anlisis de la matriz de correlaciones.%n anlisis decomponentes principales tiene sentido si e'isten altascorrelaciones entre las variables, $a &ue esto es indicativo de &uee'iste informacin redundante $, por tanto, pocos factores

    e'plicarn #ran parte de la variabilidad total.

    +. Seleccin de los factores."a eleccin de los factores se realia detal forma &ue el primero reco!a la ma$or proporcin posible de lavariabilidad ori#inal- el se#undo factor debe reco#er la m'ima

    variabilidad posible no reco#ida por el primero, $ assucesivamente. el total de factores se ele#irn a&ullos &uereco!an el porcenta!e de variabilidad &ue se considere suficiente. Astos se les denominar componentes principales.

    /. Anlisis de la matriz factorial.%na ve seleccionados loscomponentes principales, se representan en forma de matri. Cadaelemento de sta representa los coeficientes factoriales de lasvariables (las correlaciones entre las variables $ los componentes

    principales). "a matri tendr tantas columnas como componentesprincipales $ tantas filas como variables.

    http://curso-r-uah2009.wikispaces.com/1.+Componentes+principaleshttp://curso-r-uah2009.wikispaces.com/1.+Componentes+principales
  • 7/23/2019 R Componentes Principales

    2/9

    0. Interpretacin de los factores.Para &ue un factor sea fcilmenteinterpretable debe tener las si#uientes caractersticas, &ue sondifciles de conse#uir

    1 "os coeficientes factoriales deben ser pr'imos a *.

    1 %na variable debe tener coeficientes elevados slo con un factor.1 2o deben e'istir factores con coeficientes similares.

    3. Clculo de las puntuaciones factoriales. 4on las puntuaciones

    &ue tienen los componentes principales para cada caso, &ue nospermitirn su anlisis posterior $ su representacin #rfica.

    Caso de estudio: Capacidad reproductiva de plantas invasorasdel nero Acacia

    (atos cedidos por 5scar 6odo$ $ Pilar Castro)En un estudio sobre la capacidad reproductiva de plantas invasoras se&uiere investi#ar si el nmero de inflorescencias (un atributo &ue puedecaracteriar el 'ito de una planta para coloniar nuevos nicos) &ue

    desarrollan plantas invasoras frente a plantas no invasoras de un mismo#nero (Acacia) est relacionado con las caractersticas climticas

    predominantes en la re#in de ori#en de la planta. Para estudiar estacuestin se an reco#ido datos de 03 variables climticas &ue

    caracterian el ran#o de distribucin de ori#en de 30 especies del #neroAcacia, al#unas de las cuales se comportan cmo invasoras $ otras no.

    7ueremos construir un modelo en dnde el nmero de inflorescencias&uede en funcin del carcter invasivo de la planta (factor con dosniveles) $ de las variables climticas &ue caracterian su ran#o de

    distribucin de ori#en. %n problema es &ue un modelo no puede tener

    casi tantas variables e'plicativas (03) como muestras (30) por&ue no a$8rplicas8 suficientes para comprobar la si#nificacin de cada una de lasvariables del modelo. 5tro problema es &ue las variables climticas

    tienden a estar mu$ correlacionadas. ica colinealidad #enera modelosinestables $ poco precisos en su estimacin de los parmetros del

    modelo.

    5b!etivos

    *. 9educir la dimensionalidad de las variables climticas $ sintetiartoda esta variabilidad en unas pocas variables (m'imo /).

  • 7/23/2019 R Componentes Principales

    3/9

    +. 6enerar un modelo estadstico &ue permita e'plicar el nmero deinflorescencias en funcin del carcter invasivo de las especies $de las caractersticas climticas de ori#en de las plantas.

    !ocumentacin

    A andboo: of statistical anal$sis usin# 9. Capter */. Principal

    Component Anal$sis ;e 5l$mpic . 9ou#?s

    (+@@) (p. =)

    "abB. Principal component anal$sis. 9 "abs for e#etation

    Ecolo#ists. %niversit$ of California.

    !atos

    "os datos estn disponibles pincando a&u. Puedes descar#arte los datos

    a tu ordenador, copiarlos al portapapeles o leerlos directamente de la

    direccin %9" (esto ltimo es lo ms recomendable para &ue el cdi#osea reproducible desde cual&uier ordenador) utiliando en todos loscasos la funcin read.table().

    "asos a seuir

    *. "ee los datos $ slvalos en un ob!eto llamado data. E'plora los

    datos con las funciones edit()$ str(). D

  • 7/23/2019 R Componentes Principales

    4/9

    /. Fusca una funcin en 9 &ue a#a el anlisis de componentesprincipales (busca con help.search()). 2ota la funcin o

    funciones &ue vamos a usar en esta sesin se encuentran dentro delpa&uete stats().

    0. Gmplementa un PCA $ as#nalo a un ob!eto llamado pca1.

    3. E'plora la estructura de dico ob!eto con la funcin str(). D7u

    tipo de ob!eto es D7u informacin contiene

    =. >ira la variabilidad e'plicada por cada uno de los e!es con lafuncin summary().

    B. Gnterpreta &u si#nifican los dos primeros e!es del PCA. Para ellotendrs &ue mirar la matri de correlacin &ue est contenidadentro del ob!eto pca1.

    . ibu!a los resultados del PCA con la funcin biplot().

    H. A!usta un modelo lineal o un modelo lineal #eneraliado en dndeel nmero de inflorescencias &uede en funcin del carcterinvasivo de la especie $ de los dos primeros e!es del PCA. DEs

    si#nficativa al#una de las variables climticas DCmo interpretasla relacin entre los e!es del PCA (si son si#nificativos) $ la

    variable respuesta

    *@. DEs el modelo adecuado DCmo son los residuos D4e podrasu#erir otro modelo con una distribucin de errores de otro tipo&u fuese ms adecuado

    Cdio

    I*. 4e asi#na la %9" dnde estn los datos a un ob!eto llamado dirJebdirweb

  • 7/23/2019 R Componentes Principales

    5/9

    I+. 4e leen los datos con la funcin read.table() $ se asi#na a un ob!etollamado datadata en dnde el nmero de inflorescencias &uedara enfuncin del carcterIH. invasivo de la especie $ de los tres primeros e!es del PCAglm.acacias

  • 7/23/2019 R Componentes Principales

    6/9

    What is the diference between summary and loadings or princomp?

    up vote 6

    down vote

    avorite

    1

    E'ample code

    (pc.cr

  • 7/23/2019 R Componentes Principales

    7/9

    component loadings summary? - chl$Sep 19 '1 at 9!%

    .i chl / 0 mean the output rom summary2pc3cr4 / or some

    reason+ 0 can't 5nd it3 2doing something li&e summary2pc3cr4

    177 will get me only part o the table4 - )al *aliliSep 19 '1

    at 9!%%

    add a comment

    1 8nsweractiveoldestvotes

    up vote

    down

    vote

    accepted

    ;e first output is te correct and most useful one. Callin# loadings()on

    $our ob!ect !ust returns a summar$ Jere te 44 are alJa$s e&ual to *,

    ence te N variance is !ust te 44 loadin#s divided b$ te number of

    variables. Gt ma:es sense onl$ Jen usin# actor Anal$sis (li:e in

    Iactanal). G never use princompor its 4Kbased alternative (prcomp),

    and G prefer te acto>ine9or ade0pac:a#e Jic are b$ far more

    poJerfulO

    About $our second &uestion, te summary()function !ust returns te 4 for

    eac component (pc.crNsdevin $our case), and te rest of te table seems

    to be computed afterJards (trou# te printor showmetod, G didnMt

    investi#ate tis in details).

    R get=@method("summary"J"princomp")Iunction (objectJ loadings 9&=EJ cutoII .1J ...)T objectNcutoII

  • 7/23/2019 R Componentes Principales

    8/9

    ;e dataset sould contain numeric variables onl$. Gf tere are an$ nonKnumeric

    variables in $our dataset, $ou must e'clude tem Jit brac:et notation or Jit te

    subsetfunction.

    ;e princompoutput displa$s te standard deviations of te components. ample! rincipal component analysis using the irisdataConsider te irisdataset (included Jit 9) Jic #ives te petal Jidt, petal len#t,

    sepal Jidt, sepal len#t and species for *3@ irises. ;o vieJ more information about te

    dataset, enter help(iris).

    ou can vieJ te dataset b$ enterin# te dataset name

    R iris =epal.ength =epal.*idth $etal.ength $etal.*idth =pecies1 #.1 @.# 1.+ .! setosa! +.S @. 1.+ .! setosa@ +. @.! 1.@ .! setosa+ +.6 @.1 1.# .! setosa# #. @.6 1.+ .! setosa...1# #.S @. #.1 1. virginica

    ;e dataset contains a factor variable (=pecies) Jic must be e'cluded Jenperformin# te PCA. 4o to perform te anal$sis and save te results to an ob!ect, use

    te command

    R irispca

  • 7/23/2019 R Componentes Principales

    9/9

    rom te output Je can see tat H+.0N of te variation in te dataset is e'plained b$ te

    first component alone, and HB.N is e'plained b$ te first tJo components.

    ;o vieJ te loadin#s for te components, use te command

    R irispcaNloadingsoadings: %omp.1 %omp.! %omp.@ %omp.+=epal.ength .@61 -.6# .#! .@1#=epal.*idth -.@ -.#S -.@!$etal.ength .# .1@ -.+$etal.*idth .@# -.#+6 .#+

    %omp.1 %omp.! %omp.@ %omp.+== loadings 1. 1. 1. 1.$roportion ar .!# .!# .!# .!#%umulative ar .!# .# .# 1.

    ;o vieJ te scores for eac observation, use te command

    R irispcaNscores %omp.1 %omp.! %omp.@ %omp.+ L1JM -!.6+1!#6!6 -.@1S@S!+ .!S1+! .!!6!+@1 L!JM -!.1+1+16 .11!!# .!1+6+!! .SS!6##@ L@JM -!.SS#6S .1++S+S+!6 -.1S!#6 .1SS6@S L+JM -!.+#@+!#6 .@1!SSS -.@1##S@+ -.###166 L#JM -!.!16#@ -.@!6#+#1@ -.SS!+1 -.61!##S!6 L6JM -!.!#S6@@ -.+1@@++S -.1666# -.!+!#6 LJM -!.!#@#1 .S+61@# -.!#S!1# -.+1+@16# LJM -!.6!61++S@ -.16@@+S6 .!1S@1 -.+#!S6 LSJM -!.6@!@! .#@11#+ -.!#S# -.!6++@#L1JM -!.6!##S .11@+!+6 .1S6@!!# -.#6!S#[email protected]#JM 1.@S16! .!!66S@ -.@6!SS6+ -.1##@6!!

    ;is e'ample is continued in te article Creatin# a scree plot Jit 9.

    http://www.instantr.com/2012/12/19/creating-a-scree-plot-with-r/http://www.instantr.com/2012/12/19/creating-a-scree-plot-with-r/