Upload
nipnip
View
216
Download
0
Embed Size (px)
Citation preview
7/23/2019 R Componentes Principales
1/9
1. Componentes principales
Qu es el anlisis de componentes principales?
El Anlisis de Componentes Principales (PCA) es una tcnica estadsticade sntesis de la informacin, o reduccin de la dimensin (nmero de
variables). Es decir, ante un banco de datos con mucas variables, elob!etivo ser reducirlas a un menor nmero perdiendo la menor cantidadde informacin posible. "os nuevos componentes principales o factoressern una combinacin lineal de las variables ori#inales, $ adems sern
independientes entre s.
%n aspecto clave en PCA es la interpretacin de los factores, $a &ue stano viene dada a priori, sino &ue ser deducida tras observar la relacin de
los factores con las variables iniciales (abr, pues, &ue estudiar tanto elsi#no como la ma#nitud de las correlaciones). Esto no siempre es fcil, $ser de vital importancia el conocimiento &ue el e'perto ten#a sobre lamateria de investi#acin.
ases de un Anlisis de Componentes Principales
*. Anlisis de la matriz de correlaciones.%n anlisis decomponentes principales tiene sentido si e'isten altascorrelaciones entre las variables, $a &ue esto es indicativo de &uee'iste informacin redundante $, por tanto, pocos factores
e'plicarn #ran parte de la variabilidad total.
+. Seleccin de los factores."a eleccin de los factores se realia detal forma &ue el primero reco!a la ma$or proporcin posible de lavariabilidad ori#inal- el se#undo factor debe reco#er la m'ima
variabilidad posible no reco#ida por el primero, $ assucesivamente. el total de factores se ele#irn a&ullos &uereco!an el porcenta!e de variabilidad &ue se considere suficiente. Astos se les denominar componentes principales.
/. Anlisis de la matriz factorial.%na ve seleccionados loscomponentes principales, se representan en forma de matri. Cadaelemento de sta representa los coeficientes factoriales de lasvariables (las correlaciones entre las variables $ los componentes
principales). "a matri tendr tantas columnas como componentesprincipales $ tantas filas como variables.
http://curso-r-uah2009.wikispaces.com/1.+Componentes+principaleshttp://curso-r-uah2009.wikispaces.com/1.+Componentes+principales7/23/2019 R Componentes Principales
2/9
0. Interpretacin de los factores.Para &ue un factor sea fcilmenteinterpretable debe tener las si#uientes caractersticas, &ue sondifciles de conse#uir
1 "os coeficientes factoriales deben ser pr'imos a *.
1 %na variable debe tener coeficientes elevados slo con un factor.1 2o deben e'istir factores con coeficientes similares.
3. Clculo de las puntuaciones factoriales. 4on las puntuaciones
&ue tienen los componentes principales para cada caso, &ue nospermitirn su anlisis posterior $ su representacin #rfica.
Caso de estudio: Capacidad reproductiva de plantas invasorasdel nero Acacia
(atos cedidos por 5scar 6odo$ $ Pilar Castro)En un estudio sobre la capacidad reproductiva de plantas invasoras se&uiere investi#ar si el nmero de inflorescencias (un atributo &ue puedecaracteriar el 'ito de una planta para coloniar nuevos nicos) &ue
desarrollan plantas invasoras frente a plantas no invasoras de un mismo#nero (Acacia) est relacionado con las caractersticas climticas
predominantes en la re#in de ori#en de la planta. Para estudiar estacuestin se an reco#ido datos de 03 variables climticas &ue
caracterian el ran#o de distribucin de ori#en de 30 especies del #neroAcacia, al#unas de las cuales se comportan cmo invasoras $ otras no.
7ueremos construir un modelo en dnde el nmero de inflorescencias&uede en funcin del carcter invasivo de la planta (factor con dosniveles) $ de las variables climticas &ue caracterian su ran#o de
distribucin de ori#en. %n problema es &ue un modelo no puede tener
casi tantas variables e'plicativas (03) como muestras (30) por&ue no a$8rplicas8 suficientes para comprobar la si#nificacin de cada una de lasvariables del modelo. 5tro problema es &ue las variables climticas
tienden a estar mu$ correlacionadas. ica colinealidad #enera modelosinestables $ poco precisos en su estimacin de los parmetros del
modelo.
5b!etivos
*. 9educir la dimensionalidad de las variables climticas $ sintetiartoda esta variabilidad en unas pocas variables (m'imo /).
7/23/2019 R Componentes Principales
3/9
+. 6enerar un modelo estadstico &ue permita e'plicar el nmero deinflorescencias en funcin del carcter invasivo de las especies $de las caractersticas climticas de ori#en de las plantas.
!ocumentacin
A andboo: of statistical anal$sis usin# 9. Capter */. Principal
Component Anal$sis ;e 5l$mpic . 9ou#?s
(+@@) (p. =)
"abB. Principal component anal$sis. 9 "abs for e#etation
Ecolo#ists. %niversit$ of California.
!atos
"os datos estn disponibles pincando a&u. Puedes descar#arte los datos
a tu ordenador, copiarlos al portapapeles o leerlos directamente de la
direccin %9" (esto ltimo es lo ms recomendable para &ue el cdi#osea reproducible desde cual&uier ordenador) utiliando en todos loscasos la funcin read.table().
"asos a seuir
*. "ee los datos $ slvalos en un ob!eto llamado data. E'plora los
datos con las funciones edit()$ str(). D
7/23/2019 R Componentes Principales
4/9
/. Fusca una funcin en 9 &ue a#a el anlisis de componentesprincipales (busca con help.search()). 2ota la funcin o
funciones &ue vamos a usar en esta sesin se encuentran dentro delpa&uete stats().
0. Gmplementa un PCA $ as#nalo a un ob!eto llamado pca1.
3. E'plora la estructura de dico ob!eto con la funcin str(). D7u
tipo de ob!eto es D7u informacin contiene
=. >ira la variabilidad e'plicada por cada uno de los e!es con lafuncin summary().
B. Gnterpreta &u si#nifican los dos primeros e!es del PCA. Para ellotendrs &ue mirar la matri de correlacin &ue est contenidadentro del ob!eto pca1.
. ibu!a los resultados del PCA con la funcin biplot().
H. A!usta un modelo lineal o un modelo lineal #eneraliado en dndeel nmero de inflorescencias &uede en funcin del carcterinvasivo de la especie $ de los dos primeros e!es del PCA. DEs
si#nficativa al#una de las variables climticas DCmo interpretasla relacin entre los e!es del PCA (si son si#nificativos) $ la
variable respuesta
*@. DEs el modelo adecuado DCmo son los residuos D4e podrasu#erir otro modelo con una distribucin de errores de otro tipo&u fuese ms adecuado
Cdio
I*. 4e asi#na la %9" dnde estn los datos a un ob!eto llamado dirJebdirweb
7/23/2019 R Componentes Principales
5/9
I+. 4e leen los datos con la funcin read.table() $ se asi#na a un ob!etollamado datadata en dnde el nmero de inflorescencias &uedara enfuncin del carcterIH. invasivo de la especie $ de los tres primeros e!es del PCAglm.acacias
7/23/2019 R Componentes Principales
6/9
What is the diference between summary and loadings or princomp?
up vote 6
down vote
avorite
1
E'ample code
(pc.cr
7/23/2019 R Componentes Principales
7/9
component loadings summary? - chl$Sep 19 '1 at 9!%
.i chl / 0 mean the output rom summary2pc3cr4 / or some
reason+ 0 can't 5nd it3 2doing something li&e summary2pc3cr4
177 will get me only part o the table4 - )al *aliliSep 19 '1
at 9!%%
add a comment
1 8nsweractiveoldestvotes
up vote
down
vote
accepted
;e first output is te correct and most useful one. Callin# loadings()on
$our ob!ect !ust returns a summar$ Jere te 44 are alJa$s e&ual to *,
ence te N variance is !ust te 44 loadin#s divided b$ te number of
variables. Gt ma:es sense onl$ Jen usin# actor Anal$sis (li:e in
Iactanal). G never use princompor its 4Kbased alternative (prcomp),
and G prefer te acto>ine9or ade0pac:a#e Jic are b$ far more
poJerfulO
About $our second &uestion, te summary()function !ust returns te 4 for
eac component (pc.crNsdevin $our case), and te rest of te table seems
to be computed afterJards (trou# te printor showmetod, G didnMt
investi#ate tis in details).
R get=@method("summary"J"princomp")Iunction (objectJ loadings 9&=EJ cutoII .1J ...)T objectNcutoII
7/23/2019 R Componentes Principales
8/9
;e dataset sould contain numeric variables onl$. Gf tere are an$ nonKnumeric
variables in $our dataset, $ou must e'clude tem Jit brac:et notation or Jit te
subsetfunction.
;e princompoutput displa$s te standard deviations of te components. ample! rincipal component analysis using the irisdataConsider te irisdataset (included Jit 9) Jic #ives te petal Jidt, petal len#t,
sepal Jidt, sepal len#t and species for *3@ irises. ;o vieJ more information about te
dataset, enter help(iris).
ou can vieJ te dataset b$ enterin# te dataset name
R iris =epal.ength =epal.*idth $etal.ength $etal.*idth =pecies1 #.1 @.# 1.+ .! setosa! +.S @. 1.+ .! setosa@ +. @.! 1.@ .! setosa+ +.6 @.1 1.# .! setosa# #. @.6 1.+ .! setosa...1# #.S @. #.1 1. virginica
;e dataset contains a factor variable (=pecies) Jic must be e'cluded Jenperformin# te PCA. 4o to perform te anal$sis and save te results to an ob!ect, use
te command
R irispca
7/23/2019 R Componentes Principales
9/9
rom te output Je can see tat H+.0N of te variation in te dataset is e'plained b$ te
first component alone, and HB.N is e'plained b$ te first tJo components.
;o vieJ te loadin#s for te components, use te command
R irispcaNloadingsoadings: %omp.1 %omp.! %omp.@ %omp.+=epal.ength .@61 -.6# .#! .@1#=epal.*idth -.@ -.#S -.@!$etal.ength .# .1@ -.+$etal.*idth .@# -.#+6 .#+
%omp.1 %omp.! %omp.@ %omp.+== loadings 1. 1. 1. 1.$roportion ar .!# .!# .!# .!#%umulative ar .!# .# .# 1.
;o vieJ te scores for eac observation, use te command
R irispcaNscores %omp.1 %omp.! %omp.@ %omp.+ L1JM -!.6+1!#6!6 -.@1S@S!+ .!S1+! .!!6!+@1 L!JM -!.1+1+16 .11!!# .!1+6+!! .SS!6##@ L@JM -!.SS#6S .1++S+S+!6 -.1S!#6 .1SS6@S L+JM -!.+#@+!#6 .@1!SSS -.@1##S@+ -.###166 L#JM -!.!16#@ -.@!6#+#1@ -.SS!+1 -.61!##S!6 L6JM -!.!#S6@@ -.+1@@++S -.1666# -.!+!#6 LJM -!.!#@#1 .S+61@# -.!#S!1# -.+1+@16# LJM -!.6!61++S@ -.16@@+S6 .!1S@1 -.+#!S6 LSJM -!.6@!@! .#@11#+ -.!#S# -.!6++@#L1JM -!.6!##S .11@+!+6 .1S6@!!# -.#6!S#[email protected]#JM 1.@S16! .!!66S@ -.@6!SS6+ -.1##@6!!
;is e'ample is continued in te article Creatin# a scree plot Jit 9.
http://www.instantr.com/2012/12/19/creating-a-scree-plot-with-r/http://www.instantr.com/2012/12/19/creating-a-scree-plot-with-r/