Visualización y Extracción de Características mediante Componentes Principales

Visualización y Extracción Visualización y Extracción de Características de Características

mediante mediante Componentes PrincipalesComponentes Principales

Tema 5Tema 5

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Métodos de Visualización de Métodos de Visualización de DatosDatos

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

FL: Forma de su letraAPP: AspectoAA: Capacidad académicaLA: AmabilidadSC: ConfianzaLC: LucidezHON: Honestidad

SMS: Su arte de venderEXP: ExperienciaDRV: EmpujeAMB: AmbiciónGSP: Capacidad para captar conceptos

POT: potencialKJ: Entusiasmo para trabajar en grupoSUIT: Conveniencia

Escala del 0 al 10, donde 0 es muy insatisfactorio y 10 muy satisfactorio

48 individuos

Ejemplo: Solicitantes de un empleo

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Visualización de datosVisualización de datos

Caras de Chernoff

Se asocia una variable a cada característica de la cara: altura del ojo, ancho del ojo, tamaño del iris, longitud de la nariz, ancho de la nariz, ancho de las cejas, inclinación de las cejas, longitud de las orejas, longitud de la boca, etc.

Utilidad: identificación de outliers, agrupar elementos.

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Caras de Chernoff

Ejemplo de los Ejemplo de los solicitantes de un solicitantes de un empleoempleo

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

VIRTUDES LIMITANTESVIRTUDES LIMITANTESVIRTUDES LIMITANTESVIRTUDES LIMITANTES

Excelente para Excelente para clasificaciónclasificación

Vuelve amigable el Vuelve amigable el tedioso análisis de tedioso análisis de tablastablas

Condensa Condensa numerosas numerosas variables en una variables en una imagen imagen bidimensionalbidimensional

La asignación subjetiva La asignación subjetiva de características de características faciales a las variables faciales a las variables afecta la clasificaciónafecta la clasificación

Sólo permite analizar un Sólo permite analizar un número finito de número finito de observacionesobservaciones

Caras de Chernoff

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Visualización de datosVisualización de datos

Gráficos de estrellas y rayos

Se construyen al representar la distancia a la que se encuentra cada variable de cero sobre rayos o ejes que irradian de un punto central.

Se tiene un rayo para cada variable de respuesta; por ejemplo, los vectores de datos de cinco dimensiones necesitarán cinco rayos o ejes.

Identificación de outliers, agrupación

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Gráficos de estrellas y rayos

Ejemplo de los solicitantes de un empleoEjemplo de los solicitantes de un empleo

¿Quiénes parecen ser los mejores candidatos para otorgarles el empleo?

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

EXTRACTORES DE EXTRACTORES DE CARACTERÍSTICASCARACTERÍSTICAS

NECESIDADNECESIDAD COMPLEJIDAD CRECIENTE DE LOS COMPLEJIDAD CRECIENTE DE LOS

PROBLEMAS DE CLASIFICACIÓN DEBIDO PROBLEMAS DE CLASIFICACIÓN DEBIDO AL AUMENTO DE :AL AUMENTO DE : NÚMERONÚMERO n n DE OBSERVACIONESDE OBSERVACIONES DIMENSIÓNDIMENSIÓN p p DEL ESPACIO DE VARIABLESDEL ESPACIO DE VARIABLES

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

OBJETIVO:

HALLAR UNA TRANSFORMACIÓN DEL ESPACIO DE DIMENSIÓN p DE LAS VARIABLES ASOCIADAS A CADA OBSERVACIÓN EN UN ESPACIO DE DIMENSIÓN INFERIOR, (ESPACIO DE LAS CARACTERÍSTICAS), QUE RETENGA LO ESENCIAL DE LA INFORMACIÓN NECESARIA PARA EL PROCESO DE CLASIFICACIÓN

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

MÁS PRECISAMENTE:

QUE EL PROCESO CLASIFICADOR DE LAS OBSERVACIONES EN EL ESPACIO DE LATOTALIDAD DE LAS VARIABLES Y EN ELESPACIO DE LAS CARACTERÍSTICAS CONDUZ-CA A UNA DIVISIÓN DE LAS OBSERVACIO-NES EN LAS MISMAS CLASES O CON DIFE-RENCIAS INSIGNIFICANTES.

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

POR QUÉ EXTRAER POR QUÉ EXTRAER CARACTERÍSTICASCARACTERÍSTICAS

REDUCIR LA COMPLEJIDAD COMPUTACIONALREDUCIR LA COMPLEJIDAD COMPUTACIONAL

LOS MÉTODOS ESTADÍSTICOS DE ESTIMACIÓN SE LOS MÉTODOS ESTADÍSTICOS DE ESTIMACIÓN SE

VUELVEN MÁS CONFIABLES EN EL ESPACIO DE VUELVEN MÁS CONFIABLES EN EL ESPACIO DE

DIMENSIÓN REDUCIDADIMENSIÓN REDUCIDA

PARA PERMITIR UNA VISUALIZACIÓN GRÁFICA DE LAS PARA PERMITIR UNA VISUALIZACIÓN GRÁFICA DE LAS

CLASES (DIMENSIÓN A LO SUMO 3)CLASES (DIMENSIÓN A LO SUMO 3)

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

EXTRACTORES BÁSICOSEXTRACTORES BÁSICOS

ANÁLISIS DE COMPONENTES PRINCIPALES

ESCALAMIENTO MULTIDIMENSIONAL

MAPAS AUTOORGANIZATIVOS

REDES NEURONALES

Tem

a 5.

Com

pone

ntes

Prin

cipa

les COMPONENTES PRINCIPALESCOMPONENTES PRINCIPALESCOMPONENTES PRINCIPALESCOMPONENTES PRINCIPALES

ORIGENORIGEN

* PEARSON (1901)* PEARSON (1901)

* HOTELLING(1933)* HOTELLING(1933)

SOPORTE MATEMÁTICOSOPORTE MATEMÁTICO

* DESCOMPOSICIÓN ESPECTRAL DE MATRICES* DESCOMPOSICIÓN ESPECTRAL DE MATRICES

* VALORES Y VECTORES PROPIOS * VALORES Y VECTORES PROPIOS

AUGE COMO CONSECUENCIA DEL DESARROLLO DEL AUGE COMO CONSECUENCIA DEL DESARROLLO DEL

COMPUTADORCOMPUTADOR

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

CONSISTE EN LA TRANSFORMACIÓN DEL ESPACIO DE CONSISTE EN LA TRANSFORMACIÓN DEL ESPACIO DE

VARIABLES ORIGINALES VARIABLES ORIGINALES RRpp EN UN NUEVO ESPACIO EN UN NUEVO ESPACIO RRqq , CON , CON

q<p, DE MODO QUE CIERTAS PROPIEDADES DE LA q<p, DE MODO QUE CIERTAS PROPIEDADES DE LA

ESTRUCTURA DE LOS DATOS SEAN PRESERVADASESTRUCTURA DE LOS DATOS SEAN PRESERVADAS

EXTRAER CARACTERÍSTICAS RELEVANTES DE LOS

DATOS.

VISUALIZAR LOS DATOS MEDIANTE SU REDUCCIÓN A

UNA DIMENSIÓN A LO SUMO 3.

ESTE PROCESO PERMITE:

Objetivo Principal:Objetivo Principal: Reducir dimensionalidad

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

MÉTODOS DE PROYECCIÓNMÉTODOS DE PROYECCIÓNMÉTODOS DE PROYECCIÓNMÉTODOS DE PROYECCIÓN

LOS MÉTODOS PARA REDUCIR LA DIMENSIÓN, p, DE LOS LOS MÉTODOS PARA REDUCIR LA DIMENSIÓN, p, DE LOS

DATOS, A UNA DIMENSIÓN INFERIOR, q, PUEDEN DATOS, A UNA DIMENSIÓN INFERIOR, q, PUEDEN

CONCEBIRSE COMO UNA PROYECCIÓN DE UN ESPACIO RCONCEBIRSE COMO UNA PROYECCIÓN DE UN ESPACIO Rpp

SOBRE OTRO ESPACIO RSOBRE OTRO ESPACIO Rq q ..

q p

En lo posible

q=2 o q=3

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

DEFINICIÓNDEFINICIÓNDEFINICIÓNDEFINICIÓN

DADO UN CONJUNTO DE DATOS p-DIMENSIONAL DE VARIABLES DADO UN CONJUNTO DE DATOS p-DIMENSIONAL DE VARIABLES

X1,.......,Xp, OBTENER UN CONJUNTO DE VARIABLES Z1,....,Zq X1,.......,Xp, OBTENER UN CONJUNTO DE VARIABLES Z1,....,Zq

LLAMADAS COMPONENTES PRINCIPALES, q<p TAL QUE:LLAMADAS COMPONENTES PRINCIPALES, q<p TAL QUE:

SEAN COMBINACIONES LINEALES DEL CONJUNTO ORIGINALSEAN COMBINACIONES LINEALES DEL CONJUNTO ORIGINAL

SEAN LINEALMENTE INDEPENDIENTESSEAN LINEALMENTE INDEPENDIENTES

Z1 REPRESENTE LA MEJOR APROXIMACIÓN CON UNA SOLA Z1 REPRESENTE LA MEJOR APROXIMACIÓN CON UNA SOLA

VARIABLE A LA DATA ORIGINALVARIABLE A LA DATA ORIGINAL

Z2 LA MEJOR ENTRE AQUELLAS DIRECIONES ORTOGONALES A Z2 LA MEJOR ENTRE AQUELLAS DIRECIONES ORTOGONALES A

Z1, Y ASÍ SUCESIVAMENTE ...Z1, Y ASÍ SUCESIVAMENTE ...

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Matriz de Covarianza

Traza()= (Y1) + …+ 2(Yn)

Tem

a 5.

Com

pone

ntes

Prin

cipa

les VECTORES Y VALORES VECTORES Y VALORES

PROPIOSPROPIOSVECTORES Y VALORES VECTORES Y VALORES PROPIOSPROPIOS

DEFINICIÓN

PARA COMPONENTES PRINCIPALES LA MATRIZ, A, ES LA DE

COVARIANZA (la de momentos o la de correlación).

MATRIZ DE

COVARIANZA

MUESTRAL

, x = VALOR PROPIO Y VECTOR PROPIO DE UNA MATRIZ A si

Ax = x

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Los valores propios o (eigenvalores) son las raíces de la ecuación polinomial definida por:

0 IA

Nota: Si una matriz es simétrica, sus valores propios (p) siempre serán números reales.

Vectores y valores propiosVectores y valores propiosVectores y valores propiosVectores y valores propios

Definición

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Cada valor propio tiene un vector no cero correspondiente a (una columna de números) llamado vector propio (o eigenvector) que satisface la ecuación matricial:

aa

Definición

Debido a que tiene p valores propios, tendrá p vectores propios (a1,a2,…,ap).

Propiedad

p

ipitraza

121 ....)(

La traza de la matriz de covarianza mide la variación total de las variables

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Matriz de Covarianza

Obtener vectores y valores propios

Ordenar vectores propios (a1, a2, …, ap) y valores propios (p ) de acuerdo a estos últimos :

p ...321

Varianza de la j-ésima componente aj es j.

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Variables que tienen fuertes relaciones con Variables que tienen fuertes relaciones con las componentes principales:las componentes principales:

Aquellas que tienen elementos en el vector propio mayores en valor absoluto que las otras variables en el mismo vector propio.

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Las componentes principales tienen como característica que son vectores ortonormales, es decir:

ai’ai=1 y ai’aj=0 i ≠ j

100

001

Por ejemplo,

b1= b2=

Son vectores ortonormales

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Primera componente como combinación lineal de x1 y x2

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Cada valor λj representa la varianza de los datos

proyectada sobre la componente principal

Obsérvese aquí

que λ1 >> λ2 ya que

es mayor la

variabilidad sobre la

primera componente

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Calificaciones de los Componentes Principales (Scores)Calificaciones de los Componentes Principales (Scores)

Sea xr: vector de variables medidas para la r-ésima observación

Vector (calificación) de la j-ésima componente principal,

para la r-ésima observación es:

yrj = aj’ (xr - ) para j=1,2,…,p y r=1,2,…n

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

yrj = aj’ (xr -)

¿y¿y1111??

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

0.1490.1320.029

.

.

.

6725...

10

67.087.086.14

.

.

.5.958

’

- =

0.149(6-6)+0.132(7- 7.08) + 0.030(2-7.083) + …+0.274(10-5.958) = 4.304

y11 =

Valor del elemento r (solicitante 1) en la componente principal j (primera componente)

Solicitante 1

Componente 1

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

4.3

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?

PUESTO QUE LA VARIANZA TOTAL, ES LA SUMA DE LAS

VARIANZAS SOBRE CADA COMPONENTE:

0 211 p

p

jjVAR

SE TOMAN SUFICIENTES λj QUE EXPLIQUEN UN ALTO % DE LA

VARIANZA TOTAL

UN CRITERIO ALTERNATIVO ES CONSIDERAR los λj QUE SEAN

MAYOR QUE EL PROMEDIO DE VARIANZA POR COMPONENTE:

pVAR

j

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

8 8/20 - 0.40 8/20 = 0.406 6/20 - 0.30 14/20 = 0.703 3/20 - 0.15 17/20 = 0.852 2/20 - 0.10 19/20 = 0.951 1/20 - 0.05 20/20 = 1.00

C1C2C3C4C5

20

20/5 = 4 => Se seleccionan los lambda >= 4

¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?

pVAR

j

Valor propio % individual % acumulado

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

LA PRUEBA DEL BASTÓN LA PRUEBA DEL BASTÓN ROTOROTOLA PRUEBA DEL BASTÓN LA PRUEBA DEL BASTÓN ROTOROTOLOS CRITERIOS ANTERIORES TIENEN LA DEBILIDAD DE QUE SE

ESPERA QUE LOS PRIMEROS VALORES PROPIOS SEAN

SUPERIOR AL PROMEDIO SIN QUE ESTO IMPLIQUE UN

SIGNIFICADO ESPECIAL.

POR AZAR SE QUIEBRA UN BASTÓN EN p PARTES, ¿CUÁL ES EL

VALOR ESPERADO DE LOS TROZOS DEL BASTÓN?

pj1 )(0

11

jp

kkjpjLE

E(L1) > E(L2) > E(L3)…

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Supongamos n=4, tenemos:

0625.04

1

4

1)(

1458.03

1

4

1

4

1)(

2708.02

1

3

1

4

1

4

1)(

5208.012

1

3

1

4

1

4

1)(

4

3

2

1

LE

LE

LE

LE 52.08

79.16

93.74

100

Porcentaje Acumulado

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Las m primeras componentes son significativas si explican mayor varianza que los m primeros valores medios del modelo del bastón roto. Se considera que las demás componentes descomponen la varianza residual al azar.

Por ejemplo, si la dimensión es 4 los valores esperados de los trozos son:

0.5208 0.2708 0.1458 0.062552.08 79.16 93.74 100 % Acumulado

Si los valores propios obtenidos son (en %):

0.65; 0.18; 0.09; 0.08

¿Cuáles componentes se seleccionarían?

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

ESTUDIO DE LA DISTRIBUCIÓN DE LA ESTUDIO DE LA DISTRIBUCIÓN DE LA FUERZA LABORAL EMPLEADA (%) EN 9 FUERZA LABORAL EMPLEADA (%) EN 9

DIFERENTES SECTORES ECONÓMICOS EN DIFERENTES SECTORES ECONÓMICOS EN 26 PAISES DE EUROPA26 PAISES DE EUROPA

OBJETIVO: REDUCCIÓN DE LA DIMENSIONALIDAD DELOS DATOS CON EL PROPÓSITO DE AISLAR GRUPOS DEPAISES CON SIMILAR DISTRIBUCIÓN DEL EMPLEOY AYUDAR A LA COMPRENSIÓN DE LA RELACIÓNENTRE LOS PAISES

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

PAIS AGRO MINE MANU ENER CONST SER_IND FINA SOCIAL TR_COMU

BELG 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 DINA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 FRAN 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7 WALE 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1 IRLA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1 ITAL 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7 LUXE 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 HOLA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8 INGL 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 AUST 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0 FINL 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 GREC 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7 NORU 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 PORT 27.8 0.3 24.5 0.6 8.4 13.9 2.7 16.7 5.7 ESPA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 SUEC 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8 SUIZ 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 TURK 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 BULG 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7 CHEK 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0 EALE 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 HUNG 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0 POLO 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 RUMA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0 USSR 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 YUGO 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0

Fuente: Euromonitor(1979)

TABLA DE DATOS EN %

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

PRIN1 PRIN2

AGRO -.524072 0.053465 MINE -.001726 0.618020 MANU 0.347880 0.354503 ENER 0.255479 0.261699 CONST 0.325827 0.050426 SER_IND 0.377426 -.352022 FINA 0.073925 -.452389 SOCIAL 0.387558 -.220970

TR_COMU 0.367117 0.202703

CONTRASTES

ENTRE LOS

SECTORES DE

OCUPACIÓN

COMPONENTES PRINCIPALES

Eigenvalue Difference Proportion Cumulative

PRIN1 3.48258 1.34997 0.386953 0.38695 PRIN2 2.13261 1.03443 0.236957 0.62391

PRIN3 1.09818 0.10331 0.122020 0.74593 PRIN4 0.99487 0.45132 0.110541 0.85647

PRIN5 0.54354 0.15683 0.060394 0.91686 PRIN6 0.38671 0.16198 0.042968 0.95983

PRIN7 0.22473 0.08803 0.024970 0.98480 PRIN8 0.13669 0.13661 0.015188 0.99999

PRIN9 0.00009 . 0.000010 1.00000

PRIN1 3.48258 1.34997 0.386953 0.38695 PRIN2 2.13261 1.03443 0.236957 0.62391

PRIN3 1.09818 0.10331 0.122020 0.74593 PRIN4 0.99487 0.45132 0.110541 0.85647

PRIN5 0.54354 0.15683 0.060394 0.91686 PRIN6 0.38671 0.16198 0.042968 0.95983

PRIN7 0.22473 0.08803 0.024970 0.98480 PRIN8 0.13669 0.13661 0.015188 0.99999

PRIN9 0.00009 . 0.000010 1.00000

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

ESPACIO DE 2 COMPONENTESESPACIO DE 2 COMPONENTESCOMPONENTES PRINCIPALES

Tem

a 5.

Com

pone

ntes

Prin

cipa

les

EigenfacesEigenfaces

Documents

Visualización y Extracción de Características mediante Componentes Principales