Upload
bessie
View
47
Download
0
Embed Size (px)
DESCRIPTION
Visualización y Extracción de Características mediante Componentes Principales. Tema 5. Métodos de Visualización de Datos. Ejemplo: Solicitantes de un empleo. 48 individuos. FL: Forma de su letra APP: Aspecto AA: Capacidad académica LA: Amabilidad SC: Confianza LC: Lucidez - PowerPoint PPT Presentation
Citation preview
Visualización y Extracción Visualización y Extracción de Características de Características
mediante mediante Componentes PrincipalesComponentes Principales
Tema 5Tema 5
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Métodos de Visualización de Métodos de Visualización de DatosDatos
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
FL: Forma de su letraAPP: AspectoAA: Capacidad académicaLA: AmabilidadSC: ConfianzaLC: LucidezHON: Honestidad
SMS: Su arte de venderEXP: ExperienciaDRV: EmpujeAMB: AmbiciónGSP: Capacidad para captar conceptos
POT: potencialKJ: Entusiasmo para trabajar en grupoSUIT: Conveniencia
Escala del 0 al 10, donde 0 es muy insatisfactorio y 10 muy satisfactorio
48 individuos
Ejemplo: Solicitantes de un empleo
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Visualización de datosVisualización de datos
Caras de Chernoff
Se asocia una variable a cada característica de la cara: altura del ojo, ancho del ojo, tamaño del iris, longitud de la nariz, ancho de la nariz, ancho de las cejas, inclinación de las cejas, longitud de las orejas, longitud de la boca, etc.
Utilidad: identificación de outliers, agrupar elementos.
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Caras de Chernoff
Ejemplo de los Ejemplo de los solicitantes de un solicitantes de un empleoempleo
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
VIRTUDES LIMITANTESVIRTUDES LIMITANTESVIRTUDES LIMITANTESVIRTUDES LIMITANTES
Excelente para Excelente para clasificaciónclasificación
Vuelve amigable el Vuelve amigable el tedioso análisis de tedioso análisis de tablastablas
Condensa Condensa numerosas numerosas variables en una variables en una imagen imagen bidimensionalbidimensional
La asignación subjetiva La asignación subjetiva de características de características faciales a las variables faciales a las variables afecta la clasificaciónafecta la clasificación
Sólo permite analizar un Sólo permite analizar un número finito de número finito de observacionesobservaciones
Caras de Chernoff
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Visualización de datosVisualización de datos
Gráficos de estrellas y rayos
Se construyen al representar la distancia a la que se encuentra cada variable de cero sobre rayos o ejes que irradian de un punto central.
Se tiene un rayo para cada variable de respuesta; por ejemplo, los vectores de datos de cinco dimensiones necesitarán cinco rayos o ejes.
Identificación de outliers, agrupación
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Gráficos de estrellas y rayos
Ejemplo de los solicitantes de un empleoEjemplo de los solicitantes de un empleo
¿Quiénes parecen ser los mejores candidatos para otorgarles el empleo?
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
EXTRACTORES DE EXTRACTORES DE CARACTERÍSTICASCARACTERÍSTICAS
NECESIDADNECESIDAD COMPLEJIDAD CRECIENTE DE LOS COMPLEJIDAD CRECIENTE DE LOS
PROBLEMAS DE CLASIFICACIÓN DEBIDO PROBLEMAS DE CLASIFICACIÓN DEBIDO AL AUMENTO DE :AL AUMENTO DE : NÚMERONÚMERO n n DE OBSERVACIONESDE OBSERVACIONES DIMENSIÓNDIMENSIÓN p p DEL ESPACIO DE VARIABLESDEL ESPACIO DE VARIABLES
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
OBJETIVO:
HALLAR UNA TRANSFORMACIÓN DEL ESPACIO DE DIMENSIÓN p DE LAS VARIABLES ASOCIADAS A CADA OBSERVACIÓN EN UN ESPACIO DE DIMENSIÓN INFERIOR, (ESPACIO DE LAS CARACTERÍSTICAS), QUE RETENGA LO ESENCIAL DE LA INFORMACIÓN NECESARIA PARA EL PROCESO DE CLASIFICACIÓN
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
MÁS PRECISAMENTE:
QUE EL PROCESO CLASIFICADOR DE LAS OBSERVACIONES EN EL ESPACIO DE LATOTALIDAD DE LAS VARIABLES Y EN ELESPACIO DE LAS CARACTERÍSTICAS CONDUZ-CA A UNA DIVISIÓN DE LAS OBSERVACIO-NES EN LAS MISMAS CLASES O CON DIFE-RENCIAS INSIGNIFICANTES.
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
POR QUÉ EXTRAER POR QUÉ EXTRAER CARACTERÍSTICASCARACTERÍSTICAS
REDUCIR LA COMPLEJIDAD COMPUTACIONALREDUCIR LA COMPLEJIDAD COMPUTACIONAL
LOS MÉTODOS ESTADÍSTICOS DE ESTIMACIÓN SE LOS MÉTODOS ESTADÍSTICOS DE ESTIMACIÓN SE
VUELVEN MÁS CONFIABLES EN EL ESPACIO DE VUELVEN MÁS CONFIABLES EN EL ESPACIO DE
DIMENSIÓN REDUCIDADIMENSIÓN REDUCIDA
PARA PERMITIR UNA VISUALIZACIÓN GRÁFICA DE LAS PARA PERMITIR UNA VISUALIZACIÓN GRÁFICA DE LAS
CLASES (DIMENSIÓN A LO SUMO 3)CLASES (DIMENSIÓN A LO SUMO 3)
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
EXTRACTORES BÁSICOSEXTRACTORES BÁSICOS
ANÁLISIS DE COMPONENTES PRINCIPALES
ESCALAMIENTO MULTIDIMENSIONAL
MAPAS AUTOORGANIZATIVOS
REDES NEURONALES
Tem
a 5.
Com
pone
ntes
Prin
cipa
les COMPONENTES PRINCIPALESCOMPONENTES PRINCIPALESCOMPONENTES PRINCIPALESCOMPONENTES PRINCIPALES
ORIGENORIGEN
* PEARSON (1901)* PEARSON (1901)
* HOTELLING(1933)* HOTELLING(1933)
SOPORTE MATEMÁTICOSOPORTE MATEMÁTICO
* DESCOMPOSICIÓN ESPECTRAL DE MATRICES* DESCOMPOSICIÓN ESPECTRAL DE MATRICES
* VALORES Y VECTORES PROPIOS * VALORES Y VECTORES PROPIOS
AUGE COMO CONSECUENCIA DEL DESARROLLO DEL AUGE COMO CONSECUENCIA DEL DESARROLLO DEL
COMPUTADORCOMPUTADOR
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
CONSISTE EN LA TRANSFORMACIÓN DEL ESPACIO DE CONSISTE EN LA TRANSFORMACIÓN DEL ESPACIO DE
VARIABLES ORIGINALES VARIABLES ORIGINALES RRpp EN UN NUEVO ESPACIO EN UN NUEVO ESPACIO RRqq , CON , CON
q<p, DE MODO QUE CIERTAS PROPIEDADES DE LA q<p, DE MODO QUE CIERTAS PROPIEDADES DE LA
ESTRUCTURA DE LOS DATOS SEAN PRESERVADASESTRUCTURA DE LOS DATOS SEAN PRESERVADAS
EXTRAER CARACTERÍSTICAS RELEVANTES DE LOS
DATOS.
VISUALIZAR LOS DATOS MEDIANTE SU REDUCCIÓN A
UNA DIMENSIÓN A LO SUMO 3.
ESTE PROCESO PERMITE:
Objetivo Principal:Objetivo Principal: Reducir dimensionalidad
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
MÉTODOS DE PROYECCIÓNMÉTODOS DE PROYECCIÓNMÉTODOS DE PROYECCIÓNMÉTODOS DE PROYECCIÓN
LOS MÉTODOS PARA REDUCIR LA DIMENSIÓN, p, DE LOS LOS MÉTODOS PARA REDUCIR LA DIMENSIÓN, p, DE LOS
DATOS, A UNA DIMENSIÓN INFERIOR, q, PUEDEN DATOS, A UNA DIMENSIÓN INFERIOR, q, PUEDEN
CONCEBIRSE COMO UNA PROYECCIÓN DE UN ESPACIO RCONCEBIRSE COMO UNA PROYECCIÓN DE UN ESPACIO Rpp
SOBRE OTRO ESPACIO RSOBRE OTRO ESPACIO Rq q ..
q p
En lo posible
q=2 o q=3
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
DEFINICIÓNDEFINICIÓNDEFINICIÓNDEFINICIÓN
DADO UN CONJUNTO DE DATOS p-DIMENSIONAL DE VARIABLES DADO UN CONJUNTO DE DATOS p-DIMENSIONAL DE VARIABLES
X1,.......,Xp, OBTENER UN CONJUNTO DE VARIABLES Z1,....,Zq X1,.......,Xp, OBTENER UN CONJUNTO DE VARIABLES Z1,....,Zq
LLAMADAS COMPONENTES PRINCIPALES, q<p TAL QUE:LLAMADAS COMPONENTES PRINCIPALES, q<p TAL QUE:
SEAN COMBINACIONES LINEALES DEL CONJUNTO ORIGINALSEAN COMBINACIONES LINEALES DEL CONJUNTO ORIGINAL
SEAN LINEALMENTE INDEPENDIENTESSEAN LINEALMENTE INDEPENDIENTES
Z1 REPRESENTE LA MEJOR APROXIMACIÓN CON UNA SOLA Z1 REPRESENTE LA MEJOR APROXIMACIÓN CON UNA SOLA
VARIABLE A LA DATA ORIGINALVARIABLE A LA DATA ORIGINAL
Z2 LA MEJOR ENTRE AQUELLAS DIRECIONES ORTOGONALES A Z2 LA MEJOR ENTRE AQUELLAS DIRECIONES ORTOGONALES A
Z1, Y ASÍ SUCESIVAMENTE ...Z1, Y ASÍ SUCESIVAMENTE ...
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Matriz de Covarianza
Traza()= (Y1) + …+ 2(Yn)
Tem
a 5.
Com
pone
ntes
Prin
cipa
les VECTORES Y VALORES VECTORES Y VALORES
PROPIOSPROPIOSVECTORES Y VALORES VECTORES Y VALORES PROPIOSPROPIOS
DEFINICIÓN
PARA COMPONENTES PRINCIPALES LA MATRIZ, A, ES LA DE
COVARIANZA (la de momentos o la de correlación).
MATRIZ DE
COVARIANZA
MUESTRAL
, x = VALOR PROPIO Y VECTOR PROPIO DE UNA MATRIZ A si
Ax = x
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Los valores propios o (eigenvalores) son las raíces de la ecuación polinomial definida por:
0 IA
Nota: Si una matriz es simétrica, sus valores propios (p) siempre serán números reales.
Vectores y valores propiosVectores y valores propiosVectores y valores propiosVectores y valores propios
Definición
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Cada valor propio tiene un vector no cero correspondiente a (una columna de números) llamado vector propio (o eigenvector) que satisface la ecuación matricial:
aa
Definición
Debido a que tiene p valores propios, tendrá p vectores propios (a1,a2,…,ap).
Propiedad
p
ipitraza
121 ....)(
La traza de la matriz de covarianza mide la variación total de las variables
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Matriz de Covarianza
Obtener vectores y valores propios
Ordenar vectores propios (a1, a2, …, ap) y valores propios (p ) de acuerdo a estos últimos :
p ...321
Varianza de la j-ésima componente aj es j.
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Variables que tienen fuertes relaciones con Variables que tienen fuertes relaciones con las componentes principales:las componentes principales:
Aquellas que tienen elementos en el vector propio mayores en valor absoluto que las otras variables en el mismo vector propio.
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Las componentes principales tienen como característica que son vectores ortonormales, es decir:
ai’ai=1 y ai’aj=0 i ≠ j
100
001
Por ejemplo,
b1= b2=
Son vectores ortonormales
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Primera componente como combinación lineal de x1 y x2
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Cada valor λj representa la varianza de los datos
proyectada sobre la componente principal
Obsérvese aquí
que λ1 >> λ2 ya que
es mayor la
variabilidad sobre la
primera componente
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Calificaciones de los Componentes Principales (Scores)Calificaciones de los Componentes Principales (Scores)
Sea xr: vector de variables medidas para la r-ésima observación
Vector (calificación) de la j-ésima componente principal,
para la r-ésima observación es:
yrj = aj’ (xr - ) para j=1,2,…,p y r=1,2,…n
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
yrj = aj’ (xr -)
¿y¿y1111??
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
0.1490.1320.029
.
.
.
6725...
10
67.087.086.14
.
.
.5.958
’
- =
0.149(6-6)+0.132(7- 7.08) + 0.030(2-7.083) + …+0.274(10-5.958) = 4.304
y11 =
Valor del elemento r (solicitante 1) en la componente principal j (primera componente)
Solicitante 1
Componente 1
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
4.3
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?
PUESTO QUE LA VARIANZA TOTAL, ES LA SUMA DE LAS
VARIANZAS SOBRE CADA COMPONENTE:
0 211 p
p
jjVAR
SE TOMAN SUFICIENTES λj QUE EXPLIQUEN UN ALTO % DE LA
VARIANZA TOTAL
UN CRITERIO ALTERNATIVO ES CONSIDERAR los λj QUE SEAN
MAYOR QUE EL PROMEDIO DE VARIANZA POR COMPONENTE:
pVAR
j
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
8 8/20 - 0.40 8/20 = 0.406 6/20 - 0.30 14/20 = 0.703 3/20 - 0.15 17/20 = 0.852 2/20 - 0.10 19/20 = 0.951 1/20 - 0.05 20/20 = 1.00
C1C2C3C4C5
20
20/5 = 4 => Se seleccionan los lambda >= 4
¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?¿CUÁNTAS COMPONENTES ?
pVAR
j
Valor propio % individual % acumulado
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
LA PRUEBA DEL BASTÓN LA PRUEBA DEL BASTÓN ROTOROTOLA PRUEBA DEL BASTÓN LA PRUEBA DEL BASTÓN ROTOROTOLOS CRITERIOS ANTERIORES TIENEN LA DEBILIDAD DE QUE SE
ESPERA QUE LOS PRIMEROS VALORES PROPIOS SEAN
SUPERIOR AL PROMEDIO SIN QUE ESTO IMPLIQUE UN
SIGNIFICADO ESPECIAL.
POR AZAR SE QUIEBRA UN BASTÓN EN p PARTES, ¿CUÁL ES EL
VALOR ESPERADO DE LOS TROZOS DEL BASTÓN?
pj1 )(0
11
jp
kkjpjLE
E(L1) > E(L2) > E(L3)…
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Supongamos n=4, tenemos:
0625.04
1
4
1)(
1458.03
1
4
1
4
1)(
2708.02
1
3
1
4
1
4
1)(
5208.012
1
3
1
4
1
4
1)(
4
3
2
1
LE
LE
LE
LE 52.08
79.16
93.74
100
Porcentaje Acumulado
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Las m primeras componentes son significativas si explican mayor varianza que los m primeros valores medios del modelo del bastón roto. Se considera que las demás componentes descomponen la varianza residual al azar.
Por ejemplo, si la dimensión es 4 los valores esperados de los trozos son:
0.5208 0.2708 0.1458 0.062552.08 79.16 93.74 100 % Acumulado
Si los valores propios obtenidos son (en %):
0.65; 0.18; 0.09; 0.08
¿Cuáles componentes se seleccionarían?
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
ESTUDIO DE LA DISTRIBUCIÓN DE LA ESTUDIO DE LA DISTRIBUCIÓN DE LA FUERZA LABORAL EMPLEADA (%) EN 9 FUERZA LABORAL EMPLEADA (%) EN 9
DIFERENTES SECTORES ECONÓMICOS EN DIFERENTES SECTORES ECONÓMICOS EN 26 PAISES DE EUROPA26 PAISES DE EUROPA
OBJETIVO: REDUCCIÓN DE LA DIMENSIONALIDAD DELOS DATOS CON EL PROPÓSITO DE AISLAR GRUPOS DEPAISES CON SIMILAR DISTRIBUCIÓN DEL EMPLEOY AYUDAR A LA COMPRENSIÓN DE LA RELACIÓNENTRE LOS PAISES
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
PAIS AGRO MINE MANU ENER CONST SER_IND FINA SOCIAL TR_COMU
BELG 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2 DINA 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1 FRAN 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7 WALE 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1 IRLA 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1 ITAL 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7 LUXE 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2 HOLA 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8 INGL 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4 AUST 12.7 1.1 30.2 1.4 9.0 16.8 4.9 16.8 7.0 FINL 13.0 0.4 25.9 1.3 7.4 14.7 5.5 24.3 7.6 GREC 41.4 0.6 17.6 0.6 8.1 11.5 2.4 11.0 6.7 NORU 9.0 0.5 22.4 0.8 8.6 16.9 4.7 27.6 9.4 PORT 27.8 0.3 24.5 0.6 8.4 13.9 2.7 16.7 5.7 ESPA 22.9 0.8 28.5 0.7 11.5 9.7 8.5 11.8 5.5 SUEC 6.1 0.4 25.9 0.8 7.2 14.4 6.0 32.4 6.8 SUIZ 7.7 0.2 37.8 0.8 9.5 17.5 5.3 15.4 5.7 TURK 66.8 0.7 7.9 0.1 2.8 5.2 1.1 11.9 3.2 BULG 23.6 1.9 32.3 0.6 7.9 8.0 0.7 18.2 6.7 CHEK 16.5 2.9 35.5 1.2 8.7 9.2 0.9 17.9 7.0 EALE 4.2 2.9 41.2 1.3 7.6 11.2 1.2 22.1 8.4 HUNG 21.7 3.1 29.6 1.9 8.2 9.4 0.9 17.2 8.0 POLO 31.1 2.5 25.7 0.9 8.4 7.5 0.9 16.1 6.9 RUMA 34.7 2.1 30.1 0.6 8.7 5.9 1.3 11.7 5.0 USSR 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3 YUGO 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
Fuente: Euromonitor(1979)
TABLA DE DATOS EN %
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
PRIN1 PRIN2
AGRO -.524072 0.053465 MINE -.001726 0.618020 MANU 0.347880 0.354503 ENER 0.255479 0.261699 CONST 0.325827 0.050426 SER_IND 0.377426 -.352022 FINA 0.073925 -.452389 SOCIAL 0.387558 -.220970
TR_COMU 0.367117 0.202703
CONTRASTES
ENTRE LOS
SECTORES DE
OCUPACIÓN
COMPONENTES PRINCIPALES
Eigenvalue Difference Proportion Cumulative
PRIN1 3.48258 1.34997 0.386953 0.38695 PRIN2 2.13261 1.03443 0.236957 0.62391
PRIN3 1.09818 0.10331 0.122020 0.74593 PRIN4 0.99487 0.45132 0.110541 0.85647
PRIN5 0.54354 0.15683 0.060394 0.91686 PRIN6 0.38671 0.16198 0.042968 0.95983
PRIN7 0.22473 0.08803 0.024970 0.98480 PRIN8 0.13669 0.13661 0.015188 0.99999
PRIN9 0.00009 . 0.000010 1.00000
PRIN1 3.48258 1.34997 0.386953 0.38695 PRIN2 2.13261 1.03443 0.236957 0.62391
PRIN3 1.09818 0.10331 0.122020 0.74593 PRIN4 0.99487 0.45132 0.110541 0.85647
PRIN5 0.54354 0.15683 0.060394 0.91686 PRIN6 0.38671 0.16198 0.042968 0.95983
PRIN7 0.22473 0.08803 0.024970 0.98480 PRIN8 0.13669 0.13661 0.015188 0.99999
PRIN9 0.00009 . 0.000010 1.00000
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
ESPACIO DE 2 COMPONENTESESPACIO DE 2 COMPONENTESCOMPONENTES PRINCIPALES
Tem
a 5.
Com
pone
ntes
Prin
cipa
les
EigenfacesEigenfaces