Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Reducción de la
Dimensionalidad en Análisis
de Datos
Javier Trejos – Coordinador
Eduardo Piza, Alex Murillo, Mario
Villalobos, Alejandra Jiménez
CIMPA, Universidad de Costa Rica
Instituto Tecnológico de Costa Rica
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Contenido – I Parte
1. Introduccion al Análisis Multidimensional
Lineal
2. Análisis en Componentes Principales
3. Análisis de Correspondencias
4. Clasificación Automática
5. Análisis Factorial Discriminante
6. Analisis de Tablas Múltiples
7. Esccalamiento Multidimensional
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Contenido – II Parte
1. Clasificación Numérica y Optimización
Combinatoria
2. Clasificación Binaria
3. Clasificación Bimodal
4. Esccalamiento Multidimensional
5. Regresión No Lineal
6. Selección de Variables en Regresión
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR Tipos de técnicas multivariadas
• Técnicas Factoriales: tratan de reducir la dimensión del problema
encontrando variables sintéticas en las que se proyectan los
individuos o las variables
– Análisis en Componentes Principales (ACP)
– Análisis de Correspondencias (AFC) y (ACM)
– Escalamiento Multidimensional (MDS)
– Análisis de Tablas Múltiples (Statis)
• Técnicas de Clasificación: tratan de reducir la dimensión del
problema encontrando un número reducido de grupos homogéneos
– Clasificación Jerárquica (CAJA)
– Método de Nubes Dinámicas o k-means (MND)
• Técnicas Explicativas: para explicar el comportamiento de una
variable dependiente
– Regresión
– Discriminación (AFD)
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Los Principios del Análisis de
Datos según J.P Benzécri
1. La estadística no es probabilidad
2. El modelo debe seguir a los datos y no lo inverso
3. Procesar informaciones que conciernan al mayor número posible de dimensiones
4. El computador es indispensable
5. Abandonar técnicas pre-informáticas (técnicas, no ciencia)
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR Ejemplo: Análisis en Componentes
Principales
• 1900: Pearson trabaja caso de dos variables
• 1933: Hotelling publica el caso general
• 1958: Libro de Anderson, usando v.a.
normales
• 1971: J.P. Pagès dicta curso en la
Universidad de Paris, sin ninguna
hipótesis de normalidad
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
X: n individuos descritos por p variables cuantitativas.
X: matriz n x p
1 j p
1
i p
i
j
ii xxx KK1
n
Punto de Rp:
=
p
i
j
i
i
i
x
x
x
x
M
M
1
Espacios vectoriales asociados a
una tabla de datos
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
E = Rp: espacio de individuos contiene los n puntos-individuos
{ }:,...,, 21 peee base canónica de E
∑=
=p
j
jj
ii exx1
E*: espacio dual de E (E*= {f: E→R/f lineal })
:,...,,**
2
*
1
peee base dual-canónica: ( )
=0
1*
kj eesi j = k
si j ≠ k
Espacios vectoriales asociados a
una tabla de datos
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
1 j p
1
i
nj
n
j
i
j
x
x
x
M
M
1
Punto de Rn:
=
j
n
j
i
j
j
x
x
x
x
M
M
1
Espacio de variables
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
F=Rn: espacio de variables
contiene los p puntos-variables
{ }:,...,,21 n
fff base canónica de F
∑=
=n
i
i
j
i
j
fxx1
F* : espacio dual de F
:,...,,**
2
*
1
nfff base dual-canónica
( )
==0
1*
ikkiff δ
si i=k
si i≠k
Espacio de variables
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Sea M matriz simétrica
definida
positiva
t
jiij MMmm == ,
00: =⇔=∀ xMxxxt
0: ≥∀ Mxxxt
M: p×p
• Producto interno en E
MyxyxEyxt
M=∈∀ ,:,
• Norma:
Mxxxxxt
MM== ,
• Distancia:
( )MM yxyxd −=,
Métricas
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
• Isomorfismos: *: EEM →( )xMx a
con ( )( )M
yxyxM ,=
• Forma bilineal:
REEM →×:
( )M
yxyx ,, a
• Forma cuadrática:
REM →:
Mxxx ,a
Ej:
==
10
01pIM
==
2
´
2
21 1
1
0
0
px
x
DMσ
σ
σ
Métricas
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Pesos: 0>ip tq ∑=
=n
i
ip1
1
Sea ( )
nnn
i
p
p
p
pdiagD
×
==O
2
1 0
Métrica → prod. interno, norma, distancia, isomorfismo, f. bil...
• Tendencia central:
resumir x∈F en α∈R
o
x
n1α
n
n
=
1
1
1 M
Métrica de pesos en F
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
xx
p
xp
D
Dxxn
i
i
n
i
ii
n
t
n
n
t
Dnn
Dn=====
∑
∑
=
=
111
1
1,1
1,
1
1α
• Dispersión:
( ) ( )n
t
nD
n xxDxxxx 1112
−−=−
( ) ( ) 2
1
2
var x
n
i
ii xxxp σ==−=∑=
• Norma: ( )0=x x
n
i
ii
t
DxpDxxx σ=== ∑
=1
2
Métrica de pesos en F
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
• Angulos: ( )0== yx
( )yx
n
iii
DD
DD
yxp
yx
yxyx
σσ
∑==
,,cos
( )( )yxr
yx
yx
,,cov
==σσ
θθθθ
x
Métrica de pesos en F
y
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
• Varianza: Norma
(datos centrados)
( ) xn
diagxxn
xn
i
t
i
== ∑
=
11var
1
22
Dx=
con
=
10
010
001
1
OM
K
K
nD
=
nx
x
x M
1
Geometría de las variables
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
• Correlación: Coseno
( )( )
( ) ( )yx
yxyxr
varvar
,cos, =
yx
yx
yx
Dyx
yx
yxn D
tii ,1
22===
∑
αcos=
x
y
( ) 1, ≈yxr
x
y
( ) 0, ≈yxr
x
y
( ) 1, −≈yxr
Geometría de las variables
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Nubes de puntos
• N = (X,M,D) con:
– X: tabla de datos
– M: metrica en el espacio de individuos E
– D: metrica de pesos en el espacio de variables F
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
( ) ( )∑=
−+=−=n
iMgM
iia agNIaxpNI1
22
Mínima para ga =
Centrar: 0→gg
o
( ) ∑=
=n
iM
ii xpNI1
2
( )∑=
==n
i
p
ii xxxpg1
1
,...,
Inercia
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
( )
= ∑
=
n
iM
ii xptrazaNI1
2 ( )∑=
=n
i
i
t
ii Mxxtrazap1
( )∑=
=n
i
t
iii Mxxtrazap1
= ∑
=
n
i
t
iii Mxxptraza1
( )VMtraza=
( ) ( ) ∑=
==p
j
jVMtrazaNI1
λ con λj valor propio de VM
Obs: caso clásico (si M=Id)
( ) ( )∑=
=p
j
jxNI
1
var
dispersión
Inercia
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
( ) ( )∑∑==
=
=
p
k
kjk
i
p
k
kk
ijij eexexexe1
*
1
**
j
i
p
k
jk
k
i xx∑=
==1
δ
( )
( )
j
j
nnj
jj
x
xxe
xxer
rMM
r
→
→
→
*
11
*
Hay una aplicación que asocia con **Ee j ∈ Fx
j ∈r
FEX →*: (tiene matriz X)
Aplicación lineal asociada a X
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
( ) ∑∑==
==
=
n
h
j
iih
j
h
n
h
h
j
hi
j
ixxfxfxf
11
**
δ
( )i
p
i
p
i
ii
x
xxf
xxfr
rMM
r
→
→
→
)(*
11*
Hay una aplicación que asocia con **Ffi ∈ Exi ∈
r
EFXt →*: (tiene matriz Xt)
Aplicación lineal asociada a Xt
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
E = Rp: espacio de individuos
F = Rn: espacio de variables
M: métrica en E
D: métrica de pesos en F
X: tabla de datos centrados
E
E*
F*
F
Xt
X
M V W D
DXXVt= t
XMXW =
Nube de puntos:
( )DMXN ,,=
Esquema de dualidad