Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 1
2 Escuela Técnica Superior de Ingenieros Industriales (UPM)
AGRADECIMIENTOS
Para mi maravillosa familia; Sonia, mi mujer, y mis tres hijos Lucas, Nicolás y Julia.
Especial agradecimientos a mi tutor D. José Manuel Mira McWilliams por su inestimable
ayuda en la elaboración de este trabajo.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 3
CITA
Pero yo estaba pensando una
manera de multiplicar por diez, y
siempre, en la respuesta, obtener de
nuevo el problema.
Lewis Carroll
4 Escuela Técnica Superior de Ingenieros Industriales (UPM)
RESUMEN EJECUTIVO
Habitualmente en la vida real se tiende a tomar el máximo número de variables posible, sin
tener en cuenta si las nuevas que incorporamos están o no relacionadas con las anteriores.
En caso de duda, sobre si la información que proporciona una nueva variable o ratio es útil,
preferiblemente se introduce en el procesamiento, lo que hace que las cosas sean algo más
complicadas en el manejo y tratamiento posteriores.
A veces es inmanejable procesar una enorme cantidad de datos, que por otra parte,
generalmente no necesitamos, otras veces imposible realizar un análisis profundo de todos los
valores obtenidos.
Las técnicas para obtener estos datos se han desarrollado enormemente durante los últimos
años y con las nuevas tecnologías y el “Big Data”, cada vez hay más y más información
disponible.
Ahora bien, no solo se trataría de recoger y procesar grandes cantidades de datos,
indiscriminadamente, sino de saber cuáles interesan en cada caso. Se hace necesario ser
selectivos para ser eficientes y por ende, tomar así las decisiones empresariales adecuadas de
la manera más ágil.
La clave es encontrar el número de variables óptimo que expliquen la información que
realmente necesitemos. Por ejemplo para un modelo de 40 variables habría que considerar
780 posibles coeficientes de correlación entre ellas, cuando lo normal es que éstas estén
relacionadas entre sí y midan lo mismo, o cosas muy parecidas, desde diferentes puntos de
vista.
En este trabajo lo que se intenta es establecer el mecanismo para la reducción de la
dimensionalidad del análisis, seleccionando un número de componentes que resuma todas las
40 variables en unas pocas dimensiones latentes (quizá 4 ó 5), procurando que la información
perdida no sea de mucha importancia o, mejor, que la información obtenida sea
suficientemente útil.
Las empresas, por tanto, deben ser ahora más eficientes que nunca en el trato de toda esa
información: Sólo si descartamos la información que no necesitamos, o que es redundante,
lograremos centrar nuestra atención en aquello que nos es vital.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 5
ÍNDICE
1. INTRODUCCIÓN
1.1 Descripción del problema …………………..………… 5
2. OBJETIVOS ………………………………………….. 6
3. METODOLOGÍA
3.1 Análisis de Componentes Principales ………………. 7
3.2 Diferencia con Análisis Factorial ………………. 10
3.3 Análisis de Conglomerados ……………………... 10
4. RESULTADOS
4.1. Datos objeto del Análisis ……………………… 12
4.2. Reducción inicial de los Datos de la Plantilla ………… 13
4.3. Resumen estadístico de las variables ……………….. 14
4.4. Calculo de los Componentes principales para la matriz de 38
variables.
4.4.1. Análisis Normalizado ……………………… 21
4.5. Análisis de Conglomerados sobre los componentes obtenidos. 36
5. CONCLUSIONES ……………………….......... 38
6. BIBLIOGRAFÍA …………………………….. 39
7. PLANIFICACIÓN TEMPORAL
7.1 Diagrama de Gantt …………………………….. 40
7.2 Presupuesto …………………………….. 41
8. ANEXOS …………………………….. 42
6 Escuela Técnica Superior de Ingenieros Industriales (UPM)
1. INTRODUCCIÓN
1.1. Descripción del problema:
En el caso del seguimiento por parte de un fabricante de automóviles a la actividad de su Red
de distribución (Red de concesionarios) es habitual encontrar cuadros de mando complejos
que incluyen un número de variables elevado.
Los propios planes de acción comercial de los fabricantes, esto es, el Bonus, (hoy en día
necesario para la salud financiera del concesionario), incluyen decenas de ratios sobre los que
el concesionario debe estar diariamente pendiente para no verse afectado finalmente en sus
cuentas.
Muchos de estos ratios están relacionados entre sí, y podrían darnos la misma información
desde perspectivas diferentes.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 7
2. OBJETIVOS
Si somos capaces de describir con precisión los valores de p variables por un pequeño
subconjunto r<p de componentes, construidas como combinaciones lineales de las variables
originales, se habrá reducido la dimensión del problema a costa de una pequeña pérdida de
información.
El objetivo de este trabajo es fundamentalmente evaluar si esta técnica es útil para el
monitoreo, a través de un cuadro de mando reducido, de la actividad de una red de
concesionarios de automóviles y por extensión, interpretar las componentes derivadas del
análisis.
8 Escuela Técnica Superior de Ingenieros Industriales (UPM)
3. METODOLOGÍA
3.1. Análisis de componentes principales (ACP)
Se dispone de una matriz [X]= nxp, que representa p variables, medidas para n
concesionarios, en un determinado instante de tiempo, en este caso, a cierre de ejercicio 2017.
v1 v2 v3 … vp
n1 . . . . .
n2 . . . . .
n3 . . . . .
… . . . . .
n . . . . .
El análisis de componentes principales permite transformar las variables originales, en general
correladas, en nuevas variables incorreladas que podrían facilitar la interpretación de los
datos.
En variables con alta dependencia es frecuente que un pequeño número de las nuevas
variables incorreladas (menos del 20% de las originales) expliquen la mayor parte (más del
80%) de la variabilidad total, lo que permitiría reducir la dimensionalidad del problema.
Según un enfoque descriptivo, se trata de encontrar un subespacio de dimensión menor que p
tal que al proyectar sobre él los puntos conserven su estructura con la menor distorsión
posible.
En la nube de puntos del plano de la figura 1, se trata de que la recta pase cerca de la mayoría
de los puntos o, de otra manera, exigiendo que las distancias entre los puntos y sus
proyecciones sobre la recta sean lo más pequeñas posibles.
Fig. 1
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 9
Así, el vector que define la primera componente principal sigue la dirección en la que las
observaciones varían más (línea roja de la Fig. 2). La proyección de cada observación sobre
esa dirección equivale al valor de la primera componente para dicha observación.
Fig. 2
Fig. 3
La segunda componente sigue la segunda dirección en la que los datos muestran mayor
varianza y que no está correlacionada con la primera componente. La condición de no
correlación entre componentes principales equivale a decir que sus direcciones son
perpendiculares/ortogonales (Fig. 3).
10 Escuela Técnica Superior de Ingenieros Industriales (UPM)
En varias dimensiones tendremos elipsoides, y la mejor aproximación en dos dimensiones es
la proyección sobre el plano de los dos ejes mayores del elipsoide y considerar los ejes del
elipsoide como nuevas variables supone pasar de variables correladas a variables ortogonales
o incorreladas (Fig. 4).
Fig.4
Las componentes principales intentan pues representar la mayor parte de la información con
un número menor de variables de las iniciales y construidas como combinaciones lineales de
ellas.
Esto es, la mejor predicción lineal con r variables, de las variables originales se obtiene
utilizando las r primeras componentes principales.
La reducción de datos no es en términos de cuántos datos tienen que ser recogidos, porque las
p variables se necesitan para formar las componentes principales, es en términos de cuantas
variables nuevas son retenidas para análisis posteriores.
La menor pérdida de información de los datos conlleva utilizar la máxima variabilidad.
La suma de las varianzas de las nuevas variables no usadas para representar los datos es una
medida de la pérdida de información.
Estas nuevas variables no observadas, darían cuenta de conceptos no observables
directamente, que engloban o tienen en común las variables originales observadas. En este
sentido, ACP sería el primer paso para identificar las posibles variables latentes o no
observadas que generan los datos.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 11
3.2. Diferencia con otros tipos de análisis (AFC)
En ACP se considera la varianza total de la serie de variables observadas y el propósito es
maximizar la proporción total de la varianza explicada.
Por el contrario, el AFC está orientado al análisis de la covarianza, no de la varianza total.
Así, el AFC es una técnica de reducción de datos que sirve para encontrar grupos homogéneos
de variables que se forman con las variables que correlacionan mucho entre sí.
En palabras sencillas, en el AFC los factores explican las variables y en el ACP las variables
explican los factores.
3.3. Análisis de Conglomerados.
El objetivo del análisis Cluster o de Conglomerados es agrupar los elementos (observaciones
y también variables) en grupos, en función de las similitudes entre ellos, tratando de lograr la
máxima homogeneidad (mínima varianza) en cada grupo y la mayor diferencia entre los
grupos (máxima varianza).
En los método de partición, como el K-means, usado en este trabajo, las varianzas de las
variables en los grupos son claramente una media de la heterogeneidad de la clasificación y al
minimizarlas (o lo que es lo mismo, minimizar las distancias al cuadrado entre los puntos y
sus centros de grupo) obtendremos grupos más homogéneos.
Cómo funciona el algoritmo?
Primero elegimos un número de Clusters
Establecemos aleatoriamente la media del cluster (centroide)
Cada observación es asignada al centroide más cercano
Se recalcula el centroide
Recalculamos las distancias a los nuevos centroides hasta que no haya reasignación
entre clusters
Algunos datos a tener en cuenta:
1. El algoritmo K-means, usa distancia euclídea para alocar los datos en los clusters. Esto
requiere que las variables tengan aproximadamente la misma escala. Esto es, este
método no es invariante ante cambios de escala
12 Escuela Técnica Superior de Ingenieros Industriales (UPM)
2. El resultado del algoritmo depende de la asignación inicial y del orden de los
elementos. Por eso conviene repetir el algoritmo con distintos valores iniciales y
permutando los elementos de la muestra,
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 13
4. RESULTADOS DE LA APLICACIÓN DE ACP:
4.1. Datos objeto del análisis:
La Plantilla objeto de estudio está compuesta por las 64 variables siguientes, que representan
un típico cuadro de mando para el seguimiento de la actividad de una Red de Concesionarios
de automoción (59 concesionarios en este caso) y corresponden al resultado de cierre de un
ejercicio completo (2017):
Unidades Retail
VN
UV Tot.Direct Exp.
(%)
SERVICE Turnover Gross
Margin %
TOT BUS. AREAS
Direct Benefit (CIII)
Cumplimentación
Objetivo Ventas
UV Direct Benefit
(CIII) SERVICE Sem.Var.Exp
TOT BUS. AREAS
Direct Benefit (CIII) (%)
Sgm+ Share
TOTAL
UV Direct Benefit
(CIII) (%) SERVICE Tot.Direct Exp.
TOT BUS. AR.
Tot.Indirect Exp.
Sgm+ Share SIN
RAC Uds.UV
SERVICE Tot.Direct Exp.
(%)
TOT BUS. AR.
Tot.Indirect Exp. (%)
Sgm+ Share
PARTICULAR %UV/NV
SERVICE Direct Benefit
(CIII) BAI
NV Turnover Existencias
SERVICE Direct Benefit
(CIII) (%) BAI (%)
NV Gross Margin Meses vta(1)
Cumplimentación Objetivo
Posventa FAS
NV Gross
Margin(%) SPARE&P. Turnover Facturación por orden SOLVENCIA
NV Tot.Direct Exp.
SPARE&P Gross
Margin Fidelidad LIQUIDITY
NV Tot.Direct
Exp.(%)
SPARE&P Gross
Margin (%)
TOT BUS. AREAS
Turnover
BAI+AMORTIZACION
ES
NV Direct Benefit
(CIII)
SPARE&P.
Tot.Direct Exp.
TOT BUS. AREAS
Turnover Gross Margin
BAI+AMORTIZACION
ES (%)
NV Direct Benefit
(CIII)(%)
SPARE&P.
Tot.Direct Exp. (%)
TOT BUS. AREAS
Turnover Gross Margin (%) EBITDA
UV Turnover
SPARE&P. Direct
Benefit (CIII)
TOT BUS. AREAS
Variable Exp. EBITDA (%)
UV Gross Margin
SPARE&P. Direct
Benefit (CIII) (%)
TOT BUS. AREAS
Sem.Var.Exp Satisfacción de ventas
UV Gross Margin
(%) SERVICE Turnover
TOT BUS. AREAS
Tot.Direct Exp. Satisfacción de Posventa
UV Tot.Direct Exp.
SERVICE Turnover
Gross Margin
TOT BUS. AREAS
Tot.Direct Exp. (%) Reclamaciones Posventa
14 Escuela Técnica Superior de Ingenieros Industriales (UPM)
4.2. Reducción inicial de las variables de la plantilla.
Se maneja por tanto una matriz 59 Concesionarios y 64 Variables
Es usual disponer del valor de una misma variable en valor absoluto pero, debido a lo
interesante desde un punto de vista comparativo, también en porcentaje respecto a la
facturación.
Así por ejemplo, la experiencia nos dice que el TOT BUS. AREAS Turnover Gross Margin
(%), que es el margen bruto total del concesionario, debe estar por encima de 10%, o que el
TOT BUS. AREAS Tot.Direct Exp. (%), que es el % total de gastos directos sobre la
facturación total, no debe superar el 8% sobre la facturación total del concesionario, en
condiciones normales.
Debido a que la motivación de este proyecto es la de reducir la dimensión del problema,
vamos a realizar una primera prueba admitiendo que la información que aporta el valor
absoluto de una variable y su porcentaje sobre la facturación total podría ser similar, así, en
una primera reducción, eliminamos los conceptos que se repiten expresados en valor absoluto
y en % sobre la facturación.
Posteriormente evaluaremos si esta decisión ha sido correcta.
Éste el caso de NV Gross Margin, NV Tot.Direct Exp. y NV Direct Benefit (CIII) que se
repiten también en % para los diferentes departamentos (NV, UV, SPARE&P. y SERVICE)
así como para el total de áreas (TOT BUS. AREAS).
Obtenemos entonces 59 Concesionarios y 45 Variables
En una segunda reducción eliminamos las variables que se obtienen como combinación de
otras de la plantilla de forma evidente. Este es el caso de los Direct Benefit (CIII), esto es, los
beneficios directos de los diferentes departamentos, que se obtienen como resta directa de los
márgenes brutos menos los gastos directos.
Ahora tenemos 59 Concesionarios y 40 Variables.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 15
4.3. Resumen estadístico de las variables a analizar
El este trabajo se emplea el programa estadístico R, que bajo el comando summary nos
proporciona el resumen estadístico de las variables obtenidas después de la reducción.
A simple vista, se ve que se trata de variables con diferentes escalas. Por ejemplo, “Unidades
Retail VN” representa el número de unidades de vehículo nuevo vendidas por el
concesionario, mientras que “Sgm+ Share PARTICULAR” representa la cuota en el segmento
de marcas premium en su área de influencia y en el canal particular, y que se mide en %.
Este será un datos importante a tener en cuenta posteriormente pues parece claro que
deberemos normalizar las variables. Profundizaremos después en este aspecto.
16 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Sin embargo, el coeficiente de correlación lineal mide la relación lineal entre las variables,
independientemente de la escala. Por lo que se analiza para obtener una primera fotografía de
las variables:
Se aprecian unas altas correlaciones aunque sólo entre determinadas variables.
Estas relaciones lineales nos permitirían establecer patrones que unan las variables para crear
unas nuevas que nos describan de forma más simple el conjunto de datos con el que estamos
trabajando.
Veamos algunos ejemplos:
1. Liquidez y Solvencia presentan un índice de correlación alto (de 0,783) lo que indica que
los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de
la otra. Esto es, al aumentar los valores de Solvencia, lo hacen también los de Liquidez y
viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de
causalidad. Conviene resaltar este punto, ya que es un error típico inferir que dos o más
eventos están conectados causalmente por haberse observado una correlación estadística entre
ellos.
Es un error inferir que una variable A causa otra B ya que podría ser que B cause A, o
también podría ser que un tercer evento cause tanto A como B, explicando así la correlación.
Es posible también, que haya un tercer factor desconocido que sea realmente la causa de la
relación entre A y B, o que la relación sea tan compleja y numerosa que los hechos sean
simples coincidencias.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 17
En este caso particular tiene sentido que un concesionario, que en definitiva es una empresa,
que trabaje de forma congruente, sea solvente y que también disponga de la liquidez
adecuada. Sin embargo, son dos términos totalmente diferentes y de distinta naturaleza: sería
perfectamente posible encontrar situaciones en las que la empresa puede carecer de liquidez,
pero ser muy solvente por tener activos fijos de alto valor que permiten garantizar
razonablemente sus obligaciones de pago.
De esta manera, el hecho de eliminar una de las dos variables del cuadro de mando, nos haría
perder la riqueza de la información.
2. TOT BUS. AREAS Turnover (facturación total del concesionario) y TOT BUS. AR.
Tot.Indirect Exp. (Gastos indirectos totales del concesionario) presentan también un índice de
correlación alto (0,886).
Parece lógico pensar que cuanto mayor sea la suma de la facturación de todas las áreas del
concesionario mayor será el total de gastos indirectos en los que incurrirá (probablemente se
necesitarán instalaciones más grandes de mayores alquileres y gastos de mantenimiento y por
ejemplo, un mayor número de personal de administración). Parece más interesante por la
información adicional que pueda aportar, comparar el % de esos gastos indirectos sobre el
total de la facturación. De esta manera podríamos interpretar si los concesionarios más
grandes tienen por ejemplo la tendencia de sobredimensionar los gastos porcentualmente
sobre el total de la facturación, o al revés.
Vamos a calcular la correlación entre TOT BUS. AREAS Turnover y TOT BUS. AR.
Tot.Indirect Exp., pero ahora ésta última en % respecto a la facturación total del
concesionario.
En este caso, obtenemos una correlación muy baja (y negativa), por lo que podemos
interpretar que no existe relación lineal entre estas dos variables.
Como conclusión de este punto, tenemos que criticar la decisión inicialmente tomada, de
seleccionar las variables absolutas y sustituiremos éstas por los mismos conceptos pero en
término relativo sobre la facturación.
Eliminamos así mismo la variable SERVICE Sem.Var.Exp, que es idéntica a SERVICE
Tot.Direct Exp., debido a que no se deben estar considerando diferencia entre gastos directos
semivariables y variables, y analizaremos el BAI como parámetro absoluto y en porcentaje
para ver si la interpretación es interesante.
18 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Rehacemos entonces el cálculo de la matriz de correlaciones con estas nuevas 40 variables:
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 19
20 Escuela Técnica Superior de Ingenieros Industriales (UPM)
1. La variable Existencias está altamente correlacionada con las unidades NV (0,94) y UV
(0,87), así como con la facturación de los diferentes departamentos: NV Turnover (0,91), UV
Turnover (0,87) , Service Turnover (0,89), Spare Parts Turnover (0,85) y con la facturación
global de todos los departamentos (0,93). Resultado aparentemente lógico que pone de
manifiesto que el concesionario de mayor volumen de facturación (y ventas) tiene mayor
stock de existencias.
2. De la misma manera las variables de facturación están altamente correlacionadas entre sí,
ya que un concesionario de gran facturación en VN, aparentemente debe tener alta facturación
en las otras áreas. Por ejemplo, alta facturación en piezas también se relaciona en estos datos
con alta facturación de servicio (mano de obra para el montaje de las piezas).
3. Un resultado interesante puede ser la correlación entre SERVICE.Tot.Direct.Exp (%) y
SERVICE.Turnover.Gross.Margin (%) (0,64) que indica que en general, un concesionario
con alto resultado de margen bruto en el departamento de servicio, tiene alto porcentaje de
gastos directos departamentales. Esto no debería de ser un comportamiento aparentemente
relacionado. Una posible explicación podría ser que se trata de un problema de imputación de
costes, esto es, si el coste erróneamente está soportado como coste directo en lugar de mayor
coste de venta.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 21
4. SPARE.P..Turnover y AMORTIZACIONES están altamente correlacionadas (0,78). La
explicación podría estar en que los concesionarios que más facturan necesitan más equipo y
por tanto la cantidad de amortizaciones sería mayor.
Eliminamos las dos variables expresadas en valor absoluto correspondiente a los gastos
directos (directos e indirectos) y obtenemos finalmente una matriz de 38 variables.
El origen de este proyecto consiste en la reducción de dimensionalidad del problema, debido a
que intuíamos cierta relación entre las variables. Ahora bien, a tenor de los resultados, se
esperaba unas correlaciones mayores de las realmente observadas tras el análisis de la matriz
de correlaciones. Esto nos puede hace pensar que las variables seleccionadas en el cuadro de
mando pueden tener cierto criterio de información no redundante, pero también puede ocurrir
que existan otro tipo de relaciones no lineales, o que no se analice otro factor que cause los
dos que se están comparando, o bien correlaciones canónicas entre cada variable y grupos de
otras.
Profundicemos en este hecho con el análisis de los componentes principales.
22 Escuela Técnica Superior de Ingenieros Industriales (UPM)
4.4. Calculo de los Componentes principales para la matriz de 38 variables
4.4.1 Análisis Normalizado.
El cálculo de componentes principales de una serie de variables depende normalmente de las
unidades de medida empleadas.
En este caso las escalas de medida de las variables son muy distintas y sin una estandarización
previa las variables con valores más grandes tendrían mayor peso.
Adicionalmente si las variabilidades son muy distintas las variables con mayor varianza
tendrán más peso en el primer componente principal. Así, si las varianzas de las variables
fueran informativas convendría no estandarizar.
En este caso, pretendemos que el peso esté más relacionado con las correlaciones entre las
variables por lo que estandarizaremos de forma que la varianza de cada variable es igual y
cada variable contribuirá con el mismo porcentaje a la varianza total. El análisis se basará por
tanto en las variables estandarizadas o lo que es igual, ACP de matriz de correlaciones de
variables sin estandarizar.
Aplicaremos la matriz de correlaciones, por tanto añadiremos cor=TRUE dentro de la función
princomp de R. La estructura de los comandos es la siguiente:
Y los resultados:
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 23
24 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 25
26 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 27
28 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Si tipificamos las variables, mediante la secuencia de comandos:
Y después realizamos el análisis de componentes principales, con cor=FALSE, vemos que los
resultados para estas variables Z tipificadas, son idénticos.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 29
30 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 31
32 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 33
34 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Los valores propios o varianzas de los componentes:
La primera componente principal es la primera combinación lineal con el mayor valor propio
y la que mejor resume la información contenida en los datos. Esto es, la primera componente
principal es la combinación lineal de las variables originales que tiene varianza máxima. En
este análisis, la varianza del conjunto de variables observadas proyectada sobre esta primera
dirección es 8,846.
El primer componente principal (Comp. 1) está afectado positivamente principalmente por
variables de volumen, esto es, existencias, Z.NV. Turnover, Z.SERVICE. Turnover,
Z.SPARE.P..Turnover, Z.Uds.UV, Z.Unidades.Retail.VN y Z.UV.Turnover, mientras que
otras variables, en mayor medida el BAI, lo hace negativamente.
Así, el primer componente principal se puede interpretar como una medida de tamaño de
concesionario en el sentido de volúmenes: de facturación, existencias y unidades, al que se
contrapone el resultado económico (BAI).
De hecho, como se comprueba en la matriz de correlaciones vista anteriormente, la variable
BAI.... se correlaciona negativamente con las variables relacionadas con volumen y
facturación.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 35
De la tabla anterior, así como de la gráfica de sedimentación de la figura 6, se extrae que las
11 primeras componentes tienen varianza superior a 1. Estos primeros 11 componentes
capturan una variabilidad total del 82,3%. Como se aprecia también en la figura 7, a partir de
la consideración del veinteavo componente principal, la explicación de la variabilidad
aportada no es importante con la inclusión de cada nueva variable.
Fig. 6
Comp.1 Comp.3 Comp.5 Comp.7 Comp.9
.PC
Va
ria
nce
s
02
46
8
36 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Fig. 7
Esto supone que se puede reducir la dimensionalidad de los datos al pasar de las 38 variables
observadas a trabajar sólo con 11, sin distorsionar demasiado la información original.
Esto es, habrá 17,7% de variabilidad en los datos originales del que las 11 componentes
extraídas no pueden dar cuenta.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
% variabilidad explicada
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 37
4.5. Análisis de Conglomerados.
Partimos del análisis de componentes principales para evitar introducir componentes no
relevantes e introducir los datos homogéneos.
Elegimos, como criterio inicial, basado en la experiencia tres conglomerados para iniciar el
análisis.
Los comandos utilizados en R son los siguientes:
La salida indica que habría 25 concesionarios en un conglomerado, 6 en otro y 28 en el
tercero.
Se realiza la representación gráfica en el plano de las dos primeras componentes principales,
según el comando biplot:
38 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Cada punto cae claramente dentro de un Cluster, es decir, los clusters serían capaces de
identificar dimensiones específicas de los datos, subyacentes.
Se puede interpretar que hay un grupo de 6 concesionarios claramente influidos por la primera
componente principal y otros dos grupos de concesionarios en los que se contrapone el efecto
de la segunda componente principal.
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 39
5. CONCLUSIONES
La primera técnica de Análisis Multivariante empleada: Análisis de componentes Principales,
es una técnica útil para reducir la dimensionalidad del problema.
Debido a la dependencia entre las variables empleadas en el cuadro de mando de este
fabricante de automóviles, 11 de ellas (esto es, menos de un 30% de las 38 definitivamente
seleccionadas) explican más del 80% de la variabilidad total, lo cual nos permitiría alcanzar el
objetivo inicial del trabajo, consistente en la reducción de la dimensionalidad del problema.
Estas nuevas variables no observadas (los componentes principales) darían cuenta de
conceptos no observables directamente, que engloban o tienen en común las variables
originales observadas.
Sin embargo, la interpretación de los componentes principales obtenidos es muy complicada
y, excepto la primera componente, que hace una clara referencia al volumen de los
concesionarios, el resto de componentes no lo hacen a otros conceptos fácilmente
interpretables.
Por otra parte, la reducción de datos no es en términos de cuántos datos tienen que ser
recogidos, porque las p variables (todas) se necesitan para formar las componentes principales
seleccionadas (estas 11), es en términos de cuantas variables nuevas son retenidas para
análisis posteriores.
En técnicas de este tipo, de análisis no supervisado, no hay etiquetas que categoricen a los
concesionarios en “excellent”, “good” o “por”, sí tenemos características, como las variables
analizadas. El objetivo es usarlas para organizar los datos, en este caso concesionarios, en
grupos similares.
La interpretación de los clusters es subjetiva, sin embargo a menudo es posible asignar un
significado útil.
En este resultado, el número predefinido de tres conglomerados hace una clara división para 6
concesionarios influenciados principalmente por factores de volumen y entre otros dos grupos
donde se contrapone el efecto de la segunda componente principal.
40 Escuela Técnica Superior de Ingenieros Industriales (UPM)
6. BIBLIOGRAFÍA
[1] Applied Multivariate Techniques.
Subhash Sharma. University of South Carolina
[2] Practical Guide to Principal Component Analysis (PCA) in R & Python.
Online
[3] Análisis Multivariante.
Daniel Peña
[4] Introducción a la Estadística para las ciencias Sociales.
Daniel Peña-Juan Romo. Mc Graw Hill.
[5] Machine Learning nade easy with R.
Dr. N.D. Lewis
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 41
7. PLANIFICACIÓN TEMPORAL Y PRESUPUESTO
7.1.El diagrama de Gantt:
El siguiente diagrama refleja las actividades consideradas en la Estructura de
descomposición del proyecto.
42 Escuela Técnica Superior de Ingenieros Industriales (UPM)
7.2. Presupuesto:
La principal partida del presupuesto corresponde a los tiempos dedicados por el alumno y
tutor. El total del presupuesto asciende a 3.667 € sin impuestos incluídos.
CONCEPTO UNIDADES COSTE UNITARIO COSTE (€) Alumno 195 horas 15 €/hora 2.925
Tutor 10 horas 40 €/hora 400
Consumo E (W) 225 Kwh 0,148 €/Kwh 33,3
Microsoft Office 1 149 € 149
Amortización equipo 1 60 60
Impresión PFC 1 100 € 100
TOTAL 3.667
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 43
8. ANEXO.
Código para variables estandarizadas:
44 Escuela Técnica Superior de Ingenieros Industriales (UPM)
Código para ACP de variables estandarizadas sin matriz de correlaciones
Código para ACP de variables estandarizadas con matriz de correlaciones
Código para análisis Cluster
Aplicación de técnicas de análisis multivariante a los datos de concesionarios de automóviles
E Raúl Rubio Aranda 45