Upload
lethu
View
220
Download
0
Embed Size (px)
Citation preview
EDUCACIÓN
EJECUTIVA
Objetivo
1.Identificar problemas que incluyan una Y continua y
una X continua
2. Entender la diferencia entre regresión lineal y no lineal
3. Ajustar modelos utilizando la técnica de mínimos
cuadrados.
4. Entender el significado de R y R2.
5. Entender y desarrollar análisis de residuales.
EDUCACIÓN
EJECUTIVA
Matriz de selección deherramientas
VARIABLE ATRIBUTO
VARIABLE
ANÁLISIS DE
REGRESIÓN
ANOVA, PRUEBA
T, ALTERNATIVAS
NO
PARAMÉTRICAS
ATRIBUTO
REGRESIÓN
LOGÍSTICA
CHI CUADRADA,
PRUEBAS DE
PROPORCIONES
Factor (X)
Respuesta (Y)
Esta es nuestra área de interés
EDUCACIÓN
EJECUTIVA
Al trabajar con datos variables (continuos), es de interés cuantificar la relación (si
existe) entre ellas. La ventaja de utilizar datos continuos para el análisis, es la
posibilidad de definir un modelo matemático adecuado. Esto se hace mediante
técnicas de estimación mediante mínimos cuadrados, mejor conocido como
análisis de regresión.
De nuevo, ¡¡¡todo se trata de
relaciones!!!
Regresión
EDUCACIÓN
EJECUTIVA
Las técnicas de regresión nos permite predecir valores de cierta variable Y (variable dependiente), la cual se sospecha tiene relación con otra variable X (independiente). La intención es cuantificar la relación:
Y = F(x)
la cual es la ecuación de regresión que cuantifica la relación entre ambas variables.
Regresión
EDUCACIÓN
EJECUTIVA
Regresión
Dese un punto de vista gráfico, el análisis de regresión comienza con un diagrama de dispersión. Dos variables continuas se grafican una contra otra para definir si existe correlación entre ambas.
80
75
70
65
60
60 65 70 75 80
Altura del padre
Altura del hijo
EDUCACIÓN
EJECUTIVA
7
0 .5 1 1.52X=Tiempo de estudio (hr)
Y=calif.(de 100%) 80
6
04
0
60 70 80X=Estatura de los padres (pulgs)
Y=Estatura delos hijos 80
6
04
0
1 6 14 22 30X=Edad del auto
Y=Precio de venta 35
(miles) 2
55
0 .5 1 1.5 2X=Promoción $(Millones)
Y=Ventas $ (millones) 30
2
01
0
0 .5 1 1.5 2X=Peso del auto (tons)
Y=Millas por galón (mpg)
30
2
01
0
Y=Precio decasa ($)
15k 20k 35k 40kX=metros cuadrados
Regresión
EDUCACIÓN
EJECUTIVA
Regresión
La correlación es la medida de que tan fuerte es la relación entre dos o más variables. El coeficiente de correlación varía de -1 a 1, definiendo una correlación negativa y una positiva, pasando por cero que significa “sin correlación”.
75
70
65
60
80
60 65 70 75 80
Correlación positiva
155014501350125011501050
950850750650
(min.)
50
40
30
20
10
0
85 90 95 100 105
Correlación negativa
110
60 65 70 75 80
Sin correlación
EDUCACIÓN
EJECUTIVA
Regresión
El método de mínimos cuadrados trata de ajustar la mejor curva que minimice el error entre los puntos dispersos.
Y = f(x)
60
80
75
70
65
60 65 70 75 80
Lineal,
cuadrática,
cúbica,
logarítmica,
etc.
EDUCACIÓN
EJECUTIVA
Regresión
El modelo más simple es la función lineal. El modelo lineal trata de ajustar una línea recta:
y 0 1xEstimado
Constante
y ax bVariable independiente
Variable
dependiente (pronóstico)
PendienteOrdenada al origen
En estadística el concepto es el mismo, solo cambia la nomenclatura:
Coeficiente
Variable de regresión
EDUCACIÓN
EJECUTIVA
Regresión
Las fórmulas para definir el modelo de regresión son(solo mostramos
en caso para una sola variable, conocido como regresión simple):
y 0 1x
xx
i1 xyn
2
i1
0 y 1x
i
(xi x)(yi y)
n
SS
SS
(x x)
1
¿Qué tan
bueno es
BUENO al
ajustar los
datos?
EDUCACIÓN
EJECUTIVA
y 0 1xUn modelo de regresión es bueno dependiendo de que tan bien describe la
variación entre dos variables. El coeficiente de correlación (R) indica que
tan pronunciada es la pendiente. El cuadrado de la correlación indica que
tanta variación (cambios en la Y) puede ser explicado por las variables de
regresión.n
Regresión
n
i
(yi yi )
i1
Y de nuevo, la decisión si el modelo descriptivo es bueno la haremos
mediante el uso de una tabla de ANOVA (para lo que utilizaremos
MINITAB).
R2 1 error 1 i1
(y y)yySS
SS
2
2
EDUCACIÓN
EJECUTIVA
Regresión
Un gerente de mercadeo que conduce un
estudio de mercado, desea predecir el
número de entrevistas (cuestionarios) que
puede levantar dados los entrevistadores. El
piensa que el número de cuestionarios
depende de la experiencia del entrevistador
(en años). Toma una muestra de 10
entrevistadores para el análisis. ¿Tiene la
experiencia influencia real en el número de
cuestionarios aplicados?
Y = # entrevistas*
X = Experiencia en semanas¿¿Por qué??
*RDD: Si una variable discreta tiene más de 5 niveles, puede
tratarse como una variable continua.
Experiencia Entrevistas
15 4
41 9
58 12
18 6
37 8
52 10
28 6
24 5
45 10
33 7
EDUCACIÓN
EJECUTIVA
Selecciona que
guarde los
residuales...
...y los valores
ajustados (fits)
Selecciona O.K.
dos veces
Regresión
EDUCACIÓN
EJECUTIVA
Regresión
1. Busca la significancia en la relación
Si el valor de p es mayor a 0.05, no es necesario continuar dado que no
existe relación entre ambas variables. Un valor menor a 0.05 indica una
relación significativa entre las variables (como en este caso).
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 54.596 54.5961 124.65 0.000
Experiencia 1 54.596 54.5961 124.65 0.000
Error 8 3.504 0.4380
Total 9 58.100
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.661804 93.97% 93.22% 89.83%
EDUCACIÓN
EJECUTIVA
Regresión
2. Busca significancia en la constante y forma el modelo
Si el valor de p de la constante es mayor a 0.05 , significa
que no ayuda a ajustar correctamente el modelo y puede
ser despreciada en el mismo. Si es menor a 0.05 entonces
se mantiene en el modelo. El modelo queda como:
Entrevistas 1.622 0.173Experiencia
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 1.622 0.583 2.78 0.024
Experiencia 0.1732 0.0155 11.16 0.000 1.00
EDUCACIÓN
EJECUTIVA
Regresión
3. Revisa la cantidad de variación descrita por el modelo (R-sq)
R2=0.9396 o sea que el modelo explica el 94% de la variación en el
número de entrevistas. Para decir que el modelo es adecuado nos
gustaría ver un valor de R-sq mayor al 80%, algo menor significa
que existen otras variables afectando el proceso.
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.661804 93.97% 93.22% 89.83%
EDUCACIÓN
EJECUTIVA
Regresión
Para ver la regresión en forma gráfica, utilizamos el fitted line plot:
Indica la Y y la X y luego O.K.:
Stat>Regression>Fitted Line Plot
Nota: Esto lo hace Minitab
solo con regresión simple.
EDUCACIÓN
EJECUTIVA
Regresión
No. interviews
Ahora podemos ver la gráfica de regresión, ¿notas la línea ajustada
(pronósticos) como se acerca a los datos originales?. El modelo aparenta
ser bueno, pero aún no terminamos. Tenemos que hacer un estudio de
residuales.
Exp
eri
en
ce
121110986 7543
Fitted Line PlotExperience = - 6.687 + 5.427 No. interviews
60
50
40
30
20
10
S 3.70496
R-Sq 94.0%
R-Sq(adj) 93.2%
EDUCACIÓN
EJECUTIVA
Regresión
Los errores residuales
(ei) son la diferencia que
existe entre el valor real,
y el valor ajustado por el
modelo. Los residuales
son consecuencia de la
falta de ajuste del
modelo. Los residuales
dan información sobre la
validez del modelo, por
eso hay que analizarlos.
No. interviews
Exp
eri
en
ce
10 11 12986 7543
60
50
40
30
20
10
S 3.70496
R-Sq 94.0%
R-Sq(adj) 93.2%
Fitted Line PlotExperience = - 6.687 + 5.427 No. interviews
e
i
EDUCACIÓN
EJECUTIVA
Regresión
4. Revisa los residuales:
°Normalidad delos residuales (consistencia del estudio)
°Estabilidad de los residuales
°Independencia de los residuales vs. valores ajustados
(adecuidad del modelo)
Si estos supuestos no se cumplen, sin importar el valor de R2, el modelo
no es adecuado para predecir la Y..
Estos vienen
de utilizar el
modelo con
los valores
originales de
X.
Los residuales son
el resultado de
substraer el valor
observado menos
el valor
pronosticado (error
del modelo)
EDUCACIÓN
EJECUTIVA
Regresión
Al graficar sobre papel normalidad, se debe formar aproximadamente
una línea recta.Aplicando pruebas de normalidad debemos apreciar una
valor de p mayor a 0.05. Si esto no se cumple, puede deberse a
problemas con el sistema de medición, condiciones del muestreo o a una
relación no lineal. Algunas veces, se utiliza una transformación
logarítmica en la Y para forzar la normalidad en los residuales.
Anderson-Darling Normality Test
A-Squared: 0.231
P-Value: 0.734
Average: -0.0000000
StDev: 0.623954
N: 10
1.00.50.0-0.5
.999
.99
.95
.80
.50
.20
.05
.01
.001
Pro
ba
bility
RESI1
Normal Probability Plot
Stat>Basic
Statistics>Normality
Tests
Busca el valor
de P
EDUCACIÓN
EJECUTIVA
0 1 2 3 4 5 6 7 8 9 10
Observation Number
2
1
0
-1
-2
Ind
ivid
ua
lV
alu
e
I Chart for RESI1
Mean=-3.4E-15
UCL=1.808
LCL=-1.808
Regresión
La estabilidad de los residuales se valida observando el comportamiento
de los residuales según su orden (se aprecia mejor usando una gráfica
de control). Se busca que no haya puntos fuera de los límites o
tendencias. Inestabilidad en los residuales denota variación en la
recolección de los datos. Se deben identificar causas especiales de
variación.
Stat>Control
Charts>Individuals
EDUCACIÓN
EJECUTIVA
Regresión
Buscar independencia entre los residuales y los valores ajustados, nos
ayuda a definir si el modelo es adecuado o no. Si se aprecia un
patrón(como un embudo, curvas con diferentes “jorobas”, etc.) entonces
se debe seleccionar otro modelo como cuadrático, cúbico o de otro tipo.
Los puntos deben
estar dispersos
sin un patrón
específico
1211107 8 9
FITS1
654
1
0
-1
RE
SI1
Graphs>Plot
EDUCACIÓN
EJECUTIVA
RegresiónMinitab también puede sacar todas las gráficas al mismo tiempo:
Stat>Regression>Regression>
Graphs>Four in One
EDUCACIÓN
EJECUTIVA
Regresión
0
Residual
Pe
rce
nt
1-1
99
90
50
10
18
Fitted Value
Re
sid
ua
l
121064
1.0
0.5
0.0
-0.5
-1.0
0.0 0.5
Residual
Fre
qu
en
cy
1.51.0-0.5-1.0
31.0
2
0.01
-0.5
0
Observation Order
Re
sid
ua
l
9 107 83 4 5 621
0.5
-1.0
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for No. interviews
EDUCACIÓN
EJECUTIVA
Ejemplo
Trabajando en un proyecto para reducir los costos
de mantenimiento, el ingeniero del área desea
saber si la eficiencia de un motor depende de su
velocidad en rpm’s.Ajusta el modelo más
apropiado y determina su validez.
EDUCACIÓN
EJECUTIVA
Ejemplo
¡La velocidad es
significativa!
El ajuste se ve
bien (94%)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 0.29991 0.299914 269.10 0.000
X 1 0.29991 0.299914 269.10 0.000
Error 18 0.02006 0.001115
Total 19 0.31998
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.0333843 93.73% 93.38% 92.01%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 1.0480 0.0162 64.77 0.000
X -0.03958 0.00241 -16.40 0.000 1.00
Regression Equation
Y(%) = 1.0480 - 0.03958 X
EDUCACIÓN
EJECUTIVA
Ejemplo
Tienden a ser
normales, O.K.
Podemos apreciar un
patrón entre los
residuales y los valores
ajustados. Esto nos
indica que la relación no
es lineal. Debemos
ajustar otro modelo tal
como el cuadrático,
cúbico, etc.
¿¿¿Ahora qué????
Razonablemente
estables.
Pe
rce
nt
0.00Residual
0.080.041-0.08 -0.04
99
90
50
10
Re
sid
ua
l
0.7 0.8Fitted Value
1.00.90.6
0.050
0.025
0.000
-0.025
-0.050
-0.06 -0.04 -0.02 0.00 0.02 0.04Residual
Fre
qu
en
cy
4.8
3.6
2.4
1.2
0.02 4 6 8 10 12 14 16 18 20
Observation Order
Re
sid
ua
l
0.000
-0.025
-0.050
Residuals Versus the Order of the Data
0.050
0.025
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals
Residual Plots for Y(%)
EDUCACIÓN
EJECUTIVA
Ejemplo
Al ajustar modelos no lineales, debemos seleccionar otro tipo de modelos
tales como:
cuadrático
o
2y 0 1x 2 x
cúbico
y x x2 x3
0 1 2 3
Debemos indicar a
Minitab el modelo
necesitado.
EDUCACIÓN
EJECUTIVA
Ejemplo
Es básicamente lo mismo, solo hay que seleccionar el modelo buscado (en
la sección de OPTIONS podemos encontrar las transformaciones
logarítmicas).
EDUCACIÓN
EJECUTIVA
Ejemplo
Nuestro modelo es: y 0.9536 0.0030173x 0.0035x2
¡¡¡No olvides los
residuales!!!
The regression equation is
Y(%) = 0.953603 + 0.0030173 X
- 0.0035365 X**2
S = 0.0141553 R-Sq = 98.9 %
Analysis of Variance
Mejoró la R2
R-Sq(adj) = 98.8 %
Source
Regression
Error
Total
DF SS
2 0.316569
17 0.003406
19 0.319975
MS
0.158284
0.000200
F P
789.950 0.000
Ambos componentes
son necesarios en el
modeloSource DF Seq SS F P
Linear 1 0.299914 269.100 0.000
Quadratic 1 0.016655 83.119 0.000
EDUCACIÓN
EJECUTIVA
Ejemplo
La normalidad
y estabilidad
aún son
buenas
Gran mejora en la
independencia, el modelo
cuadrático es adecuado.
0.00
Residual
Pe
rce
nt
0.040.02
-0.021-0.04 0.7 0.8
Fitted Value
Re
sid
ua
l
1.00.90.6
Residual
Fre
qu
en
cy
Re
sid
ua
l
Normal Probability Plot of the Residuals
99
90
50
10
0.02
0.00
-0.02
Histogram of the Residuals
4.8
3.6
2.4
1.2
0.0-0.02 -0.01 0.00 0.01 0.02 2 4 6 8 10 12 14 16 18
20
Observation Order
Residuals Versus the Order of the Data
0.02
0.00
-0.02
Residuals Versus the Fitted Values
Residual Plots for Y(%)
EDUCACIÓN
EJECUTIVA
El ajuste es muy bueno. Tenemos un buen modelo.
Ejemplo
6
X
Y(%
)
12108420
Fitted Line PlotY(%) = 0.9536 + 0.003017 X
- 0.003537 X**2
1.0
0.9
0.8
0.7
0.6
0.5
S 0.0141553
R-Sq 98.9%
R-Sq(adj) 98.8%
EDUCACIÓN
EJECUTIVA
Que nos queda...
1.Planea el estudio para asegurar aleatoriedad, imparcialidad y un rango amplio para variación de la X y de la Y.
2. Recolecta buenos datos.
3.Evalúa por significancia de cada X por su valor de p y cuestiona la lógica de la magnitud del coeficiente.
5. Evalúa la significancia del modelo a través del valor de R2.
6. Busca patrones inusuales en los residuales y analiza los valores extremos.