22
1 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA Teoría de la decisión Regresión Lineal Simple 1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto <=> altura / peso adulto ≈ k*altura * relación de la circunferencia al radio c = 2..r * la presión de una masa de gas en relación a su temperatura y volumen V 1 .P 1 .T 0 = V 0 .P 0 .T 1 2.- El problema estadístico se convierte en que dado un conjunto de datos hipotéticamente relacionados entre sí ¿cómo evidenciar esa relación? Desarrollar un modelo que permita (de ser posible) predecir con determinada certeza el valor de una variable (dependiente) con respecto a otra relacionada (independiente) cada vez que esta última toma un valor. = ()

Teoría de la decisión Regresión Lineal Simple

  • Upload
    others

  • View
    32

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Teoría de la decisión Regresión Lineal Simple

1 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una

serie de

Observaciones: Por ejemplo:

* pesoadulto <=> altura / pesoadulto ≈ k*altura

* relación de la circunferencia al radio c = 2. 𝜋.r

* la presión de una masa de gas en relación a su temperatura y volumen V1.P1.T0 = V0.P0.T1

2.- El problema estadístico se convierte en que dado un conjunto de datos hipotéticamente

relacionados entre sí ¿cómo evidenciar esa relación?

Desarrollar un modelo que permita (de ser posible) predecir con determinada certeza el

valor de una variable (dependiente) con respecto a otra relacionada (independiente) cada

vez que esta última toma un valor.

𝑦 = 𝑓(𝑥)

Page 2: Teoría de la decisión Regresión Lineal Simple

2 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

3.- Diagrama de dispersión: Representación gráfica de las observaciones de dos variables

aparente o hipotéticamente relacionadas, con el objeto de evidenciar tal relación.

Relación lineal positiva Relación lineal negativa Relación curva creciente

Relación curva decreciente Relación curva en “U” No hay relación entre X e Y

Page 3: Teoría de la decisión Regresión Lineal Simple

3 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

4.- El ajuste de la curva es el procedimiento de hallar una curva que represente lo

más eficazmente posible la distribución de los datos.

El objeto es determinar la ecuación de la curva que represente la menor desviación

posible del conjunto de datos considerado.

5.- A estos efectos el procedimiento de mínimos cuadrados, es la técnica

matemática de análisis numérico que permite encontrar la función que mejor se

aproxime al conjunto de datos (ajuste) siguiendo el criterio del menor error

cuadrático. Se trata de minimizar la suma de los cuadrados entre los puntos

generados por la función y los correspondientes en los datos.

6.- Se llama Regresión a la media de la distribución de una variable (dependiente)

con respecto a un valor determinado de otra (independiente).

7.- Regresión lineal simple es el proceso de ajustar una recta a un conjunto de

datos cuya dispersión sugiere este tipo de síntesis matemática.

Page 4: Teoría de la decisión Regresión Lineal Simple

4 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

El modelo puede representarse como:

𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝜀𝑖

𝑌𝑖 : variable dependiente

𝑏0 : intersección con el eje de ordenadas

𝑏1: pendiente real de la población

𝑋𝑖: variable independiente

𝜀𝑖: error aleatorio en Y para la observación i 𝑌𝑖 = 𝑏0 + 𝑏1𝑋𝑖 + 𝜀𝑖

Teoría de la decisión Regresión Lineal Simple

8.- Determinación de la ecuación de regresión. En esencia el problema consiste

en determinar a partir de los datos los elementos descriptivos de la recta; a saber

su intersección con el eje de ordenadas y su pendiente.

Page 5: Teoría de la decisión Regresión Lineal Simple

5 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Sujeto a las siguientes condiciones:

(1) Normalidad: La variable dependiente debe presentar una distribución normal

para cada valor de la variable independiente.

(2) Homocedasticidad: La variación en torno a la recta de regresión debe ser

constante para todos los valores de la variable independiente.

(3) Independencia del error. La diferencia “residual” entre la predicción y la

observación debe ser independiente del valor de X.

Page 6: Teoría de la decisión Regresión Lineal Simple

6 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

El método de mínimos cuadrados nos permite determinar, dentro de estas premisas, la ecuación

bajo el siguiente modelo general:

ii XbbY 10

^

Page 7: Teoría de la decisión Regresión Lineal Simple

7 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Ejercicio 1

El contador de costos de una empresa de construcción tiene el problema de

estimar los costos de construcción para viviendas unifamiliares en el próximo año,

para asignar los posibles precios. Tiene a mano los registros de todas las

viviendas construidas en el último año. Por experiencia supone como razonable la

hipótesis que el costo de la construcción está relacionado con el tamaño de la

parcela: decide tomar una muestra aleatoria de 12 casas, según tabla a

continuación:

área parcela

(mts2) 500,0 700,0 1.000,0 1.000,0 1.200,0 2.000,0 2.200,0 1.500,0 3.000,0 4.000,0 1.200,0 1.500,0

Costo Const.

(MBs.)

31,6 32,4 41,7 50,2 46,2 58,5 59,3 48,4 63,7 85,3 53,4 54,5

Page 8: Teoría de la decisión Regresión Lineal Simple

8 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

A partir de esta data, el contador construye un gráfico de dispersión con el objeto de

determinar a grandes rasgos si su hipótesis es correcta:

0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

90,0

500,0 650,0 800,0 950,0 1.100,0 1.250,0 1.400,0 1.550,0 1.700,0 1.850,0 2.000,0

Co

sto

de

con

stru

cció

n M

Bs.

Tamaño de la parcela (m2)

área parcela vs. costo construcción

Page 9: Teoría de la decisión Regresión Lineal Simple

9 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

área parcela (mts2) Costo Const.(MBs.) XY X2 Y2

1 500,0 31,6 15.800,00 250.000,00 998,56 2 700,0 32,4 22.680,00 490.000,00 1.049,76 3 1000,0 41,7 41.700,00 1.000.000,00 1.738,89 4 1000,0 50,2 50.200,00 1.000.000,00 2.520,04 5 1200,0 46,2 55.440,00 1.440.000,00 2.134,44 6 2000,0 58,5 117.000,00 4.000.000,00 3.422,25 7 2200,0 59,3 130.460,00 4.840.000,00 3.516,49 8 1500,0 48,4 72.600,00 2.250.000,00 2.342,56 9 3000,0 63,7 191.100,00 9.000.000,00 4.057,69

10 4000,0 85,3 341.200,00 16.000.000,00 7.276,09 11 1200,0 53,4 64.080,00 1.440.000,00 2.851,56 12 1500,0 54,5 81.750,00 2.250.000,00 2.970,25

Sumas 19.800,00 625,20 1.184.010,00 43.960.000,00 34.878,58

medias 1.650,00 52,10

b1 = 0,014

b0 = 29,823

Page 10: Teoría de la decisión Regresión Lineal Simple

10 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Dato original estimación

área

parcela

(mts2)

Costo

Const

(MBs.)

Yest Y - Yest

1 500,0 31,6 36,57 -4,97 2 700,0 32,4 39,27 -6,87 3 1000,0 41,7 43,32 -1,62 4 1000,0 50,2 43,32 6,88 5 1200,0 46,2 46,02 0,18 6 2000,0 58,5 56,83 1,67 7 2200,0 59,3 59,53 -0,23 8 1500,0 48,4 50,07 -1,67 9 3000,0 63,7 70,33 -6,63

10 4000,0 85,3 83,83 1,47 11 1200,0 53,4 46,02 7,38 12 1500,0 54,5 50,07 4,43

9. Error estándar de la estimación. Al igual que las observaciones no están ubicadas exactamente sobre su media aritmética, tampoco lo estarán sobre la recta de regresión tal cual como observamos en la tabla en la columna Y-Yest. Por tanto las estimaciones obtenidas son aproximaciones, y por ello es necesario desarrollar un estadístico que mida la variabilidad en los valores reales de Y a partir de las estimaciones Yest. Esta medida se llama error estándar de la estimación se le denota por Sxy

o su equivalente

21

1

1

0

1

2

n

YXbYbY

S

n

i

ii

n

i

i

n

i

i

YX

Page 11: Teoría de la decisión Regresión Lineal Simple

11 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Variación explicada

Variación no explicada

Variación total

Yest = b0 + b1 Xi

Yi

Xi

Ymedia

variación total:

medida de la variación de los

valores de Y en torno a su media.

variación explicada:

consecuencia de la relación que

existe entre Y y X.

variación no explicada:

consecuencia de factores

diferentes de tal relación.

Page 12: Teoría de la decisión Regresión Lineal Simple

12 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Page 13: Teoría de la decisión Regresión Lineal Simple

13 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

11. Coeficiente de determinación (r2). Si obtenemos la razón de la variación

explicada a la variación total podremos calcular el porcentaje de la variación

explicada por el modelo de regresión y por tanto una medida de cuán confiable

es el modelo. Esta medida se define como:

𝑟2 = 𝑉𝑒𝑥𝑝

𝑉𝑡𝑜𝑡𝑎𝑙

12. Correlación. Este estadístico mide cuán fuerte es la relación entre dos

variables, a través de un coeficiente ρ de correlación, tal que

−1 ≤ 𝜌 ≤ +1

Correlación negativa perfecta (ρ = -1) No hay correlación (ρ = 0) Correlación positiva perfecta (ρ = + 1)

Page 14: Teoría de la decisión Regresión Lineal Simple

14 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

El coeficiente de correlación viene dado por la ecuación

𝑟 = 𝑟2

Si sólo se efectúa el análisis de correlación en un grupo de datos; es decir

sin asociarlo a la regresión, el coeficiente de correlación de la muestra

puede calcularse directamente con:

𝑟 = 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌 𝑛

𝑖=1

𝑋𝑖 − 𝑋 2𝑛𝑖=1 𝑌𝑖 − 𝑌 2𝑛

𝑖=1

Page 15: Teoría de la decisión Regresión Lineal Simple

15 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

SYX = 4,976

Vexp = 2.058,008

Vnexp = 247,652

Vtotal = 2.305,660

r2 = 0,893

r = 0,945

Coeficiente de

determinación

Coeficiente de

correlación

Error típico

Variaciones de

la estimación

con respecto a

la observación

Page 16: Teoría de la decisión Regresión Lineal Simple

16 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Ejercicio 2.- El Director de una Universidad en su proceso de evaluación

de conductas de entrada cree que el promedio de los últimos dos años de

bachillerato y el índice académico de los alumnos están relacionados.

Sólo toma como referencia los alumnos del 4to. Año de ellos toma una

muestra de 15 alumnos que se detalla a continuación:

Promedio bach. 87 88 80 83 80 98 78 85 80 92 76 81 82 89 78 Indice académico 2,3 2,8 2,9 3,0 2,8 3,9 2,6 3,3 2,5 3,0 3,2 3,2 2,6 3,2 2,7

Page 17: Teoría de la decisión Regresión Lineal Simple

17 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

2,00

2,25

2,50

2,75

3,00

3,25

3,50

3,75

4,00

70,00 75,00 80,00 85,00 90,00 95,00 100,00

Ind

ice

acad

émic

o

Promedio en Bachillerato

Indice académico

Page 18: Teoría de la decisión Regresión Lineal Simple

18 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Promedio bachillerato

Indice académico

XY X2 Y2 Yest Y - Yest

87,00 2,30 200,10 7.569,00 5,2900 b1 = 0,0323 3,0387 -0,7387

88,00 2,80 246,40 7.744,00 7,8400 b0 = 0,2295 3,0709 -0,2709

80,00 2,90 232,00 6.400,00 8,4100 SYX = 0,3524 2,8126 0,0874

83,00 3,00 249,00 6.889,00 9,0000 Vexp = 0,5301 2,9095 0,0905

80,00 2,82 225,60 6.400,00 7,9524 Vtotal = 2,1442 2,8126 0,0074

98,00 3,86 378,28 9.604,00 14,8996 r2 = 0,2472 3,3938 0,4662

78,00 2,60 202,80 6.084,00 6,7600 r = 0,4972 2,7481 -0,1481

85,00 3,34 283,90 7.225,00 11,1556 2,9741 0,3659

80,00 2,50 200,00 6.400,00 6,2500 2,8126 -0,3126

92,00 3,00 276,00 8.464,00 9,0000 3,2001 -0,2001

76,00 3,20 243,20 5.776,00 10,2400 2,6835 0,5165

81,00 3,20 259,20 6.561,00 10,2400 2,8449 0,3551

82,00 2,64 216,48 6.724,00 6,9696 2,8772 -0,2372

89,00 3,21 285,69 7.921,00 10,3041 3,1032 0,1068

78,00 2,66 207,48 6.084,00 7,0756 2,7481 -0,0881

1.257,00 44,03 3.706,13 105.845,00 131,3869

Page 19: Teoría de la decisión Regresión Lineal Simple

19 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Page 20: Teoría de la decisión Regresión Lineal Simple

20 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Predicciones en el análisis de regresión (interpolación vs. extrapolación)

1. Utilizar el rango del conjunto de datos (interpolación)

2. Las inferencia fuera de ese rango no son aconsejables (no extrapolar).

(a) datos fuera del dominio

(b) cambian media y desviación típica

(c) cambian los supuestos matemáticos

(d) alta probabilidad de no aceptabilidad de la precisión de la predicción

Page 21: Teoría de la decisión Regresión Lineal Simple

21 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Intervalo de confianza para predecir la media del conjunto (µYX)

El ancho del intervalo depende de:

. El valor del error típico, al aumentar la variación el intervalo es más ancho

. El tamaño de la muestra, su aumento tiende a reducir el intervalo

. La cercanía del dato a la media que estrecha el intervalo a medida que se acercan

Page 22: Teoría de la decisión Regresión Lineal Simple

22 Teoría de la Decisión GB Alfredo A. Carneiro Campos UNEFA ZULIA

Teoría de la decisión Regresión Lineal Simple

Ejercicio 3.- se desea calcular el costo promedio real para casas con terrenos de

1.500 mts2 con un intervalo de confianza del 95%