Sesión 2: Inferencia estadística para una población 1 Servei d’Estadística Universitat Autònoma de Barcelona Inferencia estadística para una población

Sesión 2: Inferencia estadística para una población

1

Servei d’EstadísticaUniversitat Autònoma de Barcelona

Inferencia estadística para una población

1. Introducción

2. Intervalos de confianza

3. Pruebas de hipótesis

4. T-TESTS

5. ANOVAs


2


El quadre següent expressa les diferèncias bàsiques entre lesdues anàlisis:

Estadística descriptiva Inferència estadística

Objetius: Exploració de les dades buscant estructures i patrons destacables

Respondre qüestions/hipòtesis específiques plantejades abans de tenir les dades

Conclusiones: S’apliquen només als individus i circumstàncies per a les quals s’han recollit les dades

S’apliquen a un conjunt ampli d’individus o a una àmplia classe de circumstàncies

Les conclusions són informals basades en allà que es pot observar en les dades

Les conclusions són formals i recolzades en una declaració de confiança en aquestes.


3


•L’estadística descriptiva és un primer pas essencial per a realitzar inferència estadística. Les dues anàlisis han de cooperar.

•Per a poder dur a terme inferència estadística es requereix que el patró de les dades sigui raonablement regular.

•El disseny de l’experiment també està molt relacionat amb la qualitatde la inferència estadística, així com de les conclusions que d’aquesta es derivin.

Inferir significa treure conclusions de les dades tenit en compte la variació deguda a l’atzar


4


1. Introducción: el análisis de los datos versus la inferencia estadística

Después de llevar a cabo un análisis de los datos el objetivo es podergeneralizar los resultados para conjuntos más grandes de individuosasí como poder sacar conclusiones a partir de los datos.

La PROBABILIDAD permite calibrar el poder de nuestras conclusiones


5

Los datos que habitualmente se analizan provienen de un experimento aleatorio:

Experimentos

No aleatorios o deterministas

Aleatorios o estocásticos

Un experimento aleatorio es aquel que bajo las mismas condiciones puede producir resultados diferentes pero con una distribución regular de resultados para un número grande de repeticiones. Un experimento es determinista si bajo las mismas condiciones siempre conduce a un mismo resultado.

Las variables aleatorias definen de forma numérica los resultados de un experimento aleatorio. Esto es son aplicaciones que transforman los resultados de un experimento aleatorio en números con el fin de poder realizar las operaciones más usuales.

2. Variables aleatorias



6

Antes de realizar cualquier inferencia estadística es necesario identificar la distribución de probabilidad de la variable aleatoria que se pretende analizar.

Algunos instrumentos para ello son:

•Histograma, rango de la variable.

•Gráficos de caja

•Pruebas de ajuste a una distribución (Test de Kolmogorov-Smirnoff).

Para llevar a cabo estos contrates en SPSS seguiremos:

Analizar la opción Pruebas no parametricas K-S de una muestra donde se debe seleccionar como distribución de prueba: Normal



7


Intervalos de confianza

En inferencia estadística uno de los instrumentos más comunes sonlos intervalos de confianza para estimar el valor de un parámetrode la población.

Un intervalo de confianza del C% para un parámetro es un intervalo de valores calculado a partir de los datos de la muestra utilizando un método que tiene un probabilidad C de que dicho intervalo Contenga el verdadero valor del parámetro.


8


La media muestral y la desviación estándar son buenos estimadores puntuales de la media y la desviación estándar de la población.

Dado que los datos son las observaciones de una variable aleatoria, estos estimadores son a la vez variables aleatorias. Por lo tanto tienen una determinada distribución, que en el caso de la media es Normal.

Así pues podemos calcular un intervalo de valores [a,b] tales que

)( bXaP = C


9


Gráficamente: para una normal tipificada, un intervalo de confianza del 95% se puede representar como:

95%

2.5%2.5%

La probabilidad de que una variable normal tipificada tome valores en el intervalo

[-1.96,1.96] es del 95%.


10


Para llevar a cabo una representación gráfica de los intervalos de confianza debemos seguir:

Graficos la opción Barras de error


11

EJEMPLO: Salario de universitarios

Intervalos de confianza 95% del salario medio:

para las mujeres (24143 $, 25395 $)

para los hombres (26489 $, 27563 $)

Fuertes diferencias entre el salario de hombres y mujeres

631469N =

Sexo

HombreMujer

95

% IC

Sa

lari

o in

icia

l

28000

27000

26000

25000

24000

23000



12


Otra forma más general de obtener los intervalos de confianza para la media (o medias con SPSS es mediante el menú Analizar la opción Comparar medias


13

Pruebas de hipótesis


Un segundo bloque de instrumentos para la inferencia estadística son las pruebas de hipótesis: Evalúan la evidencia de una afirmación sobre la población.

En estadística una afirmación sobre la población se plantea en forma de hipótesis de trabajo. Las dos hipótesis complementarias se llaman:

Hipótesis nula (H0)

Hipótesis alternativa o de investigación (H1)

Las hipótesis hacen siempre referencia a los parámetros de la población.


14

Una prueba de hipótesis es un procedimiento que especifica:

1. Para qué valores muestrales la decisión será no rechazar la hipótesis nula.

2. Para qué valores muestrales la hipótesis nula será rechazada a favor de la alternativa.

P-valor: probabilidad que, bajo H0 el estadístico de contraste tome un valor al menos tan alejado como el realmente obtenido.

Cuanto más pequeño sea el p-valor mayor es la evidencia en contra de H0.



15


En un contraste de hipótesis, debemos aceptar o rechazar una de las dos hipótesis planteadas.

Deseamos que nuestra decisión sea correcta, pero a veces no lo será. Hay dos tipos de decisiones incorrectas:

Rechazar H0 cuando de hecho es cierta: error de tipo I

Aceptar H0 cuando realmente es cierta H1: error de tipo II

Observación: el error tipo I = nivel de significación = α


16


Test estadístico

No rechazar la hipótesis nula

Rechazar la hipótesis nula(aceptar la hipótesis alternativa)

Planteamiento del problemaHipótesis nula y alternativa

Recogida de datos

En esquema:


17


Tipo de test estadístico

En primer lugar el investigador debe identificar la naturaleza de la variables que desea estudiar. Es decir:

- Variable Respuesta- Distribución (continua, ordinal, categórica)

- Variable Explicativa- Número de grupos o niveles

Así cómo la idoneidad del tipo de prueba:

- Homogeneidad- Grupos bien balanceados


18


Variable respuesta Normal

Para comparar una variable respuesta entre dos muestras independientes cuando dicha variable sigue una distribución normal se utiliza la prueba:

prueba T de Student (T-Test):

La hipótesis que contrasta es:

H0: 1= 2 Las medias son igualesH1: 1 2 Las medias son diferentes


19


Ejemplo:

Deseamos estudiar si la disminución de tensión arterial de los pacientes que han tomado el tratamiento 2 es superior a los pacientes que han tomado el tratamiento 1. Supondremos que la distribución de la variable DIF es Normal.

La hipótesis que deseamos contrastar es:

H0: 1= 2 La disminución es igualH1: 1 2 La disminución es diferente


20



21



22


Estadísticos de grupo

20 61.150 12.4108 2.7751

20 62.350 9.6206 2.1512

FARMACO1

2

DIFN Media

Desviacióntíp.

Error típ. dela media

Prueba de muestras independientes

1.910 .175 -.342 38 .734 -1.200 3.5113 -8.3083 5.9083

-.342 35.776 .735 -1.200 3.5113 -8.3228 5.9228

Se han asumidovarianzas iguales

No se han asumidovarianzas iguales

DIFF Sig.

Prueba de Levenepara la igualdad de

varianzas

t gl Sig. (bilateral)Diferenciade medias

Error típ. dela diferencia Inferior Superior

95% Intervalo deconfianza para la

diferencia

Prueba T para la igualdad de medias


23


Para comparar una variable respuesta entre dos muestras independientes cuando dicha variable es categórica se utilizan las pruebas:

prueba 2, prueba Exacta de Fisher o prueba RV:

La hipótesis que contrastan es:

H0: La variable respuesta es independiente de la variable explicativa (Los grupos de tratamiento son homogéneos).

H1: La variable respuesta NO es independiente de la variable explicativa (Los grupos de tratamiento no son homogéneos).

Variable respuesta Categórica


24


Ejemplo:

Deseamos estudiar si la distribución según estatus social es homogénea en ambos grupos de tratamiento.

La hipótesis que deseamos contrastar es:

H0: La distribución según estatus social es homogénea en ambos grupos de Tratamiento.

H1: La distribución según estatus social NO es homogénea en ambos grupos de Tratamiento.


25



26



27


Resumen del procesamiento de los casos

40 100.0% 0 .0% 40 100.0%STATUS * FARMACON Porcentaje N Porcentaje N Porcentaje

Válidos Perdidos Total

Casos

Tabla de contingencia STATUS * FARMACO

9 8 17

45.0% 40.0% 42.5%

5 6 11

25.0% 30.0% 27.5%

6 6 12

30.0% 30.0% 30.0%

20 20 40

100.0% 100.0% 100.0%

Recuento

% de FARMACO

Recuento

% de FARMACO

Recuento

% de FARMACO

Recuento

% de FARMACO

1

2

3

STATUS

Total

1 2

FARMACO

Total

Pruebas de chi-cuadrado

.150a 2 .928

.150 2 .928

.034 1 .853

40

Chi-cuadrado de Pearson

Razón de verosimilitud

Asociación lineal porlineal

N de casos válidos

Valor glSig. asintótica

(bilateral)

0 casillas (.0%) tienen una frecuencia esperada inferior a 5.La frecuencia mínima esperada es 5.50.

a.


28

La sumisión de los investigadores al p-valor

La utilización sistemática del p-valor puede llevar a resultados engañosos.

EJEMPLO: Se quiere analizar la estancia en días de los turistas en Catalunya. En concreto se desea comparar las estancias de los europeos y los procedentes de países asiáticos. Un contraste en términos de las diferencias se plantea como:

H0: d = 0 (no hay diferencia)

H1: d 0

El p-valor del test estadístico resulta ser p=0,02, con lo que se concluye que hay diferencias. ¿Es suficiente?

Necesitamos medir el tamaño del efecto realizando un intervalo de confianza para la diferencia ya que podría ser, por ejemplo, que:

d Є (0.5, 1) o bien d Є (10, 15)



29

ANOVA MULTIFACTORIAL• El ANOVA nos permite analizar el efecto de más de

una variable de agrupación sobre una variable cuantitativa. En este caso utilizaremos un ANOVA multifactorial.

• La principal ventaja de la realización del ANOVA multifactorial es que, además de poder analizar el efecto de cada una de las variables de agrupación por separado (también conocido como efectos principales de las variables, main effects), nos abre la posibilidad de analizar la interacción (o efecto interactivo).


30

Between- and within-subjects factors

• Between-subjects designs vary independent variables with the subjects, so each subject represents one of the values (levels) of the independent variable.– Ex: language, sex, age,

etc.

• Within-subjects designs vary independent variables for each subject, so each subject sees all of the levels of the independent variable.– Ex: syllable duration, F0

alignment, etc.

– Age, for longitudinal studies


31

INTERACCIÓN A x B• Arriba pueden verse tres casos en los que no se produce

interacción entre las variables; abajo hay dos casos en los que se produce interacción.

0

10

20

30

40

50

60

70

80

b1 b2

a1a2

0

10

20

30

40

50

60

70

80

b1 b2

a1a2

0

10

20

30

40

50

60

70

80

b1 b2

a1a2

0

10

20

30

40

50

60

70

80

b1 b2

a1a2

0

10

20

30

40

50

60

70

80

b1 b2

a1a2

Efecto principal para la variable A Efecto principal para la variable B Efectos principales para las variables A y B

Interacción A x B sin efectos principales Interacción A x B con efectos principales para ambas variables


32

EJERCICIO

• El grupo de empresas del ejercicio presentado en el capítulo anterior está interesado en estudiar si los distintos tipos de incentivos afectarán a la producción de los operarios de forma diferencial dependiendo del tipo de contrato que tengan. Con este objetivo seleccionan sus cuatro secciones de serigrafía: dos de ellas están compuestas por operarios con contratos temporales y en las otras dos todos los empleados son personal fijo. Los operarios de dos secciones recibirán durante tres meses incentivos de tipo individual, mientras que los operarios de las otras secciones recibirán incentivos en función de la producción alcanzada en la sección. Como medida de la productividad se utiliza para cada operario la diferencia entre el promedio semanal de piezas producidas la primera semana y el promedio semanal producido la última semana del estudio.


33

• A continuación presentamos la tabla de datos:

TEMPORAL FIJO medias

medias 267.8 197.6 232.7

medias 254.4 83.9 169.2

medias 261.1 140.8 200.9

INCENTIVO

INDIVIDUAL

COLECTIVO

CONTRATO

257.2279.1273.1271.0233.6235.8272.1320.8

suj. 1suj. 2suj. 3suj. 4suj. 5suj. 6suj. 7suj. 8

205.4210.6152.5195.2192.7204.7202.4217.4

204.3280.4272.1267.5250.4223.6295.5242.0

79.7107.375.773.693.960.479.9101.2

suj. 1suj. 2suj. 3suj. 4suj. 5suj. 6suj. 7suj. 8


34

Pruebas de los efectos inter-sujetos

Variable dependiente: PRODUCCI

168289.547a 3 56096.516 96.699 .000 .912

1292576.718 1 1292576.7 2228.139 .000 .988

32284.924 1 32284.924 55.653 .000 .665

115882.088 1 115882.088 199.757 .000 .877

20122.534 1 20122.534 34.687 .000 .553

16243.216 28 580.115

1477109.480 32

184532.762 31

FuenteModelo corregido

Intercept

INCENTIV

CONTRATO

INCENTIV * CONTRATO

Error

Total

Total corregido

Suma decuadrados

tipo III glMedia

cuadrática F Sig. Eta cuadrado

R cuadrado = .912 (R cuadrado corregido = .903)a.

Tipo de contrato x Tipo de incentivo

INCENTIVO

colectivoindividual

Incr

em

en

to e

n la

pro

du

cció

n

300

200

100

0

CONTRATO

temporal

fijo

Documents

Sesión 2: Inferencia estadística para una población 1 Servei d’Estadística Universitat Autònoma de Barcelona Inferencia estadística para una población