Upload
miguel-garcia-duarte
View
229
Download
0
Embed Size (px)
Citation preview
Sesión 2: Inferencia estadística para una población
1
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Inferencia estadística para una población
1. Introducción
2. Intervalos de confianza
3. Pruebas de hipótesis
4. T-TESTS
5. ANOVAs
Sesión 2: Inferencia estadística para una población
2
Servei d’EstadísticaUniversitat Autònoma de Barcelona
El quadre següent expressa les diferèncias bàsiques entre lesdues anàlisis:
Estadística descriptiva Inferència estadística
Objetius: Exploració de les dades buscant estructures i patrons destacables
Respondre qüestions/hipòtesis específiques plantejades abans de tenir les dades
Conclusiones: S’apliquen només als individus i circumstàncies per a les quals s’han recollit les dades
S’apliquen a un conjunt ampli d’individus o a una àmplia classe de circumstàncies
Les conclusions són informals basades en allà que es pot observar en les dades
Les conclusions són formals i recolzades en una declaració de confiança en aquestes.
Sesión 2: Inferencia estadística para una población
3
Servei d’EstadísticaUniversitat Autònoma de Barcelona
•L’estadística descriptiva és un primer pas essencial per a realitzar inferència estadística. Les dues anàlisis han de cooperar.
•Per a poder dur a terme inferència estadística es requereix que el patró de les dades sigui raonablement regular.
•El disseny de l’experiment també està molt relacionat amb la qualitatde la inferència estadística, així com de les conclusions que d’aquesta es derivin.
Inferir significa treure conclusions de les dades tenit en compte la variació deguda a l’atzar
Sesión 2: Inferencia estadística para una población
4
Servei d’EstadísticaUniversitat Autònoma de Barcelona
1. Introducción: el análisis de los datos versus la inferencia estadística
Después de llevar a cabo un análisis de los datos el objetivo es podergeneralizar los resultados para conjuntos más grandes de individuosasí como poder sacar conclusiones a partir de los datos.
La PROBABILIDAD permite calibrar el poder de nuestras conclusiones
Sesión 2: Inferencia estadística para una población
5
Los datos que habitualmente se analizan provienen de un experimento aleatorio:
Experimentos
No aleatorios o deterministas
Aleatorios o estocásticos
Un experimento aleatorio es aquel que bajo las mismas condiciones puede producir resultados diferentes pero con una distribución regular de resultados para un número grande de repeticiones. Un experimento es determinista si bajo las mismas condiciones siempre conduce a un mismo resultado.
Las variables aleatorias definen de forma numérica los resultados de un experimento aleatorio. Esto es son aplicaciones que transforman los resultados de un experimento aleatorio en números con el fin de poder realizar las operaciones más usuales.
2. Variables aleatorias
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
6
Antes de realizar cualquier inferencia estadística es necesario identificar la distribución de probabilidad de la variable aleatoria que se pretende analizar.
Algunos instrumentos para ello son:
•Histograma, rango de la variable.
•Gráficos de caja
•Pruebas de ajuste a una distribución (Test de Kolmogorov-Smirnoff).
Para llevar a cabo estos contrates en SPSS seguiremos:
Analizar la opción Pruebas no parametricas K-S de una muestra donde se debe seleccionar como distribución de prueba: Normal
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
7
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Intervalos de confianza
En inferencia estadística uno de los instrumentos más comunes sonlos intervalos de confianza para estimar el valor de un parámetrode la población.
Un intervalo de confianza del C% para un parámetro es un intervalo de valores calculado a partir de los datos de la muestra utilizando un método que tiene un probabilidad C de que dicho intervalo Contenga el verdadero valor del parámetro.
Sesión 2: Inferencia estadística para una población
8
Servei d’EstadísticaUniversitat Autònoma de Barcelona
La media muestral y la desviación estándar son buenos estimadores puntuales de la media y la desviación estándar de la población.
Dado que los datos son las observaciones de una variable aleatoria, estos estimadores son a la vez variables aleatorias. Por lo tanto tienen una determinada distribución, que en el caso de la media es Normal.
Así pues podemos calcular un intervalo de valores [a,b] tales que
)( bXaP = C
Sesión 2: Inferencia estadística para una población
9
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Gráficamente: para una normal tipificada, un intervalo de confianza del 95% se puede representar como:
95%
2.5%2.5%
La probabilidad de que una variable normal tipificada tome valores en el intervalo
[-1.96,1.96] es del 95%.
Sesión 2: Inferencia estadística para una población
10
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Para llevar a cabo una representación gráfica de los intervalos de confianza debemos seguir:
Graficos la opción Barras de error
Sesión 2: Inferencia estadística para una población
11
EJEMPLO: Salario de universitarios
Intervalos de confianza 95% del salario medio:
para las mujeres (24143 $, 25395 $)
para los hombres (26489 $, 27563 $)
Fuertes diferencias entre el salario de hombres y mujeres
631469N =
Sexo
HombreMujer
95
% IC
Sa
lari
o in
icia
l
28000
27000
26000
25000
24000
23000
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
12
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Otra forma más general de obtener los intervalos de confianza para la media (o medias con SPSS es mediante el menú Analizar la opción Comparar medias
Sesión 2: Inferencia estadística para una población
13
Pruebas de hipótesis
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Un segundo bloque de instrumentos para la inferencia estadística son las pruebas de hipótesis: Evalúan la evidencia de una afirmación sobre la población.
En estadística una afirmación sobre la población se plantea en forma de hipótesis de trabajo. Las dos hipótesis complementarias se llaman:
Hipótesis nula (H0)
Hipótesis alternativa o de investigación (H1)
Las hipótesis hacen siempre referencia a los parámetros de la población.
Sesión 2: Inferencia estadística para una población
14
Una prueba de hipótesis es un procedimiento que especifica:
1. Para qué valores muestrales la decisión será no rechazar la hipótesis nula.
2. Para qué valores muestrales la hipótesis nula será rechazada a favor de la alternativa.
P-valor: probabilidad que, bajo H0 el estadístico de contraste tome un valor al menos tan alejado como el realmente obtenido.
Cuanto más pequeño sea el p-valor mayor es la evidencia en contra de H0.
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
15
Servei d’EstadísticaUniversitat Autònoma de Barcelona
En un contraste de hipótesis, debemos aceptar o rechazar una de las dos hipótesis planteadas.
Deseamos que nuestra decisión sea correcta, pero a veces no lo será. Hay dos tipos de decisiones incorrectas:
Rechazar H0 cuando de hecho es cierta: error de tipo I
Aceptar H0 cuando realmente es cierta H1: error de tipo II
Observación: el error tipo I = nivel de significación = α
Sesión 2: Inferencia estadística para una población
16
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Test estadístico
No rechazar la hipótesis nula
Rechazar la hipótesis nula(aceptar la hipótesis alternativa)
Planteamiento del problemaHipótesis nula y alternativa
Recogida de datos
En esquema:
Sesión 2: Inferencia estadística para una población
17
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Tipo de test estadístico
En primer lugar el investigador debe identificar la naturaleza de la variables que desea estudiar. Es decir:
- Variable Respuesta- Distribución (continua, ordinal, categórica)
- Variable Explicativa- Número de grupos o niveles
Así cómo la idoneidad del tipo de prueba:
- Homogeneidad- Grupos bien balanceados
Sesión 2: Inferencia estadística para una población
18
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Variable respuesta Normal
Para comparar una variable respuesta entre dos muestras independientes cuando dicha variable sigue una distribución normal se utiliza la prueba:
prueba T de Student (T-Test):
La hipótesis que contrasta es:
H0: 1= 2 Las medias son igualesH1: 1 2 Las medias son diferentes
Sesión 2: Inferencia estadística para una población
19
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Ejemplo:
Deseamos estudiar si la disminución de tensión arterial de los pacientes que han tomado el tratamiento 2 es superior a los pacientes que han tomado el tratamiento 1. Supondremos que la distribución de la variable DIF es Normal.
La hipótesis que deseamos contrastar es:
H0: 1= 2 La disminución es igualH1: 1 2 La disminución es diferente
Sesión 2: Inferencia estadística para una población
20
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
21
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
22
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Estadísticos de grupo
20 61.150 12.4108 2.7751
20 62.350 9.6206 2.1512
FARMACO1
2
DIFN Media
Desviacióntíp.
Error típ. dela media
Prueba de muestras independientes
1.910 .175 -.342 38 .734 -1.200 3.5113 -8.3083 5.9083
-.342 35.776 .735 -1.200 3.5113 -8.3228 5.9228
Se han asumidovarianzas iguales
No se han asumidovarianzas iguales
DIFF Sig.
Prueba de Levenepara la igualdad de
varianzas
t gl Sig. (bilateral)Diferenciade medias
Error típ. dela diferencia Inferior Superior
95% Intervalo deconfianza para la
diferencia
Prueba T para la igualdad de medias
Sesión 2: Inferencia estadística para una población
23
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Para comparar una variable respuesta entre dos muestras independientes cuando dicha variable es categórica se utilizan las pruebas:
prueba 2, prueba Exacta de Fisher o prueba RV:
La hipótesis que contrastan es:
H0: La variable respuesta es independiente de la variable explicativa (Los grupos de tratamiento son homogéneos).
H1: La variable respuesta NO es independiente de la variable explicativa (Los grupos de tratamiento no son homogéneos).
Variable respuesta Categórica
Sesión 2: Inferencia estadística para una población
24
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Ejemplo:
Deseamos estudiar si la distribución según estatus social es homogénea en ambos grupos de tratamiento.
La hipótesis que deseamos contrastar es:
H0: La distribución según estatus social es homogénea en ambos grupos de Tratamiento.
H1: La distribución según estatus social NO es homogénea en ambos grupos de Tratamiento.
Sesión 2: Inferencia estadística para una población
25
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
26
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
27
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Resumen del procesamiento de los casos
40 100.0% 0 .0% 40 100.0%STATUS * FARMACON Porcentaje N Porcentaje N Porcentaje
Válidos Perdidos Total
Casos
Tabla de contingencia STATUS * FARMACO
9 8 17
45.0% 40.0% 42.5%
5 6 11
25.0% 30.0% 27.5%
6 6 12
30.0% 30.0% 30.0%
20 20 40
100.0% 100.0% 100.0%
Recuento
% de FARMACO
Recuento
% de FARMACO
Recuento
% de FARMACO
Recuento
% de FARMACO
1
2
3
STATUS
Total
1 2
FARMACO
Total
Pruebas de chi-cuadrado
.150a 2 .928
.150 2 .928
.034 1 .853
40
Chi-cuadrado de Pearson
Razón de verosimilitud
Asociación lineal porlineal
N de casos válidos
Valor glSig. asintótica
(bilateral)
0 casillas (.0%) tienen una frecuencia esperada inferior a 5.La frecuencia mínima esperada es 5.50.
a.
Sesión 2: Inferencia estadística para una población
28
La sumisión de los investigadores al p-valor
La utilización sistemática del p-valor puede llevar a resultados engañosos.
EJEMPLO: Se quiere analizar la estancia en días de los turistas en Catalunya. En concreto se desea comparar las estancias de los europeos y los procedentes de países asiáticos. Un contraste en términos de las diferencias se plantea como:
H0: d = 0 (no hay diferencia)
H1: d 0
El p-valor del test estadístico resulta ser p=0,02, con lo que se concluye que hay diferencias. ¿Es suficiente?
Necesitamos medir el tamaño del efecto realizando un intervalo de confianza para la diferencia ya que podría ser, por ejemplo, que:
d Є (0.5, 1) o bien d Є (10, 15)
Servei d’EstadísticaUniversitat Autònoma de Barcelona
Sesión 2: Inferencia estadística para una población
29
ANOVA MULTIFACTORIAL• El ANOVA nos permite analizar el efecto de más de
una variable de agrupación sobre una variable cuantitativa. En este caso utilizaremos un ANOVA multifactorial.
• La principal ventaja de la realización del ANOVA multifactorial es que, además de poder analizar el efecto de cada una de las variables de agrupación por separado (también conocido como efectos principales de las variables, main effects), nos abre la posibilidad de analizar la interacción (o efecto interactivo).
Sesión 2: Inferencia estadística para una población
30
Between- and within-subjects factors
• Between-subjects designs vary independent variables with the subjects, so each subject represents one of the values (levels) of the independent variable.– Ex: language, sex, age,
etc.
• Within-subjects designs vary independent variables for each subject, so each subject sees all of the levels of the independent variable.– Ex: syllable duration, F0
alignment, etc.
– Age, for longitudinal studies
Sesión 2: Inferencia estadística para una población
31
INTERACCIÓN A x B• Arriba pueden verse tres casos en los que no se produce
interacción entre las variables; abajo hay dos casos en los que se produce interacción.
0
10
20
30
40
50
60
70
80
b1 b2
a1a2
0
10
20
30
40
50
60
70
80
b1 b2
a1a2
0
10
20
30
40
50
60
70
80
b1 b2
a1a2
0
10
20
30
40
50
60
70
80
b1 b2
a1a2
0
10
20
30
40
50
60
70
80
b1 b2
a1a2
Efecto principal para la variable A Efecto principal para la variable B Efectos principales para las variables A y B
Interacción A x B sin efectos principales Interacción A x B con efectos principales para ambas variables
Sesión 2: Inferencia estadística para una población
32
EJERCICIO
• El grupo de empresas del ejercicio presentado en el capítulo anterior está interesado en estudiar si los distintos tipos de incentivos afectarán a la producción de los operarios de forma diferencial dependiendo del tipo de contrato que tengan. Con este objetivo seleccionan sus cuatro secciones de serigrafía: dos de ellas están compuestas por operarios con contratos temporales y en las otras dos todos los empleados son personal fijo. Los operarios de dos secciones recibirán durante tres meses incentivos de tipo individual, mientras que los operarios de las otras secciones recibirán incentivos en función de la producción alcanzada en la sección. Como medida de la productividad se utiliza para cada operario la diferencia entre el promedio semanal de piezas producidas la primera semana y el promedio semanal producido la última semana del estudio.
Sesión 2: Inferencia estadística para una población
33
• A continuación presentamos la tabla de datos:
TEMPORAL FIJO medias
medias 267.8 197.6 232.7
medias 254.4 83.9 169.2
medias 261.1 140.8 200.9
INCENTIVO
INDIVIDUAL
COLECTIVO
CONTRATO
257.2279.1273.1271.0233.6235.8272.1320.8
suj. 1suj. 2suj. 3suj. 4suj. 5suj. 6suj. 7suj. 8
205.4210.6152.5195.2192.7204.7202.4217.4
204.3280.4272.1267.5250.4223.6295.5242.0
79.7107.375.773.693.960.479.9101.2
suj. 1suj. 2suj. 3suj. 4suj. 5suj. 6suj. 7suj. 8
Sesión 2: Inferencia estadística para una población
34
Pruebas de los efectos inter-sujetos
Variable dependiente: PRODUCCI
168289.547a 3 56096.516 96.699 .000 .912
1292576.718 1 1292576.7 2228.139 .000 .988
32284.924 1 32284.924 55.653 .000 .665
115882.088 1 115882.088 199.757 .000 .877
20122.534 1 20122.534 34.687 .000 .553
16243.216 28 580.115
1477109.480 32
184532.762 31
FuenteModelo corregido
Intercept
INCENTIV
CONTRATO
INCENTIV * CONTRATO
Error
Total
Total corregido
Suma decuadrados
tipo III glMedia
cuadrática F Sig. Eta cuadrado
R cuadrado = .912 (R cuadrado corregido = .903)a.
Tipo de contrato x Tipo de incentivo
INCENTIVO
colectivoindividual
Incr
em
en
to e
n la
pro
du
cció
n
300
200
100
0
CONTRATO
temporal
fijo