51
Inferencia estadística [email protected] Universidad Anáhuac, mayo 2015 1

INFERENCIA ESTADISTICA

Embed Size (px)

Citation preview

Inferencia

estadística

[email protected]

Universidad Anáhuac, mayo 20151

Fundamentos

"Teoría de la Probabilidad“

O las distintas formas funcionales de las

distribuciones de probabilidad.

"Teoría de Muestras“

procedimientos para tomar muestras de manera

apropiada.

2

Teoría de muestras

Técnicas y procedimientos que deben emplearse paraque las muestras sean representativas de la poblaciónbajo estudio, de forma que los errores en ladeterminación de los parámetros de la poblaciónobjeto de estudio sean mínimos.

Para que la extracción de la muestra searepresentativa se deben cumplir dos principiosbásicos:

Que haya independencia en la selección de losindividuos que forman la muestra y

Que todos los individuos tengan la misma probabilidadde ser incluidos en la muestra.

3

Modelos de muestreo - Muestreo Aleatorio

Simple (MAS)

Para efectuar este tipo de muestreo en una población

con N individuos, se enumeran de 1 a n a los N

individuos de la población.

Mediante un programa de ordenador o una tabla de

generación de números aleatorios, se seleccionan a

los n individuos que formarán la muestra.

Después de cada extracción el individuo seleccionado

se devuelve a la población para que pueda volver a

ser elegido.

4

Modelos de muestreo - Muestreo Aleatorio

Estratificado (MAE)

Cuando la población no es homogénea respecto a

la variable aleatoria objeto de estudio, conviene

distinguir en ella, clases o estratos.

Los estratos se deben elegir de manera que sean

lo más homogéneos posible respecto a la variable

aleatoria a estudiar y que entre ellos exista la

mayor diferencia posible.

5

Modelos de muestreo - Muestreo Aleatorio

Estratificado

Afijación: Reparto del tamaño de la muestra entre

los diferentes estratos de una población.

Afijación Uniforme: Mismo número de individuos

por estrato.

Afijación Proporcional: Distribución de los

individuos que forman la muestra proporcionalmente

al número de individuos de cada estrato.

Una vez definido el número de individuos por estrato,

la selección de individuos se realiza por MAS.

6

Ejemplo

Se pretende valorar las faltas de ortografía que

cometen los alumnos de una escuela

primaria/secundaria mediante un dictado de un

texto de 20 líneas; la prueba se realizará a una

muestra de 50 alumnos.

Se divide la población en cuatro estratos: primero

y segundo grados, tercero y cuarto grados y quinto

y sexto grados de primaria; todos los niveles de

secundaria.

7

La población escolar es:

1º y 2º años de primaria: 110 alumnos.

3º y 4º año de primaria: 162 alumnos.

5º y 6º grados de primaria: 210 alumnos

Alumnos de secundaria: 338 alumnos.

Como el número total de alumnos son 820 y la

muestra debe estar formada por 50 alumnos, el

cálculo del número de alumnos que se han de tomar

de cada estrato se calcula como sigue:

8

9

1º y 2º de primaria:

3º y 4º de primaria :

5º y 6º de primaria

Secundaria

Inferencia

Deducción de una cosa a partir de otra, conclusión

deducción

f. Conclusión,inferencia: de acuerdo a lo que se sabe,

sacar deducciones y decidir.

filos

m. Método de razonamiento que parte de conceptos

generales o principios universales para llegar a

conclusiones particulares: la deducción presupone el

pensamiento hipotético.10

Estadística inferencial

Parte de la Estadística que comprende los

métodos y procedimientos para deducir

propiedades (hacer inferencias) de una población,

a partir de una pequeña parte de la misma

(muestra).

La bondad de estas deducciones se mide en

términos probabilísticos: toda inferencia se

acompaña de su probabilidad de acierto.

11

Inferencia estadística (IE)

Se basa en las conclusiones a la que se llega por

la ciencia experimental basándose en información

muestral (de una parte de la población),

generando modelos probabilísticos a partir de un

conjunto de observaciones y, a partir de dicha

muestra, se estiman los parámetros del modelo,

contrastándolos contra las hipótesis establecidas,

a fin de determinar si el modelo probabilístico

refleja el problema real planteado.

12

13

POBLACIÓN

Muestra

INFERENCIA

Procedimiento

Se parte de un conjunto de observaciones de una

variable;

Se “infiere” o genera un modelo probabilístico.

La IE es la consecuencia de la investigación

empírica (cuando se está llevando a cabo) y como

consecuencia de la ciencia teórica (cuando se

están generando estimadores, o métodos, con tal

o cual característica para casos particulares).14

Problemas fundamentales de aplicación

Problema de la estimación

15

16

Población Muestra

Definición Colección de elementos

considerados

Parte o porción de la

población seleccionada

para su estudio

Características “Parámetros” “Estadísticos”

Símbolos Tamaño de la población = N Tamaño de la muestra =

n

Media de la población = m

Desviación estándar de la

población = s

Desviación estándar de

la muestra = s

Conceptos iniciales

Estimación Puntual.- Estadístico calculado a partir de la información obtenida de la muestra y que se usa para estimar el parámetro poblacional

Intervalo de confianza.- es un conjunto de valores obtenido a partir de los datos muestrales en el que hay una determinada probabilidad de que se encuentre el parámetro, a esta probabilidad se le conoce como el nivel de significancia.

Error de muestreo.- Diferencia entre un valor estadístico de muestra y su parámetro de población correspondiente.

Intervalos de confianza

n

szX

n

stX

1

)( 2

2

n

n

XX

s

Para muestras mayores a 30 elementos

Para muestras menores a 30 elementos

Desviación estándar

N

X

2)( ms

Ejercicio

Suponga que se toma una muestra de 30

empleados de los cuales reciben en promedio

349$ y una desviación estándar de 110$. ¿Cuál es

el intervalo de confianza?

19

n

szX

30

11096,1349

39349

389310

Ejercicio

Suponga que se toma una muestra de 20

empleados de los cuales reciben en promedio

346$ y una desviación estándar de 126$. ¿Cuál es

el intervalo de confianza?

20

n

stX

20

126093,2346

59346

405287

Proporciones

Fracción, razón o porcentaje que indica la parte de la muestra o población que tiene una característica determinada

PROPORCIÓN MUESTRAL: n

xp

INTERVALOS DE CONFIANZA PARA UNA PROPORCIÓN POBLACIONAL pzp s

ERROR ESTÁNDAR DE LA PROPORCIÓN MUESTRAL

n

ppp

)1( s

Ejercicio

En una muestra aleatoria de 2000 miembros de

sindicato, se tiene que 1600 están a favor de

fusionarse con otra empresa ¿Cuál es el valor

estimado de la proporción poblacional?¿Cuál es el

intervalo de confianza al 95% de confianza?

22 n

ppzp

)1(

n

xp 80,0

2000

1600p

018,080,02000

)80,01(80,096,180,0

Problemas fundamentales de aplicación

Problema del contraste de

hipótesis

23

Prueba de hipótesis para una muestra

24

HIPÓTESIS.- Es una afirmación sobre una población,

que puede someterse a pruebas al extraer una muestra

aleatoria.

PRUEBA DE HIPÓTESIS.- Formular una teoría y luego contrastarla

PASOS PARA PROBAR UNA HIPÓTESIS

1. PRUEBA DE HIPÓTESIS

2. SELECCIONAR EL NIVEL DE SIGNIFICANCIA

3. CALCULAR EL VALOR ESTADÍSTICO DE PRUEBA

4. FORMULAR LA REGLA DE DECISIÓN

5. DECIDIR

Test de hipótesis

Metodología o procedimiento que permite

cuantificar la probabilidad del error que se

cometería cuando se hace una afirmación sobre la

población bajo estudio; es decir, permite medir la

fuerza de la evidencia que tienen los datos a favor

o en contra de alguna hipótesis de interés sobre la

población.

Es un procedimiento de decisión basado en datos

muestrales.

25

26

0:0

00 :

mm

mm

H

H

01

01

:

:

mm

mm

H

H

Hipótesis nula: Afirmación acerca del valor de un parámetro poblacional

Hipótesis Alternativa: Afirmación que se aceptará si los datos muestrales aseguran que es falsa H 0

Nivel de significancia

Generalmente son del 5% o 1% (Error de tipo I y Error de tipo II)

ERROR DE TIPO I.- Rechazar la hipótesis nula, H0 cuando es verdadera

ERROR DE TIPO II.- Aceptar la hipótesis nula, H0 cuando es Falsa

Cuánto influye el nivel de escolaridad de la madre

sobre el estado nutricional del niño?

Para investigar sobre este punto, se toma una

muestra de niños y se analiza en cada uno de

ellos el estado nutricional y el nivel de escolaridad

de sus madres. Una vez obtenidos los datos, se

necesita de un procedimiento que estime la

verosimilitud de los resultados obtenidos en la

muestra.

Este es un test de hipótesis estadística.

27

Los tests de hipótesis consisten en confrontar dos

hipótesis, una llamada hipótesis nula (H0) y otra

llamada hipótesis alternativa (H1). En el ejemplo

las hipótesis que se plantean son:

1. “el estado nutricional de los niños está asociado

al nivel de escolaridad de las madres” (hipótesis

de trabajo).

2. No existe tal asociación.28

La hipótesis nula admite sólo una posibilidad (noexiste asociación), mientras la hipótesis alternativaadmite varias posibilidades.

Ejemplo

Supongamos que se quiere probar si la proporción (p)de desnutridos en una población infantil es igual o noal 20%. La H0 es que la proporción de desnutridos esigual al 20% (p=0,20), mientras que la H1admite tresposibilidades: que la proporción de desnutridos seamenor al 20% (p<0,20), que sea mayor al 20%(p>0,20), o que sea distinta al 20% (p ≠ 0,20), se debe

determinar como H1una de estas tres posibilidades.

29

30

Puesto que, el interés generalmente es “rechazarHo” la probabilidad de error que se controladurante este procedimiento, es justamente el errorasociado a esta decisión (Probabilidad del ErrorTipo I), es decir, la probabilidad de rechazar Hocuando es cierta.

La máxima probabilidad de error tipo I se denotacon α y recibe el nombre de nivel de significacióndel test y él debe ser prefijado de antemano,generalmente varía entre el 1% y el 5% (α= 0,01 oα= 0,05). La probabilidad de Error Tipo II sedenota con β.

31

32

Valor estadístico de prueba. Estadísticos de pruebas como: Z, t de Student, F y Ji cuadrado

Formular la regla de decisión

Son las condiciones según las que se acepta o rechaza la hipótesis nula

Tomar una decisión

El valor observado de la estadística muestral se compara con el valor de estadística de prueba

Inferencia paramétrica y no paramétrica

Inferencia estadística paramétrica

Se conoce la forma funcional de la función de

distribución que sigue la variable aleatoria objeto

de estudio y sólo deben estimarse los parámetros

que la determinan.

Inferencia estadística no paramétrica

No se conoce la forma funcional de la distribución

que sigue la variable aleatoria objeto de estudio.33

Tipos de pruebas de hipótesis

Prueba de una cola: prueba de cualquier hipótesis

estadística donde la alternativa es unilateral

H0: p=p0

H1: p>p0 (cola derecha) H1: p<p0(cola izquierda)

Prueba de dos colas: prueba de cualquier

hipótesis estadística donde la alternativa es

bilateral

H0: p = p0

H1: p ≠ p0

34

Prueba sobre una media

Se conoce que el promedio de días de estadía de

pacientes de un hospital es de 8 días; si en una

muestra aleatoria de 30 pacientes incluidos en un

estudio indica que el promedio de días de estada

es de 6 días con un desvío estándar de 2,31 días;

cual es la probabilidad de que promedio de días

de estancia sea menor a 8 con un nivel de

significancia del 5%?

35

Prueba sobre una proporción

Se cree que un medicamento es efectivo en un

60% ( los casos. De un nuevo medicamento

administrado en una muestra aleatoria de 100

adultos, 70 mejoraron (p=0,7); al 5% de

significancia se puede afirmar que el nuevo

medicamento es mejor o no?

36

Inferencia

estadística

paramétrica

37

38

Un mismo individuo

39

Dos grupos independientes

40

Un grupo bajo diferentes condiciones

41

Análisis paramétricos

Coeficientes de correlación (Pearson)

Regresión lineal

Prueba t

Prueba de diferencia de proporciones

Análisis de varianza

Análisis de covarianza

42

Analiza la relación entre dos variables medidas

en un nivel por intervalos o de razón.

Símbolo – r

Ejemplos: A mayor X, mayor Y.

A mayor X, menor Y.

La hipótesis de investigación señala que la

correlación es significativa. (No identifica

causalidad).

Coeficiente de correlación de Pearson

Es un modelo estadístico para estimar el efecto

de una variable sobre otra.

Está asociado con el coeficiente de correlación de

Pearson.

Brinda la oprtunidad de predecir las puntuaciones

de una variable tomando las puntuaciones de la

otra variable.

Regresión lineal

Es una prueba estadística para evaluar si dos

grupos difieren entre si de manera significativa

respecto a sus medias en una variable.

Símbolo – t.

La hipótesis de investigación propone que los dos

grupos difieren de manera significativa y la

hipótesis nula que los dos grupos no difieren.

Prueba t de Student

Es una prueba estadística para analizar si dos

proporciones o porcentajes difieren

significativamente entre sí, en dos grupos.

La comparación se realiza con una variable.

Si hay varias variables hay que realizar una

prueba por cada variable.

Prueba de diferencia de proporciones

Es una prueba estadística para analizar si más

de dos grupos difieren significativamente (son

diferentes)entre sí en cuanto a sus medias y

varianzas.

Análisis de varianza(ANOVA- one-way)

Inferencia

estadística no

paramétrica

48

Chi cuadrada

Coeficientes de correlación e independencia para

tabulaciones cruzadas

Coeficientes de correlación por rangos ordenados

de Spearman y Kendall.

Análisis no paramétricos

Es una prueba estadística para evaluar

hipótesis acerca de la relación entre dos

variables categóricas.

Símbolo – X2

No considera relaciones causales.

Chi cuadrada

Dudas?

51