Upload
anahuac
View
1
Download
0
Embed Size (px)
Citation preview
Fundamentos
"Teoría de la Probabilidad“
O las distintas formas funcionales de las
distribuciones de probabilidad.
"Teoría de Muestras“
procedimientos para tomar muestras de manera
apropiada.
2
Teoría de muestras
Técnicas y procedimientos que deben emplearse paraque las muestras sean representativas de la poblaciónbajo estudio, de forma que los errores en ladeterminación de los parámetros de la poblaciónobjeto de estudio sean mínimos.
Para que la extracción de la muestra searepresentativa se deben cumplir dos principiosbásicos:
Que haya independencia en la selección de losindividuos que forman la muestra y
Que todos los individuos tengan la misma probabilidadde ser incluidos en la muestra.
3
Modelos de muestreo - Muestreo Aleatorio
Simple (MAS)
Para efectuar este tipo de muestreo en una población
con N individuos, se enumeran de 1 a n a los N
individuos de la población.
Mediante un programa de ordenador o una tabla de
generación de números aleatorios, se seleccionan a
los n individuos que formarán la muestra.
Después de cada extracción el individuo seleccionado
se devuelve a la población para que pueda volver a
ser elegido.
4
Modelos de muestreo - Muestreo Aleatorio
Estratificado (MAE)
Cuando la población no es homogénea respecto a
la variable aleatoria objeto de estudio, conviene
distinguir en ella, clases o estratos.
Los estratos se deben elegir de manera que sean
lo más homogéneos posible respecto a la variable
aleatoria a estudiar y que entre ellos exista la
mayor diferencia posible.
5
Modelos de muestreo - Muestreo Aleatorio
Estratificado
Afijación: Reparto del tamaño de la muestra entre
los diferentes estratos de una población.
Afijación Uniforme: Mismo número de individuos
por estrato.
Afijación Proporcional: Distribución de los
individuos que forman la muestra proporcionalmente
al número de individuos de cada estrato.
Una vez definido el número de individuos por estrato,
la selección de individuos se realiza por MAS.
6
Ejemplo
Se pretende valorar las faltas de ortografía que
cometen los alumnos de una escuela
primaria/secundaria mediante un dictado de un
texto de 20 líneas; la prueba se realizará a una
muestra de 50 alumnos.
Se divide la población en cuatro estratos: primero
y segundo grados, tercero y cuarto grados y quinto
y sexto grados de primaria; todos los niveles de
secundaria.
7
La población escolar es:
1º y 2º años de primaria: 110 alumnos.
3º y 4º año de primaria: 162 alumnos.
5º y 6º grados de primaria: 210 alumnos
Alumnos de secundaria: 338 alumnos.
Como el número total de alumnos son 820 y la
muestra debe estar formada por 50 alumnos, el
cálculo del número de alumnos que se han de tomar
de cada estrato se calcula como sigue:
8
Inferencia
Deducción de una cosa a partir de otra, conclusión
deducción
f. Conclusión,inferencia: de acuerdo a lo que se sabe,
sacar deducciones y decidir.
filos
m. Método de razonamiento que parte de conceptos
generales o principios universales para llegar a
conclusiones particulares: la deducción presupone el
pensamiento hipotético.10
Estadística inferencial
Parte de la Estadística que comprende los
métodos y procedimientos para deducir
propiedades (hacer inferencias) de una población,
a partir de una pequeña parte de la misma
(muestra).
La bondad de estas deducciones se mide en
términos probabilísticos: toda inferencia se
acompaña de su probabilidad de acierto.
11
Inferencia estadística (IE)
Se basa en las conclusiones a la que se llega por
la ciencia experimental basándose en información
muestral (de una parte de la población),
generando modelos probabilísticos a partir de un
conjunto de observaciones y, a partir de dicha
muestra, se estiman los parámetros del modelo,
contrastándolos contra las hipótesis establecidas,
a fin de determinar si el modelo probabilístico
refleja el problema real planteado.
12
Procedimiento
Se parte de un conjunto de observaciones de una
variable;
Se “infiere” o genera un modelo probabilístico.
La IE es la consecuencia de la investigación
empírica (cuando se está llevando a cabo) y como
consecuencia de la ciencia teórica (cuando se
están generando estimadores, o métodos, con tal
o cual característica para casos particulares).14
16
Población Muestra
Definición Colección de elementos
considerados
Parte o porción de la
población seleccionada
para su estudio
Características “Parámetros” “Estadísticos”
Símbolos Tamaño de la población = N Tamaño de la muestra =
n
Media de la población = m
Desviación estándar de la
población = s
Desviación estándar de
la muestra = s
Conceptos iniciales
Estimación Puntual.- Estadístico calculado a partir de la información obtenida de la muestra y que se usa para estimar el parámetro poblacional
Intervalo de confianza.- es un conjunto de valores obtenido a partir de los datos muestrales en el que hay una determinada probabilidad de que se encuentre el parámetro, a esta probabilidad se le conoce como el nivel de significancia.
Error de muestreo.- Diferencia entre un valor estadístico de muestra y su parámetro de población correspondiente.
Intervalos de confianza
n
szX
n
stX
1
)( 2
2
n
n
XX
s
Para muestras mayores a 30 elementos
Para muestras menores a 30 elementos
Desviación estándar
N
X
2)( ms
Ejercicio
Suponga que se toma una muestra de 30
empleados de los cuales reciben en promedio
349$ y una desviación estándar de 110$. ¿Cuál es
el intervalo de confianza?
19
n
szX
30
11096,1349
39349
389310
Ejercicio
Suponga que se toma una muestra de 20
empleados de los cuales reciben en promedio
346$ y una desviación estándar de 126$. ¿Cuál es
el intervalo de confianza?
20
n
stX
20
126093,2346
59346
405287
Proporciones
Fracción, razón o porcentaje que indica la parte de la muestra o población que tiene una característica determinada
PROPORCIÓN MUESTRAL: n
xp
INTERVALOS DE CONFIANZA PARA UNA PROPORCIÓN POBLACIONAL pzp s
ERROR ESTÁNDAR DE LA PROPORCIÓN MUESTRAL
n
ppp
)1( s
Ejercicio
En una muestra aleatoria de 2000 miembros de
sindicato, se tiene que 1600 están a favor de
fusionarse con otra empresa ¿Cuál es el valor
estimado de la proporción poblacional?¿Cuál es el
intervalo de confianza al 95% de confianza?
22 n
ppzp
)1(
n
xp 80,0
2000
1600p
018,080,02000
)80,01(80,096,180,0
Prueba de hipótesis para una muestra
24
HIPÓTESIS.- Es una afirmación sobre una población,
que puede someterse a pruebas al extraer una muestra
aleatoria.
PRUEBA DE HIPÓTESIS.- Formular una teoría y luego contrastarla
PASOS PARA PROBAR UNA HIPÓTESIS
1. PRUEBA DE HIPÓTESIS
2. SELECCIONAR EL NIVEL DE SIGNIFICANCIA
3. CALCULAR EL VALOR ESTADÍSTICO DE PRUEBA
4. FORMULAR LA REGLA DE DECISIÓN
5. DECIDIR
Test de hipótesis
Metodología o procedimiento que permite
cuantificar la probabilidad del error que se
cometería cuando se hace una afirmación sobre la
población bajo estudio; es decir, permite medir la
fuerza de la evidencia que tienen los datos a favor
o en contra de alguna hipótesis de interés sobre la
población.
Es un procedimiento de decisión basado en datos
muestrales.
25
26
0:0
00 :
mm
mm
H
H
01
01
:
:
mm
mm
H
H
Hipótesis nula: Afirmación acerca del valor de un parámetro poblacional
Hipótesis Alternativa: Afirmación que se aceptará si los datos muestrales aseguran que es falsa H 0
Nivel de significancia
Generalmente son del 5% o 1% (Error de tipo I y Error de tipo II)
ERROR DE TIPO I.- Rechazar la hipótesis nula, H0 cuando es verdadera
ERROR DE TIPO II.- Aceptar la hipótesis nula, H0 cuando es Falsa
Cuánto influye el nivel de escolaridad de la madre
sobre el estado nutricional del niño?
Para investigar sobre este punto, se toma una
muestra de niños y se analiza en cada uno de
ellos el estado nutricional y el nivel de escolaridad
de sus madres. Una vez obtenidos los datos, se
necesita de un procedimiento que estime la
verosimilitud de los resultados obtenidos en la
muestra.
Este es un test de hipótesis estadística.
27
Los tests de hipótesis consisten en confrontar dos
hipótesis, una llamada hipótesis nula (H0) y otra
llamada hipótesis alternativa (H1). En el ejemplo
las hipótesis que se plantean son:
1. “el estado nutricional de los niños está asociado
al nivel de escolaridad de las madres” (hipótesis
de trabajo).
2. No existe tal asociación.28
La hipótesis nula admite sólo una posibilidad (noexiste asociación), mientras la hipótesis alternativaadmite varias posibilidades.
Ejemplo
Supongamos que se quiere probar si la proporción (p)de desnutridos en una población infantil es igual o noal 20%. La H0 es que la proporción de desnutridos esigual al 20% (p=0,20), mientras que la H1admite tresposibilidades: que la proporción de desnutridos seamenor al 20% (p<0,20), que sea mayor al 20%(p>0,20), o que sea distinta al 20% (p ≠ 0,20), se debe
determinar como H1una de estas tres posibilidades.
29
Puesto que, el interés generalmente es “rechazarHo” la probabilidad de error que se controladurante este procedimiento, es justamente el errorasociado a esta decisión (Probabilidad del ErrorTipo I), es decir, la probabilidad de rechazar Hocuando es cierta.
La máxima probabilidad de error tipo I se denotacon α y recibe el nombre de nivel de significacióndel test y él debe ser prefijado de antemano,generalmente varía entre el 1% y el 5% (α= 0,01 oα= 0,05). La probabilidad de Error Tipo II sedenota con β.
31
32
Valor estadístico de prueba. Estadísticos de pruebas como: Z, t de Student, F y Ji cuadrado
Formular la regla de decisión
Son las condiciones según las que se acepta o rechaza la hipótesis nula
Tomar una decisión
El valor observado de la estadística muestral se compara con el valor de estadística de prueba
Inferencia paramétrica y no paramétrica
Inferencia estadística paramétrica
Se conoce la forma funcional de la función de
distribución que sigue la variable aleatoria objeto
de estudio y sólo deben estimarse los parámetros
que la determinan.
Inferencia estadística no paramétrica
No se conoce la forma funcional de la distribución
que sigue la variable aleatoria objeto de estudio.33
Tipos de pruebas de hipótesis
Prueba de una cola: prueba de cualquier hipótesis
estadística donde la alternativa es unilateral
H0: p=p0
H1: p>p0 (cola derecha) H1: p<p0(cola izquierda)
Prueba de dos colas: prueba de cualquier
hipótesis estadística donde la alternativa es
bilateral
H0: p = p0
H1: p ≠ p0
34
Prueba sobre una media
Se conoce que el promedio de días de estadía de
pacientes de un hospital es de 8 días; si en una
muestra aleatoria de 30 pacientes incluidos en un
estudio indica que el promedio de días de estada
es de 6 días con un desvío estándar de 2,31 días;
cual es la probabilidad de que promedio de días
de estancia sea menor a 8 con un nivel de
significancia del 5%?
35
Prueba sobre una proporción
Se cree que un medicamento es efectivo en un
60% ( los casos. De un nuevo medicamento
administrado en una muestra aleatoria de 100
adultos, 70 mejoraron (p=0,7); al 5% de
significancia se puede afirmar que el nuevo
medicamento es mejor o no?
36
Análisis paramétricos
Coeficientes de correlación (Pearson)
Regresión lineal
Prueba t
Prueba de diferencia de proporciones
Análisis de varianza
Análisis de covarianza
42
Analiza la relación entre dos variables medidas
en un nivel por intervalos o de razón.
Símbolo – r
Ejemplos: A mayor X, mayor Y.
A mayor X, menor Y.
La hipótesis de investigación señala que la
correlación es significativa. (No identifica
causalidad).
Coeficiente de correlación de Pearson
Es un modelo estadístico para estimar el efecto
de una variable sobre otra.
Está asociado con el coeficiente de correlación de
Pearson.
Brinda la oprtunidad de predecir las puntuaciones
de una variable tomando las puntuaciones de la
otra variable.
Regresión lineal
Es una prueba estadística para evaluar si dos
grupos difieren entre si de manera significativa
respecto a sus medias en una variable.
Símbolo – t.
La hipótesis de investigación propone que los dos
grupos difieren de manera significativa y la
hipótesis nula que los dos grupos no difieren.
Prueba t de Student
Es una prueba estadística para analizar si dos
proporciones o porcentajes difieren
significativamente entre sí, en dos grupos.
La comparación se realiza con una variable.
Si hay varias variables hay que realizar una
prueba por cada variable.
Prueba de diferencia de proporciones
Es una prueba estadística para analizar si más
de dos grupos difieren significativamente (son
diferentes)entre sí en cuanto a sus medias y
varianzas.
Análisis de varianza(ANOVA- one-way)
Chi cuadrada
Coeficientes de correlación e independencia para
tabulaciones cruzadas
Coeficientes de correlación por rangos ordenados
de Spearman y Kendall.
Análisis no paramétricos
Es una prueba estadística para evaluar
hipótesis acerca de la relación entre dos
variables categóricas.
Símbolo – X2
No considera relaciones causales.
Chi cuadrada