Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
TEMA 5. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Y MUESTREO
ESTADÍSTICA APLICADA AL TURISMO
GRADO EN TURISMO
J.J. Noguera
Ramas de la Estadística
• Estadística descriptiva o deductiva: tratar y resumir las observaciones de una población.
• Cálculo de probabilidades: herramientas matemáticas conceptuales y teóricas para abordar la inferencia estadística.
• Inferencia Estadística: a partir de la información obtenida en una muestra se infieren resultados para toda la población con ciertos niveles de seguridad o confianza..
J.J. Noguera
Conceptos básicos
• Población o universo: conjunto total de todos los elementos que se desean estudiar.
• Marco estadístico: lista (ficheros, directorios, listados…) que permiten identificar cada una de las unidades de la población.
• Individuo o unidad de investigación: cada uno de los elementos de una muestra o de una población
J.J. Noguera
Conceptos básicos
• Parámetros: características poblacionales que deseamos investigar (desconocidas a priori).
• Variables: son los parámetros en el caso que tomen valores numéricos. Pueden ser discretas o continuas. También pueden distinguirse por temporales o históricas y atemporales o de corte transversal.
• Atributos: parámetros en el caso que no tomen valores numéricos. Presentan modalidades o categorías y pueden ser ordenables o no ordenables.
J.J. Noguera
Conceptos básicos
• Muestra: subconjunto de una población.
• Muestreo o diseño muestral: procedimiento mediante el cual se determina la muestra.
• Muestra representativa: muestra de cuyos resultados podemos inferir información al total de la población de manera fiable.
• Estimador o estadístico (𝜽 ): función que asocia a cada muestra un valor numérico mediante el cual se inferirá información para deducir los parámetros poblacionales.
J.J. Noguera
Conceptos básicos
• Estimación: valor que toma un estimador al aplicarlo a una muesta concreta.
• Acuracidad: representa la proximidad de los cálculos estadísticos a los verdaderos valores de la población (el grado de acuracidad de una estimación es siempre desconocido)
• Muestra representativa: muestra de cuyos resultados podemos inferir información al total de la población de manera fiable.
J.J. Noguera
Conceptos básicos
• Precisión: indica hasta que punto y con qué probabilidad pueden diferir entre sí, y como media, las estimaciones obtenidas a partir de dos muestras distintas.
• Nivel o intervalo de confianza: grado de certidumbre que tenemos sobre la exactitud de la estimación de la muestra.
• Sesgo: es la diferencia entre el valor esperado y el verdadero valor poblacional.
J.J. Noguera
Muestreo vs censo
• Censo: se estudian todos los individuos de la población. Se obtienen resultados reales para la población.
• Muestreo: Sólo se estudia una parte de la población. En ocasiones esta es la única alternativa: si es estudio de la muestra es destructiva, si el coste de realizar un censo es prihibitivo, por economía de tiempo…
J.J. Noguera
Tipos de muestreo
• Probabilístico: a cada muestra y elemento muestral se le puede asociar una determinada probabilidad conocida y no nula.
• No probabilístico: cuando no se dan las condiciones del muestreo probabilístico. No son representativas de la población.
J.J. Noguera
No probabilístico
• Sin norma o de conveniencia: en la selección de la muestra prima la rapidez y el bajo coste.
• Opinático o subjetivo: el investigador o un grupo de expertos elige la muestra.
• Diseño de bola de nieve: a partir de una unidad poblacional se llega a otra y así sucesivamente.
• Por rutas aleatorias: por ejemplo sobre planos de calles en las que se sigue un algoritmo determinado.
• Por cuotas: se estudian un cierto número de individuos en ciertos subgrupos de la población. Todo ello fijado por el investigador.
J.J. Noguera
Probabilístico
• Muestreo aleatorio simple con reemplazamiento: todas las muestras son equiprobables y las unidades de población también (1/N). Las muestras se pueden elegir varias veces. Se seleccionan aleatoriamente. Problema: cuando no disponeos del marco requerido.
• Muestreo aleatorio simple irrestricto o sin reemplazamiento: como el anterior pero cada unidad se puede seleccionar una única vez. Para poblaciones grandes equivale al anterior.
J.J. Noguera
Probabilístico
• Muestreo sistemático con arranque aleatorio: una vez ordenadas aleatoriamente las unidades muestrales se selecionan de k en k.
• Muestreo estratificado: se toman un número de muestras diferente para cada estrato (grupo de población supuestamente homogéneo). Tenemos una población de tamaño N y el estrato h está formado por Nh individios. Si tomamos nh individuos del estrato h:
– Peso relativo al estato h: Nh/N ( 𝑁ℎ
𝑁= 1)
– Fracción de muestreo: nh/Nh
Los individuos tienen distinta probabilidad de se elegidos según el estrato al que pertenecen.
J.J. Noguera
Probabilístico
• Afijación de la muestra: criterios para tomar el número de individuos por estratos: – Uniforme: se toman igual número de individuos por
estrato. – Proporcional: se toma un número de individuos
proporcional al tamaño del estrato. – De compromiso: tras imponer un tamaño mínimo a
cada estrato, el resto se reparte de forma proporcional. – Por varianza mínima: de forma que la varianza de la
estimación global sea mínima:
𝑛ℎ = 𝑛𝑁ℎ𝑆ℎ 𝑁ℎ𝑆ℎ
J.J. Noguera
Probabilístico
• Por conglomerados: se supone que un conglomerado reproduce a escala la heterogeneidad y diversidad de la población. La diferencia con los estratos es que allí se necesita tomar muestras en cada estrato, mientras que aquí no.
• Bietápico o polietápico por conglomerados: en la primera etapa se seleccionan los conglomerados aleatoriamente y en la segunda se elige la muestra aleatoriamente. Polietápico: generalización de lo anterior.
• Complejos: Combinaciones de los anteriores o más complejos (no los vemos).
J.J. Noguera
Parámetros poblacionales y muestrales
Parámetro poblacional Parámetro muestral
Media 𝜇 =1
𝑁 𝑥𝑖
𝑁
𝑖=1
𝑥 =1
𝑛 𝑥𝑖
𝑛
𝑖=1
Proporción 𝑃 =𝑁1𝑁
𝑝 =𝑛1𝑁
Varianza 𝜎2 =1
𝑁 𝑥𝑖 − 𝜇 2
𝑁
𝑖=1
𝑠2 =1
𝑛 − 1 𝑥𝑖 − 𝑥 2𝑛
𝑖=1
J.J. Noguera
Estos parámetros muestrales son estimadores insesgados de los correspondientes parámetros poblacionales.
ESTIMACIÓN PUNTUAL
• Tomamos como estimación del parámetro poblacional el valor obtenido mediante el parámetro muestral (estimador) al aplicarlo sobre una muestra concreta.
• X sigue una distribución con media 𝜇 y varianza 𝜎2 desconocidas, entonces para muestras grandes (𝑛 ≥ 30) o bien que X sepamos que son normales (en este libro esto no se considera),
𝑥 → 𝑁(𝜇,σ
𝑛)
• Para proporciones, si 𝑝 =𝑛1
𝑛 y las muestras son grandes:
𝑝 → 𝑁(𝑝,𝑝 1 − 𝑝
𝑛)
J.J. Noguera
EJEMPLO
De desea conocer el salario medio de los trabajadores de una gran empresa. Se seleccionan 10 trabajadores al azar, obteniendo:
1500, 950, 890, 2100, 1350, 1700, 1050, 1100, 1200, 1400
a) Estimación puntual del salario medio de todos los trabajadores de la empresa.
b) Estimación puntual de la proporción de trabajadores con salario superior o igual a 1500€.
c) Estimación puntual de la varianza muestral.
J.J. Noguera
Ejemplo
a) 𝜇 = 𝑥 = 𝑥𝑖
𝑛=1500+950+...+1400
10=1324
b) 𝑃 = 𝑝 =𝑛1
𝑛=
4
10=0,4
c) 𝜎2 = 𝑠2 =1
𝑛−1 𝑥 − 𝑥 2 =𝑛𝑖=1
=1
10 − 1 1500 − 1324 2 +⋯+ (1400
− 1324)^2 = 138871,11
Con eso 𝜎 = 138871,11 = 372,65
J.J. Noguera
Estimación por intervalos: media poblacional
Si sabemos que la población sigue una 𝑁(𝜇, 𝜎) con 𝜎 conocida. Si el tamaño de la muestra es 𝑛, el intervalo de confianza para un coeficiente de confianza 1 − 𝛼 (nivel de confianza 100 1 − 𝛼 % es:
[𝑥 − 𝑧𝛼2·𝜎
𝑛; 𝑥 + 𝑧𝛼
2·𝜎
𝑛]
Esto significa que si tomamos 100 muestras, 95 de los intervalos obtenidos para esas muestras contendrán en su interior la verdadera media poblacional.
J.J. Noguera
Estimación por intervalos: media poblacional
Si sabemos que la población sigue una 𝑁(𝜇, 𝜎) con 𝜎 desconocida. Si el tamaño de la muestra es 𝑛, el intervalo de confianza para un coeficiente de confianza 1 − 𝛼 (nivel de confianza 100 1 − 𝛼 % es:
[𝑥 − 𝑧𝛼2·𝑠
𝑛; 𝑥 + 𝑧𝛼
2·𝑠
𝑛]
donde
𝑠2 =1
𝑛 − 1 𝑥𝑖 − 𝑥 2𝑛
𝑖=1
J.J. Noguera
Estimación por intervalos: proporción poblacional
Si la muestra es suficientemente grande (𝑛 ≥ 30), el intervalo de confianza para un coeficiente de confianza 1 − 𝛼 (nivel de confianza 100 1 − 𝛼 % es:
[ 𝑝 − 𝑧𝛼2·
𝑝 1 − 𝑝
𝑛 ; 𝑝 + 𝑧𝛼
2·
𝑝 1 − 𝑝
𝑛 ]
J.J. Noguera
¿Cómo hallar 𝑧𝛼2?
𝒛𝜶𝟐 es el valor tal que deja a la derecha de la
N(0,1) un area de 𝜶
𝟐, es decir 𝑷 𝒁 > 𝒛𝜶
𝟐=
𝜶
𝟐→
𝑷 𝒁 < 𝒛𝜶𝟐
= 𝟏 −𝜶
𝟐
• Normalmente nos pedirán que el nivel de confianza es 90% o 96%
J.J. Noguera
¿Cómo hallar 𝑧𝛼2?
• Si es 90%, entonces
1 − 𝛼 = 0,9 → 𝛼 = 0,1 →𝛼
2= 0,05
→ 𝑃 𝑍 < 𝑧𝛼2
= 0,95 → 𝑧𝛼2= 1,645
• Si es 95%, entonces
1 − 𝛼 = 0,95 → 𝛼 = 0,05 →𝛼
2= 0,025
→ 𝑃 𝑍 < 𝑧𝛼2
= 0,975 → 𝑧𝛼2= 1,96
• Si es 96%, entonces
1 − 𝛼 = 0,96 → 𝛼 = 0,04 →𝛼
2= 0,02
→ 𝑃 𝑍 < 𝑧𝛼2
= 0,98 → 𝑧𝛼2= 2,055
J.J. Noguera
EJEMPLOS
J.J. Noguera
EJEMPLO
De desea conocer el salario medio de los trabajadores de una gran empresa. Se seleccionan 10 trabajadores al azar, obteniendo:
1500, 950, 890, 2100, 1350, 1700, 1050, 1100, 1200, 1400
a) Intervalo de confianza para la media poblacional con nivel de confianza del 95%, suponiendo los salarios siguen una distribución normal.
b) Intervalo de confianza para la proporción de trabajadores con salario superior o igual a 1500€ con nivel de confianza del 90%.
J.J. Noguera