TEMA 5. INTRODUCCIÓN A LA ESTADÍSTICA Y MUESTREO · •Estadística descriptiva o deductiva: tratar y resumir las observaciones de una población. •Cálculo de probabilidades:

TEMA 5. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Y MUESTREO

ESTADÍSTICA APLICADA AL TURISMO

GRADO EN TURISMO

J.J. Noguera

Ramas de la Estadística

• Estadística descriptiva o deductiva: tratar y resumir las observaciones de una población.

• Cálculo de probabilidades: herramientas matemáticas conceptuales y teóricas para abordar la inferencia estadística.

• Inferencia Estadística: a partir de la información obtenida en una muestra se infieren resultados para toda la población con ciertos niveles de seguridad o confianza..

J.J. Noguera

Conceptos básicos

• Población o universo: conjunto total de todos los elementos que se desean estudiar.

• Marco estadístico: lista (ficheros, directorios, listados…) que permiten identificar cada una de las unidades de la población.

• Individuo o unidad de investigación: cada uno de los elementos de una muestra o de una población

J.J. Noguera

Conceptos básicos

• Parámetros: características poblacionales que deseamos investigar (desconocidas a priori).

• Variables: son los parámetros en el caso que tomen valores numéricos. Pueden ser discretas o continuas. También pueden distinguirse por temporales o históricas y atemporales o de corte transversal.

• Atributos: parámetros en el caso que no tomen valores numéricos. Presentan modalidades o categorías y pueden ser ordenables o no ordenables.

J.J. Noguera

Conceptos básicos

• Muestra: subconjunto de una población.

• Muestreo o diseño muestral: procedimiento mediante el cual se determina la muestra.

• Muestra representativa: muestra de cuyos resultados podemos inferir información al total de la población de manera fiable.

• Estimador o estadístico (𝜽 ): función que asocia a cada muestra un valor numérico mediante el cual se inferirá información para deducir los parámetros poblacionales.

J.J. Noguera

Conceptos básicos

• Estimación: valor que toma un estimador al aplicarlo a una muesta concreta.

• Acuracidad: representa la proximidad de los cálculos estadísticos a los verdaderos valores de la población (el grado de acuracidad de una estimación es siempre desconocido)

• Muestra representativa: muestra de cuyos resultados podemos inferir información al total de la población de manera fiable.

J.J. Noguera

Conceptos básicos

• Precisión: indica hasta que punto y con qué probabilidad pueden diferir entre sí, y como media, las estimaciones obtenidas a partir de dos muestras distintas.

• Nivel o intervalo de confianza: grado de certidumbre que tenemos sobre la exactitud de la estimación de la muestra.

• Sesgo: es la diferencia entre el valor esperado y el verdadero valor poblacional.

J.J. Noguera

Muestreo vs censo

• Censo: se estudian todos los individuos de la población. Se obtienen resultados reales para la población.

• Muestreo: Sólo se estudia una parte de la población. En ocasiones esta es la única alternativa: si es estudio de la muestra es destructiva, si el coste de realizar un censo es prihibitivo, por economía de tiempo…

J.J. Noguera

Tipos de muestreo

• Probabilístico: a cada muestra y elemento muestral se le puede asociar una determinada probabilidad conocida y no nula.

• No probabilístico: cuando no se dan las condiciones del muestreo probabilístico. No son representativas de la población.

J.J. Noguera

No probabilístico

• Sin norma o de conveniencia: en la selección de la muestra prima la rapidez y el bajo coste.

• Opinático o subjetivo: el investigador o un grupo de expertos elige la muestra.

• Diseño de bola de nieve: a partir de una unidad poblacional se llega a otra y así sucesivamente.

• Por rutas aleatorias: por ejemplo sobre planos de calles en las que se sigue un algoritmo determinado.

• Por cuotas: se estudian un cierto número de individuos en ciertos subgrupos de la población. Todo ello fijado por el investigador.

J.J. Noguera

Probabilístico

• Muestreo aleatorio simple con reemplazamiento: todas las muestras son equiprobables y las unidades de población también (1/N). Las muestras se pueden elegir varias veces. Se seleccionan aleatoriamente. Problema: cuando no disponeos del marco requerido.

• Muestreo aleatorio simple irrestricto o sin reemplazamiento: como el anterior pero cada unidad se puede seleccionar una única vez. Para poblaciones grandes equivale al anterior.

J.J. Noguera

Probabilístico

• Muestreo sistemático con arranque aleatorio: una vez ordenadas aleatoriamente las unidades muestrales se selecionan de k en k.

• Muestreo estratificado: se toman un número de muestras diferente para cada estrato (grupo de población supuestamente homogéneo). Tenemos una población de tamaño N y el estrato h está formado por Nh individios. Si tomamos nh individuos del estrato h:

– Peso relativo al estato h: Nh/N ( 𝑁ℎ

𝑁= 1)

– Fracción de muestreo: nh/Nh

Los individuos tienen distinta probabilidad de se elegidos según el estrato al que pertenecen.

J.J. Noguera

Probabilístico

• Afijación de la muestra: criterios para tomar el número de individuos por estratos: – Uniforme: se toman igual número de individuos por

estrato. – Proporcional: se toma un número de individuos

proporcional al tamaño del estrato. – De compromiso: tras imponer un tamaño mínimo a

cada estrato, el resto se reparte de forma proporcional. – Por varianza mínima: de forma que la varianza de la

estimación global sea mínima:

𝑛ℎ = 𝑛𝑁ℎ𝑆ℎ 𝑁ℎ𝑆ℎ

J.J. Noguera

Probabilístico

• Por conglomerados: se supone que un conglomerado reproduce a escala la heterogeneidad y diversidad de la población. La diferencia con los estratos es que allí se necesita tomar muestras en cada estrato, mientras que aquí no.

• Bietápico o polietápico por conglomerados: en la primera etapa se seleccionan los conglomerados aleatoriamente y en la segunda se elige la muestra aleatoriamente. Polietápico: generalización de lo anterior.

• Complejos: Combinaciones de los anteriores o más complejos (no los vemos).

J.J. Noguera

Parámetros poblacionales y muestrales

Parámetro poblacional Parámetro muestral

Media 𝜇 =1

𝑁 𝑥𝑖

𝑁

𝑖=1

𝑥 =1

𝑛 𝑥𝑖

𝑛

𝑖=1

Proporción 𝑃 =𝑁1𝑁

𝑝 =𝑛1𝑁

Varianza 𝜎2 =1

𝑁 𝑥𝑖 − 𝜇 2

𝑁

𝑖=1

𝑠2 =1

𝑛 − 1 𝑥𝑖 − 𝑥 2𝑛

𝑖=1

J.J. Noguera

Estos parámetros muestrales son estimadores insesgados de los correspondientes parámetros poblacionales.

ESTIMACIÓN PUNTUAL

• Tomamos como estimación del parámetro poblacional el valor obtenido mediante el parámetro muestral (estimador) al aplicarlo sobre una muestra concreta.

• X sigue una distribución con media 𝜇 y varianza 𝜎2 desconocidas, entonces para muestras grandes (𝑛 ≥ 30) o bien que X sepamos que son normales (en este libro esto no se considera),

𝑥 → 𝑁(𝜇,σ

𝑛)

• Para proporciones, si 𝑝 =𝑛1

𝑛 y las muestras son grandes:

𝑝 → 𝑁(𝑝,𝑝 1 − 𝑝

𝑛)

J.J. Noguera

EJEMPLO

De desea conocer el salario medio de los trabajadores de una gran empresa. Se seleccionan 10 trabajadores al azar, obteniendo:

1500, 950, 890, 2100, 1350, 1700, 1050, 1100, 1200, 1400

a) Estimación puntual del salario medio de todos los trabajadores de la empresa.

b) Estimación puntual de la proporción de trabajadores con salario superior o igual a 1500€.

c) Estimación puntual de la varianza muestral.

J.J. Noguera

Ejemplo

a) 𝜇 = 𝑥 = 𝑥𝑖

𝑛=1500+950+...+1400

10=1324

b) 𝑃 = 𝑝 =𝑛1

𝑛=

4

10=0,4

c) 𝜎2 = 𝑠2 =1

𝑛−1 𝑥 − 𝑥 2 =𝑛𝑖=1

=1

10 − 1 1500 − 1324 2 +⋯+ (1400

− 1324)^2 = 138871,11

Con eso 𝜎 = 138871,11 = 372,65

J.J. Noguera

Estimación por intervalos: media poblacional

Si sabemos que la población sigue una 𝑁(𝜇, 𝜎) con 𝜎 conocida. Si el tamaño de la muestra es 𝑛, el intervalo de confianza para un coeficiente de confianza 1 − 𝛼 (nivel de confianza 100 1 − 𝛼 % es:

[𝑥 − 𝑧𝛼2·𝜎

𝑛; 𝑥 + 𝑧𝛼

2·𝜎

𝑛]

Esto significa que si tomamos 100 muestras, 95 de los intervalos obtenidos para esas muestras contendrán en su interior la verdadera media poblacional.

J.J. Noguera

Estimación por intervalos: media poblacional

Si sabemos que la población sigue una 𝑁(𝜇, 𝜎) con 𝜎 desconocida. Si el tamaño de la muestra es 𝑛, el intervalo de confianza para un coeficiente de confianza 1 − 𝛼 (nivel de confianza 100 1 − 𝛼 % es:

[𝑥 − 𝑧𝛼2·𝑠

𝑛; 𝑥 + 𝑧𝛼

2·𝑠

𝑛]

donde

𝑠2 =1

𝑛 − 1 𝑥𝑖 − 𝑥 2𝑛

𝑖=1

J.J. Noguera

Estimación por intervalos: proporción poblacional

Si la muestra es suficientemente grande (𝑛 ≥ 30), el intervalo de confianza para un coeficiente de confianza 1 − 𝛼 (nivel de confianza 100 1 − 𝛼 % es:

[ 𝑝 − 𝑧𝛼2·

𝑝 1 − 𝑝

𝑛 ; 𝑝 + 𝑧𝛼

2·

𝑝 1 − 𝑝

𝑛 ]

J.J. Noguera

¿Cómo hallar 𝑧𝛼2?

𝒛𝜶𝟐 es el valor tal que deja a la derecha de la

N(0,1) un area de 𝜶

𝟐, es decir 𝑷 𝒁 > 𝒛𝜶

𝟐=

𝜶

𝟐→

𝑷 𝒁 < 𝒛𝜶𝟐

= 𝟏 −𝜶

𝟐

• Normalmente nos pedirán que el nivel de confianza es 90% o 96%

J.J. Noguera

¿Cómo hallar 𝑧𝛼2?

• Si es 90%, entonces

1 − 𝛼 = 0,9 → 𝛼 = 0,1 →𝛼

2= 0,05

→ 𝑃 𝑍 < 𝑧𝛼2

= 0,95 → 𝑧𝛼2= 1,645


1 − 𝛼 = 0,95 → 𝛼 = 0,05 →𝛼

2= 0,025

→ 𝑃 𝑍 < 𝑧𝛼2

= 0,975 → 𝑧𝛼2= 1,96


1 − 𝛼 = 0,96 → 𝛼 = 0,04 →𝛼

2= 0,02

→ 𝑃 𝑍 < 𝑧𝛼2

= 0,98 → 𝑧𝛼2= 2,055

J.J. Noguera

EJEMPLOS

J.J. Noguera

EJEMPLO

De desea conocer el salario medio de los trabajadores de una gran empresa. Se seleccionan 10 trabajadores al azar, obteniendo:

1500, 950, 890, 2100, 1350, 1700, 1050, 1100, 1200, 1400

a) Intervalo de confianza para la media poblacional con nivel de confianza del 95%, suponiendo los salarios siguen una distribución normal.

b) Intervalo de confianza para la proporción de trabajadores con salario superior o igual a 1500€ con nivel de confianza del 90%.

J.J. Noguera

Documents

TEMA 5. INTRODUCCIÓN A LA ESTADÍSTICA Y MUESTREO · •Estadística descriptiva o deductiva: tratar y resumir las observaciones de una población. •Cálculo de probabilidades: