141
MODULO EDUCATIVO DEL CURSO DE MÉTODOS ESTADÍSTICOS Autor: Msc. César A. Zatta Silva Universidad Señor de Sipan 2011-I

Modulo Estadística 2011

Embed Size (px)

DESCRIPTION

Contenido del curso de Estadística

Citation preview

Page 1: Modulo Estadística 2011

MODULO EDUCATIVO DEL CURSO

DE MÉTODOS ESTADÍSTICOS

Autor: Msc. César A. Zatta Silva

Universidad Señor de Sipan

2011-I

Page 2: Modulo Estadística 2011

INTRODUCCIÓN

Las acciones que acometemos hoy

se basan en un plan de ayer y

las expectativas del mañana.

Para satisfacer las necesidades de conocimiento sobre los Métodos Estadísticos, se

ha diseñado este módulo teniendo en consideración los objetivos señalados en las

competencias, capacidades y actitudes que el alumno debe alcanzar en este curso.

Se contempla en este curso que los estudiantes conozcan el origen de la palabra

estadística, las técnicas de recolección, organización, conservación, y tratamiento

de los datos para su análisis y posterior interpretación de la información.

En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que

partiendo de observaciones muestrales o históricas, crean modelos lógico-

matemáticos que se "aventuran" describir o pronosticar un determinado fenómeno

con cierto grado de certidumbre medible.

El avance tecnológico en la informática ha contribuido enormemente al desarrollo

de la estadística, sobre todo en la manipulación de la información, pues en el

mercado existen paquetes estadísticos de excelente calidad como el SPSS y MS

Excel que ya existe en el computador sin mayores exigencias técnicas,

Page 3: Modulo Estadística 2011

Contenido

Semana 1 Introducción, reseña histórica, contenidos. Objetivos. Definición de Estadística.

Conceptos básicos importantes. Importancia y objeto de la estadística. Elementos

básicos: Población, muestra, variable, unidad de estudio, parámetro. Clasificación de las

variables.

Semana 2 Organización y presentación de los datos. Tablas de distribución de frecuencias.

Tipos de tablas estadísticas. Procesamiento de datos en cuadros y gráficos estadísticos.

Semana 3 Métodos Estadísticos en la investigación, etapas de la investigación estadística:

Planeamiento, organización, análisis e interpretación de datos, formulación de

conclusiones. Técnicas de recolección de datos, observación, entrevista, cuestionario,

encuestas por muestreo, sistemas de recolección.

Semana 4 Medidas de Tendencia Central: Media Aritmética. Media Ponderada. Mediana.

Moda. Medidas de Posición: Cuartiles. Deciles y Percentiles.

Semana 5 Medidas de Dispersión. Descripción de las medidas de dispersión: Rango,

Desviación y Varianza para datos simples y agrupados, Coeficiente de Variación

Semana 6 Introducción al Cálculo de Probabilidades. Experimento aleatorio, espacio

muestral, suceso o evento. Definición de Probabilidad Clásica, Probabilidad de

Frecuencia Relativa, Probabilidad Subjetiva. Combinación, Variación, Permutación.

Semana 7 Probabilidad de un evento. Teorema de la adición y de la complementación. Reglas

de multiplicación y de probabilidad total. Probabilidad Condicional. Teorema de Bayes.

Semana 8 Variables aleatorias. Función de probabilidad. Variables aleatorias discretas y

continuas.

Distribuciones discretas de probabilidad. Distribución Binomial y de Poisson.

Distribuciones continuas de probabilidad. Distribución Normal. Uso de Tablas

Semana 9 Primer Examen Parcial

Semana 10 Introducción a la Inferencia Estadística. Métodos y distribuciones de muestreo.

Muestreo de la población. Métodos de muestreo probabilístico. Error de muestreo.

Distribución de muestreo de medias muestrales. Tamaño de muestra.

Semana 11 Introducción a la Teoría de la estimación Estadística.Estimaciones puntuales e

Intervalos de Confianza sobre parámetros.

Semana 12 Prueba de Hipótesis, introducción, hipótesis estadísticas, pasos para una verificación de

hipótesis. Hipótesis para la media poblacional. Prueba de Hipótesis para una varianza

poblacional y una proporción poblacional.

Semana 13 Análisis de tendencia o series de tiempo. Análisis de regresión, formas de encontrar la

regresión simple. Método de los mínimos cuadrados. La tendencia lineal.

Semana 14 Correlación y desviación estándar. Tasas y Números Índices, aplicación de los números

índices.

Semana 15 Control de Calidad y Procesos Estadísticos. Aplicación de la estadística en trabajo de

Investigación. Presentación de Diagnóstico en Proyecto Integrador.

Semana 16 Segundo Examen Parcial

Page 4: Modulo Estadística 2011

Semana 1

ESTADÍSTICA

La Estadística es la ciencia que nos ofrece un conjunto de métodos y técnicas para: Recolectar,

Resumir, Procesar, Presentar , Analizar e Interpretar un conjunto de datos, con la finalidad de

conocer el problema, proyectar su comportamiento y colaborar en la toma de decisiones sobre

dicho problema.

Otra definición: La estadística es una rama de las matemáticas, constituye uno de los idiomas

esenciales para comunicarse en el mundo universal de la ciencia y la tecnología. Aquellos

profesionales que no conozcan Estadística tendrán serias dificultades para ser expertos en su

respectivo campo científico.

Importancia

Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para

organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la

tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas

descriptivas.

Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad,

control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en

deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por

otras personas que intervienen en la toma de decisiones

Método que sigue la Estadística

Recolectar Resumir y Ordenar Procesar

E S T A D I S T I C A

Tomar decisiones Analizar e Interpretar Presentar

Clasificación: La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la

Estadística Descriptiva y la Inferencial.

Estadística Descriptiva: Comprende a los procesos de consolidación, resumen y descripción de

los datos recopilados. Consiste sobre todo en la presentación de datos en forma de tablas y

gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para

resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir

nada que vaya más allá de los datos, como tales.

Estadística Inferencial: Incluye procedimientos que permiten la extrapolación y generalización

sobre características que tipifican a todos los elementos de la población. Es decir, la inferencia

Page 5: Modulo Estadística 2011

estadística es el proceso de hacer afirmaciones o predicciones sobre toda la población tomando

como base sólo a la información recabada a través de una muestra representativa.

CONCEPTOS FUNDAMENTALES

1. POBLACIÓN: Es el conjunto de todos los datos que intervienen en una investigación.

Al número de elementos de una población se denota por “N.”

Población finita: Es el conjunto finito de unidades de análisis donde se puede identificar a

un elemento inicial y/o a un elemento final.

Ejemplo: Población de hoteles de Lima, población de agencias de viaje existentes en la

ciudad de Cajamarca, turistas de nacionalidad alemana que ingresaron al Perú en el año

2000.

Población Infinita: Conjunto infinito de elementos donde no se podría identificar a una

unidad inicial ni a la unidad final.

Ejemplo: la población de los peces del mar, los árboles de la selva peruana

2. MUESTRA: Es una parte de la población y como tal es también un conjunto de datos.

Al número de elementos de una muestra se denota por “n”.

Una muestra tiene 2 características principales: Es representativa y es adecuada.

Muestra No Probabilística: Corresponde al subconjunto de observaciones elegidas

siguiendo un criterio de representatividad establecida arbitrariamente por el investigador.

Ejm. Analizo todos los ratones que son de color blanco del total de ratones

Muestra Probabilística: Comprende a las observaciones realizadas en unidades que han

sido elegidas siguiendo un criterio probabilístico, esto es a cada unidad de la población se

asigna probabilidad conocida para estar incluida como parte de la muestra. Ejm. Sacar 2

pelotas blancas de una canasta de 8 pelotas entre blancas y negras.

3. UNIDAD DE ESTUDIO: Es el objeto o elemento indivisible que será estudiado. Es

quien nos va a dar la información.

Ejemplo: Se va a estudiar la capacidad hotelera de la ciudad de Lima, se define la unidad

de análisis “hotel”

4. VARIABLE: Es una característica de estudio de una población, que toma diferentes

valores

Las variables son características observables referidas a la unidad de estudio. Se denota

por las letras X, Y, Z, etc. Se clasifican en:

4.1 Variable cualitativa : Son aquellas variables que expresan cualidades o atributos, y

que por tanto su medida no tiene un carácter numérico, esta variables pueden ser:

Nominales Sus valores representan un atributo a manera de etiqueta y no contiene

información sobre ordenamiento. Ejm. Sexo del cliente, nacionalidad del entrevistado,

etc.

Ordinales Sus valores sí representan un ordenamiento del atributo. Ejm. Grado de

educación del entrevistado, grado de satisfacción sobre la atención recibida por el cliente,

etc.

Page 6: Modulo Estadística 2011

4.2 Variable Cuantitativa: Comprende aquellos conceptos que sí pueden ser expresados

en forma numérica porque corresponde a criterios de cantidad. Pueden ser:

v. c. Discretas Son variables que toman valores que se expresan en números enteros. Es

el resultado del proceso de conteo. Ejm. Número de empleados, Número de habitaciones,

Total de alumnos, etc.

v.c. Continuas Son aquellas variables que sus cantidades se expresan con números

reales, es decir, tienen parte fraccionaria. Son el resultado del proceso de medición. Ejm.

Ingresos totales mes de julio, costo de servicio diario del hotel, toneladas embarcadas,

etc.

Ejemplos:

El alumno deberá identificar las variables para las unidades de estudio siguiente

*UNIDAD DE ESTUDIO: Estudiante

Variables: Peso, edad, talla, tipo de sangre, color de ojos, ingreso familiar, número de hermanos,

etc.

*UNIDAD DE ESTUDIO: Empresa

Variables: Ventas, ganancias, número de trabajadores, número de computadoras, gastos en

publicidad, etc.

Práctica Calificada Nº 01

A. Determina la población y la muestra, y la variable de los siguientes ejemplos:

1. Tiempo dedicado a las tareas domésticas por los hombres y las mujeres que trabajan fuera

del hogar en Lambayeque

2. Estudios que quieren hacer las alumnas y los alumnos del Colegio Manuel Pardo al

terminar la Educación Secundaria

3. Intención de voto en unas elecciones municipales

4. Horas que dedican a ver televisión los estudiantes de educación primaria del colegio San

José

5. Número de aparatos de radio que hay en los hogares chiclayanos

6. Se quiere realizar un estudio para determinar la cantidad promedio de huevos que ponen

los pingüinos hembras en el período reproductivo en Puerto Maldonado.

7. Se quiere determinar la audiencia de cierto programa televisivo de televisión de aire.

8. Se requiere determinar el grado de afectación que tuvo la salmonella en las gallinas

provenientes de las granjas del empresario Gonzales

9. Se quiere estimar el grado de aceptación que tiene la mermelada de carambola en la zona

oeste de Chiclayo

B. De las siguientes variables, determinar cuáles son cualitativas y cuales son cuantitativas

discretas o cuantitativas continuas

1. Precio del pollo

2. Angulo de inclinación de los puentes

3. Grado de instrucción de los postulantes

4. Color de ojos de las finalistas

5. Peso promedio de las bolsas

6. Número de taxis que ingresan por hora a Chiclayo

7. Comida favorita

8. Número de goles marcados por la selección

9. Profesión que te gusta

Page 7: Modulo Estadística 2011

10. Coeficiente intelectual de tus compañeros de clase

11. El color de los ojos de tus compañeros de clase

12. Temperaturas registradas en verano

13. Número de acciones vendidas en la Bolsa de valores

14. Diámetro de las ruedas de varios coches

15. Censo anual de los españoles

16. Número de libro en un estante

17. Litros de agua contenidos en un depósito

18. La profesión de una persona

19. Suma de puntos obtenidos en un lanzamiento de dados

C. Determina lo siguiente:

CASO Nº 01:

Dentro de los estudios sociales que realiza el Dr. Pauling sobre rendimiento y características

cognoscitivas de los alumnos pertenecientes al Colegio Público San Carlos, ha llegado a

resultados inesperados. Unidad de estudio

Variable de estudio

Población

Muestra

CASO Nº 02

Un proveedor de servicios de línea blanca desea saber cuál es la marca preferida de cocinas de

las amas de casa pertenecientes a la ciudad de Chiclayo. Para llevar a cabo esta investigación,

selecciona a 120 amas de casa que fueron escogidas según la zona de la ciudad de Chiclayo.

Unidad de estudio

Variable de estudio

Población

Muestra

CASO Nº 03

Un investigador de mercado quiere saber cuál es la marca de detergente que más se utiliza o más

prefieren las amas de casa de la ciudad de Chiclayo. Para llevar a cabo esta investigación

selecciona una muestra de 504 amas de casa que fueron escogidas según zona o urbanización de

la ciudad de Chiclayo.

Unidad de estudio Amas de casa

Variable de estudio Marca de detergente (tipo cualitativa nominal)

Población Amas de casa de la ciudad de Chiclayo

Muestra 504 amas de casa

CASO Nº 04:

El Ingeniero de Producción de Cerveza Cristal en Motupe, dentro de su evaluación diaria, desea

saber si el brix (grado de azúcar), porcentaje de alcohol, tiempo de maduración, etc, han

cumplido con las parámetros de calidad en la producción del fin de semana.

Unidad de estudio Cerveza

Variable de estudio Brix, porcentaje de alcohol, tiempo maduración

(cuantitativa)

Población Producción de cerveza del fin de semana

Muestra Producción de cerveza de un día

Page 8: Modulo Estadística 2011

CASO Nº 05:

Un investigador social desea saber cuáles son las características socio demográficas que influyen

en el rendimiento académico de los Estudiantes de la Universidad Señor de Sipan, de la

especialidad de Ingeniería Agroindustrial matriculados en el 2º Semestre-Año 2006.

Unidad de estudio Estudiante

Variable de estudio Características socio demográficas

Población Estudiantes matriculados de Ing. Agroindustrial de la USS

(cualitativa)

Muestra Alumnos matriculados del 2º semestre

CASO Nº 06:

El gerente del Grifo “San Luis” ubicado en el ovalo está haciendo un estudio de factibilidad para

determinar si es conveniente la instalación de un nuevo servidor de gasolina en dicho

establecimiento. Para realizar este estudio toma información sobre el tiempo que se demora en

dar el servicio y el tiempo que demora en llegar el usuario (automóvil).

Unidad de estudio Usuario de automóvil

Variable de estudio Tiempo en dar el servicio y tiempo llegar usuario

(cuantitativa)

Población Todos los clientes del grifo

Muestra Algunos clientes del grifo

CASO Nº 07

Un investigador de mercado quiere saber cuál es la marca de jabones que más se utiliza o más

prefieren las empleadas de casa de la ciudad de Tarapoto. Para llevar a cabo esta investigación

selecciona una muestra de 610 empleadas que fueron escogidas según zona o urbanización de la

ciudad de Tarapoto.

Unidad de estudio

Variable de estudio

Población

Muestra

Page 9: Modulo Estadística 2011

Semana 2

ORGANIZACIÓN DE DATOS Y DISTRIBUCIONES DE FRECUENCIA

Frecuencia: (fi) Número de individuos o elementos que pertenecen o aparecen en cada

categoría.

1. ORGANIZACIÓN DE VARIABLES CUALITATIVAS: Comprende la representación

gráfica de conceptos cualitativos y/o atributos que se registran para las unidades de análisis.

Ejemplo:

El número de turistas que registraron su ingreso por el aeropuerto de Chiclayo el mes de

Febrero, se registra según su nacionalidad

NACIONALIDAD Número de Turistas (fi)

Argentina 20

Boliviana 10

Brasileña 5

Venezolana 15

TOTAL 50

2. ORGANIZACIÓN DE VARIABLES CUANTITATIVAS DISCRETAS: Comprende

clasificaciones de variables que sólo toman valores enteros, por tanto las unidades de análisis se

ordenan de acuerdo con sus propios valores. Ejm:

Las puntuaciones obtenidas por los 30 alumnos del curso de Física I, fueron:

[12,11,13,13,10,10,12,12,09,09,08,14,12,11,14,14,14,10,10,14,13,13,11,11,14,13,14,13,14,12]

Se consolida la información en una Tabla de Frecuencia:

Notas

Xi

Frecuencia

Absoluta ( fi )

Frecuencia

Relativa ( hi)

Frecuencia Acumulada

Absoluta

(Fi)

Relativa

(Hi)

08 1 0.03 1 0.03

09 2 0.07 3 0.10

10 4 0.13 7 0.23

11 4 0.13 11 0.36

12 5 0.17 16 0.53

13 6 0.20 22 0.73

14 8 0.27 30 1.00

TOTAL 30 1.00

El gráfico que corresponde a esta tabla de frecuencia se denomina: Histograma Histograma de frecuencias absolutas Histograma de frecuencias absolutas acumuladas

Page 10: Modulo Estadística 2011

3. ORGANIZACIÓN DE VARIABLES CUANTITATIVAS CONTINUAS: Comprende

clasificaciones de unidades de análisis resultantes de una medición, que en ocasiones toman

valores decimales. Ejemplo:

El Gran Hotel Chiclayo, durante los últimos 32 días, el valor de las compras en revistas y

periódicos para la sala de recepción fueron:

Esta información diaria y dispersa no permitirá analizar su comportamiento, es necesario

resumirla en una tabla de frecuencia. Para organizar una tabla de frecuencia se deberá seguir el

procedimiento siguiente:

* Elegir el número de intervalos de clase ( k )

Se puede utilizar la regla se Sturges: k = 1 + 3.322 log n

Donde: k = número de intervalos

n = número de datos

En el ejemplo: k = 1 + 3.322 Log(32) = 5.967 = Aprox. 6 intervalos

* Determinar el Tamaño del Intervalo de Clase ( c )

c = A/k

A= Amplitud de los datos = (Observación máxima – Observación Mínima) = 10.2 – 5.2 =

5.0

k = 6

Por tanto: c = 5.0 / 6 = 0.8333 = Aproximadamente = 0.9

* Realizar la clasificación y el conteo de datos en cada clase construida

* Construir la Tabla de Frecuencia

Intervalo de clase

(escala de gasto)

Marca de Clase

Xi

Frecuencia

Absoluta

fi

Frecuencia

Relativa

hi

Frec. Acumul.

Absoluta

Fi

Frec. Acumul.

Relativa

Hi

[ 5.2 – 6.1 ) 5.65 3 0.094 3 0.094

[ 6.1 – 7.0 ) 6.55 5 0.156 8 0.250

[ 7.0 – 7.9 ) 7.45 9 0.281 17 0.531

[ 7.9 – 8.8 ) 8.35 7 0.219 24 0.750

[ 8.8 – 9.7 ) 9.25 5 0.156 29 0.906

[ 9.7 – 10.6 ) 10.15 3 0.094 32 1.000

TOTAL 32 1.000

Page 11: Modulo Estadística 2011

Análisis de la distribución de frecuencias:

* ¿Cuántos días el hotel gastó “de 7.0 a menos de 7.9 soles”? : 9 días

* ¿Cuántos días el hotel gastó “menos de 7.9 soles”? : 17 días

* ¿Cuántos días el hotel gastó “menos de 9.7 soles”? : 29 días

* ¿Qué porcentaje de días el hotel gastó “menos de 7.9 soles”? : 53.1%

* ¿Qué porcentaje de días el hotel gastó “más de 7.9 soles”? : 46.9 %

Polígono de Frecuencias: Es la línea que une los puntos medios de los lados superiores (marcas

de clase) de un histograma. Los puntos o vértices del polígono de frecuencias están situados, por

tanto, en las marcas de clase, ya que estos corresponden a los puntos medios de los intervalos.

Histograma y Polígono de Frecuencias

Page 12: Modulo Estadística 2011

USO DE MS EXCEL

Construcción tablas tipo A en EXCEL: Para variables cualitativas y cuantitativas discretas

Color f F h H Azul =contar.si($B$2:$H$11;B14) 21 Rojo 16 Verde 13 Negro 8 Blanco 12

Construcción tablas tipo B en EXCEL: Para variables cuantitativas continuas Las densidades de los materiales en estudio fueron:

n = contar (celda inicio: celda final) K = numero de intervalos, con fórmula Xmin= Valor Mínimo = MIN (celda) Xmax= Valor Máximo = MAX( celda) Rango = Max – Min C = R/K Intervalos f = Frecuencia (datos; grupos) B2:H8 Todos los datos = Frecuencia (B2:H8; D22:D28) D22:D28 La columna de datos del límite superior

Page 13: Modulo Estadística 2011

PRESENTACIÓN DE DATOS MEDIANTE GRÁFICOS ESTADÍSTICOS

Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se

emplean para tener una representación visual de la totalidad de la información. Los gráficos

estadísticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fácilmente

los hechos esenciales y compararlos con otros.

TIPOS DE GRÁFICOS

Gráficos de barras verticales

Representan valores usando trazos verticales, aislados o separados unos de otros, según la

variable a graficar sea discreta o continua. Pueden usarse para comparar y representar: una serie;

dos o mas series

Gráficos de barras horizontales

Representan valores discretos a base de trazos horizontales, aislados unos de otros. Se utilizan

cuando los textos correspondientes a cada categoría son muy extensos. Pueden usarse para una

serie, dos o más series.

Page 14: Modulo Estadística 2011

Gráficos de barras proporcionales

Se usan cuando lo que se busca es resaltar la representación de los porcentajes de los datos que

componen un total. Las barras pueden ser: Verticales u Horizontales

Gráficos de líneas

En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales

entre sí. Estos gráficos se utilizan para representar valores con grandes incrementos entre sí. Se

pueden usar para representar una serie, dos o más series.

Gráficos circulares

Estos gráficos nos permiten ver la distribución interna de los datos que representan un hecho, en

forma de porcentajes sobre un total. Se suele separar el sector correspondiente al mayor o menor

valor, según lo que se desee destacar. Pueden ser: En dos dimensiones o tres dimensiones

Gráficos de Áreas

En estos tipos de gráficos se busca mostrar la tendencia de la información generalmente en un

período de tiempo. Pueden ser para representar una, dos o más series; en dos dimensiones o en tres

dimensiones.

Page 15: Modulo Estadística 2011

PRACTICA CALIFICADA Nº 02

USANDO EL PAQUETE O SOFTWARE RESPECTIVO, RESOLVER LOS SIGUIENTES EJERCICIOS

1. ¿Qué es frecuencia absoluta?

2. Cómo se obtiene:

2.1 ¿La frecuencia acumulada?

2.2 ¿La frecuencia relativa?

2.3 ¿La frecuencia relativa acumulada

3. En una distribución de frecuencias ¿se pueden establecer conclusiones porcentuales,

utilizando solamente la frecuencia relativa? ¿Por qué?

4. ¿Por qué se recurre al agrupamiento en distribuciones de frecuencias por intervalos?

5. ¿Cómo se determina el número de intervalos y la amplitud de ellos?

6. ¿Qué es una marca de clase?

7. La siguiente tabla relaciona las ausencias al trabajo de 50 obreros, durante el mes de

octubre, en la fábrica de confecciones "La Unión".

1 0 2 1 3 1 4 3 2 5

3 2 4 2 0 3 1 2 0 2

1 1 0 1 0 0 1 2 1 3

4 0 2 3 2 0 0 2 5 2

2 4 2 1 3 1 2 1 0 2

7.1 Construir una distribución de frecuencias simple.

7.2 Sacar 3 conclusiones.

8. Años de experiencia de las 50 operarias de agro exportadora “La Calidad”

Ordenar la Información y responder:

8.1 ¿Qué porcentaje de las obreras tiene experiencia inferior o igual a 6

años?

8.2 ¿Qué porcentaje tiene experiencia entre 5 y 7 años (incluyendo los extremos)?

Page 16: Modulo Estadística 2011

9. Peso de los sacos de ají páprika que fueron cosechados en los primeros 50 días de

producción de la empresa Exporta SAC

Construir una distribución de frecuencias y resaltar 3 conclusiones

10. Consumo de agua, en m3de 184 familias n un barrio residencial de una ciudad

durante el mes de octubre:

Construir una distribución de frecuencias por intervalos.

Comparar las distribuciones con intervalos y sin intervalos; y las conclusiones que de

ellas se deriven.

Page 17: Modulo Estadística 2011

MÉTODOS ESTADÍSTICOS EN LA INVESTIGACION Y RECOLECCIÓN DE LA INFORMACIÓN

Semana 3

El método estadístico, parte de la observación de un fenómeno, y como

no puede siempre mantener las mismas condiciones predeterminadas o a

voluntad del investigador, deja que actúen libremente, pero se registran

las diferentes observaciones y se analizan sus variaciones.

Para el planeamiento de una investigación, por norma general, se siguen

las siguientes etapas:

1. PLANTEAMIENTO DEL PROBLEMA

Al abordar una investigación se debe tener bien definido qué se va a investigar y por qué se pretende

estudiar algo. Es decir, se debe establecer una delimitación clara, concreta e inteligible sobre el o los

fenómenos que se pretenden estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la

revisión bibliográfica del tema, para ver su accesibilidad y consultar los resultados obtenidos por

investigaciones similares, someter nuestras proposiciones básicas a un análisis lógico; es decir, se

debe hacer una ubicación histórica y teórica del problema.

2. FIJACIÓN DE LOS OBJETIVOS

Luego de tener claro lo que se pretende investigar, debemos presupuestar hasta dónde queremos

llegar; en otras palabras, debemos fijar cuáles son nuestras metas y objetivos.

Estos deben plantearse de tal forma que no haya lugar a confusiones o ambigüedades y debe,

además, establecerse diferenciación entre lo de corto, mediano y largo plazo, así como entre los

objetivos generales y los específicos.

3. FORMULACIÓN DE LAS HIPÓTESIS

Una hipótesis es ante todo, una explicación provisional de los hechos objeto de estudio, y su

formulación depende del conocimiento que el investigador posea sobre la población investigada. Una

hipótesis estadística debe ser susceptible de demostrar, esto es, debe poderse probar para su

aceptación o rechazo.

Una hipótesis que se formula acerca de un parámetro (media, proporción, varianza, etc.), con el

propósito de rechazarla, se llama Hipótesis de Nulidad y se representa por Ho; a su hipótesis

contraria se le llama Hipótesis Alternativa (H1).

4. DEFINICIÓN DE LA UNIDAD DE OBSERVACIÓN Y DE LA UNIDAD DE

MEDIDA

La Unidad de Observación, entendida como cada uno de los elementos constituyentes de la

población estudiada, debe definirse previamente, resaltando todas sus características; pues, al fin de

cuentas, es a ellas a las que se les hará la medición. La unidad de observación puede estar constituida

por uno o varios individuos u objetos y denominarse respectivamente simple o compleja.

El criterio sobre la unidad de medición debe ser previamente definido y unificado por todo el equipo

de investigación. Si se trata de medidas de longitud, volumen, peso, etc., debe establecerse bajo qué

unidad se tomarán las observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.

Page 18: Modulo Estadística 2011

Asociado a la unidad de medida, deben establecerse los criterios sobre las condiciones en las cuales

se ha de efectuar la toma de la información.

5. DETERMINACIÓN DE LA POBLACIÓN Y DE LA MUESTRA

Estadísticamente, la población se define como un conjunto de individuos o de objetos que poseen

una o varias características comunes. No se refiere esta definición únicamente a los seres vivientes;

una población puede estar constituida por los habitantes de un país o por los peces de un estanque,

así como por los establecimientos comerciales de un barrio o las unidades de vivienda de una

ciudad.

Existen desde el punto de vista de su manejabilidad poblaciones finitas e infinitas. Aquí el término

infinito no está siendo tomado con el rigor semántico de la palabra; por ejemplo, los peces dentro de

un estanque son un conjunto finito; sin embargo, en términos estadísticos, puede ser considerado

como infinito.

Muestra es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar

las propiedades del conjunto del cual es obtenida.

En la práctica, estudiar todos y cada uno de los elementos que conforman la población no es

aconsejable, ya sea por la poca disponibilidad de recursos, por la homogeneidad de sus elementos,

porque a veces es necesario destruir lo que se está midiendo, por ser demasiado grande el número de

sus componentes o no se pueden controlar; por eso se recurre al análisis de los elementos de una

muestra con el fin de hacer inferencias respecto al total de la población.

Existen diversos métodos para calcular el tamaño de la muestra y también para tomar los elementos

que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos solamente que la muestra

debe ser representativa de la población y sus elementos escogidos al azar para asegurar la objetividad

de la investigación.

6. LA RECOLECCIÓN

Una de las etapas más importantes de la investigación es la recolección de la información, la cual ha

de partir, a menos que se tenga experiencia con muestras análogas, de una o varias muestras piloto en

las cuales se pondrán a prueba los cuestionarios y se obtendrá una aproximación de la variabilidad de

la población, con el fin de calcular el tamaño exacto de la muestra que conduzca a una estimación de

los parámetros con la precisión establecida.

El establecimiento de las fuentes y cauces de información, así como la cantidad y complejidad de las

preguntas, de acuerdo con los objetivos de la investigación son decisiones que se han de tomar

teniendo en cuenta la disponibilidad de los recursos financieros, humanos y de tiempo y las

limitaciones que se tengan en la zona geográfica, el grado de desarrollo, la ausencia de técnica, etc.

Es, entonces, descubrir dónde está la información y cómo y a qué "costo" se puede conseguir; es

determinar si la encuesta se debe aplicar por teléfono, por correo, o si se necesitan agentes directos

que recojan la información; establecer su número óptimo y preparar su entrenamiento adecuado.

7. CRITICA, CLASIFICACIÓN Y ORDENACIÓN

Después de haber reunido toda la información pertinente, se necesita la depuración de los datos

recogidos. Para hacer la crítica de una información, es fundamental el conocimiento de la población

por parte de quien depura para poder detectar falsedades en las respuestas, incomprensión a las

Page 19: Modulo Estadística 2011

preguntas, respuestas al margen, amén de todas las posibles causas de nulidad de una pregunta o

nulidad de todo un cuestionario.

Separado el material de "desecho" con la información depurada se procede a establecer las

clasificaciones respectivas y con la ayuda de hojas de trabajo, en las que se establecen los cruces

necesarios entre las preguntas, se ordenan las respuestas y se preparan los modelos de tabulación de

las diferentes variables que intervienen en la investigación.

El avance tecnológico y la popularización de los computadores hacen que estas tareas, manualmente

dispendiosas, puedan ser realizadas en corto tiempo.

8. LA TABULACIÓN

Una tabla es un resumen de información respecto a una o más variables, que ofrece claridad al lector

sobre lo que se pretende describir; para su fácil interpretación una tabla debe tener por lo menos: Un

titulo adecuado el cual debe ser claro y conciso.

La Tabla propiamente dicha con los correspondientes subtítulos internos y la cuantificación de los

diferentes ítems de las variables, y las notas de pie de cuadro que hagan claridad sobre situaciones

especiales de la tabla, u otorguen los créditos a la fuente de la información.

9. LA PRESENTACIÓN

Una información estadística adquiere más claridad cuando se presenta en la forma adecuada. Los

cuadros, tablas y gráficos facilitan el análisis, pero se debe tener cuidado con las variables que se van

a presentar y la forma de hacerlo. No es aconsejable saturar un informe con tablas y gráficos

redundantes que, antes que claridad, crean confusión.

Además la elección de determinada tabla o gráfico para mostrar los resultados, debe hacerse no sólo

en función de las variables que relaciona, sino del lector a quien va dirigido el informe.

10. EL ANÁLISIS

La técnica estadística ofrece métodos y procedimientos objetivos que convierten las especulaciones

de primera mano en aseveraciones cuya confiabilidad puede ser evaluada y ofrecer una premisa

medible en la toma de una decisión.

Es el análisis donde se cristaliza la investigación. Esta es la fase de la determinación de los

parámetros y estadísticos muestrales para las estimaciones e inferencias respecto a la población, el

ajuste de modelos y las pruebas de las hipótesis planteadas, con el fin de establecer y redactar las

conclusiones definitivas.

11. PUBLICACIÓN

Toda conclusión es digna de ser comunicada a un auditorio. Es más, hay otros estudiosos del mismo

problema a quienes se les puede aportar información, conocimientos y otros puntos de vista acerca

de él.

Page 20: Modulo Estadística 2011

MÉTODOS DE RECOLECCIÓN DE DATOS PARA UNA INVESTIGACIÓN

En una investigación científica se procede básicamente por observación, por

encuestas o entrevistas a los sujetos de estudio y por experimentación.

FUENTES DE INFORMACIÓN

Unidades Estadísticas: Elementos componentes de la población estudiada.

Ejemplo: personal de una empresa, habitantes del distrito de Oyotún, etc.

La población en una investigación debe ser definida con precisión.

Page 21: Modulo Estadística 2011

FUENTES DE INFORMACIÓN

PRIMARIAS SECUNDARIAS

Los datos provienen

directamente de la población

o muestra de la población

Los datos parten de datos pre-

elaborados, ejemplo: anuarios

estadísticos, de Internet, de medios

de comunicación.

Se subdividen

en:Observación Directa:

Cuando el investigador toma

directamente los datos de la población.

Ejm: un científico realiza

un experimento.

Observación Indirecta:Cuando los datos no son obtenidos

directamente por el investigador.

Usa un cuestionario u otro medio

para obtener los datos.

Debe realizar una encuesta

Deben ser analizadas bajo 4 preguntas básicas que son:

• ¿Es pertinente? cuando la información se adapta a los

objetivos

• ¿Es obsoleta? cuando ha perdido actualidad

• ¿Es Fidedigna cuando la veracidad de la fuente de

origen no es cuestionada

• y ¿Es digna de Confianza? si la información ha sido

obtenida con la metodología adecuada y honestidad

necesaria, con objetividad, naturaleza continuada y

exactitud

Page 22: Modulo Estadística 2011

Encuesta: Constituye el término medio entre la observación y la experimentación. En

ella se pueden registrar situaciones que pueden ser observadas y en ausencia de

poder recrear un experimento se cuestiona a la persona participante sobre ello.

La encuesta es un método descriptivo con el que se pueden detectar ideas, necesidades, preferencias, hábitos de uso, etc.

Page 23: Modulo Estadística 2011
Page 24: Modulo Estadística 2011

Codificación. Una vez cumplimentados los cuestionarios, viene la fase de recuento de las respuestas. Cuando estas son numéricas no hay ninguna dificultad, pero cuando las preguntas han tenido una contestación no numérica, es preciso traducir estas respuestas a números.Esto se conoce con el nombre de codificación.

Page 25: Modulo Estadística 2011

Por ejemplo:

¿Como ves el estado actual del Instituto?

Muy Bien …………….. 5

Bien …………….. 4

Regular …………….. 3

Mal …………….. 2

Muy Mal …………….. 1

No sabe/No contesta …………….. 0

Page 26: Modulo Estadística 2011

EJEMPLO

DE

CUESTIONARIO

Page 27: Modulo Estadística 2011

REPASO: En el siguiente blog www.ingenieriainvestigacazasi.blogspot.com encontrará información adicional sobre los temas descritos, tales como: Ficha Técnica-Encuesta INEI 2007 Modelo de Encuesta – INEI Caso – Preferencia por Leche Envasada Encuesta Servicio PLAZA VEA Estadística en la Investigación Científica Resultado Encuesta (Modelo Computacional)

Se solicita organizarse en grupos y presentar el resultado de un cuestionario aplicado a determinada población sobre un tema libre.

Page 28: Modulo Estadística 2011

MEDIDAS DE TENDENCIA CENTRAL

Semana 4

Las medidas de tendencia central,

llamadas así porque tienden a

localizarse en el centro de la

información, son de gran importancia

en el manejo de las técnicas estadísticas,

sin embargo, su interpretación no debe

hacerse aisladamente de las medidas de

dispersión, ya que la representatividad

de ellas está asociada con el grado de

concentración de la información.

Las principales medidas de tendencia central son:

1. MEDIA ARITMETICA:

Se conoce comúnmente como promedio. La media aritmética se calcula como la suma de todos los

valores que toma la característica en estudio dividida por el número total de unidades experimentales

observadas. En símbolos:

Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80.

_

x = 21+32+15+59+60+61+64+60+71+80 = 52.3 años

10

Interpretación: La edad media de estos pacientes es de: 52.3 años

Si se trata de datos agrupados se utiliza para variables discretas:

Donde: Xi = valores que toma la variable, fi = Frecuencia absoluta, n = total de datos

Ejemplo:

Page 29: Modulo Estadística 2011

Un investigador social está interesado en conocer el número promedio de hijos en una muestra de 10 familias

entrevistadas para una encuesta en particular. Luego de efectuar el trabajo de recolección de datos, el listado

de las familias con su correspondiente número de hijos se formó la siguiente tabla:

Familia No Número de Hijos

1 2

2 4

3 4

4 3

5 4

6 3

7 3

8 3

9 6

10 3

Con esta información se construye la tabla de frecuencias de la siguiente manera:

Número de Hijos (Xj) Frecuencia (fj) Xjfj

2 1 2

3 5 15

4 3 12

6 1 6

Total 10 35

_

Luego: x = 35 = 3.5

10

Interpretación:

La familia promedio proporcionada por la encuesta es aquella que presenta entre 3 y 4 hijos; el valor 3,5 es el

resultado matemático del cálculo de la media aritmética pero no es un valor posible de la variable por su

propia definición.

En el caso de datos numéricos continuos agrupados en intervalos de clase, el cálculo de la media

aritmética es similar al caso anterior, es decir :

_

Y = ∑Yi fi

n

Cuando se agrupan datos continuos en intervalos de clase, se pierde la información original. Luego, para

solucionar este problema, Yi se calcula como el promedio entre los extremos de cada intervalo, es decir Yi

representa el punto medio del intervalo de clase.

Ejemplo:

Calcular la media aritmética de la longitud de 100 tornillos fabricados por una máquina.(Tabla 1)

Page 30: Modulo Estadística 2011

Luego: _

Y = ∑Yi fi = 1014,0 = 10,14 mm

N 100

Interpretación : En promedio el proceso productivo fabrica tornillos de 10,14 mm de longitud

2. MEDIANA: (Md o Me)

Es el valor que ocupa la posición central de un conjunto de observaciones ordenadas. El 50% de las

observaciones son mayores que este valor y el otro 50% son menores.

A continuación se muestran los criterios para construir la mediana. Se puede construir los siguientes criterios:

• Lo primero que se requiere es ordenar los datos en forma ascendente o descendente, cualquiera de los dos

criterios conduce al mismo resultado.

• Si n (tamaño de la muestra) es impar, entonces, la mediana coincide con el valor medio, el cual corresponde

al dato Xn/2.

• Si n (tamaño de la muestra) es par, no existe un solo valor medio, si no que existen dos valores medios, en

tal caso, la mediana es el promedio de esos valores, es decir, los sumamos y luego los dividimos por dos.

La Mediana para datos no agrupados

Ejemplo 1:

Dados los siguientes datos: 1, 2, 3, 4, 0, 1, 4, 3, 1, 1, 1, 1, 2, 1, 3 correspondientes al número de hijos de 15

empleados de una empresa. Para la obtención de la mediana se deberán de ordenar.

Tomemos el criterio de orden ascendente con lo que, tendremos:

0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4

Page 31: Modulo Estadística 2011

Por otro lado el número de datos n = 15, siendo el número de datos impar se elige el dato que se encuentra a

la mitad, una vez ordenados los datos, en este caso es 1.

0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3 4, 4

Mediana

Interpretación: El número mediano de hijos para estos empleados es 1.

Ejemplo 2:

Las calderas de una planta de energía de vapor a alta presión tuvieron las siguientes eficiencias en porcentajes:

90,3 - 91,6 - 90,9 - 90,4 - 90,3 - 91,0 - 87,9 - 89,4

El tamaño de la muestra, n=8, número par. Luego los ordenamos y la mediana es la semisuma de los valores

centrales o sea el promedio de esos valores.

87,9 - 89,4 - 90,3 - 90,3 - 90,4 - 90,9 - 91,0 - 91,6

Mediana = 90,3 + 90,4 = 90,35

2

Interpretación: El número mediano de eficiencia en porcentaje de las calderas de una planta de energía es de

90,35 % aunque el mismo no sea un valor posible de la variable.

Hallar la mediana de los siguientes datos: 7,10,15,13,10,12

La Mediana para datos agrupados

Si tenemos datos agrupados en tablas simples de frecuencia, procedemos de la siguiente manera:

• Calculamos el orden que ocupa la Mediana, lo llamaremos orden de la mediana, cuya fórmula es:

Orden = n (este valor lo observamos en la frecuencia acumulada)

2

Ejemplo 1:

Supongamos que el gerente de personal de una empresa obtuvo los siguientes datos, correspondientes al

número de días que 19 de sus empleados faltan por enfermedad en un año.

Luego:

Orden = 19 = 9.5 (está contenido en Fj = 10)

2

Los datos se presentan en la siguiente tabla:

Page 32: Modulo Estadística 2011

La mediana es 8

Interpretación: El 50 % de los 19 empleados faltan menos de 8 días y el 50% restante más de 8 días.

Ejemplo 2: Supongamos que la siguiente tabla corresponde a la vida útil en horas de 100 válvulas

Orden = 100 + 1 = 101 = 50,5

2 2

Esto nos indica que la mediana se encuentra entre el lugar 50 y el lugar 51. Pero, qué valores ocupan esos

lugares?

Por lo explicado anteriormente, desde el lugar 38 y hasta el lugar 57, hay valores 39. Luego el valor número

50 y el valor número 51 son 39. Entonces:

Mediana = 39 + 39 = 39

2

Si los datos están agrupados en intervalo de clase, veamos cómo se calcula la mediana

Ejemplo: Tenemos los siguientes datos agrupados en una Tabla de Frecuencia que representan los montos de

40 préstamos personales, en dólares, en una compañía financiera de consumidores. (Tabla Nº 4)

Page 33: Modulo Estadística 2011

En este caso se emplea la siguiente fórmula:

Dónde:

Li = Límite Inferior del intervalo que contiene a la Mediana

Fi-1 = Frecuencia Acumulada en la clase anterior i-ésima

fi = Frecuencia en la clase que contiene a la mediana

Hi-1 = Frecuencia Relativa Acumulada en la clase anterior i-ésima

hi = Frecuencia Relativa en la clase que contiene a la mediana

c =Tamaño del intervalo de clase.

Mediana = 930.64

3. MODA: (Mo)

La moda es el valor que aparece con mayor frecuencia, es decir, el que ocurre más frecuentemente.

Se dice que cuando un conjunto de datos tiene una moda la muestra es unimodal, cuando tiene dos modas

bimodal, cuando la muestra contiene más de un dato repetido se dice que es multimodal y un último caso es

cuando ningún dato tiene una frecuencia, en dicho caso se dice que la muestra es amodal.

Moda para datos no agrupados

Si tenemos datos sin agrupar, la encontramos fácilmente observando cuál es el valor que más se repite.

Ejemplos:

1.- Determinar la moda del siguiente conjunto de datos:

a).- 1, 2, 3, 3, 4 , 5, 6, 7, 7, 3, 1, 9, 3

Respuesta: La moda de este conjunto de datos es igual a 3 y si considera unimodal.

b).- 1, 2, 3, 4, 4, 5, 2, 1, 3, 4, 2, -3, 4, 6, 3, 3

Respuesta: Las modas de este conjunto de datos son 3 y 4 ya que ambas tienen la más alta frecuencia, por lo

que la muestra es bimodal

c).- 1, 2, 3, 4, 5, 6, 7, 8, 9

Respuesta: La muestra no contiene ningún dato repetido por lo que se considera que la muestra es amodal.

Page 34: Modulo Estadística 2011

Moda para datos agrupados

En datos agrupados en tablas simples de frecuencias, nos fijamos que valor corresponde a la

mayor frecuencia absoluta. En la siguiente tabla

En este ejemplo, la mayor frecuencia absoluta es 4, que corresponde al valor 10. Luego la Moda es

10.

Interpretación: La cantidad de días más frecuente que los empleados faltan por enfermedad es 10.

En datos agrupados en intervalos de clases, existen varios métodos para calcular la Moda. Cada

método puede darnos un valor diferente, pero aproximado, para un mismo conjunto de datos.

Se puede hallar de la siguiente manera:

Donde: Li= extremo inferior de la clase modal

d1= (fi – fi-1), d2 = ( fi – fi+1)

Ejemplo: Hallar la moda de la tabla Nº 4

Solución: Mo = 685

Interpretación: El monto de préstamos personales en dólares más frecuente otorgados por una compañía

financiera de consumidores es de 685 dólares.

Page 35: Modulo Estadística 2011

MEDIDAS DE POSICIÓN NO CENTRALES.

CUARTILES

Los cuarteles de una distribución, como si nombre lo indica, son valores de la variable que dividen al

conjunto de datos (ordenados de menor a mayor) en cuatro subconjuntos que contienen la misma

cantidad de datos.

Para calcular los cuartiles de una distribución de frecuencias se procede del mismo modo que en el

caso de la mediana, salvo que ahora dividiremos a la distribución de la variable en cuatro partes

iguales en lugar de dos.

A partir de esta definición es evidente que la mediana coincide con el segundo cuartil. Los cuarteles

se simbolizan con la letra Q.

Ejemplo:

Supongamos que un veterinario ha registrado los pesos de 8 pollos de seis semanas de vida y ordenó

de menor a mayor, obteniendo:

150 - 151 - 152 - 154 - 155 - 156 - 157 - 159 gramos.

La mediana de este conjunto de datos estará posicionada entre el 4º y 5º valor de la serie, siendo:

Mediana = Q2 = 154,5 gramos

El primer cuartel Q1, debe dividir a la primera mitad de la serie en dos partes iguales, por lo cual Q1

se ubicará entre el 2º y el 3º valor de la serie.

Luego:

Q1 = 151,5 gramos

Del mismo modo Q3, el tercer cuartel, divide a la segunda mitad de la serie en dos partes iguales.

Es decir:

Q3 = 156,5 gramos

Interpretación:

Si Q1 = 151,5 gramos significa que el 25 % de los pollos tendrán un peso inferior a 151,5 gramos y

el 75 % un peso superior a ese valor.

Si Q2 = 154,5 gramos significa que el 50 % de los pollos tendrán un peso inferior a 154,5 gramos y

el 50% restante superior a ese peso.

Si Q3 = 156,5 gramos significa que el 75 % de los pollos tendrán un peso inferior a 156,5 y un 25%

será superior a ese peso.

Page 36: Modulo Estadística 2011

* Cuando se trata de cuartiles para datos agrupados continuos, se aplica la fórmula de interpolación:

Dónde: n/4: es el número total de observaciones dividido por 4

Fj-1 : es el mayor de las frecuencias acumuladas que no supera a n/4

Fj : es la frecuencia acumulada que le sigue a Fj-1

Xj-1 : es el extremo inferior del intervalo que tiene como frecuencia acumulada F.

c ó h : amplitud de dicho intervalo

Para la tabla No 1 (longitud de los tornillos), calcular Q1 y Q3.

Respuestas: Q1= 8,36 mm

Q3= 11,57mm

Interpretación: Q1= Este valor indica que el 25% de los tornillos miden menos de 8,36 mm mientras

que el 75% restante mide más de 8,36mm

Q3 = Este valor indica que el 75% de los tornillos miden menos de 11,57 mm mientras que el 25%

restante mide más de 11,57mm.

PERCENTILES:

Los percentiles de una distribución, como su nombre lo indica, son valores de la variable, que

dividen al conjunto de datos (ordenados de menor a mayor) en cien partes iguales.

Los percentiles tienen el mismo significado y la misma forma de cálculo que los cuartiles. Así,

cuando se habla del percentil 15 se quiere expresar que es el valor de la variable que deja el 15% de

los datos a su izquierda y el 85 % de los mismos a su derecha o lo que es lo mismo decir que es el

valor de la variable que deja al 15 % de los datos por debajo de él y el 85% por encima.

Se puede emplear la siguiente fórmula:

Li = Límite Inferior del intervalo que contiene al Percentil

Fi-1 = Frecuencia Acumulada en la clase anterior k-ésima

fi = Frecuencia en la clase que contiene al Percentil

c =Tamaño del intervalo de clase.

k = 1%, 2%, 3%, ... , 97%, 98%, 99% Percentiles

Page 37: Modulo Estadística 2011

Práctica Calificada Nº 04

1. ¿Qué es una medida de tendencia central?

2. ¿Cuáles son las principales medidas de tendencia central?

3. Defina: media aritmética mediana y moda.

4. ¿Cuándo se utiliza la media aritmética ponderada?

5. Enuncie las propiedades de la media aritmética

6. Para cada información de los ejercicios del capítulo 3, calcular e interpretar la media aritmética, la

mediana y la moda.

7.

Elaborar la tabla de frecuencia y determinar las medidas de tendencia central

8. Los siguientes datos representan las temperaturas observadas al proceso de fermentación en un día

cualquiera de producción de cerveza “ALE”. Determine utilizando intervalos: la media, mediana y

moda a la siguiente tabla de frecuencia:

25 33 27 20 14 21 33 29 25 17

31 18 16 29 33 22 23 17 21 26

13 20 27 37 26 19 25 24 25 20

25 29 33 17 22 25 31 27 21 14

24 7 23 15 21 24 18 25 23 24

9. Los estadísticos del programa de “Comida Sobre Ruedas”, el cual lleva comidas calientes a

enfermos confinados en casa, desean evaluar sus servicios. El número de comidas diarias que

suministran aparece en la siguiente tabla de frecuencia. Calcular la media, mediana y la moda.

Número de

comidas por día

Número de

días

0 - 5 3

5 - 10 6

10 - 15 5

15 - 20 8

20 - 25 2

25 - 30 3

Page 38: Modulo Estadística 2011

10. Las edades de 50 de los directores ejecutivos de las mejores corporaciones de la nación reportadas

aparecen en la siguiente tabla de frecuencias. Calcule e interprete la media, la mediana y la moda.

Además, calcule e interprete: Q1 y P15.

Edades Frecuencias

50 y menos de 55 8

55 y menos de 60 13

60 y menos de 65 15

65 y menos de 70 10

70 y menos de 75 3

75 y menos de 80 1

11. Una granja ganadera registró durante febrero el nacimiento de 29 terneros, cuyos pesos al nacer

(en kilogramos) fue el siguiente:

22,31,33,34,35,36,37,38,38,39,40,40,40,41,41,42,42,42,42,42,43,43,44,45,46,46,46,46,50

12. Los datos anteriores al ser dispuestos en una tabla de distribución de frecuencias se obtuvieron en

la siguiente tabla resultante.

Calcular la el promedio y la mediana para datos agrupados y no agrupados; y

comparar resultados

13. Ingresando a la biblioteca Digital E-libro , de la USS, busquen en el libro:

Título Estadística

Autor: Colegio24hs

Editorial: Colegio24hs

Publicado: 2004

Y desarrollen los ejercicios 1 al 5, de la página 47 a la 49 según corresponda a encontrar la media

aritmética, la mediana, y la moda.

Page 39: Modulo Estadística 2011

MEDIDAS DE DISPERSIÓN

Semana 5

Las medidas de dispersión muestran la variabilidad de una

distribución, indicando por medio de un número la tendencia de

los datos a dispersarse respecto al valor central o media. Cuanto

mayor sea ese valor, mayor será la variabilidad, cuanto menor sea,

más homogénea será a la media. Así se sabe si todos los casos son

parecidos o varían mucho entre ellos.

Las medidas de dispersión más usuales son:

1. RANGO ESTADÍSTICO, AMPLITUD Ó RECORRIDO.

Es la medida de variabilidad más fácil de calcular. Es la diferencia entre el valor mínimo y el valor

máximo en un grupo de números. Para averiguar el rango de un grupo de números:

Ordenamos los números según su tamaño

Restamos el valor mínimo del valor máximo

R= Xmáx. - Xmín.

Ejemplo:

a. Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus valores se

encuentran en un rango de:

Rango = 100 – 1 = 99

b. Hallar el rango de los conjuntos: x= 12, 6, 7, 3, 15, 10, 18, 5

y= 9, 3, 8, 8, 9, 8, 9, 18

En ambos casos, rango: 18 – 3 = 15; sin embargo si ordenamos se ven como sigue:

x = 3, 5, 6, 7, 10, 12, 15, 18 y = 3, 8, 8, 8, 9, 9, 9, 18

hay mucha más dispersión en “x” que en “y”, por lo que “y” consiste esencialmente en ochos y

nueves, pero en este caso el rango no indica diferencia entre ambos conjuntos, no es una buena

medida de la dispersión. Cuando hay valores muy extremos, el rango es una pobre medida de la

dispersión.

Page 40: Modulo Estadística 2011

2. LA VARIANZA. (S2 ó δ

2)

Es una variable estadística que mide la dispersión de los valores respecto a un valor central (media).

Específicamente, la varianza es una medida de que tan cerca o que tan lejos están los diferentes

valores de su propia media aritmética.

Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza; cuando

más cerca estén las Xi a su media menos es la varianza. La Varianza es el cuadrado de la

desviación estándar

Para datos no agrupados

Para datos agrupados

La variancia de los valores: (x1 x2 … xk) que ocurren con las frecuencias (f1 f2 … fk) es:

Page 41: Modulo Estadística 2011

3. DESVIACION ESTANDAR (S ó δ) . (ó DESVIACIÓN TIPICA)

La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar

ese problema se define otra medida de dispersión, la desviación estándar, que se halla como la raíz

cuadrada de la varianza. La desviación estándar o desviación típica nos informa sobre la dispersión

de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos.

Desviación Estándar: S = √S2 ó δ = √ δ2 (Es la raíz cuadrada de la varianza)

Propiedades de la Desviación Estándar

A su vez la desviación estándar, también tiene una serie de propiedades que se deducen fácilmente de

las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la varianza):

1. La desviación estándar es siempre un valor no negativo S

2. Es la medida de dispersión óptima por ser la más pequeña.

3. La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable

4. Si a todos los valores de la variable se le suma una misma constante la desviación estándar no

varía.

5. Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar

queda multiplicada por el valor absoluto de dicha constante.

Para el ejemplo anterior, la desviación estándar es 1.293 soles.

Page 42: Modulo Estadística 2011

4. COEFICIENTE DE VARIABILIDAD

Es una medida de variabilidad de los datos que se expresa en porcentaje, en la cual se compara la desviación

estándar con el respectivo valor del promedio de los datos, se expresa en porcentaje:

Page 43: Modulo Estadística 2011

Practica Calificada Nº 05

1. ¿Cuál es la utilidad de las medidas de dispersión?

2. ¿Cuáles son las principales medidas de dispersión?

3. ¿Cuál es la medida adecuada para comparar la dispersión entre varias variables que posean

diferente magnitud o diferente unidad de medida?

4. Para cada una de las informaciones de las unidades 2 y 4 de las sesiones anteriores, calcular e

interpretar:

4.1 Rango

4.2 Desviación media

4.3 Desviación Estandar

4.4 Coeficiente de variabilidad

5. La tabla de frecuencias exhibe las edades de una muestra de 36 personas que asistieron a una película: Años f

8-13 2

14-19 7

20-25 13

26-31 5

32-37 9

Hallar:

a. La media

b. La varianza

c. La desviación

6. La siguiente tabla muestra los coeficientes de inteligencia de 480 niños de una escuela elemental C.I. 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126

fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2

Calcula:

a) El C.I. promedio de los niños estudiados

b) Su desviación.

7. El entrenador de un equipo de baloncesto duda entre seleccionar a Elena o María. Los puntos

conseguidos por cada una, en una semana de entrenamiento fueron:

Elena 18 23 22 24 19 25 16

María 18 26 18 28 22 17 18

a. ¿Cuál de las dos tiene mejor media?

b. Calcula la desviación típica. ¿Cuál de las dos es más regular?

c. Si tú fueras el entrenador, a quién seleccionarías?

Page 44: Modulo Estadística 2011

INTRODUCCIÓN A LAS PROBABILIDADES

Semana 6

“Los planes corresponden al hombre,

las probabilidades a Dios.”

Proverbio chino

1. EXPERIMENTO ALEATORIO:

Es cualquier hecho o fenómeno cuyo resultado no puede predecirse antes de que suceda.

Ejemplo:

- Rendir un examen y observar su resultado

- Tirar una moneda y observar cual de las caras queda hacia arriba

- El lanzamiento de 2 dados paralelamente y observar el puntaje obtenido

- Elegir un cliente del restaurante y preguntar su opinión sobre el servicio recibido.

2. ESPACIO MUESTRAL:

Es el conjunto de todos los resultados posibles de un experimento aleatorio. Se representa

comúnmente con la letra S.

Ejemplos:

* En el experimento aleatorio de lanzar una moneda 3 veces

El espacio muestral es un conjunto formado por 8 elementos:

Page 45: Modulo Estadística 2011

* En el experimento aleatorio de lanzar un par de dados, el espacio muestral es:

3. EVENTO O SUCESO:

Es un subconjunto de elementos que pertenecen al espacio muestral y que cumple una

característica determinada. Ejemplos:

* Del espacio muestral, lanzamiento de un dado; el evento

A= puntaje obtenido es mayor de 3

A= [4,5,6]

* Al lanzar una moneda 3 veces, el evento de obtener por lo menos dos caras es:

E = [(C,C,C), (C,C,S), (C,S,C), (S,C,C)] ; tiene 4 elementos

* Al lanzar un par de dados, el evento “la suma es igual a 7” será:

4. PROBABILIDAD

Es una medida que expresa la “tasa de ocurrencia de un evento a largo plazo”. El valor de esta

medida está comprendido entre [0 y 1].

La probabilidad de que ocurra un evento A se define como el valor que corresponde al número de

casos “favorables” entre el número de casos “posibles”:

Ejemplos:

Si se lanza un dado, cual es la probabilidad de obtener un puntaje impar. Rpta. 0.5

De un juego de 52 naipes se extrae una carta al azar (aleatoria), cuál es la probabilidad de obtener

un puntaje mayor de 9. Rpta. 0.3077

Si se lanza un dado 2 veces cuál es la probabilidad de que:

- Se obtenga un puntaje igual a 8 - Se obtenga un puntaje <= a 4

- Se obtenga un puntaje < a 5 pero >= a 2

Page 46: Modulo Estadística 2011

OPERACIONES CON PROBABILIDADES

1. Eventos Mutuamente Excluyentes

Dos eventos son mutuamente excluyentes cuando “no pueden ocurrir los dos al mismo tiempo”, es

decir la ocurrencia de uno de ellos impide automáticamente la ocurrencia del otro. Por tanto, si 2

eventos son mutuamente excluyentes no habrá intersección entre ellos.

Si el evento A y el evento B son excluyentes:

A∩B = 0, Luego P(A∩) = 0

Ejemplo: Los clientes de una agencia de turismo se clasifican según nacionalidad y edad:

¿Cuál es la probabilidad de elegir un cliente joven o adulto?

P(J U A) = P(J) + P(A) = 130 + 40 = 170 = 0.85

200 200 200

2. Intersección de Eventos: En el ejemplo anterior, calcular la probabilidad de que un cliente

elegido sea Joven o Extranjero:

P(J U E) = P(J) + P(E) – P(J∩E) = 130 + 80 - 30 = 180 = 0.9

200 200 200 200

Si A y B son no excluyentes: P(A U B) = P(A) + P(B) – P(A∩B)

“o” = unión “y” = intersección

Ejemplos:

1. De la urna que tienes a la derecha, sacamos una bola a azar y anotamos su número

a) Describe el espacio muestral. ¿Cuántos casos tiene?

b) Describe los siguientes sucesos:

Bola Roja = A; Bola Verde = B; Bola Azul = C; Bola Roja con número

impar = D; Bola con número par = F

c) Calcula la probabilidad de cada uno de los sucesos anteriores

2. ¿Cuál es el espacio muestral correspondiente al lanzamiento de una moneda? ¿Cuál es la

probabilidad de cada una de las dos caras?

3. Si se lanza un dado, cuál es la probabilidad de obtener un puntaje impar

Page 47: Modulo Estadística 2011

4. Al extraerse una carta de un juego de 52 naipes, cual es la probabilidad de que ésta sea de

color rojo o tenga un puntaje menor de 5.

5. En una encuesta aplicada a 50 estudiantes secundarios, 22 alumnos manifestaron inclinación por la

Química, 28 por Estadística y 10 alumnos por ambos cursos. Si se selecciona al azar a uno de estos

alumnos:

a) ¿Cuál es la probabilidad de que les guste Química o Estadística?

b) ¿De qué se incline por Química y Estadística?

c) ¿Qué no le guste ninguno de los 2 cursos?

6. En un salón de clase hay 15 alumnos y 24 alumnas, la tercera parte de los hombres y la mitad de

mujeres son de Chiclayo. Hallar la P[ ] de que sea alumno ó sea de Chiclayo; y de que sea alumna y

que haya nacido fuera de Trujillo.

TÉCNICAS DE CONTEO

Repaso de Factoriales

n! = 1x2x3x4x……xn

0! = 1

1! = 1

PERMUTACIÓN “Pn”

Una permutación es un conjunto de arreglos diferentes de n en n elementos de un total de n

Se lee: Pn = permutación de n elementos.

Fórmula: Pn = n!

Ejemplo:

1. De cuántas formas diferentes se pueden sentar 3 personas ABC en 3 asientos consecutivos:

[ ABC, ACB, BAC, BCA, CAB, CBA ] P3 = 3! = 6

2. Cuántas juntas directivas diferentes se podrían formar con las personas ABC y D, si dicha junta

tiene los cargos de Presidente, Vicepresidente, Secretario y Tesorero.

P4 = 4! = 24 juntas

m

COMBINACIÓN C = m!

n (m-n)! n!

Se lee: “combinación de n en n elementos de un total de m”

Son arreglos diferentes de n en n elementos de un total de m, en los cuales no interesa el orden en

que se presentan.

Ejm. Se desea elegir un comité de 3 personas entre 8 candidatos, cuantos comités diferentes pueden

formarse:

Page 48: Modulo Estadística 2011

8

C 3 = 8! = 8! 56 formas diferentes

(8-3)! 3! 5! 3!

m

VARIACIÓN V = m!__

n (m-n)!

Se lee: “Variación de n en n elementos de un total de m”. Sí interesa el orden de los elementos.

Ejm. Se desea formar una junta directiva con los cargos de presidente, secretario y tesorero. Si hay 8

candidatos, cuantas juntas directivas diferentes se podría formar:

8! = 8! = 8x7x6x5! = 336 formas diferentes

(8-3)! 5! 5!

Ejemplos para el Aula:

1. Si un conjunto A tiene 5 elementos. ¿Cuántas duplas se pueden formar con los elementos de

A?.

2. En el concurso de belleza de Miss Universo, se suelen elegir primero 15 semifinalistas, luego

se eligen 5 finalistas. ¿De cuántas formas diferentes se pueden ocupar las 5 primeras

posiciones entre las 15 semifinalistas?

3. La junta directiva de la compañía ABC consta de 15 miembros. ¿De cuántas formas se puede

elegir presidente, vicepresidente y secretario?

4. ¿Cuántos equipos de basquet de cinco hombres se pueden formar de una escuadra de 12

hombres si no tienen en cuenta las posiciones de juego?

5. En una clase de estadística hay 30 estudiantes 24 hombres y 6 mujeres. ¿De cuántas formas

distintas se puede construir un comité de cuatro estudiantes?

¿De cuántas formas distintas se puede construir un comité de cuatro estudiantes si dos deben

ser mujeres?

Page 49: Modulo Estadística 2011

Practica Calificada N° 06

ACTIVIDAD Nº 1

A continuación se describen varias situaciones. Contesta la pregunta, en cada caso, razonando las respuestas:

a) En una clase de 30 alumnos, 12 chicos y 18 chicas, cada uno escribe su nombre en una papeleta y la

introduce en una caja. ¿Qué es más probable que aparezca el nombre de una chica o de un chico?

b) Se lanza un dado cúbico con las caras numeradas del 1 al 6. ¿Qué es más probable que salga el 5 o el 1?

c) Si lanzas una ficha cuyas caras son verde y rojo ¿qué color esperas que salga?

ACTIVIDAD Nº 2

Indica el espacio muestral de los siguientes sucesos:

a) Obtener par, al lanzar un dado cúbico con las caras numeradas del 1 al 6.

b) Lanzamos dos monedas al aire.

c) Obtener impar al lanzar un dado cúbico.

ACTIVIDAD Nº 3

En cada uno de los siguientes experimentos aleatorios, diga cuál es la probabilidad de que ocurra el suceso

que se indica:

a) CESTA I CESTA II b) BOLSA I BOLSA II

Se extrae una pieza de fruta Se extrae una bola

Suceso: OBTENER UNA PERA Suceso: OBTENER UNA BOLA VERDE

ACTIVIDAD Nº 4

Resolver:

1. Hallar la probabilidad de sacar por suma 4 o 11 al lanzar dos dados.

2. Una urna tiene 8 bolas rojas, 5 amarillas y 7 verdes. Se extrae una al azar, calcular la probabilidad de que:

Sea roja.

Sea verde.

Sea amarilla.

3. Se extrae aleatoriamente una baraja de un juego de 52 cartas. ¿Cuál es la probabilidad de que la carta

seleccionada?

a) Sea un “as”

b) Sea una carta negra ó un número menor de 5

c) Sea número 8 y de color rojo

4. De 100 personas que fueron consultadas sobre sus preferencias a la hora de realizar un deporte, 50

practicaban fútbol, 40 practicaban baloncesto y 30 practicaban ciclismo. Además, 25 personas practicaban

futbol y baloncesto, 15 practicaban fútbol y ciclismo, y 12 practicaban baloncesto y ciclismo. Por último, tan

sólo 5 personas practicaban los tres deportes. El resto no sabe o no contesta.

a) Representa el diagrama de Venn correspondiente.

b) Calcula las siguientes probabilidades: P(practicar fútbol), P(practicar fútbol y baloncesto), P(practicar sólo

ciclismo), P(practicar los tres deportes), P(practicar alguno de los tres deportes), P(no practicar ninguno de los

tres deportes.

Page 50: Modulo Estadística 2011

Permutaciones, Combinaciones, Variaciones

1. ¿De cuántas maneras se pueden colocar dos anillos diferentes en la misma mano, de

modo que no estén en el mismo dedo?

2. Al lanzar cinco dados de distintos colores ¿cuántos resultados podemos obtener?

3. Con los números 1,2,3,4,5 y 6:

3.1 ¿Cuántos números distintos de siete cifras podríamos formar?

3.2 ¿Podremos numerar a los 3224564 habitantes de una ciudad con esos

números?

4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. ¿Cuál es el

número de casos posibles?

5. ¿Cuántos números de seis cifras existen que estén formados por cuatro números dos

y por dos números tres?

6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar.

Engarzando las 25 bolitas en un hilo, ¿cuántos collares distintos podrá realizar?

7. ¿Cuántas palabras distintas, con o sin sentido, podremos formar con las letras de la

palabra educación? ¿y con la palabra vacaciones?

8. Un grupo de amigos formado por Raúl, Sonia, Ricardo y Carmen organizan una

fiesta, acuerdan que dos de ellos se encargarán de comprar la comida y las bebidas

¿De cuántas formas posibles puede estar compuesta la pareja encargada de dicha

misión?

9. Una fábrica de helados dispone de cinco sabores distintos (vainilla, chocolate, nata,

fresa y cola) y quiere hacer helados de dos sabores ¿Cuántos tipos de helado podrán

fabricar?

10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si se

han dado en total 21 besos, ¿cuántas personas había?

11. En una carrera de 500 metros participan doce corredores ¿De cuántas maneras

pueden adjudicarse las medallas de oro, plata, bronce?

12. ¿De cuántas formas pueden cubrirse los cargos de presidente, vicepresidente,

secretario y tesorero de un club deportivo sabiendo que hay 14 candidatos?

Page 51: Modulo Estadística 2011

PROBABILIDADES CONDICIONALES

Semana 7

Hasta ahora se ha estudiado la probabilidad absoluta de un evento, es decir sin relacionarlo uno con

otro. Sin embargo pudiera ser de interés calcular la probabilidad de que ocurra un evento de cierto

espacio muestral “S” a la luz de que otro evento de ese mismo espacio “S” ocurra.

Sean A y B dos eventos de un mismo espacio muestral S. La probabilidad condicional de A, dado

que ha ocurrido B (o viceversa), está dado por:

P[ A/B ] = “ probabilidad de que ocurra A habiendo sucedido B”

P[ A/B ] = P[A∩B] = n (A∩B)

P[B] n(B)

P[B/A] = “probabilidad de que ocurra B habiendo sucedido A”

P[ B/A ] = P[B∩A] = n (B∩A)

P[A] n(A)

Ejemplos:

1. En una empresa el 50% de trabajadores trabaja por la mañana, el 30% lo hace por las tardes y el 20% tanto

en la mañana como por la tarde; si se escoge aleatoriamente a un trabajador cualquiera:

a) Cual es la probabilidad de que trabaje en la mañana si se conoce que labora en la tarde

b) Cual es la probabilidad de que trabaje por las tardes si se conoce que labora por la mañana

SOLUCIÓN

A= labora en la mañana …………. 50%

B= labora en la tarde …………….. 30%

A Π B = labora en los dos turnos … 20%

a) P[A/B] = P[A ∩ B] = 20/30 = 2/3 ó 66.67%

P[B]

Page 52: Modulo Estadística 2011

b) P[B/A] = P[B ∩A] = 20/50 = 2/5 ó 40%

P[A]

2. De todos los alumnos que el ciclo pasado llevaron los cursos de Estadística Aplicada y Matemática I, se

tienen los siguientes datos:

El 20% desaprobaron Matemática I

El 35% desaprobaron Estadística Aplicada

El 10% desaprobaron ambos cursos

Si se escoge aleatoriamente a un alumno que lleva estos cursos, cual es la probabilidad de que este:

a) Haya sido desaprobado en Matemática I conociéndose que fue desaprobado en Estadística Aplicada

b) Haya sido desaprobado en Estadística Aplicada conociéndose que fue desaprobado en Matemática I

c) De que haya sido desaprobado en Matemática I ó Estadística Aplicada

SOLUCIÓN:

M = desaprobó Matemática I =20%

E = desaprobó Estad. Aplicada =35%

M ∩ E = desaprobaron ambos cursos = 10

a) P[M/E] = 10/35 = 2/7 = 28,57%

b) P[E/M] = 10/20 = ½ = 50%

c) P[E UM] = P[E] + P[M] – P[E ∩M] = 35/100 + 20/100 – 10/100 = 9/20 = 45%

3. En la parte preferencial de un teatro solamente hay 120 asientos, los cuales son de 2 colores, azules o

negros; algunos son de madera y otros son metálicos. El resumen se presenta en el recuadro siguiente:

Asientos Metálicos Madera Total

Azul 35 45 80

Negro 18 22 40

Total 53 67 120

Si se selecciona aleatoriamente uno de estos asientos, calcule la probabilidad de que este sea:

a) De color azul

b) De color negro metálico

c) El asiento elegido sea de madera

d) Sea de color azul si se sabe que es de metal

e) El asiento sea de madera si se sabe que es de color negro

f) El asiento no sea de color azul

SOLUCIÓN

A= Azul, N=Negro, M=Metálico, Ma=Madera

a) P[A] = n(A)/n(S) = 80/120 = 2/3 = 66.47%

b) P[N ∩ M] = n(M ∩ N)/n(S) = 18/120 = 9/60 = 3/20 = 15%

c) P[Ma] = 67/120 = 55.83 %

d) P[A/M] = P[A ∩ M] / P[M] = n(A ∩ M) / n(M) = 35/53 = 66.04%

e) P[M/N] = P[Ma ∩ N]/ P[N] = n(Ma ∩ N)/n(N) = 22/40 = 11/20 = 55%

Page 53: Modulo Estadística 2011

Complemento de un suceso=> P[M’]= 1 – P[M]

Sea de color azul: P[A], complemento = 1 – P[A]

f) P[A]’ = 1 – P[A] = 1 - 80/120 = 40/120 = 4/12 = 1/3 = 33.33%

TEOREMA DE BAYES

Es un caso particular de la probabilidad condicional.

Si A1, A2, A3, …, An, son sucesos mutuamente excluyentes de los cuales al menos uno de los

sucesos Ai (i=1,2,3,…,n) debe ocurrir y siendo B un suceso cualquiera del espacio muestral, la

probabilidad de que ocurra el suceso “Ak” habiendo ocurrido B se puede definir como:

P[Ak / B] = P[Ak] . P[B/Ak]

∑ P[Ai] . P[B/Ai]

Ejemplo 1

1. En una empresa el 50% de trabajadores pertenecen al área técnica profesional, el 30% son

oficinistas y el 20% pertenecen al área de personal de servicio; se sabe además que el 8, 9 y 10% de

los técnicos profesionales, oficinistas y personal de servicio respectivamente son provincianos.

a) Represente las condiciones enunciadas en un árbol de probabilidades

b) Si se selecciona al azar un trabajador, cual es la probabilidad de que este sea técnico

profesional o personal de servicio.

c) Sea técnico profesional si se conoce que es provinciano

d) Sea de personal de servicio si se sabe que es de la capital

SOLUCIÓN

T= técnico profesional P=provinciano

O=oficinistas C=capital

S=personal servicio

a) Árbol de probabilidades

b) P[T U S] = P[T] + P[S] – P[T ∩ S] = 50/100 + 20/100 – 0 = 70/100 = 70%

c) P[T/P] = _________50/100 x 8/100_______________________

50/100x8/100 + 30/100x9/100 + 20/100x10/100

= 50 x 8_____________ = ___400 = 400/870 = 40/87 ó 45.98%

50x8 + 30x9 + 20x10 400+270+200

d) P[S/C] = P[S].P[C/S]

P[T].P[C/T] + P[O].P[C/O] + P[S].P[C/S]

Page 54: Modulo Estadística 2011

= 20/100 . 90/100

50/100x92/100 + 30/100x91/100 + 20/100x90/100

= 1800 = 1800 / 9130 = 180/913 ó 19.72 %

4600 + 2730 + 1800

Ejemplo 2

El 70% de los pacientes de un hospital son mujeres y el 20% de ellas son fumadoras. Por otro lado el

40% de los pacientes hombres son fumadores. Se elige al azar un paciente del hospital. ¿Cuál es la

probabilidad de que sea fumador?

Solución Diagrama de Árbol para el ejemplo:

Ejemplo 3

Consideremos un control de calidad de una empresa en el cual se desea saber la probabilidad de que

un determinado artefacto tenga una vida útil superior a las 1200hs. Para ello el dpto. de Control de

Calidad separa 500 unidades de la producción y mide la vida útil de cada unidad. Los resultados de

observan en la siguiente tabla:

Duración(en hs) Frec. Abs.(fi) Frec. Relat.

Menos de 800 10 2%

800 a 899 40 8%

900 a 999 55 11%

1000 a 1099 70 14%

1100 a 1199 85 17%

1200 a 1299 115 23%

1300 a 1399 84 17%

1400 a más 41 8%

Total 500 100%

P(A) = 115 + 84 +41 ó = 23% + 17% + 8%

500 = 48%

Page 55: Modulo Estadística 2011

Práctica Calificada N° 07

Ejercicio 1:

Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las piezas

producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%,

4% y 5%.

a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa.

b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido

producida por la máquina B.

c. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza

Ejercicio 2:

Tras un estudio estadístico en una ciudad se observa que el 70% de los motoristas son varones y, de

estos, el 60% llevan habitualmente casco. El porcentaje de mujeres que conducen habitualmente con

casco es del 40%. Se pide:

a. Calcular la probabilidad de que un motorista elegido al azar lleve casco.

b. Se elige un motorista al azar y se observa que lleva casco. ¿Cuál es la probabilidad de que sea

varón?

Ejercicio 3:

En una ciudad, el 35% vota al partido A, el 45% vota al partido B y el resto se abstiene. Se sabe

además que el 20% de los votantes de A, el 30% de los de B y el 15% de los que se abstienen, son

mayores de 60 años. Se pide:

a. Hallar la probabilidad de que un ciudadano elegido al azar sea mayor de 60 años.

b. Hallar la probabilidad de que un ciudadano mayor de 60 años se haya abstenido.

Ejercicio 4:

Los alumnos de Primero de Biología tienen que realizar dos pruebas, una teórica y otra práctica. La

probabilidad de que un estudiante apruebe la parte teórica es de 0.6, la probabilidad de que apruebe

la parte práctica es de 0.8 y la probabilidad de que apruebe ambas pruebas es 0.5.

a. ¿Son independientes los sucesos aprobar la parte teórica y la parte práctica?

b. ¿Cuál es la probabilidad de que un alumno no apruebe ninguno de los dos exámenes?

c. ¿Cuál es la probabilidad de que un alumno apruebe solamente uno de los dos exámenes?

d. Se sabe que un alumno aprobó la teoría. ¿Cuál es la probabilidad de que apruebe también la

práctica?

Ejercicio 5:

El 35% de los créditos de un banco es para vivienda, el 50% para industrias y el 15% para consumo

diverso. Resultan fallidos el 20% de los créditos para vivienda, el 15% de los créditos para industrias

Page 56: Modulo Estadística 2011

y el 70% de los créditos para consumo. Calcula la probabilidad de que se pague un crédito elegido al

azar.

Ejercicio 6:

El volumen de producción en tres plantas diferentes de una fábrica es de 500 unidades en la primera,

1000 unidades en la segunda y 2000 en la tercera. Sabiendo que el porcentaje de unidades

defectuosas producidas en cada planta es del 1%, 0.8% y 2%, respectivamente, calcula la

probabilidad de que al seleccionar una unidad al azar sea defectuosa.

Ejercicio 7:

El 20% de los empleados de una empresa son ingenieros y otro 20% son economistas. El 75% de los

ingenieros ocupan un puesto directivo y el 50% de los economistas también, mientras que de los no

ingenieros y no economistas solamente el 20% ocupan un puesto directivo. ¿Cuál es la probabilidad

de que un empleado directivo elegido al azar sea ingeniero?

Page 57: Modulo Estadística 2011

VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS DISTRIBUCIONES DE PROBABILIDADES

Semana 8

En el cálculo de probabilidades, generalmente, es más

sencillo identificar los eventos numéricamente, y no con

la simple descripción del suceso que pueda ocurrir, es

más, en muchas ocasiones no podemos registrar todos los

sucesos inmersos en el espacio muestral del experimento.

Debemos recurrir a cuantificar esos símbolos iniciales en

números reales que se puedan operar matemáticamente.

Variable Aleatoria

Definición: Una variable aleatoria es una función definida sobre un espacio muestral a los

números reales. Si ese espacio muestral especificado como dominio es numerable, decimos

que la variable es de tipo discreto, en caso contrario diremos que es de tipo continuo.

En el experimento de lanzar una moneda, una vez, definimos la variable aleatoria X: el

número de sellos obtenido.

En la tirada de dos dados si X es la suma obtenida:

Page 58: Modulo Estadística 2011

FUNCIÓN DE PROBABILIDAD

Las variables aleatorias, transforman eventos del espacio muestral en eventos numéricos, los

cuales desde luego, tienen asociada una probabilidad de ocurrencia.

1. Función de Probabilidad f(x)=p(X=x): Es una función definida sobre una variable aleatoria a los

reales en el intervalo [0,1] que cumple con los axiomas de la teoría de la probabilidad.

2. Función de Distribución F(x)=p(X=x)

Es la acumulada de una función de probabilidad.

-: Limite inferior de la variable X

Page 59: Modulo Estadística 2011

Ejemplo:

En el Lanzamiento de una Moneda,

X: Número de Sellos

Ejemplo:

X es la Suma Obtenida en el Lanzamiento de dos Dados:

Ejemplo: ¿ Cuál es la probabilidad que un disparo impacte a menos de 15 cm del centro? ¿ a más de

9 centímetros? ¿Entre 7 y 14 centímetros?

Page 60: Modulo Estadística 2011

CUESTIONARIO Y EJERCICIOS PROPUESTOS

1. Defina: Variable aleatoria, variable aleatoria discreta, variable aleatoria continua, función

de probabilidad y función de distribución.

2. En el ejercicio de la ficha de dominó, si X representa la diferencia absoluta entre los dos

números, representar y calcular la probabilidad de ocurrencia de los siguientes eventos:

2.1 La diferencia sea menor o igual a 5

2.2 La diferencia sea mayor que 2

2.3 La diferencia sea mayor que 2 pero menor o igual 5

2.4 La diferencia sea mayor que 5 ó menor que 3

Page 61: Modulo Estadística 2011

DISTRIBUCIÓN BINOMIAL

Page 62: Modulo Estadística 2011
Page 63: Modulo Estadística 2011
Page 64: Modulo Estadística 2011

DISTRIBUCIÓN DE POISSON La distribución de Poisson es de gran utilidad cuando tenemos variables distribuidas a través del

tiempo ó del espacio. Es el caso del número de llamadas que entran a una central telefónica en una

unidad de tiempo, la cantidad de personas que atiende un cajero en una hora, los baches por

kilómetro en una autopista, los artículos defectuosos que hay en un lote de producción; amén de su

utilización como aproximación binomial cuando p es muy cercano a cero, o n superior a 30. (p<0.1 ,

n>30).

La función de probabilidad de Poisson es:

Page 65: Modulo Estadística 2011

Ejemplo:

Un cajero de un banco atiende en promedio 7 personas por hora, cual es la probabilidad de que un

una hora determinada:

1. Atienda menos de 5 personas

2. Atienda más de 8 personas

3. Atienda más de 5 pero menos de 8 personas

4. Atienda exactamente 7 personas

Consultando la tabla para la distribución de Poisson:

Ejemplo:

En cierto núcleo poblacional, el 0.5% es portador del V.I.H. En una muestra de 80 personas, cual es

la probabilidad:

1. De que haya alguna persona portadora.

2. No haya personas portadoras.

Solución:

Page 66: Modulo Estadística 2011

DISTRIBUCIÓN NORMAL Dada la caracterización propia de este modelo continuo, donde coinciden las medidas de tendencia

central, media, moda y mediana; la simetría respecto a estos parámetros y la facilidad de su

aplicación hacen de la distribución normal, una herramienta de uso común, máxime que la mayoría

de las variables económicas y sociales se ajustan a una función normal.

La distribución normal, también es útil como aproximación de los modelos binomial y poisson

expuestos anteriormente, y yendo un poco más adelante, sustentados en el teorema del “límite

central” podemos afirmar que, cuando el tamaño de la muestra es lo suficientemente grande,

podemos asumir el supuesto de normalidad para una suma de variables.

La forma acampanada de la variable normal, resalta la perfección de esta curva definida por los

parámetros

Sin embargo, existen infinitas distribuciones normales, ya que por cada media aritmética ó

varianza diferente se describe una función también diferente:

Page 67: Modulo Estadística 2011

Normal Diferente Media Igual Varianza

Normal Diferente Varianza Igual Media

Page 68: Modulo Estadística 2011

Las gráficas de este tipo son muy corrientes: Hay pocos individuos en los

extremos y un aumento paulatino hasta llegar a la parte central del

recorrido, donde está la mayoría de ellos.

Page 69: Modulo Estadística 2011

DEFINICIÓN :

Es la distribución más importante en la estadística.

Es una distribución simétrica con respecto a su promedio, teniendo la media,

mediana y moda el mismo valor. El valor máximo ocurre cuando

U = Me = Mo

x y σ,

En el caso de la

Distribución normal de

parámetros

dicha función viene dada

por:

<= >=

Page 70: Modulo Estadística 2011

Z = x – u

δ

Casos:

I. P [x≤x] = P [ Z ≤ x – u ]

δ

II. P [x≥x] = 1 – P[x ≤ x] = 1 – P[ Z ≤ x – u ]

δ

III. P[a ≤ x ≤ b] = P[x ≤ b] – P[x ≤ a]

= P[Z ≤ b – u ] – P[Z ≤ a – u ]

δ δ

a) Tenga un contenido mayor a 1020 cm3

u = promedio = 1000 cm3

σ = 30 cm3

P [x > 1020]

= 1 – P[ x ≤ 1020]

= 1 – P[ z ≤ 1020 – 1000 ]

30

= 1 – P [ z≤ 0,67] Buscar en tablas 0,67

= 1 – 0,74857 = 025143 ó 25.14%

b) Tenga un contenido menor a 975 cm3

P[ x < 975 ]

P [ z ≤ 975 – 1000 ]

30

P [ z ≤ -0.833] = 0,20327 ó 20.33%

c) Contenga entre 980 y 1030 cm3

P [980 ≤ x ≤ 1030]

P [ z≤ 1030 – 1000 ] – P[z ≤ 980 – 1000 ]

30 30

P [ z≤ 1 ] – P [z ≤ -0.666 ] ……………………….. Ver en tablas

0.84134 - 0.25143

0.58991 ó 58.99%

Page 71: Modulo Estadística 2011

2. Una prueba acelerada de duración en un gran número

de pilas alcalinas tipo D, reveló que la duración media

para un caso específico antes que falle es 19 h. La

distribución de las duraciones se aproxima a una

distribución normal. La desviación estándar de la

distribución fue de 1.2 h.

Calcular:

a) Probabilidad que dure más de 21 horas

b) Probabilidad que dure como máximo 17.8 horas

c) Probabilidad de que su duración esté comprendida

entre 18.7 y 19.3 h

Page 72: Modulo Estadística 2011

Nota: Las tablas utilizadas en esta sesión, se encuentran colgadas en el Aula Virtual de la USS y en el blog: www.ingenieriainvestigacazasi.blogspot.com

Page 73: Modulo Estadística 2011

Practica Calificada N° 08

1. La probabilidad de que un visitante efectúe una compra en un almacén, durante un

día dado es 0.8. Si al negocio entran 20 clientes, ¿cuál es la probabilidad de que el

almacén realice:

1.1 Exactamente 16 ventas?

1.2 Menos de 17 ventas?

1.3 Más de 14 ventas?

1.4 Exactamente 5 ventas?

1.5 ¿Cuál es el número esperado de ventas?

2. Si un almacén tiene en promedio 5 ventas por hora. ¿Cuál es la probabilidad de que

en una hora determinada:

2.1 Haya exactamente 4 ventas?

2.2 Haya más de 3 ventas?

2.3 No se efectúen ventas?

3. Una de cada 10 personas mayores de 40 años de una comunidad, sufren de

hipertensión. Se toma una muestra de 50 personas mayores de 40 años.

Utilizando primero la distribución binomial y luego la aproximación a la distribución

de Poisson, responder y comparar los resultados:

3.1 ¿Cuál es la probabilidad que haya más de 4 hipertensos?

3.2 ¿Cuál es la probabilidad que haya exactamente 5hipertensos?

4. Un lote de arandelas tiene un diámetro normal con media 10 milímetros y

desviación típica 0.5 milímetros. Se toma una arandela al azar. ¿Cuál es la

probabilidad de que tenga un diámetro:

4.1 Superior a 10.5 milímetros?

4.2 Entre 9 y 11 milímetros?

4.3 Menos de 9 milímetros?

Page 74: Modulo Estadística 2011

INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Semana 10

La preparación de un proyecto de investigación es una

tarea compleja, ya que se han de tener en cuenta multitud de

aspectos para que el documento final contemple todos los

apartados que cualquier estructura estándar considera y para

que todos los investigadores sepan con qué y cómo deben

proceder en todas las etapas de ejecución del estudio planteado.

Uno de los dilemas que se presenta cuando se inicia la

elaboración del proyecto es decidir sobre los individuos o

elementos que se incluirán en el estudio: qué características

tendrán «criterios de inclusión y exclusión», a cuántos pacientes

se estudiará «tamaño de la muestra» y cómo se elegirán para

que entren a formar parte del estudio «técnica de muestreo».

Estudiar a toda la población, que sería la manera más exacta de conocer lo que se pretende

estudiar, es casi imposible en la práctica. Entre los motivos que lo impiden se encuentran la falta de

tiempo, la escasez de recursos humanos y económicos, la dificultad para acceder a todos los sujetos,

etc., por lo que se estudia sólo a una parte de ellos, para, posteriormente, generalizar o inferir los

resultados obtenidos a toda la población.

Por tanto, cuando se habla de sujetos de estudio, se ha de diferenciar claramente entre

población, muestra e individuo.

Page 75: Modulo Estadística 2011

TEOREMA DEL MUESTREO

DISEÑO DE MUESTRA

1. Definir la Población Meta: Conjunto de Elementos que poseen la información

que se busca

2. Determinar el Marco de la Muestra: Lista o grupo de indicaciones para

identificar a la población meta

Listas:

Directorio Telefónico de Organizaciones

Lista de correo

Page 76: Modulo Estadística 2011

3. Seleccionar las Técnicas de Muestreo

TÉCNICAS NO PROBABILÍSTICAS:

Es aquella en la cual los elementos del conjunto población no tienen la misma probabilidad

de ser seleccionado.

1. Por Conveniencia: Su principal debilidad es el nombre, ya que, para muchas personas el

nombre da a entender que se está haciendo la selección de las unidades de análisis amañando

las respuestas, situación que no es cierta, toma su nombre, debido a que se busca obtener una

representatividad de la población consultando o midiendo unidades de análisis que pueden ser

accesadas con relativa facilidad. Es uno de los muestreos con mayor uso, dado esa

particularidad.

2. Por Juicio: Se busca seleccionar a individuos que se juzga de antemano tienen un

conocimiento profundo del tema bajo estudio, por lo tanto, se considera que la información

aportada por esas personas es vital para la toma de decisiones. En el área de vacunas

sintéticas, el Dr. Patarroyo, es considerado una eminencia, luego sería un personaje ideal para

hablar sobre esa temática. Si se utilizará un método aleatorio, probablemente quedarían en la

muestra algunas personas con poco dominio sobre el tema en estudio.

N o P r o b a b i l í s t i c o

Po

r

Co

nven

ien

cia

Po

r

Ju

icio

Po

r

Cu

ota

Po

r

Bo

la d

e N

ieve

Sim

ple

Sis

tem

áti

co

Po

r

Gru

po

Es

tra

tifi

ca

do

Áre

as

T E C N I C A S D E

M U E S T R E O

P r o b a b i l í s t i c o

Page 77: Modulo Estadística 2011

3. Por Cuota: Se asemeja al muestreo estratificado en el sentido que busca representatividad

de diferentes categorías o estratos de la población objeto de estudio, sin embargo, para la

selección de esas unidades no usa el azar: Es uno de los más usados en la práctica.

4. Por Bola de Nieve: Este muestreo no es tan común, pero que tiene su aplicabilidad en

diversos casos, se pretende localizar a algunos individuos, de tal manera que estos, lleven a

otros y así sucesivamente. Su aplicabilidad, esta mayoritariamente en estudios con

poblaciones de difícil ubicación y/o identificación, como es el caso de: drogadictos, enfermos

de VH Sida, personas son hábitos escasos etc.

TÉCNICAS PROBABILÍSTICA:

Es aquella mediante la cual cada uno de los elementos de la población tienen la misma

oportunidad de ser seleccionados

Clases de Muestreo Probabilístico

1. Muestreo Aleatorio Simple: Es aquel en que cada uno de los elementos tiene la misma

oportunidad de ser seleccionados. Generalmente se realiza con la ayuda de números

aleatorios.

2.Muestreo Sistemático: Es aquella técnica en la que después de seleccionarse

aleatoriamente el 1er elemento de la muestra, el resto de elementos se selecciona mediante un

sistema particular, como por ejemplo de 10 en 10.

3.Muestreo Estratificado: Es aquel que divide a la población en áreas o estratos, después de

lo cual considera a cada uno de ellos para sacar parte de la muestra total.

Generalmente este tipo de muestreo se efectúa en forma proporcional al número de elementos

de cada estrato, es decir, en función a sus porcentajes con respecto al número total de

elementos de la población.

Page 78: Modulo Estadística 2011

Ejemplo Aplicativo

1. Una empresa decide premiar a sus trabajadores por el éxito obtenido en la última campaña,

sorteando 10 pasajes entre ellos a la ciudad del Cuzco, incluyendo bolsa de viaje.

Haga la selección de los trabajadores favorecidos en forma aleatoria simple, utilizando una

tabla de números aleatorios.

Punto de partida: Columna 8 y fila 5

Respuesta

Números leídos en la tabla:

…………………………………………………………………………………

Los trabajadores seleccionados fueron:

Page 79: Modulo Estadística 2011

2. Efectúe la selección de los 10 trabajadores del ejemplo anterior mediante un muestreo aleatorio

sistemático. Escoja aleatoriamente entre los 8 primeros trabajadores a uno y luego seleccione los

restantes de tres en tres (contando a partir del primer trabajador seleccionado).

Punto de partida para seleccionar al primero: Columna 3 y fila 7.

Primer trabajador seleccionado es el número: ……………………….

Trabajadores restantes: ………………………………………………

3. Supongamos que el dueño de la Empresa decide premiar a sólo 15 trabajadores, pero en la

premiación deben estar trabajadores de todas las áreas en forma proporcional a la cantidad que

aparece en la lista.

Solución

Tenemos la siguiente distribución de trabajadores por sección:

Jefatura 3

Of. de Auditoría Interna 8

Of. de Asesoría Jurídica 5

Of. de Planeamiento y Desarrollo 7

Secretaría General 6

Of. de Administración 6

Total 35

Hacemos la siguiente tabla de distribución

Área de Trabajo N’ Trabajadores Porcentaje % N’ Trabajador

Considerado

Jefatura 3 8.57 1

Of. de Auditoría Interna 8 22.86 3

Of. de Asesoría Jurídica 5 14.29 2

Of. de Planeamiento y

Desarrollo

7 20.00 3

Secretaría General 6 17.14 3

Of. de Administración 6 17.14 3

Total 35 100 15

Se halla primero el porcentaje individual que representa cada trabajador en su área

Ahora, en la nueva repartición el total es 15 trabajadores, entonces para hallar la

cantidad de trabajadores por área se calcula de la sgte. manera:

15 ------ 100%

X ------ 8.57%

X : 8.57 * 15 X = 1.29 trabajador, equivale a 1

100

Una vez determinado el número a seleccionar en cada estrato, en cada uno de ellos se aplica

muestreo aleatorio simple.

Page 80: Modulo Estadística 2011
Page 81: Modulo Estadística 2011

TAMAÑO DE LA MUESTRA

El tamaño de la muestra es el número de sujetos que componen la muestra

extraída de una población, necesarios para que los datos obtenidos sean

representativos de la población

Conceptos:

Parámetro: Característica de la Población

Estadístico: Característica de la Muestra

EL TAMAÑO DE LA MUESTRA DEPENDE DE TRES ASPECTOS:

1. NIVEL DE PRECISIÓN: ó Error Muestral

El Error Muestral o Error de Estimación es el error a causa de

observar una muestra en lugar de la población completa, también es

la diferencia entre un estadístico y su parámetro correspondiente.

La estimación de un valor de interés, como la media o el porcentaje, estará

generalmente sujeta a una variación entre una muestra y otra.

Estas variaciones en las posibles muestras de una estadística pueden,

teóricamente, ser expresadas como errores muestrales, sin embargo,

normalmente, en la práctica el error exacto es desconocido. El error muestral

se refiere en términos más generales al fenómeno de la variación entre

muestras.

2. NIVEL DE CONFIANZA ESTIMADO (z)

Probabilidad de que un intervalo de confianza incluya el parámetro de la

población.

Ejemplo:

Si Confianza es de 99%, la desconfianza es 1%

γ = 0.99

Page 82: Modulo Estadística 2011

α = 0.01

α/2 0.99 α/2

F(z) = 0.995

z = 2.58

* Nivel de Confianza 99% z = 2.58

98% z = 2.33

97% z = 2.17

96% z = 2.05

95% z = 1.96

94% z = 1.88

93% z = 1.81

92% z = 1.75

91% z = 1.70

90% z = 1.64

El Intervalo de Confianza está compuesto por: Límite Superior y Límite

Inferior

3. CARÁCTER FINITO O INFINITO DE LA POBLACIÓN:

Se considera finita cuando se conoce la población y es infinita cuando no se

conoce el total de la población.

Page 83: Modulo Estadística 2011

Cálculo de “n” (Tamaño de la muestra)

Caso I: Para proporciones o porcentajes (variable cualitativa)

~ Para población infinita o

grande

(N desconocida)

n = z2.p.q

~ Para población finita (N conocida)

n = N.z2.p.q

(N-1).D2+z2.p.q

Dónde: z: nivel de confianza

D: error aceptado/precisión requerida

p: probabilidad de éxito que ocurra el suceso

q: probabilidad que no ocurra el suceso

NOTA1: Para población finita, si el valor de n/N > 0.05; se debe corregir el tamaño

de la muestra de la siguiente manera:

n = ____n____

(1 + n/N)

NOTA2: Si no se conoce el dato previo de p y q, se asume que cada uno de ellos vale

50%, es decir: p = q = 0.50 = 50%

Cuando se supone p=q=0.50, se obtiene el máximo tamaño de muestra, es

decir que para cualquier tamaño de p y q, “n” sea menor.

Caso II: Para promedios (variable cuantitativa)

~ Para población infinita o

grande (N desconocida)

n = (z .σ / D) 2

~ Para población finita (N conocida)

n = N.z2. σ 2 __

(N-1).D2 + z2. σ2

Page 84: Modulo Estadística 2011

Dónde σ2 = varianza

NOTA1: Para población finita, si el valor de n/N > 0.05; se debe corregir el

tamaño de la muestra de la siguiente manera:

n = ____n____

(1 + n/N)

NOMENCLATURA

n = Número de elementos de la muestra

N = Número de elementos de la población o universo

P/Q = Probabilidades con las que se presenta el fenómeno.

Cuando el valor de P y de Q sean desconocidos o cuando la encuesta abarque

diferentes aspectos en los que estos valores pueden ser desiguales, es conveniente

tomar el caso más adecuado, es decir, aquel que necesite el máximo tamaño de la

muestra, lo cual ocurre para P = Q = 50, luego, P = 50 y Q = 50.

Z = Valor crítico correspondiente al nivel de confianza elegido

E = Margen de error permitido (determinado por el responsable del estudio).

Ejercicios Resueltos de Tamaño de Muestra

1. Suponga que las estaturas de los hombres de cierto país tienen distribución normal con

desviación estándar de 2.5 pulgadas. ¿De qué tamaño se debe tomar la muestra si se desea

determinar un intervalo de confianza del 95% para la media con un error de estimación de

0.5?

Solución

Datos: δ = 2.5” n = (z. δ / D)2

z = 95% = 1.96 n = (1.96x2.5/0.5)2

D = 0.5 n = 96.04

n = 96 hombres

2. Un analista desea estimar el salario promedio de los trabajadores de una compañía

determinada con un margen de error de $250 y una confianza del 90%. Se estima que la

desviación estándar de los salarios no es mayor de $1000. ¿Cuál es el número de

Page 85: Modulo Estadística 2011

expedientes que deben muestrearse como mínimo para satisfacer este objetivo de

investigación?

Solución

Datos: D = 250 n = (z. δ/D)2

z = 90% = 1.64 n = (1.64x1000/250)2

δ = 1000 n = 43.03

n = 43 expedientes

3. El rector de una universidad particular desea estimar el costo promedio de un año de

estudios con un error de estimación menor a $500 y con una probabilidad del 95%. Suponga

que la universidad solo tiene 1500 alumnos y que el costo tiene una desviación estándar

aproximada de $4000. ¿Cuántos alumnos deben seleccionarse?

Solución

Datos: D = 500 n = _____N . z2 . δ

2____

z = 95% = 1.96 (N-1).D2 + z

2. δ

2

N = 1500

δ = 4000 n = 1500 . (1.96) 2

. (4000)2

(1499)(500)2

+ (1.96)2.(4000)

2

n = 211.3597

n = 211 alumnos

En este caso se hace la comprobación:

n = 211 = 0.14 > 0.05

N 1500

Se debe corregir a: n _ = 211 = 185 estudiantes

1 + n_ 1 + 211

N 1500

Interpretación: Se debe tomar en cuenta a 185 estudiantes para que el resultado tenga una

confianza del 95% y una precisión de 500$ ( un error no mayor a $500)

4. Se desea estimar el peso promedio de 800 naranjas. Para ello se va a escoger aleatoriamente

cierto # de ellas. Se desea que el erro de estimación sea máximo de 3 gr con una confianza

del 90%. ¿Cuántas naranjas deben seleccionarse?. Suponga que la varianza es

aproximadamente de 144 gramos al cuadrado.

Solución

Datos: N = 800 n = N . z2 . δ

2_____

D = 3 grs (N-1).D2 + z

2. δ

2

z = 1.64

δ2 = 1.44 n = 800 . (1.64)

2 . (144)

799.(3)2

+ (1.64)2.144

n = 40.885

n = 41 naranjas

Page 86: Modulo Estadística 2011

En este caso se hace la comprobación:

n = 41 = 0.05125 > 0.05

N 800

Se debe corregir a: n _ = 41 = 39 naranjas

1 + n_ 1 + 41

N 800

Interpretación: Se debe considerar a 39 naranjas para que el peso promedio calculado tenga

una confianza del 90%, con un error máximo de 3 gramos.

5. Se desea estimar en cierta ciudad la proporción de estudiantes que están a favor de la

legalización de las drogas prohibidas. El error de estimación que se requiere es del 1% y un

nivel de confianza del 99%. ¿Cuántos estudiantes deben incluirse en la muestra?

Solución

Datos: D = 0.01 n = z 2

. p .q

z = 99% = 2.58 D2

p = q = 0.50

(no hay información previa ) n = (2.58)2.(0.5)(0.5)

(0.001)2

n = 16641 estudiantes

Interpretación: Para que el % de estudiantes calculado tenga una confianza del 99% con un

error no mayor de 1% se debe encuestar a 16641 estudiantes.

6. El jefe de personal de una empresa desea realizar una encuesta para determinar la

proporción de trabajadores que está a favor de un cambio en el horario de trabajo. Como es

imposible consultar a los 500 trabajadores en un lapso razonable, procede a escoger

aleatoriamente cierto # de trabajadores para entrevistarlos; determine el número de

trabajadores que debe entrevistarse si desea que la proporción estimada presente un error

máximo del 5% y un nivel de confianza del 95%.

Solución

Datos: N = 500 n = N. z2 . p.q__

D = 0.05 (N-1).D2 + z

2.p.q

z = 95% = 1.96

p = q = 0.50 n = 500 . (1.96) 2

. (0.50)2

499.(0.05)2 + (1.96)

2.(0.50)

2

n = 217.49

n = 217 trabajadores

En este caso se hace la comprobación:

n = 217 = 0.434 > 0.05

N 500

Page 87: Modulo Estadística 2011

Se debe corregir a: n _ = 217 = 151 trabajadores

1 + n_ 1 + 217

N 500

Interpretación: Para que el porcentaje de trabajadores que están a favor del cambio de

horario calculado tenga una confianza del 95% y un error no mayor al 5%, se deben

considerar como muestra 151 trabajadores.

7. Un prospecto de comprador desea estimar el promedio de ventas por cliente (en $) en una

tienda de juguetes ubicada en un aeropuerto. Con base en datos de otras tiendas similares, se

estima que la desviación estándar de ese tipo de ventas es de aprox. $32. ¿Qué tamaño de

muestra se debe utilizar como mínimo, se desea estimar las ventas promedio con un margen

de error de $8 y un intervalo de confianza del 99%?

Solución

Datos: δ = $32 n = (z. δ/D)2

D = 8 n = ( 2.58 x 32 )2

z = 99% = 2.58 8

n = 107

Interpretación: Para que el promedio de ventas calculado sea aceptado con un 99% de

confianza y un error que no sobrepase los 8 dólares, el tamaño a considerar debe ser de 107

ventas.

El error generalmente no debe sobrepasar a un cuarto de la desviación estándar, si

sobrepasa la muestra es pequeña.

8. Un administrador universitario desea estimar la proporción de estudiantes inscritos en

programas de postgrado en administración de empresas, que también tienen licenciaturas en

la misma área, con un margen de error del 0,05 y una confianza del 90%. Determine el

mínimo tamaño de la muestra si:

a) No existe ninguna base para estimar el valor apropiado de la proporción antes de tomar la

muestra

b) Si una información previa señala que la proporción no es mayor de 30%

Solución

a) Datos: D= 0.05 n = [ 1.64 x o.50]2

z = 90% = 1.64 0.05

p = q = 0.50

n = 268.96

n = 269

b) Datos: p = 0.30 n = (1.64)2 .(0.30).(0.70)

q = 0.70 (0.05)2

D = 0.05

z = 1.64 n = 225.93

n = 226 estudiantes

Page 88: Modulo Estadística 2011

Practica Calificada N° 10

1. Queremos ajustar una máquina de refrescos de modo que el promedio del líquido dispensado quede

dentro de cierto rango. La cantidad de líquido vertido por la máquina sigue una distribución normal con

desviación estándar 0´15 decilitros. Deseamos que el valor estimado que se vaya a obtener comparado

con el verdadero no sea superior a 0´2 decilitros con una confianza del 95%.¿De qué tamaño debemos

escoger la muestra?

2. Es necesario estimar entre 10.000 establos, el número de vacas lecheras por establo con un error de

estimación de 4 y un nivel de confianza del 95%. Sabemos que la varianza es 1.000. ¿Cuántos establos

deben visitarse para satisfacer estos requerimientos?

3. Una máquina llena cajas con cierto cereal. El supervisor desea conocer con un error de estimación de

máximo 0´1 y un nivel de confianza del 90%, una media estimada del peso. Como la varianza era

desconocida se procedió a escoger una muestra piloto. Los resultados fueron los siguientes: 11´02, 11´14,

10´78, 11´59, 11´58, 11´19, 11´71, 11´27, 10´93, 10´94. ¿Cuántas cajas debe escoger para que se cumplan

los requisitos propuestos?

4. Se desea conocer el peso promedio de una determinada clase de pescado con un error de estimación de

0´02 y con un nivel de confianza del 99%. Por datos anteriores se sabe que el peso mínimo es 1´48 libras

y el máximo es de 2´47 libras.¿De qué tamaño debe escoger la muestra? Suponga que los pesos de estos

pescados se distribuyen normalmente.

5. Se desea hacer una encuesta para determinar la proporción de familias que carecen de medios

económicos para atender los problemas de salud. Existe la impresión de que esta proporción está próxima

a 0´35. Se desea determinar un intervalo de confianza del 95% con un error de estimación de 0´05. ¿De

qué tamaño debe tomarse la muestra?

6. Un productor de semillas desea saber con un error de estimación del 1% el porcentaje de semillas que

germinan en la granja de su competidor. ¿Qué tamaño de muestra debe tomarse para obtener un nivel de

confianza del 95

7. Se desea realizar una encuesta entre la población juvenil de una determinada localidad para determinar

la proporción de jóvenes que estaría a favor de una nueva zona de ocio. El número de jóvenes de dicha

población es N=2.000. Determinar el tamaño de muestra necesario para estimar la proporción de

estudiantes que están a favor con un error de estimación de 0´05 y un nivel de confianza del 95

8. Un biólogo quiere estimar el peso promedio de los ciervos cazados en el estado de Maryland. Un

estudio anterior de diez ciervos cazados mostró que la desviación estándar de sus pesos es de 12.2 libras. ¿Qué tan grande debe ser una muestra para que el biólogo tenga el 95% de confianza de que el error de estimación es a lo más de 4 libras? 9. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente normal con una desviación estándar de 40 horas. ¿De qué tamaño se necesita una muestra si se desea tener 96% de confianza que la media real esté dentro de 10 horas de la media real? 10. Suponga que en el ejercicio anterior se tiene una población de 300 focos, y se desea saber de que tamaño debe de ser la muestra. El muestreo se realizará sin reemplazo. 11. En una muestra aleatoria de 500 familias que tienen televisores en la ciudad de Hamilton, Canadá, se encuentra que 340 están suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra si se quiere tener 95% de confianza de que la estimación de P esté dentro de 0.02? 12. Una legisladora estatal desea encuestar a los residentes de su distrito para conocer qué proporción del electorado conoce la opinión de ella, respecto al uso de fondos estatales para pagar abortos. ¿Qué tamaño de muestra se necesita si se requiere un confianza del 95% y un error máximo de estimación de 0.10?

Page 89: Modulo Estadística 2011

TEORÍA DE LA ESTIMACIÓN ESTADÍSTICA

Semana 11

La inferencia estadística es el proceso de usar resultados muestrales

para obtener conclusiones respecto a las características de una

población.

En esta sección estudiaremos los procedimientos estadísticos que

permitan estimar dos parámetros de una población: la media y la

proporción.

Razón para estimar Los administradores utilizan las estimaciones porque se deben tomar decisiones racionales, sin

que tengan la información pertinente completa y con una gran incertidumbre acerca de lo que

pueda deparar el futuro, pero con la intención de que las estimaciones constituyan una buena

aproximación de los parámetros desconocidos de la población.

Estimador Es la regla o procedimiento, expresado en general por medio de una fórmula, que se utiliza para

deducir la estimación.

Estimación Es un valor específico observado de un estimador, por lo que asigna uno o varios valores

numéricos a un parámetro de una población sobre la base de datos de muestra.

Tipos de estimación

a) Estimación puntual:

Consiste en un solo estadístico muestral que se usa para estimar el valor verdadero de un

parámetro de una población que es desconocido.

Cuando usamos una estimación puntual, sabemos que aunque usemos un método bueno

de estimación es prácticamente improbable que el valor de la estimación coincida con el

verdadero valor del parámetro, así que sería conveniente acompañar nuestra estimación

con alguna medida que nos permitiera expresar la cercanía del estimador al parámetro.

Una solución a ello no los brindan los estimadores por Intervalos de Confianza.

Page 90: Modulo Estadística 2011

b) Estimación por intervalo:

Es la estimación de un parámetro de la población dado por dos números que forman un

intervalo que contiene al parámetro con una cierta probabilidad.

Conceptos básicos

Nivel de Confianza

Está asociado con la probabilidad de que el intervalo de confianza contenga al parámetro de la

población y es expresado en porcentaje. Los niveles de confianza que más se utilizan son 90%,

95% y 99%.

Lo denotaremos por 1, donde es un valor tal que 0 1. Note que a medida que e

acerca a 0, 1se acerca a 1, ésto significa que aumenta la probabilidad de que el intervalo

construido contenga al verdadero valor del parámetro que estamos estimando.

Nivel de Significación:

Llamaremos así al valor de .

Límites de Confianza

Son el límite inferior y superior de un intervalo de confianza.

Page 91: Modulo Estadística 2011
Page 92: Modulo Estadística 2011

ESTIMACIÓN ESTADÍSTICA PARA MEDIAS MUESTRALES

CASO I Muestra Grande: n ≥ 30

µ = δ . z

√n

Dónde: z = distribución normal

CASO II Muestra Pequeña: n < 30

µ = s . t

√n

Dónde: s = desviación estándar

t = distribución t-Student; se calcula usando el grado de confianza

y los grados de libertad.

Ejemplo:

Si δ = 95% (0.95) y n = 8

∞ = 5% (0.05)

p = 0.95 + 0.025 = 0.975 (también se halla p = 1 - ∞/2)

Grados de libertad: n-1 = 8 – 1 = 7

Con p = 0.975 y n =7 , se lleva a la tabla de la función de

distribución t-Student, donde t = 2.447

Ejemplos de uso de la tabla:

Para δ= 90% y n = 25, calcular t-Student (1,711)

Para p=0.95 y n=18, calcular t-Student (1.740)

Ejemplo 1

Se desea estimar la experiencia docente promedio de los profesores de cierta universidad, y para

tal efecto se toma una muestra de 8 de ellos, siendo los resultados de experiencia medidos en

años los siguientes: (δ = 95%)

{11,9,7,13,10,5,7,12} años

Page 93: Modulo Estadística 2011

Solución

Hallamos

= (11+9+7+13+10+5+7+12)/8 = 9.25

S2 = ∑(xi - )2 =(11-9.25)2 + (9-9.25)2 + (7-9.25)2 + … + (12-9.25)2 n - 1 7

S = √7.62 = 2.76

µ = 9.25 2.76 . 2.447

√8

Usando: +, tenemos 11.56 años

-, tenemos 6.94 años

Entonces la estimación queda:

µ = [6.94 años – 11.56 años] Interpretación: La experiencia estimada promedio de los docentes de la universidad evaluada

está entre: 6.94 y 11.56 años con una confianza del 95%.

Si tenemos que δ + ∞ = 1

Confianza δ ∞ ∞/2 p= 1-∞/2

0.90 (90%) 0.10 0.05 0.950

0.95 (95%) 0.05 0.025 0.975

0.99 (99%) 0.01 0.005 0.995

Ejemplo 2

Se tomó una muestra aleatoria de 50 candidatos que se presentan a realizar la prueba de

suficiencia en el departamento de selección, donde se tiene una media de 150 puntos y una

desviación de 63 puntos. Calcular el intervalo de confianza del 95%

Solución

Se trata del caso I, dónde: µ = δ . z

√n

= 150 , δ = 63 , Confianza 95% z = 1.96

Page 94: Modulo Estadística 2011

µ = 150 63 . 1.96

√50

150 + 14.369 150 - 14.369

164.369 135.631

Los límites de confianza están entre

135.631≤ µ ≤ 164.369

Ejemplo 3

Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una muestra

de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.

Encuentre los intervalos de confianza de 95% y 99% para la concentración media de zinc en el

río. Suponga que los datos siguen una distribución normal con una desviación estándar de 0.3.

Solución

La estimación puntual de es 2.6.

* El valor de z del 95% es 1.96, por lo tanto el intervalo lo calcularíamos como:

2.6

y por tanto [2.5,2.7] con una confianza del 95%.

En otras palabras, la probabilidad de que la concentración media de zinc esté entre

2.5 y 2.7 gramos por mililitro es de 0.95.

* Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el

intervalo será más amplio:

2.6 2.575*0.3

√36

[2.47,2.73]

Page 95: Modulo Estadística 2011

la probabilidad de que la concentración media de zinc esté entre 2.47 y 2.73

gramos por mililitro es de 0.99.

Ejemplo 4

Extraemos una muestra de 61 estudiantes universitarios, ellos responden a una prueba de

inteligencia en la que alcanzan una media de 80 y una varianza de 100. ¿Entre qué límites se

hallará la verdadera inteligencia media de los estudiantes, a un nivel de confianza del 99%?

Solución

1- ∞ = 0.99 ∞ = 0.01 1 - ∞/2 = 0.995

2-

El tamaño muestral es mayor que 30, por tanto buscamos en las tablas la

distribución t de Student t0.995 (60) = 2.66

Sabemos que = 80 y s = 10 . Sustituyendo en el intervalo de confianza tenemos:

[80 – 2.66 10 , 80 + 2.66 10

√61 √61

por tanto, [76.57,83.43] con un nivel de confianza del 99%.

Page 96: Modulo Estadística 2011

Practica Calificada N° 11

I. ESTIMACION PUNTUAL

1. Los siguientes datos corresponden a los pesos (en kilogramos) de 15 hombres escogidos

al azar y que trabajan en una empresa: 72, 68, 63, 75, 84, 91, 66, 75, 86, 90, 62, 87, 77,

70,69. Estime el peso promedio y la desviación estándar.

2. Entre los miembros de una comunidad se escogieron 150 personas al azar y se les

preguntó si estaban de acuerdo con los programas que el gobierno estaba desarrollando

para prevenir el consumo de drogas; la encuesta dio como resultado que 130 sí estaban de

acuerdo. Estime la proporción de los que estaban de acuerdo y el error estándar.

3. De las 50 aulas que tiene un edificio de la facultad de matemáticas se escogieron al azar 5

y se determinó el número de alumnos que había en cada una de ellas en la primera hora

de clases. Estime el número de alumnos que hay en el edificio si todas las aulas se

encuentran ocupadas a esa hora, y si el numero de alumnos en cada una de las aulas

inspeccionadas fue: 24, 35, 16, 30, 28.

4. Teniendo en cuenta los datos del problema I, estime el error del peso promedio.

5. Teniendo en cuenta los datos del problema III, estime el error del número total de

estudiantes.

II. ESTIMACIÓN POR INTÉRVALOS

1. Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un

contenido promedio de nicotina de 3 miligramos. Suponga que el contenido de

nicotina de estos cigarrillos sigue una distribución normal con una desviación

estándar de 1 miligramo.

a. Obtenga e interprete un intervalo de confianza del 95% para el verdadero

contenido promedio de nicotina en estos cigarrillos.

b. El fabricante garantiza que el contenido promedio de nicotina es de 2,9

miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado?

2. El tiempo(en minutos) que tardaron 15 operarios para familiarizarse con el manejo

de una máquina moderna adquirida por la empresa fue: 3,4, 2,8, 4,4, 2,5, 3,3, 4,

4,8, 2,9, 5,6, 5,2, 3,7, 3, 3,6, 2,8,4,8. Suponga que los tiempos se distribuyen

normalmente.

3. Determine e interprete un intervalo del 95% de confianza para el verdadero

tiempo promedio

4. el instructor considera que el tiempo promedio requerido por la población de

trabajadores que recibe instrucción sobre esta m quina es superior a 5 minutos,

¿qué se puede decir de acuerdo con el intervalo hallado?

5. Se desea medir la diferencia entre dos categorías de empleados en la actividad de

seguros. Una est formada por personas con título superior y la otra por personas

que sólo tienen estudios secundarios. Tomamos una muestra de 45 empleados

entre los primeros y la media de ventas resulta ser 32. Tomamos 60 empleados del

segundo grupo y la media es 25. Suponga que las ventas de los dos grupos se

distribuyen normalmente con varianzas de 48 para los titulados superiores y 56

para los de estudios secundarios.

6. Calcule e interprete un intervalo del 90% de confianza para la verdadera

diferencia de las medias.

Page 97: Modulo Estadística 2011

7. De acuerdo con el intervalo hallado, ¿hay evidencia de que las medias sean

iguales?

8. Se registraron los siguientes datos, en minutos, que tardan algunos hombres y

mujeres en realizar cierta actividad en una empresa, los cuales fueron

seleccionados aleatoriamente.

HOMBRES MUJERES

n1=14 n2=25

Media=17 Media=19

Varianza=1,5 Varianza=1,8

9. Suponga que los tiempos para los dos grupos se distribuyen normalmente y que

las varianzas son iguales, aunque desconocidas.

10. Calcule e interprete un intervalo de confianza del 99% para la verdadera

diferencia de medias.

11. De acuerdo con el intervalo hallado, ¿hay evidencia de que los dos tiempos

promedio son iguales?

12. Una fábrica desea saber la proporción de amas de casa que preferirían una

aspiradora de su marca. Se toma al azar una muestra de 100 amas de casa y 20

dicen que les gustaría la máquina. Calcule e interprete un intervalo del 95% de

confianza para la verdadera proporción de amas de casa que preferirían dicha

aspiradora.

13. Se está considerando cambiar el procedimiento de manufactura de partes. Se

toman muestras del procedimiento actual así como del nuevo para determinar si

este último resulta mejor. Si 75 de 1.000 artículos del procedimiento actual

presentaron defectos y lo mismo sucedió con 80 de 2.500 partes del nuevo,

determine un intervalo de confianza del 90% para la verdadera diferencia de

proporciones de partes defectuosas.

14. Un fabricante de baterías para automóvil asegura que las baterías que produce

duran en promedio 2 años con una desviación estándar de 0,5 años. Si cinco de

estas baterías tienen duración 1,5, 2,5, 2,9, 3,2, 4 años, determine un intervalo del

95% para la varianza e indique si es cierta la afirmación del fabricante.

15. Tomando en cuenta los datos del problema IV, determine un intervalo del 90% de

confianza para el cociente de varianzas

Page 98: Modulo Estadística 2011

TEORÍA ESTADÍSTICA DE LAS DECISIONES PRUEBA DE COMPROBACIÓN DE HIPÓTESIS

Semana 12

Dentro del estudio de la inferencia estadística, se describe como se puede tomar una muestra

aleatoria y a partir de esta muestra estimar el valor de un parámetro poblacional en la cual se

puede emplear el método de muestreo y el teorema del valor central lo que permite explicar

como a partir de una muestra se puede inferir algo acerca de

una población, lo cual nos lleva a definir y elaborar una

distribución de muestreo de medias muestrales que nos permite

explicar el teorema del limite central y utilizar este teorema

para encontrar las probabilidades de obtener las distintas

medias maestrales de una población.

Pero es necesario tener conocimiento de ciertos datos de la

población como la media, la desviación estándar o la forma de

la población, pero a veces no se dispone de esta información.

En este caso es necesario hacer una estimación puntual que es

un valor que se usa para estimar un valor poblacional. Pero una

estimación puntual es un solo valor y se requiere un intervalo de valores a esto se denomina

intervalote confianza y se espera que dentro de este intervalo se encuentre el parámetro

poblacional buscado. También se utiliza una estimación mediante un intervalo, el cual es un

rango de valores en el que se espera se encuentre el parámetro poblacional

En nuestro caso se desarrolla un procedimiento para probar la validez de una aseveración acerca

de un parámetro poblacional este método es denominado Prueba de hipótesis para una muestra.

Definición de HIPÓTESIS

Hipótesis es una aseveración de una población elaborado con el propósito de ponerla a prueba.

En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se

hacen las pruebas para verificar la aseveración o para determinar que no es verdadera.

Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría

de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable.

Las hipótesis estadísticas se establecen

entonces para tomar decisiones sobre el valor de algún parámetro poblacional.

Page 99: Modulo Estadística 2011

A partir de las siguientes premisas, elaborar un planteamiento de Hipótesis:

un maestro parte de la premisa de que el estudiante asiste al curso con el deseo de

aprender.

un electricista debe partir de la premisa de que la conexión eléctrica que va a revisar

está viva con corriente eléctrica;

la sociedad parte de la premisa de que una persona es inocente hasta tanto se

pruebe lo contrario mas allá de duda razonable;

dependiendo del lugar donde vivamos, podemos partir de la premisa de que la

persona que maneja el otro vehículo en la intersección respetará la señal de Pare o

Alto;

un médico investigador parte de la premisa de que el nuevo medicamento no surtirá

efecto alguno;

un sicólogo parte de la premisa de que dos grupos de individuos sometidos a

tratamientos distintos no mostrarán diferencias en su comportamiento.

Tipos de Hipótesis

La premisa de la cual se parte sobre el comportamiento de la población se conoce como la

hipótesis nula. Se le llama nula pues la misma generalmente indica, por ejemplo, que la media

poblacional es cero; que no hay diferencia entre los parámetros asociados a grupos en la

población; o que el medicamento no es efectivo en la población de pacientes.

La hipótesis nula se denota usualmente en símbolos por H0. El cero nos recuerda que se parte de

la premisa de que el efecto es nulo o que las diferencias entre los grupos es cero.

Al hacer investigaciones es usual pensar en una hipótesis de investigación, tal como: demostrar

que el medicamento es efectivo; demostrar que hay una diferencia significativa en la ejecución

en una prueba entre individuos que durmieron toda la noche e individuos que no durmieron, o

que unas plantas tratadas con hormonas crecen más que el grupo control. Esta hipótesis, lo que el

investigador desea demostrar sobre la población, se conoce como la hipótesis alternativa y se

denota por Ha.

En conclusión

Lo que el investigador desea demostrar es parte de la hipótesis alternativa y no de la nula por

varias razones. Una razón es que partir de una premisa contraria a lo que deseamos demostrar, y

luego encontrar evidencia concreta que nos lleve a rechazarla es un argumento más contundente

que presumir que lo queremos demostrar es cierto para luego encontrar evidencia que apoya

nuestro reclamo.

En este último caso puede reclamarse que observamos esos resultados sencillamente porque de

acuerdo con nuestra premisa, esperábamos que así fuera. Otra razón es que de esta manera

podemos controlar matemáticamente la probabilidad de cometer algunos tipos de error.

Page 100: Modulo Estadística 2011

Ejemplo 1

Una persona es arrestada y se le acusa de cometer algún crimen. Inicialmente, esta persona es

considerada inocente. Usando los datos o evidencia disponible el fiscal debe demostrar que sin

duda razonable, la persona en efecto cometió el crimen.

En el caso de un acusado, la hipótesis nula es que el individuo es inocente. Sin embargo, para

decidir que un individuo no es culpable, no basta con observar muchas acciones o evidencia

consistentes con su inocencia, las que por sí solas generalmente no demuestran su inocencia. Por

el otro lado, observar comportamiento culposo permite llegar eventualmente a la decisión de

encontrar al individuo culpable, rechazando la hipótesis nula.

Ejemplo 2

Una maestra desea investigar si el refuerzo positivo a sus estudiantes les ayuda a obtener un

mejor desempeño en el próximo examen. Para esto divide aleatoriamente a sus estudiantes en

dos grupos. Al grupo A les felicita cuando hacen algo bien y les refuerza positivamente, mientras

que al grupo B les trata neutralmente. La metodología de enseñanza es la misma para ambos

grupos.

La hipótesis nula en este caso es que no hay diferencia entre los grupos en la puntuación

promedio en la prueba, es decir, ambas medias son iguales: H0: μA = μB, lo cual se puede

escribir en forma equivalente H0: μA - μB = 0. La hipótesis alternativa contiene el resultado que

el maestro desea probar, que la puntuación promedio del grupo A es mayor que la obtenida por

los estudiantes del grupo B, H0: μA > μB.

Page 101: Modulo Estadística 2011

Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación del

Ho o de la Ha, puede incurrirse en error:

Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser

aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α

Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada

cuando de hecho es falsa y debía ser rechazada.

En cualquiera de los dos casos se comete un error al tomar una decisión equivocada.

En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las

consecuencias posibles.

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los

errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así

se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de

reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o no ser

posible.

La probabilidad de cometer un error de tipo II denotada con la letra griega beta β, depende de la

diferencia entre los valores supuesto y real del parámetro de la población. Como es más fácil

encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente

parámetro de población es grande, la probabilidad de cometer un error de tipo II, probablemente

sea pequeña.

El estudio y las conclusiones que obtengamos para una población cualquiera, se habrán apoyado

exclusivamente en el análisis de una parte de ésta. De la probabilidad con la que estemos

dispuestos a asumir estos errores, dependerá, por ejemplo, el tamaño de la muestra requerida.

Las contrastaciones se apoyan en que los datos de partida siguen una distribución normal.

Page 102: Modulo Estadística 2011

TEST DE HIPÓTESIS O CONTRASTE DE HIPÓTESIS

Es una prueba de decisión que se establece a partir de la hipótesis nula con el fin de

aceptarla o rechazarla.

Región Crítica: Es la región del espacio muestral que, de acuerdo con un determinado

test, obliga a rechazar la hipótesis nula si se encuentra en ella el estadístico de contraste.

Región de Aceptación: Es la región del espacio muestral que, de acuerdo con un

determinado test, obliga a admitir la hipótesis nula, si se encuentra en ella el estadístico

de contraste.

La prueba de comprobación de hipótesis se realiza mediante un procedimiento sistemático de 5

pasos

Page 103: Modulo Estadística 2011

Paso 1: Plantear la hipótesis nula Ho y la hipótesis alternativa H1.

Cualquier investigación estadística implica la existencia de hipótesis o afirmaciones acerca de las

poblaciones que se estudian.

La hipótesis nula (Ho) se refiere siempre a un valor especificado del parámetro de población, no

a una estadística de muestra. La letra H significa hipótesis y el subíndice cero no hay diferencia.

Por lo general hay un "no" en la hipótesis nula que indica que "no hay cambio" Podemos

rechazar o aceptar Ho.

La hipótesis nula es una afirmación que no se rechaza a menos que los datos maestrales

proporcionen evidencia convincente de que es falsa. El planteamiento de la hipótesis nula

siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.

La hipótesis alternativa (H1) es cualquier hipótesis que difiera de la hipótesis nula. Es una

afirmación que se acepta si los datos maestrales proporcionan evidencia suficiente de que la

hipótesis nula es falsa. Se le conoce también como la hipótesis de investigación. El

planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al

valor especificado del parámetro.

Paso 2: Seleccionar el nivel de significancia.

Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le

denota mediante la letra griega α, también es denominada como nivel de riesgo, este termino es

mas adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es

verdadera. Este nivel esta bajo el control de la persona que realiza la prueba.

Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará

la probabilidad de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de

confianza (1-α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en

la población.

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de

rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si la estadística

de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.

La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba

que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos

valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa

la región de no rechazo de la de rechazo.

Page 104: Modulo Estadística 2011

Paso 3: Cálculo del valor estadístico de prueba

Valor determinado a partir de la información muestral, que se utiliza para determinar si se

rechaza la hipótesis nula., existen muchos estadísticos de prueba para nuestro caso utilizaremos

los estadísticos z y t. La elección de uno de estos depende de la cantidad de muestras que se

toman, si las muestras son de la prueba son iguales a 30 o más se utiliza el estadístico z, en caso

contrario se utiliza el estadístico t.

Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad

Ejemplo

H0 : µ = 200

H1 : µ ≠ 200

b) Pruebas unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

H0 : µ ≥ 200 H0 : µ ≤ 200

H1 : µ < 200 H1 : µ > 200

En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ)

poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba

es z y se determina a partir de:

El valor estadístico z, para muestra grande y desviación estándar poblacional desconocida se

determina por la ecuación:

Page 105: Modulo Estadística 2011

En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional

desconocida se utiliza el valor estadístico t.

Paso 4: Formular la regla de decisión

Se establece las condiciones específicas en la que se rechaza la hipótesis nula y las condiciones

en que no se rechaza la hipótesis nula. La región de rechazo define la ubicación de todos los

valores que son tan grandes o tan pequeños, que la probabilidad de que se presenten bajo la

suposición de que la hipótesis nula es verdadera, es muy remota

Distribución muestral del valor estadístico z, con prueba de una cola a la derecha

Valor critico: Es el punto de división entre la región en la que se rechaza la hipótesis nula y la

región en la que no se rechaza la hipótesis nula.

Paso 5: Tomar una decisión.

En este último paso de la prueba de hipótesis, se calcula el estadístico de prueba, se compara con

el valor crítico y se toma la decisión de rechazar o no la hipótesis nula. Tenga presente que en

una prueba de hipótesis solo se puede tomar una de dos decisiones: aceptar o rechazar la

hipótesis nula. Debe subrayarse que siempre existe la posibilidad de rechazar la hipótesis nula

cuando no debería haberse rechazado (error tipo I). También existe la posibilidad de que la

hipótesis nula se acepte cuando debería haberse rechazado (error de tipo II).

Page 106: Modulo Estadística 2011

Importante!

Región Crítica o de Rechazo:

Una región crítica o de rechazo es una parte de la curva de z o de la curva t donde se

rechaza H0.

La región puede ser de una cola o de dos dependiendo de la hipótesis alterna.

Ejemplos Para H1: > valor aceptado, la región de rechazo está dada por:

(cola derecha, z ó t)

Para H1 : < valor aceptado, la región de rechazo está dada por:

(cola izquierda, z ó t)

Para H1 : valor aceptado, la región de rechazo es de dos colas y está dada

por:

(2-colas, z ó t)

/2 /2

Page 107: Modulo Estadística 2011

Ejemplo en la cual se indica el procedimiento para la prueba de

hipótesis

El jefe de la Biblioteca Especializada de la Facultad de Ingeniería Eléctrica y Electrónica de la

UNAC manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no

este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se

considera el nivel de significancia de 0.05

Datos:

Día Usuarios Día Usuarios Día Usuario

1 356 11 305 21 429

2 427 12 413 22 376

3 387 13 391 23 328

4 510 14 380 24 411

5 288 15 382 25 397

6 290 16 389 26 365

7 320 17 405 27 405

8 350 18 293 28 369

9 403 19 276 29 429

10 329 20 417 30 364

Solución: Se trata de un problema con una media poblacional: muestra grande y desviación

estándar poblacional desconocida.

Paso 01: Seleccionamos la hipótesis nula y la hipótesis alternativa

Ho: μ═350

Ha: μ≠ 350

Paso 02: Nivel de confianza o significancia 95%

α═0.05

Paso 03: Calculamos o determinamos el valor estadístico de prueba

De los datos determinamos: que el estadístico de prueba es t, debido a que el numero de muestras

es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es

desconocida, en este caso determinamos la desviación estándar de la muestra y la utilizamos en

la formula reemplazando a la desviación estándar de la población.

Page 108: Modulo Estadística 2011

Calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se

muestra en el cuadro que sigue.

Columna1

Media 372.8

Error típico 9.56951578

Mediana 381

Moda 405

Desviación estándar 52.4143965

Varianza de la muestra 2747.26897

Curtosis 0.36687081

Coeficiente de asimetría 0.04706877

Rango 234

Mínimo 276

Máximo 510

Suma 11184

Cuenta 30

Nivel de confianza (95.0%) 19.571868

Paso 04: Formulación de la regla de decisión.

La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la

mitad de 0.05, es decir 0.025, esta en cada cola. el área en la que no se rechaza Ho esta entre las

dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96.

Page 109: Modulo Estadística 2011

Por consiguiente la regla de decisión: es rechazar la hipótesis nula y aceptar la hipótesis

alternativa, si el valor Z calculado no queda en la región comprendida entre -1.96 y +1.96. En

caso contrario no se rechaza la hipótesis nula si Z queda entre -1.96 y +1.96.

Paso 05: Toma de decisión.

En este último paso comparamos el estadístico de prueba calculado mediante el Software

Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el

estadístico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto

no se confirma el supuesto del Jefe de la Biblioteca.

Page 110: Modulo Estadística 2011

Practica Calificada N° 12

1. Una máquina llena botellas que contienen cierta vitamina; se supone que el peso promedio de

vitamina en cada botella es de 32 gramos, con desviación estándar de 0,06 gramos. En una

comprobación sistemática para ver que la máquina funciona adecuadamente, se toman

aleatoriamente 46 botellas llenas y se advierte que contienen un promedio de 32,1 grs. A un nivel

de significación de 0,05:

a) ¿Se puede afirmar que la máquina funciona adecuadamente?

b) Se puede afirmar que la máquina está llenando un promedio mayor a 32 gramos con una

significación de 1%?

2. Las cajas de cereal producidas en una fábrica deben contener un contenido de 16 onzas. Un

inspector tomó una muestra que arrojó los sgtes. pesos en onzas: 15.7, 15.7, 16.3, 15.8, 16.1,

15.9, 16.2, 15.9,15.8 y 15.6.

Indicar si es razonable que el inspector usando un nivel de significación del 5%. Ordene se multe

al fabricante.

3. Los desechos industriales y la basura que se descargan en los ríos absorben oxígeno y por lo

tanto reducen la cantidad de oxígeno disuelto disponible para los peces y otras formas de vida

acuática. El Ministerio del Ambiente requiere un mínimo de 5 partes por millón de oxígeno

disuelto para que el contenido de oxígeno sea suficiente para la vida acuática. Seis muestras de

oxígeno tomadas de un río durante la estación de poco agua tuvieron: 4.9, 5.1, 4.9, 5.0, 5.0 y 4.7

partes por millón de oxígeno disuelto (ppm) . ¿Hay suficiente evidencia en los datos que

indiquen que el oxígeno disuelto es menor que 5 partes por millón? Haga la prueba usando una

significación del 5%

4. Los desechos industriales y la basura que se descargan en los ríos absorben oxígeno y por lo

tanto reducen la cantidad de oxígeno disuelto disponible por los peces y otras formas de vida

acuática. Un inspector de contaminación sospecha que cierta comunidad está descargando

desperdicios semitratados en el río. Para verificar su teoría, obtuvo 5 muestras de agua del río

seleccionadas al azar en una ubicación anterior a la ciudad y otras 5 en una ubicación posterior a

la ciudad. Las cantidades de oxígeno disuelto en partes por millón fueron:

Antes de la ciudad 4.8 5.2 5.0 4.9 5.1

Después de la ciudad 5.0 4.7 4.9 4.8 4.9

¿Proporcionan los datos suficiente evidencia para concluir que el contenido medio de oxígeno en

las ubicaciones que están después de la ciudad es menor que el de las ubicaciones que están antes

de la ciudad?. Use una significación del 5%.

5. Dos métodos para enseñar a leer fueron aplicados a dos grupos de niños de escuela elemental

seleccionados al azar y se compararon sobre la base de una prueba de comprensión de lectura

administrada al final del período de aprendizaje. Las medias y varianzas muestrales calculadas a

partir de las puntaciones obtenidas en la prueba fueron:

Método Nº de niños en grupo Promedio Varianza

1 11 64 52

2 14 69 71

Con los datos proporcionados se podrá afirmar que hay una diferencia significativa entre los

promedios obtenidos por cada método?. Con el 5% de significación

Page 111: Modulo Estadística 2011

6. Se realiza un experimento para comparar los tiempos medios requeridos para la absorción de

los medicamentos A y B. 10 personas seleccionadas al azar fueron asignadas a cada

medicamento. Cada persona recibió una dosis oral del medicamento correspondiente y se

observó el tiempo en minutos hasta que el medicamento llegó a un nivel específico en la sangre.

Las medias y las varianzas para las dos muestras son los siguientes:

Medicamento A Medicamento B

Xa = 27.2 min Xb = 33.5 min

Sa = 16.36 min Sb = 18.92 min

¿Proporcionan los datos suficiente evidencia para concluir que existe diferencia entre los tiempos

medios de absorción para los 2 medicamentos?. Use significación del 10%.

7. Los salarios en una industria particular tiene una distribución normal con promedio de

$23.20 y una desviación estándar de $4.5. Si una compañía en esta industria que emplea 40

trabajadores les paga en promedio $21.20, ¿puede ser acusada esta compañía de pagar

salarios inferiores con un nivel de significación del 1%?

8. Un fabricante de televisores afirma que en promedio el 90% de sus televisores de color no

necesita ninguna reparación durante sus dos primeros años funcionamiento. El IPC

selecciona una muestra aleatoria de 100 tv y encuentra que 15 de ellos necesitan alguna

reparación durante sus 2 primeros años de operación. ¿Presentan los datos evidencia

suficiente como para que el IPC pueda afirmar que el fabricante está mintiendo?. Considere

una significación del 5%.

9. Un laboratorio farmacéutico ha elaborado un medicamento para tratar la presión sanguínea

alta. El laboratorio afirma que el medicamento efectivamente baja la presión en el 80% de los

casos. Si 175 de 225 pacientes tratados con el medicamento experimentaron una disminución

sustancial de la presión sanguínea. ¿Concluiría usted que el laboratorio ha exagerado a la

efectividad del medicamento?. Utilice un nivel de significación de 0.01

10. El instituto de relaciones familiares informa que el 50% de los matrimonios que viven en la

localidad llegan a una corte de divorcios dentro de su primer año de casados. ¿Qué

conclusiones puede sacarse acerca de la valides de este informe si una muestra aleatoria de

400 matrimonios, solo 193 fueron a una corte de divorcios dentro de su primer año de

casados?. Utilice una significación del 1%.

11. Una firma de ventas con descuento está considerando la compra de una gran partida de

discos de un proveedor que afirma que en promedio, solo el 2% de losa discos tiene fallas. Al

examinar 400 de estos discos, la firma encuentra 15 imperfectos. ¿Realizará la firma la

afirmación del proveedor si exige una significación del 5%?

12. ¿Existe una diferencia en la proporción de hombres universitarios versus mujeres

universitarias que fuman por lo menos una caja de cigarrillos al día? Una muestra de 500

alumnos de una universidad reveló que 70 fumaban por lo menos una cajetilla por día. Una

muestra de 400 alumnas reveló que 72 fumaban al menos una cajetilla de cigarros

diariamente. Al nivel de significación de 0.05¿existe una diferencia entre la proporción de

alumnos y alumnas que fuman por lo menos una cajetilla diaria, o la diferencia en las

proporciones puede ser atribuida a error de muestreo?

13.Se sabe que la desviación típica de las notas de cierto examen de Matemáticas es 2,4. Para

una muestra de 36 estudiantes se obtuvo una nota media de 5,6. ¿Sirven estos datos para

Page 112: Modulo Estadística 2011

confirmar la hipótesis de que la nota media del examen fue de 6, con un nivel de confianza del

95%?

14. Un sociólogo ha pronosticado, que en una determinada ciudad, el nivel de abstención en las

próximas elecciones será del 40% como mínimo. Se elige al azar una muestra aleatoria de 200

individuos, con derecho a voto, 75 de los cuales estarían dispuestos a votar. Determinar con

un nivel de significación del 1%, si se puede admitir el pronóstico.

15. Un informe indica que el precio medio del billete de avión entre Canarias y Madrid es, como

máximo, de 120 € con una desviación típica de 40 €. Se toma una muestra de 100 viajeros y

se obtiene que la media de los precios de sus billetes es de 128 €.

¿Se puede aceptar, con un nivel de significación igual a 0,1, la afirmación de partida?

16. La duración de las bombillas de 100 W que fabrica una empresa sigue una distribución

normal con una desviación típica de 120 horas de duración. Su vida media está garantizada

durante un mínimo de 800 horas. Se escoge al azar una muestra de 50 bombillas de un lote y,

después de comprobarlas, se obtiene una vida media de 750 horas. Con un nivel de

significación de 0,01, ¿habría que rechazar el lote por no cumplir la garantía?

17. El control de calidad una fábrica de pilas y baterías sospecha que hubo defectos en la

producción de un modelo de batería para teléfonos móviles, bajando su tiempo de duración.

Hasta ahora el tiempo de duración en conversación seguía una distribución normal con media

300 minutos y desviación típica 30 minutos. Sin embargo, en la inspección del último lote

producido, antes de enviarlo al mercado, se obtuvo que de una muestra de 60 baterías el

medio de duración en conversación fue de 290 minutos. Suponiendo que ese tiempo sigue

siendo Normal con la misma desviación típica:

¿Se puede concluir que las sospechas del control de calidad son ciertas a un nivel de

significación del 2%?

18. Se cree que el nivel medio de protombina en una población normal es de 20 mg/100 ml de

plasma con una desviación típica de 4 miligramos/100 ml. Para comprobarlo, se toma una

muestra de 40 individuos en los que la media es de 18.5 mg/100 ml. ¿Se puede aceptar la

hipótesis, con un nivel de significación del 5%?

19. Las puntuaciones en un test que mide la variable creatividad siguen, en la población general

de adolescentes, una distribución Normal de media 11,5. En un centro escolar que ha

implantado un programa de estimulación de la creatividad una muestra de 30 alumnos ha

proporcionado las siguientes puntuaciones:

11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8,

23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.

A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?

Page 113: Modulo Estadística 2011

SERIES TEMPORALES / ANÁLISIS DE REGRESIÓN LINEAL

Semana 13

Toda institución, ya sea la familia, la empresa o el

gobierno, necesita realizar planes para el futuro si desea sobrevivir o progresar.

La planificación racional exige prever los sucesos del futuro que probablemente vayan a ocurrir.

La previsión se suele basar en lo ocurrido en el

pasado. La técnica estadística utilizada para hacer inferencias sobre el futuro teniendo en cuenta

lo ocurrido en el pasado es el ANÁLISIS DE SERIES TEMPORALES.

SERIE TEMPORAL Se define una serie temporal (también denominada histórica, cronológica o de tiempo) como un

conjunto de datos, correspondientes a un fenómeno económico, ordenados en el tiempo.

Ejemplos

• Nº de accidentes laborales graves en las empresas de más de 500 empleados de Lima, durante

los últimos 5 años.

• Ventas de nuestra empresa en los últimos 10 años.

• Cantidad de lluvia caída al día durante el último trimestre.

Los datos son de la forma (yt, t) donde:

yt Variable endógena o dependiente

t Variable exógena o independiente

Nota: realmente sólo hay una variable a estudiar que es yt. En el análisis de regresión teníamos

dos variables (explicábamos una variable a partir de la otra). Aquí sólo hay una variable

(explicamos una variable a partir de su pasado histórico).

Ejemplo

Los datos siguientes corresponden al número de contratos nuevos realizados por las empresas de menos de 10 empleados, en Sevilla, durante el período 1996-

2000.

Page 114: Modulo Estadística 2011

Componentes de una serie temporal:

- La tendencia.

- Las variaciones cíclicas.

- Las variaciones estacionales.

- Las variaciones accidentales.

Page 115: Modulo Estadística 2011

LA TENDENCIA (T) Es una componente de la serie temporal que refleja su evolución a largo plazo.

Puede ser de naturaleza estacionaria o constante (se representa con una recta paralela al eje de

abscisas), de naturaleza lineal, de naturaleza parabólica, de naturaleza exponencial, etc. Ejemplo para la tendencia

LAS VARIACIONES CÍCLICAS (C)

Es una componente de la serie que recoge oscilaciones periódicas de amplitud superior a un año.

Estas oscilaciones periódicas no son regulares y se presentan en los fenómenos económicos

cuando se dan de forma alternativa etapas de prosperidad o de depresión.

Ejemplo para las variaciones cíclicas

Supongamos que tenemos las ventas trimestrales de un supermercado en el período 1990-1994,

expresadas en millones de pesetas constantes del año 1990.

Page 116: Modulo Estadística 2011

LAS VARIACIONES ESTACIONALES (E)

Es una componente de la serie que recoge oscilaciones que se producen alrededor de la

tendencia, de forma repetitiva y en períodos iguales o inferiores a un año.

Su nombre proviene de las estaciones climatológicas: primavera, verano, otoño e invierno.

Ejemplos de variaciones estacionales

- En Navidad las ventas de establecimientos se suelen incrementar.

- El consumo de gasolina aumenta la primera decena del mes y disminuye en la última.

- El clima afecta a la venta de determinados productos: los helados se venden fundamentalmente

en verano y la ropa de abrigo en invierno.

LAS VARIACIONES ACCIDENTALES (A)

Es una componente de la serie que recoge movimientos provocados por factores imprevisibles

(un pedido inesperado a nuestra empresa, una huelga, una ola de calor, etc). También reciben el

nombre de variaciones irregulares, residuales o erráticas.

¿Cómo actúan estas 4 componentes? Manual de Estadística Pag. 66

• Modelo Aditivo : yt=T+C+E+A

• Modelo Multiplicativo: yt=T·C·E·A

• Modelo Mixto : yt=T·C·E+A

Page 117: Modulo Estadística 2011

¿Cómo detectamos el modo en que interactúan las componentes de una serie temporal?

¿Esquema aditivo o multiplicativo?

1º) Calculamos 2 tipos de indicadores: Ci= Y(i,t+1) / Y(i,t) di=Y(i,t+1) / Y (i,t)

2º) Calculamos los coeficientes de variación para las series formadas por los dos

indicadores, y si: CV Ci < CV di ------------- Esquema multiplicativo CV di < CV Ci ------------- Esquema aditivo

EJEMPLO:

Según la ECL, las horas no trabajadas por trimestre y trabajador entre 1992 y 1997 son:

¿Qué esquema de agregación es el más apropiado?

2º) Calculamos los Coeficientes de variación de ambas distribuciones:

Page 118: Modulo Estadística 2011

INTRODUCCION AL ANÁLISIS DE REGRESIÓN LINEAL

Hasta ahora hemos hecho la

tabulación y el análisis para

una sola variable.

Pero los investigadores,

además de analizar una

información en forma

individual, generalmente se

interesan en establecer

cruces y buscar relaciones

entre diferentes variables.

AJUSTE DE CURVAS Y EL MÉTODO DE MÍNIMOS CUADRADOS

Relaciones entre Variables: En la práctica encontramos a menudo que existen relaciones entre

dos(o más) variables. Por ejemplo; los pesos de las personas dependen en cierta medida de sus

alturas, las circunferencias de los círculos dependen de los radios, el rendimiento de un atleta

depende de su edad, estatura y peso; la presión de una masa de gas dada depende de su volumen

y de su temperatura, etc.

Es deseable expresar tales relaciones en forma matemática determinando una ecuación que

conecte a las variables.

Ajuste de Curvas: Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que

muestren valores correspondientes de las variables bajo consideración. Supongamos que X e Y

denotan la altura y peso de personas adultas; entonces una muestra de N individuos revelaría las

alturas X1, X2, …, XN y los pesos correspondientes Y1, Y2, …, YN.

El próximo paso es marcar los puntos (X1, Y1), (X2, Y2), …, (XN, YN) sobre un sistema de

coordenadas rectangulares.El conjunto de puntos se llama un diagrama de dispersión. Ejemplos:

Page 119: Modulo Estadística 2011

El problema general de hallar ecuaciones de curvas aproximantes que se ajusten a un conjunto de

datos se llama ajuste de curvas.

La herramienta de análisis Regresión realiza un análisis de regresión lineal utilizando el método

de los "mínimos cuadrados" para ajustar una línea a una serie de observaciones. Puede utilizar

esta herramienta para analizar la forma en que los valores de una o más variables independientes

afectan a una variable dependiente.

Por ejemplo, puede analizar de qué modo inciden en el rendimiento de un atleta varios factores:

la edad, la estatura y el peso. Basándose en un conjunto de datos de rendimiento, la regresión

determinará la incidencia de cada uno de los factores en la medición del rendimiento y podrán

utilizarse estos resultados para predecir el rendimiento de un atleta nuevo no sometido a ninguna

prueba.

Mínimos cuadrados

Es una técnica de Análisis numérico encuadrada dentro de la optimización matemática, en la

que, dados un conjunto de pares se intenta encontrar la función que mejor se aproxime a los

datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias ordenadas

(llamadas residuos) entre los puntos generados por la función y los correspondientes en los

datos.

Desde un punto de vista estadístico, un requisito implícito para que funcione el método de

mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria.

También es importante que los datos recogidos estén bien escogidos, para que permitan

visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular,

véase mínimos cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros

problemas de optimización pueden expresarse también en forma de mínimos cuadrados,

minimizando la energía o maximizando la entropía.

Page 120: Modulo Estadística 2011

La recta de mínimos cuadrados que aproxima el conjunto de puntos

(X1, Y1), (X2, Y2), ….,(XN, YN) tiene por ecuación:

Y = ao + a1X

Al resolver simultáneamente las ecuaciones, podemos hallar las constantes ao y a1 de las

fórmulas:

ao = (∑Y)( ∑X2) – (∑X)( ∑XY) a1 = N ∑XY – (∑X)( ∑Y)

N ∑ X2 – (∑ X)

2 N ∑ X

2 – (∑ X)

2

Ejercicios: 1. Para la siguiente tabla de datos, traza un diagrama de dispersión que te oriente

acerca de la ecuación de regresión más adecuada, y una vez elegida, procede al ajuste de la recta mediante mínimo cuadrado.

X 1.0 1.5 2.0 2.5 3.0 3.5 4.2 Y 1.46 2.14 2.63 2.99 3.32 3.69 4.44

2. Para la siguiente tabla de datos, traza un diagrama de dispersión que te oriente

acerca de la ecuación de regresión más adecuada, y una vez elegida, procede al ajuste de la recta mediante mínimo cuadrado.

x 2 3 6 10 20 30 y 126.1 141.5 170.1 193.2 228.0 250.3

Regresión Lineal

Teniendo ya conocimiento de la intensidad de la relación entre las variables, manifestada a

través del diagrama de dispersión, podemos ensayar el ajuste de un modelo estadístico que se

adapte mejor a las “n” observaciones; lo que lleva por nombre regresión.

Uno de los procedimientos muy comunes en el ajuste regresivo es el método de los mínimos

cuadrados, que produce estimaciones con menor error cuadrático promedio.

Ajuste Rectilíneo (Método de los Mínimos Cuadrados)

La forma general de una ecuación de línea recta es: y = a + bx

donde:

X : Variable independiente

Y : Variable dependiente

a : Término independiente o intercepto

b : Coeficiente de X

Debemos establecer los parámetros “a” y “b” de la ecuación para poder expresar los valores de

la variable Y en función de los valores de la variable X.

Page 121: Modulo Estadística 2011

Ejemplo:

Se realizó un experimento con una balanza, colocando gradualmente peso en el platillo y

verificando la elongación del resorte.

Se tomaron las siguientes mediciones

de elongación para diferentes pesos,

obteniendo los siguientes resultados:

Se pide establecer la relación entre las variables

participantes de este suceso.

SOLUCIÓN

1. Definimos las variables:

Peso: variable independiente (X)

Elongación; variable dependiente (Y)

2. Elaboramos el gráfico de dispersión

De este gráfico, podemos inferir que las variables tienen un comportamiento lineal.

Por lo tanto debemos encontrar la recta que mejor se ajuste a los datos.

Utilizamos el método de los mínimos cuadrados para encontrar la recta.

F Elongación

0 0

5 1,5575

10 1,2905

15 3,1539

20 4,2276

25 4,6604

30 5,2013

35 6,9964

40 7,0740

45 9,7069

50 10,4643

55 11,4457

60 11,8001

65 12,1885

70 14,7024

75 15,8981

80 15,0221

85 17,6232

90 18,9859

95 19,6699

100 19,7012

105 21,1213

Page 122: Modulo Estadística 2011

3.

Obteniendo los valores de los coeficientes siguientes:

a = -0.15974784 b = 0.204333921

La ecuación de la recta quedaría:

Y = -0.1597 + 0.2043

Partiendo de esta ecuación, vamos a inferir y hallar los valores de elongación cuando el

peso es: 28, 72 y 110

X Y X^2 X*YF Elongación

0 0 0 0

5 1,5575 25 7,7873

10 1,2905 100 12,905

15 3,1539 225 47,309

20 4,2276 400 84,552

25 4,6604 625 116,51

30 5,2013 900 156,04

35 6,9964 1225 244,87

40 7,0740 1600 282,96

45 9,7069 2025 436,81

50 10,4643 2500 523,22

55 11,4457 3025 629,51

60 11,8001 3600 708,01

65 12,1885 4225 792,25

70 14,7024 4900 1029,2

75 15,8981 5625 1192,4

80 15,0221 6400 1201,8

85 17,6232 7225 1498

90 18,9859 8100 1708,7

95 19,6699 9025 1868,6

100 19,7012 10000 1970,1

105 21,1213 11025 2217,7

Page 123: Modulo Estadística 2011

Practica Calificada N° 13

1. El crecimiento de los niños desde la infancia a la adolescencia generalmente sigue un patrón

lineal. Se calculó una recta de regresión mediante el método de mínimos cuadrados con datos

de alturas de niñas norteamericanas de 4 a 9 años y el resultado fue: intercepto a=80 y

pendiente b=6. La variable dependiente y es la altura en cm y x es la edad en años.

- Interprete los valores estimados del intercepto y de la pendiente.

- Cuál será la altura predicha de una niña de 8 años.

- Cuál será la altura predicha de una mujer de 25 años. Comente el resultado.

2. En 1991 se publicó un trabajo “Diseñando plantas en climas difíciles” en la revista Field

Crops Research, los datos usados en la investigación son:

Duración 92 92 96 100 102 102 106 106 121 143

Rendimiento 1,7 2,3 1,9 2,0 1,5 1,7 1,6 1,8 1,0 0,3

Con x = la duración de la cosecha de porotos de soya en días, y = rendimiento de la cosecha en

toneladas por hectárea.

- Estime la recta de regresión mediante el método de mínimos cuadrados. Interprete los

estimadores en el contexto de la pregunta.

- ¿Existe una relación lineal significativa entre la duración y el rendimiento de la

cosecha?

- Verifique los supuestos.

- Estime el rendimiento si la duración de la cosecha fue de 104 días

3. Un investigador cree que la inteligencia de los niños, medida a través del coeficiente

intelectual (CI en puntos), depende del número de hermanos. Toma una muestra aleatoria de

15 niños y ajusta una regresión lineal simple. Los resultados aparecen en la salida adjunta.

CI 110 115 120 118 110 108 105 104 98 99 98 100 90 93 90

Hermanos 0 1 1 1 2 2 2 3 3 4 4 5 5 5 6

- Encuentre e interprete el coeficiente de correlación r.

- Dé la ecuación de la recta de regresión. Interprete los estimadores en el contexto de la

pregunta.

- Verifique los supuestos de regresión. - ¿Existe una relación lineal significativa entre el número de hermanos y el coeficiente

intelectual?

4. Se desea saber si existe alguna relación entre la ingestión y la absorción de grasas en lactantes

desnutridos. Se realizan 20 determinaciones de ingestión y absorción cuyos resultados se

muestran en la tabla que sigue:

Page 124: Modulo Estadística 2011

- Estime a y b mediante el método de mínimos cuadrados. Interprete los coeficientes de

regresión.

- ¿Existe una relación lineal significativa entre la ingestión y la absorción de grasas?

- Verifique los supuestos

- ¿Cuánto vale la suma de los residuos calculados para las 20 determinaciones?

Conteste SI o NO a las siguientes preguntas:

- El gráfico de residuos muestra que la relación entre la ingestión y la absorción de grasas es

lineal

- El gráfico de residuos se puede usar para determinar si los residuos están normalmente

distribuidos.

- El gráfico de residuos se puede usar para verificar el supuesto de homocedasticidad.

5. La tabla más abajo presenta los datos sobre el número de cambios de aceite al año (x) y el

costo de la reparación (y, en miles de pesos) de una muestra aleatoria de 10 autos de una

cierta marca y modelo.

# cambios aceite 3 5 2 3 1 4 6 4

costo en miles de peso 150 150 250 200 350 200 50 125

- Haga un gráfico de dispersión con los datos, verifique el supuesto de linealidad y valores

extremos.

- Encuentre la recta de regresión de mínimos cuadrados.

- Interprete los valores estimados del intercepto y de la pendiente.

- Estima cuál será el costo de reparación de un auto que ha tenido 4 cambios de aceite.

- Si cambia x por y, obtendrá la misma recta de regresión?

- Calcule el residuo para la primera observación (x=3, y=150).

- Verifique los supuestos de la regresión lineal.

Page 125: Modulo Estadística 2011

ANÁLISIS DE CORRELACIÓN/ TASAS Y NÚMEROS INDICE

Semana 14

CORRELACIÓN

En el análisis conjunto para dos o más variables es básica la búsqueda del tipo y grado de la

relación que pueda existir entre ellas, o si por el contrario, las variables sean independientes entre

sí y la relación que puedan mostrar se debe únicamente al azar, o a través de terceras variables.

El sondeo del tipo y grado de la correlación, parte desde la misma presunción del investigador,

teniendo presente que la búsqueda de relaciones entre variables debe ser lógica, es decir

relacionar lo que sea razonable y no datos cuya asociación sea desde cualquier punto de vista

absurda.

Para fortalecer el indicio de correlación inicial, se grafica cada uno de los pares ordenados de las

variables (xi,yj) en un plano cartesiano, para observar la “nube de puntos” o diagrama de

dispersión, donde se advierte la tendencia o no, de la información representada.

Page 126: Modulo Estadística 2011

A pesar de la ilustración visual que ofrecen las gráficas, solo podemos percibir la tendencia, mas

no el grado o fortaleza de la relación, entre la variable independiente “X” y la variable

dependiente “Y”.

Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador más

acostumbrado es el Coeficiente de correlación, definido como:

, donde:

Algunas consideraciones importantes sobre el coeficiente de correlación lineal:

Es una cantidad sin dimensiones, es decir no depende de las unidades empleadas. Por

ejemplo, si se está buscando hallar el coeficiente de correlación entre el peso y la altura de los

niños en determinada ciudad, entonces el resultado será el mismo independientemente de si el

peso de todos los niños se mide en Kilogramos o en gramos e independientemente de si la

altura de todos los niños se mide en metros o centímetros.

Se verifica siempre que:

Page 127: Modulo Estadística 2011

Si el coeficiente de correlación es igual a 1, entonces hay una correlación lineal positiva

perfecta, es decir que los datos se ajustan perfectamente a una recta de pendiente positiva, es

decir una recta que crece, o sea que cuando x aumenta, entonces también lo hace y.

Si el coeficiente de correlación es igual a -1, entonces hay una correlación lineal negativa

perfecta, es decir que los datos se ajustan perfectamente a una recta de pendiente negativa, es

decir una recta que decrece, o sea que cuando x aumenta, entonces y disminuye.

En cualquier otro caso, para aceptar si hay una correlación lineal aceptable, no hay ninguna

regla estricta. Normalmente, para aceptar la existencia de dicha correlación, el coeficiente

debe ser mayor que 0,7 o menor que -0,7. En caso contrario, se suele rechazar la existencia de

correlación lineal.

¿Qué puede deducirse si se rechaza la existencia de correlación lineal si, por ejemplo, se

encuentra un coeficiente de correlación lineal de 0,3 entre dos variables?

Lo único que puede deducirse es que los datos no se ajustan a una recta.

Pero esto no significa que no haya relación entre ellos dado que podrían ajustarse a una

parábola o a cualquier otra curva. Sólo se deduce que no hay correlación lineal aunque

pudiera haber una correlación no lineal.

Este es el gran inconveniente del coeficiente de correlación lineal: no sirve para decidir si

hay o no una posible relación entre dos variables, sólo sirve para decidir si hay o no una

posible relación lineal entre dos variables.

Ello hace que, definitivamente, la única manera de decidir inicialmente si debe

sospecharse o no la existencia de relación entre dos variables es estudiar detenidamente

el diagrama de dispersión correspondiente, o sea la nube de puntos.

Y, en su caso, sólo después habrá que decidir con que curva se intentan ajustar los datos.

Para resolver

Usando los ejercicios de análisis de regresión de la semana anterior, se pide

calcular el Coeficiente de Correlación y determinar la fuerza de la correlación entre

variables.

Page 128: Modulo Estadística 2011

TASAS e INDICES

Como ya se dijo, el análisis de un fenómeno basado en las cifras absolutas, ofrece una idea

general de su tendencia o comportamiento; pero para efectos de establecer comparaciones

adecuadas del mismo fenómeno con otra región, o su ocurrencia a través del tiempo, se

utilizan ciertos indicadores denominados tasas e índices.

Tasa Una tasa es la resultante de una fracción, en donde el numerador está contenido dentro del

denominador:

Ejemplos: D = R_ * 1000

M

D: Tasa de deserción escolar.

R: Número de retiros durante el año.

M: Número total de matriculados durante el año

TE = PEAO * 1000

PEA

TE: Tasa de empleo.

PEAO: Población económicamente activa ocupada.

PEA : Población económicamente activa.

Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual generalmente es

100, 1000 o múltiplos de ellos, con el fin de convertirlos en porcentajes, por millares etc.

En demografía, las tasas son de uso frecuente, entre otras, mencionaremos las siguientes:

TM = D * 1000

P

Donde:

TM : Tasa de mortalidad.

D : Número de defunciones en un periodo y área dada.

P : Población total en esa área a mitad del periodo.

TN = N * 1000

P

Donde

TN : Tasa de natalidad

N : Número de nacidos vivos ocurridos en un periodo y área dada

P : Población total del área a mitad del periodo.

TC = M * 1000

P

Page 129: Modulo Estadística 2011

Donde:

TC : Tasa de nupcialidad.

M : Número de matrimonios efectuados en un periodo y área dada.

P : Total de la población a mitad del periodo.

Ejemplo:

El siguiente cuadro muestra la evolución de la tasa de desempleo en Colombia, resultados

obtenidos de la encuesta nacional de hogares para los periodos comprendidos entre los años

1.990 –2.000

Page 130: Modulo Estadística 2011

Índice Un número índice, como comúnmente se le llama, es un indicador de los cambios relativos

de una o más variables a través del tiempo.

Entre las principales aplicaciones de los números índice, está la de establecer comparaciones

entre los indicadores de las diferentes zonas geográficas, profesiones , grupos étnicos etc.

Para la construcción de un número índice, se procede ante todo, a fijar el periodo de referencia o

"periodo base" de la serie temporal, teniendo presente que debe ser un periodo normal, esto es,

que no se hayan presentado situaciones fortuitas (guerras, terremotos, incendios u otro tipo de

imprevisto), que incidan en el valor de la variable para ese periodo.

Además debe considerarse un periodo reciente que haga comparables los diferentes valores

de las variables consideradas.

Índice Simple

Un número índice simple, es aquel que se calcula para una sola variable, dividiendo cada uno de

los valores de la serie cronológica, por el valor correspondiente al "periodo base" previamente

definido.

1 Índice de Base Fija

Ip = Pn * 100, si la variable se refiere a precios

Po

Iq = Qn * 100, si la variable se refiere a cantidades

Qo

Ip : Índice de precios

Pn: Precio del artículo en el periodo n

P0 : Precio del artículo en el periodo base

Iq : Índice de cantidades

Qn : Cantidad del artículo en el periodo n

Q0 : Cantidad del artículo en el periodo base

Page 131: Modulo Estadística 2011

Consumo promedio de energía en la fábrica de confecciones “La Textil”

En la primera tabla hemos calculado los índices de precios simples, con base en 1995 y 1998

respectivamente, pero no se han tenido en cuenta las cantidades, mientras que en la segunda tabla

se han calculado los índices de cantidades sin considerar los precios.

Calculemos, ahora los índices del valor relativo, que considere tanto los precios como las

cantidades:

Valor relativo = Pn * Qn * 100 Po * Qo

Page 132: Modulo Estadística 2011

Índice de Base Móvil

Solo hemos considerado, los índices simples de base fija, esto es, con un periodo base

determinado. Es común que interese comparar un índice con el índice del periodo

inmediatamente anterior, en consecuencia se debe fijar el periodo base en el periodo anterior al

referenciado, y así sucesivamente hasta completar la serie, al cual se le nombra índice de base

móvil.

Page 133: Modulo Estadística 2011

CUESTIONARIO Y EJERCICIOS PROPUESTOS 1. ¿Qué es una tasa?

2. ¿Qué es un índice?

3. ¿Para qué se utilizan los números índices?

4. ¿Cómo se construye un número índice simple?

5. ¿Cómo se construye un número índice compuesto?

6. Los precios y las cantidades de un articulo X vienen dados en la siguiente tabla:

Tomando como año base 1995, calcular para los otros años:

6.1 Los índices de precios.

6.2 Los índices de cantidades.

6.3 Los índices de valores.

7. A continuación se relacionan los precios y las cantidades del año base, de cuatro

artículos diferentes:

Page 134: Modulo Estadística 2011

CONTROLES DE CALIDAD Y PROCESOS ESTADÍSTICOS

Semana 15

Orígenes y evolución de la calidad

Previo a la conformación de los primeros grupos humanos organizados de importancia, las

personas tenían pocas opciones para elegir lo que habrían de comer, vestir, en donde vivir y

como vivir, todo dependía de sus habilidades en la cacería y en el manejo de herramientas, así

como de su fuerza y voluntad, el usuario y el primitivo fabricante eran, regularmente, el mismo

individuo.

La calidad era posible definirla como todo aquello que contribuyera a mejorar las precarias

condiciones de vida de la época prehistórica, es decir, las cosas eran valiosas por el uso que se

les daba, lo que era acentuado por la dificultad de poseerlas.

Conforme el ser humano evoluciona culturalmente y se dinamiza el crecimiento de los

asentamientos humanos, la técnica mejora y comienzan a darse los primeros esbozos de

manufactura; se da una separación importante entre usuario o cliente y el fabricante o proveedor.

La calidad se determinaba a través del contacto entre los compradores y lo vendedores, las

buenas relaciones mejoraban la posibilidad de hacerse de una mejor mercancía, sin embargo, no

existían garantías ni especificaciones, el cliente escogía dentro de las existencias disponibles.

Conforme la técnica se perfecciona y las poblaciones se transforman poco a poco en pueblos y

luego en ciudades de tamaño considerable, aparecen los talleres de artesanos dedicados a la

fabricación de gran variedad de utensilios y mercancías, cada taller se dedicaba a la elaboración

Page 135: Modulo Estadística 2011

de un producto, eran especialistas en ello y basaban su prestigio en la alta calidad de sus

hechuras, las que correspondían a las necesidades particulares de sus clientes. En esta etapa

surge el comerciante, sirviendo de intermediario entre el cliente y el fabricante.

Los gurús de nuestros días

Los gurús de esta nueva etapa idealizan las funciones y dinámica de la organización para

insertarlas en un nuevo modelo de comportamiento, relaciones y disciplinas. Entre estos

tenemos:

W. EDWARDS DEMING (1900-1993) William Edwards Deming nació en 1900 en Wyoming, E.U., se

dedicó a trabajar sobre el control estadístico de la calidad. Japón

asumió y desarrollo los planteamientos de Deming, y los convirtió en

el eje de su estrategia de desarrollo nacional. En 1950 W. Edward

Deming visitó Japón, dando conferencias sobre Control de Calidad. A

dichas conferencias asistieron un grupo numeroso y seleccionado de

directivos de empresas para crear las bases sobre las que instaurar el

Premio Deming, premiando a aquellas instituciones o personas que se

caracterizaran por su interés en implantar la calidad.

JOSEPH MOSES JURAN (1904-199) Nace en Rumania en 1904 y es otra de las grandes figuras de la

calidad. Se traslada a Minnesota en 1912. Es contemporáneo de

Deming. Después de la II Guerra Mundial trabajó como consultor.

Visita Japón en 1954 y convierte el Control de la Calidad en

instrumento de la dirección de la empresa. Imparte su conferencia

sobre: "Gestión Sistemática del Control de Calidad". Se le descubre a

raíz de la publicación de su libro, desechado por otras editoriales:

"Manual de Control de Calidad". Su fundamento básico de la calidad,

es que sólo puede tener efecto en una empresa cuando ésta aprende a

gestionar la calidad.

KAORU ISHIKAWA (1915-) El representante emblemático del movimiento del Control de Calidad

en Japón es el Dr. Kaoru Ishikawa. Nacido en 1915, se graduó en la

Universidad de Tokio el año 1939 en Química Aplicada. Fue profesor

en la misma Universidad, donde comprendió la importancia de los

métodos estadísticos, ante la dispersión de datos, para hallar

consecuencias. Desarrolla el Diagrama Causa-Efecto como

herramienta para el estudio de las causas de los problemas.

Parte de que los problemas no tienen causas únicas, sino que suelen

ser, según su experiencia, un cúmulo de causas. Sólo hay que buscar

esta multiplicidad de causas, colocarlas en su diagrama.

Page 136: Modulo Estadística 2011

¿Qué es Control Estadístico de la Calidad (CEC)?

Es una metodología orientada a la mejora de procesos

productivos/servicios basada en la utilización de criterios estadísticos

Comenzando con la aportación de Shewhart sobre reconocer que en todo proceso de producción

existe variación (Gutiérrez:1992), puntualizó que no podían producirse dos partes con las

mismas especificaciones, pues era evidente que las diferencias en la materia prima e insumos y

los distintos grados de habilidad de los operadores provocaban variabilidad. Shewhart no

proponía suprimir las variaciones, sino determinar cuál era el rango tolerable de variación que

evite que se originen problemas.

Para lograr lo anterior, desarrolló las gráficas de control al tiempo que Roming y Dodge

desarrollaban las técnicas de muestreo adecuadas para solamente tener que verificar cierta

cantidad de productos en lugar de inspeccionar todas las unidades. Este periodo de la calidad

surge en la década de los 30’s a raíz de los trabajos de investigación realizados por la Bell

Telephone Laboratories.

En su grupo de investigadores destacaron hombres como Walter A. Shewhart, Harry Roming y

Harold Dodge, incorporándose después, como fuerte impulsor de las ideas de Shewhart, el Dr.

Edwards W. Deming (Cantú:1997).

Estos investigadores cimentaron las bases de lo que hoy conocemos como Control Estadístico de

la Calidad (Statistical Quality Control, SQC), lo cual constituyó un avance sin precedente en el

movimiento hacia la calidad.

Page 137: Modulo Estadística 2011

Causas de variación

Existen variaciones en todas las partes producidas en el proceso de manufactura. Hay dos fuentes

de variación:

- variación aleatoria se debe al azar y no se puede eliminar por completo.

- variación asignable es no aleatoria y se puede reducir o eliminar.

Nota: la variación puede cambiar y cambiará la forma, dispersión y tendencia central de la

distribución de las características medidas del producto.

Diagramas de diagnóstico

Controles o registros que podrían llamarse "herramientas para asegurar la calidad de una

fábrica", esta son las siguientes:

o Hoja de control (Hoja de recogida de datos)

o Histograma

o Análisis paretiano (Diagrama de pareto)

o Diagrama de Ishikawa: Diagrama de causa y efecto (Espina de Pescado)

o Estratificación (Análisis por Estratificación)

o Diagrama de scadter (Diagrama de Dispersión)

o Gráfica de control

La experiencia de los especialistas en la aplicación de estos instrumentos o Herramientas

Estadísticas señala que bien aplicadas y utilizando un método estandarizado de solución de

problemas pueden ser capaces de resolver hasta el 95% de los problemas.

En la práctica estas herramientas requieren ser complementadas con otras técnicas como son:

o La lluvia de ideas (Brainstorming)

o La Encuesta

o La Entrevista

o Diagrama de Flujo

o Matriz de Selección de Problemas, etc…

Page 138: Modulo Estadística 2011

¿QUÉ PRETENDE EL CEC ?

REDUCIR LA VARIABILIDAD Y LA DISPERSIÓN

HACER LAS COSAS “BIEN A LA PRIMERA”

PREVENIENDO LOS FALLOS EN LUGAR DE CORREGIR SUS

EFECTOS.

LAS DECISIONES SE TOMAN EN FUNCIÓN DE DATOS Y NO DE

PERCEPCIONES SUBJETIVAS.

CORREGIR LOS PROCESOS DEFECTUOSOS EN VEZ DE LOS

PRODUCTOS/SERVICIOS DEFECTUOSOS

NATURALEZA DE LOS PROBLEMAS ESTADÍSTICOS

1. Problema con la tendencia central

Page 139: Modulo Estadística 2011

2. Problema con las Medidas de Dispersión

Page 140: Modulo Estadística 2011
Page 141: Modulo Estadística 2011

TRABAJO FINAL:

Presentación de Proyecto Integrador: Diagnóstico de Caso de Estudio con

Aplicación de Métodos Estadísticos