26
“AÑO DEL CENTENARIO DE MACHU PICCHU PARA EL MUNDO” Facultad de Ciencias Económicas Escuela de Administración Tema: Estadistica aplicada a la administracion II Área: Análisis de varianza (ANVA) de un factor con igual o diferente numero de repeticiones Docente: Mg. Lic. Walter J. Castañeda Guzmán. Alumnos: Abarca Berrú, Leidy luz Ampuero rossiter, alfonso Coronado Gutierrez, Paola Navarro Costa, Antonny Joel Saavedra Reto, Francisco Javier Sandoval Nizama, Irvin Ivan Tumbes – Perú 2011 Universidad Nacional de Tumbes

ANOVA un Factor envio.docx

Embed Size (px)

Citation preview

Caso 1:

UNIVERSIDAD NACIONAL DE TUMBESFACULTAD DE CIENCIAS ECONMICASESCUELA DE ADMINISTRACIN

12

AO DEL CENTENARIO DE MACHU PICCHU PARA EL MUNDO

Universidad Nacional de Tumbes

Facultad de Ciencias EconmicasEscuela de Administracin

Tema:Estadistica aplicada a la administracion II

rea:Anlisis de varianza (ANVA) de un factor con igual o diferente numero de repeticiones

Docente:Mg. Lic. Walter J. Castaeda Guzmn.

Alumnos: Abarca Berr, Leidy luz Ampuero rossiter, alfonso Coronado Gutierrez, Paola Navarro Costa, Antonny Joel Saavedra Reto, Francisco Javier Sandoval Nizama, Irvin Ivan

Tumbes Per2011

DEDICATORIA

El trabajo que hemos elaborado va dedicado exclusivamente a la persona ms importante del universo. . . DIOS, pues gracias a l existimos y tenemos todo lo que nos rodea, e inspira nuestros esfuerzos da a da. .

. . . tambin se lo dedicamos a nuestros padres por su apoyo, tanto econmico como emocional y su admirable ejemplo que gratifica nuestros esfuerzos y motiva nuestro andar.

INTRODUCCIN

Se han presentado hasta ahora los contrastes de hipotesis parametricos que permiten probar si se puede aceptar que la media de una poblacion tiene un valor concreto, prueba de aceptacion de una media propuesta, y los contrastes de comparacion de dos medidas poblacionales a partir de los datos de dos muestras obtenidas de poblaciones normales e independientes, los contrastes de la t de Student. El analisis de la varianza tiene por objeto la comparacion multiple de medias poblacionales para variables continuas que siguen distribuciones normales.

Si se quiere estudiar la posible variacion del rendimiento medio de la cosecha de una semilla al cambiar un solo factor como puede ser la clase de terreno,el abono, el tipo de semilla, el grado de humedad del suelo, la temperatura media de la region, el numero de horas de sol, etc y se quiere probar como influyen en el rendimiento mas de dos niveles del factor, conservando constantes todos los restantes, no se puede aplicar el contraste de la t de student. Lo mismo ocurre si se quiere probar la influencia del porcentaje de carbono en la dureza del acero, o la influencia del porcentaje de carbono en la dureza del acero, o la influenciia de varios tratamientos en la curacion de una determinada enfermedad, o en quimica analitica para contrastar la variabilidad en los resultado de un deteminado procedimiento analitico con diferentes tratamientos previos, o en odontologia para probar diferntes tipos de resina en protesis dentales, o tambien el efecto de diferentes tipos de alimentacion en el rendimiento de la ganaderia, etc.

Por qu no se puede aplicar el contraste de la t de student para confirmar o no la igualdad de mas de dos medidas poblacionales?Si se parte en cinco niveles del factor en estudio y de muestras independientes, una para cada nivel, y se quiere contrastar.

OBJETIVOS

Entender qu es y por qu es importante el anlisis de la varianza. Saber distinguir en qu situaciones es til realizar un anlisis de la varianza. Conocer pautas para elegir el modelo ms adecuado para nuestro problema. Saber aplicar el ANOVA.

ANLISIS DE VARIANZA

Este mtodo, desarrollado por R.A. Fisher, es fundamental para casi todas las aplicaciones de la estadstica. Una manera de abordar el anlisis de la varianza es considerarlo como una forma de comprobar si dos o ms medias mustrales pueden haberse obtenido de poblaciones con la misma media paramtrica respecto de una variable dada. Alternativamente, cabria concluir que estas medias son diferentes. Cuando se trabaja nicamente con dos muestras se utiliza tradicionalmente la t de student para comprobar diferencias significativas entre las dos medias, aunque matemticamente ambas pruebas son similares en ese caso.El anlisis de la varianza es la primera prueba de significacin que se trata en este trabajo capaz de comparar ms de dos variables. En este caso, la obtencin de datos libres de interferencias provenientes de factores no deseados es fundamental, ya que todos pueden simular la presencia de los factores que son el objetivo del experimento.En este trabajo, en primer lugar se abordan las premisas necesarias para la aplicacin del ANOVA y, posteriormente, el planteamiento de un diseo experimental adecuado. Este ltimo punto es importantsimo a la hora de poder, mas tarde, aplicar adecuadamente las tcnicas estadsticas

DEFINICIN:Es una tcnica estadstica diseada para medir si existen diferencias entre los valores medios de una variable dependiente calculados para los distintos grupos que se pueden obtener con otra variable independiente y nominal.En el caso de que la variable independiente tuviera solo dos alternativas, sera suficiente aplicar un test T de diferencia de medias.La variable o variables independientes, reciben el nombre de Factor y debe ser variables de tipo nominal, y sus distintos valores el de tratamientos, mientras que la variable dependiente debe ser mtrica, puesto que sobre ella se debe calcular los valores medios objetos del anlisis de la varianza.La hiptesis nula a contrastar es que se consideran iguales las medias en todos los grupos, o lo que es lo mismo, no existen diferencias entre las medias obtenidas para cada uno de los grupos formados por la variable independiente o factor.Se rechaza la hiptesis nula con que al menos una de las medias sea significativamente diferente de las dems.

SUPUESTOS QUE FUNDAMENTAN LA APLICACIN DEL ANLISIS DE VARIANZA

En primer lugar, la aplicacin del anlisis de la varianza requiere que los datos a tratar cumplan los siguientes supuestos:

NORMALIDAD HOMOGENEIDAD INDEPENDENCIA DE LOS DATOS

INDEPENDENCIA DE LOS DATOS:

Las personas de los diversos subgrupos deben seleccionarse mediante el muestre aleatorio a partir de poblaciones normalmente distribuidas.

NORMALIDAD:

Las muestras que constituyen los grupos deben ser independientes. Amenos de que las muestras sean independientes, y que por lo tanto, generan estimaciones de varianza independiente, la razn de las varianzas inter a intra no adoptar la distribucin F.

HOMOGENEIDAD:

La varianza de los subgrupos debe ser homognea

Se ha demostrado que la tcnica ANOVA es consistente con respecto a estos supuestos. Esto significa que cuando se utiliza el anlisis de varianza. Los resultados sern precisos aun cuando se altere el supuesto de homogeneidad. Sin embargo los tamaos de las muestras debern ser los mismos o muy similares. De modo semejante, el supuesto de normalidad en la distribucin puede fluctuar siempre que el alejamiento de lo normal no sea demasiado grande.

DISEO COMPLETAMENTE ALEATORIZADO DE UN FACTOR (ANOVA CON UN CRITERIO DE CLASIFICACIN) El procedimiento del anlisis de varianza con un criterio de clasificacin se refiere a la prueba de la diferencia entre K medias mustrales cuando los elementos son aleatoriamente asignados a cada uno de los diversos grupos de tratamiento.La ecuacin o modelo lineal que representa el diseo completamente aleatorizado de un factor es:

Donde:

= la media global de todas las K poblaciones de tratamientos. = efectos del tratamiento del grupo k particular del cual fue muestreado el valor. = el error aleatorio asociado con el proceso de muestreo ( es la letra griega psilon)

Anova es una tcnica que se usa para comparar dos o ms medidas poblacionales. Consiste la variacin total de datos, en las diferentes cusas o fuentes que la originan.Se ejemplificar la solucin bsica de un problema de anlisis de variancia mediante el empleo de las tres series de datos en la tabla 1. Aqu se tienen las puntuaciones de la prueba de 7 personas en tres grupos: a, B y C. en las tres columnas de la derecha se tienen los cuadrados de cada una de estas puntuaciones.

TABLA 1 EJEMPLO DE ANLISIS DE VARIANCIA DE UNA SOLA CLASIFICACINGrupo AXGrupo BXGrupo CXGrupo AXGrupo BXGrupo CX

1218168612108218171618121710108641446121460144324256643614410010683242892563241442891001726361619616

36144196640

Suma total de cuadradosLa suma total de cuadrados se obtiene evaluando la media de las 21 puntuaciones, determinando la desviacin de cada calificacin a partir de esta media, elevando al cuadrado y sumando estas desviaciones cuadradas. Cabe recordar que se puede obtener la suma de los cuadrados (SC) mediante la siguiente frmula:

Sustituyendo, resulta:

O bien, a partir de los datos de la Tabla 14.1:= 3434 - = 3434 2976.2= 457.8

SUMA DE CUADRADOS INTERGRUPALLa suma de cuadrados entre los diversos grupos se determina tomando la media de cada grupo, obteniendo su desviacin a partir de la media total, elevando al cuadrado esta desviacin y multiplicacin cada una de ellas por el nmero de individuos en cada grupo . Se aplica la frmula siguiente:

= 0.2527 + 87.2263 + 77.6223= 165.10.13

Un mtodo ms directo de obtencin de la llamada suma de cuadrados intergrupal es el que se presenta a continuacin.

= 960.6 + 1666.3 + 514.3 2976.2 = 3141.2 1976.2 = 165.0

Esto concuerda, dentro del error de redondeo, con el valor obtenido antes. Este valor se utilizara en los clculos siguientes.

SUMA DE CUADRADOS INTRAGRUPALPara obtener la suma de cuadrados intragrupal se puede calcular la suma de los cuadrados de cada grupo como sigue:

Para el grupo A: = 1068 960.5 = 107.4

Para el grupo B: = 1726 1666.3 = 59.7

Para el grupo C: = 640 514.3 = 125.7

Sumando lo de los tres grupos:= 292.8

La suma de cuadrados intragrupal agregada a la suma de cuadrados intergrupal debe dar la suma de cuadrados total:165.0 + 292.8 = 457.8

Por consiguiente, se deduce que la suma de cuadrados intergrupal se puede obtener directamente restndose a la suma de cuadrados total la suma de cuadrados intergrupal. Es decir:

GRADOS DE LIBERTADPuesto que existen 21 casos en el problema considerado, se tienen N 1, o sea 20 grados de libertad. En el grupo A hay 7 casos; por lo tanto, existen 6 grados de libertad para este grupo, y como en esta situacin el nmero de casos es el mismo en cada problema, existen 6 grados de libertad en cada uno de los otros grupos. Hasta ahora se han considerado 18 del total de grados de libertad. Como hay, tres grupos, se deduce que existen 2 grados de libertad en los grupos. Generalizando:g.l. para el total de grupos= nmero de casos en total (N) menos 1 g.l. para los intergrupos= nmero de grupos (k) menos 1 g.l. para los intragrupos= suma del nmero de casos en cada subgrupo (n) menos 1. Es decir, + +

TABLA 2 ANLISIS DE VARIANCIA PARA LOS DATOS DE LA TABLA 1Fuente de Variacing.l.Suma de cuadradosCuadrado medio

IntergruposIntragrupalTotal 21820165.0292.8457.882.516.3

ANLISIS DE VARIANCIALa tcnica comn en este punto consiste en construir una tabla semejante a la Tabla 2. en la columna adecuada de esta tabla se coloca el nmero de grados de libertad, (g.l.), la suma de los cuadrados para cada una de las tres categoras, y en la ltima columna, los valores cuadrados medios. Estos valores se obtienen dividiendo cada una de las sumas de cuadrados entre su nmero respectivo de grados de libertad. Tal cociente representa una variancia. Los cuadrados medios inter o intragrupales son, por lo tanto, dos estimaciones de la variancia poblacional.

LA PRUEBA FAnteriormente se realiz una prueba F cuando se prob la diferencia entre dos variancias para verificar si se deben agrupar o no. El anlisis de la tabla de variancia se evala mediante la siguiente prueba F: = = 5.06

Las razones F se interpretan mediante el empleo de la tabla F (Apndice E). en esta tabla se entra con el nmero de grados de libertad en la parte superior para el mayor cuadrado medio, y con el nmero de grados de libertad en el lado izquierdo para el menor cuadrado medio. En este problema, se va a 2 y se baja a 18. En tal sitio se observa que el valor de F necesario para significancia a 5% es 3.55. como la F obtenida es mayor que dicho valor (5.06 > 3.55), se rechaza la hiptesis nula de que no hay diferencia entre estas medidas en el punto de 5%.

Para resumir lo anterior en un modelo decisorio se tiene: DR: Se rechaza > 3.55; se lo contrario no se rechaza. Hay ocasiones en las que el valor de la razn F ser menor que 1. No tiene sentido calcular el valor de dicha razn, puesto que tales razones no son significativas.

PRUEBA POSTERIORES A LA FEn el captulo anterior se encontr que no existan diferencias significativas entre las medias; la tarea siguiente consiste en verificar dnde se localizan la diferencia, o las diferencias. Winer (1971) resumi media docena de mtodos distintos para determinarlo. Algunos de estos mtodos son ms estrictos que los otros y reducen la probabilidad de cometer un error de tipo I. una de estas pruebas (Scheff, 1957) se presentar aqu. Aun cuando este es uno de los mtodo ms rigurosos, tambin es uno de los ms fciles de utilizar.En nuestro problema hay tres medias; por lo tanto, se pueden hacer tres comparaciones:

Primero, para cada grupo se calcula una razn F aplicando la frmula siguiente:Para las distribuciones A y B tenemos:

= 2.97

TABLA 3 ANLISIS DE VARIANCIA PARA DOS GRUPOSX

221824221618131819221216101046171414104843245764842563241693243614841442561001001636289196196100

Para las distribuciones A y C: = = = 2.12Para las distribuciones B y C: = 2.12

Para las distribuciones B y C: = = = 10.1

Como se seal antes, el nivel de 5% de F para 2,18 grados de libertad, es 3.55. este valor se multiplica por (k 1), donde k es el nmero de grupos, o tratamientos. En este caso se tiene (3 1)(3.55), que es (2)(3.55), lo cual es igual a 7.10; por consiguiente, el valor de 1% de F para 2.18 grados de libertad, que es 6.01, se multiplica por (k 1), resultando (2)(6.01) = 12.02.Cada una de las tres F calculadas antes se compara con estos valores de 7.10 y 12.02. uno de ellos es mayor que el valor de 5% y este es de 10.1, que es el F calculado entre los grupos B y C; por lo tanto, se deduce que la media de B difiere significativamente de la C al nivel de 5% , y que no existe diferencia la significativa entre cada una de las dems comparaciones. En la prctica se establecera alfa en 0.01 o en 0.05 y se calculara nicamente el valor que fuera necesario.

ANOVA CON UN CRITYERIO DE CLASIFICACINEl procedimiento del anlisis de varianza con un criterio de clasificacin se refiere a la prueba de la diferencia entre k medias mustrales cuando los elementos son aleatoriamente asignados a cada uno de los diversos grupos de tratamiento, en consecuencia, la explicacin general de la seccin 13.1 se aplica a este modelo con un criterio de clasificacin.La ecuacin, o modelo, lineal que representa al diseo completamente aleatorizado de un factor es:

Donde

Es la tabla de resumen para el diseo completamente aleatorizado de un factor del anlisis de varianza, la cual incluye todas las frmulas de clculos. La aplicacin de estas frmulas a datos mustrales se ilustra en los problemas. El sistema de smbolos que se usa en esta tabla es ligeramente diferente, a causa de la necesidad de utilizar un sistema que pueda extenderse lgicamente al anlisis de varianza con dos criterios de clasificacin. As, el CMET se convierte en cuadrado medio entre los grupos de tratamiento A (CMA). Ntese adems que la definicin de smbolos en el contexto del anlisis de varianza n oes necesariamente congruente con el uso de estos smbolos en el anlisis estadstico general. Por ejemplo; de tratamientos en el que se localiza el valor, no tiene nada que ver con el concepto de en los procedimientos generales de prueba de hiptesis descritos. De igual manera, N en la siguiente tabla designe el tamao total de la muestra para todos los grupos de tratamiento combinados, no el tamao de una poblacin. Los nuevos smbolos.

Fuente de variacin (FV)Suma de cuadrados (SC)Grados de libertad (GL)Cuadrado medios (CM)Valor calculado (FC)Nivel de significancia (F)

Entre gruposK 1= F

Dentro de gruposN K--

TotalN - 1---

Ejemplos Dado el siguientes cuadro muestra aleatorias, pruebe la hiptesis de que as muestras vienen de la misma poblacin. Emplee alfa = 0.01Muestra aMuestra bMuestra cMuestra c

15242025

20222218

26203016

26212732

243424

18

ESTADISTICA APLICADA A LA ADMINISTRACION II