14
Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información y lo que es más importante, hacer una buena presentación de la información organizada, nada mejor que seguir aprendiendo algunas consider aciones sobre como hacer una buena tabla, o mejorar los gráficos con los datos que recopilamos para nuestro trabajo de administración y control. Por ello decidimos explicarles en este módulo algunos métodos modernos de Análisis Exploratorio de datos. En general las tablas siguen siendo el primer paso a dar en la organización de datos, y dichos datos pueden ser mejor representados mediante gráficos. Habitualmente, la presentación y reducción de los datos, pareciera ser una problema de estilo más que de metodología. Sin embargo, existen ciertos aspectos que deben ser analizados y formalizados en reglas explícitas para evitar confusiones, ambigüedades o presentaciones visualmente pobres. Hasta épocas recientes la presentación de los datos fue ignorada en la enseñanza y la práctica de la estadística. (Ehrenberg, 1977). En la actualidad con el avance de la computación, es uno de los aspectos que más se ha considerado. Los resultados de las investigaciones pueden ser presentados como textos, tablas ó gráficos. La elección entre estas formas de presentación deber ser analizada utilizando diversos criterios y apoyándose en el tipo y cantidad de información disponible. Por ejemplo, es común que si la información es escasa y puramente cualitativa, se presente en texto. Si, en cambio, es repetitiva, y sus valores numéricos exactos son importantes, el analista habitualmente recurre a una tabla. Por otra parte, los gráficos son utilizados para representar tendencias claras o fenómenos de interacción o paralelismo (Day, 1979). En otros casos las normas son menos claras. Es decir que el análisis de los datos en la etapa de presentación y reducción, se discute ahora desde múltiples enfoques. Veamos cómo hacer una tabla. Tablas de datos Una tabla es una ordenación de datos en filas y columnas utilizada para documentar o comunicar información. Desde este punto de vista de su uso, existen dos tipos de tablas a saber:

Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información y lo que es más importante, hacer una buena presentación de la información organizada, nada mejor que seguir aprendiendo algunas consideraciones sobre como hacer una buena tabla, o mejorar los gráficos con los datos que recopilamos para nuestro trabajo de administración y control. Por ello decidimos explicarles en este módulo algunos métodos modernos de Análisis Exploratorio de datos.

En general las tablas siguen siendo el primer paso a dar en la organización de datos, y dichos datos pueden ser mejor representados mediante gráficos. Habitualmente, la presentación y reducción de los datos, pareciera ser una problema de estilo más que de metodología. Sin embargo, existen ciertos aspectos que deben ser analizados y formalizados en reglas explícitas para evitar confusiones, ambigüedades o presentaciones visualmente pobres. Hasta épocas recientes la presentación de los datos fue ignorada en la enseñanza y la práctica de la estadística. (Ehrenberg, 1977). En la actualidad con el avance de la computación, es uno de los aspectos que más se ha considerado. Los resultados de las investigaciones pueden ser presentados como textos, tablas ó gráficos. La elección entre estas formas de presentación deber ser analizada utilizando diversos criterios y apoyándose en el tipo y cantidad de información disponible. Por ejemplo, es común que si la información es escasa y puramente cualitativa, se presente en texto. Si, en cambio, es repetitiva, y sus valores numéricos exactos son importantes, el analista habitualmente recurre a una tabla. Por otra parte, los gráficos son utilizados para representar tendencias claras o fenómenos de interacción o paralelismo (Day, 1979). En otros casos las normas son menos claras. Es decir que el análisis de los datos en la etapa de presentación y reducción, se discute ahora desde múltiples enfoques. Veamos cómo hacer una tabla. Tablas de datos Una tabla es una ordenación de datos en filas y columnas utilizada para documentar o comunicar información. Desde este punto de vista de su uso, existen dos tipos de tablas a saber:

Page 2: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Las tablas generales o de referencia proporcionan información completa y exacta de un conjunto de datos, a modo de depósito de información. El fin principal de las tablas colocadas a menudo en un apéndice del informe, es que el lector pueda constatar fácilmente los diferentes rubros. Las tablas específicas o de resumen exhiben información procesada y resumida. Las mismas se planean de modo de resaltar un número limitado de datos y sus relaciones disponiéndolos en las columnas y filas para que se aprecien las comparaciones de mayor importancia. Título y fuente, no deben faltar nunca. El título responde siempre a las siguientes preguntas: ¿ Qué; cómo; dónde y cuándo? Los elementos de una tabla en general pueden observarse en el siguiente esquema : Encabezamientode filas

Encabezamiento de columnas

(Filas) Cuerpo de la

tabla * * *

(Filas) * * * * (Filas) * * * * Columna Matriz Columna de información Tablas vs Gráficos : los gráficos están pensados para que sean más fáciles de leer que las tablas. En general, si se desea comunicar aspectos cuantitativos (la información está expresada en números) los gráficos resultarán de poca utilidad. Si los resultados que se quieren destacar son cualitativos (la información está expresada como tendencias, relaciones entre distintas variables) los gráficos ayudarán más que las tablas. Asimismo suele presentárselos al comienzo o al final de un análisis. En algunos casos, especialmente cuando el rango de datos es muy extenso, “una tabla gráfica” (alternando cifras y gráficos) bien diseñada será mejor que cualquier gráfico para analizar detalles numéricos. De hecho hay un arte para representar datos complejos de manera clara, un arte que se aprende bien mediante ejemplos. Hay dos principios aplicables a ambas formas de representación; primero rotulemos el gráfico o tabla de manera clara; segundo, especifiquemos siempre la fuente de datos.

Page 3: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

ANÁLISIS EXPLORATORIO DE DATOS Todo el mundo utiliza presentaciones visuales clásicas. Especialmente para datos observacionales se emplea lo que se denomina “análisis exploratorio de datos” El análisis exploratorio es un análisis diferente, ya que el mismo explora datos en lugar de usar análisis estadísticos para confirmar suposiciones hechas acerca de ellos. Para datos obtenidos a partir de un experimento cuidadosamente planeado con un objetivo muy específico (por ejemplo comparar rendimientos promedios de dos variedades o dos métodos de producción), los métodos tradicionales de estadística serán probablemente eficientes. Pero si nosotros tuviéramos un conjunto de datos que surgieron de un estudio observacional y un objetivo amplio, debemos recorrer otro camino. Por ejemplo si se cuenta con los datos obtenidos de registros de temperaturas de una zona, características de producción de una fábrica de productos agropecuarios; días a floración, días a brotación de especies, rendimientos en una zona; o características de unidades experimentales (animales, plantas, seres humanos o registros económicos que son llevados por empresas dedicadas al mejoramiento genético u a otra actividad agropecuaria) se comienza con una serie de preguntas. , Que es lo que revelan los datos?. ¿Cuál es el patrón de comportamiento, en cada caso?. Ante esta situación, uno debería comenzar con un análisis exploratorio de los datos obtenidos. Este análisis pone énfasis en la exploración original con el propósito de simplificar la forma de los datos que son descriptos y aumentar el análisis en profundidad de la naturaleza de los mismos, de esta forma es más fácil identificar preguntas relevantes que pueden dirigir el estudio. En la siguiente tabla comparamos el análisis tradicional y el exploratorio en 3 aspectos importantes. Análisis exploratorio de datos Estadística Tradicional ?? Es usado para explorar datos a un

nivel preliminar ?? Es usado para confirmar

conclusiones acerca de los datos ?? Ninguna o pocas suposiciones son

hechas con respecto a los datos ?? Requiere típicamente algunos pocos

pero importantes supuestos acerca de los datos

?? Tiende a involucrar cálculos

relativamente simples y gráficos ?? Los cálculos son a menudo

complejos y los gráficos pueden resultar innecesarios

Page 4: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Distintos tipos de Gráficos - Ventajas comparativas El objeto de un gráfico es el de proveer un resumen visual de los datos. Un buen gráfico frecuentemente revela hechos sobre los datos que en la tabla necesitarían un estudio muy cuidadosos para ser detectados. Es más, la impresión visual inmediata de un gráfico es más fuerte que la impresión dada por datos en forma numérica. Distintos tipos En general, los gráficos utilizan formas geométricas para representar relaciones y fenómenos. Así, estructuras relativamente complejas, pueden ser fácilmente resumidas e interpretadas, con prescindencia de detalles. Los gráficos, pueden ser clasificados en exploratorios, analíticos, instrumentales e ilustrativos. Gráficos exploratorios: son construidos para recoger o establecer suposiciones sobre el mecanismo de generación de los datos. Por eso, se los utiliza para ilustrar la estructura de resultados de investigaciones o para sugerir estrategias de análisis estadístico. Algunos gráficos exploratorios, tales como histogramas, polígonos de frecuencias, diagramas de tallos y hojas y box-plots, permiten la reducción de los datos exhibiendo sus distribuciones. Otros gráficos, como los diagramas de dispersión, los gráficos de autocorrelación, los ANOVA plots, los multivariados, son utilizados para estudiar las relaciones entre dos o más variables. Gráficos analíticos : los gráficos analíticos permiten controlar la validez de suposiciones estadísticas como la de normalidad, linealidad, u homogeneidad de variancias. Algunos de estos gráficos son llamados gráficos probabilísticos y diagramas residuales, Gráficos instrumentales: tales como las curvas de potencia de un test, que son utilizados como herramientas para hacer evaluaciones rápidas. Gráficos ilustrativos : incluyen figuras que exhiben información cuantitativa tales como, diagramas de barras, diagramas sectoriales, pictogramas, o mapas, gráficos lineales. Están también en este grupo, los gráficos de medias, interacciones, intervalos de confianza, etc, que resumen los resultados de análisis estadísticos. En general, uno puede utilizar más de un tipo de gráfico a la vez para expresar los resultados de un análisis. Veamos un ejemplo donde se combina un gráfico lineal, con la utilización de promedios y desvíos estándares. Es un ejemplo ficticio, elaborado para demostrar todo lo que se puede hacer con una planilla de cálculo. En el mismo, se

Page 5: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

supone que se está analizando el precio de acciones de una multinacional, durante 20 días, con el objeto de analizar su evolución en el tiempo, considerando las cotizaciones diferentes de tres países latinoamericanos como un promedio Supongamos que queremos observar el comportamiento de las acciones de una multinacional que cotiza en las bolsas de tres países y que lo que nos interesa es ver la evolución del promedio de los precios de las acciones a lo largo de 20 días. Cotización diaria de las acciones de una multinacional en tres países latinoamericanos en 20 días del mes de Mayo de 2002

Cotización de acciones Día

A B C

Promedio de los países

Desvío Standard de las cotizaciones

1 2 6 7 5,00 2,65 2 1 5 8 4,67 3,51 3 16 1 8 8,33 7,51 4 3 1 7 3,67 3,06 5 1 6 26 11,00 13,23 6 4 5 8 5,67 2,08 7 1 10 2 4,33 4,93 8 6 9 8 7,67 1,53 9 3 12 9 8,00 4,58 10 12 5 8 8,33 3,51 11 9 6 4 6,33 2,52 12 1 8 7 5,33 3,79 13 15 14 9 12,67 3,21 14 3 4 7 4,67 2,08 15 12 15 18 15,00 3,00 16 15 8 7 10,00 4,36 17 16 13 8 12,33 4,04 18 9 7 10 8,67 1,53 19 6 4 8 6,00 2,00 20 3 7 6 5,33 2,08 Tenemos entonces veinte días de cotización de las acciones de una multinacional y la cotización en tres países. Veremos a continuación una forma original de observar esa información a través de un gráfico

Page 6: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Gráfico lineal combinado con grafico de medias y error típico de la serie para cada promedio de las cotizaciones de una multinacional en el tiempo

0.00

2.00

4.00

6.00

8.00

10.00

12.00

14.00

16.00

18.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Cotización de las distintas acciones

Pro

med

io d

e p

reci

os

Veamos otro ejemplo: Se tienen datos de 20 sucursales en referencia al tiempo de auditoría en días Tiempo de auditorías de fin de año (días)

12 14 19 18 15 15 18 17 20 27 22 23 22 21 33 28 14 18 16 13

Veremos como hacer con Excel para obtener las estadísticas descriptivas, el diagrama de Pareto y el histograma. Se debe cargar en la planilla el conjunto de datos en un vector (columna) Luego se acciona el menú Herramientas/ la opción Análisis de datos/ y finalmente Estadísticas descriptivas. Se obtiene

Page 7: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Utilizando el menú Herramientas/ la opción Análisis de datos/ y finalmente Histograma, se obtiene el histograma y el pareto. Te propongo investigar como lograrlo.

Page 8: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información
Page 9: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Diagrama de Caja (Box plot) Cuando exploramos un conjunto de datos nosotros queremos estar en 1º lugar seguros que investigamos los valores que representan o caracterizan la centralidad del conjunto, en 2º lugar, la dispersión o variabilidad del resto de los datos alrededor de las medidas centrales y en 3º lugar, la naturaleza de la distribución. Lo que definitivamente debemos considerar, es la distribución de los datos, dado que la misma afecta los métodos que nosotros aplicaremos posteriormente y las conclusiones que podamos sacar. Considerando el espíritu del exploratorio de datos, no deberíamos simplificar el análisis examinando el histograma para decir que conocemos la naturaleza de la distribución. En cambio debemos explorar . Por ejemplo, veamos 20 datos de Costos de producción de lotes de Cereal (trigo), en miles de pesos, de una empresa Agropecuaria. 28 43 49 50 60 66 75 83 86 90 93 94 108 121 126 127 138 142 1600 Si realizamos el histograma de los datos tal como se presentan veríamos los siguientes problemas: Hay una fuerte simetría derecha. En este caso el valor extremo 1600 causa una severa distorsión. Realice usted mismo el histograma para comprobarlo Si corrigiéramos en el conjunto de datos 1600 X 160, la distribución cambiaría. Compruébelo. En otros casos el valor raro o extremo (outlier) podría ser correcto y sin embargo continuar enmascarando la naturaleza del histograma. En suma el histograma, el polígono de frecuencias, podrían ser dados para analizar la distribución. Pero hay un gráfico exploratorio en la actual idad, box plot o diagrama de caja, que brinda más información acerca de la distribución y su simetría. Para su construcción se necesitan 5 medidas o números resúmenes: Un valor mínimo Un valor máximo La mediana Un punto característico inferior (Hinges) Un punto característico superior (Hinges)

Page 10: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Definición de puntos característicos Hinges: es similar a los cuartiles. En conjuntos grandes de datos, la diferencia entre ellos es muy pequeña. Según la definición de Tukey´s los hinges son: Hinges inferior: es la mediana de la mitad inferior de todos los valores a la izquierda de la mediana de los datos Hinges superior: es la mediana de la mitad superior de todos los valores a la derecha de la mediana de los datos ¿Cómo los obtengo? Arreglo los datos en orden creciente. Encuentro la mediana. Listo la parte inferior de los valores, a partir del menor valor hasta el valor mediano, incluyéndolo. El “Lower Hinges” es la mediana de estos datos. Listo la parte superior de los valores, a partir del mayor valor hasta el valor mediano, incluyéndolo. El “Upper Hinges” es la mediana de estos datos. Recuerde que la mediana de los datos es el valor que se encuentra ubicado en el lugar ( profundidad) central de los datos ordenados . Esta posición puede obtenerse haciendo : (n+1)/ 2 donde n: es la cantidad de datos que está analizando

Page 11: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Diagrama de caja: en el se muestran todos los elementos explicados anteriormente.

Trate de dibujar con los datos de Costos, este diagrama de caja.

Valor Extremoleve

Valores extremos leves

Extremo o

Outlier

3 D 1.5D

D

H I N G E

H I N G E

M E D I A N A

Diagrama de Caja

(BoxPlot)

Page 12: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Práctico de Análisis exploratorio de datos. ¿Practicamos todo lo visto en este módulo, con los siguientes problemas sencillos? Problema 1 Se realizó un estudio sobre lotes de cereal en miles de toneladas almacenados por dos acopiadoras (X,Y), de una misma firma. Los resultados obtenidos fueron los siguientes: lotes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 21 21 33 21 27 35 25 37 25 18 21 37 45 27 18 Y 5 6 6 8 6 7 5 8 7 4 7 9 10 5 5 lotes 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 X 35 21 23 34 24 43 22 41 33 37 34 29 34 31 34 Y 8 4 5 6 5 9 6 9 5 7 7 5 4 4 5 Genere dos vectores en Excel, cuyos elementos sean los presentados en la tabla anterior. Determine para cada variable, medidas de tendencia central y de variabilidad. Obtenga conclusiones con respecto a la representatividad de las medidas de tendencia central, homogeneidad de las variables consideradas y simetría. Obtenga tablas de distribución de frecuencias, histogramas y diagrama de caja. Veamos otros ejemplos para ilustrar estos gráficos exploratorios, resuélvalos. Los siguientes datos informan con respecto al grado de acidez de 26 muestras de precipitaciones, recolectadas en una localidad de Argentina, desde diciembre de 2001 a junio de 2002. Calcule medidas de resumen (Media, Mediana, Modo, Variancia, Desvío Estandar), y un gráfico lineal. Calcule el Box-plot (Diagrama de Caja). Interprete los resultados

Page 13: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Fecha pH

20/12/93 4.57 25-26/12/93 5.62

30/12/93-1/1/94 4.12 09/01/94 5.29

18-19/1/94 4.64 21/01/94 4.31

26-27/01/94 4.30 28/01/94 4.39

6-7/02/94 4.45 9-11/02/94 5.67

16-17/02/94 4.39 23-24/02/94 4.52 24-25/02/94 4.26

28/02/94-1/03/94 4.26 8/03/94 4.40 9/03/94 5.78

15-16-03/94 4.73 21/03/94 4.56

29-31/03/94 5.08 3-4/04/94 4.41 7-9/04/97 4.12 14/04/94 5.51

25-26/04/94 4.82 11-12/05/94 4.63

17/05/94 4.29 23/05/94 4.60

Page 14: Modulo nº 3 Análisis Exploratorio de datos En general las ... · Modulo nº 3 Análisis Exploratorio de datos Introducción Para seguir ejercitándonos en el manejo de la información

Bibliografía de referencia para este módulo: Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. 1999 0. Estadística para Administración y Economía.Internacional Thomson Editores. Séptima Edición Devore, Jai. 2001.Probabilidad y Estadística para Ingeniería y Ciencia.Thomson Learning. Quinta Edición. Mexico Lind, Douglas A.; Mason, Robert D. Marchal, William G. 2001. Estadística para Administración y Economía.