32
Diagrama de Tallos y Hojas El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de elaborar, presentan más información que estos. Ejemplos Horarios de trenes Edad de 20 personas Comparar dos distribuciones Horarios de trenes Basándome en un articulo de Juan C. Dürsteler en InfoVis.net , tomamos como ejemplo un horario de trenes confeccionado a partir de un díptico de la línea Castelldefels-Barcelona/Sants recogido en la estación de Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas más una columna "viuda" con el tren de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455caracteres. Díptico original Trayecto Castelldefels -> Barcelona-Sants 5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38 6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20 6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32 6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37 6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50 6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02 7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07 7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20 7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32 7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37 En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separación | y losminutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fácilmente de la longitud de las filas y

Diagrama de Tallos y Hojas

  • Upload
    iacoman

  • View
    361

  • Download
    1

Embed Size (px)

Citation preview

Diagrama de Tallos y Hojas

El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una

distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta

separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras

restantes (que formará el tallo).

Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles

de elaborar, presentan más información que estos.

Ejemplos

Horarios de trenes

Edad de 20 personas

Comparar dos distribuciones

Horarios de trenes

Basándome en un articulo de Juan C. Dürsteler en  InfoVis.net , tomamos

como ejemplo un horario de trenes confeccionado a partir de un díptico de la línea

Castelldefels-Barcelona/Sants recogido en la estación de Renfe. Originalmente el horario ocupa

una tabla de 10 filas y 9 columnas más una columna "viuda" con el tren de las 22:38. Un

total de 91 campos con formato hh.mm cada uno, 455caracteres.

Díptico original Trayecto Castelldefels -> Barcelona-Sants 

5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38

6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20

6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32

6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37

6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50

6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02

7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07

7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20

7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32

7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37

En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separación | y

losminutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce

fácilmente de la longitud de las filas y es, además, muy fácil ver en que minutos de cada hora

pasan típicamente los mismos.

Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf

05 | 03

06 | 02 18 37 48 55

07 | 02 07 20 25 32 37 50

08 | 02 05 20 24 32 37 51

09 | 02 07 24 32 37

10 | 02 07 32 37

11 | 02 07 32 37

12 | 02 07 32 37

13 | 02 07 20 32 37 50

14 | 02 07 20 32 37 50

15 | 02 07 20 32 37 50

16 | 02 07 20 32 37 50

17 | 02 07 20 32 37 50

18 | 02 07 20 32 37 50

19 | 02 07 20 32 37 50

20 | 02 07 20 32 37 50

21 | 02 07 20 32 37

22 | 38

Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se

puede reducir aún más el tamaño del gráfico, sin perder información  y ganando en claridad.

Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido

05 | 03

06 | 02 18 37 48 55

07 | 02 07 20 25 32 37 50

08 | 02 05 20 24 32 37 51

09 | 02 07 24 32 37

10 11 12 | 02 07 32 37

13 14 15 16 17 18 19 20 | 02 07 20 32 37 50

21 | 02 07 20 32 37

22 | 38

Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores, es decir 4 veces

menos dígitos que con el horario original, menos espacio y más claridad. 

Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente

informativa y que la representación gráfica puede contribuir enormemente a la percepción de

patrones y a la comprensión de la naturaleza de los fenómenos.

Edad de 20 personas

Supongamos la siguiente distribución de frecuencias

36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40

que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo

Por último reordenamos las hojas y hemos terminado el diagrama

Comparar dos distribuciones

Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda

distribución

35 38 32 28 30 29 27 19 48 40

39 24 24 34 26 41 29 48 28 22

De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.

Diagrama de tallos y hojas

Horario ferroviario usando un formato de diagrama de tallos y hojas en la estación Minato Mirai

en Yokohama, Japón. Este formato es muy usado en todo el país.

El diagrama de tallos y hojas (Stem-and-Leaf Diagram) es un formato para presentar datos

cuantitativos en un formato gráfico, similar a un histograma.

Permite obtener simultáneamente una distribución de frecuencias de la variable y su representación

gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la

hoja) del bloque de cifras restantes (que formará el tallo).

Existen diversos tipos de diagramas tallos y hojas, que en inglés se llama "stem-and-leaf display".1

Referencias[editar]

1. Ir a↑ Diagrama de Tallos y Hojas

Presentación de datos cuantitativos

El diagrama de tallos y hojas 

Dado un conjunto de datos formado por   observaciones, las cuales pueden ser

representadas mediante   y donde cada  tiene por lo

menos dos dígitos. Una forma rápida de obtener una representación visual del

conjunto de datos es construir un diagrama de tallos y hojas. Este diagrama es

usado cuando hay un número no muy pequeño de datos. Los siguientes son los

pasos para construir un diagrama de tallos y hojas:

1. Seleccionar uno o más dígitos iniciales para los valores de tallo. El dígito(s) final(es) se convierte (n) en hojas. Para facilitar la determinación de la forma de la distribución de los datos se necesitan al menos 5 tallos.

2. Hacer una lista de valores de tallo en una columna vertical.3. Registrar las hojas por cada observación junto al valor correspondiente del

tallo.4. Indicar las unidades para tallos y hojas en algún lugar del diagrama.

Muchos de los procedimientos estadísticos que se desarrollarán en la siguientes

unidades suponen que la variable aleatoria estudiada tiene al menos una

distribución aproximadamente normal, para la cual el diagrama de tallos y hojas

tiene forma de campana.

Los diagramas de tallos y hojas nos dan una idea de la localización de los datos y

de la forma de la distribución. Esta técnica funciona bien para los conjuntos de

datos que no tienen una dispersión muy grande.

Ejemplo 

La siguiente tabla representa el porcentaje de algodón en un material utilizado

para la fabricación de camisas para caballeros.

Tabla 1. Datos del porcentaje de algodón

33.1 35.3 34.2 33.6 33.6 33.1 37.6 33.6

34.5 34.7 33.4 32.5 35.4 34.6 37.3 34.1

35.6 35.0 34.7 34.1 34.6 35.9 34.6 34.7

36.3 35.4 34.6 35.1 33.8 34.7 35.5 35.7

35.1 36.2 35.2 36.8 37.1 33.6 32.8 36.8

34.7 36.8 35.0 37.9 34.0 32.9 32.1 34.3

33.6 35.1 34.9 36.4 34.1 33.5 34.5 32.7

32.6 33.6 33.8 34.2 34.6 34.7 35.8 37.8

El diagrama de tallos y hojas para los anteriores datos aparece a continuación.

Stem-and-leaf of PORCENTAJE DE ALGODON N = 64 Leaf Unit = 0.10 (el número 1

después del punto significa que se usa una sola cifra decimal).

Tallo Hojas

6 32 156789

18 33 114566666688

(21) 34 011122355666667777779

25 35 00111234456789

11 36 234888

5 37 13689

Algunas veces, la utilización del primero o de los dos primeros dígitos de los datos

puntuales como tallos no proporcionan suficientes tallos como para permitirnos

detectar la forma de su distribución. Una manera de solucionar esto es utilizar

tallos dobles. Es decir, utilizar cada tallos dos veces: una vez para trazar las hojas

inferiores 0, 1, 2, 3, 4, y a continuación nuevamente para trazar las hojas

superiores 5, 6, 7, 8, 9. El siguiente gráfico ilustra lo anterior

Presentación de datos cuantitativos

Histogramas

El histograma es una técnica gráfica utilizada para presentar gran cantidad de

datos. Se le atribuye a Karl Pearson en 1895. El histograma puede ser: de

frecuencias absolutas, de frecuencias relativas, de frecuencias absolutas

acumuladas y de frecuencias relativas acumuladas. Para la construcción del

histograma se requiere elaborar una tabla de distribución de frecuencias, lo cual se

desarrollará a continuación.

El gráfico de la distribución de frecuencias, se llama histograma. El histograma de

frecuencias es una representación visual de los datos en donde se evidencian

fundamentalmente tres características: forma, acumulación o tendencia posicional

y dispersión o variabilidad.

El histograma (de frecuencias) en si es una sucesión de rectángulos construidos

sobre un sistema de coordenadas de la siguiente manera:

1. Las bases de los rectángulos se localizan en el eje horizontal. La longitud de la base es igual al ancho del intervalo.

2. Las alturas de los rectángulos se registran sobre el eje vertical y corresponden a las frecuencias de los intervalos.

3. Las áreas de los rectángulos son proporcionales a las frecuencias de las clases.

Polígono

Otro recurso gráfico para ilustrar el comportamiento de los datos es el polígono de

frecuencias. Este se construye sobre el sistema de coordenadas cartesianas, al

colocar sobre cada marca de clase un punto a una altura igual a la frecuencia

asociada a esa clase; luego se unen dichos puntos por segmentos de recta.

Para elaborar el Polígono en Excel, haga click derecho sobre el histograma y

elija Tipo de gráfico, lo cual despliega una ventana, donde usted debe elegir la

opción Líneas (Elija como subtipo de gráfico el que aparece por defecto). Luego

haga click en Aceptar.

Otra forma de polígono es la Ojiva, la cual es el polígono que se obtiene de unir por

segmentos de recta los puntos situados a una altura igual a la frecuencia

acumulada a partir de la marca de clase como se hace con el polígono de

frecuencia.

Ejemplo 

La siguiente tabla resume la demanda diaria de cierto producto durante 40 días

seguidos

Tabla 2. Distribución de frecuencias de la demanda diaria de un producto.

Intervalo

4.5-9.5 4

9.5-14.5 11

14.5-19.5 13

19.5-24.5 10

24.5-29.5 2

La tabla anterior corresponde a una frecuencia para datos cuantitativos. Los

distintos intervalos son: (4.5, 9.5], (9.5,14.5], (14.5, 19.5], (19.5, 24.5], (19.5,

24.5], (24.5, 29.5]. La longitud de los intervalos es 5; los números 4, 11, 13, 10 y 2,

representan las respectivas frecuencias.

Diagrama de tallo y hoja

Esta es una manera de poder visualizar la distribución de un conjunto de datos utilizando los valores originales.

Esta técnica consiste en separar el valor de un dato en 2 dígitos.

El primer o los primeros dígitos de izquierda a derecha representan al tallo y el último dígito representa a la hoja, este tallo y esta hoja se separan mediante una línea vertical.

Para comprender mejor observe el siguiente ejemplo: 

Se tienen datos referentes a temperaturas en grados Fahrenheit en un experimento de química de -42º, -12º,5º, 8º, 9º, 23º, 24º, 25º, 26º, 60º, 27º y 111º.

Se solicita sean presentados en un diagrama de tallo-hoja.

Solución:

Los datos deben ser ordenados de menor a mayor, se realiza una línea vertical para separar el tallo de la hoja y por ultimo se procede a ingresar los datos iniciando con los negativos y terminando con los positivos.

En este caso el tallos tiene las decenas y centenas y las hojas la unidad.

El siguiente histograma fue creado con los valores anteriores, observe la similitud en cuanto a la distribución del conjunto de datos donde la diferencia radica en la posición

de los valores observados, en el histograma se observan en el eje de la Y las frecuencias (hojas) y en el eje de las X (los tallos). 

Hay una pequeña diferencia ya que el histograma presenta 7 clases y en el diagrama tallo y hoja hay 6 clases pero esto lo define el usuario en el histograma por lo que no debería ser problema . 

Una ventaja de realizar un diagrama de tallo y hoja es poder obtener los valores originales aplicando notación científica.

Lo anterior consiste en visualizar los datos como un diagrama de tallo.hoja multiplicado por una base 10 y elevado a un exponente “a”. Note que ya no se utiliza una línea vertical para separar al diagrama tallo y hoja, sino utilizar un “punto”.

Después de visualizar al diagrama como tallo.hoja se procede a multiplicar por la base 10 al exponente a = 1 (el valor del exponente “a” dependerá de cómo el usuario establezca la separación del tallo.hoja), logrando con esto transformar el tallo.hoja al valor original del dato.

En el ejemplo anterior el tallo I hoja, -4 I 2 necesita ser visualizado como tallo.hoja -4.2 para luego ser multiplicado por 10 al exponente 1 y con esto obtener el valor original -42.

Realizando la multiplicación anterior se obliga a que le punto decimal se desplace una posición a la derecha, logrando con esto el valor -42.0.

Misma situación ocurre al tallo l hoja 11 1 que al ser visualizado como tallo.hoja 11.1, y ser multiplicado por 10 al exponente 1 este punto decimal se desplaza hacia la derecha generando esto el valor original 111.0.

Precaución: si al tallo.hoja se multiplicara por una base 10 y exponente -1 el punto decimal se desplaza hacia la izquierda dando como resultado un -0.42 y -1.11 respectivamente, siendo estos valores incorrectos a los valores buscados.

El programa Minitab con fin estadístico es de los pocos que generan un diagrama de tallo y hoja, este link lo describe si desean saber más.

EjemploPara realizar un diagrama de tallo y hoja en Minitab se debe de realizar lo siguiente:

Con Microsoft Excel se tabulan datos obteniendo la siguiente base de datos descargarla.

O bien pueden descargar la base de datos ya en Minitab con extensión .MTV descargarla.

Utilizando la opción de Excel, será necesario copiar y pegar los datos de una hoja de Excel hacia una hoja de trabajo de Minitab. 

Luego en Minitab ubique la pestaña "gráfica" y la opción "tallo y hoja".

Al realizar lo anterior se abre la ventana tallo y hoja en ella es necesario seleccionar con un clic la variable que se desea analizar, el siguiente paso es hacer clic izquierdo en el botón “Seleccionar” y por ultimo hacer clic en el botón aceptar.

El resultado es el siguiente diagrama de tallo y hoja: 

En este se puede observar que la mayor cantidad de los datos se encuentran en la parte central del diagrama, también que la variable analizada fue No. de tomates por planta en la cosecha 1999-2000 y que el total de plantas que contenían los tomates fue de 250.

El diagrama generado muestra del lado derecho a la hoja (un dígito por cada observación), en el centro al tallo y en al lado izquierdo los conteos con intervalos de 5 unidades.

Lo anterior genera 12 grupos distanciados de la siguiente manera (120-124), (125-129), (130-134), (135-139), (140-144), (145-149), (150-154), (155-159), (160-164), (165-169), (170-174) y (175-179).

En el diagrama se muestra del lado izquierdo un conteo entre paréntesis este indica que es ahí donde se encuentra la mediana que divide al conjunto de datos en 2 grupos.

Los conteos son acumulativos de arriba hacia el medio y de abajo hacia el medio generando un conteo total de 250 (71+60+119).

El siguiente histograma fue creado para compararlo con el resultado del diagrama tallo y hoja de la base de datos tallo-hoja (la que se dio para descargar).

Para obtener este histograma se utilizó el software estadístico Infostat, con las siguientes restricciones:

10 clases, intervalos de clase de 5 unidades, un rango de 57 tomates/plantas, límite inferior de clase de 123 tomates/planta y límite superior de 177 tomates/planta.

En el eje “X” se encuentra un mínimo de 123 y máximo de 177, con 12 divisiones.

El eje “Y” son las frecuencias absolutas con un mínimo de 0 y un máximo de 60 con 12 divisiones.

Al realizar la comparación del tallo y hoja con el histograma generado y las restricciones anteriormente descritas se observa la similitud entre ambos en cuanto a la distribución del conjunto de datos. 

Gráficos de Tallo y Hojas

(Stem-and-Leaf Plot for batch= Standard)

UNIR, Universidad Virtual  Máster Oficiales en Perú y Europa. ¡Hasta 65% de Descuento para Perú!www.unir.netEnlaces patrocinados

El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones que soportan desde 1538 hasta 1539 grados centígrados de calor.

Habrá ocho muestras que soportan desde 1550 hasta 1551 grados centígrados de calor

Aleluya: con esto hemos terminado la primera parte de este curso básico, es decir, hemos concluido el programa de los Estadísticos Descriptivos.

La Estadística Descriptiva es el pivote central en el que descansan las otras ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será muy útil.

Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.

Interpretación de la gráfica Tallos y Hojas

La columna izquierda registra las frecuencias de cada nivel de temperatura

En total suman 240 valores, los que coinciden con el número que nos da el cuadro deResumen del procesamiento de los casos

Los datos de columna del medio, se llama Stem y los de la última columna, Leaf.

Escojamos, al azar, una fila, digamos la que muestra una frecuencia de 22.00

La columna de Stem registra 150 y la columna de Leaf los valores que completan el valor 150 de la columna Stem, empezando por 0.

Si escogemos el primer “0” de Leaf y lo añadimos a150 de Stem, tendremos 1500; hay tres ceros en la columna Leaf, habrá 3 casos que soportan temperaturas de 1500 grados

Escojamos ahora el valor de Stem de 151; hay, como en el caso anterior, dos frecuencias para ese valor, que son 54 y 43; elijamos el que tiene la frecuencia de 54.

Si agregamos el primer 0 de la columna de Leaf al valor de 151,éste se convertirá en 1510; como hay ocho ceros en la columna Leaf, entonces habrá 8 observaciones de 1510.

Ahora, en vez de completar el valor Stem de 151 con cada cero, haremos lo mismo, pero esta vez añadiendo al valor Stem el primer 1 de la columna Leaf.

El valor Stem se convertirá en 1511; como hay doce valores “1”, entonces sabremos que habrá doce observaciones que representan soportes de 1511 grados centígrados.

Hacemos lo mismo con los valores “2”, “3” y “4”, respectivamente; lo que nos dará 7 valores de 1512, 15 valores de 1513 y 12 valores de 1514 que soportan esas temperaturas.

El valor de la primera columna a la izquierda, Frecuency, nos dice que en total hay 54 soportes que resisten emperaturas desde 1510 hasta 1514 grados centígrados.

Los datos nos indican que los valores se concentran, principalmente, entre 1505 y 1519 grados, esto quiere decir que la mayor parte de los elementos de Standard soportan temperaturas entre 1505 y 1519 grados.

Realizaremos el mismo análisis de los datos con la tabla Stem-and-Leaf para los soportes Premium.

Gráficos de Tallo y Hojas

(Stem-and-Leaf Plot for batch= Premium)

El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones que soportan desde 1538 hasta 1539 grados centígrados de calor.

Habrá ocho muestras que soportan desde 1550 hasta 1551 grados centígrados de calor

Aleluya: con esto hemos terminado la primera parte de este curso básico, es decir, hemos concluido el programa de los Estadísticos Descriptivos.

La Estadística Descriptiva es el pivote central en el que descansan las otras ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será muy útil.

Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.

ACTIVIDAD 5.1

En esta sección se presenta los de gráficos conocidos como de CAJA Y BIGOTE

OBJETIVO:

Identificar las características del diagrama de Caja y Bigote, lo que permitirá su futura aplicación.

ACTIVIDAD:

 Leer, ver y resumir los documentos presentados

Socializar los hallazgos y las dudas con el grupo

Resolver los ejercicios asignados por el docente

PRODUCTO:

Elaborar una presentación en Power Point en la que se relacione la solución de los problemas asignados, desde su planteamiento, pasando por los procesos para solucionarlo y las principales conclusiones. Subirla al blog del grupo.

TIEMPO: El fijado por el profesor

Para ver la rúbrica de esta actividad siga el enlace: