Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 1
Universidad Técnica Federico Santa María
Departamento de Informática
ILI-280
Capítulo 2Análisis Exploratorio de datos
Estadística ComputacionalII Semestre 2004
Profesores: Héctor Allende ([email protected])Rodrigo Salas ([email protected])
Página: www.inf.utfsm.cl/~hallende
2Profesores: H.Allende, R. Salas
Análisis exploratorio de datos
Es el proceso de explorar los datos sin tener ideas previas y claras respecto a lo que estamos buscando.Técnicas de AED consisten en calcular una serie de valores que resuman y se deriven a partir de un conjunto de datos. Pueden ser interactivos y visuales.
3Profesores: H.Allende, R. Salas
Naturaleza del Dato
Los datos son un conjunto de mediciones tomadas de algún ambiente o proceso.Los datos pueden tomar muchas formas y no solamente numérico.Ejemplos:
Categorías (Sexo, Estado Civil, Educación)Textos (Diagnósticos médicos)Imágenes (Rayos X, resonancia magnética)Sonidos (Música, conversaciones)
OBS: Estos datos pueden ser expresados numéricamente.
4Profesores: H.Allende, R. Salas
Cualitativo (Categorías)Nominal Viña = 1 ; Santiago = 2 ;
Temuco = 3 ..etc.Ordinal Pobre = 1; Aceptable = 2;
Bueno = 3; Excelente = 4 Cuantitativo (Números)
Intervalo estatura, viscosidad, distancia, duración...etcRazón temperatura, peso...etc
NOTA:
El tipo de Estadísticas que se pueden obtener o calcular depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen sentido con datos categóricos (si con proporciones)
Clasificación/Tipo de Datos
5Profesores: H.Allende, R. Salas
Escala Nominal
Usa números como una manera de separar los elementos de la población en diferentes clases o categorías. El número asignado a la observación sólo sirve como un nombre para distinguir la categoría a la cual pertenece la observación.
La variable induce una partición sobre la población la información puede clasificarse en clases o categorías. Cada clase debe estar perfectamente definida y diferenciada de las demás. La recopilación se reduce a contar el número de individuos en la muestra que pertenece a cada clases:
Ejemplos alumnos por cursos: primero (1), segundo (2),...., sexto (6) año; sexo: masculino (M), femenino (F);
6Profesores: H.Allende, R. Salas
Escala Ordinal
Existe un orden implícito entre las mediciones. El valor numérico es usado sólo como una manera de areglar los elementos de acuerdo al orden establecido.La variable admite grados de calidad:existe una relación de orden total entre las clases. No es posible cuantificar la diferencia entre los individuos pertenecientes a las distintas clases. Ejemplo:
Calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D (admisible), E (deficiente)
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 2
7Profesores: H.Allende, R. Salas
Escala Intervalar
Considera no sólo la información pertinente al orden, sino además, el tamaño relativo de los intervalos a que pertenece cada uno de los individuos. En este nivel es posible cuantificar la diferencia de todos los individuos pertenecientes a los intervalos, clases o categorías distintas.Está involucrado el concepto de distancia, y la distancia entre dos medias puede ser expresada en función de esta unidad.Ejemplos:
temperatura al interior de un lugar, interés sólo clasificar en intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje promedio PAA, interesa clasificar en tramos de 25 puntos.
8Profesores: H.Allende, R. Salas
Escala de Razón
Esta escala se usa cuando no sólo el orden y tamaño del intervalo son importantes.La única diferencia entre la escala de razón y la intervalar es que en la primera se puede definir un cero absoluto y en la segunda no.
9Profesores: H.Allende, R. Salas
Tipos de Variables
Tanto en la escala intervalar como en la de razón es posible distinguir dos tipos de variables aleatorias:
Variables Discretas: toma valores de un conjunto de puntos aislados (subconjunto de valores en R)Variables Continuas: toma sus valores en un conjunto donde todos sus elementos son puntos de acumulación (un intervalo en R). Siempre es posible tratar una variable continua como discreta mediante la construcción de “intervalos de clase” representando cada uno de los intervalos por su valor medio denominado “marca de clase
10Profesores: H.Allende, R. Salas
Para estudiar las características de una variable se ordenan los valores observados de la muestra en k clases denominadas c1, c2, .. ck.Frecuencia Absoluta.
Se llama frecuencia absoluta de la clase ci al número total de individuos u observaciones que pertenece a dicha clase y se denota por ni. Como las clases c1, c2, ..... ck son una partición de la muestra, es fácil verificar que
número total de observaciones o tamaño de la muestra
Organización/Presentación
∑=
=k
iinn
1
11Profesores: H.Allende, R. Salas
Organización/Presentación
Frecuencia Relativa.Se llama frecuencia relativa de la clase ci a la proporción de individuos que pertenecen a la clase sobre el total de individuos o tamaño de la muestra. Se de nota por fi. Se puede verificar que
∑=
==k
ii
ii fnnf
11 .... que notese
12Profesores: H.Allende, R. Salas
Presentación de Datos Cualitativos
Reglas: Partición de la PoblaciónCada observación debe pertenecer a una, y sólo una clase o categoría.Todas las observaciones deben pertenecer a una.
Tablas Tabligrama.Gráficos de Barras Diagrama de Pareto.Gráficos Circulares o de Torta.
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 3
13Profesores: H.Allende, R. Salas
107
60
51
25
10
8
1
2
3
4
5
6
Clase Descripción Frecuencia
Ejemplo: Tablas
14Profesores: H.Allende, R. Salas
107
6051
25
10 8
0
20
40
60
80
100
120
1 2 3 4 5 6
Clase
Frec
uenc
ia
Diagrama de Pareto
Escala Nominal
15Profesores: H.Allende, R. Salas
140%
223%
320%
410%
54%
63%
Diagrama Circular
Escala Nominal
16Profesores: H.Allende, R. Salas
0
1
2
3
4
5
6
7
8
9
Pobre Regular Aceptable Bueno Muy Bueno
Diagrama de Bloques
Escala Ordinal
17Profesores: H.Allende, R. Salas
Ejemplo: 40 Datos10 7 811 1 2 3 7 912 0 3 3 4 6 813 1 2 2 4 5 6 7 8 14 0 1 2 3 3 5 7 8 815 0 2 3 3 8 816 0 0 1 2
Ejemplo: Tabligrama
Presentación:Tablas de frecuenciasGráficos: Diagramas de BloquesCirculares, Barras Diagrama acumulativo
18Profesores: H.Allende, R. Salas
K := N° Clases R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8
Límites
106,5-114,5114,5-122,5122,5-130,5130,5-138,5138,5-146,5146,5-154,5154,5-162,5
Marca
110,5118,5126,5134,5142,5150,5158,5
FrecuenciasABS - REL - REL. AC.5 0,125 0,1253 0,075 0,25 0,125 0,3258 0,2 0,5256 0,15 0,6757 0,175 0,856 0,15 1
Conteo
/////////////// /////// ///// ////// /
Tabla de Frecuencias
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 4
19Profesores: H.Allende, R. Salas
0
1
2
3
4
5
6
7
8
9
110,5 118,5 126,5 134,5 142,5 150,5 158,5
Histograma
20Profesores: H.Allende, R. Salas
0
1
2
3
4
5
6
7
8
9
110.5 118,5 126,5 134,5 142,5 150,5 158,5102,5 166,5
Polígono de Frecuencias
21Profesores: H.Allende, R. Salas
110,5 118,5 126,5 134,5 142,5 150,5 158,5102,5 166,5
Frecuencia Acumulada: Ojiva
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
22Profesores: H.Allende, R. Salas
Extraer Información desde la Muestra
Mediciones de Tendencia CentralEstas medidas tienden a ubicarse en el centro del conjunto. Proporcionan un valor simple y representativo, que resume un gran volumen de información.
Mediciones de DispersiónMiden la “dispersión” de valores dentro del conjunto de datos respecto de alguna medida de tendencia central.
• Media Aritmética • Media Geométrica• Media Armónica
• Moda• Mediana • Semi Rango
• Rango• Rango Cuartílico• Rango Percentil
• Varianza• Desviación Estándar• Desviación Media
23Profesores: H.Allende, R. Salas
Extraer Información desde la Muestra
Medidas de HomogeneidadEsta medida es utilizada para comparar dos o más muestras según su grado de homogeneidad.Es una relación entre la medida de tendencia central y la de dispersión.No posee dimensión, es sólo un escalar.
• Señal de ruido
•Coeficiente de VariaciónXSC
XS
v =
−= 2
2
logη
24Profesores: H.Allende, R. Salas
0,0000
0,0500
0,1000
0,1500
0,2000
0,2500
0,3000
0,3500
0,4000
0,4500
0,5000
4 5 6 70 1 2 3
Q1 Q2 Q3 Q4
Moda
MediaAritmética
Mediana
Rango
Medidas de Tendencia y Dispersión
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 5
25Profesores: H.Allende, R. Salas
Variables Categóricas: (Escala Nominal)Moda (Medida del centro)Tasa de Variación (Medida de Dispersión)
fM ≥ fi = i = 1, 2, 3, ..., k. ni
n
V = 1 – fM = 1 - =nM
nn - nM
n
Tipo de Variable
26Profesores: H.Allende, R. Salas
En un estudio de mercado se considera una muestra de 1100 fumadores averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla
Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273
fM = 0,282 Clase modal C
TV = 1 – 0,282 = 0,718 Tasa de variación
Ejemplo
27Profesores: H.Allende, R. Salas
Escala Intervalar
Existen dos maneras de realizar los cálculos de las medidas características de datos de escala inervalar, con …
Datos Agrupados: cuando los datos disponibles se presentan ya “trabajados” en tablas de frecuencias y no se cuenta con los datos originales.Datos No agrupados: cuando los datos se presentan como “materia” en bruto
28Profesores: H.Allende, R. Salas
Datos Agrupados:
fi : Frec. relativa Clase i Xi : Marca Clase ik : N° de clases
Tendencia Central: Promedio
∑=
=k
iii xfx
1
Datos NO Agrupados:
X : Media AritméticaXi : i-ésimo valor observadon : Tamaño Muestra
∑=
=n
iixn
x1
1
29Profesores: H.Allende, R. Salas
L : Límite inferior Clase modalaM : Amplitud Clase Modal∆1 : nM - n1∆2 : nM - n2nM : Frec. absoluta Clase Modaln1 : Frec. absoluta Clase anterior a Clase Modaln2 : Frec. absoluta Clase posterior a Clase Modal
xML
aM
n1
nM
n2
∆1 ∆2
Datos Agrupados: Datos NO Agrupados:
Es el valor que ocurre con mayor frecuencia: el valor más común.
• Puede que no exista moda.
• Puede que exista más un valor Modal
V = Tasa de Variación = 1 – fM
Tendencia Central: Moda
∆+∆
∆+=
21
10 MaLM
30Profesores: H.Allende, R. Salas
Tendencia Central: Mediana
Datos NO Agrupados:
Si los datos se ordenan de orden ascendente de magnitud, entonces la Mediana está dada por:
• Si n es impar , la Mediana es exactamente el valor del medio
• Si n es par , la Mediana es el promedio de los valores centrales
( ) ( )
par es si )(
21
impar es si
12/2/
21
+=
+
+
nxx
nx
Mnn
n
e
L : Límite inferior Clase Mediana (C Me)Ne-1 : Frec. Acumulada hasta antes (C Me)ne : Frecuencia Absoluta (C Me)ae : Amplitud (C Me)n : Tamaño de la muestra
Datos Agrupados:Datos Agrupados:
e
e
ee n
Nn
aLM12 −−
+=
jCfjCMClase j
j
kkje clase: 5.0min:
1≥∃= ∑
=
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 6
31Profesores: H.Allende, R. Salas
Dispersión: Varianza Muestral
Datos NO Agrupados:
s2 : Variancia Muestral
X : Media Aritmética
Xi : i-ésimo valor observado
n : Tamaño Muestra
∑=
−=n
ii xx
ns
1
22 )(1
Datos Agrupados:
fi : Frec. relativa Clase iXi : Marca Clase iX : Media Aritméticani : Frec. absoluta Clase in : Tamaño Muestrak : N° de clases_
∑=
−=n
iii xxfs
1
22 )(
32Profesores: H.Allende, R. Salas
Dispersión: Desviación MediaDatos NO Agrupados:
MD : Desviación Media
X : Media Aritmética
Xi : i-ésimo valor observado
n : Tamaño Muestra
∑=
−=n
ii xx
nMD
1||1
Datos Agrupados:Datos Agrupados:
fi : Frec. relativa Clase iXi : Marca Clase iX : Media Aritméticani : Frec. absoluta Clase in : Tamaño Muestrak : N° de clases| | : valor absoluto
∑=
−=k
iii xxfMD
1
||
33Profesores: H.Allende, R. Salas
Rango Inter-Cuartílico = IRQ = (Q3– Q1) / 2
Cuartil
Datos NO Agrupados:Si los datos se ordenan de orden ascendente de magnitud, entonces el cuartil Qi, para i = 1, 2, 3, 4 está dado por
contrario casoen )1(
entero es 4
1 si
41
41
41
+−
+
=
+
+
+
nini
ni
ixx
nixQ
αα
+
−
+
=4
14
1 niniαL : Límite inferior Qi; i = 1,2,3,4NQí-1 : Frec. Absoluta acumulada hasta antes de la clase QiaQi : Amplitud cuartil i-ésimonQi : Frecuencia Absoluta de la clase del cuartil i-ésimon : Tamaño de la muestra
Datos Agrupados:
i
i
iQ
Q
Qi n
Nin
aLQ14 −−⋅
+=
jCifjCQClase j
j
kkji clase:
4min:
1≥∃= ∑
=
34Profesores: H.Allende, R. Salas
Rango Percentil = RP = (P90 – P10)
Percentil
Datos NO Agrupados:Si los datos se ordenan de orden ascendente de magnitud, entonces el percentil Pi, para i = 1, 2, .., 99 está dado por
contrario casoen )1(
entero es 100
1 si
1001
1001
1001
+−
+
=
+
+
+
nini
ni
ixx
nixP
αα
+
−
+
=100
1100
1 niniα
L : Límite inferior percentil i-ésimoNPí-1 : Frec. Absoluta acumulada hasta antes de la
clase percentil i-ésimoaPi : Amplitud percentil i-ésimonPi : Frecuencia Absoluta de la clase del percentil
i-ésimon : Tamaño de la muestra
Datos Agrupados:
i
i
iP
P
Pi n
Nin
aLP1100 −−⋅
+=
jCifjCPClase j
j
kkji clase:
100min:
1
≥∃= ∑=
35Profesores: H.Allende, R. Salas
Se tiene la impresión que el servicio prestado por una sucursal bancaria no es buena; por lo tanto, la gerencia ordena un estudio al respecto. Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio recibido
Q1 = 0,286 > 0,25 PQ2 = 0,686 > 0,50 SQ3 = 0,914 > 0,75 BQ4 = E
1 2 3 4 5Calificacion P R S B EFrec. Absoluta 20 10 18 16 6Frec. Relativa 0,286 0,143 0,257 0,229 0,086Frec. Acumul 20 30 48 64 70Frec. Acumul. Relat. 0,286 0,429 0,686 0,914 1,000
Ejemplo
75.01514
1
714.0286.011
286.0
)()(
)(
13
2
=−−
=−
−=
=−=−=
=→==→=
KrCrC
D
fV
SCCMedPCf
M
MedQ
MM
36Profesores: H.Allende, R. Salas
Representación visual para describir, simultáneamente, varias características importantes tales como
CentroDispersiónDesviación de la asimetríaIdentificación de las observaciones (valores atípicos)
Q1 Q2 Q33 IRQ 3 IRQ
Mediana
Valores Atípicos
Valores Atípicos
Gráficos de Cajas
1dispersion de Indice 13
−−
==KrangQrangQD
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 7
37Profesores: H.Allende, R. Salas
Gráficos de Cajas
Comparaciones gráficas entre conjuntos de datos
1
2
3
70 80 90 100 110 120
38Profesores: H.Allende, R. Salas
Momentos Muestrales
Momentos no centrados:
OBS:
Momentos centrados:
∑=
=n
i
kik x
nm
1
1
212
21
mms
mx
−=
=
∑=
−=n
i
kik mx
nm
11)(1
39Profesores: H.Allende, R. Salas
Coeficiente de Simetría de Fisher Sesgo
0 2,5 5 7,5 10 12,5 15 17,5 20
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
γ1 < 0
Distribución, tiende a concentrarse en Valores Altos de la Variable
Mo > MA > Me
0
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
γ1 = 0
Distribución, es simétrica respecto a la Media
Mo = MA = Me
γ1 > 0
Distribución, tiende a concentrarse en Valores Bajos de la Variable
Mo < MA < Me
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0 2,5 5 7,5 10 12,5 15 17,5 20
Características de forma: Simetría
33
1 sm
=γ
13
231 2QQQQQIS
−−+
=Indice de Simetría
40Profesores: H.Allende, R. Salas
Coeficiente Curtosis
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4
γ2 = 0
Distribución “Normal”
γ2 < 0
Distribución tiende a concentrarse alrededor de la Media.
Variancia Pequeña
Aguzada
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-2 -1 0 1 2
γ2 > 0
Distribución tiende a dispersarse
Variancia grande
Achatada.
0
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
-4 -3 -2 -1 0 1 2 3 4 5-5
Características de forma: Achatamiento
344
2 −=smγ
41Profesores: H.Allende, R. Salas
Ejemplo
Se desea determinar las características de resistencia a la ruptura bajo cargas de tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de 0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2. El laboratorio de resitencia de materiales proporciona la tabla de frecuencias
Determine: Todas las medidas de localización, escala, simetria yforma
Clase Limites Marca Frecuencia Frecuencia Frecuencia Frecuencia dde Clase de Clase Absoluta Abs. Acum. Relativa Relat. Acum.
1 407,5-412,5 410 4 4 0.032 0.0322 412,5- 417,5 415 5 9 0.040 0.0723 417,5- 422,5 420 8 17 0.064 0.1364 422,5- 427,5 425 14 31 0.112 0.2485 427,5- 432,5 430 13 44 0.104 0.3526 432,5- 437,5 435 19 63 0.152 0.5047 437,5- 442,5 440 20 83 0.160 0.6648 442,5- 447,5 445 15 98 0.120 0.7849 447,5- 452,5 450 12 110 0.096 0.880
10 452,5- 457,5 455 6 116 0.048 0.92911 457,5- 462,5 460 7 123 0.056 0.98412 462,5- 467,5 465 2 125 0.016 1.000
42Profesores: H.Allende, R. Salas
Sea yi = h ( xi ) con i = 1,...,n
1. Lineales yi = axi + b
y = ax + bSy = a Sx
2. No lineales yi = h( xi )
y = h(x) + h”(x) SX2
Sy2≈ Sx
2 [ h’ (x)]2En particular h(x) = ln x y = ln x - ( Sx
2 / x2 )Sy
2 ≈ ( Sx2 / x2 ) = CV
2
21
21
Transformaciones
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 8
Universidad Técnica Federico Santa María
Departamento de Informática
ILI-280
Análisis de una muestra estratificada
44Profesores: H.Allende, R. Salas
E2
n2 V2
2X
E1n1 V11X
Emnm VmmX
∑=
=m
hh nn
1
nnp h
h =
Supongamos que la variable admite una clasificación en k-clases, representadas por X1, X2,.....Xk.
m- estratos
Análisis de una muestra estratificada
45Profesores: H.Allende, R. Salas
nih = Cantidad de individuos de la submuestra del estrato “h” que pertenece a Ci.
h
ih
nn
=ihf ∑=
=k
i 11ihf ∑
=
=k
ihih nn
1
∑=
=k
iih XX
1ihf ∑
=
−=k
ihih XXV
1
2)(ihf
∑=
=m
hhp
1ihi ff
Análisis de una muestra estratificada
46Profesores: H.Allende, R. Salas
2
11)(∑∑
==
−+=m
hhh
m
hhhT XXpVpV
Entonces:
∑=
=m
hnh XpX
1
erraT VVV intint +=
Análisis de una muestra estratificada
47Profesores: H.Allende, R. Salas
Ejemplo
Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50 pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos. Al cabo de un cierto tiempo se pesan los 350 pollos, encontrándose que algunos están muertos y los vivos pesan entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos muertos se supondrán de peso cero, y el cero actuará como centro del supuesto intervalo. Los otros intervalos serán [1,00 ; 1,50] [1,50 ; 2,00] [2,00 ; 2,50].
Centros
01,251,752,25
Frecuencias Absolutas(1) (2) (3)5 10 1010 20 3030 150 505 20 10
Calcular
Note que existen 3 estratos y 4 clases
raer
Thh
VVVXVX
intint ,,,,
48Profesores: H.Allende, R. Salas
FrecuenciaRelativa
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0 1,25 1,75 2,25
1,00 1,50 2,00 2,50
Peso
Criadero 1Criadero 2Criadero 3
Histograma Apilado por Peso
Análisis Muestra Estratificada
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 9
49Profesores: H.Allende, R. Salas
Criadero 1Criadero 2Criadero 3
1,00 1,50 2,00 2,50
FrecuenciaRelativa
0
0,1
0,2
0,3
0,4
0,5
0 1,25 1,75 2,25
Peso
Histograma por Estrato y por Peso
Análisis Muestra Estratificada
50Profesores: H.Allende, R. Salas
Estrato (2) P2=4/7
fi2 fi2X1 Xi-X2 ( )2 fi2( )2
0 0,05 0 -1,662 2,76 0,1381,25 0,10 0,125 -0,412 0,17 0,0171,75 0,75 1,312 0,088 0, 01 0,0062,25 0,10 0,225 0,588 0,35 0,035
X2=1,662
V2=0,195
Estrato (3) P3=2/7
fi3 fi3X1 Xi-X3 ( )2 fi3( )2
0 0,10 0 -1,475 2,17 0,2181,25 0,30 0,375 -0,225 0,05 0,0151,75 0,50 0,875 0,275 0, 08 0,0392,25 0,10 0,225 0,775 0,60 0,060
X3=1,475
V3=0,331
Estrato (1) P1=1/7
Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2
0 0,1 0 -1,525 2,325 0,23251,25 0,2 0,250 -0,275 0,0756 0,01511,75 0,6 1,050 0,225 0,0501 0,03042,25 0,1 0,225 0,725 0,525 0,0526
X1=1,525
V1=0,331
51Profesores: H.Allende, R. Salas
Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2
Xh Vh
(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00058(2) 4/7 1,662 0,195 0,950 0,111 0,073 0,005 0,00305(3) 2/7 1,475 0,331 0,421 0,095 -0,114 0,013 0,00371
1,589 0,253 0,0073
52Profesores: H.Allende, R. Salas
Se ha obtenido, entonces:Media Total
X = 1,589Varianza promedio dentro de los estratos
Vintra= 0,253Varianza entre estratos
Vinter= 0,0073Varianza Total
VT= 0,2606
Resultados
Universidad Técnica Federico Santa María
Departamento de Informática
ILI-280
Estadística Bivariada
54Profesores: H.Allende, R. Salas
Supongamos que se toma una muestra de tamaño n de una población y que se está investigando, o se desea estudiar, dos características de la misma.
Sean estas características X e Y. Siguiendo los procedimientos habituales, la Muestra se divide en
r clases Ai para la variable X s clases Bj para la variables Y
Existirán elementos que pertenecerán simultánea-mente a AiBj. Los datos los podemos ordenar en una tabla o matriz llamada Tabla de Contingencia
Estadística Bivariada
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 10
55Profesores: H.Allende, R. Salas
Y B1 B2 ..... Bj ..... Bs Total
A1 n11 n12 ..... n1j ..... n1s n1
A2 n21 n22 ..... n2j ..... n2s n2
Ai ni1 ni2 ..... nij ..... nis ni
Ar nr1 nr2 ..... nrj ..... nrs nr
Total n 1 n 2 ..... n j ..... n s n
X
n = n_
Tabla de Contingencia
56Profesores: H.Allende, R. Salas
Y B1 B2 ..... Bj ..... Bs Total
A1 f11 f12 ..... f1j ..... f1s f1A2 f21 f22 ..... f2j ..... f2s f2
Ai fi1 fi2 ..... fij ..... fis fi
Ar fr1 fr2 ..... frj ..... frs frTotal f 1 f 2 ..... f j ..... f s f
X
f = 1_
Tabla de Contingencia
57Profesores: H.Allende, R. Salas
Notación:
fij := frecuencia conjunta = fr(xi,yj)
fii = = frecuencia marginal =
fi j = = frecuencia marginal =
fi/j = = frecuencia condicional =
∑j
ijf ∑ =j
iji xyx )(),( rr ff
∑i
ijf ∑ =i
jji yyx )(),( rr ff
j
ij
ff
•)(
),()/(
j
jiji y
yxyx
r
rr f
ff =
Estadística Bivariada
58Profesores: H.Allende, R. Salas
∑=
• =s
jiji nn
1
Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r(Independiente de la clases Bj a la que estén asociadas Suma de los valores de la fila i-ésima )
∑=
• =r
iijj nn
1
Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s(Independiente de las clases Ai a la que estén asociadas. Suma de los valores de la columna j-ésima)
nij = Frecuencia Absoluta de la clase conjunta AiBj.(Valor observado en la celda (i,j) de la Tabla de Contingencia)
fij = nijn Frecuencia Relativa“conjunta” de la clase conjunta correspondiente a la intersección de Ai y Bj.
∑=
s
jijf
1∑=
r
i 1= 1
Tabla de Contingencia
59Profesores: H.Allende, R. Salas
Para frecuencias relativas , i = 1,....,r se tiene:
Además se verifica que:
∑=
• =s
jiji ff
1(Suma de los valores de la fila i-ésimade la tabla de contingencia de frecuencias)
∑=
• =r
iijj ff
1
••
•• = nni
if••
•• =
nn j
jfj
ij
nn
••
==j
iji/j f
ff
Tabla de Contingencia
60Profesores: H.Allende, R. Salas
•• =ni
if
•• =
••nn j
jf
Frecuencia (relativa) “marginal” de la variable X, Conjunto de valores pertenecientes a las clases Ai, considerandolas independientemente de las calses Bj
Frecuencia (relativa) “marginal” de la variable Y, Conjunto de valores pertenecientes a las clases Bj, considerandolas independientemente de las calses Ai
Dado el experimento anterior, cuando sólo interesa conocer la frecuencia de ocurrencia de cada una de las variables por separado se habla de Frecuencia Marginal de la variable
••n
Frecuencia Marginal
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 11
61Profesores: H.Allende, R. Salas
Una tela se clasifica en tres categorías A, B y C según cantidad y severidad de pequeñas imperfecciones. La empresa tiene 5 telares, en un mes dado de producción se registraron los siguientes datos.
# piezas de tela en la clasificaciónTelar A B C Marginal
1 185 16 12 2132 190 24 21 2353 170 35 16 2214 158 22 7 1875 185 22 15 222
Marginal 888 119 71 1078
Ejemplo
Tabla de Contingencia
62Profesores: H.Allende, R. Salas
Se dice que X es independiente de Y si las frecuencias condicionales de X/Y son todas iguales; es decir, no dependen de la clase condicionante, esto es
fi/1 = fi/2 = fi/3 = = fi/s = fi•
Ai = 1, 2, 3, ... , r
i1n
1n•= i2
n2n•= i3
n3n•= = is
n
Sn•
i1n
1n•
i2n
i3n
isn
2n• 3n• sn•
+ +
+ +
+ +....
+ +....i•
nn=
••
....
....
= fi•
•= ii/j ff j•= ffj/i
•×= ji/jij fff ×=ij •if • jff
Luego similarmente
•=
ji/j f
ijffComo
Independencia Estadística
63Profesores: H.Allende, R. Salas
ijnjn•
=•
=j
i/j fijff
• Cuando se “pregunta” por la frecuencia relativa de una de las varia-bles, digamos X, restrigida a los elementos observados de una clase dada de la otra; esto es, estudiar el comportamiento de una variable dado un valor fijo de la otra.
Frecuencia (relativa) de la variable X en la clase conjunta AiBj, “dado” que sólo nos interesa respecto a lo observado en la clase Bjde la variable Y; para i = 1, 2, .., r
f1/j, f2/j, f3/j, ... , fr/j
Constituye la distribución de frecuencia relativa condicional de la variable X dada la clase Bj de la variable Y.Nótese que se trabaja “condicionado” sobre un tamaño de muestra “reducido” al número de observaciones de la clase Bj dada
Frecuencia Condicional
64Profesores: H.Allende, R. Salas
Notación:
Análogamente, se tiene:
fj/i = = frecuencia condicional =
•i
ij
ff
)(),(
)/(i
jiij x
yxxy
r
rr f
ff =
Independencia Estadística
X e Y son variables estadísticamente independientes ssi:
ó
ó
)()/( jij yxy rr ff = )()/( iyi xyx rr ff =
•= ii/j ff j•= ffj/i
Estadística Bivariada
65Profesores: H.Allende, R. Salas
Independencia Estadística
como ⇒•×= ij/iij fff •• ×= ijij fff
Asociación de Variables
Datos no agrupados Cov(x,y) =
Datos agrupados : Cov(x,y) =
Coeficiente de Correlación = r =
))((1 yyxxn ii −−∑
))(( yyxx ii −−∑ ifCov (x,y)
Sx Sy
Estadística Bivariada
66Profesores: H.Allende, R. Salas
Fallas AnualesTemperatura 120 140 160 Marginal
Averías
2 20 15 10 453 12 7 5 244 4 10 2 165 - 5 10 15
Marginal 36 37 27 100
Obtener :Distribuciones marginalesDistribuciones condicionales (4 averías), Mediay Varianza condicional
Ejercicio
Universidad Técnica Federico Santa María
Profesor: Rodrigo Salas 12
67Profesores: H.Allende, R. Salas
Fallas AnualesTemperatura 120 140 160 Marginal
Averías
2 0,20 0,15 0,10 0,453 0,12 0,07 0,05 0,244 0,04 0,10 0,02 0,165 0 0,05 0,10 0,15
Marginal 0,36 0,37 0,27 1,00
fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5
Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2
+1//8(160-137,5)2 =
Ejercicio