Upload
others
View
28
Download
0
Embed Size (px)
Citation preview
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Estadıstica Descriptiva1 conMATLAB/Octave
Ingenierıa de Telecomunicaciones
Departamento de Estadıstica
Universidad Carlos III de Madrid
Curso 2016/2017
1Consultar ficheros Descriptiva 1 y Descriptiva 21 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Resumen de la practica
1 Introduccion entorno MATLAB/Octave
2 Descripcion de un conjunto de datos
3 Representacion grafica
4 Medidas de posicion
5 Medidas de dispersion
6 Descripcion conjunta de dos variables
2 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Resumen
1 Introduccion entorno MATLAB/Octave
2 Descripcion de un conjunto de datos
3 Representacion grafica
4 Medidas de posicion
5 Medidas de dispersion
6 Descripcion conjunta de dos variables
3 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ventana Principal de MATLAB
Command WindowWorkspace
Command History
Current Directory
4 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Directorio actual de Trabajo (Current Directory).
Especificar la ruta: C:/.../
por ejemplo: C:/practica1/
Aquı se guardan las funciones *.m creadas
Espacio de Trabajo (Workspace).
Aquı aparecen las variables o funciones cargadas.
Ventana de comandos (Command Window).
Consola sobre la que se escriben los comandos.
Historial de comandos (Command History).
Aquı se guardan los comandos escritos en la consola.
Ficheros practica 1
Para esta practica descarga de la pagina web los ficherosinternet.mat, AlumnosIndustriales.mat e histg.m del siguienteenlace.
5 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Resumen
1 Introduccion entorno MATLAB/Octave
2 Descripcion de un conjunto de datos
3 Representacion grafica
4 Medidas de posicion
5 Medidas de dispersion
6 Descripcion conjunta de dos variables
6 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıas
Los datos sobre el numero de averıas de 40 centrales se recogen en lasiguiente tabla (incompleta):
Central Electrica No Averıas
1 12 33 24 2...
...39 140 2
7 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıas
En MATLAB, introducimos los datos sobre el command window:
>> averias=[ 1; 3; 2; 2; 0; 3; 1; 0; 2; 1; 0; 1; 0; 3; 0; 2;
0; 2; 1; 1; 1; 0; 2; 3; 0; 0; 0; 0; 1; 1; 4; 0;
3; 1; 0; 2; 1; 1; 1; 2 ]
El resultado es el vector columna averias:
averias =
1
3
2
2
...
8 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıas
El comando tabulate calcula las frecuencias absolutas (Count) yrelativas (en %) (Percent).
>> tabulate(averias)
Value Count Percent
0 13 32.50%
1 13 32.50%
2 8 20.00%
3 5 12.50%
4 1 2.50%
9 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıasPara trabajar con la tabla como una matriz, la guardamos con elnombre de tabla. De este modo podemos manejar sencillamente suselementos.
>> tabla = tabulate(averias)
Por ejemplo, podemos expresar las frecuencias relativas entre 0 y 1,en lugar de en %.
>> tabla(:,3) = tabla(:,3)/100
tabla =
0 13.0000 0.3250
1.0000 13.0000 0.3250
2.0000 8.0000 0.2000
3.0000 5.0000 0.1250
4.0000 1.0000 0.0250
10 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıas
Podemos calcular las frecuencias acumuladas con el comandocumsum:
>> abs_acum = cumsum(tabla(:,2))
ans =
13
26
34
39
40
>> rel_acum = cumsum(tabla(:,3))
ans =
0.3250
0.6500
0.8500
0.9750
1.0000
11 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıas
La tabla final de frecuencias se puede construir, juntando lascolumnas de las frecuencias acumuladas (abs acum y rel acum) a latabla anterior.
>> tabla=[ tabla abs_acum rel_acum ]
tabla =
0 13.0000 0.3250 13.0000 0.3250
1.0000 13.0000 0.3250 26.0000 0.6500
2.0000 8.0000 0.2000 34.0000 0.8500
3.0000 5.0000 0.1250 39.0000 0.9750
4.0000 1.0000 0.0250 40.0000 1.0000
12 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıas
¿Cuantas centrales tienen menos de 2 averıas ?
No Averias Frec Abs Frec Rel Frec Abs Acum Frec Rel Acum
0 13 0.325 13 0.325
1 13 0.325 26 0.6502 8 0.200 34 0.8503 5 0.125 39 0.9754 1 0.025 40 1
13 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: averıas
¿Que porcentaje de centrales tiene 3 o menos averıas?
No Averias Frec Abs Frec Rel Frec Abs Acum Frec Rel Acum
0 13 0.325 13 0.325
1 13 0.325 26 0.650
2 8 0.200 34 0.850
3 5 0.125 39 0.9754 1 0.025 40 1
14 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Resumen
1 Introduccion entorno MATLAB/Octave
2 Descripcion de un conjunto de datos
3 Representacion grafica
4 Medidas de posicion
5 Medidas de dispersion
6 Descripcion conjunta de dos variables
15 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Representacion graficaVariables cuantitativas
Algunos graficos son diferentes en funcion de que las variablessean discretas o continuas.
Se utilizan con frec. absolutas o relativas y acumuladas.
Diagrama de barrasGrafico de tarta, de sectores o pictogramaHistograma
16 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Representacion graficaVariables cuantitativas
Ejemplo: averıas en centrales electricas
Diagrama de barras:
En MATLAB utilizamos el comando bar
>> bar(tabla(:,2))
obtenemos el diagr. de barras defrec. absolutas
1 2 3 4 50
2
4
6
8
10
12
14
17 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Representacion graficaVariables cuantitativas
Ejemplo: averıas en centrales electricas
Diagrama de tarta, sectores o pictograma:
En MATLAB utilizamos el comando pie
>> pie(tabla(:,2))
33%
33%
20%
13%
3%
18 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Representacion graficaVariables cuantitativas
Ejemplo: alturas de alumnos
Histograma:
La variable alturas, recoge los datos sobre la altura de 28 alumnosen una clase.
alturas = [ 156; 159; 153; 157; 162; 156; 162;
153; 158; 152; 153; 159; 154; 153;
150; 162; 163; 160; 162; 156; 164;
168; 152; 151; 159; 147; 165; 149 ]
Comando hist
>> hist(alturas)
145 150 155 160 165 1700
1
2
3
4
5
6
19 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Podemos seleccionar el numero de clases o intervalos que deseemos
>> hist(alturas, 5) % 5 clases o intervalos
145 150 155 160 165 1700
1
2
3
4
5
6
7
8
20 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Supongamos que en la clase se incorpora un nuevo alumno que mide2.10 metros
Creamos una nueva variable alturas2
>> alturas2 = [alturas; 210];
>> hist(alturas2)
140 150 160 170 180 190 200 2100
1
2
3
4
5
6
7
8
9
10
El nuevo alumno es un dato atıpico21 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Diagrama para frec. acum.
Ejemplo: averıas centrales electricas
Nos centramos en las frecuencias absolutas y absolutas acumuladasDe la variable tabla representamos las columnas 2 y 4
>> bar([tabla(:,2) tabla(:,4)])
1 2 3 4 50
5
10
15
20
25
30
35
40
Frec. Abs
Frec. Abs Acum.
22 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Resumen
1 Introduccion entorno MATLAB/Octave
2 Descripcion de un conjunto de datos
3 Representacion grafica
4 Medidas de posicion
5 Medidas de dispersion
6 Descripcion conjunta de dos variables
23 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Medidas de posicionmedia, mediana
Ejemplo: alturas de alumnos
Volviendo al ejemplo anterior alturas
La media x , comando mean:
>> mean(alturas)
ans =
156.7931
La mediana xmed , comando median:
>> median(alturas)
ans =
157
24 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Resumen
1 Introduccion entorno MATLAB/Octave
2 Descripcion de un conjunto de datos
3 Representacion grafica
4 Medidas de posicion
5 Medidas de dispersion
6 Descripcion conjunta de dos variables
25 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Medidas de dispersionvarianza, desviacion tıpica y rango
Miden la “dispersion” de las observaciones dentro del conjunto dedatos respecto de alguna medida de posicion.
Varianza:
VARx = S2x =
1
n
n∑i
(xi − x)2
Desviacion tıpica:
DTx = Sx =√S2x
Rango o amplitud:
Rangox = max(xi )− mın(xi )
26 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
En MATLAB
Comando var
>> var(x)
Comando std
>> std(x)
Comando range
>> range(x)
O tambien con los comandos max y min, es decir:max(x)-min(x).
27 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Resumen
1 Introduccion entorno MATLAB/Octave
2 Descripcion de un conjunto de datos
3 Representacion grafica
4 Medidas de posicion
5 Medidas de dispersion
6 Descripcion conjunta de dos variables
28 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: longitud/pesoSe ha medido la longitud (X en mm) y el peso (Y en gr) de unamuestra de 117 tornillos producidos por una maquina, la informacionse representa en la siguiente tabla:
nij
X / Y 40-60 60-80 80-100 100-200
140-160 4 0 0 0160-180 14 60 2 0180-200 0 20 16 1
>> tornillos = [ 4 0 0 0
14 60 2 0
0 20 16 1 ]
29 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: longitud/pesoSe ha medido la longitud (X en mm) y el peso (Y en gr) de unamuestra de 117 tornillos producidos por una maquina, la informacionse representa en la siguiente tabla:
nij
X / Y 40-60 60-80 80-100 100-200
140-160 4 0 0 0160-180 14 60 2 0180-200 0 20 16 1
>> tornillos = [ 4 0 0 0
14 60 2 0
0 20 16 1 ]
30 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Podemos calcular la tabla de frecuencias relativas, simplemente
fij =nijn
>> frec_relat = tornillos/117
X / Y 40-60 60-80 80-100 100-200
140-160 0.0342 0 0 0160-180 0.1197 0.5128 0.0171 0180-200 0 0.1709 0.1368 0.0085
31 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Podemos calcular las distribuciones marginales sumando porcolumnas y por filas:
Por columnas (1) y por filas (2):
>> sum(tornillos,1) >> sum(tornillos,2)
ans = ans =
18 80 18 1 4
76
37
X / Y 40-60 60-80 80-100 100-200 Total
140-160 4 0 0 0 4160-180 14 60 2 0 76180-200 0 20 16 1 37
Total 18 80 18 1 117
32 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: internet
En una encuesta realizada por dos empresas de servicios de internetsobre 95 hogares con conexion a internet, se han analizado lassiguientes variables:
MB: MB’s descargados al dıa.
Tiempo de Conexion: tiempo medio de conexion diario enhoras.
ISP: Internet Service Provider (proveedores 1 y 2).
Momento: momento principal de conexion (Manana=1,Tarde=2, Noche=3).
Los datos se encuentran en el fichero internet.mat
33 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: internet
Tabla de datos (incompleta):
MB Tiempo conexion ISP Momento
163 1,1 1 1170 3,5 1 1169 3 1 3173 2 1 2160 1,1 1 1
......
......
183 8,1 2 1175 5,6 2 3173 3 2 1
34 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: Internet
Para importar el fichero en MATLAB:
File → Open o tambien File → Import data
Una vez importados los datos, en el workspace tenemos creadala matriz internet
Para nombrar las variables:
>> MB = internet(:,1);
>> tiempo_conexion = internet(:,2);
>> ISP = internet(:,3);
>> momento = internet(:,4);
35 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: Internet
Con el comando crosstab, podemos trabajar con tablas dedoble entrada. Por ejemplo, para las variables cualitativasmomento e ISP, podemos crear la matriz de tamano 3× 2, en laque las filas representan las tres categorıas de la variablemomento (1= manana, 2 = tarde y 3 = noche) y las columnaslos dos tipos de proveedores ISP
>> crosstab(momento,ISP)
ans =
3 10
11 25
18 28
ISPMOMENTO 1 2
manana 3 10tarde 11 25noche 18 28
36 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: InternetHistograma por grupos
El fichero histg.m permite representar graficamente unhistograma por grupos.
Guardaremos el fichero en el directorio C:/practica1/
>> histg(MB,ISP)
155 160 165 170 175 180 185 190 195 2000
0.05
0.1
0.15
0.2
0.25
0.3
ISP 1ISP 2
37 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: InternetAnalisis por grupos
El comando grpstats permite calcular estadısticas por grupos.
grpstats(X,GROUP) calcula la media de los grupos.
[MEANS,SEM,COUNTS,GNAME] = grpstats(X,GROUP), calculalas medias (MEANS), los errores estandar de las medias (SEM), elnumero de elementos en cada grupo (COUNTS), y el nombre decada grupo (GNAME).
38 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: InternetAnalisis por grupos
>> [MEANS,SEM,COUNTS,GNAME] = grpstats(MB,ISP)
MEANS =
165.3125
179.3492
SEM =
0.7834
0.6345
COUNTS =
32
63
GNAME =
’1’
’2’
39 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: InternetAnalisis por grupos
Las desviaciones tıpicas o estandar para cada grupo (Sg ) sepueden obtener a partir de SEM y COUNTS, mediante la relacion:
SEMg =Sg√
COUNTSg
En versiones recientes de MATLAB (R2011a, R2013b, ...), elcomando grpstats ha sido actualizado de tal manera quepodemos obtener directamente la desviacion estandar por cadagrupo.
40 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: InternetAnalisis por grupos
>> [MEANS,STDS,COUNTS,GNAME] =
grpstats(MB,ISP,{’mean’,’std’,’numel’,’gname’})
MEANS =
165.3125
179.3492
STDS =
4.4318
5.0359
COUNTS =
32
63
GNAME =
’1’
’2’
41 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: Internetgrafico de dispersion
Con la funcion plot, podemos representar un grafico dedispersion de dos variables cuantitativas. Por ejemplo, para lasvariables MB y tiempo conexion:
>> plot(MB,tiempo_conexion,’.’)
155 160 165 170 175 180 185 190 1950
2
4
6
8
10
12
¿Existe una relacion lineal entre MB y tiempo conexion? ¿existedependencia lineal?
42 / 43
Practica 1
Intro MATLAB
Descrip. datos
Rep. Grafica
Medidas deposicion
Medidas dedispersion
Descrip. 2variables
Ejemplo: Internetcovarianza y correlacion
El comando cov, calcula la matriz de covarianzas
>> cov(MB,tiempo_conexion)
ans =
67.6847 13.8172
13.8172 4.7746COV (X ,Y ) =
(S2x Sx,y
Sx,y S2y
)
El comando corrcoef, calcula el coeficiente de correlacion.
>> corrcoef(MB,tiempo_conexion)
ans =
1.0000 0.7686
0.7686 1.0000 CORR(X ,Y ) =
(rx,x rx,yrx,y ry ,y
)donde rx,y =
Sx,ySxSy
.
43 / 43