Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
Informática. Universidad Carlos III de Madrid 1
1. ESTADÍSTICA DESCRIPTIVA
Informática. Universidad Carlos III de Madrid 2
Tema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 3
1. Introducción. El propósito de la estadística
¿Qué es la estadística?¿Por qué estudiamos estadística?
aprender de la observación
A partir de un número reducido de datos, sacar conclusiones que sean generales
Fenómeno real
Datos observados
Análisis estadístico
Aprendizaje sobre el fenómeno
Informática. Universidad Carlos III de Madrid 4
Dos formas alternativas de acceder al conocimiento del mundo
• Leyes físicas
• Reglas matemáticas• Propiedades de los materiales
ideales
A partir de teorías
A partir de los modelos teóricos DEDUCIMOS la realidad
DEDUCIR= Sacar consecuencias de un principio, proposición o supuesto.
• Datos
• Estadística
A partir de la observación
A partir de los datos INDUCIMOS o INFERIMOS un modelo (empírico)
INDUCIR= Extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas está implícito.
Informática. Universidad Carlos III de Madrid 5
En la realidad... una combinación de INDUCCIÓN y DEDUCCIÓN
Modelo que explica la realidad
Realidad
Error del modelo= diferencia entre lo observado y lo que prevé el modelo
DEDUCCIÓNDEDUCCIÓN
Con el modelo se predice la realidad
Análisis del error. Reformulación del modelo
INDUCCIÓNINDUCCIÓN
Informática. Universidad Carlos III de Madrid 6
1. Después de lanzar varias veces un dado, un jugador piensa que el dado está trucado.
2. En el piso de enfrente no debe vivir nadie, pues nunca he visto las luces encendidas.
3. Como este procesador es más rápido, tardará menos en ejecutar elprograma.
4. La energía cinética de un cuerpo de masa 10 Kg y velocidad 5 m/s es de E=1/2mv²=25 (julios).
Indica cuáles de los siguientes razonamientos son inductivos y cuáles deductivos
CuestionesCuestiones
Informática. Universidad Carlos III de Madrid 7
Tema 1: Estadística descriptivaTema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 8
2. 2. Tipos de datosTipos de datos
Individuos: Elementos sobre los que se toma información. Pueden ser personas, o simplemente objetos.
Variable: Característica de interés de un individuo. Una variable puede tomar valores diferentes en cada individuo. En caso contrario noserá una variable, sino una constante.
EjemplosEjemplos
Variables
• resistencia a la rotura
Individuos
• diferentes piezas
• calificación de una asignatura
• alumnos
• tiempo de acceso a una red
• ordenadores que intentan conectarse
Informática. Universidad Carlos III de Madrid 9
2. 2. Tipos de datosTipos de datos
Valor observado de una variable al medir a un individuo.
Realización
varios criterios de clasificación de los datos (de interés en estadística)
de una variable.
1. POR SU NATURALEZA
• Cuantitativos
•Continuos: longitudes, pesos, tiempos...•Discretos: número de veces que sucede algo, ...
• Cualitativos: color, tipo de tecnología, ...
Dato=
Informática. Universidad Carlos III de Madrid 10
2. POR SU REPRESENTATIVIDAD
• Población: conjunto de todos los datos posibles• Muestra: sólo un subconjunto de la población
Ejemplo: Aula con 50 alumnos. Variable: estatura
Población las 50 estaturas
Muestra las estaturas de algunos alumnos
2.2. Tipos de datosTipos de datos
Ejemplo: Dado. Variable: resultado de su lanzamiento
¿Población? ?
Informática. Universidad Carlos III de Madrid 11
Necesitamos definir mejor qué es población
POBLACIÓN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles
Si obtenemos un nuevo dato manteniendo constantes las condiciones de experimentación estamos REPITIENDO el experimento
medir otras piezas similares, cronometrar repeticiones de la misma tarea, ver si varias conexiones similares se bloquean..
EXPERIMENTO: Cualquier procedimiento de obtención de un dato, dadas unas condiciones de experimentación
medir la longitud de un tipo de pieza, cronometrar el tiempo de una tarea, ver si ciertas conexiones se realizan o se bloquean...
Informática. Universidad Carlos III de Madrid 12
POBLACIÓN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles
Ejemplo: Aula con 50 alumnos. Variable: estaturaCondiciones de experimentación: alumnos del aula seleccionados sin reposición
Población las 50 estaturas
Muestra las estaturas de algunos alumnos
Si analizamos a los individuos sin reposición, la población son el conjunto de valores de la variable en todos los individuos.
Hay poblaciones infinitas que sólo existen conceptualmente
Dado. Variable: resultado de su lanzamientoCondiciones de experimentación: siempre el mismo dado
Ejemplo:
Población infinitos valores discretos repetidos 1,2,...,6
Programa informático. Variable: tiempo de ejecuciónCondiciones de experimentación: mismo programa, mismo ordenador
Ejemplo:
Población infinitos valores continuos, tal vez todos distintos
Depende del experimento que nos intereseDepende del experimento que nos interese
Informática. Universidad Carlos III de Madrid 13
El objetivo de la estadística es entender cómo es la población a partir de una muestra
Población de características desconocidas
finita o infinita
Análisis estadístico
Conclusiones sobre la
POBLACIÓN
muestra
Repetimos un experimento, y obtenemos así un conjunto de datos
Informática. Universidad Carlos III de Madrid 14
¿Cómo aprendemos de la realidad usando la estadística?
1- Seleccionamos la/s variable/s de interés
2- Definimos el experimento que nos interesa ejecutar para conseguir datos de la población de dicha variable
3- Repetimos el experimento un número de veces para obtener una muestra de datos
4- Analizamos la muestra de datos
5- Las conclusiones se extienden, con un determinado grado de precisión, al resto de la población. Es decir, al resto de los hipotéticos valores que se obtendrían repitiendo el experimento todas las veces posibles.
Informática. Universidad Carlos III de Madrid 15
2. 2. Tipos de datosTipos de datos
3. POR SU PROCEDIMIENTO DE OBTENCIÓN
• Datos observacionales
• Datos experimentales
• su valor se recoge de forma pasiva• no se ejerce control sobre la variable• Ejemplo: estatura de los alumnos
• su valor lo determina el analista• configuran las condiciones de experimentación
• Ejemplo: elegimos el aula cuyos alumnos queremos medir
Informática. Universidad Carlos III de Madrid 16
2. 2. Tipos de datosTipos de datos
• Datos observacionales
• Datos experimentales
En un experimento, intervienen ambos tipos de datos
• Variable de interés (variable respuesta): siempre datos observacionales
• Otras variables que puedan afectar a la variable de interés (factores): unas proporcionarán datos experimentales (condiciones de experimentación) y otras datos observacionales
3. POR SU PROCEDIMIENTO DE OBTENCIÓN
Informática. Universidad Carlos III de Madrid 17
Observación Aula Estatura Sexo Nº de hermanos
1 1 175 v 0
2 1 163 m 1
3 1 181 v 0
4 2 166 m 2
5 2 170 v 1
6 2 169 v 1
Ejemplo:
Se eligen al azar 3 alumnos del aula 1 y otros 3 del aula 2, y se toman algunos datos de ellos: estatura, sexo, y número de hermanos.
• ¿Cuántos experimentos se han hecho?¿Cuántas repeticiones de cada uno?
• Clasifica los datos según su naturaleza (cualitativa, cuantitativa...)
• Clasifica los datos según su representatividad (población, muestra)
• Clasifica los datos según su procedimiento de obtención (experimental, observacional)
Informática. Universidad Carlos III de Madrid 18
ExperimentoVariable de interésdato observacional
X1 X2 X3 Xk
...Factores controladosFactores controladosgeneran datos experimentales
Factores no controladosFactores no controladossu valor lo determina el entorno : azar
generan datos observacionales
Z1 Z2 Z3 Zp...
2. 2. Tipos de datosTipos de datos
Al observar cómo cambia la variable respuesta al manipular los factores,
puedo establecer relaciones CAUSA-EFECTO
Informática. Universidad Carlos III de Madrid 19
Ejemplo: Un analista quiere saber la influencia de la temperatura de una CPU en su velocidad. Para ello ejecuta una serie de programas y contabiliza su tiempo de ejecución. Repite dicha tarea 30 veces,10 en cada una de las temperaturas T₁, T₂, y T₃.
Experimento Temperatura Tiempo
1 T1 342 T1 13: : :
11 T2 4512 T2 36: : :
30 T3 26
tiempo
TT1 T2 T3
datos experimentales
dat
os
obse
rvac
ional
es
Informática. Universidad Carlos III de Madrid 20
Tema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 21
3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas
Objetivo: resumir la información para facilitar su análisis
Tablas Tablas univariantesunivariantes
Ejemplo 1: número de cilindros de 155 vehículos (fichero cardata.sf)
Muestran la frecuencia de cada valor observado
Informática. Universidad Carlos III de Madrid 22
3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas
Tablas Tablas univariantesunivariantes
Ejemplo 2: mes de nacimiento de 95 estudiantes de primer curso
Informática. Universidad Carlos III de Madrid 23
3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas
Tablas Tablas univariantesunivariantes
Si hay muchos valores distintos: se agrupan en intervalos –clases-
Ejemplo: precio de 155 vehículos (fichero cardata.sf)
Número de clases? n
Informática. Universidad Carlos III de Madrid 24
3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Informática. Universidad Carlos III de Madrid 25
3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Cada celda: frecuencias conjuntas
Informática. Universidad Carlos III de Madrid 26
3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Las univariantes: frecuencias marginales
Informática. Universidad Carlos III de Madrid 27
3.3. Descripción de datos mediante tablasDescripción de datos mediante tablas
Tablas Tablas bivariantesbivariantes
Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada
Ejemplo: para cada coche tenemos el número de cilindros y su año de fabricación (cardata.sf)
Cada fila o columna: frecuencia condicionada (al valor de la fila o columna)
Informática. Universidad Carlos III de Madrid 28
1. ¿Las frecuencias absolutas se expresan en porcentajes?
2. ¿La suma de las frecuencias absolutas es el tamaño de la muestra?
3. En una tabla de doble entrada, la suma de las frecuencias marginales relativas de ambas variables es....
4. La suma de las frecuencias marginales absolutas de una de las variables es...
5. Las frecuencias condicionadas son las que se obtienen sumando las frecuencias por filas o por columnas
CuestionesCuestiones
Informática. Universidad Carlos III de Madrid 29
Tema 1: Estadística descriptivaTema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 30
4.4. Descripción de datos mediante gráficosDescripción de datos mediante gráficos
4.1 Diagrama de barras
4.2 Histograma y polígono de frecuencias
4.3 Diagrama de tartas
4.4 Series temporales
4.5 Gráficos de dispersión
Informática. Universidad Carlos III de Madrid 31
4.1 Diagrama de barras4.1 Diagrama de barras
Es la representación gráfica de una tabla de frecuencias sin agrupar en intervalos
Ejemplo: número de cilindros de 155 vehículos (fichero cardata.sf)Frecuencia de cada valor observado
Informática. Universidad Carlos III de Madrid 32
4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehículos (fichero cardata.sf)
El histograma es una de las herramientas gráficas más útiles para resumir información
Informática. Universidad Carlos III de Madrid 33
4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehículos (fichero cardata.sf)
El histograma sirve para resumir la siguiente información:
• Concentraciones
• Asimetrías
• Huecos
• Atípicos
Informática. Universidad Carlos III de Madrid 34
4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Informática. Universidad Carlos III de Madrid 35
Ejemplo: Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.
Las dos concentraciones parecen deberse a los dos calibres
¿Qué calibre es mejor?
Informática. Universidad Carlos III de Madrid 36
Ejemplo: Valores de velocidad de viento (m/s) registrados en un parque eólico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos
¿hay una concentración alrededor de 2.5 m/s?
(a 2.5 m/s los aerogeneradores no producen energía)
Potencia generada por un aerogenerador en función de la velocidad del viento
Informática. Universidad Carlos III de Madrid 37
Ejemplo: Valores de velocidad de viento (m/s) registrados en un parque eólico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos
¿hay una concentración alrededor de 2.5 m/s?
(a 2.5 m/s los aerogeneradores no producen energía)
Informática. Universidad Carlos III de Madrid 38
Ejemplo: Tiempo que un ordenador tarda en escribir un fichero de 300 Mb en su disco duro. Se hacen dos experimentos; uno en el que el discoduro está desfragmentado, y otro en el que el disco duro tiene una fragmentación del 40%. Cada experimento se repite 79 veces
Informática. Universidad Carlos III de Madrid 39
4.2 Histograma y polígono de frecuencias4.2 Histograma y polígono de frecuencias
Es la representación gráfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehículos (fichero cardata.sf)
El polígono de frecuencias se consigue uniendo con líneas los puntos centrales de la parte superior del histograma.
Informática. Universidad Carlos III de Madrid 40
4.3 Diagrama de tartas4.3 Diagrama de tartas
Es un círculo dividido en porciones proporcionales a las frecuencias relativasEjemplo: número de cilindros de 155 vehículos (fichero cardata.sf)
Informática. Universidad Carlos III de Madrid 41
4.4 Series temporales4.4 Series temporales
El eje X es el tiempo. Representa la evolución temporal de la variable
Informática. Universidad Carlos III de Madrid 42
4.4 Series temporales4.4 Series temporales
El eje X es el tiempo. Representa la evolución temporal de la variable
Informática. Universidad Carlos III de Madrid 43
4.5 Gráfico de dispersión4.5 Gráfico de dispersión
Para cada individuo tenemos dos datos: X e Y
Informática. Universidad Carlos III de Madrid 44
4.5 Gráfico de dispersión4.5 Gráfico de dispersión
Para cada individuo tenemos dos datos: X e YPo
tenci
a gen
erad
a por
un
molin
o d
e vi
ento
Informática. Universidad Carlos III de Madrid 45
Tema 1: Estadística descriptivaTema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 46
5.5. Medidas características de un conjunto de datosMedidas características de un conjunto de datos
Objetivo: buscamos resumir las características más importantes de los datos en un conjunto reducido de números.
Cada característica un número
5.1 5.1 Medidas de centralizaciónMedidas de centralización
¿Cuál es el centro de los datos?
Hay muchas medidas alternativas.
Las más importantes son
• Media aritmética
• Mediana
• Moda
Informática. Universidad Carlos III de Madrid 47
5.1 5.1 Medidas de centralizaciónMedidas de centralización
• Media aritmética
Sea un conjunto de observaciones x1, x2,...,xn
Si hay J valores diferentes que se repiten:
X1, se repite n1 veces
X2, se repite n2 veces
...
xJ, se repite nJ veces
Donde fr(xj) es la frecuencia relativa del valor xj
Informática. Universidad Carlos III de Madrid 48
5.1 5.1 Medidas de centralizaciónMedidas de centralización
• Media aritmética
Ejemplo: x={1,2,3,3,5,5,5,6,6}
1 2 3 3 5 5 5 6 6 49
x + + + + + + + += =
O bien:
1 1 2 3 11 2 3 5 6 49 9 9 9 9
x = × + × + × + × + × =
Informática. Universidad Carlos III de Madrid 49
5.1 5.1 Medidas de centralizaciónMedidas de centralización
• Media aritmética
Puede interpretarse como el centro de gravedad de los datos.
Por ejemplo, en un histograma, es el punto de apoyo para que esté en equilibrio
Informática. Universidad Carlos III de Madrid 50
• Media aritmética
Cuanto más asimétrica sea más se desplaza la media hacia la cola
Media
Media
Informática. Universidad Carlos III de Madrid 51
• Media aritmética
Es muy sensible a valores atípicos
Media
Media
Un solo dato puede desplazar la media hasta hacerla poco
representativa del centro de los datos
Informática. Universidad Carlos III de Madrid 52
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Con un número impar de datos: el dato en posición central
1 2 5 8 11 13 24 28 31 9 datos
Mediana=11
1 2 3 5 8 11 13 24 28 31 10 datos
Mediana=(8+11)/2=9,5
Con un número par de datos: la media de los dos centrales
Informática. Universidad Carlos III de Madrid 53
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Media=mediana
50% 50%
Media
50% 50%
Mediana
La mediana no varía, pero la media se desplaza
Informática. Universidad Carlos III de Madrid 54
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Media=mediana
50% 50%
Informática. Universidad Carlos III de Madrid 55
• Mediana
Es el valor que deja a cada lado el 50% de los datos.
Es poco sensible a asimetrías
Es insensible a valores atípicos
Mediana
50% 50%
Media
Los valores atípicos no alteran las posición de la mediana
Con valores atípicos y asimetrías fuertes, la mediana es una medida de centralización más útil que la media
Informática. Universidad Carlos III de Madrid 56
• Moda
Es el valor más frecuente
1 2 2 2 2 5 5 5 8 8 11 13
Moda=2
Con datos agrupados, es la clase más frecuente. Puede haber varias, sugiriendo la posible existencia de varios grupos
Distribución unimodal Distribución trimodal
Informática. Universidad Carlos III de Madrid 57
5.1 5.1 Medidas de centralizaciónMedidas de centralización media, mediana, moda
5.2 5.2 Medidas de dispersiónMedidas de dispersión
• Varianza (desviación típica)
• Meda
• Rango
• Cuartiles
• Diagrama de caja (box-plot)
• Varianza
Promedio de desviaciones a la media, al cuadrado
Desviación típica Coeficiente de variación
Informática. Universidad Carlos III de Madrid 58
• Varianza
Promedio de desviaciones a la media, al cuadrado
media
media
Poca dispersiónBaja varianza
Baja desviación típicaBajo CV
Mucha dispersión
Mucha varianza
Mucha desviación típica
Alto CV
Informática. Universidad Carlos III de Madrid 59
Ejemplo: Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.
¿Qué calibre es mejor?
Varianza Calibre 1: 7.25 mm²
Varianza Calibre 2: 21.47 mm²
Informática. Universidad Carlos III de Madrid 60
• MEDA
Mediana de desviaciones absolutas a la mediana
x1, x2, x3, ..., xnDatos
Mediana xm
Desviaciones absolutas a la mediana |x1- xm|, |x2- xm|, |x3- xm|, ..., |xn- xm|
Mediana de los valores anteriores MEDA
Menos sensible a atípicos y asimetrías que la varianza
¿Por qué?
Informática. Universidad Carlos III de Madrid 61
• Rango o recorrido
Valor máximo menos valor mínimo
X: 1 2 5 8 11 13 24 28 31
Rango: 31-1=30
A mayor rango mayor dispersión
Informática. Universidad Carlos III de Madrid 62
• Cuartiles Q1, Q2, Q3
Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de los datos (aproximadamente)
Entre el mínimo y Q1
Entre Q1 y Q2
Entre Q2 y Q3
Entre Q3 y el máximo
25% de los datos
25% de los datos
25% de los datos
25% de los datos
50%
50%
Q2 = medianaQ3-Q2=Rango Intercuartílico (R.I.)
min maxQ2Q1 Q3
25% 25% 25% 25%
Hay varios métodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes
Informática. Universidad Carlos III de Madrid 63
• Cuartiles Q1, Q2, Q3
Método sencillo para calcular cuartiles
x:{1,1,3,3,5,9,11,14,15}
1º: Obtenemos la mediana Q2 5
2º: Excluimos ese valor y nos quedamos con dos grupos de datos, uno a cada lado de la mediana
izda.: {1,1,3,3,}
dcha.: {9,11,14,15}
3º: Q1 es la mediana del grupo que queda a la izquierda
Q1=(1+3)/2=2
4º: Q3 es la mediana del grupo que queda a la derecha
Q3=(11+14)/2=12.5
Informática. Universidad Carlos III de Madrid 64
• Diagrama de caja (box-plot)
Es la representación gráfica de los cuartiles
min maxQ2Q1 Q3
25% 25% 25% 25%
Informática. Universidad Carlos III de Madrid 65
Los gráficos Box-plot son muy útiles para:
• Comparar grupos
• Ver asimetrías
• Detectar atípicos **
Informática. Universidad Carlos III de Madrid 66
Datos extremos (o ‘atípicos’)
Informática. Universidad Carlos III de Madrid 67
Primer paso
Para construir un Box-plot con marcas de atípicos
Informática. Universidad Carlos III de Madrid 68
Segundo paso
Informática. Universidad Carlos III de Madrid 69
Tercer paso
Los puntos que caigan en estas zonas se marcanLos puntos que caigan en estas zonas se marcan
Informática. Universidad Carlos III de Madrid 70
Tercer paso
Las líneas laterales se extienden sólo Las líneas laterales se extienden sólo hasta el último puntohasta el último puntodentro de la barrera internadentro de la barrera interna
Informática. Universidad Carlos III de Madrid 71
Ojo!! Cuando hay asimetrías, un dato extremo no debe
necesariamente catalogarse como atípico
Dato atípico: dato que se sale del patrón general de los datos
La asimetría indica que al final de la cola habrá cada
vez menos datos.
No es atípico. Es compatible con el patrón de los datos
Sí es atípico
Informática. Universidad Carlos III de Madrid 72
Es compatible con la asimetría positiva
Informática. Universidad Carlos III de Madrid 73
5.1 5.1 Medidas de centralizaciónMedidas de centralización media, mediana, moda
5.2 5.2 Medidas de dispersiónMedidas de dispersiónvarianza, desv. típica, coeficiente de variación, meda, rango, cuartiles,
box-plot
5.3 5.3 Otras medidas de formaOtras medidas de forma
• Medidas de asimetría
• Medidas de apuntamiento
• Medidas de asimetría
Coeficiente de asimetría
•CA = 0; si la distribución es perfectamente simétrica•CA > 0; si hay asimetría positiva•CA < 0: si hay asimetría negativa
Informática. Universidad Carlos III de Madrid 74
• Medidas de asimetríaCoeficiente de
asimetría
•CA = 0; si la distribución es perfectamente simétrica•CA > 0; si hay asimetría positiva•CA < 0: si hay asimetría negativa
Informática. Universidad Carlos III de Madrid 75
• Medidas de apuntamiento
Coeficiente de apuntamiento o
Curtosis
•CAp = 3; distribución con forma de campana•CAp>3; distribución más picuda que una campana•CAp<3; distribución menos picuda que una campana
CAp=3CAp<3CAp>3
Muchos programas de Estadística definen Curstosis como CAp-3
Informática. Universidad Carlos III de Madrid 76
Tema 1: Estadística descriptivaTema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 77
6.6. Transformaciones lineales y su efecto en las medidas Transformaciones lineales y su efecto en las medidas característicascaracterísticas
Sea y una transformación lineal de x
y=a+b x
dados un conjunto de datos x1, x2, x3, ..., xn
Medidas características de x
¿Medidas características de y?
Medidas de localización
Medida_loc (y)=a+b Medida_loc(x)
La transformación lineal no cambia el orden relativo ym=a+b xm
La transformación lineal no cambia la frecuencia de aparición de cada valor
Moda(y)=a+b Moda(x)
Informática. Universidad Carlos III de Madrid 78
6.6. Transformaciones lineales y su efecto en las medidas Transformaciones lineales y su efecto en las medidas característicascaracterísticas
Medidas de dispersión
La constante a no influye
y=a+b x
Informática. Universidad Carlos III de Madrid 79
Tema 1: Estadística descriptivaTema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 80
7.7. Transformaciones no lineales que mejoran la simetríaTransformaciones no lineales que mejoran la simetría
Dados un conjunto de datos x1, x2, x3, ..., xncon distribución asimétrica
Buscamos una transformación y=h(x) tal que y sea más simétrica
Asimetrías positivas (muy frecuentes)
• Transformaciones del tipo y=xc ,c<1
• y=ln(x)
• Estas transformaciones son no lineales pues comprimen mucho a los datos grandes y poco a los pequeños
x
x ln( )x
• ln(x) puede interpretarse como el límite de la transformación y=xc cuando c→0
• Cuanto mayor sea la asimetría, necesitamos un c menor
Informática. Universidad Carlos III de Madrid 81
7.7. Transformaciones no lineales que mejoran la simetríaTransformaciones no lineales que mejoran la simetría
Dados un conjunto de datos x1, x2, x3, ..., xncon distribución asimétrica
Buscamos una transformación y=h(x) tal que y sea más simétrica
Asimetrías negativas
• Transformaciones del tipo y=xc ,c>1
• Estas transformaciones son no lineales pues expanden mucho a los datos grandes y poco a los pequeños
x
Cuanto mayor sea la asimetría, necesitamos un c mayor
x1,5 x2
Informática. Universidad Carlos III de Madrid 82
Tema 1: Estadística descriptivaTema 1: Estadística descriptiva
1. Introducción. El propósito de la estadística2. Tipos de datos3. Descripción de datos mediante tablas4. Descripción de datos mediante gráficos5. Medidas características de una variable6. Transformaciones lineales y su efecto en las medidas
características7. Transformaciones no lineales que mejoran la simetría8. Relación entre dos variables. La recta de regresión
Informática. Universidad Carlos III de Madrid 83
Medidas de dependencia linealMedidas de dependencia lineal• Coeficiente de covarianza
• Coeficiente de correlación
Entre estas variables no hay relación lineal
Entre estas variables hay relación lineal
La línea roja podría ser un buen resumen de esa relación
Informática. Universidad Carlos III de Madrid 84
Para n individuos, tenemos datos de 2 variables
Individuo x y
1
2
:
n
x1 y1
x2 y2
: :
xn yn
Covarianza
Correlación
Covarianza y correlación positivas
Covarianza y correlación negativas
Informática. Universidad Carlos III de Madrid 85
• La covarianza tiene unidades (unidades_x)(unidades_y)
• La correlación es adimensional. ES MÁS FÁCIL DE INTERPRETAR• Se puede demostrar que -1≤r≤1
r=1 r=0.06
r=-0.94 r=-0.83 r=-0.08
r=0.8
Informática. Universidad Carlos III de Madrid 86
La recta de regresiónLa recta de regresión
X
y
( , )i ix y
¿Cómo obtener la ecuación de esa recta
‘resumen’?
Informática. Universidad Carlos III de Madrid 87
La recta de regresiónLa recta de regresión
X
yEcuación de la recta:
Y=a+bX
Si tiene que pasar por dos puntos: solución única
Informática. Universidad Carlos III de Madrid 88
La recta de regresiónLa recta de regresión
X
y
( , )i ix y
Es imposible que una recta pase por todos
los puntos
¿Cómo elegir la que más nos interesa?
Informática. Universidad Carlos III de Madrid 89
La recta de regresiónLa recta de regresión
X
y
( , )i ix y
Buscamos una recta muy concreta llamada
RECTA DE REGRESIÓN
(de regresión simple)
Es la recta que, dado el valor de X me da la
mejor predicción de Y
Informática. Universidad Carlos III de Madrid 90
X
y
( , )i ix y
a bx+
iy
ix
ˆiyValor observado
Valor previstopor la recta
valor observado
La recta de regresiónLa recta de regresión Es la recta que, dado el valor de X me da la mejor predicción de Y
Error de predicción: ˆi i ie y y= −
ei
Informática. Universidad Carlos III de Madrid 91
X
y
( , )i ix y
a bx+
iy
ix
ˆiy
valor observado
La recta de regresiónLa recta de regresión
ei
Buscamos la recta que minimiza los errores de predicción:
2
1min
N
ii
e=∑
(recta de mínimos cuadrados)
Informática. Universidad Carlos III de Madrid 92
La recta de regresiónLa recta de regresión
X
y
( , )i ix y
a bx+
x
y
2
cov( , )
x
x ybs
=
a y bx= −
SOLUCIÓN
Informática. Universidad Carlos III de Madrid 93
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas
En la localización 1 se va a establecer un sistema informático para la telemedida de la velocidad del viento, pero no para la localización 2. Se quiere calcular la recta de regresión que permita predecir la velocidad de la Localización 2 sabiendo la de la Localización 1
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
Informática. Universidad Carlos III de Madrid 94
Loc.1:
media: 2.51
varianza: 1.91
Loc.2:
media: 3.28
varianza: 2.36
cov (V1,V2)=1.995
3.28 1.045 2.51 0.657a y bx= − = − × =b=cov(x,y)/var(x)=1.995/1.91=1.045
2 1ˆ 0.657 1.045V V= + ×
Si, por ejemplo, en la Localización 1 se mide una velocidad de viento de 5 m/s, la predicción en la Localización 2 es de un viento de
0.657+1.045x5=5.88 m/s
Ejemplo La variable V1 tiene la velocidad del viento registrada en la localización 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localización 2. Se tiene un total de 115 pares de medidas