Clase 01 Liempieza de Datos e Importaci n

Embed Size (px)

Citation preview

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    1/19

    Excel Free Blog: Es una Canal de YouTube y Blog dedicado a impartir conocimiento de Excel para

    aumentar la competitividad en cualquier persona que desee diferenciarse en el mundo empresarial

    xcel

    Mini-Curso: Analizando Datos

    con Microsoft Excel 2013

    Edición 

    2015Clase 01: Limpieza de Datos e Importación 

    www.excelfree.weebl .com

    Miguel CaballeroAutor del Canal: Excel Free Blog

    Fabian Torres

    Co-Autor del Libro: Tablas

    Dinámicas, La Quinta Dimensión 

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    2/19

     1 

     Esta Página fue dejada en blanco intencionalmente

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    3/19

    2

      Clase 01 •  Limpieza de Datos e Importación 

    1.1  Importación de datos 

    Antes de poder limpiar los datos para posteriormente hacer un

    análisis, es necesario generarlos. La recolección de datos hoy por

    hoy se hace de una cantidad inimaginable de maneras y es

    mérito para un curso completo sobre ello, no obstante, lo que

    es importante, lo que está en el corazón del tema, es como

    obtener datos que se encuentren codificados en distintosformatos a una hoja de cálculo de Excel.

    La Importación de datos es el proceso de extraer datos desde

    alguna instancia u origen que los contenga, los cuales fueron

    creados con otro programa, o que pertenece a versiones

    antiguas, o que fueron generados por la misma versión en un

    momento previo y no están disponible en el documento actual. 

    1.2  Formatos en Excel

    Microsoft Excel Puede abrir una gran variedad de formatos de

    manera directa, los cuales se agrupan de manera simplificada en

    las siguientes categorías:

      Formatos de Hojas de Cálculo

     

    Formatos de Gestores de Bases de Datos

      Formatos de Archivos de Texto

     

    Archivos HTML

     

    Archivos XML

    Formato

    La manera en la cual se

    codifica un archivo para

    que el sistema operativoo S.O lo pueda leer, se

    denomina formato.

    Figura 1. 1  Tal vez no hayas

    escuchado hablar mucho de

    formatos, pero estamos

    familiarizados con ellos a

    veces sin darnos cuenta, tal es

    el caso del formato PDF.

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    4/19

    Clase 01 •  Limpieza de Datos e Importación  3 

    La tabla presentada a continuación describe brevemente cada

    formato agrupado en su categoría.

    Formato Detalle

    HojasdeCálculo

    XLSX Hojas de Cálculos de Excel 2007 yPosteriores.

    XLSM Hojas de Cálculos de Excel 2007 y Posteriores

    Habilitada para macros.

    XLSB Hojas Binarias de Excel 2007 y PosterioresHabilitada para Macros.

    XLTXPlantillas de Excel 2007 y Posteriores.

    XLAM Archivo de Excel 2007 y posteriores paracomplementos.

    XLS Hojas de Cálculos Excel 2003, 2002, 2000, 97,98 y 4.

    XLM Libro para macros en Excel 2003, 2002, 2000,97, 98 y 4 (No incluye datos).

    XLT Archivo de Plantilla en Excel 2003, 2002, 2000,97, 98 y 4.

    XLA Archivo de Excel 2003 y anteriores paracomplementos.

    DB

    MDBBase de datos Access 2003 y anteriores.

    ACCDBBase de datos Access 2007 y posteriores.

    Tabla 1.1Extensión

    Cada formato se identifica

    por una serie de letras y/o

    números que

    generalmente son 3

    caracteres precedidos deun punto después del

    nombre.

    La función de las

    extensiones es poder

    distinguir de qué manera

    esta codificado del

    archivo, lo cual esfundamental para que el

    sistema operativo

    disponga del

    procedimiento necesario

    para poder leerlo,

    interpretarlo y ejecutarlo.

    ontinúa…

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    5/19

    4

      Clase 01 •  Limpieza de Datos e Importación 

    La forma más adecuada de importar es bastante sencilla:

    Pestaña: [Datos]  Grupo: [Obtener  Datos Externos]

    Allí va poder apreciar las categorías de formatos mencionadas

    anteriormente, así como otras fuentes externas. En la figura 1.2 

    puede ver esto.

    Formato Detalle

    ArchivosdeTexto

    CSVLas columnas se separan con

    Coma y las filas con un retorno de carro.

    TXTValores separados por TAB: las columnas se separan

    con TAB y las filas con un retorno de carro.

    PRNLas columnas se separan con varios espacios y las filas

    con retorno de carro.

    DIFVisiCalc: Primera hoja de cálculo para computadoras

    personales. (Raramente utilizado)

    SYLKMultiPlan: Primera hoja de cálculo distribuida por

    Microsoft. (Raramente Utilizado)

    Web

      HTML

    Excel puede abrir HTML localizado en nuestro PC o

    en la WEB.

    XML Excel Puede abrir datos almacenados en XML.

    Obtener Datos Externos

     

    [1.1]

    Continuación

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    6/19

    Clase 01 •  Limpieza de Datos e Importación  5 

    Ejemplo Base de Datos

    Solución

    Obtener Datos desde Tabla de Access 

    E

    Importar datos es bastante sencillo, pero consideremos los dos

    casos presentados enseguida.

    Figura 1. 2 Grupo Obtener datos para importar orígenes de datos externos 

    Considere que tiene que importar la tabla de datos en la base de datos Access

    AdventureWorks llamada Production_ProductInventory.

    (A) Vamos a obtener datos externos [1.1] y pulsamos clic en el comando

    desde Access.

    (B)

     Ubicamos la base de datos AdventureWorks.accdb en nuestro

    computador y pulsamos clic en abrir.

    (C) En el cuadro de diálogo emergente navegamos mediante el Scroll y

    ubicamos la tabla solicitada: Production_ProductInventory, Clic enAceptar.

    Figura 1. 3 Seleccionar la tabla en la base de datos

    ontinúa…

    Aquí aparecen

    todas las tablas en

    la base de datos

    AdventureWorks

     Scroll hasta

    ubicar la tabla 

    Seleccionar la Tabla 

     Clic en el

    botón Aceptar 

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    7/19

    6

      Clase 01 •  Limpieza de Datos e Importación 

    (D) El cuadro de diálogo que aparece a continuación nos brinda la opción

    de ubicar la tabla en un rango en específico, por ejemplo $D$1.

    (E)

     

    Clic en el botón Aceptar.

    (F)

     

    Ahora la tabla es exportada

    Figura 1. 4 Exportar una tabla a un rango específico 

    Continuación

    Figura 1. 5 Tabla Production_ProductInventory Importada en Excel

    Asegúrese de que

    la opción tabla este

    seleccionada

    Especifique la

    celda desde

    donde desea que

    aparezca la tabla

    Si los datos están preparados

    puede crear directamente una tabla

    o gráfico dinámico.

    Si estás listo para

    utilizar el corazón

    de PowerPivot,

    esta es la opción

    Si el origen cambia,

    podemos actualizar

    esta tabla para que

    detecte los cambios

    utilizando el

    comando actualizar

    todo, que se

    encuentra en la

    pestaña DATOS o

    simplemente

    pulsando clic

    derecho encima de la

    tabla y actualizar

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    8/19

    Clase 01 •  Limpieza de Datos e Importación  7 

    Ejemplo Archivo de Texto

    Solución

    Obtener Datos desde un CSV 

    E

    Considere que tiene que importar los datos Abalone Data que se encuentran en

    formato CSV

    (A)

     

    Vamos a obtener datos externos y pulsamos clic en el comando: DesdeTexto.

    (B) Ubicamos el archivo CSV, para este caso Abalone.CSV y clic en

    importar.

    (C) En el cuadro de diálogo que aparece pulsamos clic en siguiente

    asegurando de dejar la opción Delimitados activada. En el paso

    siguiente deseleccionamos tabulación y seleccionamos Coma.

    (D)  Clic en siguiente y Finalizar.

    (E)

     

    Clic en Aceptar.

    Figura 1. 6 Delimitado por comas

    Ratifique que

    únicamente la

    casilla Coma este

    seleccionada

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    9/19

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    10/19

    Clase 01 •  Limpieza de Datos e Importación  9 

    Formato de Datos Tabular

    El formato tabular es la manera de representar los datos en filas

    y columnas; donde cada columna, denominada campo, tiene una

    etiqueta que la define claramente. Cada fila, llamada registro,

    representa un objeto en su totalidad. El formato tabular no tiene

    etiquetas que agrupen filas, figura 1.7, ni filas vacías que

    segmenten la tabla, ni tampoco cálculos predefinidos como

    totales y subtotales.

    Si bien la tabla puede contener datos vacíos, es recomendable que

    se eviten, principalmente para no tener que manipular las funciones de

    resume SUMA  Y CUENTA  en la creación de un reporte de tabla

    dinámica. Filas figura 1.8 muestra el formato tabular. 

    Propiedades del formato tabular

      Organización: Organización filas y columnas Claras.

      Etiquetación: Etiquetas claras y bien definidas solo para columnas.

      Entereza: Ausencia de filas vacías y columnas vacías.

      Ausentismo: Ausencia total de cálculos prefinidos, sin totales ni

    subtotales.

     

    Categorización: Cada elemento de un campo de texto debe regirsepor subcategorías estándar, por ejemplo: Bogota y Bogotá son

    diferentes por el acento en la letra a. Debido a esto siempre se

    debe definir un estándar para que los elementos queden

    uniformes.

      No celdas vacías (Opcionales): Preferiblemente ninguna celda vacía

    y definir estándares para aquellas que lo tienen. Esto es

    especialmente útil para la creación de reportes de tabla dinámica.

    Figura 1. 7 Formato no Tabular 

    Nombre Qj-Promedio

    Sandra 0.6375988

    Andrés 0.6759436

    Dayana 0.5682193

    Camilo 0.517822

    Sonia 0.4521236

    Alejandro 0.7808237Angélica 0.9155153

    Carlos 0.3051751

    Gina 0.1453039

    Jorge 0.2177068

    Natalia 0.9410365

    David 0.298831

    Tatiana 0.0053683

    Victor 0.1470424

    Valeria 0.1446448

    Alvaro 0.2910655

    Contabilidad

    Servicioa

    l

    Cliente

    Procesos

    Por cada departamento, los

    datos se segmentan

    mediante una fila en blanco

    Validación de Datos

    Utilice validación de datos

    cuando se recolectan los

    datos, de esta manera

    garantizar uniformidad.

    Figura 1. 8 Formato Tabular

    Nombre Qj-Promedio

    Sandra 0.6375988

    Andrés 0.6759436

    Dayana 0.5682193

    Camilo 0.517822

    David 0.298831

    Tatiana 0.0053683

    Victor 0.1470424

    Valeria 0.1446448

    Alvaro 0.2910655

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    11/19

    10

      Clase 01 •  Limpieza de Datos e Importación 

    Tip Rápido: Para cambiar un conjunto de celdas vacías por

    algún carácter o palabras estándar escogida a)  seleccione lacolumna donde va a reemplazar b) pulse la combinación Ctrl +

    I y clic en especial en el cuadro de diálogo que aparece c) Active

    la opción Celdas en blanco en el cuadro de diálogo Ir as especial,

     y aceptar d) pulse la tecla F2 e) digite el carácter o palabra y f)

     pulse la combinación de teclas Ctrl + Enter. 

    Formato de Columnas Consistente 

    Cuando importamos datos numéricos a veces el separador

    decimal y el separador de miles no coinciden, es decir, están

    invertidos. Por ejemplo nuestro Excel puede que este

    configurado para que lea los números de la siguiente manera:

    147,456.99 mientras que en el origen de datos puede venirconfigurado de la siguiente forma: 147.456,99. Cuando esto

    sucede Excel lo interpreta como texto. La solución a este

    problema es bastante sencilla porque en el último paso de

    importación podemos hacer clic en el botón Avanzadas y allí

    especificar cuál es el separador decimal y el separador de miles.

    Figura 1.9. 

    Figura 1. 9

     Especificar separadores

    Formato Igual

    También cerciórese que

    el formato aplicado a

    uno y cada uno de los

    datos en una columna

    en particular sean

    exactamente iguales.

     Clic en el Botón

    Avanzadas

     Especifique los

    se aradores.

     Aceptar y

    Finalizar.

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    12/19

    Clase 01 •  Limpieza de Datos e Importación  11 

    Solución

    Ejemplo Duplicados Eliminar registros duplicados 

    E

    Eliminar Registros Duplicados

    Si los datos son extraídos de múltiples fuente es probable que

    existan filas duplicadas, las cuales no son deseadas para un

    análisis porque inflan los resultados obteniendo conclusiones no

    muy confiables, por lo anterior en la mayoría de la situaciones se

    debe eliminar las filas duplicadas.

    Veamos cómo hacer este sencillo procedimiento con un ejemplo

    Imagine que tiene que eliminar las filas duplicadas en la tabla BeersScore en el

    Archivo de Excel Beers. La figura 1.10 la muestra parcialmente 

    (A) Ubique la celda activa dentro de la tabla.

    (B) Pestaña: [Datos] Grupo: [Herramientas de Datos] Comando: [Quitar

    duplicados]

    (C)

     

    Clic en Aceptar.

    (D) Opcional . Si solamente desea que la eliminación se lleve a cabo con

    solo la coincidencia de algunas columnas, entonces, en el cuadro de

    diálogo remover duplicados, que parece en el paso previo,

    deselecciona las que columnas que no aplican.

    Los valores duplicados son determinados por como se muestran y no

    necesariamente como son almacenados, por ejemplo, los valores $20.53 y

    20.53 no son considerados iguales.

    Figura 1. 10  Tabla BeersScore

    mostrada parcialmente. Esta tablacontiene filas duplicadas como es

    el caso de la cerveza Guinness

    ID Score Beer Price

    6347 92 Guinness $20.35

    5092 85 Samuel Adams Boston $5.73

    7646 80 Sierra Nevada $11.61

    7220 79 Blue Moon $13.96

    7646 80 Sierra Nevada $11.61

    6347 92 Guinness $20.35

    1212 69 Fat Tire $5.03

    1212 69 Fat Tire $5.03

    7076 62 P ilsner Urquell $4.69

    5115 60 Grolsch $12.70

    7181 59 Budweiser $17.78

    1212 69 Fat Tire $5.03

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    13/19

    12

      Clase 01 •  Limpieza de Datos e Importación 

    Tratamiento de Valores Faltantes 

    Los datos faltantes o valores faltantes ocurren cuando no se

    tiene ninguna información acerca de ellos, por lo tanto son

    completamente desconocido para nosotros. Los valores

    faltantes aparecen porque no hay respuesta, porque es

    ambiguo, porque la recolección de datos se hizo de manera

    errónea, porque al momento de ingresar el dato se hizo de

    manera inapropiada, etc.

    Para abordar los valores faltantes podemos utilizar cualquiera

    de las siguientes “técnicas”:

      No manipulación

      Imputación

     

    Imputación Parcial

      Eliminación

      Full Analysis

      Interpolación

    Frecuentemente asumimos que no existen tales valores o

    simplemente los trabajamos como un elementos distintos

    desconocidos, sin embargo, pueden existir argumentos válidos

    del porque estos valores estén ausentes, tal vez por decisión.

    No Manipulación

    Como su nombre lo indica, no se debe hacer nada con ellos y

    llevar el acabo el análisis, esto puede ser porque la muestra sigue

    siendo significativa o porque se va a llevar a cabo un análisis de

    los valores faltantes.

    Tipos de Datos

    Faltantes

    Entender la razón por la

    cual hay valores

    faltantes, facilita que tipo

    de tratamiento abordar,

    por ejemplo, si los datos

    faltantes son aleatorios

    ,

    entonces la muestra de

    los datos sigue siendo

    representativa para la

    población. Por otra

    parte, si lo datos

    faltantes están ausentes

    de manera sistemática,entonces sí que requiere

    un análisis exhaustivo, y

    todo esta temática es

    acreedora de su propio

    capítulo e incluso de su

    propio libro.

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    14/19

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    15/19

    14

      Clase 01 •  Limpieza de Datos e Importación 

    Solución

    E em lo Du licados

    Por ejemplo: si se está recolectando información acerca de los

    ingresos de los graduados en una universidad, podemos saberque los recién graduados son menos propensos a revelar su

    salario, por lo que se pueden clasificar fácilmente estos salarios

    en un intervalo previamente conocido y sustituir los faltantes

    por dichos datos.

    Tip Rápido: Para sustituir un conjunto de celdas que contienen

    un carácter o frase especial a)  seleccione el rango de celdasdonde va a reemplazar b) pulse la combinación Ctrl + B y clic en

    la pestaña reemplazar en el cuadro de diálogo que aparece c)

    En el cuadro de texto Buscar, digite la palabra o frase a

    reemplazar, ejemplo: Desconocido d)  En el cuadro de texto

    reemplazar con, escriba el valor por el cual serán sustituidos los

    valores e) Clic en el botón reemplazar todo. 

    Eliminación 

    La técnica de imputación más simple consiste en reducir el

    tamaño de los datos, de la muestra, mediante la eliminación de

    todas aquellas filas que contienen un valor faltante.

    Eliminar registros duplicados 

    E

    Suponga que sabe que los datos faltantes en la tabla Beers son aleatorios, dado

    que son pocos faltantes lo que se pide es su eliminación completa. Figura 1.12 

    (A)

     

    Convierta la tabla tabular en una tabla estructurada de Excel si esta noestá de esta forma. Pulse la combinación Ctrl + T y Aceptar.

    ontinúa…

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    16/19

    Clase 01 •  Limpieza de Datos e Importación  15 

    Tip Rápido:  No es necesario convertir los datos en una tablaestructurada, lo importante es activar los filtros en los campos.

    También puede utilizar la combinación de teclas Ctrl + Shift + L

     para activar los autofiltros. 

    (B) Ubique el campo que contiene los valores faltantes, allí en la flecha de

    selección despliegue las opciones y filtre todos los #N/A

    Continuación

    Figura 1. 13 Filtrar todos los valores faltantes, es decir los #N/A, Si utiliza otro carácter,

    palabra o frase para denotarlos, entonces, debe filtrar el de su uso.

    Filtrar por el

    campo que

    contiene los

    valores faltantes

    Filtrar los #N/A o

    el carácter,

    palabra o frase

    que utilice para

    denotarlos

    ontinúa…

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    17/19

    16

      Clase 01 •  Limpieza de Datos e Importación 

    Full Analysis

    Full analysis consiste en varios métodos que toman toda la

    información disponible y mediante algoritmos iterativos

    encuentra la mayor probabilidad de que un valor faltante

    corresponda un datos especifico, hay que advertir que el estudio

    de estos métodos esta por fuera de este artículo.

    Interpolación

    La interpolación es un método mediante el cual se crea o conoce

    un dato basado en un conjunto discreto de puntos.

    (C) Seleccione todas las filas que contienen valores nulos, pulse clic

    derecho encima de las etiquetas de filas y clic en eliminar.

    (D)  Por último remueva el filtro (Ctrl+Shift+L). Así, habrá eliminado todos

    los registros que contenían valores nulos en el campo Beer

    Continuación

    Clic en eliminar

    Clic derecho

    encima de

    cualquier número

    azul, con esto se

    despliega el menú

    contextual

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    18/19

    Clase 01 •  Limpieza de Datos e Importación  17 

    =LIMPIAR(A1)

    Eliminación de Espacios y Caracteres Especiales

    Para evitarnos dificultades, es una buena práctica confirmar que

    los datos no contienen espacios extras, dado que por ellos en una

    comparación que de manera lógica deberían coincidir, no lo

    hace. Por ejemplo Excel no es igual a Excel con un espacio al final,

    esto porque el primero tiene 5 caracteres y el último 6 caracteres.

    Hacer esta tarea es bastante fácil. La función ESPACIOS remuevetodos los espacios extra entre palabra y palabra dejando

    únicamente un espacio. Por ejemplo si en la celda A1 tiene escrito

    “Excel Free Blog”, donde se pueden notar múltiples espacios

    entre palabra y palabra, y aplicamos:

    =ESPACIOS(A1)

    Entonces, retorna: “Excel Free Blog”   con solo un espacio entre

    palabra y palabra, sin espacios al principio ni al final.

    También es necesario remover caracteres no imprimibles los

    cuales no son fáciles de detectar, por ejemplo un dato importado

    desde otra fuente pude contener TAB al final. Para remover estos

    caracteres no imprimibles

    Remover Espacios Extras 

    1.2

    ]

    Remover Caracteres no

    1.2]

    Imprimibles 

    Estos cambios se deben realizar en columnas a parte y

    luego copiar y pegar por valores para sustituir. 

  • 8/16/2019 Clase 01 Liempieza de Datos e Importaci n

    19/19

    18

      Clase 01 •  Limpieza de Datos e Importación 

    Consistencia Mayúsculas/Minúsculas 

    Es una buena práctica, hacer que los textos en las columnas

    sean consistente en términos de mayúsculas y minúsculas. Para

    lograr esta consistencia Excel brinda las siguientes funciones:

    MAYUSC: Convierte el texto a mayúsculas.

    MINUSC: Convierte a texto en minúsculas.

    NOMPROPRIO: Convierte una cadena de texto en mayúsculas

    o minúsculas según corresponda, la primera letra de cada.

    Estos cambios se deben realizar en columnas a parte y

    luego copiar y pegar por valores para sustituir.

     

    Sumario

     

    Importación 

    • La Importación de datos es el proceso de extraer datos

    desde alguna instancia u origen que los contenga, los

    cuales fueron creados con otro programa, o que pertenece

    a versiones anti uas 

    • Directamente: 

    Hoja de Cálculo, Beses

    dataos y Archivos texto

    Limpieza 

    • Proceso de transformación de Raw Data a una estructura

    consistente para que posteriormente sean analizados. 

    Tareas:

    Formato de Datos Tabular

    Formato de Columnas ConsistenteEliminar Registros Duplicados

    Tratamiento de Valores Faltantes

    Eliminación de Espacios y Caracteres Especiales

    Consistencia Mayúscula/Minúscula

    Valores Faltantes:

    No manipulación

    Imputación

    Imputación Parcial

    Eliminación

    Full Analysis

    Interpolación