Upload
carlos-takano
View
50
Download
1
Embed Size (px)
Citation preview
GESTIÓN DE CALIDAD DE DATOS E INFORMACIÓNMBA UQAM - Concentración en informática
Trabajo individual
Análisis de una herramienta de software para limpieza de datos: IBM InfoS-phere QualityStage
Carlos Takano___________________
Resumen
Este trabajo tiene como propósito ofrecer una perspectiva general de la problemática de
calidad de datos que enfrentan muchas organizaciones, cómo enfrentar el problema desde
la perspectiva de la limpieza de datos y qué funcionalidad ofrecen las herramientas espe-
cializadas para este propósito, específicamente IBM InfoSphere QualityStage.
Justificación
Actualmente vivimos en un mundo cada vez más interconectado y digitalizado. Dispone-
mos de transpondedores y sensores de bajo costo, que se pueden implantar fácilmente en
todo tipo de objetos: autos, mercaderías, medicinas, incluso animales. Por otro lado, la
ubicuidad de las redes de comunicaciones permite interconectar estos objetos para que
participen en procesos automatizados, dando lugar al “Internet de las cosas”, como lo
llamó Kevin Ashton. También tenemos infraestructuras computacionales capaces de ma-
nejar y procesar, cada vez a mayor velocidad, grandes volúmenes de datos, tanto estructu-
rados como no estructurados, como imágenes, audio, video y documentos.
Esta abundancia de datos, sin embargo, no siempre da como resultado que los ejecutivos
y trabajadores del conocimiento tengan mejor información sobre lo que pasa en las orga-
nizaciones y su entorno, que necesitan para decidir qué acciones tomar, cuando buscan
mejorar la posición competitiva de sus empresas, atacar un problema o aprovechar una
oportunidad. Esto ocurre porque, con frecuencia, los datos no cumplen los requisitos de
calidad necesarios para producir buena información, ocasionando sobrecostos imputables
a diversas categorías, como decisiones inadecuadas, oportunidades de negocio perdidas,
1
incumplimiento de regulaciones, errores al ejecutar procesos, trabajo para detectar y co-
rregir defectos en los datos, acciones preventivas para evitar que los datos contengan
errores, por ejemplo.
La calidad de los datos es un problema amplio y complejo, que comprende varias dimen-
siones y se presenta por diversas causas. Si bien es cierto que, en general, lo ideal es eli -
minar las causas de los problemas, en el caso de la calidad de los datos, ello no siempre
es viable. Por ejemplo, si los datos son generados por un tercero sobre el que no se tiene
control y no existe una fuente más adecuada para cubrir la necesidad, o cuando el costo
de hacer las modificaciones necesarias a los sistemas preexistentes es prohibitivo, la úni-
ca opción que resta es detectar los defectos y corregir los datos. A veces, las únicas accio-
nes correctivas posibles implican realizar algún tipo de proceso manual, que suele ser
lento, costoso y propenso a errores; sin embargo, cuando se cumplen ciertas condiciones,
es posible utilizar aplicaciones de software especializadas, como IBM InfoSphere Quali-
tyStage, para automatizar en su totalidad o en su mayoría el proceso de limpieza de datos;
esto permite obtener mejores resultados sobre la calidad de los datos, implementar un
proceso repetible, adaptable y fácil de gestionar, y reducir el costo y el riesgo.
Objetivo
Evaluar las capacidades de IBM InfoSphere QualityStage en relación con las necesidades
empresariales de limpieza de datos.
Problemática de calidad de los datos
Como ya se mencionó, la calidad de los datos es un problema amplio y complejo, que
comprende varias dimensiones y se presenta por diversas causas. Las dimensiones antes
mencionadas son los distintos aspectos por los que es conveniente evaluar la calidad de
los datos, siendo los principales: exactitud, completitud, oportunidad y consistencia.
La exactitud se define como la cercanía entre un dato y la representación correcta del
fenómeno real que representa, y puede ser sintáctica o semántica. La primera evalúa los
datos respecto del dominio de definición correspondiente, es decir, el conjunto de valores
2
considerados válidos; la segunda lo hace tomando como referencia el valor real, lo que
normalmente es más complejo de evaluar que la anterior. Cuando se tiene la certeza de
que la proporción de errores es relativamente baja, y que en su mayoría se originan en
errores mecanográficos, la exactitud sintáctica tiende a coincidir con la exactitud semánti-
ca, y es aceptable reemplazar un dato considerado errado con el valor más cercano que
pertenezca al dominio de definición (Batini & Scannapieca, 2006). Esto se puede automa-
tizar utilizando funciones de comparación, como la distancia de edición, que se basa en la
cantidad mínima de caracteres que se debe insertar, eliminar, reemplazar o transponer
para convertir el dato bajo evaluación en un valor que pertenece al dominio de definición,
o un algoritmo basado en una representación fonética del dato bajo evaluación.
La completitud se puede evaluar desde tres perspectivas: el esquema, un atributo o la po-
blación (Batini & Scannapieca, 2006). En la primera, interesa saber si todas las entidades
y atributos de interés forman parte del modelo o estructura de datos; en la segunda, se
mide los valores faltantes para un atributo en particular a través de todas las instancias de
una entidad, por ejemplo cuántos trabajadores de una empresa no tienen registrado en la
base de datos correspondiente un número válido de DNI; en la tercera, la evaluación se
concentra en instancias o individuos faltantes respecto de un universo o población de re-
ferencia, por ejemplo, en la tabla donde se registra los datos de los empleados de una em-
presa debe existir exactamente una fila por cada empleado real.
La completitud del esquema depende de la calidad el diseño, lo que está fuera del alcance
de las herramientas de limpieza de datos, motivo por el cual no se abundará sobre el
tema.
Sobre la completitud de atributos, tenemos que, dentro del contexto de la calidad de los
datos, no todos los valores faltantes tienen el mismo significado. Por ejemplo, si se trata
de una tabla de personas en una base de datos relacional, donde un valor nulo representa
un valor faltante, se puede registrar lícitamente un valor nulo para la dirección de correo
electrónico básicamente por una de tres razones: 1) la persona no tiene dirección de co-
rreo electrónico, en cuyo caso el dato no está incompleto, 2) la persona tiene dirección de
correo electrónico, pero no se sabe cuál es, y 3) no se sabe si la persona tiene o no direc-
ción de correo electrónico (Batini & Scannapieca, 2006). Esta ambigüedad hace difícil
3
automatizar la limpieza de datos en esta situación, ya que para saber cuál es el valor real,
hace falta alguna fuente de referencia, que no siempre está disponible o no tiene la sufi -
ciente credibilidad. Esto último aplica también para evaluar si las instancias o individuos
de una entidad representan al universo o población total.
La oportunidad se refiere a que los datos deben reflejar con prontitud los cambios que
ocurren en el mundo real, de manera que el valor actualizado esté disponible en el mo-
mento que se requiere. Si los datos se actualizan después del momento en que se requiere
usarlos, entonces no son oportunos. Un concepto relacionado con la oportunidad es la
volatilidad, que mide la frecuencia con que los datos varían: cuanto más volátil es un
dato, es más complejo mantenerlo oportunamente actualizado, ya que su periodo de vi-
gencia es más corto (Batini & Scannapieca, 2006).
La consistencia se refiere al cumplimiento de reglas de integridad lógica de los datos (Ba-
tini & Scannapieca, 2006). Por ejemplo, si el estado civil de una persona es “Casado”, su
edad no puede ser menor que 14 años, o la fecha en que termina una promoción no puede
ser menor que su fecha de inicio. La verificación de reglas de este tipo es apropiada para
ser implementada en una herramienta de software; sin embargo, no debe pasarse por alto
que definir el conjunto correcto, completo y autorizado de reglas que represente las ver-
daderas necesidades y características del negocio es una tarea difícil y compleja . Es co-
mún encontrar múltiples bases de datos en una organización, donde los datos de cada una
están estructurados según las reglas particulares de cada una (Reid & Catterall, 2005),
que no necesariamente son compatibles entre sí.
Herramientas para limpieza de datos
Una de las posibles soluciones al problema de datos de baja calidad es implementar un
proceso de limpieza de datos (en inglés, data cleansing, data cleaning o data scrubbing),
cuya finalidad es brindar consistencia a los diferentes conjuntos de datos que pueden ha-
ber sido creados bajo reglas diferentes e incompatibles (Reid & Catterall, 2005). La lim-
pieza de datos se ocupa de los problemas de datos una vez que ya han ocurrido, conside-
rando que las estrategias de prevención de errores pueden reducir muchos problemas,
pero no eliminarlos (Van den Broeck, Cunningham, Eeckels, & Herbst, 2005). Si bien es
4
cierto que no todos los errores en los datos pueden ser corregidos automáticamente, las
herramientas de limpieza de datos ofrecen funcionalidad que permite:
Analizar patrones en los datos existentes, para comprender la naturaleza, alcance y
detalle de los problemas de calidad de datos.
Estandarizar y corregir los datos, para asegurar que su formato y contenido cumple
con las especificaciones aplicables a toda la organización.
Detectar posibles duplicados (análisis de coincidencias o data matching), para identi-
ficar registros duplicados entre fuentes de datos y dentro de ellas. Este es uno de los
problemas más frecuentes y que representan altos costos para las empresas (Eckerson,
2002).
Consolidar registros duplicados, que consiste en crear la mejor versión posible del
registro que sobrevivirá y eliminar los demás, combinando de manera inteligente los
datos disponibles. Esto brinda la oportunidad de completar algunos datos faltantes y
corregir otros en base a la evaluación y comparación de los registros duplicados.
Enriquecer los datos, complementando la información existente utilizando fuentes de
referencia externas. Si se tiene acceso a una fuente de datos considerada confiable,
por ejemplo la base de datos de identificación del RENIEC, se puede añadir atributos
adicionales a los datos que ya se tienen.
Estandarización de datos
En muchas fuentes de datos existen elementos de datos que contienen información encu-
bierta, difícil de encontrar e interpretar, como los campos de texto libre utilizados para
almacenar direcciones postales, nombres de personas, nombres de empresas y descripcio-
nes de productos, entre otros. El texto libre permite que los operadores ingresen los datos
sin respetar estándares. Por ejemplo, en el caso de una dirección, se puede utilizar dife-
rentes abreviaturas para el mismo término, ingresar los elementos en diferente orden,
omitir algunos de ellos, etc. Una dirección es un dato que puede descomponerse en varios
elementos, como un tipo de vía, un nombre de vía, un número municipal, un número de
interior, una urbanización, un distrito, una provincia y un departamento, por ejemplo.
5
La estandarización consiste transformar el contenido de estos campos, separándolo en
elementos sencillos que tengan sólo un tipo específico de información (componentes léxi-
cos o tokens), con el fin obtener como resultado una representación que tenga un formato
consistente. En este proceso, también se convierte términos que tienen varias formas de
escribirse, pero el mismo significado, a una forma estándar preferida. Por ejemplo, las
abreviaturas “Ca.”, “CA”, “CL” y “Cl.”, que significan “Calle”, se pueden convertir a la
forma preferida “Ca.”. Esta característica permite también corregir algunos errores meca-
nográficos, por ejemplo, convertir “Carlso” en “Carlos”, todo esto a través de reglas con-
figurables.
Análisis de coincidencias (data matching, object identification o record linking)
Cuando existen canales independientes e incompatibles para registrar datos sobre el mis-
mo concepto de negocio, incrementa la probabilidad de que existan varios registros de
datos que se refieren al mismo objeto o persona del mundo real. Por ejemplo, cuando se
registra más de una vez la misma persona creando diferentes códigos de cliente. Esto lle-
va a tener una visión fragmentada de la información, que carece de integración y consis-
tencia, limitando su valor para la organización.
La solución ideal debería atacar esta causa raíz; sin embargo, esto no siempre es viable,
ya que para lograrlo, por lo general, se requiere realizar cambios costosos, riesgosos y
complejos en los sistemas de información, por ejemplo, con una iniciativa para gestionar
datos maestros (MDM, por las siglas de Master Data Management).
Si no es posible resolver el problema de registros duplicados en su origen, una alternativa
es realizar un análisis de coincidencias o (en inglés, data matching, object identification o
record linkage), que es “probablemente la actividad de calidad de los datos más impor-
tante y ampliamente estudiada” (Batini & Scannapieca, 2006).
Por ejemplo, si se tiene los datos mostrados en la siguiente tabla:
N° Nombre Dirección Zona postal
1 GARCIA, FRANCISCO JAVIER CALLE ALFA 528 LIMA 41
2 WONG, MILAGROS ANA JAVIER PRADO OESTE 2499 LIMA 27
6
3 GARZA, FRANCISCO X. CALLE ALFA 528 LIMA 41
4 GARCIAA, FRANCIS CL ALFA 528 LIMA 41
5 MENCHELLI, JUAN CARLOS AV. AREQUIPA 340 LIMA 1
6 WONG, M. AV. JAVIER PRADO 2499 LIMA 27
7 GARCIA, SUSANA CL ALFA 528 LIMA 41
Es probable que los registros 1, 3 y 4 correspondan a la misma persona, lo mismo ocurre
con los registros 2 y 6. El análisis de coincidencias, entonces, no sólo debe buscar coinci-
dencias exactas, también aproximadas. A esto se debe añadir que no siempre se cuenta
con un identificador confiable que permita discriminar con seguridad si se trata del mis-
mo individuo o no, como en el ejemplo mostrado.
En términos generales, el proceso funciona de la siguiente manera (Batini & Scannapieca,
2006):
Estandarizar los datos para corregir errores simples y facilitar la comparación.
Reducir el espacio de búsqueda, utilizando un criterio general para identificar grupos
de posibles duplicados. En el ejemplo mostrado, si se utiliza el apellido para este pro-
pósito, se podría identificar tres grupos: registros 1, 3, 4 y 7; registros 2 y 6; registro
5. Esto se realiza con el fin de minimizar la cantidad de registros que pasan por un
proceso más fino de comparación. Si no se realizara esta etapa, cada registro debería
compararse contra todos los demás registros de todas las fuentes de entrada, lo que
puede requerir recursos de procesamiento significativos si se tiene un alto volumen de
registros, como es normalmente el caso.
Aplicar funciones de comparación al interior de cada grupo de posibles duplicados,
comparando cada registro del grupo contra todos los demás. Estas funciones deben
proporcionar como resultado un indicador que exprese la distancia entre los registros
de cada grupo. Cuanto menor sea la distancia, mayor será la probabilidad de que se
trate de una coincidencia.
Aplicar un modelo de decisión para determinar, dentro de cada grupo, qué registros
definitivamente coinciden, qué registros definitivamente no coinciden y qué registros
son probables coincidencias y deben pasar por un nuevo ciclo o ser revisados por una
persona, que tomará la decisión correspondiente.
7
Revisar los resultados del proceso y, de ser necesario, iniciar un nuevo ciclo de proce-
samiento, tomando un criterio diferente para reducir el espacio de búsqueda.
Generalidades de IBM InfoSphere QualityStage
IBM InfoSphere QualityStage forma parte de la plataforma de integración de datos IBM
InfoSphere Integration Server. Goza de integración completa con otros productos de esta
plataforma, incluyendo metadatos, reglas de transformación y monitoreo compartidos
La funcionalidad principal que ofrece, centrada en la automatización del proceso de lim-
pieza de datos, es la siguiente:
Investigar los datos fuente para comprender la naturaleza, alcance y detalle de los
problemas de calidad de datos.
Estandarizar los datos para asegurar que su formato y contenido cumple con las espe-
cificaciones aplicables a toda la organización, incluyendo estándares para nombres de
personas y empresas y limpieza y verificación de direcciones postales.
Análisis de coincidencias, para identificar registros duplicados entre conjuntos de
datos y dentro de ellos.
Supervivencia de registros, para eliminar los registros duplicados y crear la mejor
versión a partir de los datos disponibles.
Es una herramienta de nivel empresarial, que puede procesar datos sobre una plataforma
de procesamiento en paralelo masivo, lo que brinda escalabilidad y desempeño óptimo.
Capacidades de IBM InfoSphere QualityStage
Investigación de datos
La investigación de datos en IBM InfoSphere QualityStage permite comprender las ca-
racterísticas de los datos fuente, ayuda a determinar qué problemas de calidad y posibles
anomalías existen y qué reglas de estandarización se debe aplicar y brinda información
útil para hacer un estimado inicial del esfuerzo requerido en la implementación de los
procesos de limpieza de datos.
8
Esta capacidad se puede utilizar también para hacer seguimiento a la calidad de los datos
una vez implementados los procesos automatizados de limpieza.
IBM InfoSphere QualityStage ofrece dos tipos de investigación: de caracteres y de pala-
bras. En la investigación de caracteres, si el diseño indica que un campo debe almacenar,
por ejemplo, un número telefónico, la herramienta determina los patrones presentes en los
datos y la frecuencia con que se presentan. En este ejemplo, podría encontrarse patrones
formados por siete dígitos consecutivos (9999999), por un grupo de tres y un grupo de
cuatro dígitos separados por un guión (999-9999) y algún patrón inesperado (por ejemplo,
que incluya alguna letras en lugar de números), lo que permite determinar cuántos regis-
tros que no cumplen el formato esperado existen. También es posible determinar la fre-
cuencia con que ocurre cada valor individual, permitiendo detectar que se utilizan valores
diferentes para representar el mismo significado. Por ejemplo, un campo para almacenar
el género de una persona podría tener los valores esperados “M” (masculino) y “F” (fe-
menino), pero también “H” (hombre), valores nulos o en blanco o cualquier otro valor
que no corresponde al dominio de definición teórico.
La investigación de palabras utiliza las técnicas de estandarización que se describen en el
siguiente acápite. Ofrece reportes que muestran los patrones de datos, realizando el análi-
sis por componentes léxicos o tokens, no por caracteres como en el caso anterior, así
como la frecuencia de ocurrencia de cada valor individual. Esto facilita la personalización
de las reglas de análisis léxico o parsing que se debe usar para estandarizar los datos más
adelante, que implica un esfuerzo importante y significativo en un proyecto de limpieza
de datos.
Estandarización de datos
La estandarización de datos en IBM InfoSphere QualityStage permite acondicionar los
datos y prepararlos para otros usos, como obtener información de soporte a la toma de
decisiones y detectar posibles registros duplicados. Acondicionar los datos significa hacer
que todas las instancias del mismo tipo de datos, por ejemplo, una dirección o la descrip-
ción de un producto, tengan una representación consistente, con la misma estructura y
formato, respetando un estándar para las abreviaturas, entre otras características.
9
Para realizar la estandarización, IBM InfoSphere QualityStage se basa en archivos de
reglas, que permiten definir:
Clases de datos, miembros y versiones estandarizadas. Por ejemplo, para el tipo de
vía podemos tener:
Clase Miembro Forma estándar
Tipo de vía AV AV
Tipo de vía AV. AV
Tipo de vía AVE AV
Tipo de vía AVE. AV
Tipo de vía CA CL
Tipo de vía CA. CL
Tipo de vía CL CL
… … …
Reglas de estandarización, que contienen la lógica que se debe ejecutar cuando los
datos de entrada corresponden a un patrón. Estas reglas se escriben en un lenguaje
propietario, de propósito específico, denominado Pattern Action Language. Esto per-
mite implementar reglas complejas para realizar el análisis léxico o parsing.
IBM InfoSphere QualityStage incluye archivos de reglas de nombres, direcciones y orga-
nización político-administrativa para varios países. Estas reglas son un punto de partida
que se puede personalizar según las necesidades específicas de cada proyecto.
Al realizar la estandarización, es posible añadir atributos adicionales a cada registro para
facilitar la creación de bloques con posibles duplicados que es la etapa siguiente en el
proceso de limpieza de datos. Por ejemplo, si se trata de nombres de personas, IBM In-
foSphere QualityStage puede determinar si se trata de un hombre o una mujer y añadir el
atributo correspondiente al resultado.
Análisis de coincidencias
Una vez que los datos han pasado por el proceso de estandarización, quedan listos para el
análisis de coincidencias o matching. Esto puede servir para identificar duplicados o para
10
otras aplicaciones que requieran agrupar individuos según alguna característica común,
por ejemplo, realizar un análisis de las compras realizadas por un grupo de personas que
pertenecen al mismo hogar. Una vez agrupados los datos, es posible enriquecerlos inclu-
yendo atributos adicionales de fuentes de referencia externas.
Para realizar el análisis, IBM InfoSphere QualityStage utiliza múltiples criterios, como el
contenido de información, la completitud, la confiabilidad, la frecuencia contextual y la
representación de los datos (IBM Corporation, 2011).
El contenido de información se refiere a que no todos los atributos ni todos los valores
tienen el mismo poder para establecer qué registros son similares y cuáles no. Por ejem-
plo, el poder discriminante de un apellido es menor que el de un número de DNI. Si iden-
tificamos dos personas que se apellidan “Espinoza”, la probabilidad de que se trate de la
misma persona es mucho menor que si identificamos dos registros que tienen el DNI N°
07728277. De la misma manera, si consideramos sólo el dato del apellido, si dos personas
se apellidan “Jiménez” (un apellido frecuente), es menos probable que se trate de la mis-
ma persona que si el apellido es “Kuczynski” (menos común). Para esto, IBM InfoSphere
QualityStage ofrece herramientas que determinan la frecuencia con que ocurren los térmi-
nos a utilizar para el análisis de coincidencias.
IBM InfoSphere QualityStage ofrece más de veinticinco funciones de comparación, in-
cluyendo comparaciones exactas, diversos algoritmos para calcular aproximaciones en
datos textuales, numéricos, fechas y espaciales y el uso de fuentes de referencia.
Otro factor de suma importancia es elegir adecuadamente los criterios para establecer los
grupos de posibles coincidencias. IBM InfoSphere QualityStage realiza la comparación
sólo entre miembros del mismo grupo, para optimizar el uso de recursos computaciona-
les. Si se usa un criterio que incluye individuos con baja probabilidad de coincidencia en
el mismo grupo, el procesamiento demandará recursos en exceso. Si se usa un criterio
demasiado restrictivo, se puede producir un exceso de falsos negativos, lo que ocurre
cuando se identifica como único un registro que en verdad está duplicado, porque su par
pertenece a otro bloque. En este aspecto, IBM InfoSphere QualityStage brinda mucha
flexibilidad para definir los criterios para crear bloques. Se puede hacer combinando va-
rias columnas, incluyendo columnas especiales que genera el proceso de estandarización
11
para este propósito, como la representación fonética de un dato utilizando algoritmos
como NYSIIS y Soundex.
También es importante es asignar correctamente los puntos de corte para determinar qué
registros calificar como coincidencias y qué registros considerar como no coincidencias.
Entre esto dos extremos, hay “zonas grises”, en cuyo caso los registros deben ser revisa-
dos por una persona o pasar por un nuevo ciclo de análisis utilizando un criterio diferente
para crear bloques. Esto se ilustra en la siguiente figura:
Tomado de (IBM Corporation, 2011)
En la figura, “Low cutoff” corresponde al valor de corte por debajo del cual se considera
no coincidencia y “High cutoff” corresponde al valor de corte por encima del cual se con-
sidera coincidencia. La zona denominada “Clerical”corresponde a los casos dudosos en
los que se debe realizar procesos adicionales o tomar la decisión en forma manual.
IBM InfoSphere QualityStage ofrece herramientas para diseñar procesos de análisis de
coincidencias con varias pasadas, para mejorar la confiabilidad al identificar coinciden-
cias. Las pasadas pueden ser dependientes (los resultados de cada una se calculan tenien-
12
do en cuenta los anteriores) o independientes (los resultados de cada una se calculan sin
tener en cuenta los anteriores).
Otra característica de interés es que se puede definir procesos de análisis de coincidencias
utilizando fuentes de referencia externa, lo que permite enriquecer los datos poblando
atributos con valores obtenidos de la fuente de referencia.
Consolidación de registros duplicados
Una vez realizado el análisis de coincidencias, muchas veces es necesario procesar los
grupos de registros duplicados para obtener una versión única, el registro sobreviviente,
combinando de manera inteligente los mejores datos disponibles, por ejemplo completan-
do algunos datos faltantes y corregir otros en base a la evaluación y comparación de los
registros duplicados.
Para este propósito, IBM InfoSphere QualityStage ofrece diferentes técnicas, por ejem-
plo: tomar el registro más reciente o el más antiguo, tomar el valor más largo o el más
corto, el valor más frecuente, comparar con un valor de referencia, según la fuente de
datos.
Conclusiones
La calidad de los datos se debe estudiar y atacar desde diferentes perspectivas, como
la exactitud, la completitud, la oportunidad y la consistencia.
Dentro de los problemas de calidad de los datos, uno de los problemas más frecuentes
e importantes, que representan altos costos para las empresas, pero a la vez uno de los
más estudiados es la presencia de registros duplicados.
La limpieza de datos se ocupa de los problemas de datos una vez que ya han ocurrido,
pero es una solución conveniente cuando no es viable técnica o económicamente ata-
car las causas raíz.
En general, las capacidades que ofrecen las herramientas especializadas en limpieza
de datos son:
13
o Analizar patrones en los datos existentes, para comprender la naturaleza, al-
cance y detalle de los problemas de calidad de datos.
o Estandarizar y corregir los datos, para asegurar que su formato y contenido
cumple con las especificaciones aplicables a toda la organización.
o Detectar posibles duplicados entre fuentes de datos y dentro de ellas.
o Consolidar registros duplicados, creando la mejor versión posible del registro
que sobrevivirá y eliminar los demás, combinando de manera inteligente los
datos disponibles.
o Enriquecer los datos, complementando la información existente utilizando
fuentes de referencia externas.
IBM InfoSphere QualityStage es una herramienta útil para resolver problemas comu-
nes de calidad de datos, ya que permite automatizar en su totalidad o en su mayoría el
proceso de limpieza de datos; esto permite obtener mejores resultados sobre la calidad
de los datos, implementar un proceso repetible, adaptable y fácil de gestionar, y redu-
cir el costo y el riesgo.
Bibliografía
Alur, N., Jha, A., Rosen, B., & Skov, T. (2008). IBM WebSphere QualityStage Method-
ologies, Standardization, and Matching. IBM Corporation.
Ashton, K. (2009). RFID Journal. Obtenido de That 'Internet of Things' Thing:
http://www.rfidjournal.com/articles/view?4986
Batini, C., & Scannapieca, M. (2006). Data Quality: Concepts, Methodologies and Tech-
niques. Springer Verlag.
Eckerson, W. (2002). Data Quality and the bottom line: Achieving business success
through a commitment to high quality data. The Data Warehouse Insttute.
IBM Corporation. (2011). IBM InfoSphere QualityStage Version 8 Release 7 User's
Guide.
Reid, A., & Catterall, M. (2005). Invisible data quality issues in a CRM implementation.
Journal of Database Marketing & Customer Strategy Management, 12(4), 305-
314.
14
Van den Broeck, J., Cunningham, S., Eeckels, R., & Herbst, K. (2005). Data cleaning:
Detecting, diagnosing, and editing data abnormalities. PLoS Medicine, 2(10),
e267.
15