Upload
heidi-lopez
View
42
Download
0
Embed Size (px)
Citation preview
Benemérita Universidad Autónoma de Puebla
Facultad de Ciencias de la Computación
Minería de datos aplicada a los índices de seguridad en
México con Weka.
Alumnos:
Jean Alexander Ramírez Murillo.
David Sánchez Rodríguez.
Katia Cecilia Flores Toledo.
Gabriela Guzmán Hernández.
Materia:
Minería de Datos.
Profesora:
Dra. María Josefa Somodevilla García. Primavera 2015
Índice
1
1.1 Introducción .............................................................................................................................................. 3
1.2 Preparación de los datos .......................................................................................................................... 4
1.2.1 Muestra de datos ............................................................................................................................... 4
1.2.2 Objetivos de análisis ........................................................................................................................ 4
1.3 Pre procesado de los datos ...................................................................................................................... 5
1.3.2 Trabajo con filtros ............................................................................................................................. 7
1.4 Visualización ........................................................................................................................................... 13
1.4.1 Representación 2D de los datos .................................................................................................... 13
1.4.2 Filtrado “grafico” de los datos ...................................................................................................... 15
1.5 Asociación ................................................................................................................................................ 16
1.6 Clúster ....................................................................................................................................................... 17
1.7 Conclusiones ........................................................................................................................................... 19
Minería de datos aplicada a los índices de seguridad en
México con Weka
1.1 Introducción
En este material mostraremos el uso de weka, que como ya sabemos es una
herramienta de minería de datos la cual es utilizada para experimentación de
análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes
de análisis de datos, principalmente las provenientes del aprendizaje automático,
sobre cualquier conjunto de datos.
Aplicaremos esta herramienta para el tratamiento de datos sobre el tema de los
Índices de Seguridad en México.
Hemos elegido este tema ya que en la actualidad todos nos enfrentamos con
problemas de seguridad de cualquier tipo, actualmente conocemos a por lo menos
alguna persona que ha sufrido algún robo, asalto, agresión etc. es por ello que
decidimos trabajar con estos datos para poder predecir conductas o descubrir
patrones y así poder aportar conocimiento a dicha rama y de ser posible poder tomar
medidas para disminuir estos índices.
Los datos que trabajaremos fueron tomados de fuentes confiables como la página
del INEGI, que nos provee de material recolectado a lo largo de varias décadas los
cuales pone a nuestra disposición para poder descargarlos y trabajar con ellos.
Este escrito lo ponemos en forma de un manual práctico adaptado a los datos que
estamos trabajando, poniendo algunos ejemplos de los resultados arrojados por la
herramienta.
1.2 Preparación de los datos
Para nuestro proyecto utilizamos una base de datos en MySQL, posteriormente
se aplicaran métodos de filtrado y agrupamiento de weka. Para los datos de los
siguientes temas.
Delitos.
Economía.
Educación.
Población.
Recursos naturales.
Salud publica.
Sistema penitenciario.
Vivienda.
1.2.1 Muestra de datos
El fichero de datos objeto de análisis en este trabajo contiene muestras
correspondientes a los indicadores mencionados anteriormente de una década, de
2002 al 2012.
Los datos que describen cada indicador contienen la siguiente información:
id_indicador, descripción, año, estado, municipio y valor.
Los datos fueron obtenidos de la página oficial de INEGI.
1.2.2 Objetivos de análisis
En nuestro caso, uno de los objetivos perseguidos es poder responder mediante la
minería de estos datos las preguntas que nos hemos planteado como objetivo de
análisis; algunas de ellas son las siguientes:
¿Qué estados de la republica son más seguros para vivir?
¿Cuáles son las características de los estados con mayor índice delictivo?
¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las
mujeres?
1.3 Pre procesado de los datos
1.3.1 Consultas para el pre procesamiento en Weka
¿Qué estados de la republica son más seguros para vivir?
Índices necesarios:
Para determinar que estados son más seguros para habitar tomaremos en cuenta los delitos
más graves y de mayor ocurrencia de la BD Minería, los cuales son:
Delitos por homicidio 1006000051
Delitos Sexuales 1006000050
Robo 1006000053
Cifra negra delitos 6200005821
Densidad poblacional 3105001001
Consulta
¿Cuáles son las características de los estados con mayor índice delictivo?
Para resolver esta incógnita, se ocupan las siguientes características por estado.
Consulta a la base de datos:
select b.descripcion, b.2002,b.2003,b.2004,b.2005,b.2006,b.2007, b.2008,b.2009, b.2010,
b.2011, b.2012, estados.nombres from (select * from (select * from casos where descripcion like
'porcentaje%analfabetas total' or descripcion like '%internos%' or descripcion like '%ingresos
netos%') as a join tiempo where a.id_indi= tiempo.caso) as b join estados where estados.id_estado
= b.edo;
¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las
mujeres?
Índices necesarios:
Para determinar que estados son más seguros para habitar tomaremos en cuenta los delitos más
graves y de mayor ocurrencia de la BD Minería, los cuales son:
Población económicamente activa
Población analfabeta
Delitos por robo
Consulta sql:
Select * from estados right join tiempo on tiempo.edo=estados.id_estado where
caso=1007000019 OR caso=3103002003 OR caso=3108001003;
1.3.2 Trabajo con filtros
¿Qué estados de la republica son más seguros para vivir?
Dichas variables tienen una cierta relación logia sin embargo para determinar con mejor precisión
su impacto en nuestros datos utilizaremos el tema 1.6 del manual Asociación para buscar reglas que
relacionen dichos campos.
Esto nos devuelve una larga lista de años, sin embargo para tomar con mejor claridad la densidad
poblacional tomaremos los años 2005,2010 y 2012 para los reportes delictivos más nuevos
disponibles.
Los datos resultantes son de tipo numérico así que aplicaremos el filtro discretize con 4 bins y
equalFrequency.
¿Cuáles son las características de los estados con mayor índice delictivo?
Al discretizar los valores de la suma de los atributos, de analfabetismo e ingresos netos.
Se obtienen 3 bins.
¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las
mujeres?
Tomando en cuenta los censos globales que son los que reflejan mejores datos tenemos:
AddExpression
Queremos evaluar los años 2010 y 2005 para tener como comprar dichos datos y poder sacar
algun patron o informacion relevante. Para ello restamos los valores del año 2010 los del 2005
Tomando en cuenta el indicador de educación, que es el número de mujeres analfabetas tenemos:
1.4 Visualización
1.4.1 Representación 2D de los datos
Los eventos son excluyentes entre si obviamente, aquí podemos apreciar los casos de delito
que buscamos.
1.4.2 Filtrado “grafico” de los datos
En esta parte podemos observar los delitos en el periodo 2005.
Delitos en el 2010
Delitos en el 2012 los datos más recientes adquiridos.
1.5 Asociación
Aplicamos algoritmo “A priori” para descubrir las reglas de asociación más importantes.
1.6 Clúster
Al aplicar Kmeans, con 5 clúster observamos que el resultado es Oaxaca, Yucatán y Tlaxcala.
1.7 Conclusiones ¿Qué estados de la republica son más seguros para vivir?
Observando la distribución de los datos, según los reportes del 2012, en conclusión los
estados más tranquilos o seguros en general serian baja California sur, Campeche, Durango,
Nayarit, Querétaro, Quintana Roo.
Y los más peligrosos o con mayor violencia son Oaxaca, Veracruz, Michoacán y Zacatecas.
Algo más que se puede observar es que en el periodo 2005 a 2010 hubo un incremento en los
crímenes más fuertes que son el homicidio y el abuso sexual, ¿tendrá que ver con un periodo
presidencial y los planes de gobierno de esos años?
¿Cuáles son las características de los estados con mayor índice delictivo?
Oaxaca es el estado con más alto índice delictivo y una tasa baja de ingresos netos al
municipio.
Los estados con mayor índice son: Oaxaca, Yucatán y Tlaxcala.
¿Cómo influye los factores educativos y de economía para cometer delitos por parte de las
mujeres?
Los factores educativos influyen medianamente en la comisión de robos.