Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
UNIVERSIDAD POLITÉCNICA DE MADRID
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN
Departamento de Ingeniería de Sistemas Telemáticos
TRABAJO DE FIN DE GRADO
DISEÑO DE UNA METODOLOGÍA DE EVALUACIÓN DE SERVICIOS PÚBLICOS
BASADA EN MODELOS ANALÍTICOS SOBRE DATOS ABIERTOS Y DE REDES SOCIALES
Irene Fernández Sánchez
Julio de 2015
TRABAJO DE FIN DE GRADO
Título: Diseño de una metodología de evaluación de servicios públicos
basada en modelos analíticos sobre datos abiertos y de redes sociales Autor: Irene Fernández Sánchez Tutor: Sonia Taborcia Hernández Ponente: Juan Carlos Yelmo García Departamento: Ingeniería de Sistemas Telemáticos MIEMBROS DEL TRIBUNAL CALIFICADOR
Presidente: Juan Carlos Yelmo García Vocal: Miguel Ángel de Miguel Cabello Secretario: José María del Alamo Ramiro FECHA DE LECTURA:
CALIFICACIÓN:
UNIVERSIDAD POLITÉCNICA DE MADRID
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN
Departamento de Ingeniería de Sistemas Telemáticos
TRABAJO DE FIN DE GRADO
DISEÑO DE UNA METODOLOGÍA DE EVALUACIÓN DE SERVICIOS PÚBLICOS
BASADA EN MODELOS ANALÍTICOS SOBRE DATOS ABIERTOS Y DE REDES SOCIALES
Irene Fernández Sánchez
Julio de 2015
I
Resumen
La presente memoria es el resultado de un proyecto cuya finalidad es evaluar la calidad de los servicios públicos de la ciudad de Madrid.
Mediante la combinación de datos objetivos procedentes de datos abiertos y datos de redes sociales se consigue determinar el estado de calidad relativa de los servicios públicos de los 21 distritos que conforman Madrid: Arganzuela, Barajas, Carabanchel, Centro, Chamartín, Chamberí, Ciudad Lineal, Fuencarral – El Pardo, Hortaleza, Latina, Moncloa – Aravaca, Moratalaz, Puente de Vallecas, Retiro, Salamanca, San Blas – Canillejas, Tetuán, Usera, Vicálvaro, Villa de Vallecas y Villaverde.
Los datos objetivos utilizados son de dos tipos, uno de ellos lo forman los avisos/quejas interpuestas por los ciudadanos de Madrid y el otro grupo procede de los datos abiertos que facilita el ayuntamiento en su página web. Estos últimos se tratan mediante el programa RStudio para obtener unos indicadores previamente definidos y realizar una comparación con respecto del resto de distritos.
Los datos procedentes de redes sociales se procesan y filtran para ver la relevancia que tiene cada ámbito de los indicadores definidos dentro de la sociedad. El objetivo de esto es determinar la importancia en la opinión pública de cada ámbito y gestionar de manera más eficiente los recursos del ayuntamiento en función de esto.
Finalmente, una vez combinados estos datos, se presentan en un informe dinámico, de manera que las conclusiones obtenidas se entiendan de forma clara y sencilla para todo tipo de público.
Palabras clave:
• R • Analítica de datos • RStudio • Servicios públicos • Big Data • Open Data • Twitter • Redes Sociales
II
Abstract
The aim of this project is to evaluate the quality of the public services in Madrid city.
By combining objective open data and social networking data we are able to determine the relative quality level of the public services of each district that comprise Madrid: Arganzuela, Barajas, Carabanchel, Centro, Chamartín, Chamberí, Ciudad Lineal, Fuencarral – El Pardo, Hortaleza, Latina, Moncloa – Aravaca, Moratalaz, Puente de Vallecas, Retiro, Salamanca, San Blas – Canillejas, Tetuán, Usera, Vicálvaro, Villa de Vallecas y Villaverde.
There are two types of objective data in our study, one of them is composed by the complaints filed by the citizens of Madrid, and the other one derived from open data provided by the council on its website. The latter are treated by the program RStudio to get previously defined indicators and to do a comparison of the rest of districts.
The data from social media are processed and filtered to get the relevance in the society about the topic under analysis, in this case is the category of the indicator that we are analyzing. The aim of this is to determinate the public opinion impact of each thematic area and in order to manage more efficiently the resources of the City hall accordingly.
Finally, once we have combined the data, they are represented in a dynamic report, so that the conclusions obtained can be understood in a clearly and simply way accessible to all.
Keywords:
• R • Data analysis • RStudio • Public services • Big Data • Open Data • Twitter • Social media
III
Índice
Resumen ........................................................................................................................................ I
Abstract ......................................................................................................................................... II
Índice ........................................................................................................................................... III
1 Introducción ..................................................................................................................... 1
1.1 Introducción ........................................................................................................ 1
1.2 Metodología ........................................................................................................ 4
1.3 Motivaciones ....................................................................................................... 5
1.4 Objetivos .............................................................................................................. 5
1.5 Estructura del documento ................................................................................... 6
2 Evaluación de los servicios públicos ................................................................................. 8
2.1 Guías de evaluación ............................................................................................. 8
2.2 Metodologías de evaluación de los servicios públicos ........................................ 9
2.2.1 Niveles de calidad social ......................................................................... 9
2.2.2 Perspectivas de evaluación ................................................................... 10
3 Estudio del Arte .............................................................................................................. 15
3.1 Análisis de datos ................................................................................................ 15
3.2.1 R/RStudio .............................................................................................. 16
3.2 Big Data .............................................................................................................. 17
3.2.1 Definición .............................................................................................. 17
3.2.2 Datos significativos y Web de Datos ..................................................... 19
3.2.3 Big Data como medio empresarial ........................................................ 20
3.2.4 Data mining ........................................................................................... 21
3.2 Open Data .......................................................................................................... 22
3.2.1 Definición .............................................................................................. 22
3.2.2 Big Open Data ....................................................................................... 22
4 Clasificación de datos subjetivos .................................................................................... 24
4.1 Clasificación por análisis de sentimientos ......................................................... 24
4.1.1 Aprendizaje supervisado ....................................................................... 24
4.1.2 Aprendizaje no supervisado .................................................................. 27
4.1.3 Aplicación en nuestro proyecto ............................................................ 27
4.2 Clasificación por temas ...................................................................................... 28
4.2.1 Análisis de cluster ................................................................................. 29
IV
4.2.2 Clasificación por tópicos en twitter ...................................................... 30
5 Obtención de resultados ................................................................................................ 32
5.1 Avisos ................................................................................................................. 32
5.2 Indicadores ........................................................................................................ 34
5.3 Tweets ............................................................................................................... 35
5.3 Presentación de resultados ............................................................................... 37
6 Estado de calidad de los distritos de Madrid ................................................................. 39
7 Conclusiones ................................................................................................................... 44
7.1 Conclusiones de los resultados .......................................................................... 44
7.2 Conclusiones del proyecto ................................................................................. 46
7.2 Líneas de trabajo futuras ................................................................................... 46
Anexos ........................................................................................................................................ VI
Anexo A: Resultados indicadores ............................................................................................ VI
Anexo B: Resultados avisos ...................................................................................................... IX
Anexo C: Resultados tweets ..................................................................................................... XI
Bibliografía ................................................................................................................................ XIV
V
1
1
Introducción
1.1. Introducción La transformación digital en la administración pública ha ocasionado que la
relación entre ciudadano y administración haya cambiado, ambos deben acercarse, responder y cooperar en un nuevo entorno. Y para ello las administraciones deben ser capaces de funcionar de dos formas, dando sostenibilidad a los procesos tradicionales y respondiendo a las nuevas inquietudes. En este nuevo entorno digital el medio por el cual se consiguen ambas son, los datos.
Las nuevas tecnologías, de tratamiento de datos y de análisis de información, llamadas “Big Data & Analytics”, posibilitan la generación de conocimiento a partir de la gran cantidad de datos que se producen diariamente. Para que sea posible generar ese conocimiento, tiene que haber una innovación y un análisis de los datos sostenible tanto en calidad como en cantidad. Estos datos pueden ser de dos tipos:
• Evidencia: datos objetivos que permitan una toma de decisiones fundamentada, y una cuantificación para la planificación y evaluación.
• Personal: datos subjetivos, que expresan percepciones, intenciones, emociones y que ayudan a dar los últimos matices sobre las decisiones que se han tomado gracias a las evidencias, esto hace que se incluyan en el proceso todos los interesados.
Mediante el uso de la tecnología somos capaces de utilizar todos estos datos sin limitaciones o necesidad de muestreos (esto no sería posible sin los avances tecnológicos que han tenido lugar las últimas décadas). Ambos tipos de datos deben contribuir de forma combinada y completa a la toma de decisiones en todo el ciclo de las políticas públicas y del diseño e implementación de servicios al ciudadano. A continuación definimos en mayor profundidad las fuentes de datos utilizadas en este trabajo:
2
Fuente: Elaboración propia
Los datos objetivos de la ciudad están disponibles desde un punto de vista estadístico o abierto tanto en el banco de datos de la ciudad como en el portal de datos abiertos del propio ayuntamiento1. Por ejemplo, uno de estos datos pueden ser el número de Centros culturales por distrito y el número de Bibliotecas por distrito. Con ellos y los del padrón de habitantes de cada distrito se consigue el indicador que utilizaremos más adelante: “Tasa de habitantes por bibliotecas y centros culturales”, indicador incluido dentro de los que forman el ámbito de “Cultura, economía y educación”.
Dentro de los datos objetivos existe una parte no abierta que ha sido facilitada por el ayuntamiento en este proyecto, estos son los avisos/quejas interpuestas por los ciudadanos sobre incidencias que observan en la vía urbana (en el presente documento cada vez que se hable de “avisos” nos referiremos a este término). Los avisos pueden haber sido realizados a través de diferentes medios:
- Vía presencial en las oficinas habilitadas para ello - Vía telefónica - Vía online través de la página del ayuntamiento
Un ejemplo de un aviso real puede ser: “Los focos del monumento San Martín están rotos” que pertenece a la categoría de “Desperfectos en el alumbrado de monumentos” y esta a su vez pertenece a “Alumbrado monumentos”, que es una de las categorías incluidas en el ámbito “Seguridad y salud”.
En cuanto a los datos subjetivos, las redes sociales (principalmente Twitter) o los blogs y los medios de prensa tradicionales ofrecen una fuente de contenido dinámico y próximo a la realidad concreta de la ciudadanía, con sus preocupaciones intereses y opiniones. En nuestro proyecto trabajaremos sólo con datos subjetivos procedentes de Twitter. En este caso un ejemplo de un tweet real clasificado en el ámbito de Cultura, economía y educación es: “La financiación alternativa crece en España a ritmos del 152%”, recogido dentro del distrito de Arganzuela.
Se van a obtener indicadores individuales pero se va a evaluar de manera global cada ámbito, lo explicamos con más claridad en el siguiente ejemplo:
1 datos.madrid.es
Datos abiertos ayuntamiento
Madrid
Avisos interpuestos por los ciudadanos
Datos obje^vos
Redes sociales
Encuestas
Datos subje^vos
3
Uno de los ámbitos de los que se quiere medir su estado es: Medio ambiente, transporte y movilidad. Para evaluarlo se calculan los indicadores: Nivel de polución, Tasa por habitante de paradas de autobuses urbanos y metro, tasa por habitante de plazas de aparcamiento para residentes y tasa de habitantes por parques y jardines. Los datos objetivos procedentes del banco de datos para su cálculo son: El padrón de habitantes de cada distrito, el nivel de polución del aire, el número de paradas de autobuses urbanos, el número de paradas de metro, el número de aparcamientos para residentes por distrito, el número de parques por distrito y el número de jardines por distrito.
Los datos objetivos procedentes de los avisos son todos aquellos que pertenecen a las categorías clasificadas en el ámbito de medio ambiente, transporte y movilidad: Arbolado viario, marquesinas de autobuses, cubos de basura, recogida de elementos abandonados, etc.
Finalmente, los datos subjetivos son aquellos tweets que determinemos que hablan sobre medio ambiente, transporte o movilidad.
Análisis de calidad del Ámbito: Medio
ambiente, transporte y movilidad.
Datos obje^vos procedentes del banco de datos
Padrón habitantes de Madrid ciudad
NO2 en el aire por distrito
Indicador: Nivel de polución del aire
Número de paradas de
autobuses urbanos Indicador: Tasa de habitantes por paradas de
autobuses urbanos y metro
Número de paradas de metro
por distrito
Número de plazas de aparcamiento para residentes
Indicador: Tasa de habitantes por plaza de aparcamientos para residentes
Número de parques por distrito Indicador: Tasa de
habitantes por parques y jardines Número de
jardines por distrito
Datos obje^vos procedentes de los
avisos
Avisos de las categorías: arbolado viario, marquesinas de autobuses, cubos de basura, recogidas de elementos abandonados, etc
Datos subje^vos procedentes de
Twiber
Tweets que hablen sobre medio ambiente, transporte o
movilidad
4
También se consideró la posibilidad de una recogida de datos a nivel de encuesta como información adicional, pero las limitaciones tanto en descubrimiento (es un análisis dirigido y no abierto) como en coste temporal y mantenimiento nos hace decantarnos por un análisis abierto y sostenible.
1.2 Metodología A continuación pasaremos a explicar la metodología usada a la hora de realizar nuestro estudio:
El primer paso del análisis está en la selección de los temas más relevantes para los cuales vamos a extraer la información, con el objetivo de escoger las categorías de ámbitos a analizar no sólo se han elegido los temas que más interesan o preocupan al ciudadano sino aquellos que además se vinculan con su elección electoral.
Según el CIS2 los temas que más preocupan al ciudadano son el paro, la corrupción, los problemas económicos y la política en general, sin embargo en el plano municipal de la alcaldía dependen servicios públicos como la limpieza o la movilidad.
Este análisis ha dado lugar a la selección de 4 ámbitos en los que agruparemos indicadores, los avisos y la información obtenida de Twitter:
• Cultura, Economía y Educación • Seguridad y Salud • Sociedad y Bienestar • Medio ambiente, Transporte y Movilidad.
A cada ámbito le asignamos un color que servirá para identificarla cada vez que estudiemos el estado de los indicadores, avisos o datos de redes sociales:
Sobre cada uno de esos colores se realiza una gradación en función de su nivel de calidad respecto del resto de distritos, que nos servirá para representar esta comparativa con los mapas de cada distrito:
Para expresar la relevancia en Twitter de cada ámbito y el número de avisos por distrito se utiliza lo siguiente respectivamente en el color que sea oportuno para ese ámbito:
2 Centro de Investigaciones Sociológicas
5
1.3 Motivaciones Existe una necesidad real por parte de la administración y por parte de los
ciudadanos de saber el estado de calidad de los servicios de la ciudad de Madrid. Hay gran cantidad de indicadores disponibles facilitados por organizaciones públicas o por empresas privadas, sin embargo, en ellos generalmente no se tienen en cuenta las opiniones de los ciudadanos.
La principal motivación de este proyecto ha sido obtener la evaluación de la calidad de la que hemos estado hablando combinando los datos objetivos con los procedentes de la opinión pública de manera que se puedan llegar a conclusiones que se ajusten más a la realidad del día a día de los ciudadanos y no exclusivamente de las estadísticas que proporcionen una serie de indicadores.
Otra de las motivaciones han sido las ganas de aprovechar el gran abanico de
oportunidades que proporciona la utilización del Big Data3. Este término va calando poco a poco en las empresas privadas sin embargo en las públicas por el momento no tiene demasiada acogida. Son innumerables las posibilidades de análisis y de obtención de información que producen, ya que cada día se generan más y más datos, siendo estos la materia prima más importante de la red. Para hacernos una idea, Google procesa al día cerca de 25 petabytes (1015) de datos4, por su parte Facebook, comparte más de 10 millones de fotografías diarias y estas cifras lejos de estancarse o reducirse, aumentan exponencialmente año tras año. La mayor parte de grandes empresas privadas aprovechan todos y cada uno de los datos que genera cada usuario en internet para saber nuestros gustos a la hora de comprar, navegar o visualizar y nos ofrecen un determinado producto antes de que nosotros mismos sepamos que lo queremos o necesitamos. Como vemos, la administración pública necesita renovarse y empezar a beneficiarse tanto el propio organismo y como los ciudadanos de la extracción de esta información, con el fin de mejorar la calidad y la rentabilidad de los servicios que nos proporciona.
1.4 Objetivos Existe un impacto socioeconómico cuantificable del análisis de datos y va ligado
tanto al empleo como a la economía. En términos generales nuestro objetivo es ser capaces de extraer valor de los datos para poder ayudar a la toma de decisiones que
3 Término utilizado para referirnos a grandes cantidades de datos. 4 http://magazine.good.is/infographics/the-‐world-‐of-‐data-‐we-‐re-‐creating-‐on-‐the-‐internet
6
afectan tanto a política como la gestión, con respecto a las vidas de los ciudadanos de Madrid.
Desgranando este objetivo general en los principales hitos que hemos tenido que llevar a cabo en este trabajo:
- Estudio de las técnicas de evaluación y el estado de los servicios públicos.
- Estudio del análisis de datos y del Big Data. - Estudio de las técnicas de clasificación de datos objetivos. - Aprendizaje del lenguaje R en el entorno RStudio. - Clasificación y cuantificación de los avisos de cada distrito de la
ciudad de Madrid en los cuatro ámbitos definidos previamente. - Definición, cálculo y comparación de indicadores de calidad de los
servicios públicos mediante R/RStudio en base a los datos objetivos procedentes del portal de datos públicos
- Extracción, filtrado, agrupación y cuantificación de los tweets de cada distrito de la ciudad de Madrid en función de los cuatro ámbitos definidos previamente.
- Presentación conjunta de los resultados obtenidos de las tres fuentes. - Presentación de las conclusiones extraídas gracias al estudio y a los
resultados.
1.5 Estructura del trabajo El presente trabajo está estructurado en los siguientes apartados:
1. “Introducción” se realiza una breve introducción sobre el tema a tratar, los objetivos que se pretenden conseguir, las motivaciones, la metodología seguida y la estructura del trabajo.
2. “Evaluación de los servicios públicos” se pretende estudiar las metodologías y las guías facilitadas que posibilitan la evaluación de los servicios.
3. “Estudio del Arte” , se realiza una introducción al análisis de datos y al lenguaje de programación R utilizado mediante RStudio y se analiza por separado el Big Data y el Open Data antes de centrarse en el Big Open Data.
4. “Clasificación de datos subjetivos” trata alguna de las formas de clasificación de textos, centrándose en el análisis de sentimientos y en la clasificación por temas.
5. “Obtención de resultados” es una descripción completa sobre todos los pasos que se han seguido y los principales resultados que se han obtenido
6. “Estado de calidad de los distritos de Madrid” consiste presentación y explicación de los resultados obtenidos.
7. “Conclusiones” se presentan las conclusiones que se han ido extrayendo en cada punto del trabajo y las posibles líneas de trabajo futuras en las que puede derivar este proyecto.
Por último también consta de una Bibliografía y un Anexo.
7
8
2
Evaluación de los servicios públicos
2.1 Guías para la evaluación de la calidad de los servicios públicos La evaluación periódica de los servicios públicos es esencial para el buen
funcionamiento de la administración. Generalmente la ciudadanía desconoce el estado de la ciudad más allá de su barrio o distrito particular. Es fundamental, y en especial en la actualidad con la situación económica que atraviesa el país, saber el estado de las zonas y servicios públicos.
Para poder evaluar de manera correcta estos servicios primero debemos realizar un análisis sobre los tipos de indicadores y parámetros que nos proporciona la calidad de un servicio público.
En el Real Decreto5 951/2005 se establecen los programas del Marco General de la Mejora de la Calidad. El Marco consta de los siguientes programas: el programa de análisis de la demanda y evaluación de la satisfacción de los usuarios de los servicios, el programa de cartas de servicios, el programa de quejas y sugerencias, el programa de evaluación de la calidad de las organizaciones, y programa de reconocimiento y programa del Observatorio de la Calidad de los Servicios Públicos.
La AEVAL6 es la encargada de facilitar unas guías7 de estos programas en las que se propone una metodología general que pueda ser de aplicación a una pluralidad de tales servicios independiente de cuál sea la administración responsable de hacerlo.
De todas las guías nombradas anteriormente sólo estudiamos las siguientes:
• Guía de Evaluación Modelo EVAM 8(Evaluación, Aprendizaje y Mejora): Este modelo permite hacer una autoevaluación de la organización y del nivel de prestación de los servicios para orientar el camino que se debe seguir, plantea un avance de mejora gradual a través de la aplicación de modelos de calidad. Es un modelo sencillo y asequible que no entra en grandes detalles pero identifica los puntos fuertes y las deficiencias. Todo ello facilita las herramientas necesarias para determinar las oportunidades de mejora y aumentar el rendimiento de las organizaciones.
5 http://www.boe.es/diario_boe/txt.php?id=BOE-‐A-‐2005-‐14836 6 Agencia Estatal de Evaluación de las Políticas Públicas y la Calidad de los Servicios 7 http://www.aeval.es/es/productos_y_servicios/metodologias_y_guias/ 8 http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/guia_evam_2009.pdf
9
• Guía para la gestión de quejas y sugerencias9: Es de carácter orientativo y va dirigida a todo tipo de administraciones públicas. Las quejas y las sugerencias tienen una gran importancia para las administraciones ya que son mecanismos activos de participación ciudadana y a través de ellas pueden conocer el grado de satisfacción o descontento que experimenta la sociedad. Ambas deben utilizarse para mejorar la satisfacción de los ciudadanos y mejorar también las prestaciones de los servicios que lo necesiten. Esta guía nos será de gran ayuda a la hora de tratar con los avisos interpuestos en la ciudad de Madrid, donde evaluaremos cuáles son los servicios que tienen más quejas en cada distrito.
• Guía para la evaluación de la calidad de los servicios públicos10: Este documento elaborado por la EAVAL tiene como finalidad conseguir que las prestaciones de los servicios públicos cumplan con las debidas garantías de calidad y que en cada acto, los ciudadanos valoren la eficacia de las instituciones públicas y la calidad de su democracia.
Como vemos hay múltiples mecanismos tanto de autoevaluación como de evaluación externa. La evaluación externa conlleva la validación de las autoevaluaciones realizadas previamente. En el siguiente punto estudiaremos las metodologías existentes para la evaluación de los servicios públicos.
2.2 Metodologías de evaluación de los servicios públicos 2.2.1. Niveles de Calidad Social
De la misma manera que el sector privado tiene en los mercados su indicador más importante, el sector público debe definir mecanismos propios que le permitan medir la eficiencia, eficacia y calidad de los servicios que se prestan.
El enfoque de la calidad de la Administración Pública puede realizarse en tres niveles sociales: el micro, el meso y el macro [1].
• Microcalidad: supone un concepto externo de calidad aplicado a las relaciones internas de una organización. Este nivel da un diagnóstico de la gestión, con el fin de mejorar el funcionamiento del servicio.
• Mesocalidad: es un concepto externo referido a las relaciones entre la organización (proveedor del servicio) y el usuario (el que utiliza el servicio). Su finalidad es incrementar la calidad del servicio atendiendo al grado de satisfacción de los ciudadanos. Se trata de una calidad desde el punto de vista organizacional.
• Macrocalidad es un concepto que se aplica a las relaciones entre la administración pública y la ciudadanía. Su objetivo fundamental es la mejora de la calidad de vida de la sociedad, garantizando la calidad de la democracia. Esto sirve para recuperar la credibilidad y confianza pública, no sólo con respecto a los usuarios concretos de los servicios, sino también al Estado mismo y al sistema de gobernanza, por lo que podemos denominarla
9 http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/Guia_QyS_2013.pdf 10 http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/Guia_evaluacion_calidad.pdf
10
calidad de la democracia. La mejora de la macrocalidad contribuye a incrementar la legitimidad del sistema político-administrativo.[2]
La micro y la meso calidad conforman la evaluación de los servicios públicos mientras que la macro calidad estudia la evaluación de las políticas públicas, ambas deben retroalimentarse.
Dentro de la calidad debe diferenciarse tres tipos: programada, esperada y recibida11. La programada es aquella que el organismo pensó proporcionar, la esperada es la que el ciudadano creyó que obtendría y la recibida es la comparación que el usuario realiza del servicio prestado y las expectativas que tenía sobre él previamente.
2.2.2. Perspectivas de evaluación
Existen dos perspectivas para la evaluación de calidad de los servicios12, una de ellas es desde la perspectiva de aquellos que utilizan los servicios (los usuarios) y la otra es desde el entorno de las organizaciones que los gestionan.
Perspectiva de los usuarios
Perspectiva de la organización
Datos Subjetivos Objetivos
Objeto Medición de la satisfacción Diagnóstico de la gestión
Fines • Mejorar el servicio y la satisfacción
• Evaluar el impacto de las políticas
• Mejora global de la organización
• Mejora del impacto en los grupos de interés
Fuentes de información Externas Internas y Externas
Técnicas de obtención • Estudios de satisfacción
• Observación directa
• Comprobación programas de calidad
Fuente: Elaboración propia a partir de informes AEVAL
11 http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/informes/Informe_Percepcion_2013_p.pdf 12 http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/Guia_evaluacion_calidad.pdf
Fuente: Elaboración propia a partir de informes AEVAL
Calidad de las políticas públicas
Calidad de los servicios
Calidad de la gestión interna
11
A continuación vamos a estudiar con más detalle cada una de las perspectivas12:
àEvaluación de los servicios públicos desde la perspectiva ciudadana
El modo de consumo actual ha ocasionado que las perspectivas de los ciudadanos con respecto a lo que la administración puede y debe proporcionarles hayan aumentado exponencialmente en el trascurso de los últimos años. La sociedad se ha vuelto más exigente y también más compleja, demandando nuevos servicios que puedan cubrir sus nuevas necesidades.
Esto hace que sea muy difícil calcular las perspectivas de los usuarios. Por ejemplo, alguien que enferme deseará que no escatimen tiempo ni recursos en su curación, un usuario de un transporte público esperará que este siempre llegue a tiempo a su destino, una persona que acuda a una oficina pública a realizar un trámite querrá que se le atienda y se resuelva su problema en el menor tiempo posible…
Para analizar la percepción que tiene la sociedad de un servicio en primer lugar se deben identificar las expectativas de los usuarios que van a utilizar el servicio. Estas expectativas se ven influidas por gran cantidad de factores, desde las experiencias propias o ajenas hasta la visión que tiene el propio individuo de la administración. Nos basamos en el modelo “Servqual”, que es un método de evaluación de los factores clave para medir la calidad de los servicios prestados[3].
El modelo define la calidad de servicio como un desajuste entre las expectativas previas al consumo del servicio y la percepción del servicio prestado y ésta puede ser medida a partir de la diferencia entre ambos conceptos13. Cuanto mayor sea la diferencia entre la percepción del servicio y las expectativas, mayor será la calidad.
Para llegar a ello identifica cinco dimensiones:
• Elementos tangibles: Aspecto de los empleados, instalaciones y materiales. • Fiabilidad: Capacidad para cumplir con el servicio prometido de manera precisa. • Capacidad de respuesta: Rapidez y agilidad en los servicios de ayuda a los
usuarios. • Seguridad: Conocimiento y profesionalidad de los empleados, así como su
capacidad de transmitir confianza y seguridad. • Empatía: Atención individualizada que se proporciona a cada usuario teniendo
en cuenta la capacidad de escuchar y ser escuchado y el esfuerzo por conocer y entender las necesidades.
Estas dimensiones son medidas mediante una escala formada por dos secciones de 22 preguntas cada una11, la primera registra las expectativas de los clientes y la segunda las percepciones de los consumidores y son comparadas para determinar la brecha entre ambas. La adecuada definición de las preguntas del cuestionario es un punto clave para el buen resultado de este modelo.
13 http://www.cyta.com.ar/ta0604/v6n4a2.htm
12
Fuente: Elaboración propia a partir del modelo SEVQUAL
Una vez realizado este estudio, los datos obtenidos nos proporcionarán información muy útil para elaborar el estudio de satisfacción. El principal inconveniente de los estudios de satisfacción es su elevado coste y la saturación de los usuarios debido al gran número de encuestas que realizan, por eso es clave definir bien el cuestionario y delimitar la información a recabar.
àEvaluación de los servicios públicos desde la perspectiva organizativa
Como hemos visto anteriormente la administración cuenta con una serie de marcos, utilizando el marco correspondiente a la organización bajo estudio es posible analizar los programas que lo integran en las siguientes fases:
1. Análisis de la demanda y evaluación de la satisfacción de los usuarios: se buscan estudios de satisfacción previos y en el caso de no haberlos se realiza la evaluación de los servicios desde la perspectiva de los usuarios.
2. Análisis de quejas y sugerencias: primero se comprueba que exista un sistema adecuado dónde los usuarios puedan presentar sus quejas o sugerencias que cumpla con las exigencias requeridas, posteriormente después se pasa a la evaluación de las mismas.
3. Las cartas de servicios14, son los documentos mediante los cuales las entidades que conforman la administración general del estado informan a los ciudadanos y usuarios sobre los servicios que tienen encomendados, los derechos tienen respecto a ellos y los compromisos de calidad en su prestación: se debe comprobar que la organización esté cumpliendo con lo establecido en su carta de servicio.
4. Evaluación de calidad de la gestión: en esta fase se analizan los resultados de las auditorías o autoevaluaciones realizadas y su frecuencia, después se verifica el funcionamiento del sistema de gestión y del Plan de Calidad.
5. Participación en programas de reconocimiento: se validan los resultados obtenidos en los programas de premios en los que haya participado la organización y se catalogan.
14 http://www.aeval.es/es/la_agencia/carta_de_servicios/
Expectativas
Percepciones
5 Dimensiones
Calidad de servicio
Experiencias Necesidades personales
Comunicación boca a boca
Comunicaciones externas
13
Finalmente, también se debe realizar un análisis referencial (benchmarking) que consiste en hacer un estudio comparativo en áreas o sectores de empresas competidoras consideradas como merecedoras de emulación por sus buenas prácticas, con el fin de mejorar el funcionamiento de la propia organización.
14
15
3
Estado del Arte
Para realizar nuestro proyecto es necesario conocer los métodos y los estudios previos al mismo. Es por ello por lo que en este capítulo vamos a analizar temas muy relacionados entre sí como son el Análisis de datos, el Big data y el Open data.
3.1 Análisis de datos El análisis de datos se podría definir como el proceso de encontrar los datos correctos para contestar a la pregunta que estás realizando, comprendiendo los procesos que subyacen en los datos, descubriendo patrones importantes en los datos, y después comunicar los resultados para tener el mayor impacto posible.15
En nuestro proyecto, la pregunta principal sería ¿Cuál es el estado de calidad de los servicios públicos de los distritos de Madrid?, esta pregunta es muy amplia y engloba muchas cosas, por lo que de ella se desprenden otras preguntas más fáciles de contestar. Por ejemplo, para saber el estado de calidad del ámbito de Seguridad y Salud nos preguntamos entre otras cosas ¿Cuántos accidentes de tráfico hay al año en Madrid? o ¿Cuántos habitantes por hospitales o centros de salud hay en cada distrito de Madrid? para contestar a estas preguntas más sencillas basta con seleccionar la información correcta y realizar unos pequeños cálculos estadísticos.
Para analizar los datos podemos utilizar tanto técnicas estadísticas como técnicas de minería de datos (data mining) que se explica más adelante, en el punto 3.2.4.
En cuanto a los programas que se pueden usar para el análisis de datos estadísticos podemos destacar los siguientes:
• SPSS (Statistical Package for the Social Sciences) • ELKI (Environment for DeveLoping KDD-Applications Supported by Index-
Structures) • S-Plus • R/RStudio
R/RStudio es el lenguaje de programación y el programa con el que trabajamos durante todo el proyecto, por lo que a continuación vamos a realizar una breve introducción sobre sus principales características y su interfaz.
15 https://www.coursera.org/course/dataanalysis
16
3.1.1 R/RStudio
è R
R16 es un lenguaje de programación y un entorno para la computación estadística y de gráficos. Puede ser considerado una implementación del lenguaje S, del que hereda la orientación a objetos, aunque existen muchas diferencias entre ambos. R cuenta con una gran variedad de técnicas estadísticas y gráficas y permite la incorporación de múltiples extensiones. Una de las grandes ventajas de R es la facilidad para la obtención de plots bien diseñados y de gran calidad. También puede utilizarse como herramienta para el cálculo numérico pudiendo ser tan eficaz como programas del nivel de Matlab.
è RStudio
RStudio17 es un entorno de desarrollo para R. Incluye una consola, un editor de síntesis de alto nivel que apoya la ejecución de código directa así como las herramientas para la representación gráfica. Es un software libre disponible en dos versiones: RStudio Desktop y RStudio Server.
La diferencia entre la versión Desktop y la versión Server es que la primera se utiliza para uso en ordenadores personales bajo los sistemas operativos de Windows, Linux o Mac, mientras que la segunda se puede instalar en un servidor y utilizar desde cualquier navegador conectado.
En cuanto al entorno de trabajo, se divide en cuatro partes:
16 http://www.r-‐project.org/ 17 http://www.rstudio.com/products/rstudio/
17
1. En esta sección se encuentra el espacio de trabajo, en él se escribe el código que posteriormente se ejecutará. Es dónde se guarda el código para generar el script.
2. Esta ventana sirve para abrir/cargar archivos de datos. 3. Es la Consola, aquí se puede introducir código directamente y ejecutarlo o
ejecutar el ya escrito en la sección 1. 4. En esta ventana aparece el plot que se haya ejecutado y se actualiza
automáticamente mientras se escribe.
Finalmente señalar que, para la utilización de funciones que no estén incluidas por defecto en R, es necesario instalar el paquete que la contenga. Estos paquetes se descargan desde CRAN18, que funciona como repositorio oficial de todos los paquetes de R.
3.2 Big Data 3.2.1 Definición
Desde la década de 1990 nos encontramos en la era de la información y las telecomunicaciones, en ella se ha establecido un nuevo paradigma de la Tecnología de la Información que constituye la base material de la sociedad de la información.
“La primera característica del nuevo paradigma es que la información es su materia prima: son tecnologías para actuar sobre la información, no sólo información para actuar sobre la tecnología”[4]. Siguiendo esta línea, las telecomunicaciones se entienden como una forma de procesar la información.
No cabe duda de que la información y el conocimiento siempre han sido componentes cruciales del crecimiento económico sin embargo, no ha sido hasta ahora cuando la información en sí misma se ha convertido en el producto del proceso de producción, es aquí donde entra en juego el denominado Big data que, según IBM19, se ha convertido en una de las cuatro principales tendencias de la tecnología en la década de 2010.
A pesar de que no existe una definición universalmente aceptada de Big data una de las más completas es: “Big data es un término que describe el almacenamiento y el análisis de grandes y/o complejos conjuntos de datos usando una serie de técnicas incluyendo pero no limitado a: NoSQL, MapReduce y machine learning”[5]
No podemos dar esta definición sin explicar brevemente las técnicas que nombra:
• NoSQL[6]: Son sistemas de almacenamiento de información que no cumplen con el esquema entidad-relación, permiten almacenar la información en otros formatos que no sean tablas.
• MapReduce[7]: Se trata de un modelo de programación y una aplicación asociada a la transformación y la generación de grandes conjuntos de datos en la que los usuarios especifican una función “map” (encargada del mapeo) y una función “reduce” (cada llamada a esta genera un valor).
18 Comprehensive R Archive Network 19 https://www.ibm.com/developerworks/ssa/local/im/que-‐es-‐big-‐data/
18
• Machine learning[8]: Es el proceso de aprendizaje máquina que consiste en introducir una gran cantidad de datos de entrada como input de un algoritmo que se ejecuta dentro de una máquina entrenada para obtener una salida. El usuario realiza preguntas o consultas a la máquina y obtiene respuestas.
Como ya comentamos en el capítulo de la Introducción, al día se generan cantidades ingentes de datos que crecen más y más debido a que vivimos una gran parte de nuestras vidas online. Casi todo lo que hacemos queda registrado en forma de bits y se transmite a través de cables por todo el mundo a la velocidad de la luz. La siguiente imagen resume las principales fuentes y la dimensión de los datos que se almacenan cada día en Internet:
Fuente: Elaboración propia a partir de Twitter Inc. y del artículo “The Word data we’re creating on the Internet” por Oliver Munday en colaboración con IBM20.
No sólo somos las personas las que contribuimos a este crecimiento de la información, sino que la comunicación que realizan las máquinas entre sí enviando datos recogidos en cualquier tipo de sensor también contribuye a ello.
El término de Big Data no se refiere a una cantidad específica pero usualmente se utiliza al hablar de petabytes (1015) y exabytes (1018) de datos. Este gran volumen hace que las aplicaciones que los analizan requieran que la velocidad de respuesta sea lo más rápida posible para poder obtener la información en el momento preciso.
20 http://magazine.good.is/infographics/the-‐world-‐of-‐data-‐we-‐re-‐creating-‐on-‐the-‐internet
375 Megabytes de datos son consumidos por hogar al día
20 Horas de vídeo son subidas a Youtube cada minuto
2.9 Millones de emails son enviados cada segundo
72.9 Productos son pedidos en Amazon por segundo
500 Millones de tweets son enviados cada día
700 Billones de minutos se emplean en Facebook cada mes
1.3 Exabytes han sido enviados/recibidos a través de smartphones
24 Pentabytes de datos son procesados por Google al día
19
Para ser capaces de manejar y de beneficiarnos de esta situación debemos poner el foco en dos aspectos: por una parte hablamos de la ingeniería del Big Data, ser capaces de gestionar de manera eficiente cantidades de datos inimaginables. Y por otra todo lo relacionado con la semántica, encontrar y combinar de manera útil sólo la información que sea relevante en cada caso[9]. Sin el segundo, el primero no sería de utilidad.
En el siguiente punto pasaremos a estudiar este planteamiento.
3.2.2 Datos significativos y Web de Datos
Vamos a analizar el uso de los datos significativos en Big Data independientemente de la tecnología de implementación o su ámbito de aplicación. Los datos significativos son aquellos legibles, no ambiguos y completos.
Ø La integración de los datos significativos
Considerando sólo la parte correspondiente de la semántica, la integración de datos significativos debe hacerse de la siguiente forma:
• Definición de la preocupación: el problema que debemos resolver. • Búsqueda dentro de la base de datos un lugar para los datos de la
entidad/individuo que se asignan a la preocupación detallada. • Transformación y carga de las partes relevantes de los datos de la
entidad/individuo en formatos y almacenamientos apropiados para su procesamiento.
• Resolución por entidad/individuo: se debe comprobar que los elementos de datos son únicos, relevantes y comprensibles
• Solución del problema: Teniendo seleccionados los datos relevantes para cada entidad/individuo se calcula la respuesta utilizando cálculos específicos.
Es necesario distinguir entre los datos estructurados, aquellos que se pueden tipificar y agrupar, de los no estructurados, los que se almacenan como objetos aislados. También en esta línea es importante que definamos los “Linked Data” o datos enlazados, que describen un método de publicación de los datos estructurados que permitan su interconexión y faciliten su aprovechamiento[10].
Los datos estructurados, sólo constituyen cerca del 10% del total y este porcentaje disminuye día a día. Las bases de datos relacionales son aquellas que cumplen con el modelo relacional, el cual permite establecer interconexiones entre los datos que están almacenados en las tablas y a partir de esas interconexiones relacionarlos.
Existen algunas bases de datos relacionales semánticamente homogéneas que carecen de propiedades especiales. Por lo tanto, las soluciones de integración de datos significativos no puede basarse en esas propiedades. Se debe utilizar un enfoque que use múltiples disciplinas y múltiples métodos tecnológicos.
Ø Web de Datos
20
En los últimos años las páginas web han empezado a publicar de acuerdo con los principios de los datos enlazados basados en las tecnologías web estándar HTTP, RDF21y URl. Esta tendencia ha dado lugar a lo que conocemos como Web de Datos.
La Web de Datos presenta las siguientes características:
• Vocabulario generalizado y patentado: muchas fuentes de datos enlazados reutilizan vocabulario generalizado para representar datos sobre tipos comunes de entidades. Además de esto usan sus propios términos para definir el vocabulario que no está en los públicos. Esta combinación hace que sea más sencillo para las aplicaciones entender datos de diferentes fuentes y aporta gran valor para “la minería de datos”, término en el que entraremos más adelante.
• Relación entre identidad y vocabulario: muchas fuentes de datos establecen vínculos de identidad apuntando a datos sobre la misma entidad desde diferentes fuentes.
• Calidad de los datos: La web es un medio abierto en el que todo el mundo puede publicar los contenidos que quiera, la web contiene datos desactualizados, spam o en conflicto. Por lo tanto, uno de los principales objetivos es evaluar la calidad de la Web y seleccionar el conjunto de datos que se pueden considerar de confianza.
3.2.3 Big Data como medio empresarial
Actualmente la mayor parte de las empresas consideran la Analítica e Inteligencia de Negocio una prioridad, dentro de este ámbito se encuentra el Big Data como referente en: la recolección, almacenamiento, análisis, visualización, procesamiento y comprensión de los datos con el fin de generar información y convertir esta en conocimiento para las organizaciones pertinentes con el objetivo de tomar las decisiones óptimas22.
Este sistema de análisis puede ser muy positivo para las empresas, algunos de los posibles beneficios de negocio en la aplicación de una metodología que trate el Big Data son23:
• Monitorización en tiempo real y previsión de acontecimientos que puedan afectar al negocio.
• Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y visualizar datos.
• Capacidad Hadoop para gestionar grandes cantidades de datos. (Hadoop es un marco de trabajo gratuito basado en Java que soporta el procesamiento de grandes volúmenes de datos establecidos en un entorno de programación distribuido).
• Facilidad para identificar información que pueda ser útil para mejorar la calidad de decisión.
21 Resource Description Framework, método general para la descripción conceptual o modelado de la información que se implementa en los recursos web. 22 http://www.utopiainc.com/insights/blog/381-‐7-‐biggest-‐business-‐benefits-‐from-‐big-‐data 23 http://repository.unimilitar.edu.co/bitstream/10654/13166/
21
• Mitigación del riesgo mediante la optimización de decisiones complejas provocadas por sucesos no planificados de una manera más rápida.
• Obtención de una visión completa de los clientes actuales y potenciales. • Generación de estrategias de marketing personalizadas. • Capacidad para entender las necesidades del cliente • Disminución del riesgo y detección de posibles fraudes.
Además de estos beneficios también se pueden obtener múltiples ventajas en diferentes ámbitos: Analítica de redes sociales, analítica de estudios clínicos, identificación de los temas más relevantes, predicción del consumo energético, programas de fidelización, ofertas personalizadas…
Cabe destacar, que no sólo las grandes empresas son las que pueden sacar partido de todo esto sino que las pequeñas y medianas empresas encierran un gran potencial, para explotarlo deben focalizarse en una o dos iniciativas que supongan el mayor impacto en el menor tiempo y no caer en el error de intentar aplicar todo a la vez24.
3.2.4 Data mining
Para finalizar este punto debemos hablar sobre el “Data mining” o minería de datos. Se trata de un proceso analítico diseñado para explorar grandes volúmenes de datos con el objetivo de buscar patrones o relaciones sistemáticas entre las variables bajo estudio que posteriormente se validan aplicando el patrón a nuevos datos25. Existen gran cantidad de técnicas para resolver un problema de minería de datos algunas de ellas son [11]:
• Análisis factoriales descriptivos • Previsión local • Market Basket Analysis26 • Redes neuronales • Técnicas de “clustering” • Árboles de decisión • Series temporales • Algoritmos genéticos • Redes bayesianas • Modelos lineales generalizados
Como vemos son muchas las posibles técnicas aunque todas ellas son en realidad algoritmos de mayor o menor dificultad que provienen de la inteligencia artificial y de la estadística.
El data mining es un punto en la obtención de conocimiento a partir de datos, este proceso en el cual se consigue conocimiento a partir de bases o fuentes de datos recibe el nombre KDD 27
El KDD implica la aplicación repetida de los siguientes pasos28:
1. Estudio del ámbito de aplicación, conocimiento previo relevante y los objetivos del usuario final.
2. Creación de un conjunto de datos objetivo
24 http://www.siliconweek.es/e-‐enterprise/el-‐reto-‐del-‐big-‐data-‐para-‐las-‐pymes-‐60264 25 http://www.statsoft.com/textbook/data-‐mining-‐techniques 26 Análisis de cesta de mercado 27 Knowledge Discovery in Databases 28 http://www2.cs.uregina.ca/~dbd/cs831/notes/kdd/1_kdd.html
22
3. Filtrado de datos y preprocesamiento 4. Reducción de datos y proyección 5. Elección del objetivo del data mining 6. Elección del algoritmo del data mining 7. Data mining 8. Interpretación y/o evaluación de los patrones obtenidos en el paso previo 9. Validación del conocimiento extraído.
Fuente: Elaboración propia a partir del libro “From Data mining to Knowledge Discovery: An Overview”
3.3 Open Data 3.3.1 Definición
Las administraciones públicas disponen de gran cantidad de conjuntos de datos que pueden ser abiertos a la sociedad sin que suponga eso ningún problema de privacidad. Se define “Open Data” como los datos públicos que cede la administración a la sociedad y lo hace en formatos digitales, estandarizados y abiertos, siguiendo una estructura clara que permita su comprensión y reutilización [12].
Dentro del open data tenemos los llamados LOD29,es decir, los datos abiertos enlazados, el proyecto que les da su nombre fue hecho por el grupo W3C30 y su objetivo es ampliar la base de datos global mediante la publicación en la web de bases de datos en RDF y estableciendo enlaces RDF entre datos de diferentes fuentes.
3.3.2 Big Open Data
Como su propio nombre indica, Big Open Data es el término que utilizamos para referirnos a grandes cantidades de datos públicos. Debemos distinguir que no todos los datos incluidos en el big data son públicos de la misma manera que todos los datos abiertos no tienen por qué ser big data. Y tampoco todos los datos de big open data proceden de la administración pública.
Mediante los procesos que utilizan esta información, cualquier organización ya sean empresas privadas o públicas o individuos particulares pueden generar nuevas ideas, proyectos y servicios. Incluso pueden impactar en los procesos de innovación y ser un soporte tecnológico para la creación de nuevos modelos de negocio, ya que todos los datos son fácilmente accesibles, usados y comprendidos por el público en general. Esto hace que aumente el valor social y el valor comercial de la información pública.
29 Linked Open Data 30 Word Wide Web Consortium
23
Por otro lado la apertura de los datos no confidenciales es esencial para conseguir la transparencia en la Administración pública y una manera de que el ciudadano pueda colaborar en el diseño y evaluación de los servicios públicos, que es precisamente, uno de los temas centrales de este proyecto.
24
4
Clasificación de datos subjetivos
4.1 Clasificación por análisis de sentimientos
Debido a las grandes cantidades de información que hay disponible online es necesario encontrar una manera de clasificarlos automáticamente.
Hasta hace unos años la mayoría de los trabajos han estado enfocados a conseguir una clasificación por tópicos, sin embargo el auge de las redes sociales, de las reseñas y de las opiniones online hacen que la clasificación de textos por Análisis de Sentimientos, “AS”, sea muy importante. Esto es, clasificar los documentos en función de la polaridad de la opinión que expresa su autor, clasificar en positivo, negativo o neutro.
En la clasificación por análisis de sentimientos se encuentra un problema que en el caso de clasificación por tópicos no tenemos, y es que mientras que en la anterior podían identificarse palabras clave para cada tema, en este método no se puede proceder de así. Además en este tipo de textos es mucho más frecuente el uso de palabras retóricas u otras ambigüedades del lenguaje, la clasificación por análisis de sentimiento requiere un mayor entendimiento del texto en su conjunto.
Para tratar con esta clasificación se puede proceder de dos maneras: mediante un aprendizaje supervisado (técnicas de Machine learning) o mediante un aprendizaje no supervisado (uso de diccionarios).
4.1.1 Aprendizaje supervisado
El aprendizaje supervisado se lleva a cabo a través de un entrenamiento controlado por un agente externo que determina la respuesta que debe dar el sistema cuando se introduce una entrada determinada, esto lo hace después de haber visto una serie de ejemplos, los datos de entrenamiento[13].Existen múltiples tipos de algoritmos Machine learning pero aquí vamos a explicar solamente tres:
Ø Naive bayes
El aprendizaje bayesiano es el proceso de encontrar la hipótesis más probable dado un conjunto de ejemplos de entrenamiento “d” y un conocimiento a priori sobre la probabilidad de cada hipótesis31. Cada ejemplo de entrenamiento afecta a esta probabilidad. El teorema de Bayes dice lo siguiente:
31 http://www.infor.uva.es/~isaac/doctorado/AprendizajeBayesiano.pdf
25
𝑃 𝑐 𝑑 =𝑃 𝑑 𝑐 𝑃(𝑐)
𝑃(𝑑)
Donde en nuestro caso, la P(c|d) es la probabilidad de que una palabra d pertenezca a la clase c, ya sea positivo, negativo, neutro o lo que se quiera determinar y la P(d|c) determina la probabilidad de que la palabra ya esté en una cierta clase extraída del set de entrenamiento[14]. Aplicando este teorema se llega a la hipótesis más probable, se define la clase c:
𝑐∗ = arg𝑚𝑎𝑥! 𝑃 𝑐 𝑑
El clasificador bayesiano Naive es muy utilizado para la clasificación de textos, la clasificación viene dada por el valor de máxima probabilidad a posteriori, MAP, donde los términos se estiman basándose en ejemplos de entrenamiento. El clasificador Naive supone que los atributos son independientes entre sí con respecto al concepto objetivo, con lo que su aproximación resulta:
𝑣!" = argmax𝑃 𝑣! 𝑃(𝑎!|𝑣!)!
A pesar de la simplicidad de este algoritmo y de que el hecho de que claramente en situaciones del mundo real no se puede asegurar la suposición tomada de la independencia de los atributos, es un método que funciona con un alto porcentaje de aciertos.
Ø Máxima entropía
La clasificación por máxima entropía, ME, es una técnica alternativa que ha demostrado ser efectiva en muchas aplicaciones de procesamiento del lenguaje natural, en ocasiones con mejores resultados incluso que el clasificador bayesiano. En este método la probabilidad de que el texto corresponda a una determinada clase debe maximizar la entropía de clasificación [14]. La estimación de P(c|d), probabilidad de que el texto pertenezca a una determinada clase, aquí adquiere la forma:
𝑃!" 𝑐 𝑑 =1
𝑍 𝑑 exp λ𝑖,𝑐𝐹𝑖,𝑐 𝑑, 𝑐!
Donde Z(d) es una constante de normalización y λ!,! son los pesos de los parámetros, si este valor es alto indica que la Fi se considera un fuerte indicador para la clase considerada c. Los valores de los parámetros se establecen para maximizar la entropía de la distribución introducida. Y Fi,c es:
𝐹!,!(𝑑, 𝑐!) =1, 𝑛! 𝑑 > 0 𝑦 𝑐! = 𝑐0, 𝑟𝑒𝑠𝑡𝑜
Es importante destacar que este método, a diferencia del anterior, no hace suposiciones sobre las relaciones entre los atributos, por lo que podría realizar mejores clasificaciones en los problemas en los que no se cumplan las supuestas relaciones de independencia.
26
Ø SVM (Support Vector Machines)
Finalmente estudiamos el algoritmo SVM32, es la técnica más utilizada para la clasificación por análisis de sentimientos, especialmente en twitter, con probabilidades de acierto usualmente mayores que el método de Naive Bayes[15].
Suponiendo que tuviéramos un caso en el que queremos clasificar en dos categorías (por ejemplo, positivo y negativo), la idea principal es encontrar un hiperplano representado por el vector 𝑤, que no sólo separe los vectores del documento en una de las dos categorías, sino que haga que la separación sea lo más grande posible [16].En la siguiente imagen se muestra esto:
Fuente: Elaboración propia a partir de 33
El margen máximo es la distancia entre el punto de decisión (hiperplano óptimo) y el punto más cercano a este. Los “support vector” son un conjunto de características o datos que definirán la posición del hiperplano óptimo. Hay que resaltar que es clave la elección de la posición del hiperplano óptimo ya que los datos que estén situados próximos a él serán los más susceptibles a una clasificación errónea.
Si estudiamos el SVM desde el punto de vista algebraico y definimos cj ∈ {1, −1}, siendo 1 positivo y -1 negativo, el vector 𝑤 queda:
𝑤 = 𝛼!𝑐!𝑑!, 𝛼! ≥ 0!
,
De esta manera, se tiene un set de entrenamiento donde cada muestra tiene un peso y un vector asociado que separa lo máximo posible los casos positivos de los negativos. Normalmente cada muestra es una palabra a la que se le asigna un peso mayor o igual a cero durante la fase de aprendizaje. Todas las palabras 𝑑! para las cuales 𝛼! ≥ 0 forman parte de lo que hemos llamado antes “support vector”, las palabras que aún no hayan sido entrenadas son asignadas a los support vectors más cercanos. Resumiendo lo visto 32 Máquinas de vectores de soporte 33 http://docs.opencv.org/doc/tutorials/ml/introduction_to_svm/introduction_to_svm.html
27
anteriormente, la clasificación consiste en determinar a qué lado del hiperplano 𝑤 pertenece cada caso.
4.1.2 Aprendizaje no supervisado
La principal diferencia con respecto del aprendizaje supervisado es que en este no hay conocimiento a priori, es decir, sólo se dispone de información de las entradas, no de las salidas. El aprendizaje extrae conocimiento útil de la información disponible.
Una de las técnicas utilizadas en el aprendizaje no supervisado es la clasificación mediante el uso de diccionarios.
Ø Uso de diccionario léxico-emocional
Esta técnica se basa en realizar un diccionario o lista de palabras asignadas a una categoría emocional (positivo o negativo) y con un determinado peso (grado de positivo y grado de negativo). Una vez hecho esto, se realiza una comparación palabra por palabra del texto a clasificar con el diccionario y dependiendo del número de palabras que coincidan con las del diccionario y su grado de sentimiento se asignan a una u otra categoría34.
No es necesario la elaboración de un diccionario propio para el análisis de sentimientos puesto que hay muchos disponibles en la web, los más fiables se encuentran en inglés, se puede utilizar uno ya hecho y añadir o eliminar palabras en función del tema bajo estudio.
En el punto 4.2 se estudiará más a fondo el aprendizaje no supervisado.
4.1.3 Aplicación a nuestro proyecto
Los cuatro métodos analizados en la mayoría de los estudios obtienen más de un 65% de probabilidad de acierto, donde el mayor de ellos suele ser el método de la clasificación por un diccionario léxico.
En nuestro proyecto se intentó implantar un modelo no supervisado. Extrajimos los tweets de la ciudad de Madrid para categorizarlos y realizar el modelo de entrenamiento, pero nos encontramos con que el número de tweets que hablaban de cosas como “semáforos” o “alcantarillas” era tan reducido que ni si quiera había información suficiente para realizar el modelo.
Posteriormente nos planteamos utilizar un diccionario léxico para su clasificación, pero al probarlo en un número reducido de tweets nos dimos cuenta de que no tenía sentido el análisis de sentimiento en este proyecto, puesto que en casi la totalidad de los casos en los que la gente utiliza twitter para hablar sobre cosas como: farolas, aceras, bocas de riego… es para expresar una opinión negativa al respecto.
Debido a esto se decidió realizar una clasificación por temas/tópicos ya que con ello se extrae una información mucho más valiosa en nuestro caso, obteniendo la relevancia de cada ámbito bajo estudio en la opinión pública y pudiendo extraer conclusiones al hecho de que se hable mucho o no se hable nada de un tema en concreto. 34 http://repositorio.uchile.cl/bitstream/handle/2250/130479/cf-‐montesinos_lg.pdf?sequence=1&isAllowed=y
28
4.2 Clasificación por temas En primer lugar debemos tener en cuenta que la clasificación de un texto (TC, Text Classification) tiene una componente subjetiva, incluso dos expertos podrían no ponerse de acuerdo a la hora de clasificar un texto en concreto35.
Para clasificar automáticamente un texto, definimos un conjunto posibles clases C, 𝐶 = 𝑐!,… , 𝑐! y un conjunto de documentos a clasificar D, 𝐷 = 𝑑!,… ,𝑑! . La clasificación automática viene dada por una función 𝜑 llamada clasificador la cual realiza una hipótesis sobre la correspondencia del par 𝑑! , 𝑐! . El objetivo del clasificador es aproximarse lo máximo posible a la función objetivo 𝜗 que comprueba si la sentencia 𝑑! , 𝑐! es correcta o no.
Si los elementos de C son independientes entonces cada documento sólo se puede clasificar en una clase, esto se llama “single-label”. Si por el contrario si un documento puede tener varias clasificaciones se le denomina “multi-label”. Cualquiera de estos dos casos se pueden resolver definiendo la función clasificador. Puede hacerse de dos maneras distintas:
1. DPC: tomando como base un documento di se buscan en C las clases que dan soluciones correctas a la función 𝜑 𝑑! , 𝑐!
2. CPD: tomando como base una clasificación cj se buscan en D los documentos que cumplen la función clasificación.
La más utilizada de las dos es la primera y además es mucho más intuitiva.
La función objetivo es evaluada por un experto y es la referencia para cualquier tipo de modelo, mientras que, la función clasificador puede ser llevada a cabo mediante gran variedad de técnicas, algunas de ellas coinciden con las explicadas en el punto anterior sobre la clasificación por análisis de sentimiento, esto se debe a que en realidad el análisis de sentimiento es una particularización del método general de clasificación de textos. Por lo tanto, aquí también se pueden clasificar las diferentes técnicas en clasificación supervisada y la no supervisada, dentro de esta última aparece el “Text Clustering” o “Análisis de cluster” que tiene como objetivo tratar de distinguir distintas categorías en un conjunto de documentos y agruparlos en función de ellas.
Para poder llevar a cabo una clasificación del texto, en primer lugar hay que preprocesarlo para eliminar las denominadas “stopwords”. Las stopwords son palabras que carecen de significado por lo que no aportan ninguna ayuda a la hora de la clasificación, son los pronombres, preposiciones, conjunciones… Una vez hecho esto, si se quiere realizar un modelo vectorial se define cada documento como:
𝑑! → 𝑑! = 𝑤!!,… ,𝑤!"
Siendo wi,k los valores de los pesos que tiene cada característica en un documento. Las m características son seleccionadas a partir de lo que se cree definitorio en un texto y las
35 http://adimen.si.ehu.es/~rigau/teaching/EHU/PLN/Curs2006-‐2007/Presentacions/TC.pdf
29
expresamos como “Ch”. Todos los vectores 𝑑! poseen las mismas dimensiones y tienen posiciones vacías si su texto no contiene esa característica. Se define la matriz A como 𝐴 = 𝑤!" a partir de la cual se pueden construir modelos de aprendizaje automático para la clasificación. La clasificación será supervisada si a esta representación se le añaden las clases y no supervisada si se desconocen.
Debido a que ya hemos estudiado en bastante profundidad las principales técnicas de clasificación supervisada, vamos a centrarnos en la no supervisada, más concretamente en el análisis de cluster, ya que se trata del método más utilizado para realizar esta clasificación.
4.2.1 Análisis de cluster
También llamado taxonomía numérica36, es el método que se usa para establecer grupos de documentos en función de las características que tengan en común. Los algoritmos de clustering agrupan un conjunto de documentos en clusters. El objetivo del algoritmo es crear clusters en los cuales los documentos sean lo más similares posibles y a la vez que se diferencien lo máximo posible de los demás clusters.37
La siguiente figura representa cómo se encuentran los datos antes de realizar el clustering y cómo aparecen después:
Fuente: Elaboración propia a partir de 32
La diferencia entre clasificación y clustering puede no parecer mucha pero en realidad sí que lo es. La clasificación es una técnica de aprendizaje supervisado en el que se intenta
36 https://rev-‐inv-‐ope.univ-‐paris1.fr/files/31310/31310-‐03.pdf 37 http://nlp.stanford.edu/IR-‐book/pdf/16flat.pdf
30
replicar las distintas categorías que ha impuesto un humano, mientras que el clustering no hay nadie que nos guíe. La clave de este algoritmo es la medida de la distancia, normalmente se trabaja con la distancia euclídea cuando se aplica para la agrupación de documentos38.
Dos técnicas importantes son el clustering particional y el clustering jerárquico. En la primera de ellas el algoritmo parte de un conjunto de clusters dónde todos los elementos pertenecen a un grupo siendo este grupo disjunto, durante su ejecución los elementos son reasignados hasta cumplir con el criterio inicial. La dificultad de este método es la elección previa de las clases. En el segundo tipo en cada paso se va agrupando aquellos grupos más próximos para formar así nuevos grupos de manera jerárquica[17].
Los algoritmos de clustering más conocidos son:
• K-means: Es el algoritmo de clustering más utilizado, pertenece al tipo de algortimos particionales. Su objetivo es minimizar el cuadrado de la distancia euclídea media de cada documento hasta el centro del cluster. Un cluster ideal es una esfera con el centroide como centro de gravedad, donde además los clusters no se solaparan entre sí39.
• EM (Expectation-Maximization): Es una generalización del K-means que puede ser aplicado en más variedades de textos.
K-means es el más utilizado de los dos debido a su simplicidad y eficiencia.
4.2.2 Clasificación de tweets por tópicos mediante R
No podemos acabar este punto sin hablar de la clasificación que vamos a realizar en nuestro proyecto. Mediante el programa RStudio extraeremos los tweets de Madrid por distritos, posteriormente los trataremos y los agruparemos automáticamente por temas utilizando diccionarios de palabras. Sin embargo existen otras muchas técnicas y algoritmos para clasificar los tweets por temas.
38 http://sanghyukchun.github.io/ 39 http://marmota.dlsi.uji.es/WebBIB/papers/2007/1_Pascual-‐MIA-‐2007.pdf
31
32
5
Obtención de resultados
Una vez hecho el estudio de las principales tecnologías y temas relacionados con el proyecto, nos centramos en la realización del mismo. Para ello, en este capítulo detallaremos los pasos que se han ido siguiendo durante todo el proceso. Se han obtenido resultados de tres fuentes diferentes, de los avisos interpuestos en la ciudad de Madrid, de los indicadores analizados y de twitter. En esta sección se explica cómo se ha llegado a cada uno de ellos por separado y su interrelación. Para el cálculo de la mediana de edad y el porcentaje de hombres y mujeres de cada distrito se han utilizado los datos del padrón de Madrid. 5.1 Avisos Como se introdujo en el capítulo 1 los avisos/quejas que han sido interpuestos por los ciudadanos de Madrid no pertenecen a los datos abiertos de la ciudad sino que han sido facilitados por el ayuntamiento. Los avisos utilizados en el proyecto son todos los que ha habido desde 2004 hasta 2015.
Ø La primera tarea fue agrupar los avisos en función de los distritos, después se extrajeron las categorías a las que pertenecían y se clasificaron en los cuatro ámbitos de trabajo que ya definimos en la Introducción. Quedando de la forma:
Fuente: Elaboración propia
33
Como se podía prever, la mayor parte de los avisos se engloban dentro de dos ámbitos: “Seguridad y Salud” y “Medio ambiente, Transporte y Movilidad”, este hecho no influye negativamente en la obtención de nuestros resultados, ya lo que se tiene en cuenta en el análisis es la comparación con el resto de distritos.
Ø A continuación mediante RStudio se realizó un filtrado de los avisos de cada distrito para agruparlos en función de su ámbito. El recuento final del número de avisos por distrito que hay en cada ámbito es el siguiente:
Distritos/AVISOS Medio ambiente, transporte y movilidad
Seguridad y salud
Sociedad y bienestar
Cultura, Economía y Educación
Arganzuela 2276 1220 1 34 Barajas 635 319 0 10
Carabanchel 1953 1827 4 30 Centro 9469 2241 0 10
Chamartín 3624 1091 1 20 Chamberí 3458 1265 1 4
Ciudad lineal 2584 1807 4 37 Fuencarral-‐El
Pardo 2956 1485 4 26
Hortaleza 2047 1250 0 26 Latina 2496 1770 0 32
Moncloa-‐Aravaca 3456 1478 0 15 Moratalaz 790 584 1 10
Puente de Vallecas 2267 1744 3 45 Retiro 2892 664 0 11
Salamanca 4155 1118 1 25 San Blas-‐Canillejas 1640 1411 1 39
Tetuan 3123 1385 0 9 Usera 1442 1147 3 21
Vicálvaro 500 365 0 8 Villa de Vallecas 932 702 0 26
Villaverde 1405 923 4 17 Total 54100 25796 28 455
Fuente: Elaboración propia
Como podemos observar en la tabla anterior el distrito con más avisos en total es el de Centro con más del doble que el resto.
34
5.2 Indicadores El siguiente paso fue definir los indicadores que servirían para evaluar el estado de la ciudad, para ello se han tenido en cuenta dos cosas: Por una parte los avisos ya vistos en el punto anterior y por otra qué indicadores podrían definir mejor la calidad de cada ámbito y de los cuales además los ciudadanos intervienen activamente en su elección. Habiendo considerado estos dos aspectos se seleccionaron los siguientes indicadores:
Fuente: Elaboración propia
En la en gran parte de los indicadores lo que usamos es la tasa por habitante. Para su cálculo se descargaron40 los csv (la mayoría de ellos con datos de 2013 pero algunos actualizados con la información de 2014) y se procesaron agrupando los datos en función de los distritos mediante RStudio. Un ejemplo de cómo se presentan los datos de una tabla en RStudio es el siguiente:
Fuente: Elaboración propia
El siguiente paso es obtener los valores extremos de cada indicador y con ello definir tres intervalos. Cada indicador se relacionará con uno de estos intervalos siendo el
40 datos.madrid.es
35
intervalo 1 el mejor en cuanto a calidad y el 3 el peor. Por ejemplo, para el indicador “Intervenciones de policía” del ámbito de Seguridad y Salud: Número máximo de intervenciones: 3618 Número mínimo de intervenciones: 137 Intervalos: [137,1297] – (1297,2457] – (2457,3618] Con lo cual, si el distrito de Barajas cuenta con 137 intervenciones, por lo que el indicador va asociado al intervalo 1 y en su representación se le asignará el color más fuerte:
Siguiendo con el ejemplo, si el distrito de Barajas en el ámbito de Seguridad y Salud tiene sus indicadores en los niveles [1,1,1,2] y el distrito de Carabanchel en [1,3,3,2], sus representaciones quedan respectivamente:
Y podremos determinar que Barajas posee una mayor calidad en el ámbito de Seguridad y Salud que Carabanchel ya que su puntuación es de 5 (1+1+1+2) mientras que la otra es de 9 (1+2+3+2). Mediante las puntuaciones de cada ámbito se van a comparar los distritos, todas ellas están recogidas en el ANEXO A, en él se puede comprobar que la puntuación mínima es de 4 mientras que la máxima es de 11. Con esto se obtienen nuevos intervalos que determinarán el color del ámbito completo: Puntuaciones [4,6] son asignadas al color más oscuro Puntuaciones [7,8] son asignadas al color medio Puntuaciones [9,11] son asignadas al color más claro Una vez que ya tenemos el color que se le debe asignar, se genera el mapa de cada distrito con este color. Esto se consigue utilizando la función de R que nos permite pintar mapas mediante sus coordenadas. Finalizando con el ejemplo anterior, el mapa de Barajas se pintaría con el color más oscuro ya que entra en el primer intervalo y el mapa de Carabanchel con el más claro ya que está incluido en el último intervalo:
5.3 Tweets La utilización de la información procedente de Twitter es fundamental para nuestro proyecto ya que nos aporta la opinión del ciudadano a tiempo real. Como ya comentamos en el capítulo 4, la información más útil que podemos obtener de estos datos es la relevancia de cada ámbito en cada distrito. Para ello se han extraído por separado los tweets escritos en cada distrito en un tiempo determinado y se han clasificado en los cuatro ámbitos:
Ø Obtención de tweets
36
Para la obtención de los tweets por distrito se ha utilizado una herramienta llamada BOA41. El funcionamiento de esta solución online es el que sigue: Primero se accede en la página a la parte para desarrolladores42, después se seleccionan las coordenadas, el día y la localización de la que queremos los tweets. Esto genera una query que al introducirla en la barra de navegación comienza a descargar un archivo json.txt con toda la información de los tweets:
Este proceso se puede hacer directamente mediante Rstudio, que es como lo hemos hecho nosotros. Los tweets se descargan en un archivo JSON 43 desde la fecha y posición que indiquemos en la query. Para nuestro estudio seleccionamos un periodo de 10 días:
1. Se hace un bucle que recorra un archivo dónde están definidas las 4 coordenadas para cada uno de los 21 distritos y otro dentro de este para que lo haga para todos los días indicados. La url que utilizamos es la proporcionada por la plataforma BOA44.
2. A continuación, descargamos el archivo de la url definida en formato .json.txt que será lo que utilicemos posteriormente.
Ø Clasificado en función de los ámbitos
El primer paso para la clasificación de los tweets en nuestro proyecto es la definición de diccionarios de palabras relacionadas con los temas de interés, por ello se hicieron cuatro diccionarios, uno para cada ámbito. La elaboración de estos diccionarios no es algo trivial, al igual que tampoco lo es la clasificación ya que en los temas que nos ocupan incluso para una persona un tweet puede ser ambigüo. Por ello, primero se
41 BOA es solución de Big Open Data para la administración pública (http://www.datune.maddata.es) 42 http://datune.maddata.es/home/developers.html 43 JavaScript Object Notation es un formato para el intercambio de datos 44 Big Open API desarrollada por Everis para el proyecto Datune
37
clasificaron de manera manual los suficientes como para obtener las palabras más relevantes de cada ámbito.
Después, lo que se hizo fue recorrer cada tweet y comprobar palabra por palabra si estaba en alguno de los cuatro diccionarios, una vez recorrido todo el tweet el ámbito con más palabras coincidentes es en el que se clasifica. En caso de empate se clasifica en ambos, para ello se tuvo que elaborar una función “máximo” dado que las que proporciona R sólo se devuelve el primer máximo en el caso de haber más de uno con el mismo valor.
Finalmente, se guardan el número de tweets de cada distrito para cada ámbito en un fichero .csv para que sea más sencillo ver los resultados.
5.4 Presentación de resultados Como ya hemos visto, para la presentación de los resultados de los indicadores se obtiene un mapa del distrito con el color del ámbito gradual en función de lo bien o mal que esté el distrito con respecto de los demás. En los avisos y en los tweets se hace algo parecido. Se ordenan los distritos en función del número de avisos o de tweets obtenidos en tres grupos. En el caso del ámbito de “Seguridad y Salud”, la representación de las tres posibles clasificaciones de tweets y de avisos respectivamente serían:
Con lo que, para finalizar con el ejemplo del apartado anterior, para el distrito de Barajas en el que se habla poco de Salud y Bienestar en twitter pero se han interpuesto muchos avisos la representación quedaría:
El listado de resultados de avisos y tweets por distrito se detalla en los ANEXOS B y C respectivamente.
38
39
6
Estado de calidad de los distritos de Madrid
En esta sección vamos a analizar distrito por distrito el estado de calidad de cada uno con respecto al resto gracias a los resultados obtenidos en nuestro proyecto. Además de la explicación del capítulo 5 sobre la representación debemos recordar también lo visto en el capítulo 1:
Cada vez que se muestren los mapas de cada distrito o el sector circular que representa el nivel de cada indicador en uno de estos tonos significará lo aquí mencionado. A continuación comenzamos con la presentación de resultados por distrito en orden alfabético, se presentarán los 3 primeros distritos y los resultados de los distritos restantes se incluirán en los ANEXOS A,B y C.
40
ARGANZUELA
5 bibliotecas y centros culturales (tasa 30.250 hab.)
8 colegios públicos enseñanza primaria (tasa 1.542hab.)
151.249 hab. mediana edad 43 años
67 áreas infantiles (tasa 208 hab.) 4.244 empresas y locales
8 centros de salud (tasa 18.906 hab.) 85,77 años de esperanza de vida
389 intervenciones de la policía municipal con detenidos e imputados
503 accidentes de tráfico urbano
Mujeres 54% Hombres 46%
9 parques y jardines (tasa 16.805 hab.) 33 µg/m
3 NO2 en el aire
(nivel de polución)
192 paradas autobuses urbanos y metro (tasa 788 hab.)
4.632 plazas de aparcamiento para residentes (tasa 33 hab.)
1 centros atención menores y familia (tasa 151.249 hab.) 1 puntos atención a mujeres (tasa 70.357 hab.)
11,63% tasa estimada de desempleo (9.874 hab.) 9 centros y áreas de mayores (tasa 2.123 hab.)
41
1.239 empresas y locales
BARAJAS
4 bibliotecas y centros culturales (tasa 11.488 hab.) 4 colegios públicos enseñanza primaria (tasa 1.376 hab.)
45.952 hab. mediana edad 41 años
49 áreas infantiles (tasa 122 hab.)
2 centros de salud (tasa 22.976 hab.) 84,50 años de esperanza de vida
137 intervenciones de la policía municipal con detenidos e imputados
131 accidentes de tráfico urbano
Mujeres 51% Hombres 49%
1 parques y jardines (tasa 45.952 hab.) 29 µg/m
3 NO2 en el aire
(nivel de polución)
140 paradas autobuses urbanos y metro (tasa 328 hab.) 211 plazas de aparcamiento para residentes (tasa 218 hab.)
1 centros atención menores y familia (tasa 151.249 hab.) 1 puntos atención a mujeres (tasa 19.289 hab.)
10,64% tasa estimada de desempleo (2.655 hab.) 9 centros y áreas de mayores (tasa 506 hab.)
1.239 empresas y locales
42
CARABANCHEL
9 bibliotecas y centros culturales (tasa 26.894 hab.) 17 colegios públicos enseñanza primaria (tasa 1.397hab.)
242.042 hab. mediana edad 42 años
154 áreas infantiles (tasa 171 hab.)
6.921 empresas y locales
7 centros de salud (tasa 34.577 hab.) 84,16 años de esperanza de vida
291 intervenciones de la policía municipal con detenidos e imputados
575 accidentes de tráfico urbano
Mujeres 53% Hombres 47%
9 parques y jardines (tasa 26.894 hab.) 43 µg/m
3 NO2 en el aire
(nivel de polución)
304 paradas autobuses urbanos y metro (tasa 796 hab.)
2.997 plazas de aparcamiento para residentes (tasa 81 hab.)
4 centros atención menores y familia (tasa 60.511 hab.) 2 puntos atención a mujeres (tasa 54.759 hab.)
17.32% tasa estimada de desempleo (21.631 hab.) 25 centros y áreas de mayores (tasa 1.425 hab.)
43
44
7
Conclusiones
Al hablar de conclusiones debemos tener en cuenta diferentes aspectos, en primer lugar que, el objetivo principal de este proyecto era conocer el estado de calidad de los distritos de Madrid y estos se han presentado en el capítulo 6 y en los Anexos, sin embargo en este capítulo podemos destacar cuáles han sido los distritos mejor y peor valorados para cada ámbito.
7.1 Conclusiones de los resultados A la hora de analizar los resultados tenemos en cuenta que:
- En los indicadores, los colores oscuros son los mejor valorados y los colores claros los peores.
- En los avisos, un número elevado de avisos representa algo negativo. - En los tweets, un número elevado de tweets también se considera algo negativo
y nos da una idea de la relevancia que tiene ese ámbito para la sociedad.
En los avisos, el motivo de porqué un número alto es algo malo, es evidente pero en el caso de los tweets no lo es tanto. Consideramos un número alto de tweets como algo negativo debido a que en los temas de nuestro estudio, la experiencia (la revisión de los tweets clasificados en cualquiera de los cuatro ámbitos), nos ha demostrado que, cuando alguien escribe un tweet , la mayor parte de las veces es para realizar una queja o expresar algún sentimiento negativo. Esto es lógico ya que cuando alguien escribe, por ejemplo, de semáforos o de hospitales por lo general es para decir algo malo.
De acuerdo con los resultados detallados en los ANEXOS A,B y C, para cada ámbito podemos concluir:
Color oscuro indicadores Número bajo de avisos Número bajo de tweets
Color más claro de indicadores Número alto de avisos Número alto de tweets
45
Cultura, Economía y Educación:
La mayoría de los distritos tienen la puntuación con respecto a este ámbito dentro del grado máximo, por lo que para saber cuáles están mejor y cuáles están peor nos apoyamos en los resultados de los avisos y de los tweets.
Los distritos que mejor calidad tienen en el ámbito de Cultura, economía y educación son los de: Arganzuela, Centro y Fuencarral – El Pardo, ya que son los que tienen la mejor puntuación de sus indicadores y además tienen los números más bajos de avisos y un número dentro de la media de tweets. Mientras que el distrito dónde los indicadores están peor puntuados es el de Chamberí y además el número de avisos interpuesto está dentro del rango más elevado.
De este ámbito tenemos que señalar que se trata del más relevante para la opinión pública en todos y cada uno de los 21 distritos.
Seguridad y Salud:
En este ámbito podemos destacar de manera positiva los distritos de Barajas, Hortaleza, Vicálvaro y Villaverde, los cuales tienen los indicadores con mayor calidad y además tienen el menor número de avisos y de tweets salvo Hortaleza que posee un gran número de tweets que hablan de este tema. Los peores valorados son en este caso: Carabanchel, Centro y San Blas – Canillejas, dónde en los dos primeros se vuelve a cumplir que poseen el mayor número de avisos, mientras que el distrito de San Blas – Canillejas tiene sus avisos en el número medio.
Sociedad y Bienestar:
Los distritos mejor considerados en este ámbito son: Arganzuela, Chamberí, Hortaleza y Tetuan, los cuatro con los indicadores mejor puntuados de entre todos los distritos y, además, detacamos Hortaleza y Tetuan ya que en ellos no se ha puesto interpuesto ningún aviso. Por otra parte, el peor distrito de la ciudad de Madrid en el ámbito de Sociedad y Bienestar es el de Ciudad Lineal, con los indicadores peor puntuados y además su número de avisos dentro del mayor rango posible y un número de tweets clasificado en el intervalo mayor.
Medio ambiente, Transporte y Salud:
En el ámbito de Medio ambiente, transporte y salud, destaca positivamente el distrito de Moncloa – Aravaca, con los indicadores con los mejores resultados, sin embargo a diferencia del resto de casos, en este el número de avisos interpuestos en él está dentro del mayor rango y con el número de tweets ocurre lo mismo.
46
Por último, el distrito que sobresale de manera negativa del resto es el de Puente de Vallecas, siendo sus indicadores mucho mayores (más negativos) que los del resto, con un número de avisos y un número de tweets muy reducido.
7.2 Conclusiones del proyecto Una de las principales conclusiones que podemos extraer del punto anterior es que hay una interrelación clara entre el número de avisos interpuestos en un ámbito y su calidad. Cumpliendo de esta manera algo por otra parte lógico, ya que se demuestra así que en los distritos dónde menos avisos se realizan por los ciudadanos es dónde mejor van las cosas (según los indicadores de calidad). Este hecho es más evidente en los extremos (mejores y peores distritos) dónde lo cumplen más del 75% de los casos comentados en el punto previo, mientras que en los distritos que se encuentran dentro de la media vemos que no existe un patrón definido.
Otra de las conclusiones que obtenemos de la observación de los datos es que el ámbito del que más se habla en twitter es: “Cultura, economía y educación”, es lógico ya que son los temas de mayor actualidad. En cuanto a la influencia de los tweets sobre el estado de calidad de los ámbitos vemos que no es vinculante la mejor o peor calidad del distrito en un ámbito con una mayor o menor relevancia en twitter, puesto que no se ha encontrado ningún patrón entre estos dos datos.
7.3 Líneas de trabajo futuras No podemos finalizar este proyecto sin hablar de las líneas de trabajo futuras que se contemplan. Debido a que la realización del mismo se ha hecho para la ciudad de Madrid, uno de los trabajos futuros más plausibles es la ampliación del proyecto a toda la comunidad de Madrid e incluso al resto de España a partir de los datos abiertos de las comunidades autónomas. El proceso sería el mismo, pero cambiando la información de entrada de los distritos por la de las comunidades autónomas.
Otra posible mejora atendiendo a la parte técnica del proyecto sería que, a la hora de recopilar y clasificar los tweets, en el caso de que el trabajo fuera para toda España podrían usarse técnicas de Data mining en lugar del uso de diccionarios, ya que contaríamos con una mayor cantidad de tweets para los temas bajo estudio.
47
VI
ANEXO A
RESULTADOS INDICADORES à Tabla de las puntuaciones de cada ámbito de los 21 distritos respecto de los indicadores:
Cultura, economía y educación
Seguridad y salud
Sociedad y bienestar
Medio ambiente, transporte y movilidad
Arganzuela 5 6 5 7 Barajas 6 5 6 8 Carabanchel 6 10 7 9 Centro 5 11 6 6 Chamartín 8 7 7 5 Chamberí 9 7 5 8 Ciudad lineal 6 6 10 8 Fuencarral-‐El Pardo 5 8 7 5 Hortaleza 7 5 5 5 Latina 5 6 9 8 Moncloa-‐Aravaca 6 6 6 4 Moratalaz 6 6 6 6 Puente de Vallecas 6 7 8 11 Retiro 7 7 8 6 Salamanca 8 7 8 8 San Blas-‐Canillejas 6 9 6 7 Tetuan 6 7 5 9 Usera 6 6 7 9 Vicálvaro 6 5 6 6 Villa de Vallecas 6 8 6 8 Villaverde 6 6 6 8
VII
àTabla anterior incluyendo los colores de los intervalos a los que pertenece cada puntuación:
Cultura, economía y educación
Seguridad y salud
Sociedad y bienestar
Medio ambiente, transporte y movilidad
Arganzuela 5 6 5 7 Barajas 6 5 6 8 Carabanchel 6 10 7 9 Centro 5 11 6 6 Chamartín 8 7 7 5 Chamberí 9 7 5 8 Ciudad lineal 6 6 10 8 Fuencarral-‐El Pardo 5 8 7 5 Hortaleza 7 5 5 5 Latina 5 6 9 8 Moncloa-‐Aravaca 6 6 6 4 Moratalaz 6 6 6 6 Puente de Vallecas 6 7 8 11 Retiro 7 7 8 6 Salamanca 8 7 8 8 San Blas-‐Canillejas 6 9 6 7 Tetuan 6 7 5 9 Usera 6 6 7 9 Vicálvaro 6 5 6 6 Villa de Vallecas 6 8 6 8 Villaverde 6 6 6 8
VIII
àEl mapa global de la ciudad de Madrid para cada ámbito resulta:
IX
ANEXO B
RESULTADOS AVISOS Cultura, economía y educación
Arganzuela Chamartín Barajas Carabanchel Hortaleza Chamberi Ciudad Lineal Moncloa -‐ Aravaca Centro
Fuencarral – El Pardo Salamanca Moratalaz Latina Usera Retiro
Puente de Vallecas Villa de Vallecas Tetuan San Blas -‐ Canillejas Villaverde Vicalvaro
Seguridad y salud
Barajas Arganzuela Carabanchel Chamartin Chamberi Centro Moratalaz Hortaleza Ciudad Lineal Retiro Salamanca Fuencarral -‐ El Pardo
Vicalvaro San Blas -‐ Canillejas Latina Villa de Vallecas Tetuan Moncloa -‐ Aravaca
Villaverde Usera Puente de Vallecas
Medio ambiente, transporte y movilidad
Barajas Arganzuela Centro
Moratalaz Carabanchel Chamartin San Blas -‐ Canillejas Ciudad Lineal Chamberi
Usera Hortaleza Fuencarral -‐ El Pardo Vicalvaro Latina Moncloa -‐ Aravaca
Villa de Vallecas Puente de Vallecas Salamanca Villaverde Retiro Tetuan
X
Sociedad y bienestar
Barajas Arganzuela Puente de Vallecas Carabanchel Centro Chamartin Usera Ciudad Lineal
Hortaleza Chamberi
Fuencarral -‐ El Pardo Latina Moratalaz
Villaverde
Moncloa -‐ Aravaca Salamanca Retiro San Blas -‐ Canillejas Tetuan
Vicalvaro Villa de Vallecas
XI
ANEXO C
RESULTADOS TWEETS
Cultura, economía y educación
Chamartin Arganzuela Carabanchel Moratalaz Barajas Centro
Puente de Vallecas Fuencarral -‐ El Pardo Chamberi Retiro Salamanca Ciudad Lineal Usera San Blas -‐ Canillejas Hortaleza
Villa de Vallecas Tetuan Latina Vicalvaro Villaverde Moncloa -‐ Aravaca
Seguridad y salud
Barajas Arganzuela Centro Chamartin Carabanchel Chamberi
Puente de Vallecas Fuencarral -‐ El Pardo Ciudad Lineal San Blas -‐ Canillejas Moratalaz Hortaleza
Usera Salamanca Latina Vicalvaro Tetuan Moncloa -‐ Aravaca
Villa de Vallecas Villaverde Retiro
Medio ambiente, transporte y movilidad
Chamartin Barajas Arganzuela Hortaleza Chamberi Carabanchel
Puente de Vallecas Moratalaz Centro San Blas -‐ Canillejas Salamanca Ciudad Lineal
Usera Retiro Fuencarral -‐ El Pardo Vicalvaro Tetuan Latina
Villa de Vallecas Villaverde Moncloa -‐ Aravaca
XII
Sociedad y bienestar
Chamartin Barajas Arganzuela Puente de Vallecas Chamberi Carabanchel
Salamanca Latina Centro San Blas -‐ Canillejas Moratalaz Ciudad Lineal
Retiro Tetuan Fuencarral -‐ El Pardo Vicalvaro Usera Hortaleza
Villa de Vallecas Villaverde Moncloa -‐ Aravaca
à Tabla en la que se recogen los resultados de los tweets clasificados en 10 días por distrito y ámbito:
Distritos/ TWEETS
Medio ambiente, transporte y movilidad
Seguridad y salud
Sociedad y bienestar
Cultura, Economía y Educación
Tweets totales clasifica-‐dos
Tweets totales descar-‐gados
Arganzuela 23 37 17 160 237 1021 Barajas 11 16 7 140 174 841
Carabanchel 22 34 25 245 326 2401 Centro 82 34 65 780 961 5219
Chamartín 2 0 0 5 7 38 Chamberí 30 26 9 166 231 1170
Ciudad lineal 33 33 15 221 302 2035 Fuencarral-‐El
Pardo 21 27 14 156 218 1066
Hortaleza 26 10 17 170 223 1315 Latina 32 32 11 226 301 2281
Moncloa-‐Aravaca
61 38 12 258 369 1870
Moratalaz 11 19 5 106 141 812 Puente de Vallecas
4 5 0 28 37 312
Retiro 24 15 3 105 147 790 Salamanca 17 26 1 114 158 823 San Blas-‐Canillejas
0 14 5 115 134 1000
Tetuan 13 23 7 147 190 890 Usera 6 14 6 54 80 541
Vicálvaro 3 9 3 39 54 411 Villa de Vallecas
0 1 0 18 19 136
Villaverde 20 17 7 135 179 1378 Total 441 430 229 3388 4488 22331
XIII
XIV
Bibliografía
[1] Bouckaert, G. (1995). Remodeling Quality and Quantity in a Management Context. In: Public Productivity Through Quality and Strategic Management, eds. A. Halachmi and Geert Bouckaert.
[2] INAP, La Agencia Estatal de Evaluación de la Calidad de los Servicios y de las Políticas Públicas. https://books.google.es/books?id=P_ik_dJNIWcC
[3] Parasuraman, A., Zeithaml, V. Y Berry, L. (1988): “SERVQUAL: a multiple scale for measuring consumer perceptions of service quality”. Journal of Retailing, 64, 12-40. [4] Castells, M. (2004). La era de la información: economía, sociedad y cultura (Vol.1). siglo XXI
[5] Ward, J. S., & Barker, A. (2013). Undefined by data: a survey of big data definitions. arXiv preprint arXiv:1309.5821.
[6] Valenzo, M. R., Valencia, R. E. C., & Castro, J. M. M. (2013). Integración de búsquedas de texto completo en Bases de Datos noSQL. Vínculos, 8(1), 80-92.
[7] Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.
[8] Guyon, I. (2008). Introduction to Machine Learning. Slides and Videolecture.
[9] Bizer, C., Boncz, P., Brodie, M. L., & Erling, O. (2012). The meaningful use of big data: four perspectives--four challenges. ACM SIGMOD Record, 40(4), 56-60.
[10] Del uso del Big Data, B. (2015). Big Data para pymes. Sage, 900(878), 902.
[11] Banet, T. A. (2001). La minería de datos, entre la estadística y la inteligencia artificial. Questiió: Quaderns d'Estadística, Sistemes, Informatica i Investigació Operativa, 25(3), 479-498.
[12] Garriga-Portolà, M. (2011). ¿ Datos abiertos? Sí, pero de forma sostenible. El profesional de la información, 20(3), 298-303.
[13] “Machine Learning”, Capítulo 6, Tom M. Mitchell, McGraw-Hill International Editions.
[14] Pang, B., Lee, L., & Vaithyanathan, S. (2002, July). Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10(pp. 79-86). Association for Computational Linguistics.
XV
[15] P. R. a. H. S. Christopher D. Manning, «Capítulo 13 y 15,» de Introduction to Information Retrieval, Cambridge University Press, 2008, pp. 319-326.
[16] Electrico, I.C., & García, L. M. (2014). Análisis de sentimientos y predicción de eventos en twitter.
[17] Guha, S., Rastogi, R., & Shim, K. (1999, March). ROCK: A robust clustering algorithm for categorical attributes. In Data Engineering, 1999. Proceedings., 15th International Conference on (pp. 512-521). IEEE.