67
UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN Departamento de Ingeniería de Sistemas Telemáticos TRABAJO DE FIN DE GRADO DISEÑO DE UNA METODOLOGÍA DE EVALUACIÓN DE SERVICIOS PÚBLICOS BASADA EN MODELOS ANALÍTICOS SOBRE DATOS ABIERTOS Y DE REDES SOCIALES Irene Fernández Sánchez Julio de 2015

UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

   

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN

Departamento de Ingeniería de Sistemas Telemáticos

TRABAJO DE FIN DE GRADO

DISEÑO DE UNA METODOLOGÍA DE EVALUACIÓN DE SERVICIOS PÚBLICOS

BASADA EN MODELOS ANALÍTICOS SOBRE DATOS ABIERTOS Y DE REDES SOCIALES

Irene Fernández Sánchez

Julio de 2015  

Page 2: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

   

TRABAJO DE FIN DE GRADO

Título: Diseño de una metodología de evaluación de servicios públicos

basada en modelos analíticos sobre datos abiertos y de redes sociales Autor: Irene Fernández Sánchez Tutor: Sonia Taborcia Hernández Ponente: Juan Carlos Yelmo García Departamento: Ingeniería de Sistemas Telemáticos MIEMBROS DEL TRIBUNAL CALIFICADOR

Presidente: Juan Carlos Yelmo García Vocal: Miguel Ángel de Miguel Cabello Secretario: José María del Alamo Ramiro FECHA DE LECTURA:

CALIFICACIÓN:

Page 3: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

   

 

   

Page 4: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

   

UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACIÓN

Departamento de Ingeniería de Sistemas Telemáticos

TRABAJO DE FIN DE GRADO

DISEÑO DE UNA METODOLOGÍA DE EVALUACIÓN DE SERVICIOS PÚBLICOS

BASADA EN MODELOS ANALÍTICOS SOBRE DATOS ABIERTOS Y DE REDES SOCIALES

Irene Fernández Sánchez

Julio de 2015  

Page 5: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Page 6: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

I      

Resumen  

La presente memoria es el resultado de un proyecto cuya finalidad es evaluar la calidad de los servicios públicos de la ciudad de Madrid.

Mediante la combinación de datos objetivos procedentes de datos abiertos y datos de redes sociales se consigue determinar el estado de calidad relativa de los servicios públicos de los 21 distritos que conforman Madrid: Arganzuela, Barajas, Carabanchel, Centro, Chamartín, Chamberí, Ciudad Lineal, Fuencarral – El Pardo, Hortaleza, Latina, Moncloa – Aravaca, Moratalaz, Puente de Vallecas, Retiro, Salamanca, San Blas – Canillejas, Tetuán, Usera, Vicálvaro, Villa de Vallecas y Villaverde.

Los datos objetivos utilizados son de dos tipos, uno de ellos lo forman los avisos/quejas interpuestas por los ciudadanos de Madrid y el otro grupo procede de los datos abiertos que facilita el ayuntamiento en su página web. Estos últimos se tratan mediante el programa RStudio para obtener unos indicadores previamente definidos y realizar una comparación con respecto del resto de distritos.

Los datos procedentes de redes sociales se procesan y filtran para ver la relevancia que tiene cada ámbito de los indicadores definidos dentro de la sociedad. El objetivo de esto es determinar la importancia en la opinión pública de cada ámbito y gestionar de manera más eficiente los recursos del ayuntamiento en función de esto.

Finalmente, una vez combinados estos datos, se presentan en un informe dinámico, de manera que las conclusiones obtenidas se entiendan de forma clara y sencilla para todo tipo de público.

 

 

 

 

 

Palabras clave:

• R • Analítica de datos • RStudio • Servicios públicos • Big Data • Open Data • Twitter • Redes Sociales  

Page 7: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

II    

Abstract  

The aim of this project is to evaluate the quality of the public services in Madrid city.

By combining objective open data and social networking data we are able to determine the relative quality level of the public services of each district that comprise Madrid: Arganzuela, Barajas, Carabanchel, Centro, Chamartín, Chamberí, Ciudad Lineal, Fuencarral – El Pardo, Hortaleza, Latina, Moncloa – Aravaca, Moratalaz, Puente de Vallecas, Retiro, Salamanca, San Blas – Canillejas, Tetuán, Usera, Vicálvaro, Villa de Vallecas y Villaverde.

There are two types of objective data in our study, one of them is composed by the complaints filed by the citizens of Madrid, and the other one derived from open data provided by the council on its website. The latter are treated by the program RStudio to get previously defined indicators and to do a comparison of the rest of districts.

The data from social media are processed and filtered to get the relevance in the society about the topic under analysis, in this case is the category of the indicator that we are analyzing. The aim of this is to determinate the public opinion impact of each thematic area and in order to manage more efficiently the resources of the City hall accordingly.

Finally, once we have combined the data, they are represented in a dynamic report, so that the conclusions obtained can be understood in a clearly and simply way accessible to all.

 

 

 

 

 

 

 

Keywords:

• R • Data analysis • RStudio • Public services • Big Data • Open Data • Twitter • Social media

Page 8: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

III    

  Índice  

 Resumen  ........................................................................................................................................  I  

Abstract  .........................................................................................................................................  II  

Índice  ...........................................................................................................................................  III  

1   Introducción  .....................................................................................................................  1  

1.1   Introducción  ........................................................................................................  1  

1.2   Metodología  ........................................................................................................  4  

1.3   Motivaciones  .......................................................................................................  5  

1.4   Objetivos  ..............................................................................................................  5  

1.5   Estructura  del  documento  ...................................................................................  6  

2   Evaluación  de  los  servicios  públicos  .................................................................................  8  

2.1   Guías  de  evaluación  .............................................................................................  8  

2.2   Metodologías  de  evaluación  de  los  servicios  públicos  ........................................  9  

2.2.1   Niveles  de  calidad  social  .........................................................................  9  

2.2.2   Perspectivas  de  evaluación  ...................................................................  10  

3   Estudio  del  Arte  ..............................................................................................................  15  

3.1   Análisis  de  datos  ................................................................................................  15  

3.2.1   R/RStudio  ..............................................................................................  16  

3.2   Big  Data  ..............................................................................................................  17  

3.2.1   Definición  ..............................................................................................  17  

3.2.2   Datos  significativos  y  Web  de  Datos  .....................................................  19  

3.2.3   Big  Data  como  medio  empresarial  ........................................................  20  

3.2.4   Data  mining  ...........................................................................................  21  

3.2   Open  Data  ..........................................................................................................  22  

3.2.1   Definición  ..............................................................................................  22  

3.2.2   Big  Open  Data  .......................................................................................  22  

4   Clasificación  de  datos  subjetivos  ....................................................................................  24  

4.1   Clasificación  por  análisis  de  sentimientos  .........................................................  24  

4.1.1   Aprendizaje  supervisado  .......................................................................  24  

4.1.2   Aprendizaje  no  supervisado  ..................................................................  27  

4.1.3   Aplicación  en  nuestro  proyecto  ............................................................  27  

4.2   Clasificación  por  temas  ......................................................................................  28  

4.2.1   Análisis  de  cluster  .................................................................................  29  

Page 9: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

IV    

4.2.2   Clasificación  por  tópicos  en  twitter  ......................................................  30  

5   Obtención  de  resultados  ................................................................................................  32  

5.1   Avisos  .................................................................................................................  32  

5.2   Indicadores  ........................................................................................................  34  

5.3   Tweets  ...............................................................................................................  35  

5.3   Presentación  de  resultados  ...............................................................................  37  

6   Estado  de  calidad  de  los  distritos  de  Madrid  .................................................................  39  

7   Conclusiones  ...................................................................................................................  44  

7.1   Conclusiones  de  los  resultados  ..........................................................................  44  

7.2   Conclusiones  del  proyecto  .................................................................................  46  

7.2   Líneas  de  trabajo  futuras  ...................................................................................  46  

Anexos  ........................................................................................................................................  VI  

Anexo  A:  Resultados  indicadores  ............................................................................................  VI  

Anexo  B:  Resultados  avisos  ......................................................................................................  IX  

Anexo  C:  Resultados  tweets  .....................................................................................................  XI  

Bibliografía  ................................................................................................................................  XIV  

     

 

Page 10: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

V      

 

Page 11: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

1      

1  

Introducción      

 

1.1. Introducción La transformación digital en la administración pública ha ocasionado que la

relación entre ciudadano y administración haya cambiado, ambos deben acercarse, responder y cooperar en un nuevo entorno. Y para ello las administraciones deben ser capaces de funcionar de dos formas, dando sostenibilidad a los procesos tradicionales y respondiendo a las nuevas inquietudes. En este nuevo entorno digital el medio por el cual se consiguen ambas son, los datos.

Las nuevas tecnologías, de tratamiento de datos y de análisis de información, llamadas “Big Data & Analytics”, posibilitan la generación de conocimiento a partir de la gran cantidad de datos que se producen diariamente. Para que sea posible generar ese conocimiento, tiene que haber una innovación y un análisis de los datos sostenible tanto en calidad como en cantidad. Estos datos pueden ser de dos tipos:

• Evidencia: datos objetivos que permitan una toma de decisiones fundamentada, y una cuantificación para la planificación y evaluación.

• Personal: datos subjetivos, que expresan percepciones, intenciones, emociones y que ayudan a dar los últimos matices sobre las decisiones que se han tomado gracias a las evidencias, esto hace que se incluyan en el proceso todos los interesados.

Mediante el uso de la tecnología somos capaces de utilizar todos estos datos sin limitaciones o necesidad de muestreos (esto no sería posible sin los avances tecnológicos que han tenido lugar las últimas décadas). Ambos tipos de datos deben contribuir de forma combinada y completa a la toma de decisiones en todo el ciclo de las políticas públicas y del diseño e implementación de servicios al ciudadano. A continuación definimos en mayor profundidad las fuentes de datos utilizadas en este trabajo:

Page 12: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

2      

   

Fuente:  Elaboración  propia  

Los datos objetivos de la ciudad están disponibles desde un punto de vista estadístico o abierto tanto en el banco de datos de la ciudad como en el portal de datos abiertos del propio ayuntamiento1. Por ejemplo, uno de estos datos pueden ser el número de Centros culturales por distrito y el número de Bibliotecas por distrito. Con ellos y los del padrón de habitantes de cada distrito se consigue el indicador que utilizaremos más adelante: “Tasa de habitantes por bibliotecas y centros culturales”, indicador incluido dentro de los que forman el ámbito de “Cultura, economía y educación”.

Dentro de los datos objetivos existe una parte no abierta que ha sido facilitada por el ayuntamiento en este proyecto, estos son los avisos/quejas interpuestas por los ciudadanos sobre incidencias que observan en la vía urbana (en el presente documento cada vez que se hable de “avisos” nos referiremos a este término). Los avisos pueden haber sido realizados a través de diferentes medios:

- Vía presencial en las oficinas habilitadas para ello - Vía telefónica - Vía online través de la página del ayuntamiento

Un ejemplo de un aviso real puede ser: “Los focos del monumento San Martín están rotos” que pertenece a la categoría de “Desperfectos en el alumbrado de monumentos” y esta a su vez pertenece a “Alumbrado monumentos”, que es una de las categorías incluidas en el ámbito “Seguridad y salud”.

En cuanto a los datos subjetivos, las redes sociales (principalmente Twitter) o los blogs y los medios de prensa tradicionales ofrecen una fuente de contenido dinámico y próximo a la realidad concreta de la ciudadanía, con sus preocupaciones intereses y opiniones. En nuestro proyecto trabajaremos sólo con datos subjetivos procedentes de Twitter. En este caso un ejemplo de un tweet real clasificado en el ámbito de Cultura, economía y educación es: “La financiación alternativa crece en España a ritmos del 152%”, recogido dentro del distrito de Arganzuela.

Se van a obtener indicadores individuales pero se va a evaluar de manera global cada ámbito, lo explicamos con más claridad en el siguiente ejemplo:

                                                                                                                         1  datos.madrid.es  

Datos  abiertos  ayuntamiento  

Madrid  

Avisos  interpuestos  por  los  ciudadanos  

Datos  obje^vos  

Redes  sociales  

Encuestas  

Datos  subje^vos  

Page 13: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

3      

Uno de los ámbitos de los que se quiere medir su estado es: Medio ambiente, transporte y movilidad. Para evaluarlo se calculan los indicadores: Nivel de polución, Tasa por habitante de paradas de autobuses urbanos y metro, tasa por habitante de plazas de aparcamiento para residentes y tasa de habitantes por parques y jardines. Los datos objetivos procedentes del banco de datos para su cálculo son: El padrón de habitantes de cada distrito, el nivel de polución del aire, el número de paradas de autobuses urbanos, el número de paradas de metro, el número de aparcamientos para residentes por distrito, el número de parques por distrito y el número de jardines por distrito.

Los datos objetivos procedentes de los avisos son todos aquellos que pertenecen a las categorías clasificadas en el ámbito de medio ambiente, transporte y movilidad: Arbolado viario, marquesinas de autobuses, cubos de basura, recogida de elementos abandonados, etc.

Finalmente, los datos subjetivos son aquellos tweets que determinemos que hablan sobre medio ambiente, transporte o movilidad.

Análisis  de  calidad  del  Ámbito:  Medio  

ambiente,  transporte  y  movilidad.  

Datos  obje^vos  procedentes  del  banco  de  datos  

Padrón  habitantes  de  Madrid  ciudad  

NO2  en  el  aire  por  distrito  

Indicador:  Nivel  de  polución  del  aire  

Número  de  paradas  de  

autobuses  urbanos  Indicador:  Tasa  de  habitantes  por  paradas  de  

autobuses  urbanos  y  metro  

Número  de  paradas  de  metro  

por  distrito  

Número  de  plazas  de  aparcamiento  para  residentes  

Indicador:  Tasa  de  habitantes  por  plaza  de    aparcamientos  para  residentes  

Número  de  parques  por  distrito   Indicador:  Tasa  de  

habitantes  por  parques  y  jardines  Número  de  

jardines  por  distrito  

Datos  obje^vos  procedentes  de  los  

avisos  

Avisos  de  las  categorías:  arbolado  viario,  marquesinas  de  autobuses,  cubos  de  basura,  recogidas  de  elementos  abandonados,  etc    

Datos  subje^vos  procedentes  de  

Twiber  

Tweets  que  hablen  sobre  medio  ambiente,  transporte  o  

movilidad  

Page 14: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

4      

También se consideró la posibilidad de una recogida de datos a nivel de encuesta como información adicional, pero las limitaciones tanto en descubrimiento (es un análisis dirigido y no abierto) como en coste temporal y mantenimiento nos hace decantarnos por un análisis abierto y sostenible.

1.2 Metodología A continuación pasaremos a explicar la metodología usada a la hora de realizar nuestro estudio:

El primer paso del análisis está en la selección de los temas más relevantes para los cuales vamos a extraer la información, con el objetivo de escoger las categorías de ámbitos a analizar no sólo se han elegido los temas que más interesan o preocupan al ciudadano sino aquellos que además se vinculan con su elección electoral.

Según el CIS2 los temas que más preocupan al ciudadano son el paro, la corrupción, los problemas económicos y la política en general, sin embargo en el plano municipal de la alcaldía dependen servicios públicos como la limpieza o la movilidad.

Este análisis ha dado lugar a la selección de 4 ámbitos en los que agruparemos indicadores, los avisos y la información obtenida de Twitter:

• Cultura, Economía y Educación • Seguridad y Salud • Sociedad y Bienestar • Medio ambiente, Transporte y Movilidad.

A cada ámbito le asignamos un color que servirá para identificarla cada vez que estudiemos el estado de los indicadores, avisos o datos de redes sociales:

Sobre cada uno de esos colores se realiza una gradación en función de su nivel de calidad respecto del resto de distritos, que nos servirá para representar esta comparativa con los mapas de cada distrito:

Para expresar la relevancia en Twitter de cada ámbito y el número de avisos por distrito se utiliza lo siguiente respectivamente en el color que sea oportuno para ese ámbito:

                                                                                                                         2  Centro  de  Investigaciones  Sociológicas  

Page 15: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

5      

1.3 Motivaciones Existe una necesidad real por parte de la administración y por parte de los

ciudadanos de saber el estado de calidad de los servicios de la ciudad de Madrid. Hay gran cantidad de indicadores disponibles facilitados por organizaciones públicas o por empresas privadas, sin embargo, en ellos generalmente no se tienen en cuenta las opiniones de los ciudadanos.

La principal motivación de este proyecto ha sido obtener la evaluación de la calidad de la que hemos estado hablando combinando los datos objetivos con los procedentes de la opinión pública de manera que se puedan llegar a conclusiones que se ajusten más a la realidad del día a día de los ciudadanos y no exclusivamente de las estadísticas que proporcionen una serie de indicadores.

Otra de las motivaciones han sido las ganas de aprovechar el gran abanico de

oportunidades que proporciona la utilización del Big Data3. Este término va calando poco a poco en las empresas privadas sin embargo en las públicas por el momento no tiene demasiada acogida. Son innumerables las posibilidades de análisis y de obtención de información que producen, ya que cada día se generan más y más datos, siendo estos la materia prima más importante de la red. Para hacernos una idea, Google procesa al día cerca de 25 petabytes (1015) de datos4, por su parte Facebook, comparte más de 10 millones de fotografías diarias y estas cifras lejos de estancarse o reducirse, aumentan exponencialmente año tras año. La mayor parte de grandes empresas privadas aprovechan todos y cada uno de los datos que genera cada usuario en internet para saber nuestros gustos a la hora de comprar, navegar o visualizar y nos ofrecen un determinado producto antes de que nosotros mismos sepamos que lo queremos o necesitamos. Como vemos, la administración pública necesita renovarse y empezar a beneficiarse tanto el propio organismo y como los ciudadanos de la extracción de esta información, con el fin de mejorar la calidad y la rentabilidad de los servicios que nos proporciona.

1.4 Objetivos Existe un impacto socioeconómico cuantificable del análisis de datos y va ligado

tanto al empleo como a la economía. En términos generales nuestro objetivo es ser capaces de extraer valor de los datos para poder ayudar a la toma de decisiones que

                                                                                                                         3  Término  utilizado  para  referirnos  a  grandes  cantidades  de  datos.  4  http://magazine.good.is/infographics/the-­‐world-­‐of-­‐data-­‐we-­‐re-­‐creating-­‐on-­‐the-­‐internet  

Page 16: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

6      

afectan tanto a política como la gestión, con respecto a las vidas de los ciudadanos de Madrid.

Desgranando este objetivo general en los principales hitos que hemos tenido que llevar a cabo en este trabajo:

- Estudio de las técnicas de evaluación y el estado de los servicios públicos.

- Estudio del análisis de datos y del Big Data. - Estudio de las técnicas de clasificación de datos objetivos. - Aprendizaje del lenguaje R en el entorno RStudio. - Clasificación y cuantificación de los avisos de cada distrito de la

ciudad de Madrid en los cuatro ámbitos definidos previamente. - Definición, cálculo y comparación de indicadores de calidad de los

servicios públicos mediante R/RStudio en base a los datos objetivos procedentes del portal de datos públicos

- Extracción, filtrado, agrupación y cuantificación de los tweets de cada distrito de la ciudad de Madrid en función de los cuatro ámbitos definidos previamente.

- Presentación conjunta de los resultados obtenidos de las tres fuentes. - Presentación de las conclusiones extraídas gracias al estudio y a los

resultados.

1.5 Estructura del trabajo El presente trabajo está estructurado en los siguientes apartados:

1. “Introducción” se realiza una breve introducción sobre el tema a tratar, los objetivos que se pretenden conseguir, las motivaciones, la metodología seguida y la estructura del trabajo.

2. “Evaluación de los servicios públicos” se pretende estudiar las metodologías y las guías facilitadas que posibilitan la evaluación de los servicios.

3. “Estudio del Arte” , se realiza una introducción al análisis de datos y al lenguaje de programación R utilizado mediante RStudio y se analiza por separado el Big Data y el Open Data antes de centrarse en el Big Open Data.

4. “Clasificación de datos subjetivos” trata alguna de las formas de clasificación de textos, centrándose en el análisis de sentimientos y en la clasificación por temas.

5. “Obtención de resultados” es una descripción completa sobre todos los pasos que se han seguido y los principales resultados que se han obtenido

6. “Estado de calidad de los distritos de Madrid” consiste presentación y explicación de los resultados obtenidos.

7. “Conclusiones” se presentan las conclusiones que se han ido extrayendo en cada punto del trabajo y las posibles líneas de trabajo futuras en las que puede derivar este proyecto.

Por último también consta de una Bibliografía y un Anexo.

Page 17: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

7      

                   

Page 18: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

8      

2  

Evaluación  de  los  servicios  públicos      

2.1 Guías para la evaluación de la calidad de los servicios públicos La evaluación periódica de los servicios públicos es esencial para el buen

funcionamiento de la administración. Generalmente la ciudadanía desconoce el estado de la ciudad más allá de su barrio o distrito particular. Es fundamental, y en especial en la actualidad con la situación económica que atraviesa el país, saber el estado de las zonas y servicios públicos.

Para poder evaluar de manera correcta estos servicios primero debemos realizar un análisis sobre los tipos de indicadores y parámetros que nos proporciona la calidad de un servicio público.

En el Real Decreto5 951/2005 se establecen los programas del Marco General de la Mejora de la Calidad. El Marco consta de los siguientes programas: el programa de análisis de la demanda y evaluación de la satisfacción de los usuarios de los servicios, el programa de cartas de servicios, el programa de quejas y sugerencias, el programa de evaluación de la calidad de las organizaciones, y programa de reconocimiento y programa del Observatorio de la Calidad de los Servicios Públicos.

La AEVAL6 es la encargada de facilitar unas guías7 de estos programas en las que se propone una metodología general que pueda ser de aplicación a una pluralidad de tales servicios independiente de cuál sea la administración responsable de hacerlo.

De todas las guías nombradas anteriormente sólo estudiamos las siguientes:

• Guía de Evaluación Modelo EVAM 8(Evaluación, Aprendizaje y Mejora): Este modelo permite hacer una autoevaluación de la organización y del nivel de prestación de los servicios para orientar el camino que se debe seguir, plantea un avance de mejora gradual a través de la aplicación de modelos de calidad. Es un modelo sencillo y asequible que no entra en grandes detalles pero identifica los puntos fuertes y las deficiencias. Todo ello facilita las herramientas necesarias para determinar las oportunidades de mejora y aumentar el rendimiento de las organizaciones.

                                                                                                                         5  http://www.boe.es/diario_boe/txt.php?id=BOE-­‐A-­‐2005-­‐14836  6  Agencia  Estatal  de  Evaluación  de  las  Políticas  Públicas  y  la  Calidad  de  los  Servicios  7  http://www.aeval.es/es/productos_y_servicios/metodologias_y_guias/  8  http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/guia_evam_2009.pdf  

Page 19: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

9      

• Guía para la gestión de quejas y sugerencias9: Es de carácter orientativo y va dirigida a todo tipo de administraciones públicas. Las quejas y las sugerencias tienen una gran importancia para las administraciones ya que son mecanismos activos de participación ciudadana y a través de ellas pueden conocer el grado de satisfacción o descontento que experimenta la sociedad. Ambas deben utilizarse para mejorar la satisfacción de los ciudadanos y mejorar también las prestaciones de los servicios que lo necesiten. Esta guía nos será de gran ayuda a la hora de tratar con los avisos interpuestos en la ciudad de Madrid, donde evaluaremos cuáles son los servicios que tienen más quejas en cada distrito.

• Guía para la evaluación de la calidad de los servicios públicos10: Este documento elaborado por la EAVAL tiene como finalidad conseguir que las prestaciones de los servicios públicos cumplan con las debidas garantías de calidad y que en cada acto, los ciudadanos valoren la eficacia de las instituciones públicas y la calidad de su democracia.

Como vemos hay múltiples mecanismos tanto de autoevaluación como de evaluación externa. La evaluación externa conlleva la validación de las autoevaluaciones realizadas previamente. En el siguiente punto estudiaremos las metodologías existentes para la evaluación de los servicios públicos.

2.2 Metodologías de evaluación de los servicios públicos 2.2.1. Niveles de Calidad Social

De la misma manera que el sector privado tiene en los mercados su indicador más importante, el sector público debe definir mecanismos propios que le permitan medir la eficiencia, eficacia y calidad de los servicios que se prestan.

El enfoque de la calidad de la Administración Pública puede realizarse en tres niveles sociales: el micro, el meso y el macro [1].

• Microcalidad: supone un concepto externo de calidad aplicado a las relaciones internas de una organización. Este nivel da un diagnóstico de la gestión, con el fin de mejorar el funcionamiento del servicio.

• Mesocalidad: es un concepto externo referido a las relaciones entre la organización (proveedor del servicio) y el usuario (el que utiliza el servicio). Su finalidad es incrementar la calidad del servicio atendiendo al grado de satisfacción de los ciudadanos. Se trata de una calidad desde el punto de vista organizacional.

• Macrocalidad es un concepto que se aplica a las relaciones entre la administración pública y la ciudadanía. Su objetivo fundamental es la mejora de la calidad de vida de la sociedad, garantizando la calidad de la democracia. Esto sirve para recuperar la credibilidad y confianza pública, no sólo con respecto a los usuarios concretos de los servicios, sino también al Estado mismo y al sistema de gobernanza, por lo que podemos denominarla

                                                                                                                         9  http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/Guia_QyS_2013.pdf  10  http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/Guia_evaluacion_calidad.pdf  

Page 20: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

10    

calidad de la democracia. La mejora de la macrocalidad contribuye a incrementar la legitimidad del sistema político-administrativo.[2]

 

La micro y la meso calidad conforman la evaluación de los servicios públicos mientras que la macro calidad estudia la evaluación de las políticas públicas, ambas deben retroalimentarse.

Dentro de la calidad debe diferenciarse tres tipos: programada, esperada y recibida11. La programada es aquella que el organismo pensó proporcionar, la esperada es la que el ciudadano creyó que obtendría y la recibida es la comparación que el usuario realiza del servicio prestado y las expectativas que tenía sobre él previamente.

2.2.2. Perspectivas de evaluación

Existen dos perspectivas para la evaluación de calidad de los servicios12, una de ellas es desde la perspectiva de aquellos que utilizan los servicios (los usuarios) y la otra es desde el entorno de las organizaciones que los gestionan.

  Perspectiva   de   los    usuarios  

Perspectiva   de   la  organización  

Datos   Subjetivos   Objetivos  

Objeto   Medición  de  la  satisfacción   Diagnóstico  de  la  gestión  

Fines   • Mejorar  el  servicio  y  la  satisfacción  

• Evaluar   el   impacto   de  las  políticas  

 

• Mejora   global   de  la  organización  

• Mejora   del  impacto   en   los  grupos  de  interés  

Fuentes  de  información   Externas   Internas  y  Externas  

Técnicas  de  obtención   • Estudios   de  satisfacción  

• Observación  directa  

• Comprobación  programas   de  calidad  

Fuente:  Elaboración  propia  a  partir  de  informes  AEVAL  

                                                                                                                         11  http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/informes/Informe_Percepcion_2013_p.pdf  12  http://www.aeval.es/export/sites/aeval/comun/pdf/calidad/guias/Guia_evaluacion_calidad.pdf  

Fuente:  Elaboración  propia  a  partir  de  informes  AEVAL  

 

Calidad  de  las  políticas  públicas  

Calidad  de  los  servicios  

Calidad  de  la  gestión  interna  

Page 21: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

11    

A continuación vamos a estudiar con más detalle cada una de las perspectivas12:

àEvaluación de los servicios públicos desde la perspectiva ciudadana

El modo de consumo actual ha ocasionado que las perspectivas de los ciudadanos con respecto a lo que la administración puede y debe proporcionarles hayan aumentado exponencialmente en el trascurso de los últimos años. La sociedad se ha vuelto más exigente y también más compleja, demandando nuevos servicios que puedan cubrir sus nuevas necesidades.

Esto hace que sea muy difícil calcular las perspectivas de los usuarios. Por ejemplo, alguien que enferme deseará que no escatimen tiempo ni recursos en su curación, un usuario de un transporte público esperará que este siempre llegue a tiempo a su destino, una persona que acuda a una oficina pública a realizar un trámite querrá que se le atienda y se resuelva su problema en el menor tiempo posible…

Para analizar la percepción que tiene la sociedad de un servicio en primer lugar se deben identificar las expectativas de los usuarios que van a utilizar el servicio. Estas expectativas se ven influidas por gran cantidad de factores, desde las experiencias propias o ajenas hasta la visión que tiene el propio individuo de la administración. Nos basamos en el modelo “Servqual”, que es un método de evaluación de los factores clave para medir la calidad de los servicios prestados[3].

El modelo define la calidad de servicio como un desajuste entre las expectativas previas al consumo del servicio y la percepción del servicio prestado y ésta puede ser medida a partir de la diferencia entre ambos conceptos13. Cuanto mayor sea la diferencia entre la percepción del servicio y las expectativas, mayor será la calidad.

Para llegar a ello identifica cinco dimensiones:

• Elementos tangibles: Aspecto de los empleados, instalaciones y materiales. • Fiabilidad: Capacidad para cumplir con el servicio prometido de manera precisa. • Capacidad de respuesta: Rapidez y agilidad en los servicios de ayuda a los

usuarios. • Seguridad: Conocimiento y profesionalidad de los empleados, así como su

capacidad de transmitir confianza y seguridad. • Empatía: Atención individualizada que se proporciona a cada usuario teniendo

en cuenta la capacidad de escuchar y ser escuchado y el esfuerzo por conocer y entender las necesidades.

Estas dimensiones son medidas mediante una escala formada por dos secciones de 22 preguntas cada una11, la primera registra las expectativas de los clientes y la segunda las percepciones de los consumidores y son comparadas para determinar la brecha entre ambas. La adecuada definición de las preguntas del cuestionario es un punto clave para el buen resultado de este modelo.

                                                                                                                         13  http://www.cyta.com.ar/ta0604/v6n4a2.htm  

Page 22: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

12    

Fuente:  Elaboración  propia  a  partir  del  modelo  SEVQUAL    

Una vez realizado este estudio, los datos obtenidos nos proporcionarán información muy útil para elaborar el estudio de satisfacción. El principal inconveniente de los estudios de satisfacción es su elevado coste y la saturación de los usuarios debido al gran número de encuestas que realizan, por eso es clave definir bien el cuestionario y delimitar la información a recabar.

àEvaluación de los servicios públicos desde la perspectiva organizativa

Como hemos visto anteriormente la administración cuenta con una serie de marcos, utilizando el marco correspondiente a la organización bajo estudio es posible analizar los programas que lo integran en las siguientes fases:

1. Análisis de la demanda y evaluación de la satisfacción de los usuarios: se buscan estudios de satisfacción previos y en el caso de no haberlos se realiza la evaluación de los servicios desde la perspectiva de los usuarios.

2. Análisis de quejas y sugerencias: primero se comprueba que exista un sistema adecuado dónde los usuarios puedan presentar sus quejas o sugerencias que cumpla con las exigencias requeridas, posteriormente después se pasa a la evaluación de las mismas.

3. Las cartas de servicios14, son los documentos mediante los cuales las entidades que conforman la administración general del estado informan a los ciudadanos y usuarios sobre los servicios que tienen encomendados, los derechos tienen respecto a ellos y los compromisos de calidad en su prestación: se debe comprobar que la organización esté cumpliendo con lo establecido en su carta de servicio.

4. Evaluación de calidad de la gestión: en esta fase se analizan los resultados de las auditorías o autoevaluaciones realizadas y su frecuencia, después se verifica el funcionamiento del sistema de gestión y del Plan de Calidad.

5. Participación en programas de reconocimiento: se validan los resultados obtenidos en los programas de premios en los que haya participado la organización y se catalogan.

                                                                                                                         14  http://www.aeval.es/es/la_agencia/carta_de_servicios/  

Expectativas  

Percepciones  

5  Dimensiones  

Calidad  de  servicio  

Experiencias   Necesidades  personales  

Comunicación  boca  a  boca  

Comunicaciones  externas  

Page 23: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

13    

Finalmente, también se debe realizar un análisis referencial (benchmarking) que consiste en hacer un estudio comparativo en áreas o sectores de empresas competidoras consideradas como merecedoras de emulación por sus buenas prácticas, con el fin de mejorar el funcionamiento de la propia organización.

Page 24: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

14    

                   

Page 25: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

15    

3  

Estado  del  Arte  

Para realizar nuestro proyecto es necesario conocer los métodos y los estudios previos al mismo. Es por ello por lo que en este capítulo vamos a analizar temas muy relacionados entre sí como son el Análisis de datos, el Big data y el Open data.

3.1 Análisis de datos El análisis de datos se podría definir como el proceso de encontrar los datos correctos para contestar a la pregunta que estás realizando, comprendiendo los procesos que subyacen en los datos, descubriendo patrones importantes en los datos, y después comunicar los resultados para tener el mayor impacto posible.15

En nuestro proyecto, la pregunta principal sería ¿Cuál es el estado de calidad de los servicios públicos de los distritos de Madrid?, esta pregunta es muy amplia y engloba muchas cosas, por lo que de ella se desprenden otras preguntas más fáciles de contestar. Por ejemplo, para saber el estado de calidad del ámbito de Seguridad y Salud nos preguntamos entre otras cosas ¿Cuántos accidentes de tráfico hay al año en Madrid? o ¿Cuántos habitantes por hospitales o centros de salud hay en cada distrito de Madrid? para contestar a estas preguntas más sencillas basta con seleccionar la información correcta y realizar unos pequeños cálculos estadísticos.

Para analizar los datos podemos utilizar tanto técnicas estadísticas como técnicas de minería de datos (data mining) que se explica más adelante, en el punto 3.2.4.

En cuanto a los programas que se pueden usar para el análisis de datos estadísticos podemos destacar los siguientes:

• SPSS (Statistical Package for the Social Sciences) • ELKI (Environment for DeveLoping KDD-Applications Supported by Index-

Structures) • S-Plus • R/RStudio

R/RStudio es el lenguaje de programación y el programa con el que trabajamos durante todo el proyecto, por lo que a continuación vamos a realizar una breve introducción sobre sus principales características y su interfaz.

                                                                                                                         15  https://www.coursera.org/course/dataanalysis  

Page 26: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

16    

3.1.1 R/RStudio

è R

R16 es un lenguaje de programación y un entorno para la computación estadística y de gráficos. Puede ser considerado una implementación del lenguaje S, del que hereda la orientación a objetos, aunque existen muchas diferencias entre ambos. R cuenta con una gran variedad de técnicas estadísticas y gráficas y permite la incorporación de múltiples extensiones. Una de las grandes ventajas de R es la facilidad para la obtención de plots bien diseñados y de gran calidad. También puede utilizarse como herramienta para el cálculo numérico pudiendo ser tan eficaz como programas del nivel de Matlab.

è RStudio

RStudio17 es un entorno de desarrollo para R. Incluye una consola, un editor de síntesis de alto nivel que apoya la ejecución de código directa así como las herramientas para la representación gráfica. Es un software libre disponible en dos versiones: RStudio Desktop y RStudio Server.

La diferencia entre la versión Desktop y la versión Server es que la primera se utiliza para uso en ordenadores personales bajo los sistemas operativos de Windows, Linux o Mac, mientras que la segunda se puede instalar en un servidor y utilizar desde cualquier navegador conectado.

En cuanto al entorno de trabajo, se divide en cuatro partes:

                                                                                                                         16  http://www.r-­‐project.org/  17  http://www.rstudio.com/products/rstudio/  

Page 27: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

17    

1. En esta sección se encuentra el espacio de trabajo, en él se escribe el código que posteriormente se ejecutará. Es dónde se guarda el código para generar el script.

2. Esta ventana sirve para abrir/cargar archivos de datos. 3. Es la Consola, aquí se puede introducir código directamente y ejecutarlo o

ejecutar el ya escrito en la sección 1. 4. En esta ventana aparece el plot que se haya ejecutado y se actualiza

automáticamente mientras se escribe.

Finalmente señalar que, para la utilización de funciones que no estén incluidas por defecto en R, es necesario instalar el paquete que la contenga. Estos paquetes se descargan desde CRAN18, que funciona como repositorio oficial de todos los paquetes de R.

3.2 Big Data 3.2.1 Definición

Desde la década de 1990 nos encontramos en la era de la información y las telecomunicaciones, en ella se ha establecido un nuevo paradigma de la Tecnología de la Información que constituye la base material de la sociedad de la información.

“La primera característica del nuevo paradigma es que la información es su materia prima: son tecnologías para actuar sobre la información, no sólo información para actuar sobre la tecnología”[4]. Siguiendo esta línea, las telecomunicaciones se entienden como una forma de procesar la información.

No cabe duda de que la información y el conocimiento siempre han sido componentes cruciales del crecimiento económico sin embargo, no ha sido hasta ahora cuando la información en sí misma se ha convertido en el producto del proceso de producción, es aquí donde entra en juego el denominado Big data que, según IBM19, se ha convertido en una de las cuatro principales tendencias de la tecnología en la década de 2010.

A pesar de que no existe una definición universalmente aceptada de Big data una de las más completas es: “Big data es un término que describe el almacenamiento y el análisis de grandes y/o complejos conjuntos de datos usando una serie de técnicas incluyendo pero no limitado a: NoSQL, MapReduce y machine learning”[5]

No podemos dar esta definición sin explicar brevemente las técnicas que nombra:

• NoSQL[6]: Son sistemas de almacenamiento de información que no cumplen con el esquema entidad-relación, permiten almacenar la información en otros formatos que no sean tablas.

• MapReduce[7]: Se trata de un modelo de programación y una aplicación asociada a la transformación y la generación de grandes conjuntos de datos en la que los usuarios especifican una función “map” (encargada del mapeo) y una función “reduce” (cada llamada a esta genera un valor).

                                                                                                                         18  Comprehensive  R  Archive  Network    19  https://www.ibm.com/developerworks/ssa/local/im/que-­‐es-­‐big-­‐data/  

Page 28: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

18    

• Machine learning[8]: Es el proceso de aprendizaje máquina que consiste en introducir una gran cantidad de datos de entrada como input de un algoritmo que se ejecuta dentro de una máquina entrenada para obtener una salida. El usuario realiza preguntas o consultas a la máquina y obtiene respuestas.

Como ya comentamos en el capítulo de la Introducción, al día se generan cantidades ingentes de datos que crecen más y más debido a que vivimos una gran parte de nuestras vidas online. Casi todo lo que hacemos queda registrado en forma de bits y se transmite a través de cables por todo el mundo a la velocidad de la luz. La siguiente imagen resume las principales fuentes y la dimensión de los datos que se almacenan cada día en Internet:

Fuente:   Elaboración   propia   a   partir   de   Twitter   Inc.   y   del   artículo   “The  Word   data   we’re   creating   on   the   Internet”   por   Oliver  Munday  en  colaboración  con  IBM20.  

No sólo somos las personas las que contribuimos a este crecimiento de la información, sino que la comunicación que realizan las máquinas entre sí enviando datos recogidos en cualquier tipo de sensor también contribuye a ello.

El término de Big Data no se refiere a una cantidad específica pero usualmente se utiliza al hablar de petabytes (1015) y exabytes (1018) de datos. Este gran volumen hace que las aplicaciones que los analizan requieran que la velocidad de respuesta sea lo más rápida posible para poder obtener la información en el momento preciso.

                                                                                                                         20  http://magazine.good.is/infographics/the-­‐world-­‐of-­‐data-­‐we-­‐re-­‐creating-­‐on-­‐the-­‐internet  

375  Megabytes  de  datos  son  consumidos  por  hogar  al  día  

20  Horas  de  vídeo  son  subidas  a  Youtube  cada  minuto  

2.9  Millones  de  emails  son  enviados  cada  segundo  

72.9  Productos  son  pedidos  en  Amazon  por  segundo  

500  Millones  de  tweets  son  enviados  cada  día  

700  Billones  de  minutos  se  emplean  en  Facebook  cada  mes  

1.3  Exabytes  han  sido  enviados/recibidos  a  través  de    smartphones  

24  Pentabytes  de  datos  son  procesados  por  Google  al  día  

Page 29: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

19    

Para ser capaces de manejar y de beneficiarnos de esta situación debemos poner el foco en dos aspectos: por una parte hablamos de la ingeniería del Big Data, ser capaces de gestionar de manera eficiente cantidades de datos inimaginables. Y por otra todo lo relacionado con la semántica, encontrar y combinar de manera útil sólo la información que sea relevante en cada caso[9]. Sin el segundo, el primero no sería de utilidad.

En el siguiente punto pasaremos a estudiar este planteamiento.

3.2.2 Datos significativos y Web de Datos

Vamos a analizar el uso de los datos significativos en Big Data independientemente de la tecnología de implementación o su ámbito de aplicación. Los datos significativos son aquellos legibles, no ambiguos y completos.

Ø La integración de los datos significativos

Considerando sólo la parte correspondiente de la semántica, la integración de datos significativos debe hacerse de la siguiente forma:

• Definición de la preocupación: el problema que debemos resolver. • Búsqueda dentro de la base de datos un lugar para los datos de la

entidad/individuo que se asignan a la preocupación detallada. • Transformación y carga de las partes relevantes de los datos de la

entidad/individuo en formatos y almacenamientos apropiados para su procesamiento.

• Resolución por entidad/individuo: se debe comprobar que los elementos de datos son únicos, relevantes y comprensibles

• Solución del problema: Teniendo seleccionados los datos relevantes para cada entidad/individuo se calcula la respuesta utilizando cálculos específicos.

Es necesario distinguir entre los datos estructurados, aquellos que se pueden tipificar y agrupar, de los no estructurados, los que se almacenan como objetos aislados. También en esta línea es importante que definamos los “Linked Data” o datos enlazados, que describen un método de publicación de los datos estructurados que permitan su interconexión y faciliten su aprovechamiento[10].

Los datos estructurados, sólo constituyen cerca del 10% del total y este porcentaje disminuye día a día. Las bases de datos relacionales son aquellas que cumplen con el modelo relacional, el cual permite establecer interconexiones entre los datos que están almacenados en las tablas y a partir de esas interconexiones relacionarlos.

Existen algunas bases de datos relacionales semánticamente homogéneas que carecen de propiedades especiales. Por lo tanto, las soluciones de integración de datos significativos no puede basarse en esas propiedades. Se debe utilizar un enfoque que use múltiples disciplinas y múltiples métodos tecnológicos.

Ø Web de Datos

Page 30: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

20    

En los últimos años las páginas web han empezado a publicar de acuerdo con los principios de los datos enlazados basados en las tecnologías web estándar HTTP, RDF21y URl. Esta tendencia ha dado lugar a lo que conocemos como Web de Datos.

La Web de Datos presenta las siguientes características:

• Vocabulario generalizado y patentado: muchas fuentes de datos enlazados reutilizan vocabulario generalizado para representar datos sobre tipos comunes de entidades. Además de esto usan sus propios términos para definir el vocabulario que no está en los públicos. Esta combinación hace que sea más sencillo para las aplicaciones entender datos de diferentes fuentes y aporta gran valor para “la minería de datos”, término en el que entraremos más adelante.

• Relación entre identidad y vocabulario: muchas fuentes de datos establecen vínculos de identidad apuntando a datos sobre la misma entidad desde diferentes fuentes.

• Calidad de los datos: La web es un medio abierto en el que todo el mundo puede publicar los contenidos que quiera, la web contiene datos desactualizados, spam o en conflicto. Por lo tanto, uno de los principales objetivos es evaluar la calidad de la Web y seleccionar el conjunto de datos que se pueden considerar de confianza.

3.2.3 Big Data como medio empresarial

Actualmente la mayor parte de las empresas consideran la Analítica e Inteligencia de Negocio una prioridad, dentro de este ámbito se encuentra el Big Data como referente en: la recolección, almacenamiento, análisis, visualización, procesamiento y comprensión de los datos con el fin de generar información y convertir esta en conocimiento para las organizaciones pertinentes con el objetivo de tomar las decisiones óptimas22.

Este sistema de análisis puede ser muy positivo para las empresas, algunos de los posibles beneficios de negocio en la aplicación de una metodología que trate el Big Data son23:

• Monitorización en tiempo real y previsión de acontecimientos que puedan afectar al negocio.

• Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y visualizar datos.

• Capacidad Hadoop para gestionar grandes cantidades de datos. (Hadoop es un marco de trabajo gratuito basado en Java que soporta el procesamiento de grandes volúmenes de datos establecidos en un entorno de programación distribuido).

• Facilidad para identificar información que pueda ser útil para mejorar la calidad de decisión.

                                                                                                                         21    Resource  Description  Framework,  método  general  para  la  descripción  conceptual  o  modelado  de  la  información  que  se  implementa  en  los  recursos  web.  22  http://www.utopiainc.com/insights/blog/381-­‐7-­‐biggest-­‐business-­‐benefits-­‐from-­‐big-­‐data  23  http://repository.unimilitar.edu.co/bitstream/10654/13166/  

Page 31: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

21    

• Mitigación del riesgo mediante la optimización de decisiones complejas provocadas por sucesos no planificados de una manera más rápida.

• Obtención de una visión completa de los clientes actuales y potenciales. • Generación de estrategias de marketing personalizadas. • Capacidad para entender las necesidades del cliente • Disminución del riesgo y detección de posibles fraudes.

Además de estos beneficios también se pueden obtener múltiples ventajas en diferentes ámbitos: Analítica de redes sociales, analítica de estudios clínicos, identificación de los temas más relevantes, predicción del consumo energético, programas de fidelización, ofertas personalizadas…

Cabe destacar, que no sólo las grandes empresas son las que pueden sacar partido de todo esto sino que las pequeñas y medianas empresas encierran un gran potencial, para explotarlo deben focalizarse en una o dos iniciativas que supongan el mayor impacto en el menor tiempo y no caer en el error de intentar aplicar todo a la vez24.

3.2.4 Data mining

Para finalizar este punto debemos hablar sobre el “Data mining” o minería de datos. Se trata de un proceso analítico diseñado para explorar grandes volúmenes de datos con el objetivo de buscar patrones o relaciones sistemáticas entre las variables bajo estudio que posteriormente se validan aplicando el patrón a nuevos datos25. Existen gran cantidad de técnicas para resolver un problema de minería de datos algunas de ellas son [11]:

• Análisis factoriales descriptivos • Previsión local • Market Basket Analysis26 • Redes neuronales • Técnicas de “clustering” • Árboles de decisión • Series temporales • Algoritmos genéticos • Redes bayesianas • Modelos lineales generalizados

Como vemos son muchas las posibles técnicas aunque todas ellas son en realidad algoritmos de mayor o menor dificultad que provienen de la inteligencia artificial y de la estadística.

El data mining es un punto en la obtención de conocimiento a partir de datos, este proceso en el cual se consigue conocimiento a partir de bases o fuentes de datos recibe el nombre KDD 27

El KDD implica la aplicación repetida de los siguientes pasos28:

1. Estudio del ámbito de aplicación, conocimiento previo relevante y los objetivos del usuario final.

2. Creación de un conjunto de datos objetivo

                                                                                                                         24  http://www.siliconweek.es/e-­‐enterprise/el-­‐reto-­‐del-­‐big-­‐data-­‐para-­‐las-­‐pymes-­‐60264  25  http://www.statsoft.com/textbook/data-­‐mining-­‐techniques  26  Análisis  de  cesta  de  mercado  27  Knowledge  Discovery  in  Databases  28  http://www2.cs.uregina.ca/~dbd/cs831/notes/kdd/1_kdd.html  

Page 32: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

22    

3. Filtrado de datos y preprocesamiento 4. Reducción de datos y proyección 5. Elección del objetivo del data mining 6. Elección del algoritmo del data mining 7. Data mining 8. Interpretación y/o evaluación de los patrones obtenidos en el paso previo 9. Validación del conocimiento extraído.

Fuente:  Elaboración  propia  a  partir  del  libro  “From  Data  mining  to  Knowledge  Discovery:  An  Overview”  

3.3 Open Data 3.3.1 Definición

Las administraciones públicas disponen de gran cantidad de conjuntos de datos que pueden ser abiertos a la sociedad sin que suponga eso ningún problema de privacidad. Se define “Open Data” como los datos públicos que cede la administración a la sociedad y lo hace en formatos digitales, estandarizados y abiertos, siguiendo una estructura clara que permita su comprensión y reutilización [12].

Dentro del open data tenemos los llamados LOD29,es decir, los datos abiertos enlazados, el proyecto que les da su nombre fue hecho por el grupo W3C30 y su objetivo es ampliar la base de datos global mediante la publicación en la web de bases de datos en RDF y estableciendo enlaces RDF entre datos de diferentes fuentes.

3.3.2 Big Open Data

Como su propio nombre indica, Big Open Data es el término que utilizamos para referirnos a grandes cantidades de datos públicos. Debemos distinguir que no todos los datos incluidos en el big data son públicos de la misma manera que todos los datos abiertos no tienen por qué ser big data. Y tampoco todos los datos de big open data proceden de la administración pública.

Mediante los procesos que utilizan esta información, cualquier organización ya sean empresas privadas o públicas o individuos particulares pueden generar nuevas ideas, proyectos y servicios. Incluso pueden impactar en los procesos de innovación y ser un soporte tecnológico para la creación de nuevos modelos de negocio, ya que todos los datos son fácilmente accesibles, usados y comprendidos por el público en general. Esto hace que aumente el valor social y el valor comercial de la información pública.

                                                                                                                         29  Linked  Open  Data  30  Word  Wide  Web  Consortium    

Page 33: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

23    

Por otro lado la apertura de los datos no confidenciales es esencial para conseguir la transparencia en la Administración pública y una manera de que el ciudadano pueda colaborar en el diseño y evaluación de los servicios públicos, que es precisamente, uno de los temas centrales de este proyecto.

                 

Page 34: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

24    

4  

Clasificación  de  datos  subjetivos      

4.1 Clasificación por análisis de sentimientos

Debido a las grandes cantidades de información que hay disponible online es necesario encontrar una manera de clasificarlos automáticamente.

Hasta hace unos años la mayoría de los trabajos han estado enfocados a conseguir una clasificación por tópicos, sin embargo el auge de las redes sociales, de las reseñas y de las opiniones online hacen que la clasificación de textos por Análisis de Sentimientos, “AS”, sea muy importante. Esto es, clasificar los documentos en función de la polaridad de la opinión que expresa su autor, clasificar en positivo, negativo o neutro.

En la clasificación por análisis de sentimientos se encuentra un problema que en el caso de clasificación por tópicos no tenemos, y es que mientras que en la anterior podían identificarse palabras clave para cada tema, en este método no se puede proceder de así. Además en este tipo de textos es mucho más frecuente el uso de palabras retóricas u otras ambigüedades del lenguaje, la clasificación por análisis de sentimiento requiere un mayor entendimiento del texto en su conjunto.

Para tratar con esta clasificación se puede proceder de dos maneras: mediante un aprendizaje supervisado (técnicas de Machine learning) o mediante un aprendizaje no supervisado (uso de diccionarios).

4.1.1 Aprendizaje supervisado

El aprendizaje supervisado se lleva a cabo a través de un entrenamiento controlado por un agente externo que determina la respuesta que debe dar el sistema cuando se introduce una entrada determinada, esto lo hace después de haber visto una serie de ejemplos, los datos de entrenamiento[13].Existen múltiples tipos de algoritmos Machine learning pero aquí vamos a explicar solamente tres:

Ø Naive bayes

El aprendizaje bayesiano es el proceso de encontrar la hipótesis más probable dado un conjunto de ejemplos de entrenamiento “d” y un conocimiento a priori sobre la probabilidad de cada hipótesis31. Cada ejemplo de entrenamiento afecta a esta probabilidad. El teorema de Bayes dice lo siguiente:

                                                                                                                         31  http://www.infor.uva.es/~isaac/doctorado/AprendizajeBayesiano.pdf  

Page 35: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

25    

𝑃 𝑐 𝑑 =𝑃 𝑑 𝑐 𝑃(𝑐)

𝑃(𝑑)

Donde en nuestro caso, la P(c|d) es la probabilidad de que una palabra d pertenezca a la clase c, ya sea positivo, negativo, neutro o lo que se quiera determinar y la P(d|c) determina la probabilidad de que la palabra ya esté en una cierta clase extraída del set de entrenamiento[14]. Aplicando este teorema se llega a la hipótesis más probable, se define la clase c:

𝑐∗ = arg𝑚𝑎𝑥! 𝑃 𝑐 𝑑

El clasificador bayesiano Naive es muy utilizado para la clasificación de textos, la clasificación viene dada por el valor de máxima probabilidad a posteriori, MAP, donde los términos se estiman basándose en ejemplos de entrenamiento. El clasificador Naive supone que los atributos son independientes entre sí con respecto al concepto objetivo, con lo que su aproximación resulta:

𝑣!" = argmax𝑃 𝑣! 𝑃(𝑎!|𝑣!)!

A pesar de la simplicidad de este algoritmo y de que el hecho de que claramente en situaciones del mundo real no se puede asegurar la suposición tomada de la independencia de los atributos, es un método que funciona con un alto porcentaje de aciertos.

Ø Máxima entropía

La clasificación por máxima entropía, ME, es una técnica alternativa que ha demostrado ser efectiva en muchas aplicaciones de procesamiento del lenguaje natural, en ocasiones con mejores resultados incluso que el clasificador bayesiano. En este método la probabilidad de que el texto corresponda a una determinada clase debe maximizar la entropía de clasificación [14]. La estimación de P(c|d), probabilidad de que el texto pertenezca a una determinada clase, aquí adquiere la forma:

𝑃!" 𝑐 𝑑 =1

𝑍 𝑑 exp λ𝑖,𝑐𝐹𝑖,𝑐 𝑑, 𝑐!

Donde Z(d) es una constante de normalización y λ!,! son los pesos de los parámetros, si este valor es alto indica que la Fi se considera un fuerte indicador para la clase considerada c. Los valores de los parámetros se establecen para maximizar la entropía de la distribución introducida. Y Fi,c es:

𝐹!,!(𝑑, 𝑐!) =1,            𝑛! 𝑑 > 0          𝑦        𝑐! = 𝑐0,            𝑟𝑒𝑠𝑡𝑜                                                                

Es importante destacar que este método, a diferencia del anterior, no hace suposiciones sobre las relaciones entre los atributos, por lo que podría realizar mejores clasificaciones en los problemas en los que no se cumplan las supuestas relaciones de independencia.

Page 36: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

26    

Ø SVM (Support Vector Machines)

Finalmente estudiamos el algoritmo SVM32, es la técnica más utilizada para la clasificación por análisis de sentimientos, especialmente en twitter, con probabilidades de acierto usualmente mayores que el método de Naive Bayes[15].

Suponiendo que tuviéramos un caso en el que queremos clasificar en dos categorías (por ejemplo, positivo y negativo), la idea principal es encontrar un hiperplano representado por el vector 𝑤, que no sólo separe los vectores del documento en una de las dos categorías, sino que haga que la separación sea lo más grande posible [16].En la siguiente imagen se muestra esto:

Fuente:  Elaboración  propia  a  partir  de  33  

El margen máximo es la distancia entre el punto de decisión (hiperplano óptimo) y el punto más cercano a este. Los “support vector” son un conjunto de características o datos que definirán la posición del hiperplano óptimo. Hay que resaltar que es clave la elección de la posición del hiperplano óptimo ya que los datos que estén situados próximos a él serán los más susceptibles a una clasificación errónea.

Si estudiamos el SVM desde el punto de vista algebraico y definimos cj ∈ {1, −1}, siendo 1 positivo y -1 negativo, el vector 𝑤 queda:

𝑤 =   𝛼!𝑐!𝑑!,          𝛼! ≥ 0!

,

De esta manera, se tiene un set de entrenamiento donde cada muestra tiene un peso y un vector asociado que separa lo máximo posible los casos positivos de los negativos. Normalmente cada muestra es una palabra a la que se le asigna un peso mayor o igual a cero durante la fase de aprendizaje. Todas las palabras 𝑑! para las cuales 𝛼! ≥ 0 forman parte de lo que hemos llamado antes “support vector”, las palabras que aún no hayan sido entrenadas son asignadas a los support vectors más cercanos. Resumiendo lo visto                                                                                                                          32  Máquinas  de  vectores  de  soporte  33  http://docs.opencv.org/doc/tutorials/ml/introduction_to_svm/introduction_to_svm.html  

Page 37: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

27    

anteriormente, la clasificación consiste en determinar a qué lado del hiperplano 𝑤 pertenece cada caso.

4.1.2 Aprendizaje no supervisado

La principal diferencia con respecto del aprendizaje supervisado es que en este no hay conocimiento a priori, es decir, sólo se dispone de información de las entradas, no de las salidas. El aprendizaje extrae conocimiento útil de la información disponible.

Una de las técnicas utilizadas en el aprendizaje no supervisado es la clasificación mediante el uso de diccionarios.

Ø Uso de diccionario léxico-emocional

Esta técnica se basa en realizar un diccionario o lista de palabras asignadas a una categoría emocional (positivo o negativo) y con un determinado peso (grado de positivo y grado de negativo). Una vez hecho esto, se realiza una comparación palabra por palabra del texto a clasificar con el diccionario y dependiendo del número de palabras que coincidan con las del diccionario y su grado de sentimiento se asignan a una u otra categoría34.

No es necesario la elaboración de un diccionario propio para el análisis de sentimientos puesto que hay muchos disponibles en la web, los más fiables se encuentran en inglés, se puede utilizar uno ya hecho y añadir o eliminar palabras en función del tema bajo estudio.

En el punto 4.2 se estudiará más a fondo el aprendizaje no supervisado.

4.1.3 Aplicación a nuestro proyecto

Los cuatro métodos analizados en la mayoría de los estudios obtienen más de un 65% de probabilidad de acierto, donde el mayor de ellos suele ser el método de la clasificación por un diccionario léxico.

En nuestro proyecto se intentó implantar un modelo no supervisado. Extrajimos los tweets de la ciudad de Madrid para categorizarlos y realizar el modelo de entrenamiento, pero nos encontramos con que el número de tweets que hablaban de cosas como “semáforos” o “alcantarillas” era tan reducido que ni si quiera había información suficiente para realizar el modelo.

Posteriormente nos planteamos utilizar un diccionario léxico para su clasificación, pero al probarlo en un número reducido de tweets nos dimos cuenta de que no tenía sentido el análisis de sentimiento en este proyecto, puesto que en casi la totalidad de los casos en los que la gente utiliza twitter para hablar sobre cosas como: farolas, aceras, bocas de riego… es para expresar una opinión negativa al respecto.

Debido a esto se decidió realizar una clasificación por temas/tópicos ya que con ello se extrae una información mucho más valiosa en nuestro caso, obteniendo la relevancia de cada ámbito bajo estudio en la opinión pública y pudiendo extraer conclusiones al hecho de que se hable mucho o no se hable nada de un tema en concreto.                                                                                                                          34  http://repositorio.uchile.cl/bitstream/handle/2250/130479/cf-­‐montesinos_lg.pdf?sequence=1&isAllowed=y  

Page 38: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

28    

4.2 Clasificación por temas En primer lugar debemos tener en cuenta que la clasificación de un texto (TC, Text Classification) tiene una componente subjetiva, incluso dos expertos podrían no ponerse de acuerdo a la hora de clasificar un texto en concreto35.

Para clasificar automáticamente un texto, definimos un conjunto posibles clases C, 𝐶 = 𝑐!,… , 𝑐!  y un conjunto de documentos a clasificar D,  𝐷 = 𝑑!,… ,𝑑!  . La clasificación automática viene dada por una función 𝜑 llamada clasificador la cual realiza una hipótesis sobre la correspondencia del par 𝑑! , 𝑐! .   El objetivo del clasificador es aproximarse lo máximo posible a la función objetivo 𝜗 que comprueba si la sentencia 𝑑! , 𝑐!  es correcta o no.

Si los elementos de C son independientes entonces cada documento sólo se puede clasificar en una clase, esto se llama “single-label”. Si por el contrario si un documento puede tener varias clasificaciones se le denomina “multi-label”. Cualquiera de estos dos casos se pueden resolver definiendo la función clasificador. Puede hacerse de dos maneras distintas:

1. DPC: tomando como base un documento di se buscan en C las clases que dan soluciones correctas a la función 𝜑 𝑑! , 𝑐!

2. CPD: tomando como base una clasificación cj se buscan en D los documentos que cumplen la función clasificación.

La más utilizada de las dos es la primera y además es mucho más intuitiva.

La función objetivo es evaluada por un experto y es la referencia para cualquier tipo de modelo, mientras que, la función clasificador puede ser llevada a cabo mediante gran variedad de técnicas, algunas de ellas coinciden con las explicadas en el punto anterior sobre la clasificación por análisis de sentimiento, esto se debe a que en realidad el análisis de sentimiento es una particularización del método general de clasificación de textos. Por lo tanto, aquí también se pueden clasificar las diferentes técnicas en clasificación supervisada y la no supervisada, dentro de esta última aparece el “Text Clustering” o “Análisis de cluster” que tiene como objetivo tratar de distinguir distintas categorías en un conjunto de documentos y agruparlos en función de ellas.

Para poder llevar a cabo una clasificación del texto, en primer lugar hay que preprocesarlo para eliminar las denominadas “stopwords”. Las stopwords son palabras que carecen de significado por lo que no aportan ninguna ayuda a la hora de la clasificación, son los pronombres, preposiciones, conjunciones… Una vez hecho esto, si se quiere realizar un modelo vectorial se define cada documento como:

𝑑! → 𝑑! = 𝑤!!,… ,𝑤!"

Siendo wi,k los valores de los pesos que tiene cada característica en un documento. Las m características son seleccionadas a partir de lo que se cree definitorio en un texto y las

                                                                                                                         35  http://adimen.si.ehu.es/~rigau/teaching/EHU/PLN/Curs2006-­‐2007/Presentacions/TC.pdf  

Page 39: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

29    

expresamos como “Ch”. Todos los vectores 𝑑! poseen las mismas dimensiones y tienen posiciones vacías si su texto no contiene esa característica. Se define la matriz A como 𝐴 =   𝑤!" a partir de la cual se pueden construir modelos de aprendizaje automático para la clasificación. La clasificación será supervisada si a esta representación se le añaden las clases y no supervisada si se desconocen.

Debido a que ya hemos estudiado en bastante profundidad las principales técnicas de clasificación supervisada, vamos a centrarnos en la no supervisada, más concretamente en el análisis de cluster, ya que se trata del método más utilizado para realizar esta clasificación.

4.2.1 Análisis de cluster

También llamado taxonomía numérica36, es el método que se usa para establecer grupos de documentos en función de las características que tengan en común. Los algoritmos de clustering agrupan un conjunto de documentos en clusters. El objetivo del algoritmo es crear clusters en los cuales los documentos sean lo más similares posibles y a la vez que se diferencien lo máximo posible de los demás clusters.37

La siguiente figura representa cómo se encuentran los datos antes de realizar el clustering y cómo aparecen después:

Fuente:  Elaboración  propia  a  partir  de  32  

La diferencia entre clasificación y clustering puede no parecer mucha pero en realidad sí que lo es. La clasificación es una técnica de aprendizaje supervisado en el que se intenta

                                                                                                                         36  https://rev-­‐inv-­‐ope.univ-­‐paris1.fr/files/31310/31310-­‐03.pdf    37  http://nlp.stanford.edu/IR-­‐book/pdf/16flat.pdf      

Page 40: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

30    

replicar las distintas categorías que ha impuesto un humano, mientras que el clustering no hay nadie que nos guíe. La clave de este algoritmo es la medida de la distancia, normalmente se trabaja con la distancia euclídea cuando se aplica para la agrupación de documentos38.

Dos técnicas importantes son el clustering particional y el clustering jerárquico. En la primera de ellas el algoritmo parte de un conjunto de clusters dónde todos los elementos pertenecen a un grupo siendo este grupo disjunto, durante su ejecución los elementos son reasignados hasta cumplir con el criterio inicial. La dificultad de este método es la elección previa de las clases. En el segundo tipo en cada paso se va agrupando aquellos grupos más próximos para formar así nuevos grupos de manera jerárquica[17].

Los algoritmos de clustering más conocidos son:

• K-means: Es el algoritmo de clustering más utilizado, pertenece al tipo de algortimos particionales. Su objetivo es minimizar el cuadrado de la distancia euclídea media de cada documento hasta el centro del cluster. Un cluster ideal es una esfera con el centroide como centro de gravedad, donde además los clusters no se solaparan entre sí39.

• EM (Expectation-Maximization): Es una generalización del K-means que puede ser aplicado en más variedades de textos.

K-means es el más utilizado de los dos debido a su simplicidad y eficiencia.

4.2.2 Clasificación de tweets por tópicos mediante R

No podemos acabar este punto sin hablar de la clasificación que vamos a realizar en nuestro proyecto. Mediante el programa RStudio extraeremos los tweets de Madrid por distritos, posteriormente los trataremos y los agruparemos automáticamente por temas utilizando diccionarios de palabras. Sin embargo existen otras muchas técnicas y algoritmos para clasificar los tweets por temas.

                                                                                                                         38  http://sanghyukchun.github.io/  39  http://marmota.dlsi.uji.es/WebBIB/papers/2007/1_Pascual-­‐MIA-­‐2007.pdf  

Page 41: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

31    

                   

Page 42: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

32    

5  

Obtención  de  resultados    

Una vez hecho el estudio de las principales tecnologías y temas relacionados con el proyecto, nos centramos en la realización del mismo. Para ello, en este capítulo detallaremos los pasos que se han ido siguiendo durante todo el proceso. Se han obtenido resultados de tres fuentes diferentes, de los avisos interpuestos en la ciudad de Madrid, de los indicadores analizados y de twitter. En esta sección se explica cómo se ha llegado a cada uno de ellos por separado y su interrelación. Para el cálculo de la mediana de edad y el porcentaje de hombres y mujeres de cada distrito se han utilizado los datos del padrón de Madrid. 5.1 Avisos Como se introdujo en el capítulo 1 los avisos/quejas que han sido interpuestos por los ciudadanos de Madrid no pertenecen a los datos abiertos de la ciudad sino que han sido facilitados por el ayuntamiento. Los avisos utilizados en el proyecto son todos los que ha habido desde 2004 hasta 2015.

Ø La primera tarea fue agrupar los avisos en función de los distritos, después se extrajeron las categorías a las que pertenecían y se clasificaron en los cuatro ámbitos de trabajo que ya definimos en la Introducción. Quedando de la forma:

Fuente:  Elaboración  propia  

Page 43: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

33    

Como se podía prever, la mayor parte de los avisos se engloban dentro de dos ámbitos: “Seguridad y Salud” y “Medio ambiente, Transporte y Movilidad”, este hecho no influye negativamente en la obtención de nuestros resultados, ya lo que se tiene en cuenta en el análisis es la comparación con el resto de distritos.

Ø A continuación mediante RStudio se realizó un filtrado de los avisos de cada distrito para agruparlos en función de su ámbito. El recuento final del número de avisos por distrito que hay en cada ámbito es el siguiente:

Distritos/AVISOS   Medio  ambiente,  transporte  y  movilidad  

Seguridad  y  salud  

Sociedad  y  bienestar  

Cultura,  Economía  y  Educación  

Arganzuela   2276   1220   1   34  Barajas   635   319   0   10  

Carabanchel   1953   1827   4   30  Centro   9469   2241   0   10  

Chamartín   3624   1091   1   20  Chamberí   3458   1265   1   4  

Ciudad  lineal   2584   1807   4   37  Fuencarral-­‐El  

Pardo  2956   1485   4   26  

Hortaleza   2047   1250   0   26  Latina   2496   1770   0   32  

Moncloa-­‐Aravaca   3456   1478   0   15  Moratalaz   790   584   1   10  

Puente  de  Vallecas   2267   1744   3   45  Retiro   2892   664   0   11  

Salamanca   4155   1118   1   25  San  Blas-­‐Canillejas   1640   1411   1   39  

Tetuan   3123   1385   0   9  Usera   1442   1147   3   21  

Vicálvaro   500   365   0   8  Villa  de  Vallecas   932   702   0   26  

Villaverde   1405   923   4   17  Total   54100   25796   28   455  

Fuente:  Elaboración  propia  

Como podemos observar en la tabla anterior el distrito con más avisos en total es el de Centro con más del doble que el resto.

Page 44: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

34    

5.2 Indicadores El siguiente paso fue definir los indicadores que servirían para evaluar el estado de la ciudad, para ello se han tenido en cuenta dos cosas: Por una parte los avisos ya vistos en el punto anterior y por otra qué indicadores podrían definir mejor la calidad de cada ámbito y de los cuales además los ciudadanos intervienen activamente en su elección. Habiendo considerado estos dos aspectos se seleccionaron los siguientes indicadores:

 Fuente:  Elaboración  propia  

En la en gran parte de los indicadores lo que usamos es la tasa por habitante. Para su cálculo se descargaron40 los csv (la mayoría de ellos con datos de 2013 pero algunos actualizados con la información de 2014) y se procesaron agrupando los datos en función de los distritos mediante RStudio. Un ejemplo de cómo se presentan los datos de una tabla en RStudio es el siguiente:

Fuente:  Elaboración  propia  

El siguiente paso es obtener los valores extremos de cada indicador y con ello definir tres intervalos. Cada indicador se relacionará con uno de estos intervalos siendo el

                                                                                                                         40  datos.madrid.es  

Page 45: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

35    

intervalo 1 el mejor en cuanto a calidad y el 3 el peor. Por ejemplo, para el indicador “Intervenciones de policía” del ámbito de Seguridad y Salud: Número máximo de intervenciones: 3618 Número mínimo de intervenciones: 137 Intervalos: [137,1297] – (1297,2457] – (2457,3618] Con lo cual, si el distrito de Barajas cuenta con 137 intervenciones, por lo que el indicador va asociado al intervalo 1 y en su representación se le asignará el color más fuerte:

Siguiendo con el ejemplo, si el distrito de Barajas en el ámbito de Seguridad y Salud tiene sus indicadores en los niveles [1,1,1,2] y el distrito de Carabanchel en [1,3,3,2], sus representaciones quedan respectivamente:

Y podremos determinar que Barajas posee una mayor calidad en el ámbito de Seguridad y Salud que Carabanchel ya que su puntuación es de 5 (1+1+1+2) mientras que la otra es de 9 (1+2+3+2). Mediante las puntuaciones de cada ámbito se van a comparar los distritos, todas ellas están recogidas en el ANEXO A, en él se puede comprobar que la puntuación mínima es de 4 mientras que la máxima es de 11. Con esto se obtienen nuevos intervalos que determinarán el color del ámbito completo: Puntuaciones [4,6] son asignadas al color más oscuro Puntuaciones [7,8] son asignadas al color medio Puntuaciones [9,11] son asignadas al color más claro Una vez que ya tenemos el color que se le debe asignar, se genera el mapa de cada distrito con este color. Esto se consigue utilizando la función de R que nos permite pintar mapas mediante sus coordenadas. Finalizando con el ejemplo anterior, el mapa de Barajas se pintaría con el color más oscuro ya que entra en el primer intervalo y el mapa de Carabanchel con el más claro ya que está incluido en el último intervalo:

5.3 Tweets La utilización de la información procedente de Twitter es fundamental para nuestro proyecto ya que nos aporta la opinión del ciudadano a tiempo real. Como ya comentamos en el capítulo 4, la información más útil que podemos obtener de estos datos es la relevancia de cada ámbito en cada distrito. Para ello se han extraído por separado los tweets escritos en cada distrito en un tiempo determinado y se han clasificado en los cuatro ámbitos:

Ø Obtención de tweets

Page 46: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

36    

Para la obtención de los tweets por distrito se ha utilizado una herramienta llamada BOA41. El funcionamiento de esta solución online es el que sigue: Primero se accede en la página a la parte para desarrolladores42, después se seleccionan las coordenadas, el día y la localización de la que queremos los tweets. Esto genera una query que al introducirla en la barra de navegación comienza a descargar un archivo json.txt con toda la información de los tweets:

Este proceso se puede hacer directamente mediante Rstudio, que es como lo hemos hecho nosotros. Los tweets se descargan en un archivo JSON 43 desde la fecha y posición que indiquemos en la query. Para nuestro estudio seleccionamos un periodo de 10 días:

1. Se hace un bucle que recorra un archivo dónde están definidas las 4 coordenadas para cada uno de los 21 distritos y otro dentro de este para que lo haga para todos los días indicados. La url que utilizamos es la proporcionada por la plataforma BOA44.

2. A continuación, descargamos el archivo de la url definida en formato .json.txt que será lo que utilicemos posteriormente.

Ø Clasificado en función de los ámbitos

El primer paso para la clasificación de los tweets en nuestro proyecto es la definición de diccionarios de palabras relacionadas con los temas de interés, por ello se hicieron cuatro diccionarios, uno para cada ámbito. La elaboración de estos diccionarios no es algo trivial, al igual que tampoco lo es la clasificación ya que en los temas que nos ocupan incluso para una persona un tweet puede ser ambigüo. Por ello, primero se

                                                                                                                         41    BOA  es  solución  de  Big  Open  Data  para  la  administración  pública  (http://www.datune.maddata.es)  42  http://datune.maddata.es/home/developers.html  43  JavaScript  Object  Notation  es  un  formato  para  el  intercambio  de  datos  44  Big  Open  API  desarrollada  por  Everis  para  el  proyecto  Datune  

Page 47: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

37    

clasificaron de manera manual los suficientes como para obtener las palabras más relevantes de cada ámbito.

Después, lo que se hizo fue recorrer cada tweet y comprobar palabra por palabra si estaba en alguno de los cuatro diccionarios, una vez recorrido todo el tweet el ámbito con más palabras coincidentes es en el que se clasifica. En caso de empate se clasifica en ambos, para ello se tuvo que elaborar una función “máximo” dado que las que proporciona R sólo se devuelve el primer máximo en el caso de haber más de uno con el mismo valor.

Finalmente, se guardan el número de tweets de cada distrito para cada ámbito en un fichero .csv para que sea más sencillo ver los resultados.

5.4 Presentación de resultados Como ya hemos visto, para la presentación de los resultados de los indicadores se obtiene un mapa del distrito con el color del ámbito gradual en función de lo bien o mal que esté el distrito con respecto de los demás. En los avisos y en los tweets se hace algo parecido. Se ordenan los distritos en función del número de avisos o de tweets obtenidos en tres grupos. En el caso del ámbito de “Seguridad y Salud”, la representación de las tres posibles clasificaciones de tweets y de avisos respectivamente serían:

     

       

       

Con lo que, para finalizar con el ejemplo del apartado anterior, para el distrito de Barajas en el que se habla poco de Salud y Bienestar en twitter pero se han interpuesto muchos avisos la representación quedaría:

     

 

El listado de resultados de avisos y tweets por distrito se detalla en los ANEXOS B y C respectivamente.

Page 48: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

38    

                 

 

Page 49: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

39    

6  

Estado  de  calidad  de  los  distritos  de  Madrid    

En esta sección vamos a analizar distrito por distrito el estado de calidad de cada uno con respecto al resto gracias a los resultados obtenidos en nuestro proyecto. Además de la explicación del capítulo 5 sobre la representación debemos recordar también lo visto en el capítulo 1:

Cada vez que se muestren los mapas de cada distrito o el sector circular que representa el nivel de cada indicador en uno de estos tonos significará lo aquí mencionado. A continuación comenzamos con la presentación de resultados por distrito en orden alfabético, se presentarán los 3 primeros distritos y los resultados de los distritos restantes se incluirán en los ANEXOS A,B y C.

Page 50: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

40    

ARGANZUELA

       

     

 

 

     

 

 

 

     

 

     

 

 

 

   

   

 

 

 

 

5 bibliotecas y centros culturales (tasa 30.250 hab.)

8 colegios públicos enseñanza primaria (tasa 1.542hab.)

151.249 hab. mediana edad 43 años

67 áreas infantiles (tasa 208 hab.) 4.244 empresas y locales

8 centros de salud (tasa 18.906 hab.)  85,77 años de esperanza de vida

389 intervenciones de la policía municipal con detenidos e imputados

503 accidentes de tráfico urbano

Mujeres 54% Hombres 46%

9 parques y jardines (tasa 16.805 hab.)  33 µg/m

3 NO2 en el aire

(nivel de polución)  

192 paradas autobuses urbanos y metro (tasa 788 hab.)

4.632 plazas de aparcamiento para residentes (tasa 33 hab.)

1 centros atención menores y familia (tasa 151.249 hab.) 1 puntos atención a mujeres (tasa 70.357 hab.)

11,63% tasa estimada de desempleo (9.874 hab.)  9 centros y áreas de mayores (tasa 2.123 hab.)  

Page 51: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

41    

1.239 empresas y locales

BARAJAS

       

       

 

     

 

 

 

     

 

     

 

 

 

   

   

 

 

 

 

 

4 bibliotecas y centros culturales (tasa 11.488 hab.) 4 colegios públicos enseñanza primaria (tasa 1.376 hab.)

45.952 hab. mediana edad 41 años

49 áreas infantiles (tasa 122 hab.)

2 centros de salud (tasa 22.976 hab.)  84,50 años de esperanza de vida

137 intervenciones de la policía municipal con detenidos e imputados

131 accidentes de tráfico urbano

Mujeres 51% Hombres 49%

1 parques y jardines (tasa 45.952 hab.)  29 µg/m

3 NO2 en el aire

(nivel de polución)  

140 paradas autobuses urbanos y metro (tasa 328 hab.) 211 plazas de aparcamiento para residentes (tasa 218 hab.)

1 centros atención menores y familia (tasa 151.249 hab.) 1 puntos atención a mujeres (tasa 19.289 hab.)

10,64% tasa estimada de desempleo (2.655 hab.)  9 centros y áreas de mayores (tasa 506 hab.)  

1.239 empresas y locales

Page 52: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

42    

 CARABANCHEL

       

         

 

 

     

 

 

 

     

 

     

 

 

 

   

   

 

 

9 bibliotecas y centros culturales (tasa 26.894 hab.) 17 colegios públicos enseñanza primaria (tasa 1.397hab.)

242.042 hab. mediana edad 42 años

154 áreas infantiles (tasa 171 hab.)

6.921 empresas y locales

7 centros de salud (tasa 34.577 hab.)  84,16 años de esperanza de vida

291 intervenciones de la policía municipal con detenidos e imputados

575 accidentes de tráfico urbano

Mujeres 53% Hombres 47%

9 parques y jardines (tasa 26.894 hab.)  43 µg/m

3 NO2 en el aire

(nivel de polución)  

304 paradas autobuses urbanos y metro (tasa 796 hab.)

2.997 plazas de aparcamiento para residentes (tasa 81 hab.)

4 centros atención menores y familia (tasa 60.511 hab.) 2 puntos atención a mujeres (tasa 54.759 hab.)

17.32% tasa estimada de desempleo (21.631 hab.)  25 centros y áreas de mayores (tasa 1.425 hab.)  

Page 53: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

43    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Page 54: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

44    

7  

Conclusiones    

Al hablar de conclusiones debemos tener en cuenta diferentes aspectos, en primer lugar que, el objetivo principal de este proyecto era conocer el estado de calidad de los distritos de Madrid y estos se han presentado en el capítulo 6 y en los Anexos, sin embargo en este capítulo podemos destacar cuáles han sido los distritos mejor y peor valorados para cada ámbito.

7.1 Conclusiones de los resultados A la hora de analizar los resultados tenemos en cuenta que:

- En los indicadores, los colores oscuros son los mejor valorados y los colores claros los peores.

- En los avisos, un número elevado de avisos representa algo negativo. - En los tweets, un número elevado de tweets también se considera algo negativo

y nos da una idea de la relevancia que tiene ese ámbito para la sociedad.

En los avisos, el motivo de porqué un número alto es algo malo, es evidente pero en el caso de los tweets no lo es tanto. Consideramos un número alto de tweets como algo negativo debido a que en los temas de nuestro estudio, la experiencia (la revisión de los tweets clasificados en cualquiera de los cuatro ámbitos), nos ha demostrado que, cuando alguien escribe un tweet , la mayor parte de las veces es para realizar una queja o expresar algún sentimiento negativo. Esto es lógico ya que cuando alguien escribe, por ejemplo, de semáforos o de hospitales por lo general es para decir algo malo.

De acuerdo con los resultados detallados en los ANEXOS A,B y C, para cada ámbito podemos concluir:

Color    oscuro  indicadores    Número  bajo  de  avisos  Número  bajo  de  tweets  

 Color  más  claro  de  indicadores    Número  alto  de      avisos    Número  alto  de  tweets  

Page 55: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

45    

Cultura, Economía y Educación:

La mayoría de los distritos tienen la puntuación con respecto a este ámbito dentro del grado máximo, por lo que para saber cuáles están mejor y cuáles están peor nos apoyamos en los resultados de los avisos y de los tweets.

Los distritos que mejor calidad tienen en el ámbito de Cultura, economía y educación son los de: Arganzuela, Centro y Fuencarral – El Pardo, ya que son los que tienen la mejor puntuación de sus indicadores y además tienen los números más bajos de avisos y un número dentro de la media de tweets. Mientras que el distrito dónde los indicadores están peor puntuados es el de Chamberí y además el número de avisos interpuesto está dentro del rango más elevado.

De este ámbito tenemos que señalar que se trata del más relevante para la opinión pública en todos y cada uno de los 21 distritos.

Seguridad y Salud:

En este ámbito podemos destacar de manera positiva los distritos de Barajas, Hortaleza, Vicálvaro y Villaverde, los cuales tienen los indicadores con mayor calidad y además tienen el menor número de avisos y de tweets salvo Hortaleza que posee un gran número de tweets que hablan de este tema. Los peores valorados son en este caso: Carabanchel, Centro y San Blas – Canillejas, dónde en los dos primeros se vuelve a cumplir que poseen el mayor número de avisos, mientras que el distrito de San Blas – Canillejas tiene sus avisos en el número medio.

Sociedad y Bienestar:

Los distritos mejor considerados en este ámbito son: Arganzuela, Chamberí, Hortaleza y Tetuan, los cuatro con los indicadores mejor puntuados de entre todos los distritos y, además, detacamos Hortaleza y Tetuan ya que en ellos no se ha puesto interpuesto ningún aviso. Por otra parte, el peor distrito de la ciudad de Madrid en el ámbito de Sociedad y Bienestar es el de Ciudad Lineal, con los indicadores peor puntuados y además su número de avisos dentro del mayor rango posible y un número de tweets clasificado en el intervalo mayor.

Medio ambiente, Transporte y Salud:

En el ámbito de Medio ambiente, transporte y salud, destaca positivamente el distrito de Moncloa – Aravaca, con los indicadores con los mejores resultados, sin embargo a diferencia del resto de casos, en este el número de avisos interpuestos en él está dentro del mayor rango y con el número de tweets ocurre lo mismo.

Page 56: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

46    

Por último, el distrito que sobresale de manera negativa del resto es el de Puente de Vallecas, siendo sus indicadores mucho mayores (más negativos) que los del resto, con un número de avisos y un número de tweets muy reducido.

7.2 Conclusiones del proyecto Una de las principales conclusiones que podemos extraer del punto anterior es que hay una interrelación clara entre el número de avisos interpuestos en un ámbito y su calidad. Cumpliendo de esta manera algo por otra parte lógico, ya que se demuestra así que en los distritos dónde menos avisos se realizan por los ciudadanos es dónde mejor van las cosas (según los indicadores de calidad). Este hecho es más evidente en los extremos (mejores y peores distritos) dónde lo cumplen más del 75% de los casos comentados en el punto previo, mientras que en los distritos que se encuentran dentro de la media vemos que no existe un patrón definido.

Otra de las conclusiones que obtenemos de la observación de los datos es que el ámbito del que más se habla en twitter es: “Cultura, economía y educación”, es lógico ya que son los temas de mayor actualidad. En cuanto a la influencia de los tweets sobre el estado de calidad de los ámbitos vemos que no es vinculante la mejor o peor calidad del distrito en un ámbito con una mayor o menor relevancia en twitter, puesto que no se ha encontrado ningún patrón entre estos dos datos.

 7.3 Líneas de trabajo futuras No podemos finalizar este proyecto sin hablar de las líneas de trabajo futuras que se contemplan. Debido a que la realización del mismo se ha hecho para la ciudad de Madrid, uno de los trabajos futuros más plausibles es la ampliación del proyecto a toda la comunidad de Madrid e incluso al resto de España a partir de los datos abiertos de las comunidades autónomas. El proceso sería el mismo, pero cambiando la información de entrada de los distritos por la de las comunidades autónomas.

Otra posible mejora atendiendo a la parte técnica del proyecto sería que, a la hora de recopilar y clasificar los tweets, en el caso de que el trabajo fuera para toda España podrían usarse técnicas de Data mining en lugar del uso de diccionarios, ya que contaríamos con una mayor cantidad de tweets para los temas bajo estudio.  

 

 

 

 

Page 57: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

47    

 

 

 

 

 

 

Page 58: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

VI    

ANEXO  A

RESULTADOS INDICADORES à Tabla de las puntuaciones de cada ámbito de los 21 distritos respecto de los indicadores:

 

Cultura,  economía  y  educación  

Seguridad  y  salud  

Sociedad  y  bienestar  

Medio  ambiente,  transporte  y  movilidad  

Arganzuela   5   6   5   7  Barajas   6   5   6   8  Carabanchel   6   10   7   9  Centro   5   11   6   6  Chamartín   8   7   7   5  Chamberí   9   7   5   8  Ciudad  lineal   6   6   10   8  Fuencarral-­‐El  Pardo   5   8   7   5  Hortaleza   7   5   5   5  Latina   5   6   9   8  Moncloa-­‐Aravaca   6   6   6   4  Moratalaz   6   6   6   6  Puente  de  Vallecas   6   7   8   11  Retiro   7   7   8   6  Salamanca   8   7   8   8  San  Blas-­‐Canillejas   6   9   6   7  Tetuan   6   7   5   9  Usera   6   6   7   9  Vicálvaro   6   5   6   6  Villa  de  Vallecas   6   8   6   8  Villaverde   6   6   6   8    

Page 59: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

VII    

àTabla anterior incluyendo los colores de los intervalos a los que pertenece cada puntuación:

Cultura,  economía  y  educación  

Seguridad  y  salud  

Sociedad  y  bienestar  

Medio  ambiente,  transporte  y  movilidad  

Arganzuela   5   6   5   7  Barajas   6   5   6   8  Carabanchel   6   10   7   9  Centro   5   11   6   6  Chamartín   8   7   7   5  Chamberí   9   7   5   8  Ciudad  lineal   6   6   10   8  Fuencarral-­‐El  Pardo   5   8   7   5  Hortaleza   7   5   5   5  Latina   5   6   9   8  Moncloa-­‐Aravaca   6   6   6   4  Moratalaz   6   6   6   6  Puente  de  Vallecas   6   7   8   11  Retiro   7   7   8   6  Salamanca   8   7   8   8  San  Blas-­‐Canillejas   6   9   6   7  Tetuan   6   7   5   9  Usera   6   6   7   9  Vicálvaro   6   5   6   6  Villa  de  Vallecas   6   8   6   8  Villaverde   6   6   6   8  

Page 60: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

VIII    

àEl mapa global de la ciudad de Madrid para cada ámbito resulta:

     

     

Page 61: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

IX    

ANEXO  B

RESULTADOS AVISOS Cultura,  economía  y  educación  

       

 

 

   Arganzuela   Chamartín   Barajas  Carabanchel   Hortaleza   Chamberi  Ciudad  Lineal   Moncloa  -­‐  Aravaca   Centro  

Fuencarral  –  El  Pardo   Salamanca   Moratalaz  Latina   Usera   Retiro  

Puente  de  Vallecas   Villa  de  Vallecas   Tetuan  San  Blas  -­‐  Canillejas   Villaverde   Vicalvaro  

 

Seguridad  y  salud      

     

     

   

Barajas   Arganzuela   Carabanchel  Chamartin   Chamberi   Centro  Moratalaz   Hortaleza   Ciudad  Lineal  Retiro   Salamanca   Fuencarral  -­‐  El  Pardo  

Vicalvaro   San  Blas  -­‐  Canillejas   Latina  Villa  de  Vallecas   Tetuan   Moncloa  -­‐  Aravaca  

Villaverde   Usera   Puente  de  Vallecas    

Medio  ambiente,  transporte  y  movilidad      

     

     

   Barajas   Arganzuela   Centro  

Moratalaz   Carabanchel   Chamartin  San  Blas  -­‐  Canillejas   Ciudad  Lineal   Chamberi  

Usera   Hortaleza   Fuencarral  -­‐  El  Pardo  Vicalvaro   Latina   Moncloa  -­‐  Aravaca  

Villa  de  Vallecas   Puente  de  Vallecas   Salamanca  Villaverde   Retiro   Tetuan  

 

 

 

 

Page 62: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

X      

Sociedad  y  bienestar                  

     

   Barajas   Arganzuela   Puente  de  Vallecas   Carabanchel  Centro   Chamartin   Usera   Ciudad  Lineal  

Hortaleza   Chamberi    

Fuencarral  -­‐  El  Pardo  Latina   Moratalaz  

 Villaverde  

Moncloa  -­‐  Aravaca   Salamanca      Retiro   San  Blas  -­‐  Canillejas      Tetuan  

   Vicalvaro      Villa  de  Vallecas      

     

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Page 63: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

XI    

ANEXO  C

RESULTADOS TWEETS  

Cultura,  economía  y  educación      

     

     

   Chamartin   Arganzuela   Carabanchel  Moratalaz   Barajas   Centro  

Puente  de  Vallecas   Fuencarral  -­‐  El  Pardo   Chamberi  Retiro   Salamanca   Ciudad  Lineal  Usera   San  Blas  -­‐  Canillejas   Hortaleza  

Villa  de  Vallecas   Tetuan   Latina  Vicalvaro   Villaverde   Moncloa  -­‐  Aravaca  

Seguridad  y  salud  

     

       

     

Barajas   Arganzuela   Centro  Chamartin   Carabanchel   Chamberi  

Puente  de  Vallecas   Fuencarral  -­‐  El  Pardo   Ciudad  Lineal  San  Blas  -­‐  Canillejas   Moratalaz   Hortaleza  

Usera   Salamanca   Latina  Vicalvaro   Tetuan   Moncloa  -­‐  Aravaca  

Villa  de  Vallecas   Villaverde   Retiro  

Medio  ambiente,  transporte  y  movilidad  

     

       

     

Chamartin   Barajas   Arganzuela  Hortaleza   Chamberi   Carabanchel  

Puente  de  Vallecas   Moratalaz   Centro  San  Blas  -­‐  Canillejas   Salamanca   Ciudad  Lineal  

Usera   Retiro   Fuencarral  -­‐  El  Pardo  Vicalvaro   Tetuan   Latina  

Villa  de  Vallecas   Villaverde   Moncloa  -­‐  Aravaca  

Page 64: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

XII    

Sociedad  y  bienestar                  

     

Chamartin   Barajas   Arganzuela  Puente  de  Vallecas   Chamberi   Carabanchel  

Salamanca   Latina   Centro  San  Blas  -­‐  Canillejas   Moratalaz   Ciudad  Lineal  

Retiro   Tetuan   Fuencarral  -­‐  El  Pardo  Vicalvaro   Usera   Hortaleza  

Villa  de  Vallecas   Villaverde   Moncloa  -­‐  Aravaca  

à Tabla en la que se recogen los resultados de los tweets clasificados en 10 días por distrito y ámbito:

 Distritos/  TWEETS  

Medio  ambiente,  transporte  y  movilidad  

Seguridad  y  salud  

Sociedad  y  bienestar  

Cultura,  Economía  y  Educación  

Tweets  totales  clasifica-­‐dos  

Tweets  totales  descar-­‐gados  

Arganzuela   23   37   17   160   237   1021  Barajas   11   16   7   140   174   841  

Carabanchel   22   34   25   245   326   2401  Centro   82   34   65   780   961   5219  

Chamartín   2   0   0   5   7   38  Chamberí   30   26   9   166   231   1170  

Ciudad  lineal   33   33   15   221   302   2035  Fuencarral-­‐El  

Pardo  21   27   14   156   218   1066  

Hortaleza   26   10   17   170   223   1315  Latina   32   32   11   226   301   2281  

Moncloa-­‐Aravaca  

61   38   12   258   369   1870  

Moratalaz   11   19   5   106   141   812  Puente  de  Vallecas  

4   5   0   28   37   312  

Retiro   24   15   3   105   147   790  Salamanca   17   26   1   114   158   823  San  Blas-­‐Canillejas  

0   14   5   115   134   1000  

Tetuan   13   23   7   147   190   890  Usera   6   14   6   54   80   541  

Vicálvaro   3   9   3   39   54   411  Villa  de  Vallecas  

0   1   0   18   19   136  

Villaverde   20   17   7   135   179   1378  Total   441   430   229   3388   4488   22331  

 

Page 65: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

XIII    

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Page 66: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

XIV    

Bibliografía

[1] Bouckaert, G. (1995). Remodeling Quality and Quantity in a Management Context. In: Public Productivity Through Quality and Strategic Management, eds. A. Halachmi and Geert Bouckaert.

[2] INAP, La Agencia Estatal de Evaluación de la Calidad de los Servicios y de las Políticas Públicas. https://books.google.es/books?id=P_ik_dJNIWcC

[3] Parasuraman, A., Zeithaml, V. Y Berry, L. (1988): “SERVQUAL: a multiple scale for measuring consumer perceptions of service quality”. Journal of Retailing, 64, 12-40. [4] Castells, M. (2004). La era de la información: economía, sociedad y cultura (Vol.1). siglo XXI

[5] Ward, J. S., & Barker, A. (2013). Undefined by data: a survey of big data definitions. arXiv preprint arXiv:1309.5821.

[6] Valenzo, M. R., Valencia, R. E. C., & Castro, J. M. M. (2013). Integración de búsquedas de texto completo en Bases de Datos noSQL. Vínculos, 8(1), 80-92.

[7] Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.

[8] Guyon, I. (2008). Introduction to Machine Learning. Slides and Videolecture.

[9] Bizer, C., Boncz, P., Brodie, M. L., & Erling, O. (2012). The meaningful use of big data: four perspectives--four challenges. ACM SIGMOD Record, 40(4), 56-60.

[10] Del uso del Big Data, B. (2015). Big Data para pymes. Sage, 900(878), 902.

[11] Banet, T. A. (2001). La minería de datos, entre la estadística y la inteligencia artificial. Questiió: Quaderns d'Estadística, Sistemes, Informatica i Investigació Operativa, 25(3), 479-498.

[12] Garriga-Portolà, M. (2011). ¿ Datos abiertos? Sí, pero de forma sostenible. El profesional de la información, 20(3), 298-303.

[13] “Machine Learning”, Capítulo 6, Tom M. Mitchell, McGraw-Hill International Editions.

[14] Pang, B., Lee, L., & Vaithyanathan, S. (2002, July). Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10(pp. 79-86). Association for Computational Linguistics.

Page 67: UNIVERSIDAD POLITÉCNICA DE MADRIDoa.upm.es/37308/7/PFC_IRENE_FERNANDEZ_SANCHEZ.pdf · 2015. 9. 1. · de los servicios públicos de la ciudad de Madrid. Mediante la combinación

XV    

[15] P. R. a. H. S. Christopher D. Manning, «Capítulo 13 y 15,» de Introduction to Information Retrieval, Cambridge University Press, 2008, pp. 319-326.

[16] Electrico, I.C., & García, L. M. (2014). Análisis de sentimientos y predicción de eventos en twitter.

[17] Guha, S., Rastogi, R., & Shim, K. (1999, March). ROCK: A robust clustering algorithm for categorical attributes. In Data Engineering, 1999. Proceedings., 15th International Conference on (pp. 512-521). IEEE.