20
Universidad de Valparaíso Escuela de Ingeniería civil en Informática Investigación sobre antenas para Mineria de Datos

Proyecto Data Maining

Embed Size (px)

DESCRIPTION

Analisisi mediante Rapid Minner

Citation preview

Page 1: Proyecto Data Maining

Universidad de ValparaísoEscuela de Ingeniería civil en Informática

Investigación sobre antenas para Mineria de Datos

Versión 1.0

09/2015

Page 2: Proyecto Data Maining

ContenidoResumen............................................................................................................................................3

1. Introducción..............................................................................................................................3

2. Objetivos...................................................................................................................................4

Objetivos Generales........................................................................................................................4

Hipótesis.........................................................................................................................................4

3. Descripcion DataSet..................................................................................................................4

Transformacion Dataset en formato ARFF.....................................................................................5

4. Trabajo Práctico........................................................................................................................6

Datos Obtenidos...........................................................................................................................12

Reglas de Asociación....................................................................................................................15

5. Conclusión...............................................................................................................................16

6. Bibliografía..............................................................................................................................17

Page 3: Proyecto Data Maining

ResumenEl presente documento se encuentra dividido en cinco secciones, en estas se apreciará una introducción al tema planteado, para posteriormente denotar los objetivos que persigue este trabajo y la hipotesis que se pretende verificar, en el tercer punto se elabora un analisis detallado sobre la hipotesis previamente definida, en donde se utilizará como herramienta de apoyo Rapid Minner. Finalmente, se podrá apreciar un resumen con las conclusiones del autor en base a los pormenores encontrados en la realización del trabajo práctico.

1. Introducción

La telefonia celular y el internet movil, son cada vez mas importantes en nuestras vidas cotidianas. Estos nos permiten comunicarnos con nuestros seres queridos, trabajar, estudiar, e incluso ayudarnos frente a situaciones de emergencia.

Según un informe difundido por la Subsecretaría de Telecomunicaciones, el número de aparatos de la telefonía móvil activos en Chile llegó a los 24,1 millones en diciembre de 2012, estableciendo un promedio de 1,38 telefonos por habitante1, se espera que este numero siga creciendo rapidamente, debido a los nuevos modelos y mayores estandares que ofrecen las diferentes compañias teléfonicas.

Sin embargo para que este sistema funcione de manera adecuada, es decir, cumpla con permitir el envio y recepcion de informacion desde cualquier ubicación (dentro del país), se requiere de una estructura que permita establecer este enlace, a esto se le conoce como antenas.

Cada antena tiene un área de cobertura determinada, el alcance de esta cobertura depende de la potencia de la antena y del terreno donde se encuentre ubicada. Además cada una de estas, puede solo atender a un numero limitado de llamadas, por lo que es necesario a medida que incrementan los dispositivos moviles, aumentar la cantidad de antenas disponibles por sector.

Desde el 11 Junio del 2012 en Chile se decreto una Ley, “Ley de Torres”, que permite regular la instalacion de antenas en el país, dentro de esta ley se incluye una serie de restriccciones, que permiten ubicar al país dentro de los cinco paises mas exigentes en el mundo con respecto a este tema.

Hoy en dia, la Subsecretaría de Telecomunicaciones, dispone de un registro con la ubicación de cada una de las antenas dentro del país, además de la fecha de aprobación de esta misma. Estos datos, permiten generar mapas de ubicación, y clasificacion por sector, sin embargo si se examinan de forma mas detallada, pueden entregar informacion mas especifica que no es tan fácil de inferir a simple vista.

1 DiarioPyme, http://www.diariopyme.cl/subtel-chile-tiene-24-1-millones-de-celulares-activos/prontus_diariopyme/2013-03-19/144258.html

Page 4: Proyecto Data Maining

2. Objetivos

Mediante este proyecto se pretende aplicar los conocimientos sobre Mineria de Datos, tanto de forma teórica como práctica, sobre los datos que informa la SubTel acerca de la ubicación de antenas.

Objetivos Generalesi. Establecer que empresa tiene mayor cantidad de antenas instaladas en el

país.ii. Conocer los lugares con mayor cantidad de antenas hablitadas.

iii. Desde la validez de la “Ley de Torres”, ha disminuido la instalacion de antenas.

iv. Verificar la validez o rechazo de la hipotesis planteada.

HipótesisLa cobertura de Entel en Chile, en el ámbito de la telefonia movil, es mejor en el centro de Chile(V,RM,VI), que en los extremos del país, es decir, Norte y Sur.

Para verificar esta hipótesis, es necesario utilizar la cantidad de antenas y ubicacion de estas mismas para establecer una relacion entre el número de antenas ubicadas en cada comuna y la cobertura de estas. Con estos datos se podrá obtener información útil, que permitira ver la variabilidad entre las ubicaciones y la region donde se encuentra, a partir de ello se revisará si existe mayor cantidad de antenas mientras mas al sur o al norte nos ubiquemos.

3. Descripcion DataSet

Listado de antenas de telefonía móvil, contiene los datos de Autorizaciones de Estaciones Base (antenas) a nivel Nacional desde Octubre 2013 hasta Abril 2015.Estos datos provienen de la Subsecretaria de Telecomunicaciónes del Gobierno de Chile, quien mantiene un registro de las autorizaciones entregadas a las diferentes compañias moviles para la instalación de antenas.

El Data Set disponible cuenta con 24408 datos, sin embargo debido a que el Software R no permite trabajar de forma optima con esta cantidad de datos, es que se han eliminado las autorizaciones que iban desde 1988 hasta 2013. El Data Set con el que se trabajara consta de 24408 datos y contiene 17 atributos o variables:

Empresa: Nombre de la empresa que instala la antena. Servicio: Identifica si el servicio es publico o privado. Tipo Servicio: Define para que se va a ocupar esta antena. Sistema: Detalla el tipo de red que ocupará el servicio. Tipo elemento: Denota que es lo que se va a instalr, antena, etc. Dirección: Lugar donde se realiza la instalacion del elemento.

Page 5: Proyecto Data Maining

Comuna: Zona urbana o rural donde se realiza la instalacion de la antena. Región: corresponde a la región donde se instala la antena. Lat_Grados: corresponde a la localización de un lugar, se expresa en

grados Lat_Minutos: corresponde a la localización de un lugar, expresado en

minutos. Las_Segundos: corresponde a la localización de un lugar, expresado en

segundo Lon_Grados: La longitud es una medida de una dimensión, expresada en

grados. Lon_Minutos: La longitud es una medida de una dimensión, expresada en

minutos. Lon_Segundos: La longitud es una medida de una dimensión, expresada

en segundos. Tipo Documento: Explica bajo que decreto o ley fue aprobada la

instalacion de las antenas. Nro. Documento: Hace referencia al numero de documento donde se

encuentra la aprobación. Fecha Documento: Fecha en la que se emitio el documento de

aprobacion.

Tambien se utilizó otro dataset que solo entrega la cantidad de habitantes por región

Transformacion Dataset en formato ARFFPara comenzar se necesita transformar el archivo autorizacionAntenas.csv en formato .arff. A continuación se detallan los pasos utilizados para generar esta transformacion:a) Previamente a la transformacion de archivo, se analiza el documento

revisando las variables de interes que permitiran generar reglas que permitan emitir alguna conclusion respecto a la hipotesis elaborada, las variables o atributos que no aportan valor son eliminados.

b) Para crear el archivo arff se debe mantener las caracteristicas bajo las cuales se estructura un archivo de este tipo, es decir, se debe indicar el nombre de la relacion: @relation , los atributos: @atributte y los datos: @data , esto se muestra en la

c) .

Page 6: Proyecto Data Maining

Figura 1: Archivo en formato arff.

4. Trabajo PrácticoEn este punto se describiran los pasos que se aplicaron para generar las reglas de asociacion que permiten entender el comportamiento de los datos otorgados por el dataset.Para llevar a cabo la parte practica, se utilizó la herramienta Rapid Minner 6.5.0 con el plugin Weka.

Para la carga del archivo, una vez realizado el punto 3, se debe proceder a la carga del archivo generado, para realizar este procedimiento se debe ir a la zona Filter y escribimos arff, tal como se aprecia en la Figura 2.

Figura 2: Uso Filter

Seguidamente arrastramos el operador “Read ARFF” al “Main Process”.Sin embargo como se requiere mezclar dos archivos debido a la relacion que existe entre estos documentos, se repite el paso anterior, como se muestra en la Figura 3. Finalmente en el Filter escribimos join,y arrastramos este operador al “Main Process” como se muestra en la Figura 4 y 5, y se unen estos archivos.

Page 7: Proyecto Data Maining

Figura 3: Read ARFF en el Main Process

Figura 4: Filter Join

Figura 5: Unión ARFF

A continuación, es necesario unir la salida out del Join con res del Main Process como lo muestra la Figura 6.

Figura 6: Unión out- res

En la Figura 7, se muestran los resultados y la cantidad de instancias y atributos que poseen estos resultados.

Page 8: Proyecto Data Maining

Figura 7: Data View

Dado que las variables que serán utilizadas son valores continuos y no nominales, es preciso discretizar alguno de estos atributos para usar el algoritmo A priori. Las variable discretizada fue Region. Para realizar este preoceso se busca el Operators Discretize en el Filter, donde se muestran varias opciones. Para este caso utilizaremos el Discretize by User Specification(Figura 8), que permite generar clases según la configuracion del usuario.

Figura 8: Filter con discretize

En la Figura 9 se aprecia el discretize agregado al “Main Process”, y en la Figura 10 se muestra la configuracion de esta discretizacion. La configuración realizada al Discretize, fue crear 3 intervalos para el atributo seleccionado, este se describe en la Tabla 1.

Page 9: Proyecto Data Maining

Figura 9: Aplicar Discretize by User Specification

Figura 10: Configuración discretize

Nombre Norte Centro SurRegiones 1,2,3,4,15 5,6,7,8,13 9,10,11,12,13,14

Tabla 1: Clases discretizadas

Page 10: Proyecto Data Maining

En la Figura 11, se muestran los datos entregados después de aplicar la discretizacion ya explicada anteriormente

Figura 11: Data View de Discretize

Finalmente para utilizar el algorimo A priori se utilizo un operador que permite convertir los atributos numericos a nominal y asi trabajar con la clasificacion y las reglas de asociacion que permite generar este algoritmo. En la Figura 12, se muestra el diseño del resultado final en el “Main Process”.

Figura 12: Diseño Final Main Process

Page 11: Proyecto Data Maining

Sobre el Operador W- AprioriPara comenzar con el análisis de los datos previamente se definen los parámetros que se utilizarán para generar las reglas de asociación”, estos parámetros se explican a continuación.

N: Es el número total de reglas que a lo más deben ser mostradas. T: Es la medida con la cual se clasifican las reglas

C: es el mínimo índice de confianza que deben cumplir las reglas de asociacion para que se muestren como resultado valido de la operación a priori,para el caso de estas pruebas se utilizo una confianza de 0.1 con el fin de que genere la mayor cantidad de reglas de asociación posibles y posteriormente ir filtrando.

D: es la diferencia entre una regla y otra, la cual será de 0,01 para así poder representar amplia cantidad de reglas.

De los demás parámetros que existen dentro del operador “W-Apriori”, se selecciona la letra “I”, la cual nos muestra todos los itemset y sus respectivos tamaños.

En la Figura 13, se muestra la configuración del W-Apriori.

Figura 13: Configuración W-A priori

Page 12: Proyecto Data Maining

Datos Obtenidos

Para hacerse una idea de la disposicion de los datos, se generaron los siguientes gráficos, los cuales permiten generar alguna postura referente la hipotesis planteada.

La Figura 14 muestra la distribucion de habitantes según la zona donde viven en el pais, de esta imagen se desprende que en la zona centro existen alrededro de 6.250.000 habitantes, mientra que en la zona norte y sur del pais los habitantes bordean el 1.500.000

Figura 14: Distribucion de habitantes por Zona

Page 13: Proyecto Data Maining
Page 14: Proyecto Data Maining

En la Figura 15 y 16, se muestra la distribución de antenas por zonas, en esta se puede apreciar que la mayor concentracion de antenas se centra en la zona central, seguida por aproximadamente 600 antenas instaladas en la zona Sur del país, por último el Norte de Chile posee la menor cantidad de antenas autorizadas para su instalación.

Figura 16: Cantidad de antenas por zona

En la Figura 17, se puede apreciar que las mayores compañias telefonicas(Claro, Entel,Telefónica), tienen antenas instaladas a lo largo de todo el país. Ademas se aprecia que la distribucion de estas antenas por compañía es parecida, es decir, en la distribucion de antenas por zona no se aprecia grandes variaciones entre una compañía y otra.

Figura 15: Distribución de antenas por zona

Figura 17: Distribución compañias por zona.

Page 15: Proyecto Data Maining

Reglas de Asociación En base a la configuracion del algoritmo a-priori, se han obtenido las siguientes reglas de asociación, las cuales se muestran en la Figura 18.

Figura 18: Reglas de asociación.

Estas reglas de asociacion tienen distintos niveles de confianza, sin embargo de la 1 a la 11, son reglas obvias, que no permiten infereir algun comportamiento especifico de estos dataset utilizados. Es por ello que solo se pondra atencion solo en 2 reglas (12 y 13), sin embargo estas no aportan a la hipotesis planteada, y no involucran las zonas en donde se instalan las antenas de las empresas de telefonia.

En otras palabras, no existen reglas que permitan tener alguna postura sobre la hipotesis planteada con anterioridad en el punto de los objetivos esperados.

Page 16: Proyecto Data Maining

5.Conclusión

De forma general se puede apreciar que la tecnología cada vez hace mayor uso de estos tipos de datos, con el fin de obtener conocimientos que permitan guiar hacia alguna decisión.

Para el desarrollo, análisis y verificación de la hipótesis planteada en un comienzo, como ya mencionamos antes fueron usadas las técnicas de asociacion de datos, mediante el uso de la herramienta rapid Minner. Con respecto a la hipótesis planteada en el punto hipótesis, no se puede concluir respecto a ella, ya que los datos que comprende el dataset no muestran ninguna relacion entre la zona de instalacion y la compañía, es mas, se puede decir de forma arbitraria que faltan mas datos o atributos que permitan generar una opinion profunda sobre el tema de si la cantidad de habitantes esta intrinsicamente relacionada con el numero de antenas instaladas, ya que tamposo se puede concluir a ciencia cierta si es que la instalacion esta ligada en forma porcentual a la cantidad de habitantes que existe en cada region o zona del país.

Para finalizar el tema de la hipótesis, se puede decir que esta no es validada ni rechazada, debido a que las reglas de asociacion obtenidas no muestran una realidad frente a los parametros previamente expuestos, es entonces, que este dataset no se puede utilizar para mostrar reglas de asociación relacionadas a la hipotesis descrita previamente.

Por otro lado el dataset antes descrito si bien posee muchos datos, no tiene potencial para seguir siendo utilizado a lo largo del proyecto, ya que no se pueden hacer muchas combinaciones ademas de las ya realizadas, por lo que su alcance es pequeño, ademas los datos no permiten hacerse una vision general, ni permite generar una opinion afirmativa o negativa respecto a las hipotesis planteadas.

Page 17: Proyecto Data Maining

6. Bibliografíai. Sistema de telecomunicaciones, Informe Sectorial:Telecomunicaciones en

Chile, 2013, link: http://www.subtel.gob.cl/images/stories/apoyo_articulos/notas_prensa/analisis_sectorial_dic2012_20130315.pdf

ii. Sistema de telecomunicaciones, Antena, 2011, link: http://www.subtel.gob.cl/antenas1/

iii. Sistema de telecomunicaciones, Sector de telecomunicacion, 2014, link: http://www.subtel.gob.cl/wp-content/uploads/2015/01/PPT-Series-Septiembre-2014-041214-v1.pdf

iv. Sistema de telecomunicaciones, “Ley de Torres”, link: http://2010-2014.gob.cl/santiago-2-0/ley-de-torres-de-antenas/

v. RapidMinner Studio Core, “Join”,link: http://docs.rapidminer.com/studio/operators/data_transformation/set_operations/join.html