Download pdf - ¿Que es big dimension?´edx3.cc.upv.es/c4x/poc/bigdata/asset/bigdimension1.pdf“En esta nueva era de Big Data, los metodos de aprendizaje´ maquina deben adaptarse para poder tratar

¿Que es big dimension?

Veronica Bolon Canedo 2/30

Big dimension

“En esta nueva era de Big Data, los metodos de aprendizajemaquina deben adaptarse para poder tratar con este volumen dedatos sin precedentes. Analogamente, el termino Big Dimension seha acunado para referirse al enorme numero sin predecentes decaracterısticas con las que hay que tratar.”

V. Bolon-Canedo, N. Sanchez-Marono, A. Alonso-BetanzosFeature Selection for High-Dimensional DataSpringer, 2015


Repasemos algunos conceptos basicos...


Aprendizaje supervisado

Terminologıa:

• D = {X,Y } es el conjunto de datos (o dataset).• Cada fila de X es un ejemplo (o instancia, o muestra).• Cada columna de X es una caracterıstica (o atributo).• Y es el vector de etiquetas (o clases).• N es el numero de ejemplos.




Hay casos, como por ejemplocuando tratamos con datosgeneticos, donde el numerode caracterısticas es muchomas grande que el deejemplos.


Si echamos un vistazo a los datasets del repositorio UCI1...

1https://archive.ics.uci.edu/ml/index.htmlVeronica Bolon Canedo 8/30

https://archive.ics.uci.edu/ml/index.html

Y si analizamos el repositorio LIBSVM Database2...

• Existen conjuntos de datos con mas de 29 millones decaracterısticas (KDD Cup 2010)

• Varios conjuntos de datos tienen mas de 1 millon de caracterısticas

2https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/Veronica Bolon Canedo 9/30

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/





Seleccion de caracterısticas


Reduccion de la dimension

Las tecnicas de reduccion de ladimension se aplican para reducir ladimension de los datos originales y,al mismo tiempo, mejorar elaprendizaje.


Tecnicas de reduccion de la dimension

Extraccion de caracterısticasTransforma las caracterısticas originales en un subconjunto de nuevascaracterısticas

Seleccion de caracterısticasElimina las caracterısticas irrelevantes y/o redundantes


¿Podemos decir como de “util” es una caracterıstica?

Imaginemos que estamos tratando de adivinar el precio de un coche...

• Relevantes: motor, edad, kilometraje, ano de compra,presencia de oxido,. . .

• Irrelevantes: color de los limpiaparabrisas, presenciade pegatinas,. . .

• Redundantes: edad/ano de compra


¿Por que aplicar seleccion de caracterısticas?

• Tener mas caracterısticas no implica obtener mejores resultados deaprendizaje.

• Trabajar con menos caracterısticas reduce la complejidad delproblema y reduce el tiempo de ejecucion.

• Con menos caracterısticas, se mejora la capacidad degeneralizacion.

• Obtener los valores para ciertas caracterısticas pueden ser costoso odifıcil.

• Con menos caracterısticas, es mas facil comprender el modelo.


Tecnicas de seleccion de caracterısticas

Filtro Embebido Wrapper


Filtros


Medidas de filtrado

• Medidas de separabilidad. Estiman la separabilidad entre clases:euclıdea, Mahalanobis...

• Por ejemplo, en un problema binario, un proceso de SC basado eneste tipo de medidas determina que X es mejor que Y si X induce unadiferencia mayor que Y entre las dos probabilidades condicionales apriori entre las clases.

• Correlacion. Los buenos subconjuntos son aquellos que estancorrelacionados con la clase.

f (X1, ...,XM) =

∑Mi=1 ρic∑M

i=1

∑Mj=i+1 ρij

donde ρic es el coeficiente de correlacion entre la variable Si y la etiqueta c de la

clase C y ρij es el coeficiente de correlacion entre Xi y Xj


Medidas de filtrado

• Teorıa de la Informacion. La correlacion solo puede detectardependencias lineales. Un metodo mas potente es la informacionmutua.

• La informacion mutua I(X1,...,M ;C) mide la cantidad de incertidumbreque se pierde en la clase C cuando los valores del vector X1,...,M sonconocidos.

• Debido a que es complejo el calculo de I, normalmente se usanreglas heurısticas

f (X1,...,M) =M∑

i=1

I(Xi ;C)− βM∑

i=1

M∑j=i+1

I(Xi ;Xj)

con β = 0.5, por ejemplo


Filtros

Ventajas Inconvenientes Ejemplos

Independencia del clasificador No interaccion con clasificador CFSBajo coste computacional Consistency-basedRapido INTERACTBuena generalizacion ReliefF

Informacion mutua


Embebidos


Interaccion con clasificador Dependiente del clasificador SVM-RFECoste computacional mas bajo quewrappers

FS-P

Considera dependencias entre carac-terısticas


Wrappers


Wrappers


Interaccion con clasificador Costoso computacionalmente SFS+SVMConsidera dependencias entre carac-terısticas

Riesgo de sobreajuste SBS+C4.5

Dependiente del clasificador


Existe otra forma de categorizar los metodos de seleccion decaracterısticas de acuerdo a la salida que proporcionan:

• Metodos que devuelven un subconjunto de caracterısticas.

• Metodos que devuelven un ranking de caracterısticas.


Metodos de subconjunto

Devuelven un subconjunto de caracterısticas optimizado de acuerdo aalgun criterio de evaluacion.

• Input: x caracterısticas, U criterio de evaluacion

• Subconjunto = {}• Repetir

• Sk = generarSubconjunto(x)• si mejora(S, Sk , U)

• Subconjunto = Sk

• Hasta CriterioParada()

• Output: Subconjunto de las caracterısticas mas relevantes


Metodos de ranking

Devuelven una lista de caracterısticas ordenadas por un criterio deevaluacion.

• Input: x caracterısticas, U criterio de evaluacion

• Lista = {}• Para cada caracterıstica xi , i ∈ {1...N}

• vi = calcular(xi,U)• colocar xi en la Lista de acuerdo a vi

• Output: Lista con las caracterısticas mas relevantes primero


Metodos de ranking

Caracterısticas A1 A2 A3 A4 A5 A6 A7 A8 A9Ranking A5 A7 A8 A1 A9 A2 A6 A3 A4

A5 A7 A8 A1 A9 A2 (6 caracterısticas)


Algunos metodos comunmente usados

Uni/Multivariado Ranking/Subconjunto Autor y Ano Complejidad3

Chi-Squared Univariado Ranker Liu & Setiono (1995) nmF-score (Fisher score) Univariado Ranker Duda et al. (1999) nmInformation Gain Univariado Ranker Quinlan (1986) nmReliefF Multivariado Ranker Kononenko (1994) n2mmRMR Multivariado Ranker Peng et al. (2005) nm2

SVM-RFE Multivariado Ranker Guyon et al. (2002) max(n,m)m2

CFS Multivariado Subconjunto Hall (1999) nm2

FCBF Multivariado Subconjunto Yu & Liu (2003) nm log mINTERACT Multivariado Subconjunto Zhao & Liu (2007) nm2

Consistency Multivariado Subconjunto Dash & Liu (2003) nm2

Estos metodos fueron propuestos hace muchos anos... y su complejidad esbastante alta en algunos casos... SOLUCION: aprendizaje distribuido

3n es el numero de ejemplos y m el de caracterısticas









Estos metodos fueron propuestos hace muchos anos... y su complejidad esbastante alta en algunos casos...

SOLUCION: aprendizaje distribuido










Estos metodos fueron propuestos hace muchos anos... y su complejidad esbastante alta en algunos casos... SOLUCION: aprendizaje distribuido



Big dimensionSeleccion de caracterısticas

Veronica Bolon Canedo

Department of Computer ScienceUniversity of A Coruna (Spain)