Evaluando sistemas de recomendación

Evaluando sistemasde recomendacion

Blanca Vargas Govea

Grupo de Sistemas de RecomendacionDepartamento de Ciencias Computacionales

CENIDET

30 de noviembre de 2011

Contenido

1 Introduccion

2 Metodologıa

3 Lo mınimo para evaluar

4 Por grupos

5 Atributos de contexto

6 Conclusiones

Blanca Vargas Govea (CENIDET) Evaluando sistemas de recomendacion 30 de noviembre de 2011 2 / 34

¿Por que evaluar?

Mostrar que el sistemacumple su objetivo.

Analizar deficiencias ycorregirlas.

Comparacion con otrossistemas/algoritmos.

Dificultades 1/2

Gran cantidad dealgoritmos.

Distintas tareas.

No hay metodologıaestandar (¿es viable?)

Cuestionamiento enelegir las metricas.

Dificultades 2/2

Escasez de datos deprueba.

No se consideran lasdiferencias de lossistemas.

La evaluacion no reflejaaspectos destacables.

El mismo esquema deevaluacion no funcionapara todos.

¿Que se esta haciendo?

Nuevas metricas.

Busqueda demetodologıa unica.

Enfoques centrados enel usuario.

Tomar en cuenta lascaracterısticas de losdatos.

Nuestro enfoque

Analisis estadıstico-particionamiento y de atributos de contexto.

Metodologıa

¿Como?

Restaurants

0 10 20 30 40 50 60 70 80 90 100

Lambda

dataset

TopU.pop

TopU.nopop

BottomU.pop

BottomU.nopop

Lambda

dataset

popular

no_popular

Sistema a evaluar: Surfeous

Prototipo de sistema de informacion contextual.

Filtrado colaborativo.

Fusiona enfoque social y contextual.

Social: extiende el enfoque usuario-item-rating con anotaciones.

Contexto: incorpora modelos de contexto: entorno, usuario yservicio (ıtem). Uso de web semantica, ontologıas.

Sistema a evaluar: Surfeous

Lo mınimo

Identificacion de la tarea

Mostrar todos los ıtems encontrados.

Prediccion del rating.

Mostrar secuencia de ıtems (e.g., musica).

Lista ordenada de ıtems (top n).√

Descripcion de datos

Usuario Item Ratingid01 253 0id02 253 1id02 258 0...id138 247 2

top Item Freq pcj pcj acum.1 5085 36 3.10 3.102 2825 33 2.75 5.853 5032 28 2.41 8.26...33 5046 11 0.948 49.31...130 5016 3 0.259 100 %

Cuadro: Frecuencia acumulada ıtems

Usuario Item Rating138 130 1161

Restaurants

0 10 20 30 40 50 60 70 80 90 100

Figura: Power law distribution, top 33≈ 50 %.

Esquema entrenamiento - prueba

Leave one out. Conjunto de prueba: se extrae aleatoriamente unainstancia (usuario,ıtem, rating) por cada usuario. Las instanciasrestantes forman el conjunto de entrenamiento.

n Usuario Item Rating1 id01 253 02 id02 253 13 id02 258 0...1161 id138 247 2

Cuadro: Todos

Cuadro: Conjunto de prueba

Cuadro: Conjunto de entrenamiento

Repeticiones

10 veces por cada experimento.

Seleccion de metricas

Metrica TareaMSE = 1

∑ni=1(pi − ai )

2 Prediccion de ratings

RMSE =√

∑ni=1(pi − ai )2 Prediccion de ratings

Precision = Relevantes recuperadosRecuperados y Top n

Recuerdo = Relevantes recuperadosRelevantes

ROC Top nTPR = TP

TP+FNFPR = FP

NDCGk = 1Z

∑ki=1

2relevance score(i)−1

log2(i+1) Top n

Precision/Recuerdo

Evalua la capacidad del sistema de mostrar el ıtem esperado en lalista.

Precision =Relevantes recuperados

Recuperados

Recuerdo =Relevantes recuperados

Relevantes

¿Que ıtems son relevantes? posibles respuestas:

Los que aparecen en la lista y queestan en el conjunto de prueba.

Los que el usuario considerautiles y toma la recomendacion.

Los que aparecen dentro de lasprimeras n posiciones de la lista yestan en el conjunto de prueba.

Precision/Recuerdo: ejemplo

Tenemos 5 usuarios en el conjunto de prueba. Para cada usuario serealizan 11 queries en un sistema de recomendacion variando unparametro (0,0-1,0). Los resultados muestran la posicion en la queaparece el ıtem. Obtener la precision y el recuerdo del sistema paralas 5 primeras posiciones de la lista.

Usuario Precision Recuerdou1:{3,3,3,3,2,3,2,4,8} 0.88 (8/9) 0.73 (8/11)u2:{2,2,6,8} 0.5 (2/4) 0.18 (2/11)u3:{10,7,7,6,9,9,8,7,10} 0 (0/4) 0 (0/11)u4:{2,2,2,2,2,2,3,4} 1 (8/8) 0 (8/11)u5:{5,5,5,6,8} 0.6 (3/5) 0.27 (3/11)Promedio 0.596 (2.98/5) 0.38 (1.9/5)

Cuadro: Precision/Recuerdo: Para obtener el promedio, la division es entre elnumero de usuarios en el conjunto de prueba, no sobre los usuariosrecuperados. Algunos usuarios no reciben recomendaciones.

NDCG: Normalized Discounted Cumulative Gain

Evalua la capacidad del sistema de mostrar el ıtem en las primerasposiciones.

NDCGk =1Z

∑ki=1

2relevance score(i)−1log2(i+1)

Supongamos que en un query para un usuario, el ıtem esperadoaparecio en la posicion 4 de la lista. Esto se representa como:{0,0,0,1,0,0,0,0,0,0}

k 1 2 3 4 5 6 7 8 9 101 0.63 0.5 0.43 0.38 0.35 0.33 0.32 0.30 0.29

DCG4 = 0 + 0 + 0 +21−1

log2(4+1) = 0,43

¿Y ahora? receta para evaluacion

Ingredientes:

1 sistema de recomendacion contextual (Surfeous).

2 metricas definidas.

10 pares de conjuntos para entrenamiento/prueba.

Lenguaje de programacion (sugerencia: lenguaje de scripts).

Modo de hacerse:1 Ejecutar el sistema de recomendacion para cada par de

conjuntos: entrenar y mostrar los datos de prueba.2 Surfeous* da como resultados las posiciones en las que aparece

(si aparece) el ıtem esperado (i.e., el del conjunto de prueba).Obtendras 10 conjuntos de resultados.

3 Aplicar las metricas a los resultados. Promediar.4 Graficar.

* La informacion de salida depende del sistema.

Resultado

Lambda

subset

Lambda

subset

Lambda

subset

Por grupos

¿Por que? ¿no basta con la evaluacion anterior?

Muestra la capacidad del sistema para generar recomendaciones paradistintas caracterısticas de los datos.

¿Como se comporta pararecomendar ıtemsno-populares?

¿Y para usuarios con pocosratings?

¿Que hace cuando hay mayornumero de ıtems que deusuarios? ¿y viceversa?

Popularidad de ıtems

Lambda

dataset

popular

no_popular

Lambda

dataset

popular

no_popular

Lambda

dataset

popular

no_popular

Ratings. Usuarios con mas ratings.

Lambda

dataset

TopU.pop

TopU.nopop

Lambda

dataset

TopU.pop

TopU.nopop

Lambda

dataset

TopU.pop

TopU.nopop

Ratings. Usuarios con menos ratings.

Lambda

dataset

BottomU.pop

BottomU.nopop

Lambda

dataset

BottomU.pop

BottomU.nopop

Lambda

dataset

BottomU.pop

BottomU.nopop

Distribucion usuarios-ıtems.

Lambda

dataset

lessU.moreItems

moreU.lessItems

Lambda

dataset

lessU.moreItems

moreU.lessItems

Lambda

dataset

lessU.moreItems

moreU.lessItems

Atributos de contexto

Atributos: posibles dificultades

Problemas dedimensionalidad: lentitud.

Desempeno predictivo:atributos redundantes eirrelevantes.

Exceso de informacionsolicitada al usuario.

Diseno de interfaz.

Surfeous: atributos de contexto

Service model (23 attributes)latitude,longitude,address,city,state,country,fax,ZIP,alcohol,smoking,dress,accessibility,price,franchise,ambiance,space,services,parking,cuisine,phone,accepts,days,hoursUser model (21 attributes)latitude,longitude,smoking,alcohol,dress,ambiance,age,transportation,marital-status,children,interests,personality,religion,occupation,favorite-color,weight,height,budget,accepts,accessibility,cuisineEnvironment model (2 attributes)time,weather

¿Que se hizo? (1/2)

1 Se eligio el modelo de servicio.

2 Se construyo una tabla: item, at1, ..., at23, rating.

3 Se selecciono un algoritmo de seleccion de atributos que tomaraen cuenta la correlacion entre atributos (Weka).

4 Se obtuvo el sub-conjunto: days, hours, accepts, cuisine.

5 Se evaluo ahora con el sub-conjunto.

6 Se evaluo eliminando un atributo a la vez (sub-conjuntos de 3).

¿Que se hizo? (2/2)

Resultados seleccion de atributos.

Lambda

subset

Lambda

subset

Lambda

0.560.

subset

All: {Todos los atributos}, B:{accepts,cuisine,hours,days}, C:{cuisine,hours,days},D:

{accepts,hours,days},E: {accepts,cuisine,days}, F:{accepts,hours,cuisine}Blanca Vargas Govea (CENIDET) Evaluando sistemas de recomendacion 30 de noviembre de 2011 32 / 34

Resultados: seleccion de atributos.

Se logro reducir la dimensionalidad sin degradar el desempeno.

Se identificaron los atributos contextuales relevantes. Criteros dedecision de los usuarios.

Se observa un grupo de prueba homogeneo.

Los atributos relevantes pueden cambiar conforme el conjunto deusuarios aumenta.

Algunas conclusiones.

Una sola metrica no es suficiente para mostrar distintos aspectosde un sistema.

Una misma metrica puede tener distintos criterios de uso.

Las diversas particiones facilitan el analisis de distintascapacidades del sistema.

Las tecnicas de seleccion de atributos son una herramienta utilpara la reduccion de la dimensionalidad y la identificacion de loscriterios de decision de los usuarios.

Evaluando sistemas de recomendación

Education

Evaluando Capital Social

Sistemas de recomendación en ambientes organizacionales: estado del arte y tendencias futuras

Sistemas de recomendación: tipos y evaluación

Sistemas de recomendación sensibles al contexto con bases ... · Sistemas de recomendación sensibles al contexto con bases de datos NoSQL Proyecto Fin de Máster en Sistemas Inteligentes

Evaluando GNOME

Publicidad y sistemas de recomendación

Especificaciones detalladas de las interfaces ... · Recomendación UIT-R M.1308: Evolución de los sistemas móviles terrestres hacia las IMT-2000. Recomendación UIT-R M.1311: Marco

Recomendación UIT-R BS.2051-2 (07/2018) – Sistemas de ......Rec. UIT-R BS.2051-2 1 RECOMENDACIÓN UIT-R BS.2051-2 Sistemas de sonido avanzados para la producción de programas (Cuestión

Evaluando el desempeño

SISTEMAS DE RECOMENDACIÓN BASADOS EN TÉCNICAS DE ... › id › eprint › 43975 › 1 › Sistemas de Recomendaci… · presente rabaTjo Fin de Máster: Sistemas de recomendación

Evaluando los Sistemas de Gestion de la Inversión Publica · Evaluando los Sistemas de Gestion de la Inversión Publica * …y algunas implicaciones para Colombia ** Specialized

Sistemas de Recomendación el Contexto Educacional de Chile

Informe Evaluando Lima 2013

EVALUANDO LOS MEDIOS

Sistemas de recomendación en el Comercio … · Sistemas de recomendación en el comercio electrónico y la E-Educación 166 Universidad Libre Por lo que en el aprendizaje y actualización

Sistemas de recomendación en el contexto gastronómico

FORTALECIMIENTO DE LOS SISTEMAS DE GESTIÓN DE DATOS … · seguir para la implementación a nivel de sistemas, evaluando las opciones existentes más viables, técnica- y económicamente

Sistemas de recomendación basados en filtrado colaborativo

EVALUANDO COMPETENCIAS

Evaluando con las TIC