20

Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Embed Size (px)

DESCRIPTION

Explain the 3 methods for content based recommendation (CBRS). Theese methods are based on Vector Space Modelling (VSM) and have been compared regarding precision, recall, f1-score and execution time on MovieLens dataset. The results show that weighting of features improves the results. And the presented approach slightly improves the basic ones. 23rd December 2011. This work was presented by Jorge Castro Gallardo in the University of Jaén (Spain), as required to become a PhD student.

Citation preview

Page 1: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Evaluación de un método de ponderación de atributosmultivaluados en sistemas de recomendación basados en

contenido

Manuel Barranco, Jorge Castro, Luis Martínez

Universidad de Jaén

23 de diciembre de 2011

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 1 / 20

Page 2: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Índice

1 IntroducciónSistemas de recomendación basados en contenido

2 Sistemas de recomendaciónPonderación de atributos

3 Ponderación de Atributos Basada en Entropía y Dependencia

4 Evaluación de los sistemasExperimentaciónConjunto de datosResultados

5 Conclusiones

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 2 / 20

Page 3: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Propósito y objetivos

Propósito

Comparar la e�cacia y e�ciencia empíricas del SRBC PABED conotros modelos clásicos de recomendación basada en contenido.

Objetivos

Implementar el modelo booleano de SRBC sin pesado de atributos.

Implementar el modelo booleano de SRBC con pesado de atributosbasado en TF-IDF.

Implementar el modelo propuesto con ponderación de atributosmultivaluados basado en la entropía y medidas de dependencia(PABED).

Realizar una comparativa de e�cacia y e�ciencia de los SRBCimplementados.

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 3 / 20

Page 4: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Sistemas de recomendaciónMotivación

Problema

Gran volumen de información que hace al usuario se sienta desbordado a lahora de elegir un libro, una película, etc.

Solución

Realizar un �ltrado de los productos de una base de datos en funcion de losgustos de cada usuario.

Sistemas de recomendación

Sistemas que �ltran la información y presentan sólo aquellos elementos quepuedan tener una mayor coincidencia con los intereses o necesidades decada usuario.

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 4 / 20

Page 5: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Sistemas de recomendaciónTipos de sistemas de recomendación

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 5 / 20

Page 6: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Sistemas de recomendación basados en contenidoTareas de un SRBC

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 6 / 20

Page 7: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Sistemas de recomendación basados en contenidoTareas de un SRBC

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 7 / 20

Page 8: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Sistemas de recomendación basados en contenidoModelado de per�les booleano

Cada par (atributo,valor) será un nuevo atributo.El valor es 1 si aparece la característica y 0 si no aparece.

Tabla: Atributos multivaluados

A B C

Categoría Jazz Country Country

Idioma Inglés Español Francés

Año de publ. 1962 1960 1962

Tabla: Atributos booleanos

A B C

Jazz 1 0 0

Country 0 1 1

Inglés 1 0 0

Español 0 1 0

Francés 0 0 1

1960 0 1 0

1962 1 0 1

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 8 / 20

Page 9: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Sistemas de recomendación basados en contenidoCálculo de los per�iles de usuario

Tabla: Atributos de los productos

F1 F2 F3 F4

I1 0 1 0 0

I2 1 1 0 0

I3 0 1 1 0

I4 0 0 1 0

I5 1 1 1 0

I6 0 0 0 1

Tabla: Valoraciones de preferencia

I1 I2 I3 I4 I5 I6

U1 - 4 - - 5 -

U2 - 3 - 4 - -

U3 - - - - - 4

U4 5 - 3 - - -

Tabla: Per�les de usuarios

F1 F2 F3 F4

U1 2 2 1 0

U2 1 2 0 0

U3 0 0 0 1

U4 0 2 1 0

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 9 / 20

Page 10: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Sistemas de recomendación basados en contenidoPonderación de atributos

Ponderación de atributos

W (u, cj) = DInterU(cj) ∗ SIntraU(u, cj)

DInterU(cj): Disimilitud inter-usuarios.

SIntraU(u, cj): Similitud intra-usuario.

Ponderación de atributos con TF-IDF

W (u, cj) = FF (u, cj) ∗ IUF (cj).IUF (cj) = log

|U|UF (cj )

, donde UF (cj) es el número de usuarios que

valoraron algún producto con la característica cj .

FF (u, cj), frecuencia del atributo cj para el conjunto de itemsvalorados positivamente por el usuario u.

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 10 / 20

Page 11: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Atributos booleanos frente a atributos multivaluados

Tabla: Atributos booleanos

A B C

Jazz 1 0 0

Country 0 1 1

Inglés 1 0 0

Español 0 1 0

Francés 0 0 1

1960 0 1 0

1962 1 0 1

Tabla: Atributos multivaluados

A B C

Categoría Jazz Country Country

Idioma Inglés Español Francés

Año de publ. 1962 1960 1962

En el modelado de atributos booleano se pierde información.

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 11 / 20

Page 12: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Ponderación de Atributos Basada en Entropía y DependenciaMedidas de similitud intra-usuario

Pesado de atributos

W (u, cj) = DInterU(cj) ∗ SIntraU(u, cj)

DInterU(cj): Disimilitud inter-usuarios.

SIntraU(u, cj): Similitud intra-usuario.

Entropía

H(x) = −∑

i p (xi ) log2 (p (xi ))

Atributos numéricos: correlación

Coe�ciente de correlación depearson: relación lineal.

PCCuj =σXYσX σY

Atributos nominales: contingencia

V de Cramer: grado de dependencia.

VCuj =√

χ2

n∗min(I−1,J−1)

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 12 / 20

Page 13: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Ponderación de Atributos Basada en Entropía y DependenciaEsquema

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 13 / 20

Page 14: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Evaluación de los sistemasExperimentación

Comparativa

SRBC con modelo booleano sin pesado de atributos.

SRBC con modelo booleano con pesado de atributos TF-IDF.

SRBC con modelo multivaluado con pesado de atributos PABED.

Ejecuciones

50 ejecuciones, validación cruzada de 5 particiones.

k = {1,5,10,50,100}.

Métricas

Precisión, recall y f1-medida.

Tiempo de ejecución.

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 14 / 20

Page 15: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Evaluación de los sistemasConjunto de datos

Movilens

Volumen de datos

69878 usuarios.

9768 productos (películas).

9464734 valoraciones (mín. 20 valoraciones por usuario).

Escasez de datos: 98.6%

Du ={1,2,3,4,5}.

Contenido de los productos

Características numéricas: {Año}.

Características nominales: {Género, Director,País}.

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 15 / 20

Page 16: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Evaluación de los sistemasResultados

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 16 / 20

Page 17: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Evaluación de los sistemasResultados

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 17 / 20

Page 18: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Evaluación de los sistemasResultados

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 18 / 20

Page 19: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Evaluación de los sistemasResultados

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 19 / 20

Page 20: Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido

Conclusiones

La ponderación de atributos mejora los resultados de los SRBC.

PABED mejora a TFIDF con valores de k altos.

La e�ciencia de PABED es considerablemente mejor que la de TFIDF.

Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 20 / 20