9/2/15 10:31 AMFiltrado Basado en Contenido
Page 1 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Filtrado Basado en ContenidoFiltrado Basado en ContenidoIIC 3633 - Sistemas Recomendadores
Denis ParraProfesor Asistente, DCC, PUC CHile
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 2 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Lo que Queda del SemestreTarea 1: Deadline el Jueves 17 de Septiembre.
Lecturas en el semestre: Chequear sitio Web curso. Daré plazo hasta el viernes 4 de Septiembe para que Uds. seinscriban en temas
Proyecto Final:
·
·
·
Entrega de abstract con a lo más 3 ideas el martes 22 de Septiembre, el 29 de septiebre se debe entregar propuesta final.
Idea 1: Uso de dataset compartido el año pasado por Movie City.
Idea 2: Implementación de Implicit feedback (last.fm), debe concluir en envío de paper a UMUAI Journal.
Idea 3: Implementación de MM-LDA para tag-based recommendation.
Otros en las semanas que vienen ...
-
-
-
-
-
2/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 3 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
TOCEn esta clase
1. Contenido en lugar de ratings
2. Representación de Espacio Vectorial
3. TF-IDF
4. Buscando Items Similares
5. Representación en Espacio Latente
3/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 4 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Por Qué un Recomendador Basado en Contenido
PROS
CONS
El filtrado colaborativo tiene algunas desventajas: cold-start, new-item problem, sparcity, transparency.·
A diferencia del Filtrado Colaborativo, si los items tienes descripciones suficientes, nos evitamos el "new-item problem""
Las representaciones del contenido son variadas y permiten utilizar diversas técnicas de procesamiento del texto, uso de informaciónsemántica, inferencias, etc.
Es sencillo hacer un sistema más transparente: usamos el mismo contenido para explicar las recomendaciones.
·
·
·
Tienden a la sobre-especialización: va a recomendar items similares a los ya consumidos, creando una tendencia al "filter bubble".
Los métodos basados en filtrado colaborativo han mostrado ser, empíricamente, más precisos al momento de generarrecomendaciones.
·
·
4/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 5 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Arquitectura de un Sistema de Recomendación CBLos componentes principales son: (1) Analizador del Contenido, (2) Aprendizaje del Perfil de Usuario, (3) Filtrado de Contenido·
5/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 6 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Representación del Contenido: Bolsa de PalabrasSe suele representar a los documentos como "bolsas de palabras"; de esta forma es fácil pasar a representar cada documento comoun vector (Vector Space Model)
·
6/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 7 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Representación del Contenido: VSMEl corpus completo puede entonces representarse como una matriz donde las filas son términos y las columnas son documentos.·
Luego, ¿Cúal es la mejor forma de representar los pesos de los términos?·
7/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 8 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Representación del Contenido: VSM IIFrecuencia de los términosCada documento se representa como un vector, el "peso" de cada palabra para ese documento puede darse en base a la frecuencia del
término en el documento.
Podemos normalizar el valor en función de la frecuencia máxima de cualquier término en el documento.
8/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 9 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Representación del Contenido: VSM IIILog de Frecuencia de los términosPero el hecho que un término aparece 100 veces y otro término sólo 10 veces, no hace a x 10 veces más relevantes; por lo tantopodemos usar un logaritmo.
x y
9/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 10 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Representación del Contenido: VSM IVTF-IDFBajo la intuición de que un término que aparece en sólo unos poco documentos podría ser descriptivo, podemos considerar la "InverseDocument Frequency" y combinarla con la "Term Frequency":
Done es el término , es el documento .tk k dj j
10/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 11 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Resumen de Componentes del TF-IDF
11/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 12 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Representación Semántica del ContenidoNo todo el contenido del documento corresponde a la misma categoría.
Autor, palabras clave, fechas, tópicos pueden dar una noción adicional de filtrado.
Opción 1: Representación semántica explícita (No lo veremos en detalle en esta clase)
Opción 2: Inferir representación semántica (LSI, LDA)
·
·
·
Ontologías
WordNet
ConceptNet
-
-
-
·
12/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 13 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Buscando Items SimilaresDistancia Euclidiana
Distancia Coseno
13/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 14 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Buscando Items SimilaresDistancia Coseno
Fórmula
14/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 15 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Buscando Items Similares IIOkapi BM25
Ref: Denis Parra and Peter Brusilovsky. 2009. Collaborative filtering for social tagging systems: an experiment with CiteULike. InProceedings of the third ACM conference on Recommender systems (RecSys '09) http://doi.acm.org/10.1145/1639714.1639757
15/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 16 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Buscando Items Similares IIITécnicas de Procesamiento adicionales
Pasar a mayúsculas/minúsculas
Tokenization
Stemming (Porter, Krovetz)
Lemmatization
·
·
·
·
16/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 17 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
Buscando Items SimilaresRepresentación en espacio latente
Latent Semantic Indexing
Latent Dirichlet Allocation
·
·
17/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 18 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LSI I
18/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 19 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LSI II
19/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 20 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LSI III
20/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 21 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LSI IV
21/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 22 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LSI IV
Demo: http://dfao-uc.github.io/
22/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 23 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LDA I
23/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 24 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LDA II
24/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 25 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LDA III
25/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 26 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
LDA IV
26/27
9/2/15 10:31 AMFiltrado Basado en Contenido
Page 27 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1
ReferenciasManning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 6). Cambridge: Cambridgeuniversity press.
Steyvers, M., & Griffiths, T. (2007). Probabilistic topic models. Handbook of latent semantic analysis, 427(7), 424-440.
Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.
·
·
·
27/27
Recommended