67
Universit´ e Paul Sabatier – Toulouse 3 ´ Ecole Doctorale MITT Recherche d’information sociale : exploitation du social bookmarking pour enrichir l’acc` es ` a l’information M ´ EMOIRE pr´ esent´ e et soutenu publiquement le 23 juin 2010 pour l’obtention du Master Recherche de l’Universit´ e Paul Sabatier (Sp´ ecialit´ e Informatique) par ad˘alinaMitran Pr´ esident : Nathalie Aussenac-Gilles Rapporteur : Bernard Dousset Directeur de recherche : Mohand Boughanem Encadrant : Guillaume Cabanac Institut de Recherche en Informatique de Toulouse — UMR CNRS 5505

Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Universite Paul Sabatier – Toulouse 3 Ecole Doctorale MITT

Recherche d’information sociale :exploitation du social bookmarkingpour enrichir l’acces a l’information

MEMOIRE

presente et soutenu publiquement le 23 juin 2010

pour l’obtention du

Master Recherche de l’Universite Paul Sabatier

(Specialite Informatique)

par

Madalina Mitran

President : Nathalie Aussenac-Gilles

Rapporteur : Bernard Dousset

Directeur de recherche : Mohand Boughanem

Encadrant : Guillaume Cabanac

Institut de Recherche en Informatique de Toulouse — UMR CNRS 5505

Page 2: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager
Page 3: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

RemerciementsJe tiens à remercier M. Claude Chrisments, responsable de l’équipe SIG, pour m’avoir ac-

cueillie dans son équipe.

J’exprime également mes profonds remerciements à M. Zoubir Mammeri, responsable dumaster Informatique et Télécommunication, et à M. Mohand Boughanem, responsable du par-cours Recherche d’Information et Base de Données (RIBD), qui m’ont permis d’accéder aumaster.

J’exprime ma vive reconnaissance à M. Guillaume Cabanac pour m’avoir encadrée et pourm’avoir donné l’occasion de travailler sur ce sujet riche, actuel et passionnant. Sa grande disponi-bilité, son sens des relations, sa rigueur, son expérience, sa pédagogie et ses critiques constructivesm’ont été précieux.

Je remercie très sincèrement mes parents et ma sœur pour leur soutien et mes amis pourleur aide et leurs encouragements.

Je souhaite remercier tous les membres de l’équipe SIG pour la bonne humeur qu’ils ontapportée au quotidien.

i

Page 4: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager
Page 5: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Je dédie ce mémoireÀ mes parentes et à ma sœur. . .

iii

Page 6: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager
Page 7: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

RésuméCe rapport de master s’appuie sur les activités des individus qui utilisent un système de

social bookmarking. Nous proposons d’identifier les intérêts des utilisateurs en intégrant, d’unepart la dimension temporelle et, d’autre part, la régression linéaire avec différentes mesures.Plus précisément, nous nous intéressons à faciliter la recherche des ressources en se basant surles interactions que les usagers entreprennent sur un tel système, en identifiant les individus quiont des intérêts similaires pour trouver les tendances de leurs intérêts.

Mots-clés: social bookmarking, tag, recherche d’information, intérêts des usagers, aspect tem-porel, régression linéaire

Abstract

This master thesis is built around the activities of individuals who use a social bookmarkingsystem. Our proposal is to identify the interests of users integrating on one hand the timedimension and, on the other hand, the linear regression with different measures. Specifically, wefocus on facilitating retrieval of resource relying on the interactions that users undertake on sucha system, identifying individuals who have similar interests and finding trends in their interests.

Keywords: social bookmarking, tag, information retrieval, user interests, temporal aspect, lin-ear regression

v

Page 8: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager
Page 9: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Table des matières

Introduction 1

1 État de l’art du social bookmarking 31.1 Définitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Tag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.2 Classification et fonctions des tags . . . . . . . . . . . . . . . . . . . . . . 41.2.3 Tag cloud : visualisation des tags les plus populaires . . . . . . . . . . . . 5

1.3 Bookmark . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Social bookmarking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5 Bookmark public, privé et partiellement visible . . . . . . . . . . . . . . . . . . . 71.6 Étude des systèmes de social bookmarking les plus cités . . . . . . . . . . . . . . 7

1.6.1 Del.icio.us . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.6.2 CiteULike . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.6.3 BibSonomy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.6.4 Connotea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.6.5 Diagramme conceptuel général pour les sites de social bookmarking . . . . 13

1.7 Synthèse des sites de social bookmarking de notre bibliographie . . . . . . . . . . 141.8 Inconvénients identifiés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.8.1 Inconvénients des tags . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.8.2 Inconvénients du social bookmarking . . . . . . . . . . . . . . . . . . . . . 15

1.9 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Contribution : restituer l’activité des usagers en prenant en compte la dimen-sion temporelle 19

2.1 Propositions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.1.1 Avantages de nos propositions . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 La régression linéaire : résumé théorique et utilisation dans notre travail . . . . . 212.2.1 La régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

vii

Page 10: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Table des matières

2.2.2 L’équation de régression linéaire . . . . . . . . . . . . . . . . . . . . . . . 232.3 Tendances identifiées à l’aide de la régression linéaire . . . . . . . . . . . . . . . . 232.4 Approches identifiées dans le cadre de notre travail . . . . . . . . . . . . . . . . . 25

2.4.1 Identification des trois tags les plus représentatifs . . . . . . . . . . . . . . 252.4.2 Identification des similarités entre les utilisateurs . . . . . . . . . . . . . . 282.4.3 Identification des intérêts constants sur le long terme et sur le court terme 30

2.5 Identification des TIM, des NTI et des TIA . . . . . . . . . . . . . . . . . . . . . 332.5.1 Définition des concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.5.2 Coefficient de détermination . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3 Évaluation des approches : utilité des tags pour représenter l’activité desusagers 35

3.1 Objectifs globaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2 Hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.3 Prototype développé pour l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . 363.4 Concepts et outils utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.4.1 Choix techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.5 Architecture du site Connotea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.5.1 Modélisation UML du site du social bookmarking Connotea . . . . . . . . 413.5.2 Modèle logique de données (schéma relationnel) . . . . . . . . . . . . . . . 43

3.6 Description de la base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.7 Que nous reste-t-il à faire pour évaluer notre approche ? . . . . . . . . . . . . . . 44

3.7.1 Le coefficient de corrélation de Kendall . . . . . . . . . . . . . . . . . . . 443.7.2 Évaluer l’approche de 3TPR . . . . . . . . . . . . . . . . . . . . . . . . . 45

Conclusion et perspectives 47

Bibliographie 49

viii

Page 11: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Table des figures

1.1 Tag cloud du site de social bookmarking Del.icio.us . . . . . . . . . . . . . . . . . 51.2 Saisie d’un bookmark dans Del.icio.us . . . . . . . . . . . . . . . . . . . . . . . . . 81.3 Sauvegarder un bookmark sur le site Del.icio.us . . . . . . . . . . . . . . . . . . . 91.4 Saisie d’un bookmark dans CiteULike . . . . . . . . . . . . . . . . . . . . . . . . . 91.5 Saisie d’un bookmark dans CiteULike . . . . . . . . . . . . . . . . . . . . . . . . . 101.6 Bouton de BibSonomy installé dans le navigateur . . . . . . . . . . . . . . . . . . 111.7 Sauvegarder un bookmark sur le site BibSonomy . . . . . . . . . . . . . . . . . . 111.8 Bouton de Connotea installé dans le navigateur . . . . . . . . . . . . . . . . . . . 121.9 Sauvegarder un bookmark sur le site Connotea . . . . . . . . . . . . . . . . . . . 121.10 Diagramme de classes modélisant les sites de social bookmarking. . . . . . . . . . 13

2.1 Représentation par des points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.2 Les graphiques avec les lignes correspondants pour les données du tableau 2.1 . . 222.3 Trois types des tendances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4 Intérêt ponctuel : le pic d’intérêt . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.5 Représentation des tendances des deux utilisateurs . . . . . . . . . . . . . . . . . 282.6 Intérêt récurrent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312.7 Intérêt récurrent en temps avec des périodes manquantes . . . . . . . . . . . . . 312.8 Intérêt récurrent à court terme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.9 Graphique pour un TIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.10 Graphique pour un NTI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.11 Graphique pour un TIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.1 Architecture générale du prototype . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2 Architecture du Web Oracle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.3 Graphique généré avec Gnuplot pour faire la régression linéaire . . . . . . . . . . 413.4 Diagramme de classes du site Connotea. . . . . . . . . . . . . . . . . . . . . . . . 423.5 Diagramme de class simplifiée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

ix

Page 12: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager
Page 13: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Liste des tableaux

1.1 Comparaison des sites de social bookmarking. . . . . . . . . . . . . . . . . . . . . 14

2.2 Les séries x et y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4 Les tags pour l’activité d’un usager divisés en quatre intervalles. . . . . . . . . . 272.6 Les 3TPR des utilisateurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.1 Fonctions d’Oracle pour calculer les paramètres a et b de la régression linéaire . . 393.2 Fonctions d’Oracle pour calculer les coefficient de corrélation, le coefficient r2 et

le coefficient τ de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.3 Statistique sur la base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

xi

Page 14: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager
Page 15: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Introduction

Dans un domaine en pleine effervescence comme le social bookmarking, observer les activitésdes utilisateurs afin de trouver des similarités entre les individus, de faire des recommandations,d’améliorer le processus de recherche d’information est une tâche très difficile. Le nombre dechercheurs qui s’intéressent à ce domaine ne cesse de croître. Ce phénomène est lié au dévelop-pement de l’Internet et au besoin des individus de trouver des outils pour faciliter leur activitésquotidiennes.

De nos jours, les individus sont de plus en plus intéressés par les sites de social bookmarking,afin de stocker, de classer, de chercher et de partager leurs liens favoris. Ainsi, les internautesayant les mêmes centres d’intérêts peuvent consulter et sauvegarder les ressources que d’autresont trouvé. Les services de social bookmarking permettent aux utilisateurs d’organiser les res-sources en utilisant des étiquettes pour faciliter une recherche ultérieure. Le succès immédiatque de tels systèmes ont eu est dû au fait qu’aucune compétence de la part de l’individu n’estnécessaire pour les utiliser et pour obtenir des bénéfices immédiats.

Au fur et à mesure que la période d’utilisation d’un site de social bookmarking des individusaugmente il est de plus en plus difficile d’identifier les personnes qui ont les même centres d’in-térêts. De même identifier les intérêts à long terme et à court terme, leurs intérêts actuels ainsique les différents intérêts qui peuvent changer au fil de temps est également une problématique.

La principale question qui se pose est : comment fournir aux utilisateurs une meilleure pré-sentation de ses activités, afin de faciliter l’interaction avec les sites de social bookmarking ?Le but est de proposer aux individus la possibilité d’observer des tendances pour leurs activitésconcernant les tags au fil de temps, afin de trouver des ressources et des individus avec les mêmescentre d’intérêts.

La première partie de ce mémoire présente un état de l’art du social bookmarking. Nouscommençons par définir des concepts que nous utilisons au long de ce mémoire. La deuxièmesection présente le concept de tag, une classification en fonction des tags, ainsi qu’une tech-nique de visualisation des tags les plus populaires appelée tag cloud. Nous exposons dans unetroisième et une quatrième section les notions de bookmark ainsi que le social bookmarking, lesdifférents types de bookmark sont décrits dans une cinquième section. La sixième section traitede différents services de social bookmarking que nous avons rencontré pendant notre étude. Unesynthèse de ces services est décrite dans la septième section. Nous présentons dans la huitièmesection les inconvénients des tags et du social bookmarking. Enfin, les problèmes que nous avonsaperçus pendant notre travail sont présentés dans la neuvième section.

1

Page 16: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Introduction

La second partie de ce mémoire souligne nos proposition qui visent à améliorer l’interactionentre les utilisateurs et les sites de social bookmarking. Nous commençons par présenter notreproposition et les avantages associés aux différents contextes. Nous introduisons la régressionlinéaire pour déterminer les tendances des intérêts des utilisateurs en fonction du temps. Enfin,nous présenterons différentes approches concernant les tags et les utilisateurs.

Dans la troisième section de ce mémoire nous évaluons nos approches et nous déterminonsl’utilité des tags pour représenter l’activité des usagers, avant de conclure en évoquant les pistesde recherche que nous souhaitons considérer à l’avenir.

2

Page 17: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1

État de l’art du social bookmarking

1.1 Définitions préliminaires

Cette section présente les concepts fondamentaux auxquels nous faisons référence dans notreétat de l’art. Le terme « utilisateur » est employé pour designer une personne qui utilise unsystème informatique, mais qui n’est pas nécessairement informaticien.

Selon Tim Berners-Lee et al. [BLFM98], le terme « ressource » peut être tout objet quipossède une identité. Des exemples familiers de ressources incluent : un document électronique,une image, un service (par exemple « le bulletin météo d’aujourd’hui pour Bucarest») ou unecollection d’autres ressources. Les ressources ne sont pas toutes accessibles à travers un réseauinformatique (par exemple les individus, les sociétés, les livres d’une bibliothèque, etc. peuventégalement être considérés comme des ressources). Une ressource peut rester constante, mêmelorsque son contenu — les entités auxquelles elle correspond à présent — change au fil du temps,à condition que la cartographie conceptuelle ne soit pas changée (par exemple l’URL de l’IRITqui pointerait en 2048 sur un ville et pas un laboratoire).

Le terme «URL» (Uniform Resource Locator) a été créé en 1994 par Tim Berners-Leeet al. [BLMM94]. Il est utilisé pour adresser les ressource du Web en spécifiant où la res-source est disponible et le mécanisme pour la récupérer (par exemple : http://www.bibsonomy.org/) [MD02].

Le terme « communauté » est utilisé dans notre mémoire pour designer un groupe de per-sonnes ayant des objectifs ou des intérêts similaires. Ils entrent en contact et échangent desinformation à l’aide des outils Web (comme par exemple un site de social bookmarking).

Nous présentons dans la section suivante le concept de «tag» et son utilité dans le processusde recherche d’information.

1.2 Tag

1.2.1 Définition

Selon Golder & Huberman [GH05], le terme « tag » (en français « étiquette ») représente unmot-clé ou une expression associée ou assignée aux ressources. Il décrit ainsi l’objet et lui permetd’être retrouvé par navigation, par filtrage ou par recherche. L’activité des individus consistant àattribuer des métadonnées aux ressources s’appelle « tagging». Ces dernières années, ce processusa gagné beaucoup en popularité sur le Web.

3

Page 18: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1. État de l’art du social bookmarking

L’ensemble des tags d’un individu forme une collection qui s’appelle « personomy ». L’en-semble des personomies constitue la « folksonomy» [HJSS06]. Elle est constituée par l’effortcollectif des utilisateurs qui ont diverses connaissances et besoins quand ils interagissent avec unsystème de social bookmarking [FKK09]. De plus, le terme folksonomy est une combinaison de« folk» et «taxonomy», décrivant le phénomène de classification sociale [Smi04], les ressources,les utilisateurs, les tags, ainsi que l’activité d’un individu. Cette activité consiste à créer uneassociation entre les utilisateurs et les ressources à travers des étiquettes [XBF+08].

Après avoir défini les notions d’étiquette, de tagging et de folksonomy, nous considérons dansla section suivante les classifications issues de la littérature concernant les tags.

1.2.2 Classification et fonctions des tags

De nos jours, la quantité de tags que les individus utilisent dans un site de social bookmarkingest volumineuse, diverse et hétérogène. Ces dernières années, les utilisateurs des sites de socialbookmarking ont en moyenne ajouté plus d’un million de tags chaque semaine [DKM+06]. Ladisponibilité de ces tags a stimulé des recherches relatives à leur classification, à la definitionde leurs fonctions et à l’identification des inconvénients que les étiquettes peuvent avoir dans lecontexte de la recherche d’information.

Selon [WZBA10, GH05], si nous considérons l’activité des utilisateurs qui assignent desétiquettes aux ressources, les tags ont différentes fonctions regroupées dans la classification sui-vante :

(a) en fonction de leur signification, les tags peuvent être :– personnels, ils n’ont alors du sens que pour les personnes qui les ont utilisés et ne signifient

rien pour le reste de communauté (par exemple l’étiquette «BD» est ambiguë. Pourcertaines personnes, elle a le sens de «base de données» et pour d’autres de «bandesdessinées» [Cab08]) ;

– universels, ils ont la même signification pour toute la communauté (comme par exemplel’étiquette « navigateur Web »).

(b) en fonction de la fréquence d’apparition dans la ressource (en utilisant la mesure tf ×idf [RW99]) ils peuvent être :– significatifs pour la ressource (l’étiquette se trouve dans le document et le représente) ;– non significatif (l’étiquette peut se trouve ou pas dans le document, mais elle n’est pasreprésentative pour la ressource).

(c) en fonction de leur popularité.Les tags populaires appelés aussi « dominants » [WZBA10] ne sont pas nécessairement reliésà la ressource, décrivant le nom de l’URL ou le service. Ils décrivent plutôt le sujet principalde la ressource, tels que «news», «reference», ou «CSS».

(d) selon Golder & Huberman [GH05], les tag accomplissent plusieurs fonctions pour les book-marks (la section 1.5 définit le concept de bookmark) :– ils identifient de quoi ou de qui il s’agit dans la ressource étiquetée ;

4

Page 19: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

1.3. Bookmark

– ils identifient le type de la ressource (par exemple : livre, article, photo, vidéo) ;– ils identifient l’auteur ou le possesseur du bookmark ;– ils qualifient des catégories déjà existantes (par exemple les nombres entiers : 1, 5, 7) ;– ils identifient l’opinion du tagueur sur la qualité et les caractéristiques des ressources (par

exemple des adjectifs comme « effrayant, drôle, stupide ») ;– ils identifient la relation du tagueur avec la ressource (par exemple les tags qui commencentpar le mot «my») ;

– ils identifient des informations relatives à des tâches.

La recherche d’information peut bénéficier de l’activité de social bookmarking. Les tags per-mettent aux individus d’organiser leurs ressources d’une façon constructive, ce qui leur apportedes bénéfices dans la recherche. Pour visualiser ces tags avantageusement et facilement par lesutilisateurs dans le processus de recherche d’information, nous décrivons dans la section suivanteune technique récent de visualisation appelé «tag cloud».

1.2.3 Tag cloud : visualisation des tags les plus populaires

Pour faciliter la recherche d’information dans de grandes bases documentaires, certains sys-tèmes de social bookmarking fournissent une interface appelée Tag cloud (figure 1.1). SelonHassan-Montero et al. [HMHS06], le Tag cloud est une liste des étiquettes les plus populaires,généralement affichée dans l’ordre alphabétique et visuellement pondérée par la taille de police.Dans un Tag cloud, quand un individu clique sur une étiquette, il obtient une liste des ressourcesqui ont été taguées avec cette étiquette, ainsi qu’une liste avec des étiquettes qui y sont reliées.

Figure 1.1 – Tag cloud du site de social bookmarking Del.icio.us

1.3 Bookmark

De nos jours, la quantité de données disponibles sur le web devient tellement volumineuseque l’utilisateur se trouve face à une masse d’information difficile à appréhender. Cette massed’information induit souvent une surcharge cognitive chez l’utilisateur et rend difficile l’accès àl’information répondant à ses besoins. Par conséquent, la recherche d’une information spécifiquesur le Web peut être une vraie gageure.

Une solution pour alléger la surcharge d’information peut consister dans le développementpar chaque utilisateur d’un système personnel d’information qui représente un sous-ensemble ci-blé d’informations pertinentes pour lui. Le bookmark représente un outil simple pour construire

5

Page 20: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1. État de l’art du social bookmarking

ces sous-ensembles d’information personnalisés où des pages Web identifiées par des URLs utilesou intéressantes peuvent être stockées afin de servir pour une utilisation ultérieure. Les utilisa-teurs gardent la trace des liens vers des pages en créant une liste des bookmarks : un espacepersonnel de stockage de l’information du Web [ABC98].

Pourquoi utiliser les bookmarks ?

Dès la période médiévale, la notion de bookmark a été adoptée pour permettre de marquerune page d’un livre, d’être capable de distinguer cette page parmi les autres afin de pouvoir laretrouver ultérieurement pour reprendre la lecture ou pour retrouver un passage ou une citationen particulier [Szi99]. Cette notion a été adoptée aussi dans nos jours avec un sens commun. Lesbookmarks sont utilisés comme des « espaces d’information personnelle du web » pour aider lesgens à se rappeler et à récupérer des pages Web.

Les bookmarks réduisent la surcharge physique et cognitive de gestion des URLs, en facili-tant le stockage, la gestion et l’interprétation des liens (les utilisateurs ne doivent pas taper leslongues adresses), en aidant la mémoire et en gardant l’historique.

Les limites qui s’imposent dans ce contexte ont trait à la difficulté de partager les ressourcessauvegardées dans les navigateurs internet (favorits pour IE et bookmarks pour Mozilla) avecla communauté et avoir accès aux bookmarks sur n’importe quel ordinateur. Dans la sectionsuivante nous présentons la notion de social bookmarking qui répond à ces deux limites.

1.4 Social bookmarking

De nos jours, la composante sociale du web est devenue très importante et le besoin de colla-boration par l’intermédiaire d’internet a donné naissance à beaucoup de sites où les utilisateurspeuvent publier leurs bookmarks en partageant leurs centres d’intérêt et leurs préférences. Donc,la notion de social bookmarking est de plus en plus présente.

Ce concept définit le moyen par l’intermédiaire duquel les internautes trouvent, accumulent,catégorisent et contrôlent l’information à partir des pages web.

Dans les systèmes de social bookmarking, les individus ont la possibilité d’étiqueter chaquelien qu’ils sauvegardent avec des mots-clés (tags, cf. au section 1.2). Grâce à leur popularité, cessystèmes ont commencé à être développé aussi dans les entreprises, par exemple le service desocial bookmarking appelé « dogear » [MFK06].

Les sites de social bookmarking facilitent la navigation et l’accès aux informations en rendantplus rapide la recherche d’information sur le Web et favorisent la collaboration, la publicationet l’archivage des pages Web en facilitant la création d’un espace personnalisé de stockage d’in-formation. Ainsi que, la publication et l’étiquetage des pages avec les auteurs, et le partage despages en favorisant la collaboration en utilisant les documents sur l’internet.

Dans le cadre des systèmes de social bookmarking trois types de bookmarks sont proposés.Ils sont détaillés dans la section suivante.

6

Page 21: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

1.5. Bookmark public, privé et partiellement visible

1.5 Bookmark public, privé et partiellement visible

Les différentes informations que les individus trouvent sur le Web et qu’ils sauvegardentpeuvent être scindées en trois catégories par rapport aux modes d’accessibilité auxquels ellessont soumises : le bookmark public, le bookmark privé et le bookmark partiellement visible.

(i) Bookmark publicCe sont des bookmarks que les personnes décident de rendre visibles à la communauté.Une communauté rassemble les individus qui détiennent un compte sur un site de socialbookmarking, mais aussi les personnes qui ne sont pas membres.

(ii) Bookmark privéCe sont des bookmarks qui sont visibles seulement pour la personne qui a posté leur réfé-rence.

(iii) Bookmark partiellement visibleLa personne qui a sauvegardé la ressource peut établir le degré de visibilité pour le book-mark (visibilité restreinte à un groupe d’utilisateurs, par exemple).

De façon générale, les systèmes de social bookmarking offrent la possibilité de créer des book-marks publics, privés et partiellement visibles. Dans le détail, on remarque que chaque systèmepropose des variations sur ce modèle à trois types de bookmarks (cf. section 1.6).

Dans la section suivante nous présentons des caractéristiques pour les systèmes de socialbookmarking.

1.6 Étude des systèmes de social bookmarking les plus cités

Le succès immédiat que les sites de social bookmarking ont eu est dû au fait qu’aucunecompétence de la part de l’individu n’est nécessaire pour les utiliser et pour obtenir des bénéficesimmédiats.

Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer,découvrir, et partager des pages Web en un seul endroit quel que soit l’ordinateur utilisé àcondition qu’il dispose d’un accès à Internet.

Seules les personnes qui détiennent un compte sur un site de social bookmarking ont la per-mission d’ajouter des références vers des ressources. Les utilisateurs qui ont un compte disposentd’une page personnelle sur laquelle leurs bookmarks ou leurs publications sont affichés. Sur cettepage, tous les bookmarks ou les publications sont affichés dans un ordre chronologique inverseavec une liste de tous les tags que l’individu a utilisés. En sélectionnant un tag, ils peuvent filtrerles bookmarks de sorte que seulement les bookmarks avec cette étiquette sont affichés.

En mettant l’accent sur le potentiel de la communauté, les sites de social bookmarking offrentdifférents fonctionnalités qui résultent d’analyses sur les bookmarks :

7

Page 22: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1. État de l’art du social bookmarking

– l’accès aux bookmarks réalisés par d’autres personnes qui ont les mêmes intérêts que soi ;– la possibilité de consulter les bookmarks des amis et de les ajouter dans sa propre liste(bibliothèque de bookmarks) ;

– taguer avec des mots spécifiques pour faciliter la recherche d’un article qu’il a ajouté ouqui ont été rajoutés par la communauté.

À travers notre étude bibliographique, nous avons identifié un nombre élevé de systèmes desocial bookmarking. Plus de 100 sites de social bookmarking se trouvent sur Internet. Ainsi, uneétude de chaque système de social bookmarking est impossible dans le cadre de ce mémoire.Nous nous focalisons donc sur les quatre sites les plus rencontrés dans notre étude : Del.icio.us,CiteULike, BibSonomy et Connotea.

1.6.1 Del.icio.us

Le service de social bookmarking Del.icio.us 1 a été développé par Joshua Schachter en 2003et acquis par Yahoo ! en 2005.

Pour sauvegarder un bookmark, l’utilisateur saisit l’URL du site Web qu’il veut conserver(figure 1.2). Comme la figure 1.3 le montre, l’individu doit saisir les informations suivantes quiconcernent l’URL : le titre, un ou plusieurs tags qu’il considère spécifiques pour la ressource,des notes (commentaire). Il choisit aussi le niveau de visibilité du bookmark : privé ou public.

Figure 1.2 – Saisie d’un bookmark dans Del.icio.us

1. http://delicious.com/

8

Page 23: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

1.6. Étude des systèmes de social bookmarking les plus cités

Figure 1.3 – Sauvegarder un bookmark sur le site Del.icio.us

La page d’accueil de Del.icio.us affiche les bookmarks les plus récents qui ont été ajoutés, lestags qui leurs sont associés, les utilisateurs qui les ont créés, et le nombre des personnes ayant cesbookmarks en commun. Sur la page d’accueil, il y a aussi un lien vers les bookmarks populaires(présentés notamment avec les auteurs qui les ont crées) et un lien vers les pages des autresutilisateurs. Le lecteur peut sélectionner les utilisateurs qui correspondent à un tag donné.

Grâce aux pages personnelles et aux pages populaires, les individus ont une idée de ce en quoiles autres individus sont intéressés. En navigant sur différents tags et personnes, les utilisateurspeuvent trouver des ressources qui présentent un intérêt pour eux. En plus, ils peuvent trouverdes personnes qui ont des intérêts communs [GH05]. Enfin, le site Del.icio.us n’a pas l’option debookmark partiellement visible qui a été présentée dans la section 1.5.

1.6.2 CiteULike

Le service de social bookmarking CiteULike 2 a été développé par l’Université de Manchesterdepuis novembre 2004. Il organise des liens vers des publications académiques et cible tout par-ticulièrement les scientifiques et les chercheurs [EC07].

À partir du moment où une personne a un compte sur CiteULike, un bouton (figure 1.4)associé est affiché dans son navigateur Internet.

Figure 1.4 – Saisie d’un bookmark dans CiteULike

2. http://www.citeulike.org/

9

Page 24: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1. État de l’art du social bookmarking

CiteULike extrait automatiquement les détails de la citation (le titre, l’année de publication,les auteurs et le résumé) et permet aux utilisateurs de saisir des informations supplémentairesconcernant les ressources qu’ils veulent sauvegarder : un ou plusieurs tags qu’il considère spéci-fiques pour la ressource (le système lui recommande des tags), le niveau de visibilité du book-mark : privé ou public. De plus, il peut établir la priorité, publier la ressource pour certainsgroupes et mettre des notes (figure 1.5).

Figure 1.5 – Saisie d’un bookmark dans CiteULike

CiteULike fonctionne comme un service de social bookmarking standard (l’utilisateur cliquesur un bouton pour pouvoir sauvegarder une ressource dans son compte), mais il extrait éga-lement toutes les métadonnées pertinentes nécessaires pour créer un enregistrement bibliogra-phique automatique approprié à partir du site de l’éditeur. En plus, il automatise une tâcherépétitive de gestion bibliographique et il offre une alternative complémentaire aux moteursde recherche et bases de données de la littérature académique par la recherche sociale et ladécouverte de documents [EC07].

1.6.3 BibSonomy

Le service de social bookmarking BibSonomy 3 a été développé par une l’Université Kasseldepuis janvier 2006. Il offre aux utilisateurs la possibilité de stocker et d’organiser leurs bookmarkset soutient l’intégration des différentes communautés et des gens en leur offrant une plate-formesociale, principalement pour l’échange de publications scientifiques.

La page d’accueil de Bibsonomy est divisée en quatre parties : l’en-tête (affiche des informa-tions comme la page en cours, les liens de navigation et une boîte de recherche), deux listes deposts, une pour les bookmarks et une pour les publications triées par date par ordre décroissant.Une liste de tags reliée aux posts est également présentée [BEH+09].

3. http://www.bibsonomy.org/

10

Page 25: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

1.6. Étude des systèmes de social bookmarking les plus cités

À partir du moment où une personne possède un compte sur BibSonomy, trois boutons (figure1.6) associés sont affichés dans son navigateur Internet. La boîte de dialogue de la figure 1.7permet aux utilisateurs de choisir l’adresse de la ressource, le titre, une description, les tags qu’ilconsidère spécifiques pour le document (ou il peut utiliser des tags qui lui sont recommandés) etil choisit le niveau de visibilité du bookmark : public, privé ou visible pour certaines catégoriesqu’il sélectionne.

Figure 1.6 – Bouton de BibSonomy installé dans le navigateur

Figure 1.7 – Sauvegarder un bookmark sur le site BibSonomy

1.6.4 Connotea

Connotea 4 est un service en ligne de gestion de références proposé par la maison d’éditionNature depuis décembre 2004. Aussi, il cible tout particulièrement les scientifiques et les cher-cheurs.

À partir du moment où une personne a un compte sur Connotea, un bouton (figure 1.8)associé est affiché dans son navigateur Internet. La boîte de dialogue de la figure 1.9 permetaux utilisateurs de choisir le titre, les tags qu’il considère spécifiques pour le document, unedescription, il spécifie si la ressource est son propre travail ou pas et il choisit le niveau devisibilité du bookmark : privé, public ou visible pour certain groupes.

4. http://www.connotea.org/

11

Page 26: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1. État de l’art du social bookmarking

Figure 1.8 – Bouton de Connotea installé dans le navigateur

Figure 1.9 – Sauvegarder un bookmark sur le site Connotea

La page d’un individu qui utilise le site Connotea est divisée en plusieurs parties : l’en-tête(affiche des informations comme les liens de navigations et une boîte de recherche), les bookmarksqui ont été ajoutés, classées par date dans l’ordre décroissant, les tags qui leurs sont associés, lenombres d’utilisateurs qui ont posté le même bookmark. Sont également affichés : une liste desgroupes dont il est membre, une liste avec tous ses tags triés alphabétiquement ou en fonctionde l’utilisation. Enfin, sont aussi affichées des listes avec des tags et utilisateurs qui sont reliés àson activité.

En catégorisant les articles avec des mots-clés pertinents, l’aspect social de Connotea estdéveloppé. Le système détecte les utilisateurs qui ont mis un même tag pour le même article ouceux qui ont utilisé les mêmes mots-clés. Comme les liens postés sur Connotea sont publique-ment visibles, cela rend possible une augmentation très rapide de la communauté des utilisateurs.

Après avoir donné un aperçu des différents sites de social bookmarking, nous présentons dans

12

Page 27: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

1.6. Étude des systèmes de social bookmarking les plus cités

la section suivante un diagramme conceptuel des données manipulées par ces sites.

1.6.5 Diagramme conceptuel général pour les sites de social bookmarking

Nous avons utilisé la notation UML du diagramme de classes afin de modéliser les concepts,les attributs et les associations identifiés dans les sites de social bookmarking. Dans la figure1.10 nous présentons le schéma général qui réunit les caractéristiques des sites de social book-marking que nous avons présenté dans la section 1.6.

Publication

titre: Stringannée: Stringauthor: Stringediteur: Stringvisibilité: Stringvolume: Stringpages: Stringadresse: Stringchapitre: Stringabstract: Stringdescription: Stringsérie: Stringedition: Stringmois: Date

Utilisateur

iduser: Stringmot_de_passe: Stringnom: Stringprenom: Stringemail_adresse: String

Bookmark

id_bookmark: Stringadresse: Stringtitre: Stringdescription: Stringcomment: StringdateCreation: Datevisibilité: StringmyWork: boolean

Group

id_groupe: Stringnom: String

Tag

id_tag: Stringnom: String

*

*

Note

description: String

Voisin

nom: Stringnr_article_commun: String

Type_Publication

nom: String

Relations

nom: String

fait

1

*

a

*

*

post

**

post

*1

visible

*

*possede

*

1

souscrit

+est_membre_de

+ses_membres

*

1..*

contient

1..*

*

caractérisé

1..*

1..*

caractérisé

1..*

1..*

type

1

*

Figure 1.10 – Diagramme de classes modélisant les sites de social bookmarking.

Le schéma contient neuf classes :

– la classe Utilisateur qui peut être membre de plusieurs groupes, peut avoir zéro ou plusieursvoisins, peut créer plusieurs relations entre les tags. Il peut aussi sauvegarder dans cecompte plusieurs publications et bookmarks ;

– les classes Bookmark et Publication sont caractérisés par un ou plusieurs tags. Ils sont trèssimilaires, la différence est faite par la classe publication qui a des attributs supplémentairespour inclure tous les champs BIBTEX. En plus, elle est caractérisée par un seul type (parexemple : article, livre) ;

– la classe Relation qui permet à un utilisateur de regrouper des tags. Elle détient l’attributnom de la relation ;

13

Page 28: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1. État de l’art du social bookmarking

– la classe Voisin caractérisée par le nom du voisin et le nombre d’articles qu’il a en communavec l’utilisateur ;

– la classe Tag caractérisée par son nom ;– la classe Type_Publication caractérisée par son nom ;– la classe Groupe est caractérisée par les attributs suivants : le nom et la description degroupe, la visibilité (ouvert — les utilisateurs peuvent trouver le nom de groupe ou ladescription — et privé — personne ne sera capable de trouver le groupe en cherchant surle site et les utilisateurs doivent être invités à participer), l’invitation (tous les membres degroupe peuvent envoyer des invitations à rejoindre le groupe ou seulement les administra-teurs du groupe peuvent émettre des invitations). De plus, on trouve le droit d’accès (lesnouveaux utilisateurs auront le droit d’écrire des articles et de créer des fils de discussionpour lesquels ils auront des droits restreints), l’attribut membre qui permet aux membresd’être anonymes dans leurs activités d’ajouter des ressources, de créer des fils de discus-sion et poster des commentaires et l’attribut messages, puis d’indiquer si les non-membrespeuvent poster ou pas des messages.

– la classe Note est une classe d’association avec un seul attribut qui s’appelle description.

Dans ce schéma nous avons considéré l’intégralité des classes et des attributs qui peuventillustrer le maximum des fonctionnalités pour les sites de social bookmarking. En réalité, chaquesystème particulier adopte une sous-partie de ces fonctionnalités.

Nous présenterons dans la section suivante un tableau comparatif des sites de social book-marking les plus cités dans notre bibliographie.

1.7 Synthèse des sites de social bookmarking de notre biblio-graphie

Nous détaillons dans le tableau ci-dessous les caractéristiques des sites de social bookmarkingévoqués dans notre bibliographie. Les critères utilisés permettent des comparer les sites en consi-dérant le niveau de recommandation (Reco) (des utilisateurs (U) ou des tags (T)), le partagedes bookmarks : privé (Pr), public(Pb) ou partiellement visible (PV) ainsi que la notion de tagcloud. Il peut être : représentatif pour la communauté (Comm) — les tags les plus fréquentsd’un site de social bookmarking — ou représentatif pour un seul individu (I) — les tags les plusfréquents d’un individu.

Les sites figurant dans ce tableau sont présentés dans l’ordre alphabétique de leur nom.

Nom du site Année Organisme Reco Tag Cloud Partage

U T Comm I Pb Pr PVBibsonomy janvier 2006 Univ. Kassel Germany − + + + + + +CiteULike novembre 2004 Univ. de Manchester − + − + + + −Connotea décembre 2004 Maison d’édition Nature + + + − + + +Del.icio.us septembre 2003 Joshua Schachter − + + + + + −Flickr février 2004 Ludicorp − − + + + + +

Table 1.1 – Comparaison des sites de social bookmarking.

14

Page 29: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

1.8. Inconvénients identifiés

1.8 Inconvénients identifiés

1.8.1 Inconvénients des tags

En tenant compte de la variété des individus qui utilisent les tags, on trouve différents in-convénients. Selon [GH05] les tags ont les inconvénients suivants :

– des tags qui sont synonymes (multiples tags qui représentent le même concept, par exemplele système d’exploitation d’Apple peut être tagué avec l’étiquette «Mac OSX», «software»ou avec d’autres étiquettes [Dev04]) ;

– les tags qui ont des inflexions (telles que le singulier et le pluriel, par exemple le tag«maison» est interprété d’une manière différente du tag «maisons» dans un système desocial bookmarking) ;

– les connaissances des individus pour un domaine sont importantes quand ils choisissentles tags pour décrire une ressource (par exemple les tags «perl» et « javascript» peuventêtre trop spécifiques pour un utilisateur et le tag «programming» peut être trop généralpour un autre).

D’autres travaux ont identifié des inconvénients supplémentaires :

– des tags qui sont polysémiques (les tags qui ont plusieurs sens, par exemple une « fenêtre»peut faire référence à un trou dans le mur, ou à la vitre qui se trouve en son sein [Pus91]) ;

– les personnes parlent des langues différentes, impliquant le fait qu’ils utilisent des tagsdistincts pour exprimer la même chose. Ceci illustre le problème du multilinguisme desutilisateurs [WZBA10] (par exemple « retrieval » en anglais avec « recherche » en français) ;

– l’aspect cognitif de la hiérarchie et la catégorisation (les personnes peuvent considérer lestags à différents niveaux de spécificité). Chaque personne choisit le niveau qui est le plusapproprié pour son activité. Pour la plupart des gens, le niveau de base pour les félins serait«chat», plutôt que «animal» ou «siamois» ou «Persan». Des expériences montrent que,lorsqu’on demande à un utilisateur d’identifier les chiens et les oiseaux, les sujets utilisés« chien » et « oiseaux » plus que «Beagle» ou «Robin » [TT91] ;

– des tags qui peuvent être homonymes (le même tag utilisé avec d’autre sens, par exemple«orange» peut faire référence au fruit ou à la couleur) ;

– problème du vocabulaire (fautes de grammaires, fautes de typage) [FLGD87, Che94].

1.8.2 Inconvénients du social bookmarking

Dans notre étude bibliographique nous avons identifié deux inconvénients :

– les problèmes du vocabulaire identifiés dans la section 1.8.1 ;– spam et corruption. Le social bookmarking est sujet à corruption [HHLS05]. En raisonde sa popularité, certains internautes ont commencé à le détourner afin d’influencer desmoteurs de recherche comme un outil pour rendre leur site plus visible. Plus une page webest postée et taguée, plus elle aura de la chance d’être trouvée. Les spammeurs référencentplusieurs fois la même page web et/ou chaque page de leur site en utilisant un grandnombre d’étiquettes populaires, obligeant ainsi les développeurs à améliorer constammentleur système de sécurité pour éviter les abus [KSHS08].

15

Page 30: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 1. État de l’art du social bookmarking

1.9 Problématique

De nos jours, les sites de social bookmarking ont connu une évolution rapide. Cette évolutionet suscitée par le nombre des individus qui sont de plus en plus intéressés par l’utilisation detels outils pour sauvegarder et trouver des ressources.

Sur les sites de social bookmarking, comprenant des informations sur les individus, les tagset les URLs [MNBD06] nous pouvons voir tous les tags employés par un utilisateur (avec leurnombre d’utilisation) depuis son adhésion au site de social bookmarking sous la forme d’une listeordonnée en fonction de la fréquence d’utilisation. En observant leur fonctionnement nous avonsidentifié certains inconvénients.

1. Concernant l’individu

a) Impossibilité de voir l’évolution de l’utilisation des tags au cours du temps et implicitementidentifier à quel moment une personne a été intéressée par les tags. Par exemple dans unepériode donnée un individu a été intéressé par le voyage, et particulièrement par un tag,«plage». Il est impossible de connaître la période d’usage, dans le cas où il l’avait oubliéou s’il est encore intéressé par ce sujet ;

b) Pas de moyen de se concentrer sur l’activité la plus récente d’une personne. Par exemple,pendant 5 ans un individu a été intéressé par la BD, depuis 3 mois il est intéressé parla recherche d’information (RI) (300 tags BD, 30 tags IR). Si quelqu’un veut savoir quelest l’intérêt actuel de l’individu, il peut penser que le BD l’intéresse davantage que la RI(300 > 30). Pourtant, il est actuellement plus intéressé par la RI. Donc, le comptage seulne suffit pas, il faut prendre en compte l’aspect temporel ;

c) Impossibilité de connaître les centres d’intérêts d’un individu sur le long terme et sur lecourt terme. Par exemple, pendant 4 ans un individu a été intéressé plusieurs fois par lesvoyages, particulièrement pendant les vacances. Pourtant sur le long terme il est intéressépar le domaine informatique. En regardant, actuellement, l’activité d’une personne sur unsite de social bookmarking, nous ne pouvons pas avoir des informations concernant lesintérêts sur le long terme et court terme d’une personne. Donc, il faut prendre en comptel’aspect temporel pour pouvoir faire ces observations ;

d) Pas de moyen de trouver des similarités entre les utilisateurs. Par exemple deux utilisateursont tagué des ressources avec la même étiquette «recherche» et à peu près avec la mêmefréquence. Si quelqu’un veux savoir si ces deux utilisateurs ont des intérêts communs, ilpeut penser qu’ils ont les mêmes intérêts. Pourtant il est possible que ces deux utilisateursont été intéressés pour ce tag à différentes périodes du temps et qu’à présent ils ont desintérêts opposés. Donc, les tags utilisés en commun et la fréquence de ces tags ne sont passuffisant pour trouver des similarités entre les utilisateurs ;

e) Pas de moyen d’observer les cooccurrences entre les tags. Par exemple, si un individu décritune ressource en choisissant plusieurs tags, nous n’avons pas la possibilité d’observer latendance pour l’ensemble de ces tags au cours du temps. Peut-être qu’il les a utiliséssimultanément seulement un ou deux fois par hasard ou fréquemment. Donc, nous nepouvons rien dire sur l’intérêt d’un individu porte à ces tags au cours du temps.

f) Pas de moyen d’observer les similarités entre tags pour former des domaines d’intérêt.

16

Page 31: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

1.9. Problématique

2. Concernant la communauté :a) Impossibilité de connaître les centres d’intérêts de la communauté sur le long terme et

court terme ;b) Pas de moyen de trouver des similarités entre les groupes d’utilisateurs ;Pour l’utilisateur d’un site de social bookmarking tous ces inconvénients rendent difficile le

processus de recherche d’information. Le usagers ne bénéficient pas pleinement des ressourcesque les autres ont trouvé et qui peuvent être intéressantes pour des utilisateurs ayant des intérêtscommuns.

17

Page 32: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager
Page 33: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2

Contribution : restituer l’activité desusagers en prenant en compte la

dimension temporelle

La deuxième partie de ce mémoire expose nos contributions. Elle est divisée en trois sections.Nous présentons, dans la première section, notre proposition et les avantages des différentscontextes pris en considérations. Elle vise à répondre à la problématique que nous avons présentéedans le premier chapitre. Nous nous intéressons en particulier aux activités des utilisateurs surun site de social bookmarking. Dans la deuxième section, nous présentons la régression linéaire etson utilité dans notre travail, adaptés pour répondre à notre problématique. Ceci nous permettrade discuter, dans la troisième section, des différents approches que nous avons considérées enprenant en compte la régression linéaire et la dimension temporelle.

2.1 Propositions

Nos propositions visent principalement à améliorer le processus de recherche d’information,à trouver les différents intérêts des individus et à trouver des similarités entre eux, en s’appuyantsur les activités des individus qui utilisent les sites de social bookmarking, tout en prenant encompte l’aspect temporel. Nous apportons des éléments de réflexion concernant les points faiblesdes sites de social bookmarking identifiés dans la problématique de l’état de l’art. Ainsi, nousidentifions les avantages pour différents contextes en fonction du nombre de tags et du nombred’utilisateurs.

2.1.1 Avantages de nos propositions

Selon Dubinko et al. [DKM+06], si nous pouvions observer le comportement des utilisateursau fil du temps, nous pourrions explorer l’évolution des leurs centres d’intérêts qui constituentun avantage pas seulement pour l’individu mais aussi pour la communauté.

Nous identifions des avantages pour différents contextes en fonction du nombre de tags etdu nombre des utilisateurs en prenant en compte l’aspect temporel. Ces avantages répondent àla problématique que nous avons présentée et ils sont détaillés ci-dessous.

19

Page 34: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

(a) Le contexte individuel relatif à un tag.

Nous proposons une visualisation immédiate de la tendance qu’un tag peut suivre en fonctiondu temps. En observant ces tendances sur la page d’un individu, nous identifions plusieursavantages. Premièrement, ceci facilite le travail de recherche des autres utilisateurs, de sorteque si un individu est intéressé par un tag à un moment donné, il peut voir d’un clin d’œilles activités des autres utilisateurs concernant le même tag, afin qu’il puisse bénéficier desressources que d’autres ont trouvé. De plus, nous pouvons observer facilement l’actualitédes ressources et implicitement, trouver des personnes qui ont les mêmes centres d’intérêtsou des personnes qui se rassemblent.

Nous proposons aussi de diviser toute la période d’usage d’un site de social bookmarkingd’un individu en d’intervalles de temps pour trouver les intérêts constants à long terme etles intérêts constants à court terme. Les avantages de cette proposition concernent les indi-vidus qui peuvent trouver des personnes qui ont des intérêts similaires avec eux et pourquoipas mettre en œuvre une approche de recommandation. En connaissant les intérêts à longterme et à court terme des individus, nous pouvons leur recommander des utilisateurs etdes ressources, et ainsi les aider dans leur processus de recherche.

(b) Le contexte organisationnel relatif à un tag.

Ce contexte est similaire au premier contexte que nous avons proposé. La différence entreces deux est faite par le nombre d’utilisateurs pris en compte. Dans cette deuxième approchenous trouverons des groupes d’individus qui ont les mêmes activités en observant les simi-larités entre les utilisateurs.

(c) Le contexte personnel relatif à un tag.

Un utilisateur d’un site de social bookmarking peut trouver intéressant le fait de pouvoirvisualiser son activité concernant un tag en fonction du temps. Ceci lui permet de trouverà quel moment il a été intéressé par un tag. Aussi, nous pouvons trouver la fraîcheur desintérêts de nos amis (connexions).

(d) Les contextes individuel, organisationnel et personnel relatifs à plusieurs tags.

Comme les avantages de ces trois contextes sont très proches les uns des autres, nous préfére-rons les aborder dans la même section. Nous proposons pour ces contextes deux approches :l’approche basée sur la thématique (le domaine) et l’approche basée sur les trois tags lesplus représentatifs (3TPR). Nous détaillons ces deux approches ci-dessous.

(i) L’approche de la thématiqueEn étudiant les tags cooccurrents (les tags qui sont utilisés ensemble pour les utilisa-teurs pour étiqueter les ressources) nous formons des domaines d’intérêts (des théma-tiques) pour les individus en fonction de ces étiquettes. En observant la tendance pources domaines dans le temps pour chaque utilisateur nous trouverons facilement son

20

Page 35: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

2.2. La régression linéaire : résumé théorique et utilisation dans notre travail

intérêt pour une certaine thématique. En plus, les utilisateurs qui sont intéressés parles mêmes domaines peuvent bénéficier, sans perdre beaucoup de temps, des ressourcesque d’autres ont trouvé.

(ii) L’approche de 3TPR prend en compte les trois tags les plus fréquents qui caractérisentle mieux l’utilisateur. Ainsi, en un seul clin d’œil nous pouvons connaître le profil d’unutilisateur, ses centres d’intérêt, les domaines, les sujets qui l’intéressent. En plus, nousgagnons du temps si nous pouvons dire en quelque secondes si les activités d’un indi-vidu peuvent être avantageuses ou pas pour nous.

Les limites de ces contextes sont basées sur les inconvénients des tags que nous avons présen-tés dans la section 1.8.1. Imaginons deux individus, l’un utilisant le tag «recherche» et l’autrele tag «research», nous ne pouvons rien dire sur le deux individus parce que ces deux tags sontconsidérés différents même s’ils ont la même sémantique.

Dans notre étude, nous avons fait l’hypothèse que les individus d’un site de social bookmar-king utilisent les mêmes tags en éliminant les inconvénients que les tags peuvent avoir.

Après avoir exposé les avantages que l’aspect temporel peut apporter dans le cadre dessites de social bookmarking et implicitement dans la recherche d’information, on a besoin d’unereprésentation visuelle des activités des individus. La représentation d’un tag seulement pardes points (voir figure 2.1) ne suffit pas. Observer la tendance est plus informatif. Cela permetd’examiner plus clairement et plus rapidement les activités des utilisateurs. À cet effet, nousavons utilisé la régression linéaire que nous décrivons dans la section suivante.

 

   

 

   

 

 

 

 

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps 

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

Figure 2.1 – Représentation par des points

2.2 La régression linéaire : résumé théorique et utilisation dansnotre travail

Cette section est structurée comme suit : dans la première section on introduit la régressionlinaire, le coefficient de corrélation et l’équation de régression linéaire. Ceci nous permet d’in-troduire dans la deuxième section les tendances que nous pouvons constater en analysant lesactivités que les usagers entreprennent sur les sites de social bookmarking. Enfin, dans la troi-sième section nous identifions à l’aide de la régression linéaire différentes approches qui amènentdes solutions pour les problématiques que nous avons identifiées dans l’état de l’art.

21

Page 36: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

2.2.1 La régression linéaire

Dans notre étude on utilise la régression pour examiner les relations entre variables. Ellessont exprimées sous la forme d’une équation ou un modèle qui relie la réponse ou la variabledépendante et une ou plusieurs variables prédictives. Le coefficient de corrélation [CP91] permetde mesurer la force et la direction de la relation entre deux variables x et y. Le coefficientcor(x, y) satisfait la relation :

− 1 6 cor(x, y) 6 1 (2.1)

Deux séries sont dites corrélées si elles sont corrélées positivement ou négativement. Plus lacorrélation cor(x, y) est proche de 1 ou −1, plus forte est la relation entre x et y. Le signe de lacorrélation indique la direction de la relation entre x et y. Une corrélation cor(x, y) > 0 impliqueque les deux séries sont positivement dépendantes et une corrélation cor(x, y) < 0 implique queles deux séries sont négativement dépendantes.

Une valeur de coefficient de corrélation tendant vers 0 (cor(x, y) → 0), traduit une faiblecorrélation entre les deux variables.

Nous prenons des exemples pour deux séries x et y (tableau 2.2) pour illustrer la corrélationsentre elles. Dans la figure 2.2 nous avons représenté les graphiques pour les données du tableau 2.2

x y

−1 1−2 2−3 3(a) Premier tableau avec les séries

x y

1 12 23 3(b) Deuxième tableau avec les séries

Table 2.2 – Les séries x et y. 

(a) cor(x, y) = −1

 

(b) cor(x, y) = 1

Figure 2.2 – Les graphiques avec les lignes correspondants pour les données du tableau 2.1

La régression linéaire est une extension de l’analyse de corrélation, car elle postule un modèlequi peut être utilisé non seulement pour mesurer la direction et la force d’une relation entre la

22

Page 37: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

2.3. Tendances identifiées à l’aide de la régression linéaire

réponse et les variables prédictives, mais aussi pour décrire numériquement cette relation [CP91].

Dans le cadre de notre projet, on utilise la régression linéaire pour observer la tendance (voirsection 2.3) d’un individu pour un tag, l’évolution de ses centres d’intérêts et les similarités avecd’autres individus en fonction du temps. Nous présenterons ces aspects en détail ultérieurement,dans les sections suivantes. Auparavant, nous décrivons l’équation de régression linéaire que nousutilisons pour observer les activités des utilisateurs à partir des tags qu’ils ont utilisés dans unsite de social bookmarking.

2.2.2 L’équation de régression linéaire

La relation entre la variable réponse y et la variable prédictive x est représentée par le modèlede régression linéaire [CP91] :

y = a+ bx+ ε (2.2)

où– a et b sont les coefficients du modèle de régression linéaire. Le coefficient a est appelé « l’abs-cisse à l’origine » et le coefficient b est appelé la « pente » ;

– ε représente l’erreur.

Pour estimer les paramètres a et b nous devons trouver la ligne droite qui donne‘ la meilleurereprésentation pour les points du graphique (figure 2.1) de la réponse de la variable par rapport àla variable prédictive. Pour estimer ces paramètres nous utilisons la méthode des moindre carrés.Elle donne la droite qui minimise la somme des carrés des distances verticales de chaque pointà la droite. Les distances verticales représentent les erreurs dans la variable réponse. L’équationde la ligne est appelé la méthode des moindres carrés (équation 2.3).

y = a+ bx+ ε (2.3)

Les estimations a et b sont appelés les estimations en moindre carrés de a et b.

Après avoir introduit la régression linéaire dans la section suivante nous présentons les ten-dances que nous avons observées en regardant les activités des utilisateurs sur un site de socialbookmarking.

2.3 Tendances identifiées à l’aide de la régression linéaire

Dans le cadre de notre étude on peut distinguer trois tendances à partir du calcul de larégression linéaire : intérêt croissant, intérêt en déclin et intérêt récurrent/saisonnier :

(a) Intérêt croissant.Si, au fil de temps, l’individu utilise de plus en plus un tag on observe une augmentation del’intérêt de l’utilisateur pour le domaine qui est représenté par ce tag (figure 2.3a).

23

Page 38: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

 

   

 

   

 

 

 

 

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps 

fréquence tag 

 

Fréquence du tag 

temps 

(a) Intérêt croissant

 

   

 

   

 

 

 

 

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps 

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

(b) Intérêt en déclin

 

   

 

   

 

 

 

 

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps 

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

(c) Intérêt récurrent

Figure 2.3 – Trois types des tendances

(b) Intérêt en déclin.

Cette tendance se traduit par le fait que l’individu perd son intérêt pour le domaine re-présenté pas les tags utilisés au fil de temps. Une représentation graphique d’un intérêt endéclin est illustrée dans la figure 2.3b.

(c) Intérêt récurrent/saisonnier.

Les préférences des individus pour un domaine qui évolue peu pendant le temps sont tra-duites comme des intérêts constants. Une représentation graphique à l’aide de la régressionlinéaire est observée dans la figure 2.3c.

En utilisant le modèle de la régression linéaire nous identifions les intérêts comme suit :

– pour b = 0 nous avons un intérêt récurrent dans le temps ;– pour b > 0 nous avons un intérêt croissant dans le temps ;– pour b < 0 nous avons un intérêt en déclin dans le temps.

En analysant les activités des utilisateurs sur un site de social bookmarking, outre ces intérêtsidentifiés ci-dessus nous avons observé aussi l’existence d’un intérêt ponctuel. Ce type d’intérêtne peut pas être déterminé en utilisant la régression linéaire. Dans la suite nous décrivons cetintérêt.

Les préférences des individus pour un domaine dans une courte période sont traduites commedes intérêts saisonniers. Par exemple, un utilisateur a pu être intéressé ponctuellement par levoyage, particulièrement par le tag «plage». S’il ne se rappelle pas la période, il peut identifiersur le graphique un pic d’activité (figure 2.4) pour ce tag et ainsi retrouve la période concernée.

24

Page 39: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

2.4. Approches identifiées dans le cadre de notre travail

 

   

 

   

 

 

 

 

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps 

fréquence tag 

 

Fréquence du tag 

temps 

Figure 2.4 – Intérêt ponctuel : le pic d’intérêt

Après avoir déterminé les tendances des intérêts des utilisateurs, nous proposons dans lasection suivante nous proposons d’identifier les différentes approches concernant l’étude des tagset des utilisateurs.

2.4 Approches identifiées dans le cadre de notre travail

2.4.1 Identification des trois tags les plus représentatifs

Nous considérons la collection de bookmarks d’un utilisateur qui est sauvegardée sur un sitede social bookmaking. Chaque bookmark est composé d’un ou plusieurs tags. Pour identifier les3TPR nous proposons deux approches.

(a) Première approche

Nous considérons la fréquence des tags dans la collection pour identifier l’intérêt d’un uti-lisateur pour une certaine thématique. Plus un tag est utilisé, plus l’intérêt de l’usager estimportant. La méthode la plus simple pour déterminer les 3TPR est de compter le nombred’occurrence de chaque étiquette dans la collection. Pour notre travail de recherche, cetteapproche se confronté à une limite.

Un individu a pu utiliser souvent un tag donné, sans que ce dernier l’intéresse encore ac-tuellement. Cela signifie que l’intérêt actuel de l’usager pour cette étiquette est en déclinconformément à la section 2.3. De cette façon la fréquence d’un tag dans la collection d’éti-quettes d’un utilisateur n’est pas suffisante pour constater l’intérêt ou l’indifférence pourun certain sujet. La deuxième approche que nous présentons dans le paragraphe suivantapporte une solution à cette limite introduite par la première approche.

(b) Deuxième approche

Le choix des 3TPR est plus spécifique si nous considérons la tendance d’un tag en fonctionde sa fréquence d’apparition dans la collection d’étiquettes d’un utilisateur. Ainsi, pour re-présenter les véritables intérêts d’un individu nous prenons en compte deux paramètres : lafréquence et la tendance d’utilisation des tags en fonction du temps.

25

Page 40: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

Nous proposons de calculer, pour chaque tag, un score qui tient compte de ces deux para-mètres :

Score(t) = α · freq(t) + (1− α) · penteTendance (2.4)

avec, α ∈ [0, 1].

La fréquence du tag représente le nombre d’occurrences du tag dans l’ensemble des éti-quettes d’un individu qui utilise un système de social bookmarking. Pour éviter les biais liésà la longueur de la collection (le nombre d’occurrence serait potentiellement plus élevé pourun individu qui utilise beaucoup un site de social bookmarking par rapport à un individuqui l’utilise rarement) nous allons normaliser la somme de chaque tag.

Pour normaliser nous assimilons l’utilisateur à un document et un tag à un mot et nousutilisons la mesure tf [SSMB96] exprimée par le rapport entre le nombre d’occurrences d’untag dans la collection et le nombre d’occurrences de tous les tags dans la collection d’unutilisateur. Soit la collection des étiquettes d’un utilisateur cj et un tag ti, la fréquence dutag dans la collection des tags (tf) est calculée par la formule suivante :

tf(u, t) = ni,j∑k nk,j

(2.5)

où– ni,j est le nombre d’occurrences du tag ti dans cj et– le dénominateur est le nombre d’occurrences de tous les tags dans la collection cj .

Nous observons la tendance d’un tag d’un utilisateur en prenant en compte l’aspect temporel.De cette façon, pour chaque tag, nous déterminons la pente de la régression linéaire. La valeurque nous obtenons pour la pente est intégrée dans la formule présentée dans l’équation 2.5.Pour calculer la pente nous utilisons la suivante formule :

penteTendance = a

b(2.6)

Chaque tag qui se trouve dans la collection d’un utilisateur est alors caractérisé par un score.À l’aide de celui-ci, nous ordonnons les tags par score décroissant. À partir de la liste obte-nue, nous ne conservons que les trois premiers tags pour représenter l’intérêt de l’utilisateuren fonction du temps.

Dans cette approche nous avons calculé un score pour toute la période dans laquelle l’indi-vidu a utilisé un site de social bookmarking. En analysant les activités des utilisateurs surles sites du social bookmarking nous pouvons faire les remarques suivantes :

– parmi les 3TPR il y a des tags que l’individu a utilisé dans le passé et pour lesquels iln’est actuellement plus intéressé ;

26

Page 41: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

2.4. Approches identifiées dans le cadre de notre travail

– il y a des étiquettes qui représentent les intérêts actuels mais qui n’ont pas été utiliséesantérieurement ;

– il y a des tags qui ont été utilisés constamment.

En prenant en compte tout la période d’usage, nous ne pouvons pas observer les tags dé-crits ci-dessus, cela montre une limite de notre approche. Afin de répondre à cette limite, leparagraphe suivante expose une troisième approche.

(c) Troisième approche

Pour que le choix des 3TPR soit plus spécifique et plus représentatif pour l’activité d’unusager, nous proposons de diviser la période d’interaction d’un individu avec un site de socialbookmarking en plusieurs intervalles de temps.

Nous prenons l’exemple d’un utilisateur (Guillaume Cabanac 5) qui a utilisé un site desocial bookmarking depuis 2007 jusqu’à aujourd’hui. Nous divisons la période d’usage en 4intervalles (pour chaque année).Nous calculons pour chaque intervalle de temps le score que nous avons défini dans lasection 2.4.1 et nous présenterons les résultats dans le tableau 2.4.

3TPR

information retrievaldev_JAVAea_16_05_2007

(a) 2007

3TPR

information retrievaldev_JAVAlatex

(b) 2008

3TPR

latexannotationinformation retrieval

(c) 2009

3TPR

annotationinformation retrievalto_Madalina

(d) 2010

Table 2.4 – Les tags pour l’activité d’un usager divisés en quatre intervalles.

Diviser la période d’interaction d’un utilisateur avec un site de social bookmarking en plu-sieurs intervalles apporte des avantages. Nous pouvons ainsi mieux observer les intérêts actuels,les intérêts à long terme, les intérêts en déclin et les thématiques pour lesquelles il n’est plusintéressé.

En regardant l’exemple que nous avons pris, nous pouvons tirer les observations suivantes :

5. http://www.connotea.org/user/Tafanor sur Connotea

27

Page 42: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

– le tag ea_16_05_2007 est une étiquette que l’individu a utilisé beaucoup en 2007 et àprésent il n’est plus intéressé par ce sujet.

– le domaine information retrieval représente un intérêt à long terme (il est utilisé approxi-mativement avec la même fréquence dans chaque intervalle de temps).

– le tag dev_Java représente un intérêt qui est en déclin. Il a été beaucoup utilisé dans deuxintervalles de temps (en particulier en 2007 et 2008). En 2009 et 2010 il est utilisé maispas avec la même fréquence, ce qui nous fait penser que l’intérêt d’utilisateur pour cetteétiquette a baisé.

– nous observons aussi les nouveaux (actuels) intérêts d’un utilisateur, par exemple le tagto_Madalina dans l’intervalle 2010 est une étiquette pour laquelle l’individu s’est beaucoupintéressé récemment.

Cette section a permis d’identifier les 3TPR en utilisant la fréquence et la régression linéairepour différents intervalles des temps. Dans la section suivante nous proposons d’adopter larégression linéaire pour trouver des similarités entre les individus qui interagissent avec unsystème de social bookmarking.

2.4.2 Identification des similarités entre les utilisateurs

Nous proposons deux méthodes pour trouver les similarités entre les individus qui utilisentun système de social bookmarking.

a) Première méthode

Pour trouver des similarités entre les utilisateurs, nous observons les tendances de plusieursindividus pour le même tag et pour la même période de temps (figure 2.5). Nous superposonsles graphiques avec ces tendances et nous calculons à l’aide d’une métrique les similaritésentre les utilisateurs. Des tendances confondues indiquent que les utilisateurs ont les mêmescentres d’intérêts. Dans le cas contraire, les centres d’intérêt des individus s’éloignent avecla croissance de l’angle entre les tendances. Pour calculer les similarités entre les utilisateursnous utilisons la mesure du cosinus [KVGK09] (équation 2.7).

Nous calculons la similarité entre l’utilisateur 1 et l’utilisateur 2 après la formule suivante :

sim(u1, u2) = cos( ~u1, ~u2) = α (2.7)

 

Utilisateur 1 

Utilisateur 2 

α 

Figure 2.5 – Représentation des tendances des deux utilisateurs

Après avoir déterminé les individus qui ont des intérêts similaires, nous faisons des groupesavec ceux-ci. Dans le paragraphe suivant nous décrivons une deuxième méthode pour trouver

28

Page 43: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

2.4. Approches identifiées dans le cadre de notre travail

les similitudes entre les utilisateurs

b) Deuxième méthode

La deuxième méthode que nous utilisons pour trouver les individus qui ont les mêmes centresd’intérêt et former des groupes avec ceux-ci s’appuie sur l’approche des 3TPR.

Nous proposons de classifier premièrement les tags dans des domaines. Pour cela nous allonsanalyser la cooccurrence des tags. Plus la fréquence des tags qui sont utilisés ensemble aug-mente, plus ces tags tendent à former un domaine.

Cette deuxième méthode consiste en deux étapes :

1. En premier lieu, nous allons construire la matrice des fréquences de cooccurrences destags.

2. Ensuite, après la normalisation et le tri par blocs diagonaux de cette matrice [Tét], elleva contenir sur la diagonale principale des blocs correspondants à des classes de tags quiont été utilisés ensemble par les usagers du site de social bookmarking analysé. Ainsi lesdomaines trouvés, nous décrivons les individus comme :

~u1 = {t11, · · · , tn1}~u2 = {t12, · · · , tm2 }

...~ur = {t1r , · · · , tqr}

Chaque individu qui utilise un site de social bookmarking est caractérisé par l’ensemble desses tags.

Pour trouver les similarités entre les utilisateurs, nous prenons pour chacun son 3TPR etnous identifions pour chaque tag son domaine d’appartenance. En mettant les individus dansdes groupes en tenant compte des domaines auxquels ils sont intéressés nous identifions lespersonnes qui se ressemblent (ont des intérêts similaires).

Pour une meilleure compréhension nous présenterons ci-dessous un exemple. Pour notreexemple nous considérons l’ensemble suivant des tags :

Tags={inf_retrieval, evaluation, web, visualisation, TREC, indexation, programming, lite-rature, computer, language, application, information, developement, library, cultural, educa-tional, book}

Avec ces tags nous constituons la matrice dont les lignes et les colonnes comportent desétiquettes. Les cellules indiquent la fréquence de cooccurrence des tags.Après la normalisation et le tri de cette matrice nous identifions trois domaines. Ils sontdécrits par les ensembles suivants d’étiquettes :

29

Page 44: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

D1={inf_retrieval, evaluation, web, visualisation, TREC, indexation, information} ;D2={programming, language, application, information, computer, developement} ;D3={literature, language, library, cultural, educational, book}.

Nous prenons les 3TPR de cinq utilisateurs et nous identifions pour chacun son domained’appartenance (tableau 2.6).

3TPR

inf_retrievalevaluationprogramming

(a) u1

3TPR

webliteraturebook

(b) u2

3TPR

inf_retrievalTRECindexation

(c) u3

3TPR

educationaldevelopementbook

(d) u4

3TPR

literaturelibrarycultural

(e) u5

Table 2.6 – Les 3TPR des utilisateurs.

Nous identifions les groupes des individus en regardant les domaines pour chaque tag. Noustrouvons les classes suivantes d’utilisateurs :

C1={u1, u2, u3} ;C2={u1, u4} ;C3={u2, u4, u5}.

À l’aide de ces deux méthodes nous pouvons faire des recommandations pour les utilisateursqui se trouvent dans le même groupe. En plus, les individus qui font partie de la même classepeuvent trouvé facilement des ressources que d’autres ont trouvées en diminuant le temps né-cessaire de recherche.

Cette section a permis d’identifier les similarités entre les utilisateurs en utilisant deux tech-niques : la mesure du cosinus et la méthode de classification par analyse de connexité. Pournotre travail de recherche ces techniques s’appuient sur la régression linéaire et sur l’aspect tem-porel. Dans la section suivante, nous proposons identifier les intérêts constants à long terme etimplicitement à court terme pour les individus d’un site de social bookmarking.

2.4.3 Identification des intérêts constants sur le long terme et sur le courtterme

Après avons identifié les intérêts récurrents à l’aide de la régression linéaire, nous voulonsidentifier si ceux-ci représentent des intérêts constants à long terme ou intérêts constants à courtterme pour les utilisateurs. Nous identifions deux approches :

30

Page 45: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

2.4. Approches identifiées dans le cadre de notre travail

(a) Première approche

Les intérêts récurrents que nous avons identifiés pour un individu au fil de temps ont desfréquences différentes (par exemple, pour deux tags qui représentent des intérêts constants,un tag a été utilisé 3 fois, figure 2.6 a), par rapport au deuxième qui a été utilisé 20 foisdans la même période du temps, figure 2.6 b)).

 

   

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps 

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

fréquence du tag 

fréquence du tag 

temps 

(a)

 

   

 

   

 

 

 

 

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps 

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

(b)

Figure 2.6 – Intérêt récurrent

Nous proposons donc de prendre en considération la fréquence d’apparition pour les tagsqui montre un intérêt récurrent en fonction du temps. Cette approche se confronte à unelimite dans le cadre de notre travail.En tenant compte de la fréquence d’apparition des étiquettes, nous ne pouvons pas diresi elles représentent des intérêts constants à long terme pour les individus. Nous pouvonstrouver des périodes dans lesquelles l’utilisateur n’a pas montré un intérêt pour l’étiquetteconsidérée (figure 2.7) ou des étiquettes récurrenes pour lesquels l’individu était beaucoupintéressé seulement dans un période de temps (figure 2.8). Pour ces tags nous pouvons direqu’ils représentent des intérêts constants à court terme plutôt qu’à long terme.

 

   

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps 

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

fréquence du tag 

fréquence du tag 

temps 

Figure 2.7 – Intérêt récurrent en temps avec des périodes manquantes

31

Page 46: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

 

   

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

fréquence du tag 

fréquence du tag 

temps 

Figure 2.8 – Intérêt récurrent à court terme

Dans le paragraphe suivant nous présenterons une deuxième approche qui apporte une so-lution à cette limite.

(b) Deuxième approche

Notre deuxième approche est basée sur le travaux de Dubinko et al. [DKM+06]. Notre propo-sition pour déterminer les intérêts constants à long terme doit avoir les propriétés suivantes :

1) une étiquette doit être considérée récurrente pour toute la période d’usage d’un site desocial bookmarking s’il a été constant pendant tous les intervalles des temps.

2) une étiquette qui est récurrente seulement pendant un intervalle de temps particulier nedevrait pas représenter nécessairement un intérêt constant à long terme pour un individu.

Nous divisons toute la période d’utilisation d’un site de social bookmarking d’un individu endes intervalles de temps. L’intervalle de temps peut représenter : des mois, des trimestres,des années.

Soit I = [a, b] un intervalle de temps. À l’aide de la régression linéaire nous exprimons pourchaque étiquette dans intervalle I, le fait qu’elle représente un intérêt récurrent.

Récurrent(t, I) = const (2.8)

Notre trouverons les intérêts constants à long terme si pour chaque intervalle considéré nousobservons pour la même étiquette un intérêt récurrent. Nous exprimons cela par la formulesuivante :

Récurrent(t, I1 ∪ I2 ∪ · · · ∪ In) =n∑i=1

Récurrent(t, Ii) = const (2.9)

Cette section a permis d’identifier les intérêts constants sur le long terme et implicitementles intérêts constants sur le court terme. Dans la section suivante nous identifions les étiquettesqui représentent les nouveaux intérêts des usagers et les étiquettes qui, dans le passé, n’ont pasété beaucoup utilisées et qui deviennent maintenant elles pour les individus qui utilisent les sitesde social bookmarking.

32

Page 47: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

2.5. Identification des TIM, des NTI et des TIA

2.5 Identification des TIM, des NTI et des TIA

Premièrement nous spécifions les concepts des «tags important maintenant» (TIM), des«nouveaux tags intéressantes» (NTI) et des« tags importants avant » (TIA). Ensuite, nousprésenterons le coefficient de détermination.

2.5.1 Définition des concepts

Les TIM sont des tags qu’un individu a utilisés dans le passé d’une façon constante et pourlesquels il montre actuellement un intérêt croissant. Dans la figure 2.9 nous représentons à l’aidede la régression linéaire ce phénomène.

 

   

 

                                                                   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

fréquence du tag 

fréquence du tag 

temps 

Figure 2.9 – Graphique pour un TIM

Les NTI sont les tags que les individus n’ont pas utilisés dans le passé et pour lesquels ilssont beaucoup intéressés actuellement. Dans la figure 2.10 nous exprimons ce phénomène.

 

   

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

fréquence du tag 

fréquence du tag 

temps 

Figure 2.10 – Graphique pour un NTI

Les TIA sont les étiquettes que les individus ont beaucoup utilisés dans le passé et pourlesquelles ils montrent un intérêt récurant actuellement. Nous présentons ce phénomène dans lafigure 2.11.

33

Page 48: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 2. Contribution : restituer l’activité des usagers en prenant en compte la dimension temporelle

 

   

 

   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

   

temps

fréquence du tag 

fréquence du tag 

temps 

fréquence du tag 

temps

fréquence tag 

 

Fréquence du tag 

temps 

temps 

fréquence du tag 

fréquence du tag 

fréquence du tag 

temps 

Figure 2.11 – Graphique pour un TIA

La régression linéaire seule ne suffit pas à déterminer les TIM, NTI et TIA parce que pourles trois nous identifions un intérêt croissant. Dans la section suivante nous présenterons lecoefficient de détermination qui apporte une solution à ce problème.

2.5.2 Coefficient de détermination

Dans la régression, le coefficient de détermination r2 [CP91] est une mesure statistique de lafaçon dont la droite de régression se rapproche des points. Le (r2) est égal au carré de coefficientdu corrélation (cf. section 2.2) entre la variable réponse x et la variable prédictive y.

r2 = cor(x, y)2 (2.10)

Le coefficient de détermination r2 satisfait la relation :

0 6 r2 6 1 (2.11)

Une valeur de 1 indique que la ligne de régression s’inscrit parfaitement dans les données.Dans notre cas, une valeur proche de 1 indique le fait que les étiquettes analysées sont des NTIet pour une valeur proche de 0 nous trouvons les TIM.

Nous avons exposé dans cette deuxième partie de mémoire notre contribution où nous avonsproposé d’utiliser la régression linéaire et de prendre en compte la dimension temporelle pourtrouver les intérêts des individus au fil de temps, pour trouver les similarités entre les usagersdans le but d’aider les individu dans leur processus de recherche d’information.

Nous présentons dans la troisième partie de ce mémoire les hypothèses que nous avons établiespour notre étude, les concepts et les outils techniques, notre prototype d’évaluation, ainsi quel’architecture et la modélisation que nous avons adoptée pour le site de social bookmarkingConnotea et les démarches que nous envisageons à faire pour notre évaluation.

34

Page 49: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 3

Évaluation des approches : utilitédes tags pour représenter l’activité

des usagers

La troisième section de ce mémoire expose l’évaluation des approches que nous avons identi-fiées dans le deuxième chapitre. Elle est divisée en sept sections. Nous présenterons dans les troispremières sections nos objectifs, nos hypothèses et notre prototype d’évaluation. Dans la qua-trième section nous exposons les options et les critères qui sont à l’origine des choix techniquesque nous avons employés. Ceci nous permettra de présenter dans la cinquième section l’architec-ture du site du social bookmarking Connotea ainsi que la modélisation UML et le modèle logiquede données (schéma relationnel). La sixième section décrit la base de donnée cabanac_connoteaque nous avons utilisée pour notre étude et une statistique avec les informations qu’elle contient.Enfin, la septième section explique ce que nous devons faire pour évaluer notre travail.

3.1 Objectifs globaux

Les activités que les utilisateurs entreprennent sur un site de social bookmarking ont des bé-néfices pas seulement pour eux-mêmes mais aussi pour la communauté. Pour rendre plus facileset plus bénéfiques les interactions des individus avec un tel système nous nous sommes imposésles objectifs suivantes :

– le premier objectif est de montrer que la fréquence d’apparition d’un tag dans la collectiondes étiquettes d’un utilisateur n’est pas suffisante pour trouver les intérêts actuels de l’in-dividu. Même si nous normalisons la fréquence d’apparition d’un tag dans un mois avecle nombre total des tags qui ont été utilisés ce mois-ci, nous n’obtenons pas les résultatssouhaités.

– le deuxième objectif est de montrer les bénéfices que nous obtenons en prenant en comptel’aspect temporel dans l’activité des individus et de représenter graphiquement ces activi-tés à l’aide de la régression linéaire.

Dans la section suivante on présente les différentes hypothèses que nous avons prises encompte pour évaluer notre travail.

35

Page 50: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 3. Évaluation des approches : utilité des tags pour représenter l’activité des usagers

3.2 HypothèsesDans notre travail de recherche, nous avons identifié cinq hypothèses que nous détaillons

ci-dessous.a) nous demandons aux utilisateurs de regarder leurs trois tags les plus représentatifs (cf. sec-

tion 2.4) et de donner des notes à chacun en fonction de leurs intérêts actuels (les tags proposésreprésentent ou pas leurs intérêts actuels). Ces trois tags sont extraits en tenant compte dela fréquence de leur apparition pendant toute la période d’interaction de l’utilisateur avec lesite de social bookmarking.

b) nous demandons aux utilisateurs de choisir, dans un ensemble de listes, la liste ou les listesqui représentent le mieux leurs intérêts. Pour construire cet ensemble nous choisissons deslistes avec : les tags d’autres utilisateurs, les tags normalisés avec la plus grande norme, lestags avec la plus grande fréquence.

c) nous demandons aux individus de donner des notes à des graphiques avec la régression linéaireen fonction de leur intérêt actuel (pour identifier s’ils représentent ou pas leur intérêt actuel).

d) nous demandons aux usagers d’ordonner de façon croissante les étiquettes qui représententleurs intérêts constants en temps, en fonction de leur importance.

e) à partir de plusieurs graphiques qui représentent un intérêt croissant, nous demandons auxutilisateurs d’identifier les tags intéressants et les nouvelles étiquettes intéressantes.

3.3 Prototype développé pour l’évaluationNous détaillons ici l’architecture générale du prototype que nous proposons pour pouvoir

évaluer notre travail de recherche. Il est composé de deux modules qui sont illustrés dans lafigure 3.1.

Paquetage PL/SQL

   

 

  

 

 

 

 

 

 

 

 

 

       

appels de 

procédures 

stockées 

              Oracle  

                                           SQL      

                                                                                           Tables                                                                                                                                     

 

Page identifiant 

  

 

Évaluation faite par l’utilisateur  

 

 

 

Vue Vue1

Niveau physique 

Niveau logique 

Figure 3.1 – Architecture générale du prototype

36

Page 51: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

3.4. Concepts et outils utilisés

La figure 3.1 schématise l’architecture détaillée de notre prototype, où sont représentés :

– à droite, nous avons une base de données Oracle. Nous avons implémenté une API dansun paquetage PL/SQL. Ce paquetage est le seul composant de l’application à accéderdirectement aux tables et aux vues.

– à gauche nous avons l’interface graphique (le navigateur Web) du prototype.

– entre les deux modules, un lien entre l’interface et Oracle qui est établit par l’appel deprocédures stockées.

Nous détaillons dans la section suivante les concepts et les outils que nous avons utilisés dansnotre travail.

3.4 Concepts et outils utilisésDans cette section nous présentons les choix techniques que nous avons adoptés dans notre

étude avec les arguments qui sont à la base de ceux-ci.

3.4.1 Choix techniques

Nous présentons dans cette section les choix techniques que nous avons effectués en exposantles arguments et l’utilité de chacun dans notre travail.

(a) UML (Unified Modeling Language)

UML 6 est la spécification OMG (Object Management Group) la plus utilisée et la façondont nous pouvons modéliser la structure, le comportement et l’architecture d’une applica-tion, mais aussi des métier et des structures de données. Le métamodèle UML permet dereprésenter l’ensemble des éléments du monde objet ainsi que les liens qui les relies.

Dans le cadre de notre travail nous avons modélisé des données que nous avons observés surles sites du social bookmarking en utilisant UML (cf. figure 1.6.5).

(b) Quel navigateur Web ?

– Microsoft Internet Explorer (IE). La dernière version de ce navigateur IE8 est sortie en2009 et il est disponible sur le système d’exploitation Microsoft Windows. Actuellementl’usage de ce navigateur a baissé, atteignant pour le mois d’avril 2010, 59,9% 7 d’utilisa-tion ;

– Mozilla Firefox (FF). Firefox est le logiciel open source le plus utilisé au monde. Sondéveloppement a été initié à partir du code source de Netscape Navigator alias Mozilla ;sa première version a été diffusée en novembre 2004.

6. http://uml.org/7. cf. http://news.bbc.co.uk/2/hi/technology/10095730.stm

37

Page 52: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 3. Évaluation des approches : utilité des tags pour représenter l’activité des usagers

Notre prototype d’évaluation marche sur les deux navigateurs Web : Microsoft Internet Ex-plorer et Mozilla Firefox. Dans le cadre de notre évaluation, le navigateur Firefox est préféréparce qu’il est portable sur les nombreux systèmes d’exploitations. De ce fait les utilisateursqui vont participer à notre évaluation ne serons pas contraints par leur système d’exploita-tion. Parmi ces systèmes, citons Microsoft Windows, Linux, Unix, Sun Solaris, Mac OS, etc.

(c) PL/SQL

PL/SQL (Procedural Language/Structured Query Language) [CPSTT08] (chapitre 8) estl’extension procédurale du langage SQL. Il a été développé par Oracle Corporation pour ré-pondre à la limite de SQL qui ne peut pas être utilisé pour exécuter du code procéduralavec déclarations conditionnelles, itérative et séquentielle.

Nous utilisons PL/SQL comme une alternative aux cadres d’applications Web. Dans le pa-ragraphe suivant nous introduisons la technologie Oracle qui nous fournit les outils et lestechnologies nécessaires.

(d) Oracle et le web

Oracle 8 est un système de gestion de base de données relationnelles (SGBDR) fourni parOracle Corporation.

L’architecture mise en place par Oracle pour les application Web (voir figure 3.2) met enjeu différents composants. Le navigateur envoie une requête sous la forme d’une URL quiinvoque une procédure PL/SQL. Le processus Web listener analyse et route l’appel versle composant adapté (page statique, procédure PL/SQL, etc.) afin de générer une pageHTML [TS04] (chapitre 12).

 

Web Request Broker

PL/SQL

Pages 

HTML 

statiques 

Web listener

Web Request Broker 

Base de données 

Figure 3.2 – Architecture du Web Oracle

Le processus Web Request Broker est compose d’un ensemble de cartouches applicatives.Une cartouche contient du code qui permet la connexion à la base et l’exécution de procé-dure stockées.

8. http://www.oracle.com/index.html

38

Page 53: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

3.4. Concepts et outils utilisés

Les paquetages HTP (HyperText Procedures et HTF (HyperText Functions) regroupent unensemble de sous-programmes permettant de générer des balises HTML [TS04].

Oracle propose deux techniques qui permettent d’interfacer une base de données sur le Web :

– PL/SQL Web Toolkit offre la capacité d’écrire des programmes PL/SQL qui génèrent despages HTML lorsqu’ils sont invoqués via un navigateur client.

– PL/SQL Server Pages (PSP) integre des instructions PL/SQL dans des pages HTML (ouXML) par l’utilisation de balises spécifiques [TS04].

Nous avons préféré utiliser pour le développement de notre interface la technique de PL/SQLWeb Toolkit à cause de l’application qui doit inclure un grande nombre d’instructionsPL/SQL et contient beaucoup de code HTML.

(e) Oracle SQL Developer

Oracle SQL Developer est un outil graphique open source développé par Oracle Corporationpour le développement de bases de données. Avec SQL Developer, nous pouvons parcourirdes objets de la base de données, exécuter des instructions SQL et des scripts SQL, et demodifier et de déboguer PL/SQL. SQL Developer améliore la productivité et simplifie lestâches de développement de base de données. En plus, il peut se connecter à tout base dedonnées et tous les versions qui sont sorties après cette version. Il fonctionne sur Windows,Linux et Mac OSX [WAL].

Nous avons adopté dans notre travail de recherche l’outil graphique Oracle SQL Developerpour nous connecter à la base de donnée Oracle et pour développer l’interface graphiqueutilisée pour l’évaluation.

(f) La régression linaire avec Oracle

Grâce aux fonctions qu’Oracle fournit [Lin] nous pouvons calculer les coefficients a et bpour deux séries quelconques. Les expressions que nous présentons dans le tableau 3.1 re-présentent les requêtes avec lesquelles nous trouverons les valeurs pour les coefficients de larégression linéaires. Nous prenons l’exemple des deux sériés :

– la première série est caractérisée par la fréquence d’un tag dans un intervalle de temps(dans notre exemple nous prenons comme intervalle de temps le mois) et

– la deuxième série est caractérisée par le mois dans lequel le tag a été utilisé.

Fonctionsa select REGR_INTERCEPT(freq_tag, interval) INTERCEPT from yb select REGR_SLOPE(freq_tag, interval) Slope from y

Table 3.1 – Fonctions d’Oracle pour calculer les paramètres a et b de la régression linéaire

39

Page 54: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 3. Évaluation des approches : utilité des tags pour représenter l’activité des usagers

Dans le tableau 3.1, « y » fait référence à une table de la base de données.

Oracle applique la fonction à l’ensemble des paires (expr1, expr2) après avoir éliminé tousles couples pour lesquels soit expr1 ou expr2 est nulle. Il calcule toutes les fonctions derégression simultanément pendant un seul passage dans les données. Expr1 est interprétécomme la valeur de la variable dépendante, dans notre cas freq_tag et expr2 est interprétécomme la valeur des variables indépendante, dans notre cas l’intervalle de temps, le mois.

Oracle fournit aussi des fonctions avec lesquelles nous pouvons calculer le coefficient decorrélation, le coefficient de détermination (r2) et le coefficient τ de Kendall (voir sec-tion 3.7.1) [Lin, Coe].

Prenant le même exemple que précédemment pour les trois séries, nous présenterons dans letableau 3.2 les requêtes avec lesquelles nous trouverons les valeurs pour les deux coefficients.

Fonctionscorr select CORR(freq_tag, interval) Coefficient_de_corrélation from yr2 select REGR_R2(freq_tag, interval) r2 from yτ select CORR_K(freq_tag, interval) τ from y

Table 3.2 – Fonctions d’Oracle pour calculer les coefficient de corrélation, le coefficient r2 et lecoefficient τ de Kendall

(g) Gnuplot

Gnuplot 9 est un programme en ligne de commande qui produit des représentations gra-phiques en deux ou trois dimensions de fonctions numériques ou de données. Il fonctionnesur tous les ordinateurs et systèmes d’exploitation principaux et affiche les graphiques àl’écran ou dans des fichiers dans de nombreux formats (eps, fig, jpeg, LaTeX, metafont,pbm, pdf, png, postscript, svg, . . .). Il a été créé en 1986 pour permettre aux scientifiques etaux étudiants de visualiser les fonctions mathématiques et des données de manière interac-tive. En plus, avec son développement, il permet un usage non-interactif tel que les scriptsweb.

Pour avoir une visualisation de l’équation de la régression linaire pour les intérêts des in-dividus au fil de temps, nous avons adopté le logiciel Gunplot. À l’aide de cet outil nouspouvons générer automatiquement de graphes sur les différentes activités que les individusont sur un site de social bookmarking (cf. section 2.3).

Par exemple, la figure 3.3 représente l’activité d’un utilisateur pendant toute sa périoded’utilisation du site de social bookmarking pour un certain tag (pour notre exemple, nousavons pris le tag «book» d’utilisateur Guillaume Cabanac 10).

9. http://www.gnuplot.info/10. http://www.connotea.org/user/Tafanor sur Connotea

40

Page 55: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

3.5. Architecture du site Connotea

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

25 30 35 40 45 50 55 60 65 70 75

Fre

quen

ce d

u ta

g

Temps

"book.dat"f(x)

Figure 3.3 – Graphique généré avec Gnuplot pour faire la régression linéaire

Après avoir donné un aperçu des outils que nous avons utilisés dans notre travail, nousprésentons dans la section suivante l’architecture du site Connotea que nous avons adoptée.

3.5 Architecture du site Connotea

Notre travail est basé sur des données expérimentales extraites d’un site de social book-marking Connotea (cf. section 1.6.4), actuellement utilisé par plus d’un million d’utilisateurs. Ilpermet de gérer et de partager leurs collections de bookmarks sur le web.

L’étude est basée sur le site Connotea pour plusieurs raisons :

– c’est un site professionnel utilisé par des personnes du monde scientifique ;– il est souhaitable de travailler sur des données fiables, des données de qualité ;– c’est un site qui a commence à être très populaire et de plus en plus utilisé.

Nous présentons dans la section suivante la modélisation du site Connotea que nous proposonspour spécifier les caractéristiques présentes dans la section 1.6.4.

3.5.1 Modélisation UML du site du social bookmarking Connotea

Nous avons utilisé les notations UML (section 3.4.1) pour la représentation des concepts, desattributs et associations de ce site. Nous présentons le diagramme de classes en figure 3.4.

41

Page 56: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 3. Évaluation des approches : utilité des tags pour représenter l’activité des usagers

Utilisateur

iduser: Stringmot_de_passe: String

Bookmark

id_bookmark: Stringadresse: Stringtitre: Stringdescription: Stringcomment: StringdateCreation: Datevisibilité: StringmyWork: boolean

Group

id_groupe: Stringnom: String

Tag

id_tag: Stringnom: String

*

*

Note

description: String

souscrit

+est_membre_de

+ses_membres

*

1..*

possede

*

1

post

0..*1

visible

*

*

caractérisé

1..*

1..*

Figure 3.4 – Diagramme de classes du site Connotea.

Nous présenterons la traduction de ce diagramme de classes en SQL ultérieurement, dans lasection suivante. Auparavant, nous exposons dans la figure 3.5 un diagramme de classe simplifiédu site Connotea. Ce diagramme et plus proche de ce que nous avons pris en considération pournotre travail de recherche. Notons en particulier l’apparition d’une autre classe «doc» qui repré-sente le document associé au bookmark ayant comme attribut url (l’adresse où nous trouveronsla ressource). Avant l’URL était un attribut de la classe bookmark. Un bookmark est représentépar une seule ressource mais une ressource peut avoir plusieurs bookmarks.

Utilisateur

iduser: Stringmot_de_passe: String

Doc

id_doc: Stringurl: String

Bookmark

id_bookmark: StringdataCreation: Datevisibilité

Tag

id_tag: Stringnom: String

post

0..*1

representé

1

0..*

caractérisé

0..*

1..*

Figure 3.5 – Diagramme de class simplifiée.

Nous proposons dans la section suivante de présenter la traduction SQL des ces deux dia-grammes.

42

Page 57: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

3.6. Description de la base de données

3.5.2 Modèle logique de données (schéma relationnel)

À partir des règles de traduction présentés dans [CPSTT08] (section 3.7) nous avons traduitmanuellement le diagramme de classes UML du site Connotea et implicitement le diagrammesimplifié en des schémas relationnels présentés ci-dessous. Dans notre notation, un attribut cléprimaire est souligné et un attribut clé étrangère est suffixé par le caractère dièse.

Pour le diagramme de la figure 3.4, nous avons obtenu le schéma suivant :

Utilisateur = {iduser, mot_de_passe}

Bookmark = {id_bookmark, adresse, titre, description, comment, dataCreation, myWork,visibilité, #iduser}

Tag = {id_tag, nom}

Groupe = {id_groupe, nom, #iduser}

UT = {#iduser, #id_tag, description}

UG = {#iduser, #id_groupe}

BT = {#id_bookmark, #id_tag}

BG = {#id_groupe, #id_bookmark}

Le schéma relationnel pour le diagramme de la figure 3.5 est présenté au-dessous.

Utilisateur= {iduser, mot_de_passe}

Bookmark= {id_bookmark, dataCreation, visibilité, #iduser,#iddoc}

Tag = {id_tag, nom}

Doc= {id_doc, url}

BT = {#id_bookmark, #id_tag}

Après avoir décrit les schémas relationnels des diagrammes de classes, dans la section suivantenous présentons la base de donnée que nous utilisons dans notre étude, ainsi qu’une statistiquesur les données qui ont été recueillies sur le site de social bookmarking Connotea pour la remplir.

3.6 Description de la base de données

Les informations extraites du site Connotea (les utilisateurs, les tags, les bookmarcks et lesinformations sur les documents) sont stockés dans un base de données appelée cabanac_connotea.

Dans le tableau 3.2 nous présentons une statistique pour les données que nous avons stockéesdans la base de données.

43

Page 58: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 3. Évaluation des approches : utilité des tags pour représenter l’activité des usagers

Item Nombre d’instances

Utilisateurs 5927Ressources 119001Tags 337808Tags distincts 58237Nb max de tags par ressource 124Nb min de tags par ressource 1Nb max de ressource postées par utilisateur 1000Nb min de ressource postées par utilisateu 1

Table 3.3 – Statistique sur la base de données

3.7 Que nous reste-t-il à faire pour évaluer notre approche ?

3.7.1 Le coefficient de corrélation de Kendall

1. Concepts généraux

Nous utilisons dans notre étude le coefficient de corrélation τ de Kendall [Abd] pour évaluerle degré de similarité entre deux séries ordonnés différemment pour un même ensemble detags. Le coefficient de Kendall dépend du nombre d’inversion des paires des tags qui seraientnécessaires pour transformer un ordre de classement dans l’autre. Pour ce faire, chaque ordrede classement est représenté par l’ensemble des paires des tags (par exemple [recherche, in-formation] et [information, recherche] sont les deux paires représentant des tags recherche etinformation).

Soit les constants(u) = {t1, t2,. . .. . .tn} où

– u représente une personne qui utilise un site de social bookmarking et

– {t1, t2, . . .. . .tn} représente l’ensemble de ses tags. Ces étiquettes décrivent les intérêtsconstants à long terme de l’utilisateur u.

Afin de comparer deux séries ordonnées différemment sur le même ensemble des tags, le τ deKendall compte le nombre de paires différentes entre ces deux séries ordonnées. Le nombrede paires différentes donne la distance entre ces deux séries, appelée la distance de différencesymétrique.

Le coefficient de corrélation τ de Kendall est obtenu en normalisant la différence symétriquetelle qu’elle prendra des valeurs comprises entre −1 et +1.

– la valeur −1 correspond à la plus grande distance possible (obtenue lorsqu’un ordre estexactement l’inverse de l’ordre initial) et

– la valeur 1 correspondant à la plus petite distance possible (égale à 0, obtenue lorsque lesdeux ordres sont identiques).

Nous utilisons la formule suivante pour calculer le coefficient de corrélation Kendall :

44

Page 59: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

3.7. Que nous reste-t-il à faire pour évaluer notre approche ?

τ =12 ·N(N − 1)− d∆ · (P1,P2)

12 ·N(N − 1)

(3.1)

où– P1,P2 représentent les deux séries classes différemment ;

– d∆ · (P1,P2) représente la distance pour la différence symétrique ;

– 12 ·N(N − 1) paires ordonnées, décomposé dans un ensemble des N tags.

2. Comment nous utilisons le coefficient de corrélation Kendall dans notre évalua-tion ?

Nous demandons aux utilisateurs du site de social bookmarking Connotea d’ordonner de façonascendante une liste d’étiquettes en fonction de leurs intérêts récurrents les plus représentatifspour eux à long terme. La liste est formée de tags pour lesquels les individus ont montré desintérêts constants.

Nous avons notre propre liste avec un classement qui tient compte de l’approche présentéedans la section 2.4.3. En fonction de la valeur que nous avons obtenue pour le coefficient τ deKendall nous pouvons dire si l’approche que nous avons considérée identifie bien les intérêtsconstant à long terme pour les utilisateurs.Pour une valeur grande de τ , nous pouvons dire que les deux listes coïncident et que notreapproche est performante. Dans le cas contraire nous affirmons que les deux listes sont tota-lement différentes.

3.7.2 Évaluer l’approche de 3TPR

Après que nous ayons identifié les trois tags conformément à la section 2.4.1, nous évaluonsnotre approche en demandant aux utilisateurs de donner des notes aux graphiques en fonctionsde leurs intérêts actuels (s’ils représentent ou pas leurs intérêts actuels).

Notre interface d’évaluation contient des graphiques qui représentent les tendances pour dif-férentes étiquettes. Ces graphiques montrent :

– l’intérêt d’un individu à un moment donné, avec des étiquettes qui ne sont pas utiliséespar l’individu mais qui illustrent un intérêt croissant dans le temps ;

– leurs intérêts constants au cours du temps ;– des intérêts en déclin et– avec les 3TPR issus de notre étude.

En fonction des réponses que nous obtenons des utilisateurs, nous pouvons conclure si les3TPR représentent bien les intérêts actuels des individus. Notons que nous avons intentionnelle-ment bruité les listes présentées aux participants (tags qui n’appartiennent pas aux participants)pour vérifier qu’ils reconnaissent leurs propres tags.

45

Page 60: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Chapitre 3. Évaluation des approches : utilité des tags pour représenter l’activité des usagers

Nous avons exposé dans cette troisième partie de mémoire notre évaluation pour les ap-proches considéré dans la deuxième partie. Dans une première partie nous avons identifié nosobjectifs ainsi que les hypothèses pour notre étude. Ensuite, nous avons présenté notre proto-type, le site de social bookmarking Connotea que nous avons choisir pour faire l’évaluation, ainsique les technique d’évaluation.

46

Page 61: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Conclusion et perspectives

Le travail présenté dans ce mémoire s’inscrit dans le cadre de l’exploitation des systèmes desocial bookmarking. Nous avons déterminé l’impact que l’introduction de la dimension temporellesur un tel site peut avoir dans les activités des individus et implicitement pour la communauté.En plus, nous avons établi l’effet que la division de toute la période d’utilisation d’un site desocial bookmarking en intervalle de temps permet aux utilisateurs d’avoir une meilleure visionde leur activité. Plus précisément, nous avons étudié l’activité d’étiquetage des ressources parrapport au temps, en utilisant la régression linéaire avec différentes techniques (coefficient decorrélation, coefficient de détermination, méthode de moindres carrées, mesure de cosinus etméthode de classification par analyse de connexité). En observant les interactions que les per-sonnes ont avec un site de social bookmarking, nous trouvons les intérêts des utilisateurs (intérêten déclin, croissant, récurrent ainsi que les intérêts à long terme et à court terme) au cours dutemps ainsi que les similarités entre les utilisateurs.

La façon avec laquelle les usagers interagissent avec le site de social bookmarking est trèsdifférente en fonction du temps. À cause de cela, la régression linéaire ne représente pas toujoursde façon optimale les intérêts des utilisateurs. Une alternative qui permet de mieux modéliserde tels intérêts existe. En effet, il y a différentes techniques comme la régression polynomiale,que nous pouvons intégrer dans notre approche.

Comme perspective à notre travail, nous proposons d’utiliser notre approche pour recom-mander des usagers et des ressources à des personnes qui partagent les mêmes centres d’intérêtsau fil de temps. De cette façon nous facilitons la tâche de recherche en réduisant le temps pourtrouver des documents pertinents. Plusieurs systèmes de recommandation ont été présentésdans : [SVR09, SZL+08, ZZT09, HJSS06, SCK+08]. Il conviendra alors de se comparer à cestravaux.

Nous envisageons aussi d’étendre notre proposition pour supporter d’autres tâches de la re-cherche d’information dans les systèmes de social bookmarking. Selon la théorie du sociologueGladwell [Gla02] il existe trois trois types de personnes selon leur rapport à l’information :

– les connectors sont caractérisés par leur grand nombre d’accointances, ils arrivent à établirdes liens entre différentes communautés ce qui leur permet d’y disséminer l’information.

– les mavens accumulent les savoirs, disposent et sont à l’origine de nombreuses informationsqu’ils partagent volontiers autour d’eux, dans un cercle réduit d’accointances ;

– les salesmen promeuvent les nouvelles idées qu’ils glanent, savent les valoriser et les diffu-ser autour d’eux.

47

Page 62: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Conclusion et perspectives

Ce travail peut être adapté pour permettre d’identifier les différentes caractéristiques queles usagers peuvent avoir. Avec ce type d’information, nous pourrions adapter le processus derecherche d’information en détectant les nouvelles informations et tendances (mavens), en lesrecommandant aux personnes pour les valoriser (salesmen), pour accroître leur visibilité et leurdissémination dans les différents cercles d’accointances (connectors).

48

Page 63: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Bibliographie

[ABC98] Abrams D., Baecker R. et Chignell M. : Information archiving with bookmarks:personal web space construction and organization. Dans CHI ’98: Proceedings ofthe SIGCHI conference on Human factors in computing systems, p. 41–48, NewYork, NY, USA, 1998. ACM Press/Addison-Wesley Publishing Co.La quantité de données disponibles sur le web devient tellement volumineuse que l’utilisateur setrouve face à une masse d’information difficile à appréhender. Cette masse d’information induitsouvent une surcharge cognitive chez l’utilisateur et rend difficile l’accès à l’information répondantà ses besoins. Cet article constitue une étude sur les bookmarks. Les auteurs ont interrogé 322utilisateurs et ont analysé les bookmarks de 50 usagers. Les résultats de cette étude indiquentqu’une proportion importante des individus organise les bookmarks seulement quand la quantité dedonnée non organisé augmente.

[Abd] Abdi H. : The kendall rank correlation coefficient.Ce papier présente le coefficient de corrélation τ de Kendall. L’auteur décrit un exemple pour unemeilleure compréhension des aspects théoriques.

[BEH+09] Benz D., Eisterlehner F., Hotho A., Jäschke R., Krause B. et Stumme G. : Managingpublications and bookmarks with BibSonomy. ACM, New York, NY, USA, juin 2009.Dans cet article les auteurs présentent le système de partage de publications et de sociale bookmar-king, BibSonomy.

[BLFM98] Berners-Lee T., Fielding R. et Masinter L. : Uniform resource identifiers (uri) genericsyntax. Rapport technique RFC 2396, 1998. http://www.ietf.org/rfc/rfc2396.txt.

[BLMM94] Berners-Lee T., Masinter L. et McCahill M. : Uniform Resource Locators (URL).RFC 1738 (Proposed Standard), December 1994. Obsoleted by RFCs 4248, 4266,updated by RFCs 1808, 2368, 2396, 3986.Ce papier présent un protocole de normalisation pour la communauté avec des suggestions d’amé-liorations. Il spécifie une Uniform Resource Locator (URL), la syntaxe et la sémantique des infor-mations formalisées pour la localisation et l’accès aux ressources via Internet.

[Cab08] Cabanac G. : Fédération et amélioration des activités documentaires par la pratiqued’annotation collective. Thèse de doctorat, Institut de Recherche en Informatiquede Toulouse ? IRIT UMR 5505 CNRS, 5 décembre 2008.Les travaux présentés dans ce mémoire s’inscrivent dans le contexte des Systèmes d’Informations surlesquels s’appuient des organisations : entreprises, laboratoires de R&D ou communautés, au senslarge. Ce mémoire vise à fédérer et améliorer les activités documentaires électroniques au sein d’uneorganisation. Un modèle unifié des activités documentaires couvrant le cycle de vie du documentest définit et le prototype de recherche TafAnnote est développé. L’élément fédérateur au cœurde ce modèle est l’annotation collective, provenant de l’activité d’annotation papier et bénéficiantdes capacités de traitement et de communication des systèmes informatiques. Une expérimentation«écologique» réalisée avec le concours de 121 volontaires qui ont participé en ligne, grâce à uneplate-forme développée est faite.

49

Page 64: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Bibliographie

[Che94] Chen H. : Collaborative systems: Solving the vocabulary problem. IEEE Computer,27(5):58–66, 1994.

[Coe] Sql functions. http://download.oracle.com/docs/cd/B14117_01/server.101/b10759/functions001.htm.

[CP91] Chatterjee S. et Price B. : Regression analysis by example. A Wiley-Intersciencepublication. Wiley, New York [u.a.], 2. ed édition, 1991.

[CPSTT08] Chrisment C., Pinel-Sauvagnat K., Teste O. et Tuffery M. : Bases de données re-lationnelles : concepts, mise en oeuvre & exercices. Lavoisier, http://www.editions-hermes.fr/, juin 2008.

[Dev04] Devens K. B. : Singular vs. plural tags in a tag-based categorization system (such asdel.icio.us). http://keithdevens.com/weblog/archive/2004/Dec/24/SvP.tags,déc. 2004.

[DKM+06] Dubinko M., Kumar R., Magnani J., Novak J., Raghavan P. et Tomkins A. : Vi-sualizing tags over time. Dans WWW ’06: Proceedings of the 15th internationalconference on World Wide Web, p. 193–202, New York, NY, USA, 2006. ACM.Comprendre l’évolution des tags en fonction du temps est un problème soulevé par de nombreuxchercheurs. Une animation en flash dans un navigateur Web et un algorithme «backend» sontdéveloppés. L’animation permet aux utilisateurs d’observer et d’interagir avec des tags intéressantsqui évoluent dans le temps. De nouveaux algorithmes et structures de données sont nécessairespour soutenir la production efficace de cette visualisation (ex : additive Algorithme, ThresholdAlgorithm, subtractive algorithm). Le jeu des données utilisé pour les expériences est collecté dusite Flickr. Pour l’évaluation plusieurs approches sont considérées (approche naïve, recouvrementd’intervalle sans l’algorithme Threshold et recouvrement l’intervalle avec l’algorithme Threshold).Le recouvrement d’intervalle et l’algorithme Threshold fournissent une amélioration spectaculairepar rapport à l’algorithme naïf. La combinaison de ces deux donne un backend efficace.

[EC07] Emamy K. et Cameron R. : Citeulike: A researcher’s social bookmarking service.http://www.ariadne.ac.uk/issue51/emamy-cameron/, 2007.Cet article décrit CiteULike, une fusion de Web services de bookmarking social et les outils tra-ditionnels de gestion de librairie. Il explique comment CiteULike transforme le processus linéaired’acquisition, de collection et de partage inhérents à la recherche universitaire dans un processuscirculaire, permettant le partage et la découverte de la littérature académique et des documents derecherche.

[FKK09] Fu W.-T., Kannampallil T. G. et Kang R. : A semantic imitation model of socialtag choices. Computational Science and Engineering, IEEE International Conferenceon, 4:66–73, 2009.

[FLGD87] Furnas G. W., Landauer T. K., Gomez L. M. et Dumais S. T. : The vocabularyproblem in human-system communication. Commun. ACM—Communications ofthe Association for Computing Machinery, 30(11):964–971, 1987.

[GH05] Golder S. A. et Huberman B. A. : The structure of collaborative tagging systems.CoRR—Computing Research Repository, abs/cs/0508082, 2005.

[Gla02] Gladwell M. : The Tipping Point: How Little Things Can Make a Big Difference.Back Bay Books, 2002.

[HHLS05] Hammond T., Hannay T., Lund B. et Scott J. : Social bookmarking tools (i): Ageneral review. D-Lib Magazine, 11(4), April 2005.

[HJSS06] Hotho A., Jäschke R., Schmitz C. et Stumme G. : Information retrieval in folk-sonomies: Search and ranking. Dans Proceedings of the 3rd European Semantic Web

50

Page 65: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Conference, volume 4011 de LNCS, p. 411–426, Budva, Montenegro, June 2006.Springer.Le problème qui a été posée est de savoir comment fournir des mécanismes appropriés de classement,similaires à ceux fondés sur la structure du graphe du Web, en exploitant la structure de folksonomy.Un algorithme appelé FolkRank a été développé, prenant en compte la structure de la folksonomy.Cet algorithme est utilisé pour déterminer un classement général des objets et pour générer desrecommandations (tags, ressources et utilisateurs) dans un système de folksonomy. Il est aussi utilisépour trouver des communautés dans la folksonomy et pour trouver des thématiques spécifiques quisont reliées au classement. Pour évaluer l’algorithme, les données collectées du site web del.icio.usont été utilisées. L’algorithme FolkRank donne de bons résultats pour les éléments qui font partiede la même thématique qu’une requête donnée.

[HMHS06] Hassan-Montero Y. et Herrero-Solana V. : Improving tag-clouds as visual informa-tion retrieval interfaces. Dans InScit2006: International Conference on Multidisci-plinary Information Sciences and Technologies, 2006.

[KSHS08] Krause B., Schmitz C., Hotho A. et Stumme G. : The anti-social tagger - detect-ing spam in social bookmarking systems. Dans Proc. of the Fourth InternationalWorkshop on Adversarial Information Retrieval on the Web, 2008.

[KVGK09] Koutsonikola V. A., Vakali A., Giannakidou E. et Kompatsiaris I. : Clusteringof social tagging system users: A topic and time based approach. Dans Vossen G.,Long D. D. E. et Yu J. X., éditeurs : WISE’09 : Proceeding of the 10th InternationalConference Web Information Systems Engineering, volume 5802 de Lecture Notes inComputer Science, p. 75–86. Springer, 2009.L’information conférée par les tags révèle le domaine thématique des centres d’intérêt des individuset contribue à la construction du profil d’utilisateur. Le problème traité dans l’article consiste àgrouper les individus en fonction de leurs thématiques préférées et en fonction du temps. Un cadrede classification (clustering framework) pour mesurer la similarité entre les utilisateurs d’un systèmesocial de tag et un algorithme de classification en fonction du temps, selon un facteur de pondérationα, sont proposés. La mesure du cosinus est utilisée pour capturer la similarité entre deux vecteurs.Pour l’évaluation, un jeu de donnée collecté sur le site Flickr et une source d’information sémantique(comme WordNet) sont utilisés. Les résultats de cette évaluation montrent que cette approche estbénéfique pour les systèmes de recommandation des tags, pour identifier les utilisateurs régulierou pas, pour les mécanismes de prédiction et pour les applications d’équilibrage de charge (loadbalancing).

[Lin] Linear regression functions & oracle pl/sql tutorial. http://www.java2s.com/Tutorial/Oracle/0400__Linear-Regression-Functions/Catalog0400__Linear-Regression-Functions.htm.

[MD02] Mealling M. et Denenberg R. : Report from the Joint W3C/IETF URI PlanningInterest Group: Uniform Resource Identifiers (URIs), URLs, and Uniform ResourceNames (URNs): Clarifications and Recommendations. RFC 3305 (Informational),August 2002.

[MFK06] Millen D. R., Feinberg J. et Kerr B. : Dogear: Social bookmarking in the enter-prise. Dans CHI ’06: Proceedings of the SIGCHI conference on Human Factors incomputing systems, p. 111–120, New York, NY, USA, 2006. ACM.La question qui se pose est si une entreprise ou une organisation peuvent bénéficier aussi d’unsystème de bookmarking social. Un système de bookmarking social à l’échelle d’une entreprise aété conçu et développé. Cet article décrit la conception du service de bookmarking social appelé«dogear». Pour l’évaluation, «dogear» a été expérimenté dans une communauté, puis les fichiersjournal (les actions des utilisateurs, le temps) ont été examinés. Le système dogear assure uneamélioration de la gestion de bookmark. Il permet la gestion d’information personnelles, mais aussiune plus large diffusion, à l’échelle de l’entreprise.

51

Page 66: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

Bibliographie

[MNBD06] Marlow C., Naaman M., Boyd D. et Davis M. : Ht06, tagging paper, taxonomy,flickr, academic article, to read. Dans HYPERTEXT ’06: Proceedings of the sev-enteenth conference on Hypertext and hypermedia, p. 31–40, New York, NY, USA,2006. ACM Press.

[Pus91] Pustejovsky J. : The generative lexicon. Computational Linguistics, 17(4):409–441,1991.

[RW99] Robertson S. E. et Walker S. : Okapi/keenbow at trec-8. Dans TREC, 1999.[SCK+08] Schenkel R., Crecelius T., Kacimi M., Neumann T., Parreira J. X., Spaniol M. et

Weikum G. : Social wisdom for search and recommendation. IEEE Data Eng. Bull.,31(2):40–49, 2008.Cet article reflète les différents degrés d’amitié et de confiance mutuelle associés aux comportemenstsimilaires des individus et la possibilité d’exploiter des informations pour le tagging social, pour lescore et pour le classement. Un modèle de pondération est proposé. Il est implémenté dans leprototype SENSE. Des expériences avec des données extraites sont faites en explorant partiellementles sites web del.icio.us, flickr et librarything. Les mesures utilisées sont P@10 et le NDCG. Lesrequêtes pour cette étude se divisent en quatre catégories : les requêtes avec un faible contenud’informations, les requêtes avec une aspect social, les requêtes avec une aspect «spirituel» et lesrequêtes avec un mélange d’information. Les évaluations montrent que le « score social » et le « scorespirituel » peuvent améliorer la qualité des résultats pour certaines requêtes des utilisateurs, maiségalement conduisent à la dégradation du résultat dans d’autres cas.

[Smi04] Smith G. : Atomiq. folksonomy: Social classification. http://atomiq.org/archives/2004/08/folksonomy_social_classification.html, août 2004.

[SSMB96] Singhal A., Salton G., Mitra M. et Buckley C. : Document length normalization.Information Processing and Management, 32(5):619–633, 1996.

[SVR09] Sen S., Vig J. et Riedl J. : Tagommenders: connecting users to items throughtags. Dans Quemada J., León G., Maarek Y. S. et Nejdl W., éditeurs : WWW, p.671–680. ACM, 2009.La problématique : inférer les préférences des utilisateurs pour les tags. Un système basé sur larecommandation des tags appelé « Tagommenders » est proposé. Pour la partie d’évaluation cinqjeux des donnée qui sont collectés depuis le site MovieLens et la corrélation Pearson sont utilisés.Unerégression linéaire est analysée. Tagommenders offre une alternative plus flexible et compréhensibleque les systèmes de recommandations traditionnelles.

[Szi99] Szirmai J. : The Archaeology of Medieval Bookbinding. Scolar Pr, août 1999.[SZL+08] Song Y., Zhuang Z., Li H., Zhao Q., Li J., Lee W.-C. et Giles C. L. : Real-time

automatic tag recommendation. Dans SIGIR ’08: Proceedings of the 31st annualinternational ACM SIGIR conference on Research and development in informationretrieval, p. 515–522. ACM, 2008.Problématique : recommandation automatique de tags en temps réel pour les moteurs de recherchede documents et les bibliothèques numériques. L’algorithme PMM (Poisson Mixture Model) estproposé pour modéliser la distribution des documents. Pour évaluer l’algorithme, deux jeux desdonnées sont considérés : les pages web de del.icio.us et les tags recommandés pour les documentsscientifiques du CiteULike. Pour mesurer l’efficacité de l’algorithme, les métriques suivantes sontutilisées : Top-k précision, Exact-k précision, rappel tag, précision tag. Les 9 premiers tags sont prisen considération pour l’évaluation. Le cadre considéré est capable de recommander des tags d’unefaçon efficace. Le temps moyen d’étiquetage pour tester un document est d’approximativement d’uneseconde : plus de 88% documents testés ont été correctement étiquetés avec les 9 tags.

[TS04] Teste O. et Soutou C. : SQL pour Oracle. 61,bd Saint-Germain 75240 Paris Cedex05, 1ère édition édition, 2004.

52

Page 67: Recherche d’information sociale : exploitation du social ... · Les sites de social bookmarking permettent aux utilisateurs de taguer, d’enregistrer, gérer, découvrir, et partager

[Tét] Tétralogie : Logiciel de veille scientifique et technique. http://atlas.irit.fr/index.html.

[TT91] Tanaka J. W. et Taylor M. : Object categories and expertise: Is the basic level inthe eye of the beholder? Cognitive Psychology, 23(3):457–82, 1991.

[WAL] WALKER B. : Oracle technology network. http://www.oracle.com/technology/products/database/sql_developer/files/what_is_sqldev.html.

[WZBA10] Wetzker R., Zimmermann C., Bauckhage C. et Albayrak S. : I tag, you tag: trans-lating tags for advanced user models. Dans WSDM ’10: Proceedings of the thirdACM international conference on Web search and data mining, p. 71–80, New York,NY, USA, 2010. ACM.Les utilisateurs qui mettent des tags pour la catégorisation du contenu développent en temps desvocabulaires distincts des tags. Cette hétérogénéité disparaît lorsque les tags des individus sontagrégés, résultant dans la distribution des caractéristiques des tags pour les ressources. Le modèleproposé dans l’article s’appel UCTM (user-centric tag model). Ce modèle permet le mappage entrele vocabulaire personnel des tags et la folksonomie correspondante. Pour évaluer l’applicabilité decette approche deux cas sont pris en considération : la recommandation des tags et la recherchesociale basée sur les tags. Des données ont été extraites des sites delicious et bibsonomy. L’approcheconsidérée contribue à réduire des problèmes comme : l’ambiguïté, la synonymie ou le multilinguismedes tags. Les mesures utilisent sont la précision et le rappel. Pour le Recall@10 le modèle conduit àdes améliorations de 7,5% pour les données collectées du site delicious et de 10% pour les donnéescollectées du site bibsonomy.

[XBF+08] Xu S., Bao S., Fei B., Su Z. et Yu Y. : Exploring folksonomy for personalizedsearch. Dans SIGIR ’08: Proceedings of the 31st annual international ACM SIGIRconference on Research and development in information retrieval, p. 155–162, NewYork, NY, USA, 2008. ACM.La problématique : est-ce que la folksonomy est utile pour la recherche personnalisée ? Les auteursprennent la recherche personnalisée comme cadre dans lequel ils testent l’impact de la prise encompte de la folksonomy. Inspirés du modèle VSM (Vector Space Model), ils développent un modèled’association entre les utilisateurs et les pages web en utilisant un espace thématique. Ils ont proposédes tags dans le cadre de recherche personnalisée pour modéliser cet espace thématique et un cadred’évaluation automatique. Deux jeux de données ont été utilisés pour l’experimentation, ceux-ci ontété collectées sur le site Del.icio.us et sur le site Dogear. L’analyse a montré que cette approcheutilisée pour la recherche personnalisée peut améliorer d’une manière significative la qualité de larecherche.

[ZZT09] Zhang N., Zhang Y. et Tang J. : A tag recommendation system for folksonomy.Dans SWSM ’09: Proceeding of the 2nd ACM workshop on Social web search andmining, p. 9–16, New York, NY, USA, 2009. ACM.Le problème qui est considéré concerne la difficulté du système de recommandation de tags à prendreen compte les nouvelles ressources et les nouveaux utilisateurs. Pour arriver aux meilleurs résultats,une combinaison entre le modèle de langue et le modèle ACT a été proposée. Un jeu de données dusite web Bibsonomy et les mesures rappel, précision et f-mesure ont été utilisés pour l’évaluation.Les analyses montrent que l’ACT est caractérisée par de faibles résultats pour les données de test.Leur perspectives concernent d’autres méthodes qui doivent être adoptées pour cette combinaison.

53