RECHERCHE DINFORMATION SUR INTERNET : RECENTES EVOLUTIONS Stage URFIST de Rennes Janvier 2009...

RECHERCHE D’INFORMATION SUR

INTERNET : RECENTES EVOLUTIONS

Stage URFIST de Rennes

Janvier 2009

Marie-Laure Malingre,

Alexandre Serres

PLAN DE STAGE 1/ Introduction :

tendances et mutations

2/ La nouvelle économie de l’attention

3/ Vers l’indexation sémantique ?

4/ La personnalisation

5/ La géolocalisation 6/ Les interfaces

visuelles 7/ Les données

personnelles

Introduction : grandes tendances et mutations informationnelles Le déluge informationnel Web 1, web 2, web 3… La re-documentarisation du monde La nouvelle économie de l’attention La confusion des pratiques informationnelles La serendipité La personnalisation La traçabilité généralisée

1 Introduction : repères historiques et chronologiques Sur l’histoire du web :

L’histoire et l’avenir du web, de Camille Roux.

Sur l'histoire des moteurs : Histoire de la recherche d'information Moteurs de recherche Web : plus de 15 ans d'histoire Chronologie des outils de recherche sur Internet

1 Introduction : repères chronologiques

Grandes périodes :

1989-1994 : émergence du web, création des premiers outils ; Archie, Wanderer, Yahoo…

1994-2000 : essor des trois familles d’outils (moteurs, annuaires, métamoteurs) ; domination d’Alta Vista et Yahoo ; indexation morphologique, indice de pertinence ; grands annuaires généralistes (Open Directory)

2000-2004 : explosion de la « bulle internet », montée en puissance de Google ; indice de popularité ; émergence du web 2.0 (blogs, Wikipedia), et du web sémantique

2004-2008 : explosion du web social, hégémonie de Google, diversification, spécialisation des outils ; indexation sémantique, généralisation des métadonnées..

Réalité documentaire : 1996 : entre 100 et 250 000 sites web 2006 : entre 80 et 100 millions de sites En 2008 : plus de 100 milliards de pages web

Projections : • Chiffre de 161 Exabits x 6 d’ici à 2010 = 72 fois

distance terre-soleil En deux ans, plus de contenu créé que dans

toute l’histoire de l’humanité 93 % de ce contenu = électronique 70% des données créées par des individus

Sources : Livre blanc, Affordance, Vedocci…

1/ Introduction : tendances Le déluge informationnel

1/ Introduction : tendances...

Du web “1” au “web 2.0”

1/ Introduction : tendances... Du web “1.0” au “web 2.0”

Source : http://resnumerica.free.fr/nouveau-blog/?category/web1.0/

1/ Introduction : du WWW au GGG Evolution du World Wide Web vers un Giant Global

Graph, selon Tim Berners-Lee

Distinction de trois niveaux : Les infrastructures : le Net

Relie les machines La plate-forme de contenus : le Web

Relie les documents Le graphe social : social networking et web sémantique

Relie les hommes et leurs ressources Articulation des dimensions sociales et sémantiques du web.Voir le billet de Francis Pisani

Net – Web - Graph

GRAPH = Relations sociales

WEB = plateforme de contenus

NET = infrastructure

Seuil « technologique »

Seuil d’interaction / de production

Seuil de rétroaction / perméabilité

1/ Introduction : repères, tendances... : et demain ? Et 1… et 2… et 3… et 4. 0 ?

Source : Livre Blanc Aproged)

1/ Introduction : tendances...La re-documentarisation Définition :

"Redocumentariser, c’est documentariser à nouveau un document ou une collection en permettant à un bénéficiaire de réarticuler les contenus sémiotiques selon son interprétation et ses usages à la fois selon la dimension interne (…) ou externe (…). Dans ce contexte, la numérisation offre des opportunités inédites pour la réappropriation des documents et des dossiers en vue de satisfaire les intérêts de nouveaux bénéficiaires.« . Manuel Zacklad & Travaux RTP-Doc:

Aujourd’hui, toute trace, inscription, support, flux ou échange numérique… :

devient ou « fait » document ; peut être « re-documenté », cad annoté, enrichi, modifié…

D’après Jean-Michel Salaün « Éclairages sur la redocumentarisation » : http://blogues.ebsi.umontreal.ca/jms/index.php

/2007/05/05/252-eclairages-sur-la-redocumentarisation

REDOCUMENTARISATIONREDOCUMENTARISATION

1/ Introduction : tendances...La re-documentarisation généralisée Re-documentarisation :

Des documents, des images Des lieux Des identités Du monde physique :

Cf le projet Point&Find de Nokia, commenté sur InternetActu : « Où que vous soyez, si vous souhaitez une information sur un objet

ou un lieu (une affiche, un livre, une statue, un restaurant…), il vous suffit de le prendre en photo et de l’envoyer sur les serveurs de cette application. Grâce à des algorithmes d’intelligence artificielle, au géopositionnement et à des logiciels d’analyse d’image, Point&Find est capable d’identifier l’objet que vous lui avez envoyé, de chercher de l’information sur celui-ci pour vous la renvoyer sur votre mobile. »

Mutations profondes de la re-documentarisation : « L’homme est un document comme les autres » (O.Ertzscheid) Traçabilité généralisée Editorialisation des ressources

1/ Introduction : tendances...La nouvelle économie de l’attention Enjeu majeur sur le web : comment capter et

garder l’attention des usagers ? La variante internet du « temps de cerveau

disponible » : « Les internautes vous paient avec le temps qu'ils

passent sur vos contenus, ils vous paient avec leur attention. C'est cette attention, que les annonceurs veulent » . David Eun, responsable des partenariats de contenus chez Google à New York (janv 08)

Confusion des pratiques informationnelles(d’après O. Ertzscheid)

chercher communiquer Tagger / indexerorganisers’orienter partager

google

printorkut

API’s

1.Tendances… : la logique de serendipité Notion de « serendipity » : art de trouver des informations pertinentes sans les chercher Sur le web, recherche = navigation au hasard, trouvailles

par intuition

Stratégie de certains outils de recherche : comment favoriser techniquement cette modalité intuitive de recherche ?

Exemple de la catégorisation sur Exalead

Stratégie de certaines entreprises de presse : cf le New York Times

Permettre l’accès gratuit à l’intégralité du contenu sur Google

2. Economie de l’attention Les enjeux économiques du web actuel

Contexte Abondance de l’offre d’information, augmentation des flux

d’information Accès à l’information de plus en plus large Explosion des nouveaux types d’information en ligne

Evolution des usages Contraction de la durée d’usage des informations Excès de choix « Crise de l’attention »

Loi énoncée par Herbert Simon : « L’abondance d’information engendre une pénurie d’attention

et la nécessité d’allouer cette attention de manière efficiente parmi la surabondance d’informations qui peuvent la consommer »

2. Economie de l’attention : la longue traîne 2 types principaux d’analyse :

La longue traîne (Long Tail, Anderson) Industrie des biens culturels

« Les produits qui sont l’objet d’une faible demande, ou qui n’ont qu’un faible volume de vente, peuvent collectivement représenter une part de marché égale ou supérieure à celle des best-sellers, si les canaux de distribution peuvent proposer assez de choix. » (sur Wikipedia)

2. Economie de l’attention : la longue traîne• 20% des produits représentent plus 80% du C.A. • Amazon réalise plus de la moitié de son C.A. sur

des produits qui sont au fond de son catalogue.

– Effets à court terme de la longue traîne : – Augmentation de la diversité des produits et des ventes– Baisse de la concentration des “produits stars”

– Mais effets à long terme à nuancer : – Théorie contredite par les faits dans certains secteurs– Problèmes de “l’économie de l’attention” : surcharge

informationnelle >> renforcement de la concentration des ventes

– Rôle-clé de la méta-information pour guider les choix (personnalisée, collaborative dans le cadre de communautés en ligne)

2. Economie de l’attention : définition L’économie de l’attention

« L’expression “économie de l’attention” cherche à rendre compte du fonctionnement de marchés dans lesquels l’offre est abondante (et donc économiquement dévalorisée) et la ressource rare devient le temps et l’attention des consommateurs ». (Daniel Kaplan, Internet Actu avril 2007)

Marché où les consommateurs acceptent de recevoir des services en échange de leur attention actualités personnalisées, recherche personnalisée, alertes,

recommandations d’achat.

Procédures de captation de l’attention, fondée sur la notion de contenu pertinent

Système qui repose essentiellement sur la gratuité des services Abonnés, profils…

2. Economie de l’attention : enjeu Un enjeu pour les nouveaux sites, les blogs, les moteurs

de recherche … Retour à l’économie de l’accès Comment montrer le contenu pertinent et y faire accéder Connaissance … et traçabilité de l’usager :

Histoire de sa navigation Ses goûts Ses réseaux …

Selon 4 principes : Propriété, mobilité, économie, transparence

Capture, stockage, enregistrement de l’attention

2. Economie de l’attention : fonctionnement

Cf. A. Iskoldhttp://www.readwriteweb.com/archives/attention_economy_overview.php

2. Economie de l’attention : fonctionnement

Cf. A. Iskoldhttp://www.readwriteweb.com/archives/attention_economy_overview.php

2. Economie de l’attention Le marché de la recommandation (source : O.Ertzscheid)

Inscription dans les logiques de la Longue Traîne et de l’Economie de l’Attention

Origines : dispositif des annuaires, système PageRank dans web 1.O ; recommandations sur Amazon

Au cœur du web 2.0 Sites de vente Sites de partage Sites communautaires

= Mode de propagation « viral » À la base : Crowdsourcing De la médiation par l’expertise à la médiation par l’usage et à la

médiation par le nombre Problèmes:

Expertise ? Effet saint-matthieu Diversité non visible

2. Economie de l’attention : marché publicitaire L’économie de l’attention vit de la publicité

Moteurs comme « marchés multi-faces » utilisateurs / éditeurs d’information sur le web (Xavier Wauthy)

Gratuité et financement par la vente de l’accès à l’audience = annonceurs / publicité

Modèles analogues pour les plateformes Web 2.0 Ciblage, profilage de l’usager par l’information que

celui-ci donne gratuitement Modèle publicitaire fondé sur les bases utilisateurs

2. Economie de l’attention : marché publicitaire Deux grands modèles économiques du web :

Publicité en ligne : Bannières, liens sponsorisés Valorisation de l’audience des sites, mise en

visibilité des contenus, récolte de revenus publicitaires auprès des annonceurs Google, Yahoo, MSN, AOL

44,6 Mrds $ de dépenses publicitaires en 2008 Cybermarché :

Commerce en ligne Domination d’Amazon et eBay 204 Mrds $ de CA en 2008

2. Economie de l’attention : marché publicitaire Marché publicitaire :

Dominé par Google : entre 30 et 40 % des dépenses publicitaires en ligne Liens sponsorisés

Yahoo, AOL et MSN : modèle des bannières publicitaires Yahoo : 14 % du marché Microsoft : 6 %

Concurrence acharnée de Yahoo et Microsoft pour la conquête de ce marché publicitaire : Course à l’audience Nouveaux concurrents : Facebook, MySpace

2. Economie de l’attention : positionnement Un phénomène majeur : Le positionnement

publicitaire

Vers un modèle économique basé sur une composante publicitaire et / ou promotionnelle

Affichage de « Liens sponsorisés » Apparu en 2001 en France Au départ : achat de mots clés aux enchères sur les réseaux

Overture, Espotting ou Adwords de Google avec paiement du trafic = nombre de clics générés

Source de revenus primordiale pour les outils de recherche Promotion vitale pour nombre de sites

2. Economie de l’attention : positionnement

Définition du positionnement Position occupée par un site ou une page web dans la page de

résultats d’un outil de recherche

Positionnement naturel : lié au fonctionnement de l’outil de recherche

Positionnement payant : Offre commerciale permettant de garantir la visibilité en tête

des résultats de recherche = système du Search Engine Marketing

Le positionnement payant : fonctionnement, rappels

La campagne promotionnelle Des “sites annonceurs” achètent, aux enchères, des requêtes / mots clés sur lesquels ils souhaitent être positionnés.

Les liens sponsorisés (“Liens Search”)Le moteur affiche des liens publicitaires ou “liens sponsorisés” ou “promotionnels” vers les sites d’annonceurs.

Où ?En haut de la liste de résultats / sur un des côtés (souvent à droite) / en bas de page des résultats (plus rare)

Le classementIls sont classés selon les enchères faites par les propriétaires du site sur le mot clé en question = montant initial + taux de clic

Le système d’enchères par CPC (coût par clic) : paiement au clic, a remplacé le CPM

(coût pour mille affichages) Pay per Lead (lancé par Accoona en juillet 2006) : paiement de

l’annonceur sur la base d’une action de l’internaute (contacts commerciaux) et non plus sur la seule comptabilisation des clics

Pay-Per-Action de Google

Les “liens contextuels” Ce sont des liens publicitaires qui, diffusés sur des sites

“affiliés”, partenaires du prestataire de positionnement payant, s’affichent en fonction du contenu éditorial du site et de ses catégories

environ 30% des liens sponsorisés, mais pratique en hausse

2. Economie de l’attention : positionnement Marché des liens sponsorisés : en plein essor

= environ 50 % du marché publicitaire en ligne (Forrester Research)

Europe : les liens sponsorisés génèreraient d’ici 2012 un chiffre d’affaires de 8 milliards d’euros, contre environ 4 milliards aujourd’hui.

Croissance de + 80% prévue sur les 5 années à venir !

Diversification des techniques et dispositifs de positionnement payant Ex : Liens contextuels et flux RSS (google, splush) Intégration dans la recherche d’images

3 Les acteurs de la recherche d’information sur le marché publicitaire

Grands acteurs en matière de positionnement payant Google Adwords / AdSense Yahoo! Search Marketing MSN (Microsoft AdCenter) Et aussi …. AOL, Mirago, Espotting / Miva, Deepindex, AD42,

Comclick, ClickInText …

Concurrence entre les outils : Coût de l’enchère minimale Classement des liens sponsorisés en fonction de leur enchère,

mais aussi suivant “leur qualité” Contrôle du domaine publicitaire

Le cas de Google : AdWords / AdSense

(99% du CA) : Adwords

Emplacements publicitaires dans les pages de résultats de Google (à droite), avec des liens vers les sites annonceurs, en fonction des mots clés saisis par l’internaute et achetés par l’annonceur.

Système d’enchères pour départager les annonceurs ayant acheté le même mot clé

Propose un générateur de mots clés (cf. Aussi chez Miva et Yahoo)

Adsense Liens publicitaires sur des sites affiliés à Google et choisis

automatiquement en fonction du contenu et du contexte de la page Extensions récentes : Adsense for Feeds, Adsense for Games

Le problème de la fraude au clic : « les serial cliqueurs » (O. Andrieu / Abondance) / « Junk clic »

Clics des affiliés sur leurs propres publicités Clics en masse sur les liens d’entreprises concurrentes,

pour plomber leur budget promotionnel Coût de la fraude au clic : 800 millions de dollars en 2005

(Etude de la société Outsell, Inc.) Taux de 16,3% pour le premier trimestre 2008 (baisse par

rapport à fin 2007) Les 3 grands moteurs allés à l’IAB (Interaction Advertising

Bureau) pour lutter contre cette fraude (filtres)

Le poids du Spamdexing Liens sponsorisés en dur proposés par certaines régies à certains

sites à fort volume : Ex : annuaires ne contenant que des liens sponsorisés dont le texte et

les liens sont en dur, donc indexés par les moteurs = pur spam

Netlinking : Social Media Optimization (SMO) contre spamdexing

Utilisation de Adsense et référencement artificiel fausses pages et redirection liens massifs sur des commentaires de blogs ou de forums

« En moyenne 11% des pages s'affichant dans les moteurs de recherches sont du spam. » http://www.journaldunet.com/solutions/0703/070322-spam-web-moteurs.shtml+

2. Economie de l’attention : positionnement Problèmes et enjeux / usagers

De plus en plus d’usagers arrivent sur des sites via les liens sponsorisés

De plus en plus d’entreprises investissent dans des campagnes de liens sponsorisés

Question : savoir distinguer un lien sponsorisé d’un lien naturel Question par rapport à la recherche, l’accès à l’information, son

usage Atteinte à la notion de pertinence Biais par rapport au déroulement normal d’une procédure de recherche

d’information Risques des liens sponsorisés : 8,5% des liens sponsorisés

conduiraient vers des sites représentant un risque pour l’internaute (étude McAfee Site Advisor, Mai 2006)

Influence positionnement payant / positionnement naturel ? Cf. Google (voir Blog Abondance)

2. Economie de l’attention : état des forces des moteurs de recherche : en France

(Xiti)

2. Economie de l’attention : état des forces des moteurs de recherche : dans le monde Domination de Google en général, mais inégale :

63, 5 % aux USA en décembre 2008 mais nombreuses disparités selon les pays, d’autres

moteurs émergent :En 2007 : Estonie : Neti : 56,8 % - Google : 41 % (mars 07) Russie : Yandex : 47,6 % - Google : 25,6 % (juillet 07)

Rép. tchèque : Seznam : 62 % - Google : 24,7 % (décembre 07)

Chine : Baidu : 57,6 % - Google : 21 % (juillet 2007)

Corée du Sud : Naver : 77 % - Google : 1,7 % ! (juillet 07)

Voir Search Engine Feng Shui

2. Economie de l’attention : la « guerre des moteurs » La rivalité Google-Yahoo :

Cultures communes, mêmes origines, liens personnels, partenariat des débuts…

Rivalité directe sur le marché publicitaire : principale origine des ressources des deux sociétés Google : 95 % Yahoo : 85 %

Recul de Yahoo depuis plusieurs années : Bénéfice en baisse : -1,8 % entre 2006 et 2007 Baisse de l’audience, des parts de marché

Mais nombreux atouts de Yahoo : Notoriété, popularité des services (messagerie), audience très

forte Présence dans le web participatif : Flickr, Del.icio.us…

2. Economie de l’attention : la « guerre des moteurs »

La guerre Google/Microsoft : Cultures d’entreprise très différentes Créneaux différents : industrie du logiciel / recherche

d’information Retard historique de Microsoft // Internet : ratrapage depuis

10 ans... Succès du navigateur Internet Explorer (contre Netscape) Succès de la messagerie instantanée MSN Echec du moteur de recherche Live Search : <10 % aux EU

Stratégie de conquête du marché publicitaire Menace de Google sur Microsoft : édition de logiciels

gratuits Tentative de rachat de Yahoo pour contrer Google Arrêt du programme de numérisation des livres de Microsoft

2. L’économie de l’attention : la « guerre des moteurs » et les règles de la concurrence Importance du rôle de l’UE et de la Cour de Justice Européenne :

Enjeu : question de la concurrence et des positions de monopole Cf exemple de condamnation de Microsoft

Notion de « position dominante » sur un marché : > 50 % de parts de marché Recherche d’information considérée comme un marché pertinent,

accessible sur tout le territoire de l’UE Google considéré comme en position dominante sur l’UE

Loi européenne n’interdit pas la position dominante, mais « l’abus » de position dominante : Cas d’une fusion Google/Yahoo, mais non de fusion Microsoft/Yahoo

2. L’économie de l’attention : la « guerre des moteurs » : les alternatives à GYM Positionnement spécifique d’Exalead dans le

paysage des moteurs de recherche Un moteur innovant :

Modules spécialisés Intégration des tags dans la recherche Recherche collaborative avec Baagz Indexation de la piste audio des journaux télévisés Interface pour mobiles …

Participation à plusieurs projets européens Chorus, Quaero, Alis …

Une nouvelle génération de moteurs de recherche multimédia (européens) Theseus, Pharos…

2. Economie de l’attention : quelles conséquences pour la formation des usagers ? Une thématique à développer dans les formations :

Dans les objectifs de la culture informationnelle : Priorité à la distance critique face au marketing ?

Dans les contenus : Nombreux savoirs théoriques, notions, concepts,

terminologie… de l’économie de l’information Positionnement payant, liens sponsorisés, profilage, longue traîne,

données personnelles…

Dans les compétences à développer : Savoir distinguer liens sponsorisés et liens naturels Comprendre le fonctionnement du positionnement payant Mieux contrôler l’utilisation de ses données personnelles ...

2. Economie de l’attention : quelles conséquences pour la formation des usagers ? Développer la dimension économique dans

la réflexion sur la culture informationnelle : Nécessité de toujours situer la culture

informationnelle dans les nouveaux contextes socio-économiques de la recherche d’information

Relier la culture informationnelle à la réflexion plus générale sur la crise de l’attention et ses effets : Voir travaux de B. Stiegler et Ars Industrialis sur

ces questions

3/ Evolutions dans l’indexation Rappel des finalités de l’indexation :

Recherche de documents Accès au contenu des ressources Analyse, filtrage automatique, cartographie de

l’information Aujourd’hui, nouvelle finalité de + en +

importante : éditorialisation, « re-documentarisation » des contenus et des ressources Exemple des archives de l’INA, de la banque

OuestImages

3/Evolutions dans l’indexation : retour sur la re-documentarisation Quelles conséquences pour l’indexation ? De la recherche à la composition éditoriale (“éditorialisation”)• La principale motivation applicative de l’indexation est la recherche

d’information: – Trouver le document ou contenu qui exprime l’information

recherchée.• La principale motivation applicative des métadonnées est la sélection de

ressources pour créer de nouvelles informations:

– Ce n’est pas la ressource en tant que telle qui aura une valeur, mais le contexte dans lequel elle sera intégrée (phénomène dit de redocumentarisation)

• La documentation rendait compte de l’origine dans les termes de l’usage, elle tend désormais à reconfigurer l’origine pour l’usage

(d’après M. Amar)

3/ Evolutions dans l’indexation Imbrication des différentes modalités

d’indexation sur le web : Indexation documentaire : thésaurus,

description des ressources (annuaires) Indexation automatisée : le TAL (Traitement

Automatique des Langues) Indexation sociale : tags du web 2.0,

recommandations Indexation sémantique : les métadonnées et les

ontologies

3/ Evolutions dans l’indexation :

les 4 écoles d’indexation Web (source :

Ertzscheid, Gallézot)

Full-text => Balises Méta =>

Métadonnées

WebSémantique

Folksonomies : indexation sociale

communautaire

Standardisation => Dublin Core => OAI-PMH

Ontologies (Ingénierie des connaissances)

Standardisation

Linguistiquede corpus

3.1 Evolutions dans l’indexation : L’indexation automatisée « full-text » Deux grandes méthodes d'analyse dans

l'indexation automatisée : analyse statistique : fondée sur la fréquence des mots analyse linguistique : fondée sur la reconnaissance des

4 niveaux d'analyse du texte intégral : niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme canonique >

lemmatisation niveau syntaxique : utilisation de la grammaire niveau sémantique : reconnaissance des concepts

3.1 L’indexation automatisée : les moteurs de recherche sémantique Emergence de nouvelles catégories de moteurs :

Hakia : Lancé en 2006 moteur de requêtes en langage naturel mélange d'analyse sémantique, d'ontologie, de logique floue

et d'intelligence artificielle Powerset :

Mai 2008 ; racheté par Microsoft en juillet 08 Recherche sémantique sur Wikipedia Analyse des phrases contenant les mots d’une requête Propositions de nombreux mots-clés

3.2 Evolutions dans l’indexation : L’indexation sociale : tags et folksonomies

« Folksonomies désignent un processus de classification collaborative par des mots-clés librement choisis Ou le résultat de cette classification. » (Wikipédia)

3.2 Evolutions dans l’indexation : L’indexation sociale : tags et folksonomies Le principe de la folksonomie :

Forme de « classification collaborative décentralisée spontanée », s’appuyant sur les termes choisis par les utilisateurs

Objectif : faciliter l’indexation des contenus et la recherche d’information

Tags peuvent s’appliquer à des signets web, à des photos, à des projets, des vidéos, ou encore des billets de blogs (nuages de tags)

Constitution d’une communauté de « spécialistes » parmi les internautes

3.2 Evolutions dans l’indexation : L’indexation sociale : tags et folksonomies Exemples d’imbrication des indexations

contrôlées (documentaires) et libres (sociales) : LibraryThing et WorldCat : complémentarité entre

catalogue et tags University of Huddersfield Library : recherche par

tags dans le catalogue

Intermède : quelle différence entre web 2.0 et web 3.0 ?

3.3 Le web sémantique Constat des insuffisances du « web 1 » :

absence de description et d’indexation des ressources hétérogénéité des formats… pas de structure explicite du web : pas d’exploitation de la

signification des liens entre les documents Objectifs de nombreux travaux, depuis 10 ans :

meilleure structuration du web, exploitation sémantique de la nature du web (« Semantic Web »)...

Acteur principal : W3C Diversité des expressions : « web sémantique », « web

3.0 », « web intelligent »… Vision de T. Berners-Lee d’un « web des données » Voir traduction de l’article fondateur

3.3 Le web sémantique

L'information et les services sur le Web sont aujourd'hui peu exploitables par des machines … Et de moins en moins exploitables sans l'aide des machines …

Le web de demain : un vaste espace d'échanges de ressources entre

machines permettant l'exploitation de grands volumes d'informations et de services variés, aidant les utilisateurs en les libérant d'une (bonne) partie de leur travail de recherche, et de combinaison de ces ressources

3.3 Le web sémantique : principes « LE WEB SEMANTIQUE PERMETTRA AUX MACHINES DE

COMPRENDRE LES DOCUMENTS ET LES DONNEES SEMANTIQUES , mais PAS la parole ET LES ECRITS HUMAINS. Le sens est donné par RDF, qui le code dans des ensembles de triples, chaque triple jouant le rôle du sujet, du verbe et de l'objet dans une phrase élémentaire. On peut écrire ces triples en utilisant

les balises XML. » (T. Berners-Lee) Projet du web sémantique : « sémantiser »

les ressources web, par un langage de balises sémantiques ; Contrairement aux balises HTML, qui ne

contiennent aucune signification

cours n°1 © Muriel Amar, URFIST Paris 61

Composante XML (Nathalie Aussennac-Gilles, Irit de Toulouse)

<H1>Knowledge Management</H1><UL>

<LI>Teacher: Rudi Studer<LI>Students: Master

<H1>Knowledge Management</H1><UL>

<LI>Teacher: Rudi Studer<LI>Students: Master

HTML: les balises servent uniquement à la mise en forme des données

<course><title>Knowledge Management</title><teacher>Rudi Studer</teacher><students>Master</students>

</course>

<course><title>Knowledge Management</title><teacher>Rudi Studer</teacher><students>Master</students>

</course>

XML: les balises qualifient les données ; elles sont définies par les utilisateurs en fonction des domaines et des besoins

3.3 Le web sémantique : principes et outils

Au moins quatre directions de recherche, quatre premières couches :

Identification des ressources numériques : les URI (Uniform Resource Identifier)

Structuration des documents numériques : XML (eXtensible Markup Language)

Description des ressources : les métadonnées, RDF (Resource Description Framework)

Indexation des ressources : les ontologies Principe fondamental du web sémantique:

séparation du contenu des documents de l’organisation de ce contenu

3.3 Les couches du « Semantic Cake »

3.3 Le web sémantique : RDF (Resource Document Framework) Langage de description des ressources, et cadre conceptuel

pour les métadonnées 1ère version en 1999, finalisé en 2004 par le W3C

RDF fondé sur notion de triplet : Une métadonnée = un couple : propriété + valeur Description d’une ressource = un triplet : ressource +

propriété + valeur Sujet, prédicat, objet

Sujet : ressource à décrire Prédicat : une propriété applicable à cette ressource Objet : valeur de cette propriété

3.3 Les métadonnées : les triplets RDF Notion de triplet :

Association d’une propriété à une ressource, ainsi que la valeur de cette propriété

Exemple : Notre Dame de Paris est un roman dont l’auteur est Victor

Hugo Deux éléments de description possibles :

Notre Dame de Paris est un roman Notre Dame de Paris a pour auteur Victor Hugo

Deux triplets : Notre Dame de Paris, type, roman Notre Dame de Paris, auteur, Victor Hugo

3.3 Les métadonnées : les triplets RDF Comment faire comprendre aux machines la requête : quel

est l’auteur du roman « Notre Dame de Paris » ? Eviter le bruit de l’analyse morphologique Etablir des règles comprises par le système d’information :

Source : Interstice

3.3 Les métadonnées : les triplets RDF Exemple de recherche sur Victor

Hugo :

Source : Interstice

3.3 Le web sémantique : les ontologies Condition du web sémantique : des

ressources décrites et indexées langages de description, thésaurus,

classifications, ontologies… Enjeu : avoir des outils communs,

normalisés, pour permettre une indexation automatisée et sémantique des ressources

Analogie avec les thésaurus

3.3 Le web sémantique : les ontologies A l'origine, terme philosophique (science de l'être). En informatique : ontologie = une représentation des

connaissances et la définition de catégories. Une ontologie structure les termes d'un domaine, en

établissant des relations de proximité entre eux, du type "partie de".

Une ontologie : une vue commune, partagée par une communauté, sur un domaine de connaissance

Principes : Définition de concepts, de relations et des règles

contraignant ces relations

3.3 Le web sémantique : quelle réalité ? « Invisibilité » du web sémantique, mais explosion des triplets

RDF : 10 Mrds de triplets en ligne ! (selon F. Gandon) Nombreux projets de recherche en cours Les solutions Mondeca

Catalogue d’offres touristiques : Agrégation de sources diverses Utilisation de la géolocalisation Aspects sémantiques à partir de relations entre des classes d’objets

Catalogue Cismef du CHU Rouen : Intégration de métadonnées Dublin Core Terminologie du Mesh Utilisation du langage de formalisation OWL

Projet Scriptures, ENST Bretagne : Indexation sémantique des médias

3.4 Indexation : quelles conséquences pour la formation des usagers ? Sensibiliser les étudiants à l’importance de

l’indexation : Dans la recherche sur les moteurs Dans les plates-formes web 2.0

Montrer : l’ancienneté de l’indexation la diversité des modes d’indexation et d’accès aux

contenus les enjeux pour la recherche d’information

Expliquer les notions essentielles : indexation, classification, traitement linguistique,,

métadonnée, indexation automatisée, full-text, indexation sociale, tag, folksonomie, ontologie…

4. La personnalisation de la recherche

Evolution des moteurs vers des services personnalisés pour fidéliser les internautes

Une tendance lourde de la RI, va en s’amplifiant Remonte au moins à 2000 Innombrables aspects :

De l’historique des recherches au moteur personnalisable Innovations permanentes

Possibilité de personnalisation par : le moteur de recherche un Plug in, ex : SurfCanyon, plug in firefox et IE par l’internaute

4. La personnalisation de la recherche 9 Modèles de personnalisation par le moteur

(Jeff Quipp) Personnalisation basée

sur la localisation Sur l’interface Sur l’historique des requêtes Sur le mode entrée / sortie Sur le temps Sur le comportement individuel de l’utilisateur Sur le comportement de groupe Sur la recherche sociale / graphe social de l’utilisateur Personnages virtuels / sur les Assistants

4. La personnalisation de la recherche Les différentes facettes de la

personnalisation par l’internaute :

Personnalisation des requêtes Personnalisation des résultats Personnalisation des interfaces Personnalisation des outils La création de communautés

4.1 La personnalisation de la requête Les bases de la personnalisation de la

requête :

L’historique des requêtes La définition d’un profil et d’une alerte La géolocalisation Le choix des sources d’information

4.2 La personnalisation des résultats

Personnalisation des résultats de recherche :

Possibilité laissée à l’internaute d’influer sur le classement des résultats de recherche

L’exemple du moteur communautaire Wikia Search

créé en janvier 2008 par Jimmy Wales sur le modèle de Wikipédia

selon 4 principes : Transparence Communauté Qualité Protection de la vie privée

Appel de Jimmy Wales (2006)

« créer un nouveau type de moteur de recherche, qui s'appuie sur l'intelligence humaine pour faire ce que les algorithmes sont incapables de faire ».

(voir : http://search.wikia.com/wiki/Search_Wikia/fr)

Contribution de l’internaute aux tâches de signalement et d’indexation propres au moteur

Personnalisation des résultats sur Wikia Search

Juin 2008 : Tous les internautes peuvent mettre en valeur, commenter,

promouvoir, modifier, supprimer ou ajouter (par un lien) un résultat.

Retours d’usage Utilisation conséquente des procédures de

personnalisation des résultats Peu d’utilisation des actions communautaires (annotations,

commentaires)

4.2 La personnalisation des résultats L’exemple de Google SearchWiki

Lancement le 20 novembre 2008 d’un système de personnalisation des résultats de requêtes

Sur Google.com

Nécessité d’avoir un compte Google

Selon le blog de Google : « reclassement, suppression, ajout, commentaire des résultats »

Source : Lettre Recherche et référencement (12/08)

La personnalisation des résultats sur SearchWiki permet de : Modifier l’ordre des résultats de recherche, promouvoir

certains sites en haut de la page

Ajouter un nouveau site aux résultats en proposant une URL

Supprimer des résultats un site jugé non pertinent

Ajouter des commentaires par la rédaction de notes liées à un résultat en particulier

+ Favoris : « Preferred sites »

4.2 La personnalisation des résultats Orientation de

Google vers les communautés

Partage des notes attachées à chaque résultat avec la communauté des utilisateurs du moteur

Lien « See all notes for this SearchWiki »

4.2 La personnalisation des résultats Les questions posées par la

personnalisation des résultats : Impact sur le référencement, sur le classement

des résultats de recherche Variabilité de la liste de résultats selon les internautes Mort ou moindre importance du Ranking ?

Impact sur le système des liens sponsorisés Nettoyage des pages de résultats et déclassement des

sites par les internautes

4.2 La personnalisation des résultats Les questions posées par la personnalisation

des résultats (suite) :

Dérives et abus dans les pratiques des internautes

Notes de certains résultats de recherche spammées

Espace laissé aux groupes de pression / vote et classement des résultats de recherche

4.3 La personnalisation des interfaces Notion « d’utilisabilité » des interfaces des

moteurs de recherche

Accessibilité des réponses En lien avec l’organisation visuelle de la page de

résultats

Interface comme « plan de travail » « Microsoft Surface », l’avenir ?

4.3 La personnalisation des interfaces Interactivité et dynamisme

Paramétrages classiques des moteurs (langue de l’interface, affichage des résultats)

Zones mobiles sur la page Organisation personnalisée de la page :

Ajax Widgets Pages personnelles

Présentation visuelle : Possibilité de choisir le mode de visualisation des résultats

(vignettes, raccourcis, captures d’écrans, cartes…)

4.3 La personnalisation des interfaces

Les « pages perso » : Fourniture gratuite de pages personnalisées pour

la gestion et la recherche d’information Choix personnel des sources : sites web, blogs,

fils RSS… Divers services : calendrier, agenda…

Exemple de Netvibes (disponible actuellement en version anglaise et française)

Portail personnalisé de Google : i-google

4.3 La personnalisation des interfaces Constitution d’espaces de travail complets et intégrés

Intégration recherche / navigation Page personnelle

Sources d’information favorites Interface de recherche Informations diverses

Plateformes de partage et échange de documents, de signets Outils / Hybridation

Modules de recherche ; recherche universelle : Yahoo Glue, Google Universal Search

Dispositifs de production d’information : blogs, wikis, Annotations / tags, recommandations, labellisation, concepts

…: Webzzle Outils de visualisation et d’analyse des données Outils bureautiques…

4.4 La personnalisation des outils

Paramétrages des moteurs Construction de moteurs personnalisables : des

moteurs “sur mesure” / recherche verticale Pour effectuer des recherches sur un ensemble donné de

sites web ou sur une thématique précise

Permet d’établir un système de veille par un compte gratuit Google Custom Search Engine (http://google.com/coop/cse/) Live Search macros

(http://search.live.com/macros/default.aspx?FORM=BJRE) Les Swickis d’Eurekster (http://www.eurekster.com/) Rollyo (http://rollyo.com/ )

4.4 La personnalisation des outils Les espaces personnels : l’exemple de Mon Web de

YahooLe principe : Création d’un compte personnel sur Yahoo Sauvegarde d’une page web jugée pertinente

Création d’un signet avec l’URL de la page et sauvegarde d’une copie de la page

Possibilité de marquer les pages enregistrées avec des annotations (tags) pour les catégoriser

Mutualisation de la recherche Partage des sites avec d’autres internautes Navigation parmi les pages annotées et partagées par les autres

utilisateurs de Mon Web Possibilité de lancer des requêtes sur leur contenu

4.5 La création de communautés Utilisation de la force du collectif, des

communautés Développement de services à la fois :

individuels : comptes personnels sur Yahoo (Mon Web, sauvegarde de signets…), sur Google, etc.

collectifs : partage de signets, « vote » sur des sites, services questions-réponses…

Les moteurs collaboratifs (Wikia Search, Yoople! ) L’accès aux documents partagés par la communauté des

internautes sur les plateformes de partage Mutualisation des connaissances dans des wikis

collaboratifs généralistes ou spécialisés

4.6 La personnalisation de la recherche : conséquences pour la formation Sensibiliser à la notion de pertinence dans le cadre d’une

personnalisation de la recherche

Montrer les enjeux liés : Pertinence des sources Veille facilitée Adéquation aux besoins

Sensibiliser aux risques découlant notamment de la personnalisation des résultats : Biais dans les résultats,variabilité en fonction de la personnalisation Limitation et manque de visibilité Abus liés aux procédures de recommandation sur les sites affichés en

résultats

5. La géolocalisation, les services de proximité Géolocalisation, services de cartographie et

recherche de proximité Une des formes et la base de la personnalisation (avec

l’historique) Définition de la géolocalisation

« identifier l’emplacement géographique de l’internaute, afin de lui fournir des informations locales le concernant spécifiquement » (NetSources)

les moteurs proposent des résultats localisés se basant sur son adresse IP.

La recherche de proximité sur les moteurs faire des recherches en incluant des informations locales pour une recherche : adresses, localisation sur une carte ou

une vue satellite, itinéraire + lien vers les sites.

5. La géolocalisation, les services de proximité Développement sur les

moteurs : Google, Yahoo, MSN, Ask,

AOL, A9 …

Interfaces Google Maps

(http://maps.google.fr/ ) / Google Earth (http://earth.google.fr/)

Yahoo! Maps

(http://fr.maps.yahoo.com/ )

Fonctionnement

Termes de la requête Catégorie éventuellement Association avec une

localité Visualisation des résultats

sur une carte, une image satellite

Liens sponsorisés selon les requêtes et l’origine géographique des internautes

5. La géolocalisation, les services de proximité

Vers une croissance de ces usages ? Fort développement

Engouement pour les applications cartographiques Développement des Mash up

Enjeux pour les moteurs : Marché des petites entreprises / Annonceurs Marché de la publicité de proximité Favorise l’appropriation des web services Développement d’outils adaptés à l’internaute Concurrence

Questions qui subsistent : diversité des catégories selon les outils fluctuations de ces catégories lacunes dans la corrélation entre certains termes et la catégorisation.

6. Présentations visuelles des moteurs Multiplication des formes visuelles pour la présentation des résultats : Résultats sous forme de carte :

Introduction déjà ancienne de présentation cartographique des résultats sur des moteurs ou métamoteurs, comme Kartoo

extension à des outils récents comme Grokker Résultats sous forme de cluster :

Concerne le traitement des résultats + leur présentation Ex : Clusty

Nouvelles expérimentations sur la présentation des résultats et la manière d’y naviguer (moteurs « 3D ») : Feuilletage / défilement des pages par captures d’écran : SearchMe,

Redzee, Tkaap-Galaxy, Spacetime (avec eBay et Google notamment) Affichage sous forme de cube aux facettes cliquables : Searchcube Moteur tripartite Tafiti (avec la technologie Silverlight de Microsoft)

7.1 La protection des données personnelles

Source : Googlinside

7.1 La protection des données personnelles : aspects techniques Quatre types de données

conservées par les moteurs de recherche : Fichiers “log” : logs de

requêtes (date, heure, mots-clés), clics, toutes les traces de l’utilisateur

Adresse IP Cookies Eventuellement comptes

utilisateurs Voir SeekPort :

http://blogs.seekport.fr/help/privacy.html

Sur Google Un cookie contenant :

Requêtes Date Résultats N° IP

« Les informations personnelles peuvent également être utilisées à des fins d’audit, de recherches et d’analyse, afin d’assurer le bon fonctionnement et la qualité des technologies et des services Google.

Nous sommes susceptibles de partager des informations non personnelles sous forme collective avec des tiers. »

http://www.google.fr/intl/fr/privacy.html

7.1 La protection des données personnelles

Problème sur Google : Regroupements de données des différents services :

Recherche, messagerie, blogs… Disque dur personnel hébergé

Mais Yahoo et MSN collectent plus de données personnelles : Comptes utilisateurs

Nom, sexe, date de naissance, poste occupé, code postal,

Les trois portails : Adresses e-mail, messages, contacts de messagerie

7.1 La protection des données personnelles : les enjeux Types de données

détenues par les grands portails : Les requêtes sur les

moteurs : Ce qui m’intéresse

Les blogs : Mes opinions

Les réseaux sociaux : Mes réseaux

La messagerie, les forums, le « chat » : Avec qui je communique

et sur quoi

Possibilité de créer de gigantesques base de données sur les goûts et habitudes des internautes

Même si actuellement, données relativement protégées, problème de l’avenir : Pouvoir considérable

accordé aux outils

Risques d’intrusion de pouvoirs totalitaires (cf Chine)

7.1 La protection des données personnelles : aspects juridiques Notion de « donnée à caractère personnel » :

Définition très large de réglementation française et européenne

« Toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens en vue de permettre son identification dont dispose ou auxquels peut avoir accès le responsable du traitement ou toute autre personne. »

Tout élément d’identification directe ou indirecte = donnée à caractère personnel : N° INSEE, adresse e-mail, identifiant quelconque…

7.1 La protection des données personnelles : aspects juridiques Obligations des responsables du traitement

des données de respecter les droits des individus sur leurs données personnelles : Consentement : autorisation préalable ou

consentement tacite Droit d’opposition : possibilité de refuser de

figurer dans un fichier Droit d’accès Droit de rectification

7.1 La protection des données personnelles : aspects juridiques Problème juridique : l’adresse IP est-elle

une « donnée à caractère personnel » ? Non, pour la Cour d’appel de Paris, avril 2007 Oui, pour la CNIL et le « Groupe de l’Article 29 » :

Comité consultatif indépendant (dont CNIL), relevant de la Commission Européenne

G29 : en référence à l’article 29 de directive européenne du 24 octobre 1995 sur la protection des données

Avis très important, rendu en avril 2008

7.2 La protection des données personnelles : controverse Google / Union Européenne Hiver 2007 : pression de l’UE sur Google Mars 2007 : Google accepte de ne conserver les

données issues des logs de requête que pendant 18 / 24 mois

Mai 2007 : réaction négative de l’Union Européenne Durée de 24 mois « ne semble pas respecter les

exigences » de la législation européenne Juin 2007 : Adresse IP considérée par l’UE comme

une donnée personnelle Eté 2007-Février 2008 : travaux du « G29 »

7.2 La protection des données personnelles : controverse Google / Union Européenne Principales dispositions de l’avis du « G29 » du 4

avril 2008 : Législation européenne sur les données personnelles

applicable à tous les moteurs de recherche opérant en Europe

Toutes les données collectées par les moteurs de recherche : données personnelles, y compris l’adresse IP

Possibilité d’exploiter ces données « pour une finalité légitime et non excessive »

Obligation d’effacer ces données au bout de 6 mois maximum

7.2 La protection des données personnelles : controverse Google / Union Européenne Conséquences pour les moteurs de recherche de

l’avis du G29 : Autorisation préalable des internautes pour le « profiling » :

Profiling : exploitation de plusieurs données sur un utilisateur pour proposer ou optimiser des services

Concrètement, pour l’envoi de liens sponsorisés à un utilisateur, obligation de mise en place d’un formulaire d’autorisation préalable

Effacement des données au bout de 6 mois Modification des Conditions Générales :

Explicitation des finalités, etc.

7.2 La protection des données personnelles : controverse Google / Union Européenne 1ers succès de l’UE : réponses positives

grands moteurs : Google réduit à 9 mois la durée de conservation

(sept. 08) Microsoft : 6 mois (déc. 08) Yahoo : 3 mois

Mais persistance des désaccords entre le G29 et les moteurs, notamment Google.

Audition prochaine (février 09) des acteurs par le G29

7.3 La protection des données personnelles : les réseaux sociaux Problématique différente sur les réseaux : affichage

volontaire des profils personnels par les internautes Nombreux problèmes :

Disparition de la frontière public/privé : Vers un voyeurisme/exhibitionnisme de masse

Traçabilité généralisée : Cf exemple récent de la vie d’un internaute reconstituée sur

Le Tigre Utilisation des profils par les réseaux sociaux :

Voir vente des profils sur Facebook en nov. 07

En conclusion : rappel de quelques questions vives de la RI Nouveaux risques :

Traçabilité et protection des données personnelles Réseaux sociaux et transparence généralisée

Nouvelles valeurs : Idéologie dominante de la « popularité » sur le web 2.0

Nouveaux usages : Risques « d’autarcie informationnelle », d’enfermement

communautaire Nouveaux enjeux :

Economie de l’attention et emprise du marketing Economie de la recommandation et problème de la

modélisation des comportements

En conclusion, former, se former, nous former…

RECHERCHE DINFORMATION SUR INTERNET : RECENTES EVOLUTIONS Stage URFIST de Rennes Janvier 2009...

Documents

ΑΡΧΑΙΟΛΟΓΙΚΟ ΜΟΥΣΕΙΟ ΣΕΡΡΩΝ SERRES ARCHAEOLOGICAL MUSEUM · 2019-11-08 · ΜΟΥΣΕΙΟ ΣΕΡΡΩΝ SERRES ARCHAEOLOGICAL MUSEUM ΣΕΡΡΕΣ / SERRES

formation URFIST Rennes 2009

Élise Chomienne echomienne@gmail.com URFIST

Approfondissement des moteurs de recherche : SORTIR DE GOOGLE... Stage URFIST de Rennes 10 mars 2009 Marie-Laure Malingre Alexandre Serres

FORMATION À ENDNOTE URFIST Rennes 26 juin 2009 Marie-Laure Malingre

© P. Duplessis, A. Serres, 20071 « Curriculum informationnel et didactique documentaire : enjeux, définition, contenus, questions… » Stage URFIST 6 juin

Introduction aux outils du Web 2.0 Stage URFIST Février-mars 2008 Marie-Laure Malingre, Alexandre Serres URFIST de Rennes

AUX ORIGINES DINTERNET : l émergence dARPANET Alexandre SERRES URFIST Bretagne-Pays de Loire. Mai 2003

Ressources Internet en Art / Histoire de lart URFIST de Bretagne et des Pays de la Loire 14 octobre 2011 Marie-Laure Malingre 1 Urfist Rennes

Nouvelles modalités, nouveaux outils pour la réalisation de supports de formation Marie-Laure Malingre URFIST de Rennes 4 juin 2013

Gérer ses signets en ligne avec Diigo et Delicious Marie-Laure Malingre, Alexandre Serres URFIST de Rennes 22 novembre 2012

Gestion des références bibliographiques avec EndNote Marie-Laure Malingre URFIST Bretagne / Pays de la Loire

© A. Serres URFIST, 20081 Quels savoirs info-documentaires pour quelle culture informationnelle ? Pour quels défis et dans quel contexte ? Journée académique

Urfist Web2 0

Formation des tuteurs documentaires SCD Rennes 2 Evaluation de linformation sur Internet Alexandre Serres URFIST Septembre 2010

Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

CURRENT STANDINGS SP125 SERRES SERRES MOTOPARK … · 2017. 10. 4. · serres serres motopark motopark pleven motopark motopark serres serres pleven serres serres 08.04 09.04 22.04

Curation urfist fevrier_mars_2013

30 avril 20091 Introduction aux outils de gestion de références bibliographiques Stage URFIST de Bordeaux 30 avril 2009 Marie-Laure Malingre - URFIST de

Urfist bordeaux-moteurs