M2-RT - F.-G. Carpentier - 20091 Référencement et recherche sur le web N.B. Plan du document et...

Preview:

Citation preview

M2-RT - F.-G. Carpentier - 2009 1

Référencement et recherche sur le web

N.B. Plan du document et exemples tirés de :

Garcia L. et al., La recherche d’information, Formation au C2i, http://www.c2imes.org/PDF/B2.pdf

http://www.c2imes.org/MODULES/B2/_lfrFR/index.html

M2-RT - F.-G. Carpentier - 2009 2

Quelques « adresses internet »

http://www.univ-brest.fr

http://bossa.univ-st-etienne.fr:8080

http://geai.univ-brest.fr/~carpenti/

http://geai.univ-brest.fr/recherche/index.html#publis

https://www.secure.bnpparibas.net/

ftp://ftp.nai.com

M2-RT - F.-G. Carpentier - 2009 3

Schéma général d’une URI

URI : Uniform Resource Identifier

URL : Uniform Resource Locator

Schéma général :

Scheme://nom:mot de passe@machine.domaine.suffixe:port/

chemin/fichier?parametre=valeur

M2-RT - F.-G. Carpentier - 2009 4

Scheme : protocole utilisé.

Exemples :

http : hypertext transfer protocol

https : http sécurisé

ftp : file transfert protocole

telnet : telnet

Liste non exhaustive. Essayer par exemple, dans Mozilla Firefox :

about:plugins

Syntaxe d’un URI - Partie 1

M2-RT - F.-G. Carpentier - 2009 5

www.univ-brest.fr

www : nom (ou alias) de la machine serveur

N.B. De nombreux sites Web ont un nom commençant par www. Mais ce n’est qu’une convention…

univ-brest.fr : domaine

.fr : suffixe du domaine

Exemples : .be, .uk, .eu, .net, .org, .com, .edu

Syntaxe d’un URI - Partie 2

M2-RT - F.-G. Carpentier - 2009 6

Syntaxe d’un URI - Partie 3

Ex: http://bossa.univ-st-etienne.fr:8080

Un serveur Web utilise en général le port 80. Autrement dit, on pourrait insérer :80 dans la plupart des URI.

Mais, en utilisant d’autres ports, on peut disposer de plusieurs serveurs sur une même machine.

M2-RT - F.-G. Carpentier - 2009 7

Syntaxe d’un URI - Partie 4

Chemin et fichier :Hiérarchie de répertoires et nom du fichier demandé

Cas particuliers et remarques :

geai.univ-brest.fr/~carpenti : site personnel de l’utilisateur carpenti L’extension du nom de fichier renseigne sur la technologie utilisée :geai.univ-brest.fr/secretariats.html : page htmlgeai.univ-brest.fr/~carpenti/statistiques/table1.php : page en php

M2-RT - F.-G. Carpentier - 2009 8

Moteurs et annuaires

• Annuairesbases de données gérées manuellement par des documentalistes

• Moteurs de recherchebases de données alimentées par des robots logiciels

• Méta-moteursinterrogent en parallèle différents moteurs et compilent les résultats

Objectif commun : permettre la recherche d’informations

M2-RT - F.-G. Carpentier - 2009 9

Annuaires

Ce sont des bases de données renseignées manuellement.

Les auteurs proposent leur site au référencement

Un documentaliste apprécie l’intérêt du site, rédige un descriptif, classe le site dans une catégorie...

• Avantages : bonne qualité générale des informations fournies

• Inconvénients : en général taille assez réduite

M2-RT - F.-G. Carpentier - 2009 10

Exemples d’annuaires

• Le guide Web sur Yahoo : fr.dir.yahoo.comaussi accessible à l’aide du lien « plus » « Guide Web » de fr.yahoo.com

• Open Directory Project : www.dmoz.org

Les “vrais” annuaires deviennent de plus en plus rares. On peut citer :

M2-RT - F.-G. Carpentier - 2009 11

Exemple: recherche sur Yahoo! (1)

La Recherche par Navigation

Appeler la page http://fr.dir.yahoo.comEn descendant dans l'arborescence, trouver dans la

rubrique impressionnisme :- la rubrique des peintres impressionnistes,- une liste de sites consacrés à l'impressionnisme.Sol.: Art et culture - histoire de l’art - Périodes et

mouvements - Impressionnisme

Il est clair que cette recherche par navigation conduit à des résultats généraux apportant des informations sur le contexte du thème cherché.

M2-RT - F.-G. Carpentier - 2009 12

Exemple: recherche sur Yahoo! (2)

La Recherche par mots-clésLes mots-clés sont entrés dans la boîte de recherche et la

recherche sera faite dans la rubrique concernée ( et non sur l'ensemble du Web ).

Recherche simpleEntrer dans la boîte de recherche le nom d'un peintre

impressionniste connu (par ex. Renoir).Observer les résultats.Recherche avancéeCliquer sur le lien : Recherche AvancéeLancer une recherche sur la requête : Renoir ou MonetObserver les résultats.

M2-RT - F.-G. Carpentier - 2009 13

Moteurs de recherche

• Un robot logiciel (spider, crawler) parcourt le Web à la recherche de nouvelles pages à indexer

• Le contenu des pages trouvées est indexé dans une base de données

• Avantages : nombreuses pages indexées

• Inconvénients : fonctionnement peu intelligent.

M2-RT - F.-G. Carpentier - 2009 14

Exemples de moteurs

AllTheWeb : www.alltheweb.com

Altavista : www.altavista.com, www.altavista.fr

Ask.com France : fr.ask.com

Excite : www.excite.com, www.excite.fr

Francité : www.francite.com

Google : www.google.com, www.google.fr

Hotbot : www.hotbot.lycos.com, www.hotbot.fr

Bing : www.bing.com

Yahoo! Search : fr.search.yahoo.com

Cuil : www.cuil.com

M2-RT - F.-G. Carpentier - 2009 15

Meta-moteurs

• Interrogent en parallèle plusieurs moteurs de recherche

• Suppriment (en principe) les doublons dans les réponses obtenues

• Renvoient à l’utilisateur une compilation des résultats

• Metacrawler : www.metacrawler.com

• Dogpile : www.dogpile.com

Exemples de meta-moteurs

M2-RT - F.-G. Carpentier - 2009 16

Nouveaux outils de recherche

• Renouveler le concept de moteur de recherche

• Traitement plus « conceptuel » des requêtes

• Wolfram Alpha : www.wolframalpha.com

Exemple

M2-RT - F.-G. Carpentier - 2009 17

Limites de la démarche

Moteurs de recherche et annuaires permettent-ils l’accès à l’ensemble du Web ?

Réponse : pas du tout. Certains auteurs estiment même que 90 % de l’information présente sur le Web leur échappe

Parmi les obstacles à l’indexation :- les images, les vidéos- les documents de formats autres que HTML- les bases de données et le Web dynamique

M2-RT - F.-G. Carpentier - 2009 18

Référencement d’un site

Position du problème : nous avons réalisé un site, qui est mis en ligne chez un hébergeur.

Avons-nous une chance de voir le site apparaître dans les réponses d’un moteur de recherche ?

Réponse : non, pratiquement aucune, si nous ne demandons pas le référencement du site

M2-RT - F.-G. Carpentier - 2009 19

Référencement sur un annuaire

Tous les moteurs et les annuaires proposent des formulairespermettant de demander l’inscription du site.

Pour les annuaires, les indications à fournir sont simples :- adresse (url) du site- résumé du contenu- « catégorie » souhaitée

Exemple : référencement sur Yahoo : afficher la page fr.dir.yahoo.com, puis cliquer sur « Aide » puis sur « Yahoo! Guide Web ».

M2-RT - F.-G. Carpentier - 2009 20

Référencement sur un moteur de recherche

En principe, il suffit d’indiquer la page d’accueil du site.Le spider explorera ensuite les différentes pages en suivant, de façon récursive, tous les liens rencontrés.

Le référencement « de base » est gratuit, mais il est aussi Possible de payer...

Exemple : référencement sur Google : cliquer sur « A propos de Google »

M2-RT - F.-G. Carpentier - 2009 21

Problèmes liés au référencement

Il ne suffit pas de demander le référencement….

Problèmes de délais : parfois plusieurs mois pour quenotre demande soit prise en compte

De même, pour les moteurs de recherche, délai important entre deux visites

Problèmes de cohérence entre les bases de données d’unmême moteur : Yahoo-France et Yahoo-US par exemple

M2-RT - F.-G. Carpentier - 2009 22

Rester référencé…

J’ai proposé mon site au référencement…

- suis-je sûr de le voir accepté ?

- restera-t-il référencé ?

- où apparaîtra-t-il dans les réponses des moteurs ?

M2-RT - F.-G. Carpentier - 2009 23

La stratégie Google

Google évalue la « popularité » d’un site d’aprèsle nombre de liens pointant vers ce site : page rank

Quelle prise en compte pour des sites délivrantune information très spécialisée ?

M2-RT - F.-G. Carpentier - 2009 24

Scoring

En principe, indexation en « texte intégral »

En fait :- exploration tronquant les pages trop longues- poids différents donnés aux différentes parties du document (titres, parties marquées par des balises <H1>, etc)- problème des images : renseigner correctement les attributs ALT=….

M2-RT - F.-G. Carpentier - 2009 25

Guider les robots indexeurs

Balises meta :

<META name=« keywords » content=« ….. »><META name=« description » content=« … »>

Normalisation Dublin Core

<META name=« DC.Creator » content….

M2-RT - F.-G. Carpentier - 2009 26

Piloter le robot indexeur

Le fichier robots.txt. Exemple :

User-agent: *Disallow: /manual

User-agent: susedigDisallow:

Les balises meta robots<META name=« robots » content=« index,follow »>

M2-RT - F.-G. Carpentier - 2009 27

Recherche d’informations

Utiliser les moteurs et les annuaires pour rechercherde l’information

- les outils ont des capacités variées, mais sont complémentaires- ne pas se limiter à un seul moteur- utiliser les possibilités de recherche « étendue »

M2-RT - F.-G. Carpentier - 2009 28

Syntaxe de recherche sur Google

- par défaut, un ET entre les différents termes spécifiés- non-prise en compte des mots « vides », sauf s’ils sont précédés de « + »- guillemets permettant de spécifier une expression- caractères accentués ignorés- ciblage de la recherche : opérateurs link: et site:- pas de jokers

M2-RT - F.-G. Carpentier - 2009 29

Syntaxe utilisée par Yahoo! Search

- Opérateurs booléens : AND (implicite), OR, NOT (ou -)- Pas de prise en compte des diacritiques, des majuscules- Singulier / pluriel, etc pris en compte- Expressions : guillemets- Indicateurs de « niveau de recherche » :

intitle:inurl:site:

M2-RT - F.-G. Carpentier - 2009 30

Exemple: recherche simple sur Google (1)

Rechercher des cours d'Internet ( enseignant l'Internet ) sur les pages Web écrites en français...La recherche simpleSoit le modèle de recherche suivant :

a/ Exprimer clairement l'objet de la recherche :je veux trouver des cours d'Internet

b/ Extraire les mots-clés correspondants :Internet ( ou Web ) cours ( ou guide ou tutoriel ) leçons ( ou exercices )

c/ Ecrire des requêtes possiblesinternet guide leçonsinternet tutoriel exercices etc...Attention à l'orthographe , bien que Google supporte les fautes d'orthographe !

M2-RT - F.-G. Carpentier - 2009 31

Exemple: recherche simple sur Google (2)

En appliquant ce modèle, effectuer avec Google les recherches suivantes:

- Rechercher des écrivains ou des poètes.

- Pour chacun des poètes ci-dessous, retrouver une page portant les informations suivantes :

- Arthur Rimbaud : son portrait ( ou sa caricature ), sa biographie.

- Guillaume Apollinaire : son portrait, sa biographie.

- Georges Brassens : son portrait, sa biographie.

M2-RT - F.-G. Carpentier - 2009 32

Exemple: recherche simple sur Google (3)

- Recherche sur des artistes ou des oeuvres d'art.

- Rechercher des pages significatives sur le peintre français Antoine Watteau, sa biographie.

- Rechercher directement l'oeuvre suivante : " Pèlerinage à l'île de Cythère "

- Retrouver des poèmes ou des chansons.

- Retrouver le poème ( auteur, titre, extrait ) portant le morceau de phrase suivant : " A la cime argentée, je reconnus la déesse "

- Retrouver le poème portant le bout de phrase : " Voie lactée ô soeur lumineuse "

M2-RT - F.-G. Carpentier - 2009 33

Exemple: recherche simple sur Google (4)

Recherche rapide de media, institutions, entreprises, etc...(Plutôt que d'essayer des URLs approximatives, on lancera une recherche simple sur le nom cherché : on obtiendra toujours la page cherchée dans les 2 ou 3 premiers résultats).

Trouver les pages d'accueil suivantes :

En France : l'Université de Toulouse Le Mirail, la mairie de Toulouse, la mairie de Paris, la mairie de Biarritz, le gouvernement, l'académie française, le constructeur Peugeot, le musée du Louvre etc...Le Monde, Le Figaro, Libération, Le Point, L'Express etc...

A l'étranger : le MIT, la CIA, le FBI, la NASA, la Maison Blanche, le musée du Prado de Madrid, le musée des Offices de Florence en Italie, le New York Times, die Welt, the Times, the Guardian, El Pais, Il Corriere della Sera etc...

M2-RT - F.-G. Carpentier - 2009 34

Exemple: recherche avancée sur Google (5)

Faire varier les champs de recherche :

Chercher :

- "cours internet" dans les pages,

- "cours internet" dans les titres,

- cours internet dans les titres. Comparer les résultats.

M2-RT - F.-G. Carpentier - 2009 35

La recherche d’images

Même principe que la recherche de documents textuels, mais problèmes liés à l’indexation.

Google utilise en général :

- soit le nom du fichier

- soit le contenu de la balise « alt » dans le code HTML de la page : <IMG SRC=« toto.jpg » ALT=« photo de toto »>

M2-RT - F.-G. Carpentier - 2009 36

La recherche d’images (2)

Exercice :

Cherchez les portraits d’un personnage connu en utilisant l’option « images » de Google

Affichez le site affichant l’un d’eux

Recherchez l’indice à partir duquel Google a pu référencer cette image. Pour cela, vous devrez sans doute afficher le code source de la page.

M2-RT - F.-G. Carpentier - 2009 37

Recherche comparée sur Yahoo! et Google

Recherche sur une donnée institutionnelle

Rechercher avec Yahoo! les informations sur les présidents de la république française ( on s'intéressera aux sites qui sont strictement dans l'annuaire ).

Rechercher avec Google ces mêmes informations ( on s'intéressera aux pages trouvées directement avec Google ).

M2-RT - F.-G. Carpentier - 2009 38

Recherche comparée sur Yahoo! et Google

Recherche d'une donnée historique

Rechercher avec Yahoo! des informations brèves sur 4 Châteaux de la Loire.

Rechercher avec Google ces mêmes informations.

Recherche d'une donnée de type culture populaire

Rechercher avec Yahoo! les chansons sur Paris, paroles, auteurs, compositeurs ( on s'intéressera aux pages qui sont sélectionnées directement par les requêtes ).

Rechercher avec Google ces mêmes informations.

M2-RT - F.-G. Carpentier - 2009 39

Recherche de publications scientifiques

Le SUDOC (Système Universitaire de documentation) est le catalogue collectif des universités françaises.

Adresse : http://corail.sudoc.abes.fr

Le catalogue de la BU de l’UBO :

Adresse : http://portail-scd.univ-brest.fr/

Google Scholar :

Adresse : http://scholar.google.com

M2-RT - F.-G. Carpentier - 2009 40

Exemple de recherche sur SUDOC (1)

Comparez le nombre de résultats retournés après les recherches :

- vie rurale

- "vie rurale "

Solution : les termes sans guillemets retournent plus de 6200 réponses (le système prendra les termes " vie " et " rurale " indépendamment), alors que l'expression entre guillemets en retourne 1700 (le système ne prenant que les deux termes réunis) .

M2-RT - F.-G. Carpentier - 2009 41

Exemple de recherche sur SUDOC (2)

Rechercher les ouvrages de la collection " Que sais-je " sur la vie rurale

Vous devriez obtenir 6 résultats

C'est dans l'écran de recherche avancée qu'on peut limiter la recherche à certains types de documents : thèses, titres de revues ; vous devez décocher tous les types de documents, en cliquant sur le lien " aucun ", et cocher la case du type de document sur lequel vous souhaitez faire votre recherche.

M2-RT - F.-G. Carpentier - 2009 42

Exemple de recherche sur SUDOC (3)

Vous recherchez un article de 1892 paru dans " The Sewanee Review". Où le trouverez-vous ?

Solution : à la BIU Centrale de la Sorbonne et dans les collections patrimoniales de la BNF. De nombreuses bibliothèques françaises possèdent cette revue, mais pas depuis l'origine.

M2-RT - F.-G. Carpentier - 2009 43

Exemple de recherche sur SUDOC (4)

M2-RT - F.-G. Carpentier - 2009 44

Bien utiliser son navigateur

• Enregistrer une page

Avec Mozilla Firefox : « Web Page - Complete » : avec les images, rassemblées dans un répertoire

• Imprimer une page

Page HTML simple : en général sans problème (sauf caractères blancs sur fond foncé)

Page comportant des cadres (frames) : de préférence, affichez le cadre désiré dans une fenêtre, puis imprimez-la

M2-RT - F.-G. Carpentier - 2009 45

Bien utiliser son navigateur (2)

• Imprimer une page (suite)

Page comportant des tableaux : le comportement dépend de la manière dont le code de la page a été écrit. Pensez au format « paysage » ...

Page d’un site « dynamique » utilisant Javascript, etc : l’auteur n’a-t-il pas prévu un bouton « imprimer » ou « version imprimable »

M2-RT - F.-G. Carpentier - 2009 46

Bien utiliser son navigateur (3)

• Récupérer une image, télécharger un fichier .doc, .pdf, etc

Cliquez avec le bouton droit de la souris sur l’image, ou le lien vers le fichier

Dans le menu contextuel qui apparaît, sélectionnez la commande « Enregistrer l’image sous... », « Enregistrez le lien sous... »

M2-RT - F.-G. Carpentier - 2009 47

Bien utiliser son navigateur (4)

• Utiliser plusieurs fenêtres, ou plusieurs onglets au cours de la navigation

Cliquez avec le bouton droit de la souris sur le lien vers la page cible.

Dans le menu contextuel qui apparaît, sélectionnez la commande « Ouvrir le lien dans une nouvelle fenêtre», « Ouvrir le lien dans un nouvel onglet »

Remarque : Certains liens sont configurés pour ouvrir la page cible dans une nouvelle fenêtre.

M2-RT - F.-G. Carpentier - 2009 48

Bien utiliser son navigateur (5)

• Conserver l’adresse des sites intéressants

Les navigateurs possèdent un menu « Ajouter aux signets », « Add to bookmarks », « Ajouter aux favoris »

Il existe également des menus permettant de gérer ces signets : renommer, supprimer, structurer de façon hiérarchique...

M2-RT - F.-G. Carpentier - 2009 49

Bibliographie

• Samier H., Sandoval V., la recherche intelligente sur l’Internet, Hermès

• Garcia L. et al., La recherche d’information, Formation au C2i, http://www.c2imes.org/PDF/B2.pdf

• Différents documents mis en ligne par l’URFIST de Bretagne et Pays de Loire : http://www.uhb.fr/urfist/supports.htm

Recommended