42
RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU LANGAGE Cours 3 : RI - Evaluation en RI Monday 18 th February, 2019 Laure Soulier

RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

RECHERCHE D’INFORMATION&TRAITEMENT AUTOMATIQUEDU LANGAGECours 3 : RI - Evaluation en RI

Monday 18th February, 2019

Laure Soulier

Page 2: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Enjeux de l’évaluation en RI

• Quel modèle de RI est le plus efficace ?

• Efficace ? Problème difficile, pas de mesure absolue– Critères de qualité d’un système de RI– Facilité d’utilisation du système– Coût accès/stockage– Présentation des résultats– Efficacité de la recherche– Possibilités de formuler des requêtes riches

• Nombreuses mesures donnent des renseignements partiels sur lecomportement du système

M1 DAC - RITAL 1/38

Page 3: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield

Page 4: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Vers un protocole d’évaluation standardisé

• Objectif : évaluer la capacité d’un système à retourner des documentspertinents

• De quoi a-t-on besoin ?

Paradigme de Cranfield - première expérimentation "laboratoire" en RI

Evaluation basées sur des collections de test composées de :- Corpus de documents- Requêtes- Jugements de pertinence

• Avantages– Peu couteux– Facilite les analyses d’erreurs– Répétables

• Inconvénients– Jugements de pertinence peuvent être incomplets– Quelles hypothèses pour la pertinence ?

M1 DAC - RITAL 2/38

Page 5: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Evaluation Cranfield : Exemples de corpus de test

• De nombreuses collections de test ont été développés par la communautéscientifique

– Cranfield fin des années 50– TREC (NIST)– CLEF– NTCIR (Japon et autres langues asiatiques, cross language

evaluation)– ...

M1 DAC - RITAL 3/38

Page 6: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Evaluation Cranfield : Exemples de corpus de test

• Ad hoc Test Collections

• Web Test Collections

• Blog Track

• Chemical IR Track

• Clinical Decision Support Track

• Common Core Track

• Confusion Track

• Contextual Suggestion Track

• Interactive Track

• Knowledge Base Acceleration Track

• Legal Track

• Medical Track

• Microblog Track

• Million Query Track

• Novelty Track

• Query Track

• Question Answering Track

• Precision Medicine Track

• Real-time Summarization Track

• Relevance Feedback Track

• Robust Track

• Session Track

• SPAM Track

• Spoken Document Retrieval Track

• Tasks Track

• Temporal Summarization Track

• Terabyte Track

• Web Track

M1 DAC - RITAL 4/38

Page 7: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Evaluation Cranfield : Documents

<DOC><DOCNO> GPXX-0002 </DOCNO><TITLE> ceci est un titre </TITLE><DATE> 2006-09-04 </DATE><TEXT> cecie est le contenu blablabla blablabla blablabla .</TEXT></DOC>

M1 DAC - RITAL 5/38

Page 8: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Evaluation Cranfield : Requêtes

• Souvent les requêtes (mots clés) sont associés à une description pluscomplète (phrases) du besoin d’information

<top>

<num> Number: 501<title> deduction and induction in English?

<desc> Description:What is the difference between deduction and induction in the process of reasoning?

<narr> Narrative:A relevant document will contrast inductive and deductive reasoning.A document that discusses only one or the other is not relevant.

</top>

M1 DAC - RITAL 6/38

Page 9: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Evaluation Cranfield : Jugements de pertinence

• Ensemble de jugements de pertinence pour chaque paire (document,requête)

– Ces jugements peuvent être binaires ou être donnés sous forme d’unscore, typiquement 0, 1, 2, 3, 4, 5

– Ils sont formulés en fonction du besoin d’information

M1 DAC - RITAL 7/38

Page 10: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Evaluation Cranfield : Jugements de pertinence

M1 DAC - RITAL 8/38

Page 11: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Comment mesurer l’efficacité d’un système ?

• Différents types de mesure– Rappel/Précision– Orientées rang– Prise en compte des degrés de pertinence

M1 DAC - RITAL 9/38

Page 12: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Métriques orientées rappel/précision

Page 13: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Mesures orientées rappel/précision

• Les deux mesures les plus courantes sont :– Rappel : est-ce que le système retourne TOUS les documents

pertinents ?– Précision : est-ce que le système retourne QUE les documents

pertinents ?

M1 DAC - RITAL 10/38

Page 14: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Mesures orientées rappel/précision

Relevant Non RelevantRetrieved True Positive (tp) False Positive (fp)not retrieved False Negative (fn) True Negative (tn)

• Précision = capacité à ne retrouver QUE des documents pertinents

Precision= tp

tp+ fp(1)

• Rappel = capacité à retrouver TOUS les documents pertinents

Rappel = tp

tp+ fn(2)

• Remarque : accuracy n’est pas une mesure pour la RI

Accuracy = tp+ fn

tp+ fp+ tn+ fn(3)

M1 DAC - RITAL 11/38

Page 15: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Mesures orientées rappel/précision

• Exemple

Rang Doc Pertinence1 324 X2 654 X3 4544 4725 789 X6 148 X7 658 32 X9 7810 439

ExerciceCalculer les mesures de rappel et de précisionsachant que la collection inclue 10 documentspertinents

Evaluation d’un système

- Calcul des mesures pour chaque requête- Moyenne sur l’ensemble des requêtes

M1 DAC - RITAL 12/38

Page 16: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Mesures orientées rappel/précision

• Rappel et précision sont en général antogonistes– Sélection de toute la collection → R=1, P=0– Sélection d’un seul document pertinent → R=0, P=1

• Suivant les utilisations, on peut vouloir favoriser précision (e.g. web) ourappel (documentalistes)

• Mesure qui combine les deux métriques : F-mesure :

Fβ = (1+β2)P ∗Rβ2P +R

(4)

M1 DAC - RITAL 13/38

Page 17: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Mesures orientées rappel/précision "Top list"

• Les moteurs de recherche renvoient en général des listes ordonnées : l’idéalest de retourner les documents en tête de liste

• Métriques adaptées– Précision à k : P@k(q)= 1

k

∑ki=1Rdi ,q avec Rdi ,q ∈ {0,1} jugement de

pertinence pour le document de rang i renvoyé par le système.– Rappel à k : R@k(q)= 1

|R |∑ki=1Rdi ,q avec Rdi ,q ∈ {0,1} jugement de

pertinence pour le document de rang i renvoyé par le système.

M1 DAC - RITAL 14/38

Page 18: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Courbes de rappel/précision

M1 DAC - RITAL 15/38

Page 19: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Courbes de rappel/précision

Rg RSV(q,d) Pertinence Rapel Precision1 0.95 12 0.82 03 0.75 04 0.7 15 0.65 16 0.5 07 0.4 08 0.35 19 0.2 010 0.1 0

Exercice

Tracer la courbe de rappel pour cet ordonnancement.

M1 DAC - RITAL 16/38

Page 20: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Courbes de rappel/précision

Rg RSV(q,d) Pertinence Rapel Precision1 0.95 1 1/4 12 0.82 0 1/4 1/23 0.75 0 1/4 1/34 0.7 1 1/2 1/25 0.65 1 3/4 3/56 0.5 0 3/4 1/27 0.4 0 3/4 3/78 0.35 1 1 1/29 0.2 0 1 4/910 0.1 0 1 2/5

0 0.20.40.60.8 10

0.20.40.60.81

Précision interpolée

La précision interpolée au point de rappel rj est égale à la valeur maximale desprécisions obtenues aux points de rappel r, tel que r >= rj

Pinterp(r)=maxr ′>rP(r ′) (5)

M1 DAC - RITAL 17/38

Page 21: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Courbes de rappel/précision

Rg RSV(q,d) Pertinence Rapel Precision Pinterp1 0.95 1 1/4 1 12 0.82 0 1/4 1/2 13 0.75 0 1/4 1/3 14 0.7 1 1/2 1/2 0.65 0.65 1 3/4 3/5 0.66 0.5 0 3/4 1/2 0.67 0.4 0 3/4 3/7 0.68 0.35 1 1 1/2 0.59 0.2 0 1 4/9 0.510 0.1 0 1 2/5 0.5

0 0.20.40.60.8 10

0.20.40.60.81

Précision interpolée (courbe rouge)

La précision interpolée au point de rappel rj est égale à la valeur maximale desprécisions obtenues aux points de rappel r, tel que r >= rj

Pinterp(r)=maxr ′>rP(r ′) (6)

avec r = {0,0.1, ...,1} ou r issu de la distribution de l’ordonnancement.

→ Estime le pourcentage de documents pertinents qu’un utilisateur observeras’il veut atteindre un rappel au moins égal à r

M1 DAC - RITAL 18/38

Page 22: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Précision interpolée

M1 DAC - RITAL 19/38

Page 23: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Précision moyenne

• Précision moyenne (AvgP) est la moyenne des valeurs de précision desdocuments pertinents par rapport à la requête :

AvgP(q)= 1nq+

N∑k=1

Rdk ,q x P@k(q) (7)

– On peut également calculer la moyenne arithmétique de la précisioninterposée prise sur 11 points de rappel (approximation de l’aire sousla courbe précision-rappel)

• Moyenne des précisions moyennes (MAP) est la moyenne des AvgP surl’ensemble des requêtes :

MAP = 1|Q|AvgP(q) (8)

M1 DAC - RITAL 20/38

Page 24: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Métriques orientées rang

Page 25: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Mesures orientées rang

• Hypothèse : les documents pertinents doivent être retournés en premierdans la liste

• Moyenne des rangs inverses (Mean reciprocal rank) : moyenne du rang dupremier document sur l’ensemble des requêtes

MRR = 1|Q|

∑qh∈Q

1Rankh

(9)

M1 DAC - RITAL 21/38

Page 26: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Gain cumulé normalisé

• Discounted cumulative gain (DCG)– Utilisé dans le cadre de la recherche Web– Utilise une information de pertinence graduée (5 niveaux)– Mesure le gain d’information apporté par un document en fonction de

sa position dans la liste des résultats– Pour la RI Web seules les premières informations présentées sont

importantes

• Hypothèses– Les documents pertinents sont plus utiles quand ils apparaissent à un

rang élevé.– Les documents très pertinents sont plus utiles que les peu pertinents

qui sont plus utiles que les non pertinents.

M1 DAC - RITAL 22/38

Page 27: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Gain cumulé normalisé

• Cumulative Gain (CG) - ancêtre de DCG– CG au rang p

CGp =p∑i=1

reli (10)

– où reli est la pertinence graduée du document i– Ne tient pas compte de l’ordre des documents

• Discounted Cumulatige Gain (DCG)– Prise en compte de l’ordre des documents par une fonction

décroissante du rang

DCGp = rel1+p∑i=2

relilog2(i)

(11)

– Autres formulations possibles

M1 DAC - RITAL 23/38

Page 28: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Normalized DCG

• Pour moyenner DCG sur un ensemble de requêtes, on calcule une versionnormalisée NDCG

– On suppose que l’on dispose d’une liste idéale de résultats dont leDCGp vaut IDCGp

nDCGp = DCGp

IDCGp(12)

– On moyenne ensuite sur l’ensemble des requêtes– Il faut bien sûr disposer de la liste idéale... → petites mains du web...

M1 DAC - RITAL 24/38

Page 29: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

NDCG - Exercice

Rang Doc Pertinence1 324 12 654 23 4544 4725 789 16 148 17 658 32 29 7810 439

Exercice

Calculer la mesure de NDCG pour l’ordonnancement précédent.

M1 DAC - RITAL 25/38

Page 30: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Comparaison des systèmes de RI

Figure 1: From Tetsuya Sakai, 2005

M1 DAC - RITAL 26/38

Page 31: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Comparaison des systèmes de RI

Figure 2: From Tetsuya Sakai, 2005

M1 DAC - RITAL 27/38

Page 32: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Comparaison des systèmes de RI

Figure 3: From Tetsuya Sakai, 2005

M1 DAC - RITAL 28/38

Page 33: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Comparaison des systèmes de RI

Figure 4: From Tetsuya Sakai, 2005

M1 DAC - RITAL 29/38

Page 34: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Comparaison des systèmes de RI

• Tests de significativité– Vérifier si la différence de performances entre deux systèmes est

significativeRejeter H0 (pas de différence entre A et B)Accepter H1 (A et B sont différents)

– Plusieurs tests : Student, Wilcoxon, ...– Dépend d’un paramètre α

0.05 → 0.95% de chance que les systèmes soient différents

M1 DAC - RITAL 30/38

Page 35: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Comparaison des systèmes de RI

• Exemple de présentation de résultats

M1 DAC - RITAL 31/38

Page 36: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Autres protocoles d’évaluation...

• Quand l’humain rentre en jeu...– Evaluation basée sur les logs utilisateurs– User-study

M1 DAC - RITAL 32/38

Page 37: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Autres protocoles d’évaluation

• Evaluation basée sur les logs utilisateurs

M1 DAC - RITAL 33/38

Page 38: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Autres protocoles d’évaluation

• Evaluation basée sur les logs utilisateurs– Permet d’appliquer a posteriori des modèles sur des données

utilisateurs

– AvantagesBesoin en information généré par un utilisateur réelAutomatisation de l’évaluation

– Inconvénients"Artificiel"

M1 DAC - RITAL 34/38

Page 39: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Autres protocoles d’évaluation

• User-study / Living labs

M1 DAC - RITAL 35/38

Page 40: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Autres protocoles d’évaluation

• User-study– Utilisateur interagit en temps réel avec le système

• Avantages– Evaluation directe du système– Au plus proche de l’utilisateur !

• Inconvénients– Collecte fastidieuse, coûteuse, ...– Difficile d’évaluer toutes les variantes d’un modèle (paramétrage,

etc. . . )– Evaluation de plusieurs modèles ?

M1 DAC - RITAL 36/38

Page 41: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

Evaluation des expérimentations en temps réel : Interleaving et A/B tests

M1 DAC - RITAL 37/38

Page 42: RECHERCHE D’INFORMATION TRAITEMENT AUTOMATIQUE DU …dac.lip6.fr/master/wp-content/uploads/2019/01/RITAL_2019-CoursEv… · RECHERCHE D’INFORMATION & TRAITEMENT AUTOMATIQUE DU

Evaluation Cranfield Métriques orientées rappel/précision Métriques orientées rang

A vous de jouer... TD is coming !

M1 DAC - RITAL 38/38