Chapitre 5.2 : Modle de langue et RI Language model ??2015-03-064 Modle de langue • Utilis dans plusieurs applications du traitement automatique de la langue : – speech

  • View
    221

  • Download
    7

Embed Size (px)

Text of Chapitre 5.2 : Modle de langue et RI Language model ??2015-03-064 Modle de langue...

  • 1

    Chapitre 5.2 : Modle de langue et RI

    Language model

  • Plan

    Introduction au modle de langue Quest ce quun modle de langue Estimation dun modle de langue

    Modle de langue et RI Intuition LM et RI Adaptation LM la RI Modle vraisemblance de la requte (Query Likelihood) Rfrences bibliographiques

    2

  • 3

    Modle de langue

    Modle de langue/language Model (modle statistique de langue) Modlise lagencement des mots dans une langue Capturer la distribution des mots dans une langue (ou d'un texte). Mesure la probabilit dobserver une squence de mots dans une

    langue p1=P (un garon mange une pomme) p2=P (une pomme mange un garon) p3=P (apple mange un garon)

    The goal of a language model is to assign a probability to a sequence of words by means of a probability distribution

    wikipdia

  • 4

    Modle de langue

    Utilis dans plusieurs applications du traitement automatique de la langue : speech recognition, machine translation, part-of-speech tagging, parsing et information retrieval.

  • 5

    Modle de langue

    Vu comme une source ou un gnrateur de textes Mcanisme probabiliste de gnration de texte (mots,

    squence de mots) On parle de modle gnratif

    Source (gnration de mots) Quelle est la source qui a gnr Ces textes?

    Probabilit ?

  • 6

    Modle de langue

    Un modle de langue est dfini par son vocabulaire (mots simples, squence de mots)

    Chaque mot (m)/squence de mots(m1m2..mn) a une probabilit dtre gnr(e)

    Le but est de calculer P(s|M) s une observation (squence de mots/texte) quelconque Probabilit dobserver s dans le modle (la langue) M

  • Dfinir un modle de langue

    Dfinir la taille des squences gnres par le modle ? Squence de 1 mot, 2 mots, 3 mots,

    Estimer le modle probabilit de chaque squence gnre ?

    Calculer la probabilit dune observation (un texte) quelconque?

    7

  • 8

    Taille de la squence

    Diffrents modles Squence dun mot modle unigram Squence de deux mots modle bigram Squence de n mots modle de ngram

    Dans le cas du modle unigram (le plus utilis en RI) Les textes sont donc gnrs partir de mots simples gnrs de

    manire indpendante les uns des autres Si m1, m2, ..mN est le vocabulaire (les mots accepts) par le modle

    alors Chaque mot m a une probabilit P(m|M) P(m1)+P(m2)+P(mN)= 1

  • Exemple de modle unigram

    ... text 0.2 mining 0.1 n-gram 0.01 cluster 0.02

    ... food 0.000001

    ML : M1

    ... food 0.25 nutrition 0.1 healthy 0.05 diet 0.02

    ...

    LM : M2

    P(mot|M)

    text mining paper

    food nutrition paper

    Texte d

    P(text mining paper|M1)?

    P(food nutrition paper|M2)?

  • Exemple de modle bi-gram

    ... Text mining 0.2

    Ngram mining0.1 Term cluster 0.01

    ML : M1

    ... Food nutrition 0.25

    healthy diet 0.05 ...

    LM : M2

    P(mot|M)

    text mining paper

    food nutrition paper

    Texte d

    P(text mining paper|M1)?

    P(food nutrition paper|M2)?

  • 11

    Probabilit dune observation (squence)

    Dpend du modle soit s une observation (un texte) de n mots s=m1 m2mn

    Unigram (M gnre des squences de 1 mot)

    bigram (M gnre des squences de deux mots)

    ngram (M gnre des squences de 3 mots)

    =

    ==n

    iin MmPmmmPMsP

    121 )|()...()|(

    =

    = ==

    l

    i i

    iin

    iii mP

    mmPmmPsP1 1

    1

    11 )(

    )()|()(

    =

    = ==

    n

    i ii

    iiin

    iiii mmP

    mmmPmmmPsP1 12

    12

    112 )(

    )()|()(

  • 12

    Estimation du modle

    Selon le modle il faut estimer P(mi), P(mi-1 mi) , P(mi-2 mi-1 mi), ..

    Estimation par Maximum de vraisemblance (Maximum likelihood ) (la plus frquente) Compter la frquence relative de lvnement (m) dans

    lchantillon (C) unigram

    Bi gram

    =

    CmmfreqmfreqCmP)()()|(

    P(mi mi1) =freq(mi1,mi )freq(mi1)

  • 13

    Exemple

    Estimation dun modle uni-gram (simple) par ml Compter la frquence relative des mots m : Pml(m|M) = #(m) / N

    Texte

    text 10 mining 5

    association 3 database 3 algorithm 2

    query 1 efficient 1

    Un texte sur le text mining (total #mots=30)

    P(m| M)=?

    text ? mining ? association ? database ? algorithm? query? efficient?

    Estimation de M 10/30 5/30 3/30 3/30 2/30 1/30 1/30

    P(text query)=P(text)*P(query)=(10/30)*(1/30)

    P(text retrieval)=P(text)*P(retrieval)=(10/30)*(0)

  • 14

    Problme des frquences nulles (zro)

    Si un vnement (un mot de la squence) napparait pas dans le modle, le modle lui assigne une probabilit 0

    Solution : assigner des probabilits diffrentes de

    zro aux vnements (mots) absents Lissage (Smoothing)

    0)(/,0)()|(1

    ====

    MmPmsiMmPMsP iil

    ii

  • 15

    Modle de Langue en RI

    Plusieurs modles, plusieurs adaptations

  • 16

    IR et LM : intuition

    query

    d1

    d2

    dn

    besoin

    Collection de documents

    generation

    )|( dMQP 1dM

    2dM

    ndMLide est de mesurer la probabilit

    que la requte ait t gnre par le modle de langue du document considr )|( dMQP

    C. Manning

  • ChengXiang Zhai, 2008 17

    RI et ML : illustration

    d1

    d2

    dN

    q Md1

    Md2

    MdN

    Doc LM

    p(q| Md1)

    p(q| Md2)

    p(q| MdN)

    Query likelihood

  • 18

    ML et RI : Plusieurs adaptations possibles

    - (1) : Probabilit de gnrer la requte partir de Md - (2) : Probabilit de gnrer le document partir de Mq - (3) : Combinaison (comparaison) des deux modles

    Il existe plusieurs manires dadapter les ML la RI.

    3 Principes

    q

    D

    1

    )|( dMqPMd 2

    )|( qMdPMq

    3

  • 19

    ML et RI : Plusieurs adaptations possibles (suite)

    Principe 1: Vraisemblance de la requte (Query-likelihood) RSV(d,Q)= P(Q|Md) Document d reprsent par son ML P(w|Md) Requte Q = squence ou vecteurs de mots q1,q2,,qn

    Principe 2 : Vraisemblance du document (Document likelihood) RSV(d,Q)= P(D|Mq) Requte Q reprsente par son ML P(w|Mq) Document d = squence ou vecteurs de mots

    Principe 3: comparaison de modles

    Document d: LM P(w|MD) Requte Q: LM P(w|MQ) RSV(Q,d): comparer P(w|Md) and P(w|MQ)

  • 20

    Principe 1 : Vraisemblance de la requte (Query Likelihood)

    Approche standard Estimer le modle de chaque document Trier les documents selon leur probabilit de gnrer la

    requte P(Q|Md) Deux questions

    Comment estimer Md ? Quel modle ? souvent unigram Comment estimer P(m|Md) ?

    Comment estimer P(Q|Md) ?

  • 21

    Estimation de Md ?

    Le modle de langue est inconnu mais, nous disposons dun chantillon le document

    Estimer le modle partir du document Maximum de vraissemblance (Maximun Likelihood

    Estimator)

    d

    dtdmle dl

    tfMtP ,)|( =

    Les termes de la requte sont gnrs de manire indpendantes

  • 22

    Exemple

    Document

    text 10 mining 5 retrieval 3 database 3 algorithm 2

    query 1 efficient 1

    LM 5

    Md

    text ? mining ? retrieval? database ? query ?

    10/30 5/30 3/30 3/30

    1/30

  • 23

    Estimation P(Q|Md)

    Dpend de la forme du texte (requte) gnr Distribution multinomiale

    Q est une squence de variables alatoires (Q=(q1,qm )) chaque v.a reprsente un mot ti

    Distribution multi Bernoulli (modle Ponte et Croft) Q vecteur de v.a reprsentant TOUT le vocabulaire de Md Q= (x1, , x|V|), xi =1 terme ti prsent ; xi =0 terme absent

    ==

    ====m

    1

    m

    1m1 )|()|()|),...,((

    idi

    idiid MqPMtqPMqqQP

    =====

    ======|V|

    0;1

    |V|

    1;1

    |V|

    1|V|1 )|0()|1()|()|),...,((

    ii xidi

    xidi

    idiid MtPMtPMxtPMxxqP

  • 24

    Estimation P(Q|Md) (suite)

    Multinomiale ou Multi Bernoulli ? Multinomiale semble tre meilleure [Song & Croft 99, McCallum &

    Nigam 98,Lavrenko 04] que la Multi-Bernoulli [Ponte & Croft 98]

    Dans le cas dune multinomiale (unigram)

    Cas dune requte pondre

    ==

    =

    ==

    ====

    m

    1

    ,m

    1

    m

    1m1

    )|(

    )|()|),...,(()|(

    i d

    dw

    idi

    idiidd

    dltf

    MqP

    MtqPMqqqPMQP

    =

    =

    ==

    ====m

    idiiid

    i

    Qtcdiidd

    MtqPQtcMQP

    MtqPMqqqPMQP i

    1

    m

    1

    ),(m1

    )|(log*),())|(log(

    )|()|),...,(()|(

  • 25

    Retour sur le problme des frquences Zro

    Problme des tf = 0 quand un document ne contient pas un ou plusieurs

    termes de la requte. Contraintes

    On ne peut pas assigner des valeurs diffrentes de zro de manire alatoire

    La somme des probabilits de lensemble des vnements doit tre gale 1.

    Plusieurs solutions . Techniques de lissage (Smoothing)

  • 26

    Techniques de lissage

    Mthodes de discounting Laplace correction, Lindstone correction, absolute

    discounting, leave one-out discounting, Good-Turing method

    Techniques dInterpolation Estimations de Jelinek-Mercer, Dirichlet

  • 27

    Mthodes de discounting

    Ajouter une constante (1, 0,5 ou ) toutes les frquences Laplace smoothing

    Ajout