Information Retrieval Modelle: Vektor-Modell. ?· Information-Retrieval-Modell: Definition Ein Information-Retrieval-Modell…

Embed Size (px)

Text of Information Retrieval Modelle: Vektor-Modell. ?· Information-Retrieval-Modell: Definition Ein...

  • Information Retrieval Modelle: Vektor-Modell

    1

    Karin Haenelt

    25.10.2012

  • Inhalt

    � Information Retrieval-Modelle: Systemarchitektur und Definition � Überleitung vom Booleschen Modell zum Vektormodell � Vektormodell

    � Ziele � Dokument- und Anfrage-Repräsentation

    � Termgewichtungen: tf und idf � Rankingfunktion

    � Ähnlichkeitsmaße für Vektoren � Ähnlichkeitsmaß Cosinus

    � Bedeutung des Vektormodells

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

    2

  • Grundkomponenten des Information Retrieval

    Doku- mente

    D1

    Analyse Reprä- sentation

    Ähnlichkeit: Doku-

    D

    R(qk,dm)

    Komponenten der Modelldefinition

    3

    Anfrage Analyse Reprä-

    sentation

    - Matching - Ranking

    Doku- mente

    D2

    D2� D1Q

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Information-Retrieval-Modell: Definition

    Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm))

    D Dokument-Repräsentation Menge logischer Sichten auf Dokumente

    Q Query-Repräsentation Menge logischer Sichten auf Anfragen (Queries

    F Modellierungsrahmen (Framework) für

    4

    F Modellierungsrahmen (Framework) für - Dokumentrepräsentationen D - Queries Q - Beziehungen zwischen D und Q

    R(qk,dm) Ranking-Funktion ordnet einer Query qk aus Q und einem Dokument dm aus D einen Wert zu, der die Reihenfolge der Dokumente aus D bezüglich einer Query qk definiert

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Inhalt

    � Information Retrieval-Modelle: Systemarchitektur und Definition � Überleitung vom Booleschen Modell zum Vektormodell � Vektormodell

    � Ziele � Dokument- und Anfrage-Repräsentation

    � Termgewichtungen: tf und idf � Rankingfunktion

    � Ähnlichkeitsmaße für Vektoren � Ähnlichkeitsmaß Cosinus

    � Bedeutung des Vektormodells

    5© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Boolesches Modell und Vektormodell Dokument- und Anfrage-Repräsentation

    Dokumentvektor: (1,1,0) Anfragevektor: (1,1,0)

    Term 1 Öl

    Term 2 Preis

    Term 3 Alaska

    1

    1

    1

    1

    0

    0

    binär (Boolesches Modell)

    6

    Dokumentvektor: (4,8,0) Anfragevektor: (3,6,0)

    4

    3

    8

    6

    0

    0

    Frequenz (Vektormodell)

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Boolesches Modell und Vektormodell Illustration der Dokumentvektoren durch geometrische Interpretation

    Term 1 Öl

    Term 2 Preis

    Term 3 Alaska

    1

    2

    1

    4

    0

    0

    binär (Boolesches Modell)

    Frequenz (Vektormodell)

    7

    Öl

    Preis

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Boolesches Modell und Vektormodell Vergleich

    Boolesches Modell Vektormodell

    D, Q Repräsentation Termvorkommen Termfrequenz

    F Framework Boolesche Algebra Vektoralgebra

    R Ranking – Wahrheitswert der Ähnlichkeitsmaß Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor

    konjunktiven Verknüpfung von D und Q

    für Vektoren D und Q

    Ergebnis - Passt / passt nicht zur Anfrage

    - Menge

    -Numerische Ähnlichkeitswerte

    - geordnete Liste

    8© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Inhalt

    � Information Retrieval-Modelle: Systemarchitektur und Definition � Überleitung vom Booleschen Modell zum Vektormodell � Vektormodell

    � Ziele � Dokument- und Anfrage-Repräsentation

    � Termgewichtungen: tf und idf � Rankingfunktion

    � Ähnlichkeitsmaße für Vektoren � Ähnlichkeitsmaß Cosinus

    � Bedeutung des Vektormodells

    9© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Vektormodell Ziele

    � Berücksichtigung partieller Übereinstimmung zwischen � Anfragetermen und � Dokumenttermen durch nicht-binäre Werte für Termgewichtung

    � Berechnung der Ähnlichkeit zwischen Anfragetermen und Dokumenttermen

    � Sortierung von Dokumenten nach Grad der Ähnlichkeit � Präzisere Beantwortung der Anfrage als Boolesches Modell

    10

    (Baeza-Yates/Ribeiro-Neto, 1999,27)

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Inhalt

    � Information Retrieval-Modelle: Systemarchitektur und Definition � Überleitung vom Booleschen Modell zum Vektormodell � Vektormodell

    � Ziele � Dokument- und Anfrage-Repräsentation

    � Termgewichtungen: tf und idf � Rankingfunktion

    � Ähnlichkeitsmaße für Vektoren � Ähnlichkeitsmaß Cosinus

    � Bedeutung des Vektormodells

    11© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Vektormodell Dokument- und Query-Vektoren: Definition

    wi,m Gewicht für des Terms i in Dokument m; positiv, nicht binär

    wi,k Gewicht des Terms i in Query k

    x Anzahl der Index-Terme im System

    Dokument-Vektor

    Query-Vektor

    12

    ),...,,( ,,2,1 kxkkk wwwq = ),...,,( ,,2,1 mxmmm wwwd =

    (Baeza-Yates/Ribeiro-Neto, 1999,27)

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Vektormodell Termgewichtungen

    � einfache Häufigkeit � berücksichtigt Dokumentlänge nicht � ergibt keine normalisierten Termvektoren � nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll

    verwendbar

    � tf: normalisierte Termfrequenz (Term-Frequenz)� tf: normalisierte Termfrequenz (Term-Frequenz) � berücksichtigt Dokumentlänge � ergibt normalisierte Termvektoren

    � tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) � berücksichtigt die Häufigkeitsverteilung von Termen im Corpus � Terme, die in vielen Dokumenten vorkommen

    � haben möglicherweise wenig Unterscheidungswert � werden abgewertet

    13© Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Vektormodell Termgewichtungen: tf, idf

    � tf Termfrequenz-Faktor � Bedeutung: relative Anzahl der Vorkommen von

    Term ti in Dokument dm � Zweck: soll besagen, wie gut ein Term den

    Inhalt eines Dokuments beschreibt � idf inverse Dokument-Frequenz

    � Sinn: Terme, die in vielen Dokumenten vorkommen, sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter Dokumente

    � Beispiel:

    14

    (Baeza-Yates/Ribeiro-Neto, 1999,29)

    d2

    ein Brot 200 150

    50 50

    d1

    und Bier 100 150

    50 50

    bei ungewichteter Anfrage „ein, Brot. und, ein, Bier“ würden hier die Vorkommen von „ein“ und „und“ über die Ähnlichkeit entscheiden

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • inverse Dokumentfrequenz

    Vektormodell Termgewichtungen: tf, idf

    mll

    mi mi

    mi

    freq

    freq tf

    w

    ,

    , ,

    ,

    max =

    =

    imimi idftfw ⋅= ,, i

    i n

    N idf log=

    Termgewichtung mitnormalisierte Termfrequenz

    tf-Formel tf-idf-Formel

    15

    N Gesamtzahl der Dokumente im System ti Indexterm ni Anzahl der Dokumente, in denen Term ti vorkommt freqi,m Anzahl der Erwähnungen von Term ti in Dokument dm maxl freql,m Frequenz des höchstfrequenten Terms in Dok. dm tfi,m normalisierte Frequenz von Term ti in Dokument dm idfi inverse Dokumentfrequenz von Term i

    mll freq ,max in mit dieser Formel erhält man für alle Terme

    Gewichte mit den Werten 0 ≤ wi,m ≤ 1

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • == ) 10

    10 ,

    10

    8 ,

    10

    4 (

    mll

    mi mi

    freq

    freq f

    ,

    , ,

    max =normalisierte

    Termfreq tf

    Termfreq

    Gesamtzahl der Dokumente im System: N=2048 Index-Terme: „Öl“ in 128 Dokumenten

    „Mexiko“ in 16 Dokumenten „Raffinerie“ in 1024 Dokumenten

    Beispiel-Dokument:

    4 8 10

    0.4 0.8 1.0

    Öl M. R.

    16

    ) 1024

    2048 log,

    16

    2048 log,

    128

    2048 log( 222=

    =⋅⋅⋅= )10.1,78.0,44.0(

    i i

    n

    N idf log=inverse

    Dokfreq idf

    i mimi

    n

    N fw log,, ⋅=tf-idf-

    Gewichtg.

    == )2log,128log,16log( 222 4 7 1

    1.6 5.6 1.0

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Vektormodell Termgewichtungen – inverse Dokumentfrequenz

    .

    .

    Mexiko

    Termgwicht

    17

    0 200 400 600 800 1000 1200

    Raffinerie

    .

    .

    Öl

    .

    Dok.- Frequenz des Terms

    © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012

  • Vektormodell Termgewichtungen – Erläuterungen des Beispiels

    � Der signifikanteste Term für das Beispieldokument ist „Mexiko“, da „Mexiko“ außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt

    � Der am häufigsten im Beispieldokument vorkommende Term „Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente „Raf

Recommended

View more >