S V E U Č I L I Š T E U S P L I T U FAKULTET ......iv Pronalaženje rečenica korištenjem lokalnog konteksta rečenice i informacija na razini dokumenta Kratki sažetak: U ovoj

S V E U Č I L I Š T E U S P L I T U

FAKULTET ELEKTROTEHNIKE, STROJARSTVA I BRODOGRADNJE

Alen Doko

Pronalaženje rečenica korištenjem lokalnog konteksta

rečenice i informacija na razini dokumenta

DOKTORSKA DISERTACIJA

Split, 2013.

ii

Doktorska disertacija je izrađena na Zavodu za elektroniku, Fakulteta elektrotehnike, strojarstva i brodogradnje u Splitu

Mentor: dr. sc. Maja Štula, izv. prof.

Rad br. _______

iii

Povjerenstvo za ocjenu doktorske disertacije:

1. Dr. sc. Darko Stipaničev, red. prof. FESB Split

2. Dr. sc. Maja Štula, izv. prof. FESB Split

3. Dr. sc. Bojana Dalbelo-Bašić, red. prof. FER Zagreb

4. Dr. sc. Marko Rosić, red. prof. PMF Split

5. Dr. sc. Ljiljana Šerić, doc. FESB Split

Povjerenstvo za obranu doktorske disertacije:

1. Dr. sc. Darko Stipaničev, red. prof. FESB Split

2. Dr. sc. Maja Štula, izv. prof. FESB Split

3. Dr. sc. Bojana Dalbelo-Bašić, red. prof. FER Zagreb

4. Dr. sc. Marko Rosić, red. prof. PMF Split

5. Dr. sc. Ljiljana Šerić, doc. FESB Split

Disertacija obranjena dana: _____________________

iv

Pronalaženje rečenica korištenjem lokalnog konteksta

rečenice i informacija na razini dokumenta

Kratki sažetak: U ovoj disertaciji fokus je stavljen na zadatak pronalaženja rečenica. Pronalaženje rečenica je slično pronalaženju dokumenata s tom razlikom što je jedinica pronalaženja rečenica, a ne dokument. Predložene su nove i unaprjeđene TF-ISF (Term Frequency-Inverse Sentence Frequency) bazirane metode koje koriste lokalni kontekst rečenica i duljinu rečenice. Također su predložene dodatne varijante novih metoda na razini dokumenta koje koriste samo informacije iz dokumenta koji sadrži rečenicu. Sve nove metode pokazuju statistički signifikantna poboljšanja u odnosu na SOTA (state of the art) metode prilikom testiranja. Za testiranje su korišteni skupovi podataka TREC staza novosti koji služe kao testne kolekcije (eng. test collection) za metode pronalaženja rečenica. U disertaciji je pokazano da nove metode na razini dokumenta mogu ubrzati proces pronalaženja rečenica radi mogućnosti računanja ocjena relevantnosti prije nego što su svi dokumenti dohvaćeni. Nove metode na razini dokumenta su također korištene za razvoj OWL (Web Ontology Language) prikaza tekstnog dokumenta, s prikazom konteksta i duljine rečenice, koji pojednostavljuje implementaciju pronalaženja rečenica. Pokazano je na koji način se može automatski generirati OWL prikaz dokumenta i na koji se način isti može koristiti za pronalaženje rečenica. Ključne riječi: pronalaženja informacija, pronalaženje rečenica, TF-ISF, kontekst, duljina rečenice, OWL, prikaz dokumenta

v

Local context and document level based sentence

retrieval

Abstract: In this dissertation the focus is set on the task of sentence retrieval. Sentence retrieval is similar to document retrieval with the difference that the unit of retrieval is a sentence and not a document. We propose several improved new TF-ISF (Term Frequency-Inverse Sentence Frequency) based methods that make use of local context of sentences and of sentence length. We also propose a new document based variant of the new methods that use information only from the document that contains the sentence. All new methods show statistically significant improvements in tests to the state of the art methods. For testing purposes data sets from TREC novelty tracks are used that serve as test collections for sentence retrieval methods. We show that the new document based methods can speed up the sentence retrieval task because of the possibility of calculating relevance scores before all documents are retrieved. We also use the document level methods to develop an OWL (Web Ontology Language) representation of textual documents with representation of context and document length that simplifies the implementation of sentence retrieval. We show how to automatically generate the OWL representation of a document and also how to use it for sentence retrieval. Keywords: Information Retrieval, Sentence Retrieval, TF-ISF, Context, Sentence Length, OWL, Document Representation

vii

SADRŽAJ

1. UVOD ..................................................................................................... 1

1.1. Hipoteza .......................................................................................................2

1.2. Znanstveni doprinosi ...................................................................................2

1.3. Struktura disertacije ...................................................................................3

2. PRONALAŽENJE INFORMACIJA .................................................... 5

2.1. Mjerenje učinkovitosti sustava za pretraživanje informacija ...................6

2.1.1. Mjere za ne-rangirane rezultate .....................................................................6

2.1.2. Mjere za rangirane rezultate ..........................................................................8

3. PRONALAŽENJE REČENICA ......................................................... 12

3.1. Model vektorskog prostora i pronalaženje rečenica ................................ 13

3.1.1. Varijante frekvencije izraza ......................................................................... 16

3.1.2. Varijante invertne frekvencije dokumenta .................................................. 17

3.1.3. Varijante normalizacije ................................................................................ 17

3.1.4. Model vektorskog prostora primijenjen na pronalaženje rečenica ............. 19

3.2. Modeliranje jezika i pronalaženje rečenica .............................................. 21

3.2.1. Model vjerojatnosti upita .............................................................................. 22

3.3. BM25 .......................................................................................................... 25

3.4. Povratna informacija relevantnosti i proširivanje upita ......................... 25

3.4.1. Globalne metode proširivanja upita ............................................................. 26

3.4.2. Povratna informacija relevantnosti .............................................................. 26

3.4.3. Pseudo povratna informacija relevantnosti ................................................. 27

3.4.4. Povratna informacija relevantnosti i proširivanje upita kod pronalaženja

rečenica.................................................................................................................... 28

3.5. Korištenje lokalnog konteksta za unapređenje pronalaženja rečenica ... 30

viii

3.5.1. Mješavina tri modela ..................................................................................... 30

3.5.2. Model dvije faze ............................................................................................ 32

3.5.3. Klizeći prozor ................................................................................................ 36

3.5.4. TF-ISF metoda i korištenje konteksta .......................................................... 38

4. NOVE METODE ZA PRONALAŽENJE REČENICA .................... 39

4.1. TREC i zadatak otkrivanja novih rečenica .............................................. 39

4.1.1. TREC 2002 staza novosti .............................................................................. 39



4.1.4. Pregled TREC 2002, 2003 i 2004 staza novosti ............................................ 56

4.2. TF-ISF sa lokalnim kontekstom ................................................................ 57

4.2.1. Usporedba TF-ISFcon sa TF-ISF i tfmix ........................................................ 60

4.3. Korištenje duljine rečenice za poboljšanje pronalaženja rečenica .......... 80

4.3.1. Dodavanje komponente za forsiranje dohvaćanja dugih rečenica u TF-ISF

funkciju rangiranja ................................................................................................. 81

4.3.2. Mješavina tri modela sa forsiranjem dugih rečenica ili 3MMPDS ............. 82

4.3.3. Pregled svih testiranih metoda...................................................................... 83

4.3.4. Empirijska studija ......................................................................................... 85

4.4. TF-ISF bazirane metode na razini dokumenta ........................................ 99

4.4.1. TF-ISF na razini dokumenta i TF-ISFcon na razini dokumenta .................. 99

4.4.2. TF-ISFcon, length na razini dokumenta .......................................................... 109

4.5. Prednost metoda za pronalaženje rečenica na razini dokumenta ......... 116

4.5.1. Usporedba vremenskih složenosti algoritama ............................................ 120

5. OWL PRIKAZ DOKUMENTA ZA PRONALAŽENJE REČENICA

138

5.2. Razvoj OWL prikaza dokumenta ........................................................... 139

6. ZAKLJUČAK .................................................................................... 146

ix

6.1. Budući rad ................................................................................................ 148

LITERATURA ......................................................................................... 149

DODATAK A - LISTA UOBIČAJENIH RIJEČI .................................. 156

DODATAK B – RAPIDMINER I RAPIDANALYTICS ....................... 160

DODATAK C – RAZVIJENI SUSTAV ZA EMPIRIJSKU STUDIJU 164

x

POPIS TABLICA

Tablica 3.1. Varijante komponente frekvencije izraza za TF-IDF metodu s odgovarajućim

nazivima i oznakama SMART notacije.............................................................................. 18

Tablica 3.2. Varijante komponente invertne frekvencije dokumenata za TF-IDF metodu s

odgovarajućim nazivima i oznakama SMART notacije ..................................................... 19

Tablica 3.3. Varijante komponente normalizacije za TF-IDF metodu s ogovarajućim

nazivima i oznakama SMART notacije.............................................................................. 19

Tablica 4.1. Pregled osnovnih karakteristika TREC 2002, 2003 i 2004 staza novosti ....... 56

Tablica 4.2. Optimalne vrijednosti parametra μ za skupove podataka iz TREC 2002, 3003 i

2004 staza novosti ............................................................................................................ 63

Tablica 4.3. Optimalne vrijednosti parametra α tfmix metode za skupove podataka iz

TREC 2002, 3003 i 2004 staza novosti ............................................................................. 63

Tablica 4.4. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.2, α=0.7 ...................... 64

Tablica 4.5. P@x, MAP i R-precision za TREC 2002 i 2004, μ=0.1, α=0.85 .................... 65

Tablica 4.6. P@x, MAP i R-precision za TREC 2002 i 2003, μ=0.2, α=0.6 ...................... 67

Tablica 4.7. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC

2003 i TREC 2004............................................................................................................ 69

Tablica 4.8. Optimalne vrijednosti parametra μ i α za skup podataka iz TREC 2002, 3003 I

2004 staza novosti ............................................................................................................ 71

Tablica 4.9. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.25, α=0.95 .................. 72




2003 i TREC 2004............................................................................................................ 77

Tablica 4.13. Primjer rečenica s istom ocjenom prema TF-ISF metodi i različitim

ocjenama prema TF-ISFcon metodi (μ=0,01) .................................................................... 79

Tablica 4.14. Pregled svih metoda pronalaženja rečenica testiranih u poglavlju 4.3. ....... 84

Tablica 4.15. Optimalne vrijednosti parametra μ za metode TF-ISFcon, TF-ISFcon,length ..... 86

Tablica 4.16. Optimalne vrijednosti parametara metoda tfmix i 3MMPDS ....................... 86

Tablica 4.17. TREC 2003 i TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length,

α=0,7, λ=0,9, γ=0,05 ...................................................................................................... 87

xi


α=0,85, λ=0,95, γ=0,0 .................................................................................................... 88


α=0,6, λ=0,9, γ=0,05 ...................................................................................................... 90

Tablica 4.20. TREC 2003 i TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length...... 92

Tablica 4.21. TREC 2002 i TREC 2004, μ=0,1 za TF-ISFcon, μ=0,3 za TF-ISFcon,length...... 94

Tablica 4.22. TREC 2002 i TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length .... 95

Tablica 4.23. Optimalne vrijednosti parametra μ za metodu DL TF-ISFcon ..................... 101

Tablica 4.24. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.05 ........................... 103



Tablica 4.27. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002,

TREC 2003 i TREC 2004 konferencije ........................................................................... 108

Tablica 4.28. Optimalne vrijednosti parametra μ za metode DL TF-ISFcon i DL TF-

ISFcon,length ...................................................................................................................... 110

Tablica 4.29. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0,05 za DL TF-ISFcon,

μ=0,2 za DL TF-ISFcon,length ............................................................................................ 111





Tablica 4.32. Koraci metoda na razini kolekcije sa statičkim indeksom i metoda na razini

dokumenta čije vremenske složenosti se uspoređuju ....................................................... 122

Tablica 4.33. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3 ............... 135

Tablica 4.34. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3 ............... 137

xii

POPIS ILUSTRACIJA

Slika 2.1. Shematski prikaz skupova korištenih za mjere preciznost i odaziv .......................7

Slika 2.2. Preciznost-odaziv krivulja [18] ...........................................................................9

Slika 3.1. Ilustracija modela vektorskog prostora pronalaženja dokumenata .................... 14

Slika 3.2. Primjer računanja udaljenosti između izraza [47] ............................................ 36

Slika 3.3. Primjer klizećeg prozora veličine 2 [47] ........................................................... 37

Slika 4.1. Isječak iz datoteke sa izvornim podacima za TRAC 2002 stazu novosti ............. 42

Slika 4.2. Primjer teme iz TREC 2002 staze novosti i odgovarajućih po relevantnosti

poredanih dokumenata ..................................................................................................... 43

Slika 4.3. Isječak iz datoteke min_qrels.relevant koja sadrži relevantne dokumente .......... 45

Slika 4.4. Isječak iz datoteke sa izvornim podacima za TRAC 2003 stazu novosti ............. 47

Slika 4.5. Primjer teme iz TREC 2003 staze novosti i odgovarajućih kronološki poredanih

relevantnih dokumenata ................................................................................................... 49

Slika 4.6. Isječak iz datoteke sa relevantnim rečenicama .................................................. 50

Slika 4.7. Isječak iz datoteke za izvornim podacima za TRAC 2004 stazu novosti ............. 52


dokumenata...................................................................................................................... 54

Slika 4.9. Isječak iz datoteke sa relevantnim rečenicama za TREC 2004 stazu novosti...... 55

Slika 4.10. Trenutna rečenica i susjedne rečenice korištene u funkciji rangiranja

Rcon(s│q) ........................................................................................................................ 59

Slika 4.11. Primjer TREC teme iz TREC 2003 staze novosti ............................................. 61

Slika 4.12. Primjer kratkog upita ..................................................................................... 61

Slika 4.13. P@x, MAP i R-precision za TREC 2003, μ=0.2, α=0.7 ................................... 64

Slika 4.14. P@x, MAP i R-precision za TREC 2004, 휇=0.2, 훼=0.7 .................................. 65

Slika 4.15. P@x, MAP i R-precision za TREC 2002, 휇=0.1, 훼=0.85 ................................ 66




Slika 4.19. P@x, MAP i R-precision za spojene skupove podataka iz TREC 2002, TREC

2003 i TREC 2004............................................................................................................ 69

Slika 4.20. Primjer dugog upita korištenog u testu ........................................................... 71

Slika 4.21. P@x, MAP i R-precision za TREC 2003, μ=0.25, α=0.95 ............................... 72

xiii

Slika 4.22. P@x, MAP i R-precision za TREC 2004, μ=0.25, α=0.95 ............................... 73






2003 i TREC 2004............................................................................................................ 77

Slika 4.28. Nastajanje različitih metoda pronalaženja rečenica korištenih u poglavlju 4.3.

........................................................................................................................................ 85

Slika 4.29. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length, α=0,7, λ=0,9,

γ=0,05 ............................................................................................................................. 87


γ=0,05 ............................................................................................................................. 88


γ=0,0 ............................................................................................................................... 89


γ=0,0 ............................................................................................................................... 89


γ=0,05 ............................................................................................................................. 90


γ=0,05 ............................................................................................................................. 91

Slika 4.35. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length ............................... 93




Slika 4.39. TREC 2002, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length ............................. 95

Slika 4.40. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,35 za TF-ISFcon,length ............................. 96

Slika 4.41. P@x, MAP i R-precision za TREC 2003, μ=0.05 .......................................... 103






xiv

Slika 4.47. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002, TREC

2003 i TREC 2004 konferencije ...................................................................................... 108

Slika 4.48. P@x, MAP i R-precision za TREC 2003, μ=0,05 za DL TF-ISFcon, μ=0,2 za DL

TF-ISFcon,length ................................................................................................................ 112


TF-ISFcon,length ................................................................................................................ 112


TF-ISFcon,length ................................................................................................................ 113


TF-ISFcon,length ................................................................................................................ 114


TF-ISFcon,length ................................................................................................................ 115


TF-ISFcon,length ................................................................................................................ 115

Slika 4.54. Vremena izvršavanja metoda na razini kolekcije i metoda na razini dokumenta

...................................................................................................................................... 118

Slika 4.55. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje dokumenta i

Integriranje sa postojećim indeksom“ u odnosu na vrijeme dohvaćanja dokumenta ....... 120

Slika 4.56. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje Dokumenta“ i

„Računanje ocjene relevantnosti rečenica iz Dokumenta“ u odnosu na vrijeme

dohvaćanja dokumenta................................................................................................... 121

Slika 4.57. Primjer rezultata algoritama GenerateTermPostingPairsCollection i

GenerateTermPostingPairsDocument ............................................................................ 129

Slika 4.58. Primjer rezultata algoritma GenerateIndexCollection .................................. 131

Slika 5.1. Prikaz rečenice korišten za pronalaženje rečenica s klasama, vrstama podataka i

svojstvima ...................................................................................................................... 143

1

1. UVOD

Količina informacija na webu koja danas stoji na raspolaganju korisnicima pronalaženje

informacija čini kompleksnim i zahtjevnim područjem istraživanja. Veličina digitalnog

univerzuma informacija kako je web nazvan u istraživanju [1] procjenjuje se za 2011

godinu na 1.8 (1021) zetabajtova. Pronalaženje informacija (eng. Information Retrieval -

IR) iz digitalnog univerzuma sve je zahtjevniji i traženiji proces. Rješenje nudi vizija

naprednog weba tzv. semantičkog weba koja predviđa pretvaranje današnjeg weba koji se

sastoji pretežno od nestrukturiranih ili polu-strukturiranih podataka u web sa semantičkim

strukturama koji omogućava napredno procesiranje od strane strojeva. Pronalaženje

rečenica (eng. sentence retrieval) spada u šire područje pronalaženja informacija i može se

unaprijediti korištenjem dodatnih struktura podataka. Ovaj zadatak spada u šire područje

pronalaženja informacija. Analogan je pronalaženju dokumenata i može se definirati kao

pronalaženje relevantnih rečenica iz skupa dokumenata kao odgovor na upit korisnika.

Pronalaženje rečenica predstavlja prvi korak zadataka kao što su detekcija novosti [2], [3],

[4], [5], [6], [7], odgovaranje na pitanja [7], [8], [9], [10] i sažimanje teksta [11], [12], [13].

U dosadašnjim radovima na temu pronalaženja rečenica korištene su metode iz područja

pronalaženja dokumenata, model vektorskog prostora i model vjerojatnosti upita, koje su

na trivijalan način prilagođene zadatku pronalaženja rečenica. Tako dobivene metode za

pronalaženje rečenica poboljšavane su dodatno koristeći kontekst rečenice. To se pokazalo

uspješnim kod metode vjerojatnosti upita koja predstavlja pristup baziran na modeliranju

jezika [5], [6], [7]. Međutim kada je u pitanju model vektorskog prostora primijenjen na

zadatak pronalaženja rečenica, tj. TF-ISF metoda (Term Frequency – Invers Sentence

Frequency), [14], [15], [16], korištenje dodatnih informacija kao konteksta rečenice u

obliku dokumenta ili susjednih rečenica nije pokazalo poboljšanje u odnosu na osnovnu

metodu [5]. Dosadašnji radovi nisu istražili ni mogućnost stvaranja eksplicitnog zapisa na

razini dokumenta u obliku XML dokumenta ili preciznije OWL (Ontology Web Language)

dokumenta koji se može koristiti za unaprjeđenje pronalaženja rečenica. U ovoj doktorskoj

disertaciji istražiti će se je li moguće iz tekstova izdvojiti dodatne informacije s kojima se

može unaprijediti TF-ISF metoda za pronalaženje rečenica. Također će se istražiti je li tu

istu informaciju moguće eksplicitno zapisati kao dodatak običnom tekstu strukturirajući ga

i tako u širem smislu graditi semantički web.

2

1.1. Hipoteza

Osnovna hipoteza na kojoj se temelji ovaj rad je da je analiziranjem tekstnih dokumenata

moguće automatski generirati dodatnu informaciju s kojom se može unaprijediti TF-ISF

(eng. Term Frequency - Inverse Sentence Frequency) metoda za pronalaženje rečenica.

Drugim riječima u tekstnim dokumentima krije se informacija koja može biti uspješno

korištena za poboljšanje TF-ISF metode. Ovo podrazumijeva sljedeće:

Korištenjem lokalnog konteksta rečenice može se poboljšati TF-ISF metoda.

Korištenjem duljine rečenice može se poboljšati TF-ISF metoda

Još jedna hipoteza istraživanja je kako je također moguće TF-ISF metodu poboljšati

koristeći samo informaciju na razini dokumenta. Ovo podrazumijeva ograničavanje

ocjenjivanja relevantnosti rečenice u smislu da je za obračun ocjene relevantnosti moguće

koristiti informaciju samo iz onog dokumenta u kojem se rečenica nalazi, a ne kao inače

koristiti informacije iz cijelog korpusa (kolekcije) dokumenata.

Na osnovu prethodnih hipoteza moguće je definirati i novi OWL prikaz dokumenta kojeg

je moguće automatski generirati za svaki dokument i koji opisuje dokument neovisno od

ostalih dokumenata u korpusu. OWL prikaz je moguće koristiti za pronalaženje rečenica.

Na takav način se nestrukturirani podaci strukturiraju čime se olakšava i ubrzava računalno

procesiranje dokumenata.

1.2. Znanstveni doprinosi

Osnovni znanstveni doprinosi doktorske disertacije su:

1. TF-ISFcon metoda temeljena na TF-ISF metodi proširenoj uključenjem lokalnog

konteksta rečenice

2. TF-ISFlength metoda temeljena na TF-ISF metodi proširenoj uključenjem

informacije o duljini rečenice.

3

3. TF-ISFcon,length metoda temeljena na TF-ISF metodi proširenoj uključenjem

lokalnog konteksta rečenice i informacije o duljini rečenice.

4. DL TF-ISF, DL TF-ISFcon i DL TF-ISF con,length metode za pronalaženje rečenica na

razini dokumenta bez korištenja cijelog korpusa.

5. Definicija OWL prikaza dokumenta za pronalaženje rečenica.

Dodatni znanstveni doprinosi su

1. Pronalazak efekta unapređenja pronalaženja rečenica istovremenim korištenjem

konteksta rečenice i forsiranja dohvaćanja dugih rečenica kod modela vektorskog

prostora.

2. Ubrzanja procesa pronalaženja rečenica koristeći metode na razini dokumenta

računajući ocjene relevantnosti za vrijeme dohvaćanja dokumenata.

1.3. Struktura disertacije

U poglavlju 2. definirano je područje pronalaženja informacija. Također su predstavljene

osnovne mjere za mjerenje učinkovitosti sustava za pronalaženje dokumenata.

U poglavlju 3. predstavljeno je područje pronalaženja rečenica. Predstavljene su SOTA

(eng. state of the art) metode pronalaženja rečenica. Posebna pažnja je posvećena

metodama koje koriste lokalni kontekst rečenice za unapređenje pronalaženja rečenica.

U poglavlju 4. definirane su i testirane nove metode za pronalaženja rečenica. Najprije su

predstavljeni skupovi podataka sa TREC Staza novosti (eng. Novelty Track) koji se koriste

za testiranje metoda pronalaženja rečenica. Predstavljena su tri skupa podataka sa Staza

novosti iz godina 2002., 2003. i 2004 nad kojima su izvedene empirijske studije unutar ove

disertacije. Zatim je definirana i testirana nova metoda TF-ISFcon. Ova metoda koristi

lokalni kontekst rečenice u cilju unapređenja pronalaženja rečenica. TF-ISFcon je testirana

nad skupovima podataka iz Staza novosti iz 2002., 2003. i 2004. godine koristeći kratke i

duge upite. U testovima nova metoda je uspoređena sa osnovnom TF-ISF metodom i s

prijašnjim pokušajem uključivanja konteksta u TF-ISF metodu nazvaim tfmix. Također su

definirane i testirane nove metode TF-ISFlength i TF-ISFcon,length. Ove metode koriste duljinu

rečenice u cilju unapređenja pronalaženja rečenica. Metode TF-ISFlength i TF-ISFcon,length su

testirane nad skupovima podataka iz Staza novosti iz 2002., 2003. i 2004. godine koristeći

4

kratke upite. Nove metode uspoređene su sa SOTA TF-ISF baziranim metodama kao i sa

SOTA metodom iz područja modeliranja jezika (varijantom mješavine tri modela). U

nastavku ovog poglavlja definirane su i testirane varijante već spomenutih novih metoda

(TF-ISFcon i TF-ISFcon,length) koje koriste informacije na razini dokumenta odnosno DL TF-

ISFcon i DL TF-ISFcon,length. Nove metode su testirane na skupovima podataka iz Staza

novosti iz 2002., 2003. i 2004. godine koristeći kratke upite. Demonstrirana je prednost

metoda na razini dokumenta kada je u pitanju brzina davanja odgovora krajnjem korisniku

koja dolazi od mogućnosti računanja ocjena relevantnosti rečenica prije nego što su

dohvaćene sve rečenice.

U poglavlju 5. definiran je OWL (eng. Ontology Web Language), [17] prikaz dokumenta

koji se bazira na metodi DL TF-ISFcon,length i koji olakšava implementaciju sustava za

pronalaženje rečenica. Demonstrirano je na koji se način prikaz dokumenta može

automatski generirati. Također je prikazano na koji se način novi prikaz dokumenta može

koristiti za pronalaženje rečenica.

Doktorska disertacija u poglavlju 6. završava sa zaključkom, nakon kojeg su navedene

literatura i dodaci.

5

2. PRONALAŽENJE INFORMACIJA

Pronalaženje informacija (eng. Information Retrieval - IR) može se definirati kako slijedi:

Pronalaženje informacija je pronalaženje materijala (obično dokumenata)

nestrukturirane prirode (obično tekstne) koji zadovoljavaju određenu informacijsku

potrebu unutar velikih kolekcija (obično spremljenih na računalima), [18].

Pronalaženje informacija bavi se sa prezentacijom, pohranom, organizacijom i

pristupanjem informacijskim stavkama [19].

Pronalaženje informacija često se poistovjećuje sa pronalaženjem dokumenata.

Pronalaženje dokumenata može se definirati kao:

Pronalaženje dokumenata je računalni proces generiranja rangirane liste

relevantnosti dokumenata kao odgovor na upit korisnika uspoređujući upit sa

automatski produciranim indeksom dokumenata u sustavu [20].

Pronalaženje dokumenata sastoji se od dohvaćanja dokumenata ili tekstnih isječaka

iz skupa dokumenata koji zadovoljavaju određenu informacijsku potrebu [6].

Osnovni pojmovi koje se koriste kod pronalaženja informacija su [18]:

Informacijska potreba (eng. information need)

Upit (eng. query)

Indeks (eng. index)

Relevantnost (eng. relevance)

Preciznost (eng. precision)

Odaziv (eng. recall)

Informacijska potreba je tema o kojoj korisnik želi saznati više. Upit je ono što korisnik

preda računalu u cilju prenošenja informacijske potrebe i sastoji se obično od nekoliko

ključnih izraza. Indeks je podatkovna struktura koja sadrži vezu od izraza do dokumenata

iz kolekcije koji sadrže izraz. Dokument je relevantan ako korisnik smatra da sadrži

6

korisnu informaciju u odnosu na informacijsku potrebu. Uspješnost sustava za

pretraživanje informacija se mjeri preciznošću (eng. precision) i odazivom (eng. recall)

koji se mogu definirati kako slijedi [18]:

Preciznost je razlomak pronađenih dokumenata koji su relevantni.

Odaziv je razlomak relevantnih dokumenata u kolekciji dobivenih sustavom.

Općenito, sustavi za pronalaženje dokumenata nastoje iz kolekcije dokumenata pronaći

dokumente koji odgovaraju upitu korisnika. Pritom se koristi indeks dokumenata koji

olakšava pronalaženje. Koristeći upit korisnika i indeks dokumenata sustav za traženje

dokumenata može, koristeći određene mjere sličnost, ocijeniti (odnosno izračunati)

relevantnost svakog dokumenta. Krajnjem korisniku se najčešće prezentira rezultat u

obliku liste u kojoj se na početku nalaze dokumenti sa najvećom izračunatom

relevantnošću. Krećući se dalje kroz listu relevantnost dokumenata opada. Na kraju liste su

dokumenti sa najnižom relevantnošću.

2.1. Mjerenje učinkovitosti sustava za pretraživanje informacija

Mjere učinkovitosti sustava za pretraživanje informacija mogu se podijeliti na dvije

skupine prema obliku rezultata na

Mjere za ne-rangirane rezultate

Mjere za rangirane rezultate

2.1.1. Mjere za ne-rangirane rezultate

Već su spomenute osnovne mjere učinkovitosti, preciznost i odaziv. Koriste se u slučaju

kad sustav za pronalaženje informacija vraća rezultat u obliku skupa ne-rangiranih

dokumenata. One se mogu formalno definirati kao u [21]. Ovdje prikazani opis odgovara

opisu iz [21] uz modifikacije radi boljeg uklapanja u područje pretraživanja informacija.

7

Pretpostavimo da imamo kolekciju dokumenata퐷 od kojih je samo jedan dio 휋 (휋 ⊆ 퐷)

relevantan. Pretpostavimo da sustav za pretraživanje pronađe dio dokumenata 푅(푅 ⊆ 퐷)

iz D. Neka je 퐻 (퐻 ⊆ 푅) dio dokumenata iz 푅 koji je relevantan (H dolazi od eng. hits ili

pogodak). Drugim riječima 퐻 = 푅 ∩ 휋. Ovo je shematski prikazano na slici 2.1.

Slika 2.1. Shematski prikaz skupova korištenih za mjere preciznost i odaziv

Odaziv 푟 je razlomak relevantnih dokumenata u kolekciji dobivenih sustavom i definira se

kao u jednadžbi (2.1):

푟 =퐻휋=푅 ∩ 휋휋

=|{푃푟표푛푎đ푒푛푖푑표푘푢푚푒푛푡푖} ∩ {푅푒푙푒푣푎푛푡푛푖푑표푘푢푚푒푛푡푖}|

|{푅푒푙푒푣푎푛푡푛푖푑표푘푢푚푒푛푡푖}| (2.1)

Preciznost 푝 je razlomak pronađenih dokumenata koji su relevantni i definira se kao u

jednadžbi (2.2):

푝 =퐻푅=푅 ∩ 휋푅

=|{푃푟표푛푎đ푒푛푖푑표푘푢푚푒푛푡푖} ∩ {푅푒푙푒푣푎푛푡푛푖푑표푘푢푚푒푛푡푖}|

|{푃푟표푛푎đ푒푛푖푑표푘푢푚푒푛푡푖}| (2.2)

Koja je od ove dvije mjere važnija ovisi od vrsti korisnika [18]. Tipičan korisnik weba

(surfer) želi rezultat koji se sastoji od manjeg skup dokumenata u kojem su gotovo svi

dokumenti relevantni i ne želi sve relevantne dokumente. To znači da mu je važna

preciznost, a spreman je prihvatiti nizak odaziv. Za razliku od toga profesionalcima je

8

često važno pronaći što više relevantnih dokumenata. To znači da im je važan odaziv. Pri

tom su spremni prihvatiti nisku preciznost.

Preciznost i odaziv se ponašaju suprotno kada je u pitanju povećavanje i smanjenje broja

dokumenata u rezultatu. Sa povećanjem broja dokumenata preciznost opada, a odaziv raste

a sa smanjenjem broja dokumenata preciznost raste, a odaziv opada. Međutim, u većini

slučajeva od važnosti su obadvije mjere. Iz tog razloga se često koristi i F-mjera koja

kombinira i preciznost i odaziv [18].

2.1.2. Mjere za rangirane rezultate

Mjere preciznost i odaziv baziraju se na skupu dokumenata vraćenih u rezultatu ne

uzimajući u obzir redoslijed dokumenata. Međutim ako je rezultat u obliku rangirane liste

onda je potrebno koristiti mjere koje uzimaju u obzir i redoslijed dokumenata. Postoji

mogućnost korištenja preciznost-odaziv krivulje na način da se promatra preciznost i

odaziv za svaki rezultat u obliku top k rangiranih dokumenata (slika 2.2., zupčasta

krivulja). Da bi se uklonili vršci krivulje, krivulja se obično definira koristeći interpoliranu

preciznost 푝 (jednadžba (2.3)) koja predstavlja najveću preciznost za bilo koji odaziv

푟 > 푟 [18]:

푝 (푟) = max 푝(푟′) (2.3)

Primjer preciznost-odaziv krivulje sa interpoliranom preciznošću je prikazan na slici 2.2.

(slika 2.2., stepenasta krivulja).

9

Slika 2.2. Preciznost-odaziv krivulja [18]

Učinkovitost sustava se može ocijeniti analizirajući preciznost-odaziv krivulju. Međutim, u

zadnje vrijeme se sve više koriste mjere kao što su MAP (eng. Mean Average Precision),

R-precision i P@10 [18], [5], [6], [7]. Ove mjere iskazuju učinkovitost sustava jednom

vrijednošću.

Glavnu ulogu u istraživanjima provedenim u sklopu ove doktorske disertacije koja će biti

prezentirana u sljedećim poglavljima ima mjera srednja prosječna preciznost ili skraćeno

MAP. Ova mjera se pokazala dobrom kada je u pitanju stabilnost i mogućnost razlikovanja

(eng. discrimination) i predstavlja standardnu mjeru TREC zajednice [18]. Prosječna

preciznost (eng. Average Precision) za jedan upit računa se kao prosjek preciznosti top k

dokumenata nakon što je svaki relevantni dokument dohvaćen s tim što je u slučaju kad se

određeni relevantni dokument uopće ne dohvati preciznost jednaka nula. [18], [22].

Srednja vrijednost (tj. prosjek) svih prosječnih preciznosti je srednja prosječna preciznost

ili MAP. Prosječna preciznost i srednja prosječna preciznost mogu se formalno definirati

kao u [18] i [5] kako slijedi:

Neka je

푄 skup upita,

10

푞 ∈ 푄 upit,

푚 broj relevantnih dokumenata za upit 푞 ,

푑 , 푑 ,… , 푑 skup relevantnih dokumenata za upit 푞 ,

푅 skup rangiranih dokumenata iz rezultata kao odgovor na upit 푞 od gornjeg

(top) dokumenta do dokumenta 푑

푛 broj dohvaćenih dokumenata kao odgovor na upit 푞

onda je prosječna preciznost definirana kao

퐴푣푔푃푟푒푐 푞 =1푚

푝(푅 ) (2.4)

gdje je 푝 푅 definiran kao u jednadžbi (2.5):

푝 푅 =푏푟표푗푟푒푙푒푣푎푛푡푛푖ℎ푑표푘푢푚푒푛푎푡푎푢푅

푅푎푘표푗푒푑 푟푒푙푒푣푎푛푡푎푛

0푖푛푎č푒

� (2.5)

Srednja prosječna preciznost za skup upita Q je definirana kao (jednadžba (2.6) i jednadžba

(2.7)):

푀퐴푃(푄) =1|푄|

퐴푣푔푃푟푒푐 푞

| |

(2.6)

Kada uvrstimo jednadžbu za prosječnu preciznost dobijemo:

푀퐴푃(푄) =1|푄|

1푚

푝(푅 )

| |

(2.7)

Za mnoge aplikacije kao što je npr. pretraživanje weba od važnosti je da među prvim

dokumentima iz rezultata bude što više relevantnih. U tu svrhu se korist mjera preciznost

na x ili P@x gdje je x cijeli broj i iznosi obično 5, 10, 15, 20 itd. P@x za jedan upit može

se definirati kako slijedi (jednadžba (2.8)):

11

푃@푥 푞 =푏푟표푗푟푒푙푒푣푎푛푡푛푖ℎ푑표푘푢푚푒푛푎푡푎푢푡표푝푥푑표ℎ푣푎ć푒푛푖ℎ

푥 (2.8)

Prosječna preciznost na x za skup od više upita Q je definirana kao (jednadžba (2.9));

퐴푣푔푃@푥(푄) =1|푄|

푃@푥 푞

| |

(2.9)

U sljedećim poglavljima koristiti će se naziv 푃@푥 a za prosječnu preciznost na x za skup

upita, 퐴푣푔푃@푥(푄), što je uobičajeno u sličnim radovima [5], [7].

Kao dodatna mjera bit će korištena i R-precision mjera koja se empirijski pokazala u jakoj

korelaciji sa MAP mjerom [18]. R-precision se može definirati kako slijedi:

푅 − 푝푟푒푐푖푠푖표푛(푞 ) =푟

|푅푒푙| (2.10)

Gdje je:

|Rel| broj dokumenata koji su relevantni u odnosu na upit 푞 ,

r je broj relevantnih dokumenata u top |Rel| dokumenata rezultata.

Prosječna vrijednost R-precision za skup upita Q je definirana kao:

퐴푣푔푅 − 푝푟푒푐푖푠푖표푛 =1|푄|

푅 − 푝푟푒푐푖푠푖표푛(푞 )

| |

(2.11)

Analogno P@x mjeri i za AvgR-precision mjeru će se koristiti oznaka R-precision.

12

3. PRONALAŽENJE REČENICA

Pronalaženje rečenica je zadatak koji se sastoji od pronalaženja relevantnih rečenica iz

skupa rečenica kao odgovor na upit. Pod skupom rečenica nad kojim se vrši pretraživanje

obično se podrazumijevaju sve rečenice sadržane u korpusu dokumenata (odnosno bazi

dokumenata). Upit se obično sastoji od nekoliko ključnih riječi, ali može biti i cijela

rečenica ili više rečenica. Pronalaženje rečenica definira se kao:

„Zadatak pronalaženja rečenica sastoji se od pronalaženja relevantnih rečenica iz

baze dokumenata ako je zadan upit.“ [5]

„Pronalaženje rečenica je zadatak dohvaćanja relevantne rečenice kao odgovor na

upit, pitanje ili referentnu rečenicu." [7]

Pronalaženje rečenica koristi se kod sljedećih zadataka iz područja pronalaženja

informacija:

Detekcija novosti (eng. novelty detection), [2], [3], [4], [5], [6], [7]

Odgovaranje na pitanja (eng. question answering) [7], [8], [9], [10]

Sažimanje teksta (eng. text summarization), [11], [12], [13].

Traženje rečenica je relativno novo i nedovoljno istraženo područje. Traženje rečenica se

najčešće smatra traženjem dokumenata i metode koje se primjenjuju kod traženja

dokumenata primjenjuju se i na traženje rečenica. U svrhu implementiranja sustava za

pronalaženje rečenica koriste se modificirane metode pronalaženja dokumenata poput TF-

IDF (eng. Term Frequency-Inverse Document Frequency), model vjerojatnosti upita i

BM25 u kojima je umjesto dokumenta jedinica traženja rečenica. Slijedi opis metoda

pronalaženja rečenica.

13

3.1. Model vektorskog prostora i pronalaženje rečenica

Model vektorskog prostora (eng. vector-space model) je jedan od najčešće korištenih

modela za pretraživanje informacija [7]. Ovaj se model koristi za pretraživanje

dokumenata i za pretraživanje rečenica. Većina web tražilica koristi ovaj model [18].

Kod modela vektorskog prostora i dokumenti i upit su predstavljeni kao vektori. Preciznije,

neka je 푇 skup svih izraza koji se koriste u sustavu za pretraživanje dokumenata tj.:

푇 = (푡 , 푡 , … , 푡 ) (3.1)

Gdje je:

푛 broj različitih izraza koji se koriste u sustavu za pretraživanje dokumenata.

Koristeći skup 푇 mogu se definirati vektori za dokument 푑 i upit 푞 kao (jednadžba (3.2) i

(3.3)):

푑 = (푤 ,푤 ,… ,푤 ,… ,푤 ) (3.2)

푞 = (푤 ,푤 ,… ,푤 , … ,푤 ) (3.3)

Gdje je:

푤 težina izraza 푡 u dokumentu 푑,

푤 težina izraza 푡 u upitu 푞.

Sličnost između vektora dokumenta i vektora upita mjeri se pomoću produkta vektora:

푠푙푖č푛표푠푡(푞, 푑) = 푤 ∙푤 (3.4)

Kolekcija dokumenata se sastoji od dokumenata različite duljine. Budući da su dulji

dokumenti predstavljeni duljim vektorom takvi dokumenti imaju veću vjerojatnost da budu

ocjenjeni relevantnim nego kratki dokumenti. Iz tog razloga se često koristi normalizacija

14

vektora dokumenta. Ako se uz to primjeni i normalizacija vektora upita dobije se formula

sličnosti u obliku kosinusa kuta između vektora dokumenta i upita koja se često koristi za

pretraživanje dokumenata (jednadžba (3.5)), [23], [7]:

푠푙푖č푛표푠푡(푞, 푑) =∑ 푤 ∙푤

∑ (푤 ) ∑ (푤 ) (3.5)

Na slici 3.1. shematski je prikazan postupak pronalaženja dokumenata čiji su vektori

najsličniji vektoru upita.

Slika 3.1. Ilustracija modela vektorskog prostora pronalaženja dokumenata

Da bi se izračunale težine izraza za dokumente polazi se od činjenice da su najbolji izrazi

oni koji pomažu prilikom razlikovanja individualnih dokumenata od ostatka kolekcije [23].

U takve izraze spadaju oni koji se često pojavljuju u individualnom dokumentu a rijetko u

kolekciji. Iz tog razloga se koristi TF-IDF mjera koja predstavlja produkt frekvencije

izraza u individualnom dokumentu i invertne frekvencije dokumenta.

15

Kao što joj naziv govori TF-IDF mjera između ostalog uzima u obzir frekvenciju izraza

(eng. Term Frequency) odnosno broj pojavljivanja određenog izraza u dokumentu da bi

procijenila relevantnost tog izraza u odnosu na dokument. Npr. pretpostavka je da

dokument u kojem se izraz „razvoj“ pojavljuje pet puta ima više veze sa upitom „razvoj

benzinskog motora“ nego dokument u kojem se „razvoj“ pojavljuje jedanput.

Najjednostavniji oblik frekvencije izraza definiran je formulom:

푡푓 , = 푐(푡 , 푑) (3.6)

Gdje je:

푡 izraz,

푑 dokument,

푐(푡 , 푑) broj pojavljivanja izraza 푡 u dokumentu 푑.

S druge strane nisu svi izrazi iz dokumenta jednako važni kada je u pitanju odabir

relevantnog dokumenta. Neke riječi imaju malo ili nimalo diskriminatorskog potencijala

kod određivanja relevantnosti [18]. Npr. ako pretražujemo kolekciju dokumenata u vezi

povijesti automobila onda će vjerojatno svaki dokument sadržavati izraz „auto“. Zato je

potrebno smanjiti težinu ovog izraza. Ovo se može postići smanjujući težinu izraza

množeći je invertnom frekvencijom dokumenata. Jedna od najjednostavnijih korištenih

formula za invertnu frekvenciju dokumenta je:

푖푑푓 = log푁푛

(3.7)

Gdje je:

푁 broj dokumenata u korpusu,

푛 broj dokumenata koji sadrža izraz 푡 .

Konačno mjera TF-IDF se računa kao produkt frekvencije izraza 푡푓 , i invertne

frekvencije dokumenta 푖푑푓 tj.:

푇퐹 − 퐼퐷퐹 = 푤 , = 푡푓 , ∙ 푖푑푓 (3.8)

16

Gdje je:

푤 , težina izraza 푡 u dokumentu 푑.

Postoje razne varijante TF-IDF mjere koje modificiraju 푡푓 , i 푖푑푓 komponentu [18],

[23]. Također se može opcionalno koristiti i određena vrsta normalizacija da bi se smanjio

utjecaj veličine dokumenta na ocjenu relevantnosti [18], [23]. Općenito je potrebno i za

vektor dokumenta i za vektor upita izabrati vrstu frekvencije izraza, vrstu invertne

frekvencije dokumenata i vrstu normalizacije.

3.1.1. Varijante frekvencije izraza

Jedna od uobičajenih varijanti frekvencije izraza koristi logaritam frekvencije umjesto

obične frekvencije. Pretpostavka je da npr. 10 pojavljivanja određenog izraza u dokumentu

ipak nije 10 puta vrjednije od jednog pojavljivanja. Formula koja se koristi je [18],

(jednadžba (3.9)):

푡푓 , = 1 + log 푐(푡 , 푑) 푎푘표푗푒푐(푡 , 푑) > 00푖푛푎č푒

� (3.9)

Gdje je:

푐(푡 , 푑) broj pojavljivanja izraza 푡 u dokumentu 푑.

Druga uobičajena varijanta frekvencije izraza koristi maksimalnu frekvenciju izraza u

dokumentu [18]. Polazi se od pretpostavke da se u dugim dokumentima pojavljuju visoke

frekvencije izraza iz razloga što dugi dokumenti teže stalnom ponavljanju jednih te istih

riječi. Da bi se ovaj problem riješio koristi se formula za frekvenciju izraza u kojoj se

frekvencija izraza dijeli sa maksimalnom frekvencijom izraza u dokumentu 푐 (푑) =

푚푎푥 ∈ 푐(푡 , 푑) kako slijedi (jednadžba (3.10)):

푡푓 , = 푎 + (1 − 푎)푐(푡 , 푑)푐 (푑)

(3.10)

17

Gdje je:

푎 između 0 i 1 i predstavlja parametar za izglađivanje koji sprječava velike

skokove 푡푓 , u odnosu na male promjene 푐(푡 , 푑).

푐 (푑) = 푚푎푥 ∈ 푐(푡 , 푑) maksimalna frekvencija izraza u dokumentu d.

Parametar 푎 ograničave 푡푓 , na vrijednosti između 푎 i 1. Uobičajeno se koristi 푎 = 0,5

[24].

3.1.2. Varijante invertne frekvencije dokumenta

Pored spomenute formule za invertnu frekvenciju dokumenta (푖푑푓 = log ) moguće je

koristiti i probabilističku invertnu frekvenciju dokumenta koja se oslanja na probabilistički

model pretraživanja informacija [23], (jednadžba (3.11)):

푖푑푓 = log푁 − 푛푛

(3.11)

Gdje je:

푁 broj dokumenata u kolekciji,

푛 broj dokumenata u kolekciji koji sadrži izraz 푡 .

3.1.3. Varijante normalizacije

Pored već korištene kosinus normalizacije

1

푤 +푤 +⋯+ 푤 (3.12)

moguće je koristiti i tzv. bajtnu (eng. byte size) normalizaciju

1

퐵푟표푗푍푛푎푘표푣푎푈퐷표푘푢푚푒푛푡푢 (3.13)

18

gdje je 훼 < 1. Također je moguće i ne koristiti normalizaciju.

Da bi se mogla prikazati kombinacija varijante frekvencije izraza, invertne frekvencije

dokumenta i normalizacije koristi se takozvana SMART notacija. Inače SMART (eng.

System for the Mechanical Analysis and Retrieval of Text) je sustav za pretraživanje

informacija razvijen šezdesetih godina na Cornel sveučilištu [25]. SMART notacija se

sastoji od slova u obliku ddd.qqq gdje prva tri slova (ddd) označavaju težinu izraza vektora

dokumenta a druga tri slova (qqq) težinu izraza vektora upita. I kod dokumenta i kod upita

prvo slovo označava varijantu frekvencije izraza, drugo slovo varijantu invertne

frekvencije dokumenata i treće slovo varijantu normalizacije. Primjeri varijacija

komponenti TF-IDF metode kao i oznake za SMART notaciju su prikazane u tablicama

3.1. - 3.3. Npr. jedna od uobičajenih kombinacija je lnc.ltc.

Tablica 3.1. Varijante komponente frekvencije izraza za TF-IDF metodu s odgovarajućim

nazivima i oznakama SMART notacije

Frekvencija izraza

Oznaka Naziv Formula

n Prirodna (eng. natural) 푐(푡 , 푑)

l Logaritamska (eng. logarithm) 1 + log 푐(푡 , 푑)

a Proširena (eng. augmented) 0,5 + (1 − 0,5)

푐(푡 , 푑)푐 (푑)

b Booleova (eng. boolean) 1, 푎푘표푗푒푐(푡 , 푑) > 00, 푖푛푎č푒

�

19

Tablica 3.2. Varijante komponente invertne frekvencije dokumenata za TF-IDF metodu s

odgovarajućim nazivima i oznakama SMART notacije

Invertirana frekvencija dokumenata


n Ne (eng. no) 1

t idf log푁푛

p Probabilistički idf (eng.

probabilistic idf) log

푁 − 푛푛

Tablica 3.3. Varijante komponente normalizacije za TF-IDF metodu s ogovarajućim

nazivima i oznakama SMART notacije

Normalizacija


n Bez normalizacije (eng. none) 1

c Kosinus (eng. cosine) 1

푤 +푤 +⋯+푤

b Bajtna (eng. byte size) 1퐵푟표푗푍푛푎푘표푣푎푈퐷표푘푢푚푒푛푡푢

, 훼 < 1

3.1.4. Model vektorskog prostora primijenjen na pronalaženje rečenica

Model vektorskog prostora se može primijeniti i na pronalaženje rečenica [5], [14], [16],

[26], [27]. To se može postići na način da se rečenica smatra dokumentom.

Kao što je već spomenuto, kod primjene modela vektorskog prostora na pronalaženje

dokumenata potrebno je i dokumente i upite prikazati kao vektore koji se sastoje od težina

izraza. Zatim se koristi određena mjera sličnosti da bi se ocijenila relevantnost svakog

dokumenta. Krajnji rezultat je lista dokumenata sa padajućom relevantnošću prezentirana

krajnjem korisniku.

Kod primjene modela vektorskog prostora na pronalaženje rečenica polazi se od trivijalne

pretpostavke da je pronalaženje rečenica analogno pronalaženju dokumenata i model se

20

modificira na odgovarajući način. Drugim riječima vektor dokumenata se zamjenjuje

vektorom rečenice.

Kod modela vektorskog prostora primijenjenog na pronalaženje rečenica i rečenica i upit

su predstavljeni kao vektori koji se sastoje od težina izraza. Da bi se ocijenila relevantnost

svake rečenice u odnosu na postavljeni upit koristi se mjera sličnosti između vektora

rečenice i vektora upita. Koristeći dobivene ocjene pridružene rečenicama krajnjem

korisniku se nudi rezultat u obliku liste rečenica sa padajućom relevantnošću.

Detalji primjene vektorskog prostora na pronalaženje rečenica su opisani u [14]. Točnije

Allan definira funkciju za relevantnost rečenice s za zadan upit 푞 kao:

푅(푠|푞) = log(푐(푡, 푞) + 1)log(푐(푡, 푠) + 1)log푁 + 1

0.5 + 푠푓(푡)∈

(3.14)

Gdje je:

푐(푡, 푞) broj pojavljivanja izraza 푡 u upitu 푞,

푐(푡, 푠) broj pojavljivanja izraza 푡 u rečenici 푠,

푠푓(푡) broj rečenica koje sadrže izraz 푡,

푁 broj rečenica u kolekciji.

Gornja funkcija se koristi za računanje ocjene relevantnosti rečenice 푠 u odnosu na upit 푞.

Ona krije u sebi težinsku funkciju vektora rečenice, težinsku funkciju vektora upita i mjeru

sličnosti između vektora rečenice i vektora upita.

Ako je vektor rečenice zadan kao:

푠 = (푤 ,푤 ,… ,푤 ,… ,푤 ) (3.15)

onda je težinska funkcija vektora S koja se koristi u jednadžbi (3.14) definirana kao:

푤 = log(푐(푡, 푠) + 1) (3.16)

Ako je vektor upita zadan kao

21

푞 = (푤 ,푤 ,… ,푤 , … ,푤 ) (3.17)

Onda je težinska funkcija vektora 푞 koja se koristi u jednadžbi (3.14) definirana kao

푤 = log(푐(푡, 푞) + 1) log푁 + 1

0.5 + 푠푓(푡) (3.18)

Težinska funkcija vektora upita 푤 predstavlja varijantu TF-IDF funkcije prilagođenu

procesu pronalaženju rečenica [14]. Težinska funkcija vektora rečenice predstavlja

varijantu obične frekvencije izraza (eng. term fequency). Mjera koja se u ovom slučaju

koristi za sličnost između dva vektora je skalarni produkt (jednadžba 3.14).

Da bi se mogla razlikovati primjena TF-IDF težinske funkcije kod pronalaženja

dokumenata i primjene TF-IDF funkcije kod pronalaženja rečenica u literaturi se koristi i

skraćenica TF-ISF koja označava primjenu TF-IDF funkcije na pronalaženje rečenica [5],

[14], [16], [26], [27].

3.2. Modeliranje jezika i pronalaženje rečenica

Statistički model jezika predstavlja razdiobu vjerojatnosti nad nizovima izraza. Statistički

modeli jezika se npr. primjenjuju kod prepoznavanje govora (eng. speech recognition),

[28].

Niz izraza se može definirat kao (푤 ,푤 ,… , 푤 ) gdje je vjerojatnost niza označena kao

P(푤 ,푤 ,… , 푤 ). Nizovi se mogu odnosit na fraze ili rečenice. Vjerojatnost niza izraza

P(푤 ,푤 ,… , 푤 ) računa se koristeći korpus dokumenata. Računanje vjerojatnosti nizova je

računalno zahtjevno budući da nizovi mogu biti proizvoljne duljine i da se koriste veliki

korpusi dokumenta [28]. Stoga se u praksi koriste n-gram modeli jezika koji aproksimiraju

model jezika. Npr. Mogu se koristiti unigram, bigram i trigram modeli. Kod ovih modela

vjerojatnosti se računaju na sljedeći način [28]:

Unigram: 푃(푤 ,푤 , … ,푤 ) = 푃(푤 ) 푃(푤 ) ∙∙∙ 푃(푤 )

22

Bigram: 푃(푤 , 푤 ,… , 푤 ) = 푃(푤 ) 푃(푤 |푤 ) ∙∙∙ 푃(푤 |푤 )

Trigram: 푃(푤 ,푤 , … ,푤 ) = 푃(푤 ) 푃(푤 |푤 )푃(푤 |푤 , 푤 ) ∙∙∙∙∙∙ 푃(푤 |푤 , 푤 )

Najjednostavniji model je unigram. Unigram modeli polaze od pretpostavke da je svaki

izraz neovisan o drugim izrazima.

Modeliranje jezika se također primjenjuje na pronalaženje dokumenata [29]. Model jezika

primijenjen na pronalaženje dokumenata se naziva i model vjerojatnosti upita.

3.2.1. Model vjerojatnosti upita

Kod ovoga modela cilj je dobiti vjerojatnost dokumenta 푑 ako je poznat upit 푞, odnosno

cilj je izračunati vjerojatnost 푃(푑|푞) . Ova vjerojatnost se ne računa direktno nego se

koristi Bayesov teorem pomoću kojeg se može dobiti sljedeća jednadžba:

푃(푑|푞) =푃(푞|푑)푃(푑)

푃(푞) (3.19)

Vjerojatnost upita 푃(푞) smatra se jednakim za svaki dokument i zato nema utjecaja na

redoslijed dokumenata u rezultatu. Također se i vjerojatnost svakog dokumenta 푃(푑)

smatra jednakom tako da ni ona nema utjecaja na rezultat. Ako se ove dvije činjenice uzmu

o obzir dobije se jednadžba:

푃(푑|푞) = 푃(푞|푑) (3.20)

Sada se dokumenti mogu poredati prema vjerojatnosti pojavljivanja upita 푞 kao slučajnog

uzorka dokumenta 푑 . Ova metoda pretraživanja dokumenata se zato naziva i „model

vjerojatnosti upita“.

Vjerojatnost upita q ako je zadan dokument 푑se može procijeniti koristeći unigram model

jezika. Drugim riječima pretpostavi se da je vjerojatnost pojedinačnih izraza neovisna o

drugim izrazima. U takvom slučaju vjerojatnost pojavljivanja upita 푞 u dokumentu 푑 se

računa kao produkt vjerojatnosti pojavljivanja pojedinačnih izraza:

23

푃(푞|푑) = 푃(푡|푑) ( , )

∈

(3.21)

Gdje je:

푐(푡, 푞) broj pojavljivanja izraza 푡 u upitu 푞.

Vjerojatnost 푃(푡|푑) se računa kao broj pojavljivanja izraza 푡 u dokumentu 푑 , odnosno

푐(푡, 푑) podijeljen sa brojem izraza u dokument 푑 odnosno |푑|:

푃(푡|푑) =푐(푡, 푑)|푑|

(3.22)

Model jezika se analogno može primijeniti i na pronalaženje rečenica. Jednadžba za

vjerojatnost upita primijenjena na pronalaženje rečenica je analogna jednadžbi (3.21) i

glasi:

푃(푞|푠) = 푃(푡|푠) ( , )

∈

(3.23)

푃(푡|푠) =푐(푡, 푠)|푠|

(3.24)

Gdje je:

푐(푡, 푆) broj pojavljivanja izraza 푡 u rečenici 푠,

|푠| duljina rečenice 푠.

3.2.1.1. Izglađivanje

Kod modela vjerojatnosti upita dovoljno je da se samo jedna riječ iz upita ne pojavljuje u

rečenici da bi vjerojatnost 푃(푞|푑) bila 0 (jednadžba (3.23)). Ovaj se problem često naziva

problem nulte vjerojatnosti (eng. zero probability problem), [30], [31]. Takva se situacija

rješava izglađivanjem (eng. smoothing) odnosno davanjem vrijednosti različite od 0

24

izrazima koji se pojavljuju u upita, a ne pojavljuju se u rečenici. Uobičajene metode za

izglađivanje miješaju model rečenice sa modelom kolekcije [31]. Postoji cijeli niz metoda

za izglađivanje [32], [30]. Međutim, dvije metode koje se najčešće koriste kod

pretraživanja rečenica su Jelinek-Mercer izglađivanje i Dirichlet izglađivanje.

Jelinek-Mercer izglađivanje se zasniva na linearnoj interpolaciji distribucije vjerojatnosti

rečenice i distribucije vjerojatnosti kolekcije. Ako se Jelinek-Mercer izglađivanje primjeni

na jednadžbu (3.23) dobije se:

푃(푞|푠) = [(1 − 휆)푃(푡|푠) + 휆푃(푡)] ( , )

∈

(3.25)

Gdje je:

푃(푡) vjerojatnost pojavljivanja izraza u kolekciji,

휆 parametar za podešavanje jačine izglađivanja.

Ako se Dirichlet izglađivanje primjeni na jednadžbu (3.23) dobije se:

푃(푞|푠) =푐(푡, 푠) + 휇푃(푡)

|푠| + 휇∈

(3.26)

Gdje je:

푐(푡, 푠) broj pojavljivanja izraz 푡 u rečenici 푠,

|푠| duljina rečenice,

휇 parametar za podešavanje jačine izglađivanja.

Kada je u pitanju pronalaženje dokumenata studije su pokazale da Dirichlet izglađivanje

ima bolje performanse od Jelinek-Mercer izglađivanja [30]. Za razliku od Jelinek-Mercer

izglađivanja Dirichlet izglađivanje određuje jačinu izglađivanja koristeći duljinu

dokumenta. Dirichlet izglađivanje se pokazalo kao bolje jer se u rezultatu dobiju

dokumenti koji svojom duljinom više sliče relevantnim dokumentima [30].

25

3.3. BM25

U svrhu pretraživanja rečenica također se višestruko koristila i popularna BM25 metoda za

pretraživanje dokumenata [33], [34]. Ova metoda predstavlja primjenu probabilističkog

pretraživanja informacija koje za rangiranje dokumenata koristi vjerojatnost da je

dokument relevantan u odnosu na upit [18].

Funkcija za rangiranje metode BM25 koja se koristi za pronalaženje rečenica je definirana

kao [5]:

푅(푠|푞) = 푙표푔푁 − 푠푓(푡) + 0,5푠푓(푡) + 0,5

∙(푘 + 1)푐(푡, 푠)

푘1 (1 − 푏) + 푏 |푠|푎푣푠푙 + 푐(푡, 푠)

∙∈

(푘 + 1)푐(푡, 푞)푘 + 푐(푡, 푞)

(3.27)

Gdje je:

푁 broj rečenica u kolekciji,




|푠| duljina rečenice 푠,

푎푣푠푙 je prosječna duljina rečenice,

푘 ,푘 i 푏 su parametri koji se podešavaju.

Nakon podešavanja parametara ova metoda ima usporedive performanse kao TF-ISF

metoda [35], [5]. Međutim za razliku od TF-ISF zahtijeva podešavanje što je čini težom za

implementiranje.

3.4. Povratna informacija relevantnosti i proširivanje upita

Krajnjem korisniku nije uvijek lako postaviti kvalitetan upit na koji će dobiti dobre

rezultate. Razlog leži u tome što se u dokumentima često za isti koncept koriste različiti

izraz od onoga u upitu (npr. avion↔zrakoplov). Da bi riješili ovaj problem korisnici često

samostalno mijenjaju tj. poboljšavaju upit da bi dobili bolje rezultate. Međutim postoje i

26

metode koje mogu pomoći korisniku oko poboljšavanja upita ili čak potpuno automatizirati

poboljšavanje upita. Metode se mogu podijeliti na globalne i lokalne. Globalne metode su

neovisne o upitu i o prvom rezultatu. U globalne metode spadaju

proširivanje upita koristeći tezaurus ili WordNet [36]

proširivanje upita koristeći automatsko generiranje tezaurusa.

Lokalne metode koriste upit i prvi rezultat da bi proširile upit. U ove metode spadaju

povratna informacije relevantnosti

pseudo povratna informacija relevantnosti

3.4.1. Globalne metode proširivanja upita

Globalne metode proširivanja upita koriste tezaurus za dodavanje novih izraza u upit koji

predstavljaju sinonime postojećih. U tu svrhu se može koristiti gotov tezaurus ili ga se

može automatski generirati.

Primjer gotovog tezaurusa je UMLS (eng. Unified Medical Language System) koji se

koristi za proširivanje upita prilikom pretraživanje biomedicinske literature [37]. Također

se za proširivanje upita koristi i WordNet [36] u npr. [38]. Kada je u pitanju automatsko

generiranje tezaurusa onda se to može odraditi koristeći zajedničko pojavljivanje izraza u

dokumentima [39]. Također se može koristiti i gramatička analiza [40].

3.4.2. Povratna informacija relevantnosti

Pod povratnom informacijom relevantnosti (eng. relevance feedback) podrazumijeva se

aktivno uključivanje korisnika u proces pretraživanja informacija u smislu da se od

korisnika dobije povratna informacija o relevantnosti dokumenata iz početnog rezultata

pretraživanja. Proces se odvija na sljedeći način [18]:

1. Korisnika daje upit

2. Sustav vraća početni rezultat (tj. listu poredanih dokumenata)

3. Korisnik označava neke dokumente iz rezultata kao relevantne ili ne relevantne

27

4. Sustav generira poboljšanu verziju upita koristeći povratnu informaciju od

korisnika

5. Sustav vraća novi rezultat koristeći poboljšanu verziju upita

Korištenje povratne informacije relevantnosti pretpostavlja da je teško definirati dobar

početni upit ako korisnik ne poznaje kolekciju dokumenata. Za razliku od toga jednostavno

je reći je li određeni dokument relevantan ili ne. U takvom slučaju mogu se jedanput ili

više puta ponoviti prethodno navedeni koraci korištenja povratne informacije relevantnosti.

Standardni algoritam za implementaciju povratne informacije relevantnosti ako se koristi

model vektorskog prostora je Rocchio algoritam [41]. Također se koristi i probabilistički

pristup povratnoj informaciji relevantnosti koji se primjenjuje uz probabilističko

pronalaženje informacija [42].

3.4.3. Pseudo povratna informacija relevantnosti

Pseudo povratna informacija relevantnosti se razlikuje od povratne informacije

relevantnosti u tome što ne uključuje korisnika u proces odnosno automatizira korak

označavanja dokumenata kao relevantnih ili ne-relevantnih. Proces korištenja pseudo

povratne informacije relevantnosti se sastoji od sljedećih koraka:

1. Korisnika daje upit

2. Sustav generira početni rezultat (tj. listu poredanih dokumenata)

3. Sustav pretpostavlja da je k dokumenata na vrhu rezultata relevantno

4. Sustav generira poboljšanu verziju upita koristeći pseudo povratnu informaciju

relevantnosti

5. Sustav vraća novi rezultat koristeći poboljšanu verziju upita

Važno je napomenuti da je primjena pseudo povratne informacije relevantnosti vrlo

osjetljiva na kvalitetu početnog rezultata [27], [43].

28

3.4.4. Povratna informacija relevantnosti i proširivanje upita kod pronalaženja rečenica

U okviru pronalaženja rečenica metode pseudo povratne informacije relevantnosti su se

pokazale kao korisne [44], [16]. Valja napomenuti da se ova metoda često označava i samo

kao pseudo povratna informacija (eng. pseudo feedback).

U [44] koristi se metoda pseudo povratne informacije relevantnosti koja se sastoji od

korištenja top 10 izraza iz 20 top rangiranih rečenica za proširivanje upita. Ova metoda

primijenjena zajedno sa TF-ISF metodom je pokazala visok odaziv.

U [16] testirane su različite strategije odabira izraza za proširenje upita u okviru

pretraživanja rečenica. Također je testirano je li korisno proširivati upit prije dohvaćanja

rečenica. Testirana je metoda za pseudo povratnu informaciju relevantnosti koja se sastoji

od odabira izraza sa najvećim brojem pojavljivanja u nekoliko dokumenata rangiranih na

vrhu. Također je testirana analiza lokalnog konteksta ili LCA (eng. Local Context

Analysis), [43]. Ova metoda je nastala iz razloga što korištenje povratne informacija

relevantnosti nije uspješno ako je u početnom rezultatu velik broj ne-relevantnih

dokumenata. Zato LCA metoda pretpostavlja da izrazi iz relevantnih dokumenata teže

zajedničkom pojavljivanju sa izrazima upita unutar dokumenata rangiranih na vrhu.

Metoda daje prednost rijetkim izrazima. Uzimajući sve to u obzir definira se mjera za

odabir izraza. Neka je zadan upit 푞 sa izrazima 푞푡 , 푞푡 ,… , 푞푡 i skup najviše rangiranih

rečenica 푆 = {푠 , 푠 , … 푠 }. Izrazi iz S se mogu ocijeniti koristeći sljedeći niz formula

(jednadžba (3.28) – (3.31)):

푓(푡, 푞) = (훿 + 푐표_푑푒푔푟푒푒(푡, 푞푡 )) ( )

∈

(3.28)

푐표_푑푒푔푟푒푒(푡, 푞푡 ) = 푙표푔 1 + 푐표(푡, 푞푡 ) ∙ 푖푑푓(푞푡 ) 푙표푔 (푛)⁄ (3.29)

푐표(푡, 푞푡 ) = 푐(푡, 푠 ) ∙ 푐(푞푡 , 푠 )∈

(3.30)

푖푑푓(푡) = 푚푖푛(1,0; 푙표푔 (푁 푁⁄ ) 5,0⁄ ) (3.31)

29

Gdje je:

푁 broj rečenica u kolekciji,

푁 broj rečenica u kolekciji koje sadrže 푡,

푐(푡, 푠 ) je broj pojavljivanja izraza 푡 u rečenici 푠 ,

푐(푞푡 , 푠 ) broj pojavljivanja izraza 푞푡 u rečenici 푠 ,

훿 je konstanta postavljena na 0,1 da bi se izbjegli rezultati jednaki nuli.

Koristeći gornju mjeru moguće je poredati izraze iz najviše rangiranih rečenica i izabrati

određeni broj najviše rangiranih izraza za proširivanje upita. U [16] je također testirana

varijanta prethodno navedenih metoda (pseudo-relevance feedback koristeći top izraze iz

prvotnog rezultata i LCA) koja vrši proširivanje upita prije dohvaćanja rečenica. Ovakav

pristup ima prednosti jer ne ovisi o kvaliteti prvog upita i također predstavlja efikasniju

metodu jer ne zahtijeva početno dohvaćanje rečenica. Prethodne metode su modificirane

tako da koriste početan redoslijed dokumenata (a ne rečenica) odnosno nekoliko najviše

rangiranih dokumenata je korišteno za odabir izraza. Sve četiri metode su pokazale

poboljšanje u odnosu na TF-ISF. Međutim najrobusnije su se pokazale metode pseudo

povratna informacija relevantnosti primijenjena nakon dohvaćanja rečenica i LCA prije

dohvaćanja rečenica.

U [45] korištena je selektivna pseudo povratna informacija relevantnosti. Selektivno znači

da su se neki upiti proširivali a neki ne. Pri tom se polazilo od pretpostavke da upiti sa

izrazima koji se rijetko pojavljuju u dokumentima relevantnim u odnosu na druge upite

bolje prolaze ako se ne proširuju koristeći pseudo povratnu informaciju relevantnosti.

Kada su u pitanju globale metode proširivanja upita za pronalaženje rečenica isprobano je

proširivanje upita koristeći sinonime iz Wordnet-a [15]. Međutim, metode koje koriste

terminološke resurse su problematične radi nepotpunosti terminoloških resursa i mogućeg

unošenja štetnih izraza u upit [16]. Također još ne uspijevaju nadjačati pseudo povratnu

informaciju relevantnosti. U [15] su također korištene metode koje proširuju upit koristeći

izraze koji se često pojavljuju zajedno sa izrazima iz upita u relevantnim dokumentima.

30

3.5. Korištenje lokalnog konteksta za unapređenje pronalaženja rečenica

Budući da se rečenice sastoje od malog broja izraza postoji nizak stupanj poklapanja

između rečenice i upita. U ovoj činjenici se pronalaženje rečenica značajno razlikuje od

pronalaženja dokumenata. Zato se polazi od pretpostavke da je za pronalaženje rečenica

korisno koristiti ne samo sadržaj rečenice nego i dodatne informacije iz konteksta. Pri tom

se kao kontekst rečenice koriste dvije vrste konteksta:

Nekoliko susjednih rečenica trenutne rečenice

Dokument u kojem se rečenica nalazi

Inače, razlog za korištenje lokalnog konteksta rečenice Fernandez vidi u [5]:

Nepoklapanju riječi (eng. word mismatch) radi prorijeđenosti rečenica (eng.

sparsity of sentences).

Postojanju dodatnog sadržaja u kontekstu koji je povezan sa rečenicom, ali nije

sadržan u rečenici.

Slijedi opis metoda za pronalaženje rečenica koje koriste lokalni kontekst rečenice.

3.5.1. Mješavina tri modela

U [7] polazi se od pretpostavke da „dobre“ rečenice potiču iz „dobrih“ dokumenata. Iz tog

razloga se u okvir vjerojatnosti upita uključuje i vjerojatnost da je dokument generirao upit

(jednadžba (3.32)):

푃(푞|푠) = [휆푃(푡|푠) + 훾푃(푡|푑) + (1 − 휆 − 훾)푃(푡)] ( , )

∈

(3.32)

Gdje je:

푃(푡|푠) vjerojatnost pojavljivanja izraza 푡 u rečenici,

푃(푡|푑) vjerojatnost pojavljivanja izraza 푡 u dokumentu,

푃(푡) vjerojatnost pojavljivanja izraza u kolekciji,

휆, 훾 parametri za podešavanje.

31

Gornja jednadžba predstavlja kombinaciju tri modela jezika [5]:

Model jezika za rečenicu (푃(푡|푠))

Model jezika za dokument (푃(푡|푑))

Model jezika za kolekciju (푃(푡))

U [7] 푑 je interpretiran kao lokalni kontekst rečenice koji je definiran na jedan od dva

načina

푑 je cijeli dokument u kojem se nalazi rečenica

푑 ja dio dokumenta koji se sastoji od 푘 susjednih rečenica

Najprije je uspoređena osnovna metoda vjerojatnosti upita sa proširenom metodom koja

koristi kontekst rečenice u obliku dokumenta (jednadžba (3.32)). Ovakav način korištenja

konteksta se naziva i izglađivanje koristeći dokument [7]. Pritom je korištena kolekcija

dokumenata iz TREC staza novosti. Posebno su testirani kratki upiti (Naslov TREC teme) i

duži upiti (Priča TREC teme), [2], [3], [4]. Testiran je niz P@x mjera (P@5 – P@1000)

kao i R-precision i MAP. U većini slučajeva nisu uočene signifikantne razlike između

osnovne metode vjerojatnosti upita i metode koja koristi kontekst u obliku dokumenta.

Kada su u pitanju kratki upiti uočeno je signifikantno poboljšanje prema mjerama (R-

precision, P@5 i P@1000) a kada su u pitanju dugi upiti nije uočeno signifikantno

poboljšanje. Razlog izostanka poboljšanja koristeći kontekst u obliku dokumenta,

zaključeno je, proizlazi iz načina na koji je korpus kreiran. Odnosno korpus je kreiran tako

da se u njemu nalaze samo dokumenti koji su na temu upita (tj. korišten je klasični IR

sustav za odabira skupa dokumenata relevantnih u odnosu na upit). Iz ovog razloga

izglađivanje koristeći dokument daje slične rezultata kao i izglađivanje koristeći kolekciju

[7].

Dodatno je testirana situacija u kojoj se kolekcija sastoji od većeg broja dokumenata

različitih tema u kojima ne postoji informacija koji su dokumenti relevantni, a koji ne. Za

svaki upit korišteno je top 1000 dokumenata. Testirani su dugi upiti (Priče TREC tema) sa

kontekstom koji se sastoji od 5 i 11 susjednih rečenica kao i kontekst u obliku cijelog

dokumenta. U svim slučajevima je uočeno signifikantno poboljšanje kod primjera P@x

32

mjera (P@5-P@1000) kao i kod R-precision i MAP mjera. Još su veća poboljšanja uočena

kada se koriste kratki upiti (Naslovi TREC tema) i kontekst u obliku dokumenta.

U [7] također je korišten lokalni kontekst u obliku dokumenta u okviru zadatka

„Odgovaranje na upit“ (eng. Question-Answering). Uspoređivana je osnovna metoda

vjerojatnosti upita sa proširenom koja koristi kontekst u obliku dokumenta. Korištene su

P@x mjere (P@5,P@10,P@15,P@20). Uočena je signifikantno poboljšanje kada se koristi

kontekst u obliku dokumenta prema svim navedenim mjerama.

U [5] je također korištena verzija mješavine tri modela gdje je 푃(푡|푑) zamijenjen sa

푃(푡|푐표푛푡푒푘푠푡) gdje se 푐표푛푡푒푘푠푡 odnosi na prethodnu, trenutnu i sljedeću rečenicu.

3.5.2. Model dvije faze

U [5] također se polazi od pretpostavke da lokalni kontekst u obliku dokumenta igra važnu

ulogu o određivanju relevantnosti. Problem pronalaženja rečenica se definira kao

procjenjivanje vjerojatnosti upita i dokumenata ako je zadana rečenica. Drugim riječima

rečenica se smatra generatorom i upita i dokumenta. Ova se vjerojatnost (푝(푞, 푑|푠)) može

dalje rastavit kao

푝(푞, 푑|푠) = 푝(푞|푠, 푑)푝(푑|푠) (3.33)

Gdje je:

푝(푞|푠, 푑) vjerojatnost upita ako je zadana rečenica i dokument

푝(푑|푠) vjerojatnost dokumenta ako je zadana rečenica

Gornje dvije vjerojatnosti je potrebno procijeniti (푝(푞|푠, 푑) i 푝(푑|푠)). Vjerojatnost 푝(푑|푠)

se može drugačije napisat koristeći Bayesovo pravilo:

푝(푑|푠) =푝(푠|푑)푝(푑)

푝(푠) (3.34)

Gdje je:

33

푝(푠|푑) vjerojatnost rečenice ako ja zadan dokument,

푝(푠) je vjerojatnost rečenice,

푝(푑) je prethodna vjerojatnost (eng. prior probability) dokumenta.

Pretpostavlja se da općenito ne postoji sklonost prema određenim dokumentima i zato se

vjerojatnost 푝(푑) smatra konstantom. Vjerojatnost rečenice 푝(푠) se račun kao:

푝(푠) = 푝(푡) ( , )

∈

(3.35)

Vjerojatnost 푝(푠|푑) se računa kao:

푝(푠|푑) = 푝(푡|푑) ( , )

∈

(3.36)

Gdje je:

푝(푡) = 푝(푡|퐶) vjerojatnost izraza u kolekciji i može se računati kao 푝(푡) = ( , )| |

gdje je 푐(푡, 퐶) broj pojavljivanja izraza 푡 u kolekciji 퐶 , a |퐶| je broj izraza u

kolekciji (ili duljina kolekcije),

푝(푡|푑) vjerojatnost pojavljivanja izraza 푡 u dokumentu 푑 i može se računati kao

푝(푡|푑)= ( , )| |

gdje je 푐(푡, 푑) broj pojavljivanja izraza 푡 u dokumentu 푑, a |푑| je broj

izraza u dokumentu (ili duljina dokumenta),

푐(푡, 푠) broj pojavljivanja izraza 푡 u rečenici 푠.

Vjerojatnost upita ako je zadana rečenica i dokument 푝(푞|푠, 푑) računa se na sljedeći

način:

푝(푞|푠, 푑) = 푝(푡|푠, 푑) ( , )

∈

(3.37)

Vjerojatnost 푝(푡|푠, 푑) se može računati kao kombinacija vjerojatnosti izraza u rečenici i

vjerojatnosti izraza u dokumentu. Drugim riječima upiti su generirani mješavinom (eng.

34

mixture) distribucija vjerojatnosti modela rečenice i modela dokumenta. U [5] isprobane su

tri varijante računanja 푝(푡|푠, 푑):

Mješavina tri modela (eng. Three Mixture Model) ili skraćeno 3MM

Model dvije faze (eng. Two-Stage model) ili skraćeno 2S

Model dvije faze sa invertiranim fazama (eng. Two-Stage Model, Stages Inverted)

ili skraćeno 2S-I

Mješavina tri modela je jednaka kao u [7]. Metoda slična mješavini tri modela je korištena

također za CADIAL tražilicu sa razlikom što jedinica dohvaćanja nije rečenica nego

element XML strukturiranog dokumenta [46].

Model dvije faze predstavlja kombinaciju Dirichlet (DIR) i Jelinek-Mercer (JM)

izglađivanja. U prvoj fazi se vrši izglađivanje koristeći DIR i dokument (tj. koristeći

푝(푡|푑)), a u drugoj fazi se vrši izglađivanje koristeći JM i kolekciju (tj. koristeći 푝(푡)).

Model dvije faze koristi sljedeću formulu za računanje 푝(푡|푠, 푑), [5]:

푝(푡|푠, 푑) = (1 − 휆)푐(푡, 푠) + 휇푝(푡|푑)

푐(푠) + 휇+ 휆푝(푡) (3.38)

Gdje je:

휆 i 휇parametar za podešavanje.

Kod „Modela dvije faze sa invertiranim fazama“ obrnut je redoslijed primjenjivanja

Dirichlet (DIR) i Jelinek-Mercer (JM) izglađivanja. U prvoj fazi vrši se izglađivanje

koristeći JM izglađivanje sa dokumentom, a u drugoj izglađivanje koristeći DIR

izglađivanje sa kolekcijom. Model dvije faze sa invertiranim fazama koristi sljedeću

formulu za računanje 푝(푡|푠, 푑), [5]:

푝(푡|푠, 푑) = (1 − 훽) (1 − 휆)푝(푡|푠) + 휆푝(푡|푑) + 훽푝(푡) (3.39)

Gdje je:

훽 =( )

.

35

Gornje metode su uspoređivane sa poznatim osnovnim metodama koristeći skup podataka

iz TREC staza novosti:

TF-ISF

BM25

Model vjerojatnosti upita sa Dirichlet izglađivanjem

Model vjerojatnosti upita sa Jelinek-Mercer izglađivanjem

Najprije su testirane vrste modela dvije faze i modela dvije faze sa invertiranim fazama sa

pretpostavkom da je vjerojatnost 푝(푑|푠) jedinstvena odnosno korištena je samo

vjerojatnost 푝(푞|푠, 푑). Dodatno su testirane dvije varijante konteksta tj. kontekst u obliku

dokumenta u kojem se rečenica nalazi i kontekst u obliku prethodne, trenutne i sljedeće

rečenice (tj. gornjim jednadžbama je zamijenjen dokument d sa susjednim rečenicama).

Rezultati su pokazali da je model dvije faze sa invertiranim fazama najbolji kada su u

pitanju mjere R-precision i MAP. Ova metoda je u većini slučajeva signifikantno bolja od

osnovnih metoda TF-ISF i vjerojatnosti upita sa Dirichlet izglađivanjem i u slučaju kada se

kao kontekst koristi dokument i u slučaju kada se kao kontekst koristi prethodna, trenutna i

sljedeća rečenica. Prema P@10 mjeri nove metode su se pokazale manje uspješnima. Iako

su u određenim testovima pokazivale statistički signifikantno bolje rezultate ipak su u

većem broju testova pokazivale blago lošije rezultate od osnovnih metoda.¸

Zatim su testirane i metode koje koriste i 푝(푑|푠) tj. 푝(푞, 푑|푠) = 푝(푞|푠, 푑)푝(푑|푠). Inače

vjerojatnost 푝(푑|푠) se u [5] smatra mjerom važnosti rečenice u okviru teme dokumenta.

Koristeći ovu komponentu sve nove LM (eng. language modeling) metode su pokazale

signifikantno bolje rezultate od osnovnih metoda kada su u pitanju mjere R-precision i

MAP. Treba napomenut da su pored novih metoda (model dvije faze i model dvije faze sa

invertiranim fazama) testirane i varijante poznatih LM metoda koje uključuju 푝(푑|푠):

Mješavina tri modela (eng. Three mixture model)

Vjerojatnost upita sa Dirichlet izglađivanjem

Vjerojatnost upita sa Jelinek-Mercer izglađivanjem

36

3.5.3. Klizeći prozor

U [47] također je uzet u obzir kontekst rečenice prilikom pronalaženja relevantnih

rečenica. Sama metoda zasniva se na analiziranju imenica i glagola iz rečenica. WordNet

[48], [36] je korišten za pronalaženje sinonima i relacija hiponim-hiperonim. Izračunavan

je najkraći put od riječi 푤 do riječi 푤 . Npr. na slici 3.2. razmak između universe

(svemir) i sky (nebo) je 4.

Slika 3.2. Primjer računanja udaljenosti između izraza [47]

U [47] definira se ocjena sličnosti između dvije rečenice koja se također koristi za sličnost

između rečenice i upita (odnosno klizećeg prozora (eng. sliding window) i upita) kako

slijedi:

Dodaj 1 za svaku imenicu i svaki glagol koji se točno poklapaju u obje rečenice

Ako se riječi ne poklapaju točno, koristi se prag udaljenosti. Ako je udaljenost

između dvije riječi 푤 i 푤 manja od praga dodaje se 0,5 na ocjenu relevantnosti

Sličnost između imenica dvije rečenice je definirana kao:

푛표푢푛_푠푖푚(푠 , 푠 ) =푚√푎푏

(3.40)

Sličnost između glagola dvije rečenice je definirana kao:

푣푒푟푏_푠푖푚(푠 , 푠 ) =푛√푐푑

(3.41)

37

Sličnost između dvije rečenice je definirana kao:

푠푖푚(푠 , 푠 ) = 푛표푢푛 ( , ) + 푣푒푟푏_푠푖푚(푠 , 푠 ) (3.42)

Gdje je:

푠 , 푠 rečenice koje se uspoređuju,

푚 broj podudarajućih imenica,

푛 broj podudarajućih glagola,

푎 ukupan broj imenica u rečenici 푠 ,

푏 ukupan broj imenica u rečenici 푠 ,

푐 ukupan broj glagola u rečenici 푠 ,

푑 ukupan broj glagola u rečenici 푠 .

Da bi se ocijenila relevantnost rečenice u odnosu na upit koristi se prethodno opisana mjera

sličnosti. Dodatno se ne uzima samo u obzir trenutna rečenica nego klizeći prozor kao na

slici 3.3.

Slika 3.3. Primjer klizećeg prozora veličine 2 [47]

Rečenice unutar određenog prozora su relevantne u odnosu na upit ako je sličnost veća od

prethodno definiranog praga. Drugim riječima ako je prozor relevantan onda se sve

rečenice iz tog prozora smatraju relevantnim. Testovi na skupu podataka iz TREC staze

38

novosti pokazale su korisnost korištenja klizećeg prozor u smislu da su najbolji rezultati

postignuti kada je veličina prozora 4. Međutim rezultati nisu uspoređeni sa najuspješnijim

metodama (TF-ISF i LM metodama) [5] tako da se ne može mnogo reći o kompetitivnosti

ove metode.

3.5.4. TF-ISF metoda i korištenje konteksta

U [5] također su testirane varijante TF-ISF metode koje uključuju kontekst u obliku

dokumenta ili prethodne, trenutne i sljedeće rečenice. Eksperimentiralo se sa formulom za

rangiranje TF-ISF metode (jednadžba (3.43))


0.5 + 푠푓(푡)∈

(3.43)

na način da su testirane sljedeće tri modifikacije

1. tfmix: 푐(푡, 푠) je zamijenjeno sa 훼푐(푡, 푠) + (1 − 훼)푐(푡, 푐표푛푡푒푥푡)

2. idfdoc: 푠푓(푡) je zamijenjen sa 푑푓(푡) ili drugim riječima invertna frekvencija je

računata na razini dokumenta a ne na razini rečenice.

3. tfmix+idfdoc: gdje su primijenjene obje prethodne modifikacije 1. i 2.

Testiranje je izvedeno koristeći skup podataka iz TREC staza novosti. Navedene

modifikacije nisu doprinijele poboljšanju TF-IDF metode [5]. Npr. u fazi treniranja sa

kontekstom u obliku dokumenta ustanovljeno je da se najbolji rezultati dobiju ako je 훼 = 1

što znači da je najbolje ako se potpuno ignorira kontekst u obliku dokumenta. Također je

testiran kontekst u obliku prethodne, trenutne i sljedeće rečenice međutim bez statistički

signifikantnih poboljšanja [5].

39

4. NOVE METODE ZA PRONALAŽENJE REČENICA

U ovom poglavlju su detaljno i formalno opisane nove metode razvijene u sklopu

doktorske disertacije. Za testiranje i vrednovanje novih metoda korišteni su skupovi

podataka TREC staza novosti (eng. Text REtrieval Conference Novelty track) koji služe

kao standardne testne kolekcije metoda pronalaženja rečenica. Iz tog razloga su skupovi

podataka TREC staza novosti također detaljno predstavljeni u ovom poglavlju.

4.1. TREC i zadatak otkrivanja novih rečenica

U eksperimentima koji slijede koristit će se podaci iz zadatka otkrivanja novih rečenica sa

Konferencije za pretraživanje teksta ili skraćeno TREC (eng. Text REtrieval Conference).

Ova konferencija je djelomično sponzorirana od Nacionalnog instituta standarda i

tehnologije ili NIST (eng. National Institute of Standards and Technology) i od Odjela za

obranu SAD-a (eng. U.S. Department of Defense). Njezin cilj je pružiti podršku zajednici

pretraživanja informacija pružajući infrastrukturu potrebnu za opsežno vrednovanje

metodologija pretraživanja teksta [49].

Konferencija TREC svake godine nudi radionice (eng. workshop) koje su podijeljene u

staze (eng. track). Svaka staza predstavlja određeni zadatak pretraživanja. Sastavni dio

radionica su tri godine (2002 - 2004) bili zadaci pronalaženja novih rečenica ili staze

novosti (eng. Novelty track). Za svaku stazu novosti definirane su korištene testne

kolekcije, upiti, popis relevantnih rečenica i mjere za vrednovanje:

TREC 2002 staza novosti [50]



4.1.1. TREC 2002 staza novosti

Zadatak na TREC stazi novosti iz 2002 godine je definiran kao [2]:

40

Ako je zadana TREC tema i poredana lista relevantnih dokumenata (poredana

prema relevantnosti), pronađite relevantne i nove rečenice koje će se vratiti

korisniku.

Ovaj zadatak predstavlja napredak u odnosu na klasično pretraživanje dokumenata jer kao

rezultat vraća listu koja se sastoji od manjih jedinica informacije – rečenica. Dodatno se

nastoji eliminirat ponavljajuća informacija.

Ovako definiran zadatak bi mogao naći primjenu u sljedećem aplikacijskom scenariju [2]:

Pretpostavimo napredni sustav za pretraživanje informacija u kojem postoji

pametna „dalje“ tipka. Koristeći „dalje“ tipku korisnik se šeće kroz listu rangiranih

dokumenata u kojima su označe sljedeće relevantne i nove rečenice. Korisnik može

pročitati te rečenica, a može ako želi pročitati i okolne rečenice.

Također se relevantne i nove rečenice mogu koristiti za sažimanje informacije

relevantne u odnosu na određenu temu.

Kao ulazni podaci korištene su teme (eng. topic, upiti koji se koriste u okviru TREC

konferencija se nazivaju teme) iz prethodnih konferencija:

TREC 6 [53]

TREC 7 [54]

TREC 8 [55]

Točnije korištene su teme iz ad hoc zadataka TREC 6, TREC 7 i TREC 8. Ad hoc zadatak

se sastoji od pretraživanja statičkog skupa dokumenata što odgovara realnom zadatku kada

korisnik pretražuje biblioteku [54].

Za TREC 2002 stazu novosti izabrano je 50 tema od ukupno 150 tema iz TREC-a 6, 7, 8

(teme označene brojevima od 300 do 450). Odabrane su samo teme koje imaju između 10 i

70 relevantnih dokumenata. Također su eliminirane neke teme s prevelikim brojem

relevantnih dokumenata iz praktičnih razloga. Zatim je odabrano 25 dokumenata za svaku

temu koristeći tražilicu. Ako tema ima 25 ili manje relevantnih dokumenata uzeti su svi

dokumenti. Ako tema ima više od 25 dokumenata uzeto je 25 najviše rangiranih i ujedno

relevantnih dokumenata. Ako tema ima manje od 25 dokumenata onda su svi relevantni

41

dokumenti uzeti i dodan je slučajan uzorak od preostalih relevantnih dokumenata da bi se

dobilo 25 dokumenata. Dokumenti vezani za svaku temu (njih 25) su poredani po

redoslijedu iz rezultata pretraživanja. Svaki dokument je podijeljen u rečenice i svakoj

rečenici je dodijeljen naziv. Podaci su dostupni u obliku tekstnih datoteka. Isječak iz jedne

tekstne datoteke je prikazan na slici 4.1.

Na slici 4.1 je prikazan dio koji se odnosi na jedan članak sa oznakom LA031689-177.

Članak ja automatski podijeljen na rečenice (uključujući cijeli tekst članka tj. naziv članka,

datum članka itd.) na način da je svaka rečenica označena tagovima koji sadrže naziv

dokumenta i redni broj rečenice u dokumentu kao npr.

<s docid="LA031689-0177" num="8">Sadržaj rečenice</s>

Gdje je:

LA031689-0177 naziv članka,

8 identifikator rečenice.

Pored dokumenata podijeljenih u rečenice učesnicima TREC 2002 staze novosti na

raspolaganju su i teme i popis po relevantnosti poredanih dokumenata. Na slici 4.2. je

prikazan isječak iz datoteke koji se odnosi na temu i odgovarajuću listu poredanih

dokumenata.

42

Slika 4.1. Isječak iz datoteke sa izvornim podacima za TRAC 2002 stazu novosti

43

Slika 4.2. Primjer teme iz TREC 2002 staze novosti i odgovarajućih po relevantnosti

poredanih dokumenata

44

Kao što se vidi iz slike 4.2. jedna TREC tema se sastoji od tri dijela

Naslov (eng. Title)

Opis (eng. Description)

Priča (eng. Narrative)

Naslov, Opis i Priča predstavljaju upite različitih duljina i mogu se koristiti za

standardizirano testiranje sustava u ovisnosti o tome koja je duljina upita od interesa.

Da bi se mogla ocijeniti uspješnost sustava ručno su označene relevantne i nove rečenice.

U tu svrhu su korišteni ljudski ocjenjivači koji su prvo kreirali datoteku koja sadrži sve

relevantne rečenice, a zatim reduciranu datoteku koja sadrži podskup novih rečenica.

Prilikom definiranja novih rečenica ocjenjivači su se kretali kroz relevantne rečenice pri

čemu bi brisali rečenice koje sadrže duplu informaciju. Za svaku temu korištena su dva

ljudska ocjenjivača. Iz tog razloga za vrednovanje rezultata na raspolaganju su dvije

datoteke s relevantnim rečenicama, a to su min_qrels.relevant i max_qrels.relevant [50]. U

datoteci min_qrels.relevant nalaze se rečenice koje su označene relevantnim od strane

ocjenjivača koji je označio manji broj rečenica a u datoteci max_qrels.relevant se nalaze

rečenice koje su označene od ocjenjivača koji je označio veći broj rečenica. Datoteka

min_qrels.relevant definira 2% rečenica relevantnim a datoteka max_qrels.relevant 7%.

Situacija je analogna i sa datotekama koje sadrže podskup novih rečenica min_qrels.new i

max_qrels.new. Na slici 4.3. je prikazan isječak iz datoteke min_qrels.relevant [56].

45

Slika 4.3. Isječak iz datoteke min_qrels.relevant koja sadrži relevantne dokumente

Svaki redak se odnosi na jednu relevantnu rečenicu. Primjer retka je:

305 LA090190-0126:32

Gdje je:

305 broj teme,

LA090190-0126 naziv dokumenta,

32 broj rečenice.

Gornji redak definira rečenicu 32 iz dokumenta LA090190-0126 kao relevantnu u odnosu

na temu 305.

46


Zabatak na TREC stazi novosti iz 2003 godine je definiran kao:

Ako je zadana TREC tema i lista relevantnih i kronološki poredanih dokumenata,

pronađite relevantne i nove rečenice koje će se vratiti korisniku [3].

Iz definicije zadatka može se uočiti sličnost sa zadatkom iz TREC 2002 staze novosti. Tj.

potrebno je riješiti dva problema, pronaći relevantne rečenice i pronaći nove rečenice.

Međutim razlika je u tome što su dokumenti ovog puta poredani kronološki, a ne prema

relevantnosti.

Ulazni podaci su na novo kreirani. Razlog je nizak postotak relevantnih rečenica i visok

udio novih rečenica među njima kod TREC 2002 skupa podataka. Razlog za to leži prema

[3] u razlici mišljenja između ocjenjivača (autori koji su odabirali rečenice nisu ujedno i

autori koji su kreirali teme i odabrali dokumente) i u tome što su dokumenti odabrani

nekoliko godina ranije. Iz tog razloga je za TREC 2003 stazu novosti kreirano 50 novih

tema. Teme i dokumenti su definirani koristeći AQUAINT kolekciju novinskih članaka

[57]. AQUAINT kolekcija sadrži članke iz tri različita izvora

New York Times News Service (1998-2000 g.)

Associated Press Worldstream News Service (1998-2002 g.)

Xinhua News Service (1996-2000 g.)

Za svaku temu odabrano je 25 relevantnih dokumenata koristeći IR sustav. Zatim su ti

dokumenti poredani kronološki. Svaki dokument je podijeljen u rečenice i svakoj rečenici

je dodijeljen naziv. Podaci su dostupni u obliku tekstnih datoteka. Isječak iz jedne tekstne

datoteke je prikazan na slici 4.4.

47

Slika 4.4. Isječak iz datoteke sa izvornim podacima za TRAC 2003 stazu novosti

48

Na slici 4.4. je prikazan dio koji se odnosi na jedan članak sa oznakom

XIE19970224.0007. Članak je automatski podijeljen na rečenice (uključujući cijeli tekst

članka tj. naziv članka, datum članka, sadržaj itd.) na način da je svaka rečenica označena

tagovima koji sadrže naziv dokumenta i redni broj rečenice u dokumentu kao npr.

<s docid="XIE19970224.0007" num="8">Sadržaj rečenice</s>

Gdje je:

XIE19970224.0007 naziv članka,


Format teme je sličan kao u TREC 2002 stazi novosti, tj. sastoji se od naslova, opisa i priče

(slika 4.5.) s razlikom što je ovog puta dodana i jedna od dvije oznaka klase teme, a to su

mišljenje (eng. opinion) i događaji (eng. event).

49


relevantnih dokumenata

50


U tu svrhu su korišteni ocjenjivači koji su prvo kreirali datoteku koja sadrži sve relevantne

rečenice, a zatim reduciranu datoteku koja sadrži podskup novih rečenica. Prilikom

definiranja novih rečenica ocjenjivači su se kretali kroz relevantne rečenice pri čemu bi

brisali rečenice koje sadrže duplu informaciju. Rečenice za svaku temu su ocjenjivali dva

ocjenjivača, jedan koji je prethodno definirao temu i odgovarajuće relevantne dokumente i

jedan dodatni. U natjecanju je odlučeno koristiti rezultate prvog ocjenjivača. Za

vrednovanje rezultata na raspolaganju je jedna datoteka sa popisom relevantnih rečenica i

jedna datoteka koja sadrži podskup novih rečenica [51]. 37.56% rečenica označeno je

relevantnima a od toga je 65.91% označeno novim. Na slici 4.6. je prikazan isječak iz

datoteke koja sadrži popis relevantnih rečenica [58].

Slika 4.6. Isječak iz datoteke sa relevantnim rečenicama

Svaki redak se odnosi na jednu relevantnu rečenicu. Primjer retka je:

51

N2 NYT19990526.0375:29

Gdje je:

N2 broj teme,

NYT19990526.0375 naziv dokumenta,

29 broj rečenice.

Gornji redak definira rečenicu 29 iz dokumenta NYT19990526.0375 kao relevantnu u

odnosu na temu N2.


Zadatak na TREC stazi novosti iz 2004 godine je definiran kao:

Ako je zadana TREC tema i lista kronološki poredanih dokumenata, pronađite

relevantne i nove rečenice koje će se vratiti korisniku [4].

Iz definicije zadatka se može uočiti sličnost sa zadacima iz TREC 2002 i TREC 2003 staze

novosti. Potrebno je riješiti dva problema, pronaći relevantne rečenice i pronaći nove

rečenice. Razlika naspram TREC 2002 staze novosti jest u tome što su rečenice poredane

kronološki a ne prema relevantnosti. Razlika naspram TREC 2003 stazi novosti jest što su

među dokumentima sadržani i ne relevantni dokumenti pronađeni koristeći tražilicu.

Ulazni podaci su kao i u TREC 2003 stazi novosti na novo kreirani. Izabrano je 50 tema.

Teme i dokumenti su definirani koristeći AQUAINT kolekciju novinskih članaka [57] koja

sadrži podatke iz tri različita izvora:

New York Times News Service (1998-2000 g.)

Associated Press Worldstream News Service (1998-2002 g.)

Xinhua News Service (1996-2000)

52

Slika 4.7. Isječak iz datoteke za izvornim podacima za TRAC 2004 stazu novosti

53

Za svaku temu odabrano je 25 najviše rangiranih dokumenata koristeći IR sustav. To znači

da su sadržani i ne relevantni dokumenti. Svaki dokument je podijeljen u rečenice i svakoj

rečenici je dodijeljen naziv. Podaci su dostupni u obliku tekstnih datoteka. Isječak iz jedne

tekstne datoteke je prikazan na slici 4.7.

Na slici 4.7. je prikazan dio koji se odnosi na jedan članak sa oznakom

NYT19981017.0086. Članak je automatski podijeljen na rečenice (uključujući cijeli tekst

članka tj. naziv članka, datum članka, sadržaj itd.) na način da je svaka rečenica označen

tagovima koji sadrže naziv dokumenta i redni broj rečenice u dokumentu kao npr.

<s docid=" NYT19981017.0086" num="10">Sadržaj rečenice</s>

Gdje je:

NYT19981017.0086 naziv članka,


Format teme je jednak kao u TREC 2003 stazi novosti, tj. sastoji se od naslova, opisa i

priče (slika 4.8.). Također sadrži jednu od dvije oznake klase teme: mišljenje (eng.

opinion) i događaj (eng. event).

54


dokumenata

55


U tu svrhu su korišteni ocjenjivači koji su prvo kreirali datoteku koja sadrži sve relevantne

rečenice, a zatim reduciranu datoteku koja sadrži podskup novih rečenica. Prilikom

definiranja novih rečenica ocjenjivači su se kretali kroz relevantne rečenice pri čemu bi

brisali rečenice koje sadrže duplu informaciju. Rečenice za svaku temu su ocjenjivala dva

ocjenjivača, jedan koji je prethodno definirao temu i odgovarajuće relevantne dokumente i

jedan dodatni u svrhu analize razlike između različitih ocjenjivača. U natjecanju je

odlučeno koristiti rezultate prvog ocjenjivača. Za vrednovanje rezultata na raspolaganju je

jedna datoteka sa popisom relevantnih rečenica i jedna datoteka koja sadrži podskup novih

rečenica [52]. 19,2% rečenica označeno je relevantnima a od toga je 42% označeno novim.

Na slici 4.9. je prikazan isječak iz datoteke koja sadrži popis relevantnih rečenica [59].

Slika 4.9. Isječak iz datoteke sa relevantnim rečenicama za TREC 2004 stazu novosti

Format popisa relevantnih rečenica je jednak kao u TREC 2003 stazi novosti. Primjer retka

je:

56

N51 APW19990804.0164:6

Gdje je:

N51 broj teme,

APW19990804.0164 naziv dokumenta,

6 broj rečenice,

Gornji redak definira rečenicu 6 iz dokumenta APW19990804.0164 kao relevantnu u

odnosu na temu N51.

4.1.4. Pregled TREC 2002, 2003 i 2004 staza novosti

U tablici 4.1. su prikazane najvažnije karakteristika staze novosti iz godina 2002, 2003 i

2004.

Tablica 4.1. Pregled osnovnih karakteristika TREC 2002, 2003 i 2004 staza novosti

Poredak

dokumenata Broj

dokumenata

po temi

Broj

tema Sadrži ne

relevantne

dokumente

Postotak

relevantnih

rečenica

Postotak udjela

novih rečenica

među relevantnim

2002 po

relevantnosti 25 50 ne 2% ili 7 % 93%

2003 kronološki 25 50 ne 37.56% 65.91% 2004 kronološki 25 50 da 19.20% 42%

57

4.2. TF-ISF sa lokalnim kontekstom

Usprkos dosadašnjim neuspjelim pokušajima korištenja konteksta rečenice s TF-ISF

metodom [5] predstavljenim u poglavlju 3.5.4. hipoteza postavljena u sklopu istraživanje

provedenog u ovoj doktorskoj disertaciji je mogućnost unaprjeđenja TF-ISF metode

korištenjem lokalnog konteksta. Preciznije, pretpostavlja se da je moguće unaprijediti TF-

ISF metodu koristeći susjedne rečenice.

Funkcija za rangiranje koja se koristi za pronalaženje rečenica kod TF-ISF metode [14],

[16], navedena je veću u poglavlju 3.14. (jednadžba 3.14). Ovdje je ponovo navedene

(jednadžba (4.1)) zbog lakšeg referenciranja u ovom poglavlju:


0.5 + 푠푓(푡)∈

(4.1)

Gdje je


푐(푡, 푠) je broj pojavljivanja izraza 푡 u rečenici 푠,


푁 broj rečenica u kolekciji.

Kao lokalni kontekst svake rečenice koristi se prethodna i sljedeća rečenica unutar istog

dokumenta. Pretpostavlja se da relevantnost rečenice ovisi dijelom o sadržaju rečenice i

dijelom o sadržaju dvije susjedne rečenice. Relevantnost susjednih rečenica također opet

ovisi djelomično o sadržaju njihovih susjeda. Koristeći prethodne dvije pretpostavke može

se definirati nova rekurzivna funkcija rangiranja kako slijedi:

푅 (푠|푞) = (1 − 휇) ∙ 푅(푠|푞) + 휇 ∙ 푅 푠 (푠) 푞 + 푅 (푠 (푠)|푞) (4.2)

Gdje je:

푠 (푠) prethodna rečenica rečenice 푠,

푠 (푠) sljedeća rečenica rečenice 푠,

58

푅 푠 (푠) 푞 ocjena relevantnosti prethodne rečenice (푅 푠 (푠) 푞 je po

definicije 0 ako je 푠 prva rečenica u dokumentu),

푅 (푠 (푠)|푞) ocjena relevantnosti sljedeće rečenice (푅 (푠 (푠)|푞) je po

definicije 0 ako je 푠 zadnja rečenica u dokumentu),

휇 parametar za podešavanje.

U testovima u sljedećim poglavljima rekurzivna funkcija rangiranja (jednadžba (4.2))

poziva samu sebe sve dok tri prethodne i tri sljedeće rečenice od rečenice 푠 nisu uzete u

obzir. Nakon toga prestaje se koristiti kontekst tj. 푅 (푠|푞) = 푅(푠|푞) i rekurzija prestaje.

Treba napomenuti da je prilikom razvoja funkcije rangiranja također isprobana i verzija

koja kao kontekst koristi cijeli dokument u kojem se rečenica nalazi koja nije dala

statistički signifikantna poboljšanja u odnosu na osnovnu metodu. Iz tog razloga je

odlučeno koristiti uži kontekst u obliku tri prethodne i tri sljedeće rečenice.

Radi bolje razumljivosti i u cilju bolje mogućnosti reproduciranja metode prezentira se

također ne-rekurzivna verzija jednadžbe (4.2.) kako slijedi:

푅 (푠|푞) =

(1 − 휇)푆 + 휇 (1 − 휇)푃 + 휇 (1 − 휇)푃 + 휇(푃 + 푃 ) + (1 − 휇)푆 + 휇(푃 + 푁 ) +

(1 − 휇)푁 + 휇 (1 − 휇)푆 + 휇(푃 + 푁 ) + (1 − 휇)푁 + 휇(푁 +푁 )

(4.3)

Gdje:

푆 = 푅(푠|푞), 푃 = 푅(푝 |푞), 푁 = 푅(푛 |푞) za 푖 ∈ {1,2,3}

푝 , 푝 , 푝 označavaju prethodne tri rečenice od rečenice 푠 (vidi sliku 4.11.)

푛 , 푛 , 푛 označavaju sljedeće tri rečenice od rečenice 푠 (vidi sliku 4.11.)

Na slici 4.10. su prikazane tri prethodne i tri sljedeće rečenice 푠 i kako su obuhvaćene

koristeći rekurzivnu funkciju.

59

Slika 4.10. Trenutna rečenica i susjedne rečenice korištene u funkciji rangiranja

Rcon(s│q)

Naravno da je koristeći rekurzivnu funkciju moguće također uključiti u proračun sve

rečenice u dokumentu. Međutim, testovi koji pokazuju jeli korisno uključiti više od tri

prethodne i tri sljedeće rečenica u obračun ocjene relevantnosti ostavljeni su za budući rad.

Prednost predstavljene nove TF-ISF metode u odnosu na tfmix metodu iz [5] jest

eksplicitno modeliranje relevantnosti konteksta (tj. prethodne i sljedeće rečenice) u odnosu

na upit (푅 푠 (푠) 푞 + 푅 (푠 (푠)|푞)) dok je u [5] dio TF-ISF funkcije rangiranja

zamijenjen sa komponentama povezanim i sa rečenicom i sa susjednim rečenicama (tj.

푐(푡, 푠) je zamijenjen sa 훼 ∙ 푐(푡, 푠) + (1 − 훼) ∙ 푐(푡, 푐표푛푡푒푥푡) gdje je 훼 parametar za

podešavanje).

Prva prednost nove metode (jednadžba (4.2.) i (4.3)) jest što predstavlja implementaciju

intuitivne pretpostavke da relevantnost rečenice ovisi dijelom o relevantnosti sadržaja same

rečenice i o relevantnosti sadržaja susjednih rečenica. Ovakav pristup se pokazao

uspješnim što je prikazano u testovima u sljedećim poglavljima.

Druga prednost nove metode (jednadžba (4.2.) i (4.3)) jest što omogućava bolje

istraživanje utjecaja konteksta na relevantnost rečenice. U poglavlju 5. je prezentirano

kako se ova osobina može koristiti za kreiranje OWL formatiranog prikaza dokumenta

(koji uključuje prikaz konteksta) za pronalaženje rečenica.

U daljnjem tekstu nova metoda (jednadžba (4.2) i (4.3)) će biti označena kao TF-ISFcon.

60

4.2.1. Usporedba TF-ISFcon sa TF-ISF i tfmix

Pretpostavka je da nova metoda TF-ISFcon daje bolje rezultate glede pretraživanja rečenica

u odnosu na osnovnu TF-ISF metodu i na prijašnji neuspjeli pokušaj unapređenja TF-ISF

metode korištenjem konteksta nazvan tfmix.

U cilju potvrđivanja pretpostavke testirane su performanse nove metode TF-ISFcon u

odnosu na prethodne metode TF-ISF i tfmix kroz dva skupa eksperimenata koja se

razlikuju po duljini korištenih upita.

Skup eksperimenata 1 koristi kratke upite koji se sastoje od sadržaja naslova TREC

teme

Skup eksperimenata 2 koristi duge upite koji se sastoje od spojenog sadržaja

naslova, opisa i priče TREC teme

4.2.1.1. Empirijska studija sa kratkim upitima

Nova metoda za pretraživanje rečenica TF-ISFcon je testirana koristeći podatke iz TREC

staza novosti iz 2002., 2003. i 2004. godine. Kao što je prethodno spomenuto na TREC

stazama novosti zadatak je detekcija novosti koja se detaljnije sastoji od dva koraka

1. Pronalaženje relevantnih rečenica

2. Pronalaženje novih rečenica

Ovdje je od interesa samo prvi zadatak odnosno pronalaženje relevantnih rečenica.

U cilju provjere je li nova metoda TF-ISFcon daje bolje rezultate glede pronalaženja

rečenica ova metoda se uspoređuje sa osnovnom (baseline) TF-ISF metodom i tfmix

metodom.

Za pripremu eksperimenta djelomično je korišten open-source sustav za rudarenje

podataka Rapidminer [60] zajedno s dodatkom za rad sa tekstom Text Extension [61] koji

omogućava rada sa modelom vektorskog prostora (dodatak B). Sa Rapidminer sustavom

sva velika slova unutar dokumenata kolekcije su pretvorena u mala slova. Također su

uklonjene uobičajene riječi (eng stop words). Korjenovanje ili svođenje riječi na osnovni

61

oblik (eng. stemming) nije korišteno. Rezultati iz programa Rapidminer su prezentirani kao

web servis da bi zatim bili dalje korišteni preko samostalno programiranih aplikacija koje

sadrže implementaciju korištenih metoda pronalaženja rečenica (dodatak C).

Kao upiti korišteni su sadržaji iz naslova TREC teme (slika 4.2., 4.5. i 4.8.). Npr. ako se

uzme primjer TREC teme iz TREC staze novosti iz 2003 godine kao na slici 4.11.

Slika 4.11. Primjer TREC teme iz TREC 2003 staze novosti

onda se prilikom testova koristi upit koji se sastoji samo od naslova (tj. sadržaja između

<title> i <toptype>) kao na slici 4.12.

Slika 4.12. Primjer kratkog upita

62

Preciznije kada je u pitanju TREC 2002 kao upit se koristi dio između <title> i <desc>

(slika 4.2.), a kada je u pitanju TREC 2003 i 2004 koristi se dio između <title> i <toptype>

(slika 4.5. i 4.8.).

Kako bismo testirali hipotezu da definirane metode daju bolje rezultate u pronalaženju

rečenica od postojećih metoda usporedili smo performanse novih metoda u odnosu na

postojeće metode koristeći standardne mjere MAP (eng. Mean Average Precision), R-

precision i niz „Preciznost na“ ili P@x mjera (eng. Precision at): P@5, P@10, P@15,

P@20, P@25, P@30, P@50, P@100.

Za svako testiranje postavljene su nulte hipoteze H0 kako su vrijednosti MAP, R-precision

i P@x jednake kod usporedbe svake nove metode i postojeće metode. Alternativne

hipoteze H1 su uvijek da se vrijednosti razlikuju. Za testiranje hipoteza korišten je

dvosmjerni upareni t-test (eng. two-tailed paired t-test) sa razinom signifikantnosti (eng.

significance level) 훼 = 0,05 odnosno 푃 ≤ 0,05 kao u srodnim radovima [7], [5]. Svi

uzorci se sastoje od 50 elemenata i s obzirom na veličinu uzorka nije potrebno testiranje

normalnosti distribucije. Svi podaci nad kojima su izvedeni statistički testovi su dostupni

na webu1.

Za primjer rezultata u tablici 4.4. testirane su dvije skupine nultih hipoteza: 1) MAP TF-

ISFcon= MAP TF-ISF, R-precision TF-ISFcon = R-precision TF-ISF i P@x TF-ISFcon =

P@x TF-ISF te 2) MAP TF-ISFcon = MAP tfmix, R-precision TF-ISFcon = R-precision tfmix

i P@x TF-ISFcon = P@x tfmix , a ekvivalentne hipoteze su postavljene u svim statističkim

testovima. Statistički signifikantne razlike dobivenih mjerenja uz korištenu razinu

signifikantnosti 훼 = 0,05 su označene u tablicama, a ukazuju na to kako promatrana

metoda ima bolje performanse u odnosu na usporednu metodu.

Budući da funkcija rangiranja 푅 (푠|푞) zahtijeva podešavanje parametra휇 upotrebljena je

metodologija treniranja i testiranja kao u [5]. Eksperimentirano je s tri konfiguracije

treniranja i testiranja koristeći podatke iz TREC staza novosti kako slijedi:

Treniranje sa TREC 2002 i testiranje sa TREC 2003 i TREC 2004 stazom novosti



Treniranje je potrebno radi pronalaženja vrijednosti parametra 휇 kod koje sustav pokazuje

najbolje rezultate. Tijekom sva tri treninga (TREC 2002, 2003 i 2004) isprobane su

vrijednosti od 휇 = 0,0 do 휇 = 1,0 u koracima od 0,05. Najbolja vrijednost parametra 휇 je

1 http://laris.fesb.hr/alen_doko_doktorat/detaljni_podaci_disertacija.zip

63

zadržana da bi zatim bila testirana sa preostale dvije TREC staze novosti. Važno je

napomenuti da su tijekom treniranja sustavi ocjenjivani isključivo MAP mjerom. Drugi

riječima uzete je vrijednost parametra 휇 kod kojeg sustav pokazuje maksimalnu vrijednost

mjere MAP. Tablica 4.2. pokazuje optimalne vrijednosti parametra 휇 za sva tri skupa

podataka.

Tablica 4.2. Optimalne vrijednosti parametra μ za skupove podataka iz TREC 2002, 3003 i

2004 staza novosti

휇

TREC 2002 0,2

TREC 2003 0,1

TREC 2004 0,2

Trening tfmix metode je izveden identično TF-ISFcon metodi (isprobane su vrijednosti od

훼 = 0,0 to 훼 = 1,0 u koracima od 0,05 ). Tablica 4.3. pokazuje optimalne vrijednosti

parametra 훼 za tri skupa podataka.

Tablica 4.3. Optimalne vrijednosti parametra α tfmix metode za skupove podataka iz

TREC 2002, 3003 i 2004 staza novosti

훼

TREC 2002 0,7

TREC 2003 0,85

TREC 2004 0,6

Sljedeće tablice (Tablica 4.4. - 4.6.) i sljedeći grafovi (Slika 4.13. - 4.18.) prikazuju

rezultate za odgovarajuće tri konfiguracije treniranja i testiranja. Korištena su dva prikaza

(tablični i graf) zbog bolje preglednosti eksperimentalno dobivenih rezultata koji su

značajni jer potvrđuju kako nove definirane metode daju kompetitivne ili statistički

signifikantno bolje rezultate od postojećih metoda. U tablicama su statistički signifikantne

razlike između TF-ISF i TF-ISFcon označene su sa zvjezdicom. Statistički signifikantne

razlike između TF-ISFcon i tfmix su označene s †. Kada je u pitanju MAP mjera testovi

pokazuju statistički signifikantno poboljšanje kada se koristi metoda TF-ISFcon u odnosu na

osnovnu metodu TF-ISF i metodu tfmix za svaki od testiranih skupova podataka i

vrijednosti parametra 휇. TF-ISFcon metoda također pokazuje bolje rezultate u odnosu na

TF-ISF i tfmix u većini slučajeva (5 od 6) kada se koristi R-precision mjera. Što se tiče

64

P@x mjera tablice 4.4. - 4.6. imaju sveukupno 48 usporedbi sa 4 statistički signifikantna

poboljšanja (prema P@100 mjeri) i 44 ne signifikantne razlike.

Tablica 4.4. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.2, α=0.7

TREC 2003 TREC 2004 TF-ISF tfmix TF-ISFcon TF-ISF tfmix TF-ISFcon

P@5 0,7160 0,7200 0,7200 0,4360 0,4440 0,4560 P@10 0,6980 0,7040 0,6980 0,4220 0,4460 0,4460 P@15 0,7040 0,6960 0,7000 0,4280 0,4253 0,4320 P@20 0,6890 0,6880 0,6980 0,4260 0,4240 0,4230 P@25 0,6800 0,6760 0,6864 0,4168 0,4160 0,4176 P@30 0,6707 0,6640 0,6747 0,4113 0,4160 0,4147 P@50 0,6436 0,6496 0,6556 0,4040 0,3972 0,4028 P@100 0,6078 0,6112 0,6184*† 0,3660 0,3650 0,3716 MAP 0,5764 0,5775 0,5930*† 0,3252 0,3260 0,3398*† R-precision 0,5457 0,5481 0,5725*† 0,3376 0,3401 0,3456

Slika 4.13. P@x, MAP i R-precision za TREC 2003, μ=0.2, α=0.7

65

Slika 4.14. P@x, MAP i R-precision za TREC 2004, 휇=0.2, 훼=0.7



P@5 0,3200 0,3360 0,3520 0,4360 0,4400 0,4480 P@10 0,2900 0,3140 0,3020 0,4220 0,4420 0,4340 P@15 0,2973 0,2907 0,2960 0,4280 0,4333 0,4347 P@20 0,2760 0,2820 0,2820 0,4260 0,4220 0,4210 P@25 0,2648 0,2776 0,2752 0,4168 0,4192 0,4232 P@30 0,2587 0,2680 0,2680 0,4113 0,4160 0,4187 P@50 0,2416 0,2416 0,2488 0,4040 0,3996 0,3988 P@100 0,1904 0,1934 0,2146*† 0,3660 0,3672 0,3714 MAP 0,1952 0,1973 0,2315*† 0,3252 0,3258 0,3392*† R-prec. 0,2414 0,2448 0,2666*† 0,3376 0,3403 0,3473*†

66



67



P@5 0,3200 0,3200 0,3480 0,7160 0,7240 0,7200 P@10 0,2900 0,3140 0,3040 0,6980 0,6860 0,6980 P@15 0,2973 0,3000 0,3000 0,7040 0,6947 0,7000 P@20 0,2760 0,2910 0,2880 0,6890 0,6830 0,6980 P@25 0,2648 0,2784 0,2792 0,6800 0,6800 0,6864 P@30 0,2587 0,2680 0,2727 0,6707 0,6667 0,6747 P@50 0,2416 0,2440 0,2496 0,6436 0,6508 0,6556 P@100 0,1904 0,1934 0,2154*† 0,6078 0,6100 0,6184*† MAP 0,1952 0,1971 0,2322*† 0,5764 0,5773 0,5930*† R-prec. 0,2414 0,2451 0,2672*† 0,5457 0,5483 0,5725*†


68


Da bi se postigao bolji uvid u performanse nove metode kada je u pitanju R-precision

mjera i P@x mjere izvedeni su dodatni testovi u kojima su spojena tri skupa podataka iz

TREC staze novosti 2002, 2003 i 2004. U ovom slučaju ne postoji skup podataka za

treniranje s kojim se može odrediti optimalna vrijednost parametra. Iz tog razloga

prikazani su rezultati za cijeli niz vrijednosti. Rezultati su prikazani u tablici 4.7. i kao graf

na slici 4.19. Statistički signifikantne razlike TF-ISFcon u odnosu na osnovnu TF-ISF

metodu su označene zvjezdicom.

69


2003 i TREC 2004

TF-ISF

TF-ISFcon 휇 = 0.1 휇 = 0.2 휇 = 0.3 휇 = 0.4 휇 = 0.5

P@5 0,4907 0,5107 0,5080 0,4987 0,4853 0,4600 P@10 0,4700 0,4847 0,4827 0,4787 0,4633 0,4367 P@15 0,4764 0,4782 0,4773 0,4702 0,4547 0,4409* P@20 0,4637 0,4663 0,4697 0,4657 0,4537 0,4353* P@25 0,4539 0,4629 0,4611 0,4573 0,4480 0,4291* P@30 0,4469 0,4549 0,4540 0,4476 0,4431 0,4187* P@50 0,4297 0,4337 0,4360 0,4353 0,4189 0,3999* P@100 0,3881 0,4014* 0,4018* 0,3974* 0,3903 0,3762* MAP 0,3656 0,3885* 0,3883* 0,3850* 0,3771* 0,3634 R-precision 0,3749 0,3944* 0,3951* 0,3914* 0,3815 0,3683


2003 i TREC 2004

Ovoga puta (tablica 4.7. i slika 4.19.) mogu se uočiti poboljšanja za cijeli niz vrijednosti

parametra 휇 (휇 = 0.1 − 0.3) kada su u pitanju mjere MAP i R-precision i P@100. U isto

vrijeme nema statistički signifikantnih razlika prema P@x mjerama (osim za P@100). Kod

većih vrijednosti parametra 휇 (휇 = 0.4 , 휇 = 0.5 ) nova metoda pokazuje signifikantno

70

lošije rezultate prema nekim P@x mjerama i prestaje pokazivati signifikantno bolje

rezultate prema MAP i R-precision mjerama. Ovakav scenarij je očekivan budući da mora

postojati određena granična vrijednost parametra 휇 kod koje je utjecaj susjednih rečenica

prevelik.

Iz tablice 4.7. i grafa sa slike 4.19. može se vidjeti da je prilično jednostavno odabrati

vrijednost parametra 휇 tako da TF-ISFcon pokazuje bolje rezultate nego osnovna metoda

TF-ISF prema MAP i R-precision mjerama a u isto vrijeme pokazuje kompetitivne

rezultate prema testiranim P@x mjerama.

4.2.1.2. Empirijska studija s dugim upitima

U prethodnim eksperimentima korišteni su kratki upiti iz naslova TREC tema. Međutim,

interesantno je ispitati je li metoda TF-ISFcon korisna i kada se koriste duži upiti. Iz tog

razloga prethodni testovi će biti ponovljeni s razlikom što će se koristiti dugi upiti. U tu

svrhu se definira dugi upit kao upit koji se sastoji od spojenih sadržaja sljedećih dijelova

TREC teme:

Naslova (eng. title) tj. dijela između <title> i <desc> (TREC 2002) odnosno dijela

između <title> i <toptype> (TREC 2003 i TREC 2004)

Opisa (eng. description) tj. dijela između <desc>Description: i <narr> (TREC

2002, 2003 i 2004)

Priče (eng. narrative) tj. dijela između <narr>Narrative: i <relevant> (TREC 2002

i 2003) odnosno dijela između <narr>Narrative: i <documents> (TREC 2004)

Primjer dugog upit (koji se odnosi na primjer teme iz TREC 2003 staze novosti sa slike

4.5.) je prikazan na slici 4.20.

71

Slika 4.20. Primjer dugog upita korištenog u testu

Analogno eksperimentima iz prethodnog poglavlja najprije je izvedeno treniranje.

Odnosno pronađene su vrijednosti parametra 휇 kod kojih metoda TF-ISFcon pokazuje

najbolje rezultate kao i vrijednosti parametra 훼 kod kojih metoda tfmix pokazuje najbolje

vrijednosti prema MAP mjeri za sve tri TREC staze novosti. Tablica 4.8. pokazuje

optimalne vrijednosti parametra 휇 i 훼 za tri skupa podataka.

Tablica 4.8. Optimalne vrijednosti parametra μ i α za skup podataka iz TREC 2002, 3003 I

2004 staza novosti

휇 훼

TREC 2002 0,25 0,95

TREC 2003 0,2 0,75

TREC 2004 0,2 0,75

Sljedeće tablice (tablica 4.9. - 4.11.) i grafovi (slika 4.21. - 4.26.) prikazuju rezultate za tri

konfiguracije treniranja i testiranja. Statistički signifikantne razlike između TF-ISF i TF-

ISFcon označene su zvjezdicom. Statistički signifikantne razlike između tfmix i TF-ISFcon

označene su sa †. Rezultati su slični kao kod skupa eksperimenata sa kratkim upitima.

Kada je u pitanju MAP mjera testovi pokazuju statistički signifikantno poboljšanje kada se

koristi metoda TF-ISFcon u odnosu na osnovnu metodu TF-ISF i tfmix za svaki od testiranih

skupova podataka i vrijednosti parametra 휇 i 훼 . TF-ISFcon metoda također pokazuje

statistički signifikantno bolje rezultate u odnosu na TF-ISF i tfmix u većini slučajeva (4 od

6) kada se koristi R-precision mjera. Što se tiče P@x mjera tablice 4.9. - 4.11. imaju

sveukupno 48 usporedbe. Testovi pokazuju dva statistički signifikantna poboljšanja (prema

P@100 mjeri), dva statistički signifikantna pogoršanja (prema P@5 mjeri) i 44 statistički

72

ne signifikantne razlike kada se koristi TF-ISFcon u odnosu na osnovnu metodu TF-ISF i

tfmix. Kada je u pitanju tfmix metoda, jednako kao i kod testova sa kratkim upitima, nije

uočeno nijedno statistički signifikantno poboljšanje u odnosu na osnovnu TF-ISF metodu

što ponovo potvrđuje testove iz [5].



P@5 0,8080 0,8120 0,7480*† 0,6080 0,6120 0,6120 P@10 0,7560 0,7580 0,7540 0,5500 0,5500 0,5720 P@15 0,7440 0,7467 0,7667 0,5240 0,5173 0,5360 P@20 0,7370 0,7400 0,7510 0,5190 0,5240 0,5240 P@25 0,7360 0,7336 0,7392 0,5200 0,5208 0,5232 P@30 0,7227 0,7247 0,7313 0,5040 0,5080 0,5107 P@50 0,7080 0,7068 0,7064 0,4756 0,4788 0,4752 P@100 0,6612 0,6616 0,6694 0,4326 0,4314 0,4288 MAP 0,6271 0,6271 0,6368*† 0,3829 0,3836 0,3948*† R-prec. 0,5981 0,5986 0,6100*† 0,3836 0,3829 0,3954*†


73




P@5 0,3960 0,4040 0,3960 0,6080 0,6040 0,6240 P@10 0,3840 0,3800 0,3820 0,5500 0,5660 0,5780 P@15 0,3613 0,3573 0,3627 0,5240 0,5347 0,5387 P@20 0,3370 0,3450 0,3410 0,5190 0,5320 0,5220 P@25 0,3264 0,3328 0,3304 0,5200 0,5216 0,5192 P@30 0,3147 0,3113 0,3233 0,5040 0,5087 0,5147 P@50 0,2796 0,2832 0,2868 0,4756 0,4744 0,4796 P@100 0,2280 0,2272 0,2370*† 0,4326 0,4286 0,4310 MAP 0,2436 0,2449 0,2684*† 0,3829 0,3845 0,3959*† R-prec. 0,2753 0,2785 0,2815 0,3836 0,3810 0,3962*†

74



75



P@5 0,3960 0,4040 0,3960 0,8080 0,7960 0,7680*† P@10 0,3840 0,3800 0,3820 0,7560 0,7640 0,7580 P@15 0,3613 0,3573 0,3627 0,7440 0,7467 0,7613 P@20 0,3370 0,3450 0,3410 0,7370 0,7460 0,7490 P@25 0,3264 0,3328 0,3304 0,7360 0,7344 0,7360 P@30 0,3147 0,3113 0,3233 0,7227 0,7273 0,7333 P@50 0,2796 0,2832 0,2868 0,7080 0,7104 0,7096 P@100 0,2280 0,2272 0,2370*† 0,6612 0,6608 0,6678 MAP 0,2436 0,2449 0,2684*† 0,6271 0,6274 0,6381*† R-prec. 0,2753 0,2785 0,2815 0,5981 0,5971 0,6092*†


76


Kao i u prethodnom poglavlju da bi se postigao bolji uvid u performanse nove metode

kada je u pitanju R-precision mjera i P@x mjere izvedeni su dodatni testovi u kojima su

spojena tri skupa podataka iz TREC staze novosti 2002, 2003 i 2004. Rezultati su prikazani

u tablici 4.12. i kao graf na slici 4.27. Statistički signifikantne razlike TF-ISFcon u odnosu

na osnovnu TF-ISF metodu u tablici 4.12. su označene zvjezdicom.

77


2003 i TREC 2004

TF-ISF

TF-ISF 휇 = 0.1 휇 = 0.2 휇 = 0.3 휇 = 0.4 휇 = 0.5

P@5 0,6040 0,5960 0,5960 0,5773 0,5627* 0,5133* P@10 0,5633 0,5727 0,5727 0,5667 0,5387* 0,5013* P@15 0,5431 0,5489 0,5542 0,5431 0,5253 0,4876* P@20 0,5310 0,5377 0,5373 0,5357 0,5143* 0,4740* P@25 0,5275 0,5299 0,5285 0,5256 0,5064* 0,4680* P@30 0,5138 0,5211 0,5238 0,5158 0,4993* 0,4653* P@50 0,4877 0,4901 0,4920 0,4868 0,4761* 0,4489* P@100 0,4406 0,4449 0,4453 0,4429 0,4327* 0,4135* MAP 0,4179 0,4326* 0,4341* 0,4314* 0,4212 0,4007* R-prec. 0,4190 0,4269* 0,4290* 0,4290* 0,4211 0,4009*


2003 i TREC 2004

Rezultati prikazani u tablici 4.12 i slici 4.27. slični su kao kod testiranja sa kratim upitima.

Mogu se uočiti poboljšanja za cijeli niz vrijednosti parametra 휇 (휇 = 0.1 − 0.3) kada su u

pitanju mjere MAP i R-precision. U isto vrijeme nema statistički signifikantnih razlika

prema P@x mjerama. Kod većih vrijednosti parametra 휇 (휇 = 0.4,휇 = 0.5) nova metoda

počinje pokazivati signifikantno lošije rezultate prema većini mjera. Ovakav scenarij je

78

očekivan budući da mora postojati određena granična vrijednost parametra 휇 kod koje je

utjecaj susjednih rečenica prevelik.

Iz tablice 4.12. se može vidjeti da je prilično jednostavno odabrati vrijednost parametra 휇

tako da TF-ISFcon pokazuje bolje rezultate nego osnovna metoda TF-ISF prema MAP i R-

precision mjerama, a u isto vrijeme pokazuje kompetitivne rezultate prema testiranim P@x

mjerama.

4.2.1.3. Analiza rezultata

Mjere MAP i R-precision kod kojih nova metoda TF-ISFcon pokazuje bolje performanse od

TF-ISF orijentirane su na odaziva (eng. recall oriented) . Slično poboljšanje je postignuto

metodom koja uključuje lokalni kontekst u metodu modeliranja jezika [5]. Uključivanje

konteksta promiče rečenice koje nemaju mnogo zajedničkih izraza sa upitom, ali zato

imaju zajedničke izraze u kontekstu što rezultiram višim odazivom. Odaziv je važan u

aplikacijskom scenariju prezentiranom u [2]. U tom scenariju korisnik ima mogućnost

korištenja pametnog „DALJE“ botuna (eng. NEXT) koji mu daje mogućnost šetanja kroz

listu dokumenata označavajući pritom samo relevantne (i nove) rečenice. Visok odaziv

također je važan kada je u pitanju sažimanje dokumenata (eng. multi-document

summarization) [5]. Sa druge strane kada su u pitanju testirane, na preciznost orijentirane

(eng. precision oriented) mjere (P@5, P@10, P@15, P@20, P@25, P@30, P@50,

P@100), performanse TF-ISFcon u odnosu na TF-ISF su kompetitivne. To znači da ne treba

brinuti kada su u pitanju aplikacije koje zahtijevaju visoku preciznost kao što je

odgovaranje na pitanja (eng. question-answering).

Interesantno je da TF-ISFcon pokazuje bolje rezultate prema MAP i R-precision mjerama i

kada se koriste manje vrijednosti parametra 휇 od 0,1. Npr. isprobana je vrijednost 휇 =

0.01 s kratkim i sa dugim upitima u oba slučaja sa signifikantno boljim rezultatima prema

MAP i R-precision. Razlog leži u činjenici da TF-ISF funkcija rangiranja proizvodi iste

ocjene za višestruke rečenice. U takvim situacijama dodatna informacija iz susjednih

rečenica, bez obzira koliko mala bila, može pomoći boljem poretku rečenica u rezultatu. U

tablici 4.13. je prikazan niz rečenica (TREC 2003 staza novosti) koje imaju jednaku ocjenu

ako se koristi TF-ISF metoda (funkcija rangiranja 푅(푠|푞) ). Ako se koristi TF-ISFcon

79

metoda za iste rečenice dobiju se raznovrsnije ocjene (tablica 4.13.) što omogućuje

precizniji poredak rečenica.

Tablica 4.13. Primjer rečenica s istom ocjenom prema TF-ISF metodi i različitim

ocjenama prema TF-ISFcon metodi (μ=0,01)

Naziv dokumenta Broj rečenice TF-ISF TF-ISFcon Relevantna APW20000425.0031 20 2,6174 2,6402 TRUE NYT20000421.0179 41 2,6174 2,6267 FALSE APW20000425.0103 6 2,6174 2,6233 FALSE APW20000405.0092 4 2,6174 2,6175 FALSE NYT19991019.0443 18 2,6174 2,6174 TRUE APW20000629.0092 6 2,6174 2,6174 FALSE APW20000629.0004 30 2,6174 2,6174 FALSE

80

4.3. Korištenje duljine rečenice za poboljšanje pronalaženja rečenica

Korištenje duljine rečenica za poboljšanje pronalaženja rečenica već je uspješno uvedeno u

metode modeliranja jezika [5]. U ovoj doktorskoj disertaciji metode TF-ISF i TF-ISFcon su

poboljšane korištenjem duljine rečenica. U ovom poglavlju opisane su trenutne metode za

pronalaženje rečenica koje koriste duljinu rečenica kao i uvođenje korištenja duljine

rečenica u TF-ISF i TF-ISFcon metode. Nove varijante TF-ISF i TF-ISFcon metoda koje

uzimaju u obzir kontekst rečenice i duljinu rečenice su uspoređene sa osnovnom TF-ISF

metodom, sa prijašnjim pokušajem uključivanja konteksta u TF-ISF metodu nazvanu tfmix

kao i sa varijantom metode mješavine tri modela koja forsira dohvaćanje dugih rečenica.

Kao što je već spomenuto u [5] korištene su metode pronalaženja rečenica koje spadaju u

okvir modeliranja jezika. Te metode su proširene koristeći kontekst rečenice. Međutim,

dodatno su te iste metode proširene koristeći komponentu 푝(푑|푠) koja je nazvana važnost

rečenice unutar teme dokumenta (eng. importance of the sentence within the topic of the

document). Korištenje komponente 푝(푑|푠) je doprinijelo poboljšanju većine metoda

modeliranja jezika. Također je pokazano da komponenta 푝(푑|푠) forsira dohvaćanje dugih

rečenica i da unapređenje metoda pronalaženja rečenica potječe od ovog efekta. U [5]

testirane su sljedeće metoda modeliranja jezika sa lokalnim kontekstom i komponentom

푝(푑|푠):

3MM (mješavina tri modela)

2S (model dvije faze)

2S-I (model dvije faze sa invertiranim fazama)

JM (Jelinek-Mercer izglađivanje)

Dir (Dirichlet izglađivanje)

Međutim od navedenih metoda u ovom radu ponovit će se samo testiranje 3MM metode sa

푝(푑|푠) komponentom. Jedan razlog je što je 3MM metoda višestruko korištena [5], [7],

[46]. Drugi razlog je što ova metoda kada se kombinira sa 푝(푑|푠) komponentom pokazuje

slično dobre rezultate kao i ostale najbolje metode iz [5]. Ova metoda zato ima ulogu

osnovne metode (eng. baseline) koja koristi i kontekst i komponentu za forsiranje

dohvaćanja dugih rečenica (푝(푑|푠)).

81

Nove varijante TF-ISF metode koje uzimaju u obzir kontekst rečenice i duljinu rečenice su

uspoređene sa sljedećim metodama:

Osnovna TF-ISF metoda [14], [16] (jaka osnovna metoda koja je pokazala dobre

rezultate u prijašnjim testovima [14], [27], [26])

tfmix [5] (TF-ISF verzija sa kontekstom koja nije uspjela unaprijediti osnovnu TF-

ISF metodu u testovima u [5] kao ni u ponovljenim testovima u poglavlju 4.2.1.1. i

4.2.1.2.)

Varijanta 3MM metode (eng. Three Mixture Model ili Mješavina tri modela), [5],

[7], (koristi kontekst rečenice i komponentu koja forsira dohvaćanje dugih rečenica

푝(푑|푠)) nazvana 3MMPDS.

4.3.1. Dodavanje komponente za forsiranje dohvaćanja dugih rečenica u TF-ISF funkciju rangiranja

Već je spomenuto da je u [5] korištena vjerojatnost generiranja dokumenta iz rečenice

(푝(푑|푠) ) u cilju unapređenja nekoliko metoda za pronalaženja rečenica baziranih na

modeliranju jezika. U [5] 푝(푑|푠) je nazvano mjerom važnosti rečenice unutar teme

dokumenta. Nekoliko metoda (3MM, 2S, 2S-I, DIR, JM) je testirano sa 푝(푑|푠)

komponentom i sve su pokazale slično dobre performanse. Drugim riječima nije bilo

statistički signifikantnih razlika između njih, a u isto vrijeme su sve pokazale bolje

performanse od osnovnih metoda TF-ISF i BM25. Važna spoznaja iz [5] je da 푝(푑|푠)

forsira dohvaćanje dugih rečenica i da je unapređenje metoda nastalo kroz taj efekt. Iz tog

razloga pretpostavka je da se i TF-ISF metoda može unaprijediti modificirajući je da uzima

u obzir i duljinu rečenice.

Polazi se od pretpostavke da je relevantnost rečenice proporcionalna odnosu između

duljine trenutne rečenice i prosječne duljine rečenice u dokumentu koji sadrži rečenicu.

Nova funkcija rangiranja ovdje se definira kao:

푅 (푠|푞) =|푠|

퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)푅(푠|푞) (4.4)

Gdje je:

82


푑(푠) dokument koji sadrži rečenicu 푠,

퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠) prosječna duljinu rečenice u dokumentu koji sadrži

rečenicu 푠.

Funkcija rangiranja 푅 (푠|푞) (jednadžba (4.4)) forsira dohvaćanje dugih rečenica

dajući im dodatnu težinu. Preciznije, vrijednost izraza | |( )

je visoka za

rečenice koje su duge u odnosu na prosječnu duljinu rečenica u dokumentu.

Da bi se kreirala metoda (odnosno funkcija rangiranja) koja u isto vrijeme koristi kontekst

rečenica i forsira dohvaćanje dugih rečenica može se kombinirati jednadžba (4.2) i

jednadžba (4.4) na sljedeći način:

푅 (푠|푞) =|푠|

퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)푅 (푠|푞) (4.5)

4.3.2. Mješavina tri modela sa forsiranjem dugih rečenica ili 3MMPDS

Kao osnovna metoda izabrana je verzija Mješavine tri modela (3MM) koja koristi kontekst

u obliku prethodne, trenutne i sljedeće rečenice kao i 푝(푑|푠) iz [5]. Funkcija rangiranja je

preuzeta iz [5] i glasi:

푅 (푠|푞) = 푝(푑|푠) ∙ 휆푝(푡|푠) + 훾푝 푡 푐표푛푡푒푥푡(푠) + (1 − 휆 − 훾)푝(푡)( , )

∈

(4.6)

Gornja funkcija rangiranja (jednadžba (4.6)) je identična funkciji rangiranja prezentiranoj u

[7] s tom razlikom što se umjesto 푝(푡|푑) koristi 푝 푡 푐표푛푡푒푥푡(푠) i što se uvodi

komponenta 푝(푑|푠) koja je nazvana mjerom važnosti rečenice unutar teme dokumenta.

푝(푑|푠) komponenta je definirana kako slijedi [5]:

푝(푑|푠) =∏ 푝(푡|푑) ( , )

∈

∏ 푝(푡) ( , )∈

(4.7)

83

U jednadžbama (4.6) i (4.7) je:

푝(푡|푠) = ( , )| |

,

푝(푡|푐표푛푡푒푥푡) = , ( )| ( )|

,

푝(푡|푑) = ( , )| |

,

푝(푡) = ( , )| |

,


푐 푡, 푐표푛푡푒푥푡(푠) broj pojavljivanja izraza 푡 u kontekstu rečenice 푠 koji se sastoji

od prethodne, trenutne i sljedeće rečenice,

푐(푡, 푞) broj pojavljivanja izraza u upitu 푞,

푐(푡, 푑) broj pojavljivanja izraza 푡 u dokumentu 푑,

푐(푡, 푐표푙푙) broj pojavljivanja izraza 푡 u kolekciji 푐표푙푙,


|푐표푛푡푒푥푡(푠)| duljina konteksta 푐표푛푡푒푥푡(푠),

|푑| duljina dokumenta 푑,

|푐표푙푙| duljina kolekcije.

4.3.3. Pregled svih testiranih metoda

Pregled svih testiranih metoda u ovom poglavlju (tj. u poglavlju 4.3.), s navedenom

funkcijom rangiranja i podacima o ekvivalentnim testiranjima je prikazan tablicom 4.14.

84

Tablica 4.14. Pregled svih metoda pronalaženja rečenica testiranih u poglavlju 4.3.

Metoda Funkcija

rangiranja

Broj

jednadžbe

Prvi put testirana u poglavlju 4.3.?

TF-ISF 푅(푠|푞) (3.14) ne, također testirana u [5], [14], [16] i u

poglavlju 4.2.

tfmix 푅 (푠|푞) (3.43) ne, također testirana u [5] i u poglavlju

4.2.

3MMPDS 푅 (푠|푞) (4.6) ne, također testirana u [5], bez 푝(푑|푠)

također testirana u [7]

TF-ISFcon 푅 (푠|푞) (4.2)

ne, također testirana u [62] i u poglavlju

4.2. sa identičnom postavkom

eksperimenta

TF-ISFlength 푅 (푠|푞) (4.4) da

TF-ISFcon,length 푅 (푠|푞) (4.5) da

Nastanak svake od metoda iz tablice 4.14. je prikazan slikom 4.28.

85

Slika 4.28. Nastajanje različitih metoda pronalaženja rečenica korištenih u poglavlju 4.3.

4.3.4. Empirijska studija

U cilju testiranja novih metoda TF-ISFlength i TF-ISFcon,length korištene se slične postavke

eksperimenta kao u poglavlju 4.2.1.1. Kao ulazni podaci su korišteni skupovi podataka sa

TREC staza novosti. Korištena je konfiguracija treniranja i testiranja. Za razliku od

poglavlja 4.2.1.1. ovdje je radi preglednosti korištena samo P@10 mjera, a ne cijeli niz

P@x mjera. Jednako kao u poglavlju 4.2.1.1. korištene su također i mjere MAP i R-

precision. Kao upiti su korišteni kratki upiti odnosno naslov TREC teme (slika 4.2., 4.5. i

4.8.).

Trening je izveden radi pronalaženja vrijednosti parametara 휇 , 훼 , 휆 , 훾 za koje

odgovarajuće metode pokazuju najbolje performanse. Tijekom sva tri treninga (TREC

2002, 2003, 2004) testirane su vrijednosti od 0,0 to 1,0 u koracima od 0,05 za svaki od

86

parametara. Najbolje vrijednosti parametara su fiksirane u cilju primjenjivanja na preostala

dva skupa podataka. Tijekom treniranja performanse metoda su mjerene koristeći mjeru

MAP.

Tablica 4.15. pokazuje optimalne vrijednosti parametra 휇 za odgovarajuće metode (TF-

ISFlength i TF-ISFcon,length) i tri skupa podataka.

Tablica 4.15. Optimalne vrijednosti parametra μ za metode TF-ISFcon, TF-ISFcon,length

TF-ISFcon TF-ISFcon,length 휇 휇

TREC 2002 0,2 0,2 TREC 2003 0,1 0,3 TREC 2004 0,2 0,35

Tablica 4.16. prikazuje optimalne vrijednosti parametara metoda tfmix i 3MMPDS.

Tablica 4.16. Optimalne vrijednosti parametara metoda tfmix i 3MMPDS

tfmix 3MMPDS

훼 휆 훾 TREC 2002 0,7 0,9 0,05 TREC 2003 0,85 0,95 0,0 TREC 2004 0,6 0,9 0,05

Opet je pregled rezultata testiranja predočen i tablično i grafom zbog bolje preglednosti

rezultata. Sljedeće tablice i grafovi (tablice 4.17. - 4.19. i slike 4.29. - 4.34.) prikazuju

testiranje optimiziranih metoda za tri konfiguracije treniranja i testiranja. U tablicama 4.17.

- 4.19. statistički signifikantne razlike u usporedbi sa osnovnom metodom TF-ISF su

označene s zvjezdicom. Statistički signifikantne razlike u odnosu na tfmix metodu su

označene sa †. Statistički signifikantne razlike u odnosu na 3MMPDS metodu su označene

sa m.

87


α=0,7, λ=0,9, γ=0,05

TF-ISF tfmix 3MMPDS TF-ISFcon TF-ISFlength TF-ISFcon,length TR

EC

2003

P@10 0,6980 0,7040 0,5780*† 0,6980 m 0,7720*†m 0,7680*†m MAP 0,5764 0,5775 0,5834 0,5930*†m 0,6178*†m 0,6454*†m R-prec. 0,5457 0,5481 0,5785*† 0,5725*†m 0,5762*†m 0,6118*†m

TREC

20

04

P@10 0,4220 0,4440 0,3260*† 0,4460m 0,4560 0,4700*†m MAP 0,3252 0,3260 0,3126*† 0,3398*†m 0,3486*†m 0,3691*†m R-prec. 0,3376 0,3401 0,3254 0,3456m 0,3667*†m 0,3772*†m


γ=0,05

88


γ=0,05


α=0,85, λ=0,95, γ=0,0

TF-ISF tfmix 3MMPDS TF-ISFcon TF-ISFlength TF-ISFcon, length

TREC

20

02

P@10 0,2900 0,3140 0,2380† 0,3020 m 0,3540*†m 0,3860*†m MAP 0,1952 0,1973 0,2069 0,2315*†m 0,2140*† 0,2583*†m R-prec. 0,2414 0,2448 0,2188 0,2666*†m 0,2600*†m 0,2890*†m

TREC

20

04 P@10 0,4220 0,4420 0,3280*† 0,4340 m 0,4560 0,4860*†m

MAP 0,3252 0,3258 0,3080*† 0,3392*†m 0,3486*†m 0,3709*†m R-prec. 0,3376 0,3403 0,3222*† 0,3473*†m 0,3667*†m 0,3765*†m

89


γ=0,0


γ=0,0

90


α=0,6, λ=0,9, γ=0,05

TF-ISF tfmix 3MMPDS TF-ISFcon TF-ISFlength TF-ISFcon, length TR

EC

2002

P@10 0,2900 0,3140 0,2360*† 0,3040 m 0,3540*†m 0,3820*†m MAP 0,1952 0,1971 0,2105 0,2322*†m 0,2140*† 0,2570*†m R-prec. 0,2414 0,2451 0,2198 0,2672*†m 0,2600*†m 0,2861*†m

TREC

20

03

P@10 0,6980 0,6860 0,5780*† 0,6980 m 0,7720*†m 0,7620*†m MAP 0,5764 0,5773 0,5834 0,5930*†m 0,6178*†m 0,6459*†m R-prec. 0,5457 0,5483 0,5785*† 0,5725*†m 0,5762*†m 0,6104*†m


γ=0,05

91


γ=0,05

Metoda tfmix je pokazala slične performanse kao u [5] i u poglavlju 5.1. bez statistički

signifikantnih poboljšanja osnovne metode TF-ISF.

Metoda 3MMPDS je pokazala većinom gore performanse od metoda TF-ISF i tfmix.

Preciznije, metoda 3MMPDS je pokazala statistički signifikantno gore performanse od TF-

ISF i tfmix:

prema mjeri P@10 u 18 od 18 slučajeva,

prema mjeri MAP u 2 od 18 slučajeva,

prema mjeri R-precision u 1 od 18 slučajeva.

Metoda 3MMPDS je također pokazala bolje performanse od metoda TF-ISF i tfmix prema

mjeri MAP u dva od 18 slučajeva.

Metoda TF-ISFcon je pokazala većinom statistički signifikantno bolje rezultate prema MAP

i R-precision mjerama i kompetitivne rezultate prema P@10 mjeri u odnosu na osnovnu

TF-ISF i tfmix metodu. Metoda TF-ISFcon je uvijek pokazala statistički signifikantno bolje

rezultate prema mjerama P@10, MAP i R-precision u odnosu na metodu 3MMPDS.

92

Metoda TF-ISFlength je pokazala većinom statistički signifikantno bolje rezultate prema

svim mjerama (P@10, MAP, R-precision) u odnosu na metode TF-ISF, tfmix i 3MMPDS.

Može se uočiti da nove metode (TF-ISFcon, TF-ISFlength, TF-ISFcon, length) imaju bolje ili

kompetitivne performanse u odnosu na stare metode (TF-ISF, tfmix, 3MMPDS). Najbolja

metoda među testiranima TF-ISFcon,length je kandidat za najbolju metodu pronalaženja

rečenica budući da pokazuje bolje rezultate od prezentiranih SOTA metoda.

Da bi se bolje analizirao efekt uključivanja lokalnog konteksta i efekt forsiranja

dohvaćanja dugih rečenice dodatno su uspoređene samo TF-ISF bazirane metode (TF-ISF,

TF-ISFcon, TF-ISFlength, TF-ISFcon, length). Rezultati su prikazani tablicama 4.20. - 4.22. i

grafovima na slikama 4.35. - 4.40. U tablicama 4.20. - 4.22. statistički signifikantne razlike

u odnosu na osnovnu TF-ISF metodu su označene s zvjezdicom. Statistički signifikantne

razlike u odnosu na metodu TF-ISFcon su označene sa †. Statistički signifikantne razlike u

odnosu na TF-ISFlength metodu su označene sa L.

Tablica 4.20. TREC 2003 i TREC 2004, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length

TF-ISF TF-ISFcon TF-ISFlength TF-ISFcon,length

TREC 2003 P@10 0,6980 0,6980 0,7720*† 0,7680*† MAP 0,5764 0,5930* 0,6178*† 0,6454*†L R-prec. 0,5457 0,5725* 0,5762* 0,6118*† L

TREC 2004 P@10 0,4220 0,4460 0,4560 0,4700* MAP 0,3252 0,3398* 0,3486*† 0,3691*† L R-prec. 0,3376 0,3456 0,3667*† 0,3772*† L

93

Slika 4.35. TREC 2003, μ=0,2 za TF-ISFcon, μ=0,2 za TF-ISFcon,length


94


TF-ISF TF-ISFcon TF-ISFlength TF-ISFcon, length

TREC 2002 P@10 0,2900 0,3020 0,3540*† 0,3860*† MAP 0,1952 0,2315* 0,2140*† 0,2583*† L R-prec. 0,2414 0,2666* 0,2600* 0,2890*† L

TREC 2004 P@10 0,4220 0,4340 0,4560 0,4860* MAP 0,3252 0,3392* 0,3486*† 0,3709*† L R-prec. 0,3376 0,3473* 0,3667*† 0,3765*† L



95


TF-ISF TF-ISFcon TF-ISFlength TF-ISFcon,length




96


Prema prezentiranim rezultatima (tablica 4.20. - 4.22. i slika 4.35. - 4.40.) metoda TF-

ISFcon većinom pokazuje statistički signifikantno bolje rezultate prema mjerama MAP i R-

precision u odnosu na osnovnu metodu (prema mjeri MAP u šest od šest slučajeva i prema

mjeri R-precision u pet od šest slučajeva) što predstavlja ponavljanje rezultata iz poglavlja

4.2.1.1.

Iz eksperimentalnih rezultata se također vidi da nova metoda TF-ISFlength većinom ima

statistički signifikantno bolje rezultate prema svim korištenim mjerama (P@10, MAP, R-

precision) u odnosu na osnovnu TF-ISF metodu (prema P@10 u četiri od šest slučajeva,

prema MAP u šest od šest slučajeva i prema R-precision u šest od šest slučajeva).

Iz rezultata se također vidi da metoda TF-ISFcon,length uvijek pokazuje statistički

signifikantno bolje rezultate prema svim testiranim mjerama (P@10, MAP, R-precision) u

odnosu na osnovnu TF-ISF metodu.

Također je važno uočiti da metoda TF-ISFcon, length također ima statistički signifikantno

bolje rezultate prema mjerama MAP i R-precision u odnosu na metode TF-ISFcon i TF-

ISFlength. Što se može iz ovoga zaključiti? Metoda TF-ISFcon unapređuje osnovnu metodu

TF-ISF prema mjerama MAP i R-precision. Metoda TF-ISFlength također unapređuje

osnovnu metodu TF-ISF prema mjerama MAP i R-precision. Međutim kada se kombinira

97

modifikacija osnovne metode iz TF-ISFcon (tj. korištenje konteksta) i modifikacija osnovne

metode iz TF-ISFlength (tj. forsiranje dohvaćanja dugih rečenica) u novu metodu TF-

ISFcon,length dobivaju se čak statistički signifikantno bolji rezultati prema mjerama MAP i R-

precision u odnosu na svaku od dvije metode koje koriste samo jednu modifikaciju. Ovo

znači da se pozitivan efekt korištenja konteksta i pozitivan efekt forsiranja dugih rečenica

zbrajaju. Jedan efekt se ne preklapa sa drugim. Drugim riječima korisno je koristiti lokalni

kontekst rečenice i u isto vrijeme forsiranje dohvaćanja dugih rečenica.

Kada je u pitanju mjera P@10 metoda TF-ISFcon ima kompetitivne rezultate (bez

statističkih signifikantnih razlika) a metoda TF-ISFlength ima statistički signifikantno bolje

rezultate u odnosu na osnovnu TF-ISF metodu. Metoda TF-ISFcon,length nudi slična

poboljšanja kao i metoda TF-ISFlength u odnosu na osnovnu metodu. Znači i u slučaju

P@10 mjere efekt korištenja konteksta (koji ne daje statistički signifikantna poboljšanja) i

efekt forsiranja dohvaćana dugih rečenica (koji daje statistički signifikantna poboljšanja) se

ne poklapa. Nasuprot, on se zbraja.

Može se zaključiti:

Korištenje lokalnog konteksta rečenice može unaprijediti pronalaženje rečenica

Forsiranje dohvaćanja dugih rečenica može unaprijediti pronalaženje rečenica

Kombiniranje korištenja lokalnog konteksta rečenica i forsiranja dohvaćanja dugih

rečenica može dodatno unaprijediti pronalaženje rečenica

Mjere MAP i R-precision za koje nove metode (TF-ISFlength, TF-ISFcon, length) pokazuju

bolje performanse orijentirane su na odaziv. Može se uočiti da poboljšanja prema MAP i

R-precision mjerama dolaze od dvije različite modifikacije osnovni TF-ISF metode (tj.

korištenje konteksta i forsiranje dohvaćanja dugih rečenica). Uključivanje konteksta potiče

dohvaćanje rečenica koje nemaju mnogo zajedničkih izraza s upitom dok kontekst ima

zajedničkih izraza sa upitom što povećava odaziv. Kada je u pitanju forsiranje dohvaćanja

dugih rečenica razlog poboljšanja prema MAP i R-precision mjerama leži u činjenici što su

relevantne rečenice odabrane od ocjenjivača u prosjeku dulje od ne-relevantnih rečenica

[5]. Odaziv je važan za aplikacijski scenarij prezentiran u [2]. U tom scenariju korisnik

koristi pametni „NEXT“ botun koji mu daje mogućnost šetanja kroz listu rangiranih

dokumenata u kojima su označene relevantne i nove rečenice. Pronalaženje svih

98

relevantnih rečenica (tj. visok odaziv) je također važan za sažimanje više dokumenata [12],

[13], [63].

Kada je u pitanju mjera orijentirana na preciznost tj. P@10 dobivaju se bolji rezultati kada

se koriste metode TF-ISFlength i TF-ISFcon,length zbog forsiranja dohvaćanja dugih rečenica.

Ponovo, kao i kod mjera MAP i R-precision, razlog je u činjenici što su relevantne

rečenice u prosjeku dulje od ne-relevantnih. Inače mjera P@10 je važna kada se izvode

zadaci pronalaženja rečenica koji zahtijevaju visoku preciznost kao odgovaranje na pitanja

(eng. question-answering).

Uzevši u obzir prezentirane rezultate zaključuje se sljedeće:

Osnovna metoda TF-ISF se unaprjeđuje forsirajući dohvaćanje dugih rečenica.

Pozitivni efekti dvije modifikacije (korištenje konteksta i forsiranje dohvaćanja

dugih rečenica) se ne preklapaju. U stvari oni se zbrajaju i zato je korisno koristiti

obje modifikacije u isto vrijeme.

Nova metoda TF-ISFcon,length pokazuje statistički signifikantno bolje rezultate prema

mjerama P@10, MAP i R-precision u odnosu na SOTA metode TF-ISF, tfmix,

3MMPDS.

99

4.4. TF-ISF bazirane metode na razini dokumenta

Ako se usporedi zadatak pronalaženja rečenica s zadatkom pronalaženja dokumenata može

se uočiti različiti odnos između strukture kolekcije dokumenata i jedinice pronalaženja.

Kod pronalaženja dokumenata jedinica podataka koja se pronalazi je dokument. Sljedeća

jedinica podataka koja se nalazi iznad dokumenta je kolekcija dokumenata. Kod

pronalaženja rečenica situacija je drugačija. Jedinica podataka koja se pronalazi jest

rečenica. Iznad rečenice se nalazi dokument, a iznad dokumenta se nalazi kolekcija

dokumenata. Sve do sada testirane metode pronalaženja rečenica oslanjaju se na

informacije iz cijele kolekcije dokumenata. Međutim, interesantno je ispitati je li također

moguće uspješno pronalaziti rečenice na razini dokumenta odnosno koristeći informacije

samo iz dokumenta u kojem se rečenica nalazi. U ovom poglavlju predstavljene su nove

modifikacije TF-ISF baziranih metoda kojima se računanje ocjene relevantnosti rečenica

spušta na razinu pojedinačnog dokumenta bez potrebe razmatranja cjelokupne kolekcije

(korpusa) dokumenata. U sljedećem poglavlju (poglavlje 4.5.) prezentirana je prednost

metoda na razini dokumenta koja se odnosi na ubrzanje pronalaženja rečenica računanjem

ocjena relevantnosti rečenica prije nego što je dohvaćena cijela kolekcija dokumenata. U

poglavlju 8. je prezentirana mogućnost kreiranja OWL prikaza dokumenta koji omogućava

jednostavniju implementaciju pronalaženja rečenica, a koja se temelji na razvijenim TF-

ISF baziranim metodama na razini dokumenta.

4.4.1. TF-ISF na razini dokumenta i TF-ISFcon na razini dokumenta

Pretpostavka je da će TF-ISFcon metoda pokazati dobre performanse čak i ako je računamo

na razini dokumenta odnosno ako koristimo samo informacije iz dokumenata u kojem se

rečenica nalazi, a ne cijelu kolekciju dokumenata. Standardna TF-ISF funkcija rangiranja

(푅(푠|푞)) može se smatrati funkcijom svojstava rečenice i svojstava kolekcije dokumenata.

Nova definirana funkcija rangiranja TF-ISFcon (푅 (푠|푞)), predstavljena u prethodnim

poglavljima rada, može se smatrati funkcijom svojstava rečenice, svojstava susjednih

rečenica i svojstava kolekcije dokumenata. Obje funkcija rangiranja imaju zajedničko što

ovise o cijeloj kolekciji dokumenata. Drugim riječima ako ih želimo upotrijebiti potrebna

nam je cijela kolekcija dokumenata. Interesantno je ispitati je li moguće postići

kompetitivne performanse ograničavajući izvor podataka korišten za funkciju rangiranja na

100

dokument koji sadrži rečenicu. Ako se bolje analizira funkcija rangiranja 푅(푠|푞) i

푅 (푠|푞) mogu se definirati dijelovi funkcije koji ovise o cijeloj kolekciji, a to su:

푠푓(푡) ili broj rečenica u kolekciji koji sadrži izraz 푡

푁 ili broj rečenica u kolekciji

Gornji izraz 푠푓(푡) i 푁 koji ovise o cijeloj kolekciji mogu se zamijeniti odgovarajućim

izrazima 푠푓 (푡) i 푁 koji ovise samo o dokumentu u kojem se rečenica nalazi gdje je:

푠푓 (푡) je broj rečenica koji sadrži izraz 푡 u dokumentu koji sadrži rečenicu 푠

푁 je broj rečenica u dokumentu koji sadrži rečenicu 푠

Najprije se može definirati TF-ISF na razini dokumenta ili skraćeno DL TF-ISF (DL je

skraćenica od engleskog izraza Document Level):

푅 (푠|푞) = log(푐(푡, 푞) + 1)log(푐(푡, 푠) + 1)log푁 + 1

0.5 + 푠푓 (푡)∈

(4.8)

Također se može definirati TF-ISFcon metoda na razini dokumenta ili skraćena DL TF-

ISFcon modificirajući metodu TF-ISFcon. Odgovarajuća funkcija rangiranja 푅 (푠|푞) može

se definirati kako slijedi:

푅 (푠|푞) = (1 − 휇) ∙ 푅 (푠|푞) + 휇 ∙ 푅 푠 (푠) 푞 + 푅 (푠 (푠)|푞) (4.9)

Gdje je:

푅 푠 (푠) 푞 ocjena relevantnosti prethodne rečenice računana na razini

dokumenta,

푅 (푠 (푠)|푞) ocjena relevantnosti sljedeće rečenice računana na razini

dokumenta.

푅 푠 (푠) 푞 je po definiciji 0 ako je s prva rečenica u dokumentu i 푅 (푠 (푠)|푞)

je po definiciji 0 ako je s zadnja rečenica u dokumentu. Jednako kao i funkcija rangiranja

푅 (푠|푞) (jednadžba (4.2)) funkcija 푅 poziva samu sebe dok nisu uključene tri

prethodne i tri sljedeće rečenice trenutne rečenice 푠.

101

4.4.1.1. Empirijska studija

Kada su u pitanju metode za pronalaženje rečenica na razini dokumenta (DL TF-ISF i DL

TF-ISFcon) u cilju testiranja performansi napravljene su sljedeće usporedbe:

DL TF-ISF u odnosu na TF-ISF

DL TF-ISFcon u odnosu na DL TF-ISF i TF-ISF

U testovima su korišteni isti podaci, pred-procesiranje i metodologija treniranja i testiranja

(treniranje sa skupom podataka jednog TREC-a i testiranje sa skupovima podataka

preostala dva TREC-a) kao u poglavlju 5.1.1. Korišteni se kratki upiti (Naslov TREC teme,

slika 5.3.). Trening se izvodi da bi se pronašla vrijednost parametra 휇 kod kojeg sustav

pokazuje najbolje rezultate. Tijekom sva tri treninga (trening sa TREC 2002, trening sa

TREC 2003, trening sa TREC 2004) isprobavane su vrijednosti od 휇 = 0.0 do 휇 = 1.0 u

koracima od 0.05. Najbolje vrijednosti parametra 휇 su fiksirane da bi se potom primijenile

na preostala dva skupa podataka. Tijekom treninga performanse su mjerene koristeći

srednju prosječnu preciznost (MAP). Tablica 4.23. prikazuje optimalne vrijednosti

parametra 휇 za tri skup podataka TREC 2002, TREC 2003 i TREC 2004 kada se koristi

metoda DL TF-ISFcon.

Tablica 4.23. Optimalne vrijednosti parametra μ za metodu DL TF-ISFcon

휇

TREC 2002 0,05

TREC 2003 0,05

TREC 2004 0,15

Sljedeće tablice (tablica 4.24. - 4.26.) i grafovi (slika 4.41. - 4.46.) prezentiraju rezultate za

tri konfiguracije treniranja i testiranja. Statistički signifikantne razlike u odnosu na metodu

TF-ISF označene su s zvjezdicom (*), a statistički signifikantne razlike u odnosu na

metodu DL TF-ISF su označena sa †.

Kada je u pitanju MAP mjera rezultati su sljedeći:

102

Nema statistički signifikantne razlike između osnovne metode TF-ISF i DL TF-

ISF.

Metoda DL TF-ISFcon pokazuje statistički signifikantno poboljšanje u usporedbi sa

osnovnom metodom TF-ISF za svako od ukupno šest mjerenja.


metodom DL TF-ISF za svako od ukupno šest mjerenja.

Kada je u pitanju R-precision mjera rezultati su sljedeći:


ISF.


osnovnom metodom TF-ISF za četiri od ukupno šest mjerenja bez statistički

signifikantno lošijih rezultata.


metodom DL TF-ISF za svako od ukupno šest mjerenja.

Kada su u pitanju P@X mjere (P@5 – P@100) rezultati su sljedeći:


ISF.


osnovnom metodom TF-ISF za dva od ukupno 48 mjerenja bez statistički

signifikantno lošijih rezultata.


metodom DL TF-ISF za dva od ukupno 48 mjerenja bez statistički signifikantno

lošijih rezultata.

103

Tablica 4.24. P@x, MAP i R-precision za TREC 2003 i 2004, μ=0.05

TREC 2003 TREC 2004

TF-ISF DL TF-ISF DL TF-ISFcon TF-ISF DL TF-ISF DL TF-ISFcon P@5 0,7160 0,7120 0,7160 0,4360 0,4800 0,4840 P@10 0,6980 0,6980 0,6940 0,4220 0,4360 0,4340 P@15 0,7040 0,6800 0,6733 0,4280 0,4293 0,4307 P@20 0,6890 0,6650 0,6690 0,4260 0,4240 0,4300 P@25 0,6800 0,6624 0,6608 0,4168 0,4216 0,4216 P@30 0,6707 0,6600 0,6587 0,4113 0,4240 0,4240 P@50 0,6436 0,6452 0,6432 0,4040 0,4012 0,4008 P@100 0,6078 0,6048 0,6034 0,3660 0,3572 0,3602 MAP 0,5764 0,5724 0,5857*† 0,3252 0,3225 0,3340*† R-Prec. 0,5457 0,5496 0,5625*† 0,3376 0,3265 0,3321†

Slika 4.41. P@x, MAP i R-precision za TREC 2003, μ=0.05

104



TREC 2002 TREC 2004

TF-ISF DL TF-ISF DL TF-ISFcon TF-ISF DL TF-ISF DL TF-ISFcon P@5 0,3200 0,3400 0,3280 0,4360 0,4800 0,4840 P@10 0,2900 0,3200 0,3280 0,4220 0,4360 0,4340 P@15 0,2973 0,3187 0,3267 0,4280 0,4293 0,4307 P@20 0,2760 0,3070 0,3120 0,4260 0,4240 0,4300 P@25 0,2648 0,2976 0,3040 0,4168 0,4216 0,4216 P@30 0,2587 0,2893 0,2893 0,4113 0,4240 0,4240 P@50 0,2416 0,2504 0,2600 0,4040 0,4012 0,4008 P@100 0,1904 0,1914 0,2134*† 0,3660 0,3572 0,3602 MAP 0,1952 0,2065 0,2399*† 0,3252 0,3225 0,3340*† R-Prec. 0,2414 0,2470 0,2677*† 0,3376 0,3265 0,3321†

105



106


TREC 2002 TREC 2003

TF-ISF DL TF-ISF DL TF-ISFcon TF-ISF DL TF-ISF DL TF-ISFcon P@5 0,3200 0,3400 0,3480 0,7160 0,7120 0,7240 P@10 0,2900 0,3200 0,3260 0,6980 0,6980 0,6960 P@15 0,2973 0,3187 0,3200 0,7040 0,6800 0,6800 P@20 0,2760 0,3070 0,3070 0,6890 0,6650 0,6580 P@25 0,2648 0,2976 0,2968 0,6800 0,6624 0,6560 P@30 0,2587 0,2893 0,2913 0,6707 0,6600 0,6560 P@50 0,2416 0,2504 0,2596 0,6436 0,6452 0,6360 P@100 0,1904 0,1914 0,2132*† 0,6078 0,6048 0,6062 MAP 0,1952 0,2065 0,2399*† 0,5764 0,5724 0,5839*† R-Prec. 0,2414 0,2470 0,2675*† 0,5457 0,5496 0,5617*†


107


Da bi se dobio dodatni uvid u performanse DL TF-ISFcon u odnosu na TF-ISF i DL TF-ISF

metode spojeni su podaci sa sve tri TREC konferencije. U ovom slučaju ne postoji trening

skup pomoću kojega možemo izabrati optimalnu vrijednost parametra 휇. Iz tog razloga

prezentirani su rezultati za cijeli niz vrijednosti parametra 휇 . Rezultati su prikazani u

tablici 4.27. i slici 4.47. Statistički signifikantne razlike između DL TF-ISFcon i TF-ISF

označene su sa zvjezdicom a statistički signifikantne razlike između DL TF-ISFcon i DL

TF-ISF metoda su označene sa †. Ovog puta mogu se uočiti poboljšanja za niz vrijednosti

parametra 휇 kada se koristi DL TF-ISFcon metoda u odnosu na TF-ISF i DL TF-ISF

(휇 = 0.1 − 0.3) kada su u pitanju mjere MAP i R-precision i P@100. U isto vrijeme nema

statistički signifikantnih razlika prema P@X mjerama (osim prema P@100). Ako se

parametru 휇 dodjele veće vrijednosti počinju se dobivati statistički lošiji rezultati prema

nekim P@X mjerama i prestaju se dobivati statistički signifikantno bolji rezultati prema

MAP i R-precision mjerama. Ovo je očekivano budući da mora postojati određena

granična vrijednost parametra 휇 kod koje je utjecaj susjednih rečenica prevelik.

108

Tablica 4.27. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002,

TREC 2003 i TREC 2004 konferencije

TF-ISF DL TF-ISF DL TF-ISFcon

휇 = 0,1 휇 = 0,2 휇 = 0,3 휇 = 0,4 P@5 0,4907 0,5107 0,5187 0,5093 0,4987 0,4747† P@10 0,4700 0,4847 0,4867 0,4907 0,4880 0,4753 P@15 0,4764 0,4760 0,4787 0,4778 0,4773 0,4613 P@20 0,4637 0,4653 0,4693 0,4670 0,4657 0,4493 P@25 0,4539 0,4605 0,4616 0,4584 0,4576 0,4400† P@30 0,4469 0,4578 0,4591 0,4569 0,4487 0,4356† P@50 0,4297 0,4323 0,4353 0,4315 0,4287 0,4137*† P@100 0,3881 0,3845 0,3940† 0,3943† 0,3917† 0,3823 MAP 0,3656 0,3671 0,3867*† 0,3857*† 0,3824*† 0,3732 R-Prec. 0,3749 0,3744 0,3860*† 0,3878*† 0,3841*† 0,3756

Slika 4.47. P@X, MAP i R-precision za kombinirane skupove podataka TREC 2002, TREC

2003 i TREC 2004 konferencije

Iz tablice 4.27. vidi se jednostavnost izbora vrijednosti parametra 휇 kod kojeg metoda DL

TF-ISFcon pokazuje statistički signifikantno bolje rezultate u odnosu na TF-ISF i DL TF-

ISF metode prema MAP i R-precision mjerama.

Testovi u ovom poglavlju dovode do sljedećih zaključaka:

109

TF-ISF metoda može se unaprijedit prema MAP i R-precision mjerama koristeći

lokalni kontekst kada se obje metode računaju na razini dokumenta.

TF-ISF metoda se može unaprijedit prema MAP i R-precision mjerama koristeći

lokalni kontekst čak i kada se osnovna TF-ISF metoda računa na razini kolekcije a

TF-ISFcon računa na razini dokumenta. Osnovna metoda TF-ISF koristi cijelu

kolekciju dokumenata da bi izračunala ocjenu relevantnosti rečenice. Za razliku od

toga metoda DL TF-ISFcon koristi samo dokument koji sadrži trenutnu rečenicu za

isti posao. Čak i s tim ograničenjem metoda DL TF-ISFcon pokazuje bolje

performanse prema mjerama MAP i R-precision.

4.4.2. TF-ISFcon, length na razini dokumenta

U prethodnom poglavlju pokazano je da se koristeći kontekst rečenice može unaprijediti

osnovna metoda TF-ISF čak iako nova metoda koja koristi kontekst koristi sužen izvor

informacija (tj. samo dokument iz kojeg rečenica potječe). Korisnost ovakvog pristupa je

objašnjena u sljedećim poglavljima. Međutim interesantno je također testirati je li se

metoda na razini dokumenta DL TF-ISFcon može dodatno unaprijediti koristeći forsiranje

dugih rečenica. Drugim riječima interesantno je dobiti odgovor na pitanje je li se osnovna

TF-ISF metoda može još značajnije unaprijediti koristeći dodatno forsiranje dugih rečenica

i to sve to na razini dokumenta. Prilikom definiranja metode TF-ISFcon,length (jednadžba

(4.5)) vođeno je računa o tome da se nova metoda može jednostavno pretvoriti u metodu

na razini dokumenta. Iz tog razloga jednostavno je definirati novu verziju metode TF-

ISFcon,length na razini dokumenta, odnosno DL TF-ISFcon,length, kako slijedi:

푅 , (푠|푞) =|푠|

퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)푅 (푠|푞) (4.10)

Gdje:

|푠| označava duljina rečenice 푠,

푑(푠) označava dokument koji sadrži rečenicu 푠,

퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠) označava prosječnu duljinu rečenice u dokumentu koji

sadrži rečenicu 푠.

110

푅 (푠|푞) označava funkcija rangiranja metode DL TF-ISFcon definiranu

jednadžbom (7.2).

4.4.2.1. Empirijska studija

U cilju testiranja je li se osnovna metoda može dodatno poboljšati pod uvjetom da se

koristi samo informacija iz dokumenta napravit će se sljedeće usporedbe;

DL TF-ISFcon,length u odnos na TF-ISF

DL TF-ISFcon,length u odnosu na DL TF-ISFcon

U testovima se koriste isti podaci, pred-procesiranje i metodologija treniranja i testiranja

(treniranje sa skupom podataka jednog TREC-a i testiranje sa skupovima podataka

preostala dva TREC-a) kao u poglavlju 4.2.1.1. Koriste se kratki upiti (Naslov TREC teme,

slika 4.2., 4.5. i 4.8.). Trening se izvodi da bi se pronašla vrijednost parametra 휇 kod kojeg

sustav pokazuje najbolje rezultate. Tijekom sva tri treninga (trening sa TREC 2002, trening

sa TREC 2003, trening sa TREC 2004) isprobavane su vrijednosti od 휇 = 0,0 do 휇 = 1,0

u koracima od 0,05 . Najbolje vrijednosti parametra 휇 su fiksirane da bi se potom

primijenile na preostala dva skupa podataka. Tijekom treninga performanse se mjere

koristeći srednju prosječnu preciznost (MAP). Tablica 4.28. prikazuje optimalne

vrijednosti parametra 휇 za tri skup podataka TREC 2002, TREC 2003, TREC 2004 za

metode DL TF-ISFcon i DL TF-ISFcon,length.

Tablica 4.28. Optimalne vrijednosti parametra μ za metode DL TF-ISFcon i DL TF-

ISFcon,length

DL TF-ISFcon DL TF-ISFcon,length 휇 휇

TREC 2002 0,05 0,2 TREC 2003 0,05 0,3 TREC 2004 0,15 0,3

Sljedeće tablice (tablica 4.29. - 4.31.) i grafovi (slika 4.48. - 4.53.) prezentiraju rezultate za

tri konfiguracije treniranja i testiranja. Statistički signifikantne razlike u odnosu na

111

osnovnu TF-ISF metodu su označene zvjezdicom (*), a statistički signifikantne razlike u

odnosu na metodu DL TF-ISFcon su označene sa †.

Može se uočiti značajno poboljšanje kada se koristi forsiranje dugih rečenica kada su u

pitanju sve korištene mjere odnosno preciznije:

Kada je u pitanju mjera MAP, metoda DL TF-ISFcon,length pokazuje statistički

signifikantno poboljšanje u usporedbi sa metodama TF-ISF i DL TF-ISFcon za svih

šest mjerenja.

Kada je u pitanju mjera R-precision metoda DL TF-ISFcon,length pokazuje statistički

signifikantno poboljšanje u usporedbi sa metodama TF-ISF i DL TF-ISFcon za svih

šest mjerenja.

Kada su u pitanju P@X mjere (P@5 – P@100) rezultati su sljedeći:

o Metoda DL TF-ISFcon,length pokazuje statistički signifikantno poboljšanje u

usporedbi s TF-ISF metodom za svako od ukupno 48 mjerenja.

o Metoda DL TF-ISFcon,length pokazuje statistički signifikantno poboljšanje u

usporedbi s DL TF-ISFcon metodom za 46 od ukupno 48 mjerenja.


μ=0,2 za DL TF-ISFcon,length

TREC 2003 TREC 2004

TF-ISF DL

TF-ISFcon DL

TF-ISFcon,length TF-ISF DL

TF-ISFcon DL

TF-ISFcon,length P@5 0,7160 0,7160 0,7600*† 0,4360 0,4840 0,4880* P@10 0,6980 0,6940 0,7480*† 0,4220 0,4340 0,4980*† P@15 0,7040 0,6733 0,7307*† 0,4280 0,4307 0,4840*† P@20 0,6890 0,6690 0,7300*† 0,4260 0,4300 0,4640*† P@25 0,6800 0,6608 0,7280*† 0,4168 0,4216 0,4584*† P@30 0,6707 0,6587 0,7207*† 0,4113 0,4240 0,4513*† P@50 0,6436 0,6432 0,7056*† 0,4040 0,4008 0,4436*† P@100 0,6078 0,6034 0,6694*† 0,3660 0,3602 0,3988*† MAP 0,5764 0,5857* 0,6357*† 0,3252 0,3340* 0,3645*† R-Prec. 0,5457 0,5625* 0,6044*† 0,3376 0,3321 0,3664*†

112


TF-ISFcon,length


TF-ISFcon,length

113



TREC 2002 TREC 2004

TF-ISF DL

TF-ISFcon DL


TF-ISFcon DL

TF-ISFcon,length P@5 0,3200 0,3280 0,4120*† 0,4360 0,4840 0,5160* P@10 0,2900 0,3280 0,3840*† 0,4220 0,4340 0,5000*† P@15 0,2973 0,3267 0,3760*† 0,4280 0,4307 0,4787*† P@20 0,2760 0,3120 0,3560*† 0,4260 0,4300 0,4720*† P@25 0,2648 0,3040 0,3384*† 0,4168 0,4216 0,4576*† P@30 0,2587 0,2893 0,3220*† 0,4113 0,4240 0,4500*† P@50 0,2416 0,2600 0,2800*† 0,4040 0,4008 0,4372*† P@100 0,1904 0,2134* 0,2294*† 0,3660 0,3602 0,3998*† MAP 0,1952 0,2399* 0,2602*† 0,3252 0,3340* 0,3658*† R-Prec. 0,2414 0,2677* 0,2900*† 0,3376 0,3321 0,3674*†


TF-ISFcon,length

114


TF-ISFcon,length



TREC 2002 TREC 2003

TF-ISF DL

TF-ISFcon DL


TF-ISFcon DL

TF-ISFcon,length P@5 0,3200 0,3480 0,4120*† 0,7160 0,7240 0,7680*† P@10 0,2900 0,3260 0,3840*† 0,6980 0,6960 0,7480*† P@15 0,2973 0,3200 0,3760*† 0,7040 0,6800 0,7360*† P@20 0,2760 0,3070 0,3560*† 0,6890 0,6580 0,7340*† P@25 0,2648 0,2968 0,3384*† 0,6800 0,6560 0,7320*† P@30 0,2587 0,2913 0,3220*† 0,6707 0,6560 0,7247*† P@50 0,2416 0,2596 0,2800*† 0,6436 0,6360 0,7036*† P@100 0,1904 0,2132* 0,2294*† 0,6078 0,6062 0,6664*† MAP 0,1952 0,2399* 0,2602*† 0,5764 0,5839* 0,6361*† R-Prec. 0,2414 0,2675* 0,2900*† 0,5457 0,5617* 0,6053*†

115


TF-ISFcon,length


TF-ISFcon,length

Nova metoda DL TF-ISFcon,length predstavlja metodu na razini dokumenta koja daje bolje

rezultate u odnosu na osnovnu metodu TF-ISF i kada su u pitanju mjere orijentirane na

116

preciznost (P@x) i kada su u pitanju mjere orijentirane na odaziv (MAP i R-precision).

Inače nova metoda DL TF-ISFcon,length također većinom daje signifikantno bolje rezultate

nego DL TF-ISFcon što je čini prvim izborom kada je u pitanju pronalaženje rečenica na

razini dokumenta.

4.5. Prednost metoda za pronalaženje rečenica na razini dokumenta

Kao što je već spomenuto metode za pronalaženje rečenica na razini dokumenta zasnivaju

se na funkcijama rangiranja koje kao izvor informacija koriste samo dokument u kojem se

rečenica nalazi umjesto uobičajeno korištene cijele kolekcije dokumenata. Iz ovog

proizlazi prednost da nije potrebna cijela kolekcija dokumenata da bi se počelo sa

računanjem ocjena relevantnosti rečenica. Ova prednost se može iskoristiti za skraćivanje

vremena koje je potrebno od početka dohvaćanja prvog dokumenata do prvog odgovora

krajnjem korisniku i to u sljedećem scenariju:

1. Korisnik postavlja upit.

2. Standardni sustav za pronalaženje dokumenata pronalazi n dokumenata sa

najvećom ocjenom relevantnosti u odnosu na upit. Sustav za pronalaženje

dokumenata je na udaljenom računalu (poslužitelju).

3. n dokumenata s najvećom ocjenom relevantnosti prosljeđuje se sustavu za

pronalaženje rečenica jedan po jedan.

4. Sustav za pronalaženje rečenica je ugrađen u preglednik (eng. browser) krajnjeg

korisnika. Sustav za pronalaženje rečenica u što kraćem roku vraća odgovor

krajnjem korisniku u obliku k rečenica s najvećom ocjenom relevantnosti koristeći

pri tom dokumente koje je dobio od udaljenog sustava za pronalaženje dokumenata.

Ovakav scenarij odgovara scenariju opisanom u TREC stazama novosti [2].

U okviru pronalaženja rečenica tehnički proces potreban za davanje odgovora na upit

krajnjem korisniku može se podijeliti na sljedeće faze

1. Pred-procesiranje i indeksiranje

2. Računanje ocjena relevantnosti rečenica

3. Dohvaćanje gornjih k rečenica s najvećom ocjenom relevantnosti.

117

Na koji način metode na razini dokumenta skraćuju cijeli proces davanja odgovora na upit

korisnika je prikazano na slici 4.54.

118

Slika 4.54. Vremena izvršavanja metoda na razini kolekcije i metoda na razini dokumenta

119

Na slici 4.54. vremenski je obuhvaćen cijeli proces dohvaćanja rečenica od dohvaćanja

prvog dokumenta do davanja odgovora u obliku k rečenica s najvećom ocjenom

relevantnosti. Na primjeru na slici sustav kao ulaz prima tri dokument. Međutim, ovo se

trivijalno može poopćiti za slučaju u kojem sustav prima n dokumenata.

Na početku je prikazana izvedbe metoda na razini kolekcije sa statičkim indeksom (TF-

ISF, TF-ISFcon, TF-ISFlength, TF-ISFcon,length), (slika 4.54.). Drugim riječima, najprije se

dohvaćaju sva tri dokumenta. Tek nakon što su svi dokumenti dohvaćeni kreće se sa

procesiranjem koje podrazumijeva

Pred-procesiranje i indeksiranje

Računanje ocjena relevantnosti rečenica

Dohvaćanje gornjih k rečenica s najvećom ocjenom relevantnosti.

Zatim je prikazan primjer izvedbe metoda na razini kolekcije sa dinamičkim indeksom

(TF-ISF, TF-ISFcon, TF-ISFlength, TF-ISFcon,length). U ovom slučaju sa procesiranjem

dokumenata se počinje već nakon dohvaćanja prvog dokumenta. Nakon svakog

dohvaćanja dokumenta kreira se indeks za taj dokument i integrira se sa prethodnim

indeksom sve do dohvaćanja zadnjeg dokumenta. Zatim se obavljaju još zadnja dva

koraka.

Računanje ocjena relevantnosti rečenica

Dohvaćanje gornjih k rečenica s najvećom ocjenom relevantnosti.

Na kraju je prikazan primjer izvedbe metoda na razini dokumenta (DL TF-ISF, DL TF-

ISFcon, i DL TF-ISFcon,length). Kod ovih metoda korak pred-procesiranja i indeksiranja

počinje nakon dohvaćanja prvog dokumenta. Budući da ove metode u funkciji rangiranja

ne sadrže statistike koje obuhvaćaju cijelu kolekciju nego samo statistike koje obuhvaćaju

dokument ili dijelove dokumenta (rečenicu i lokalni kontekst) već prije početka

dohvaćanja sljedećeg dokumenta može se krenuti sa računanjem ocjena relevantnosti

pojedinačnih rečenica. Nakon dohvaćanja zadnjeg dokumenta (u ovom primjeru trećeg

dokumenta) potrebno je kreirati indeks samo za zadnji dokument i izračunati ocjene

relevantnosti rečenica samo za zadnji dokument. Na kraju ostaje samo još dohvaćanje

gornjih k rečenica sa najvećom ocjenom relevantnosti.

120

4.5.1. Usporedba vremenskih složenosti algoritama

Prilikom usporedbe vremenskih složenosti algoritama različitih metoda podrazumijeva se

sljedeće:

Dohvaćanje svakog dokumenta traje dulje nego sljedeća dva koraka zajedno koja se

istovremeno izvršavaju sa dohvaćanjem dokumenta:

Pred-procesiranje i indeksiranje dokumenta,

Integriranje sa postojećim indeksom

što je prikazano na slici 4.55.

Slika 4.55. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje dokumenta i

Integriranje sa postojećim indeksom“ u odnosu na vrijeme dohvaćanja dokumenta

Također je pretpostavka da dohvaćanje svakog dokumenta traje dulje nego sljedeća dva

koraka zajedno koja se istovremeno izvršavaju sa dohvaćanjem dokumenta:

Pred-procesiranje i indeksiranje dokumenta,

Računanje ocjene relevantnosti rečenica iz dokumenta x

što je prikazano na slici 4.56.

121

Slika 4.56. Vrijeme izvršavanja koraka „Predprocesiranje i indeksiranje Dokumenta“ i

„Računanje ocjene relevantnosti rečenica iz Dokumenta“ u odnosu na vrijeme

dohvaćanja dokumenta

Uz ove dvije pretpostavke usporedba vremenskih složenosti različitih implementacija se

svodi na uspoređivanje vremenskih složenosti koraka nakon trenutka t3 (tj. trenutka nakon

dohvaćanja zadnjeg dokumenta), (slika 4.54.).

Prilikom uspoređivanja vremenskih složenosti algoritama pretpostavlja se sljedeće:

1. Svaki dokument u kolekciji dokumenata sadrži barem jednu riječ koja nije

uobičajena riječ (eng. stop word)

2. Kolekcija dokumenata sadrži dva ili više dokumenata.

4.5.1.1. Usporedba metoda na razini kolekcije (statički indeks) sa metodama na razini

dokumenta nakon trenutka t3

Koraci metoda na razini kolekcije (TF-ISF, TF-ISFcon, TF-ISFlength, TF-ISFcon,length) ako se

koristi statički indeks nakon trenutka t3 su (slika 4.54.):

Pred-procesiranje i indeksiranje dokumenata 1,2 i 3

Računanje ocjene relevantnosti rečenica iz dokumenata 1, 2 i 3

Dohvaćanje gornjih k rečenica

122

Ili poopćeno za n dokumenata

Pred-procesiranje i indeksiranje dokumenata 1,2,…n

Računanje ocjene relevantnosti rečenica iz dokumenata 1, 2,…n


Koraci metoda na razini kolekcije (DL TF-ISF, DL TF-ISFcon i DL TF-ISFcon,length) nakon

trenutka t3 su (slika 4.54.):

Pred-procesiranje i indeksiranje dokumenta 3

Računanje ocjene relevantnosti rečenica iz dokumenta 3



Pred-procesiranje i indeksiranje dokumenta n

Računanje ocjene relevantnosti rečenica iz dokumenta n


U cilju uspoređivanja vremena izvršavanja ove dvije skupine metoda usporedit će se

odgovarajući koraci kao što je prikazano u tablici 4.32.

Tablica 4.32. Koraci metoda na razini kolekcije sa statičkim indeksom i metoda na razini

dokumenta čije vremenske složenosti se uspoređuju

Metode na razini kolekcije (statički

indeks)

Metode na razini dokumenta

Pred-procesiranje i indeksiranje

dokumenata 1,2,…n

Pred-procesiranje i indeksiranje dokumenta n

Računanje ocjene relevantnosti rečenica

iz dokumenata 1, 2,…n

Računanje ocjene relevantnosti rečenica iz

dokumenata n

Dohvaćanje gornjih k rečenica Dohvaćanje gornjih k rečenica

a) Pred-procesiranje i indeksiranje dokumenata

Pred-procesiranje i indeksiranje dokumenata može se podijeliti na sljedeće pod-korake:

1. Rastavljanje na pojedinačne riječi (eng. tokenization)

2. Pretvaranje svih slova u mala slova.

123

3. Uklanjanje uobičajenih riječi (eng. stopwords)

4. Generiranje parova riječ – posting (posting se sastoji od identifikatora rečenice i

broja pojavljivanja riječi u rečenici)

5. Indeksiranje

Cilj je pokazati da su metode na razini dokumenta brže od metoda na razini kolekcije kada

je u pitanju korak pred-procesiranja i indeksiranja. Pritom je dovoljno pokazati da su

metode na razini dokumenta brže za svaki od pet pod-koraka.

Algoritam za rastavljanje na pojedinačne riječi za metode na razini kolekcije može se

definirati kao:

TokenizeCollection(collection)

Foreachdocumentd ∈ collection

Foreachsentences ∈ d

TokenizeSentence(s)

Returncollection

Algoritam za rastavljanje na pojedinačne riječi za metode na razini dokumenta može se

definirati kao:

TokenizeDocument(d)


TokenizeSentence(s)

Returncollection

Funkcija TokenizeSentence(s) ispituje svaki znak u rečenici radi potrage za granicama

između riječi i zato ima onoliko koraka koliko ima i znakova u rečenici. Uzevši to u obzir

vremenske složenosti algoritama TokenizeCollection i TokenizeDocument su sljedeće:

Vremenska složenost algoritma TokenizeCollection iznosi O(푛 ) gdje je:

푛 = 푐 = 푐 +⋯+ 푐 (4.11)

124

Gdje je:

N broj dokumenata u kolekciji,

푆 broj rečenica u i-tom dokumentu,

푐 broj znakova u j-toj rečenici i-tog dokumenta.

Vremenska složenost algoritma TokenizeDocument iznosi O(푛 ) gdje je:

푛 = 푐 (4.12)

Gdje je:

푆 broj rečenica u N-tom ili zadnjem dokumentu,

푐 broj znakova u j-toj rečenici N-tog dokumenta.

Uzevši u obzir prethodno navedene pretpostavke da se kolekcija dokumenata sastoji od

najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječ koja nije

uobičajena riječ (eng. stopword) onda je

푛 > 푛

što se jasno vidi ako se ispiše 푛 i 푛

푐 +⋯+ 푐 > 푐

Iz ovoga također slijedi da je vremenska kompleksnost algoritma TokenizeCollection veća

od vremenske kompleksnosti algoritma TokenizeDocument tj.

O(푛 ) > 푂(푛 )

125

Algoritam za normalizaciju (tj. pretvaranje svih slova u mala slova) za metode na razini

kolekcije može se definirati kao:

NormalizeCollection(collection)



NormalizeSentence(s)

Returncollection

Algoritam za normalizaciju (tj. pretvaranje svih slova u mala slova) za metode na razini

dokumenta može se definirati kao:

NormalizeDocument(d)


NormalizeSentence(s)

Returncollection

Funkcija NormalizeSentence(s) ispituje svaki znak u rečenici i zato ima onoliko koraka

koliko ima i znakova u rečenici. Uzevši to u obzir vremenske složenosti algoritama

NormalizeCollection i NormalizeDocument su sljedeće:

Vremenska složenost algoritma NormalizeCollection iznosi O(푛 ) gdje je:

푛 = 푐 = 푐 +⋯+ 푐 (4.13)

Gdje je:



푐 broj znakova u j-toj rečenici i-tog dokumenta.

Vremenska složenost algoritma NormalizeDocument iznosi O(푛 ) gdje je:

126

푛 = 푐 (4.14)

Gdje je:


푐 broj znakova u j-toj rečenici N-tog dokumenta.


najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječi koja nije

uobičajena riječ (eng. stopword) onda je

푛 > 푛

što se jasno vidi ako ispišemo 푛 i 푛

푐 +⋯+ 푐 > 푐

Iz ovoga također slijedi da je vremenska kompleksnost algoritma NormalizeCollection

veća od vremenske kompleksnosti algoritma NormalizeDocument tj.

O(푛 ) > 푂(푛 )

Algoritam za uklanjanje uobičajenih riječi (eng. stop word removal) za metode na razini

kolekcije može se definirat kao:

RemoveStopwordsCollection(collection)



RemoveStopwordsFromSentence(s)

Returncollection

Algoritam za uklanjanje uobičajenih riječi (eng. stop word removal) za metode na razini

dokumenta može se definirat kao:

127

RemoveStopwordsDocument(collection)


RemoveStopwordsFromSentence(s)

Returncollection

Pretpostavka je da metoda RemoveStopwordsFromSentence() čita cijelu riječ i briše je

ako je uobičajena riječ (stopword) u jednomkoraku. Uzevši to u obzir vremenske

složenostialgoritamaRemoveStopwordsCollection iRemoveStopwordsDocumentsu

sljedeće:

Vremenska složenost algoritma RemoveStopwordsCollection iznosi O(푛 ) gdje je

푛 = 푊 = 푊 +⋯+ 푊 (4.15)

Gdje je:



푊 broj riječi u j-toj rečenici i-tog dokumenta.

Vremenska složenost algoritma RemoveStopwordsDocument iznosi O(푛 ) gdje je

푛 = 푊 (4.16)

Gdje je:


푊 broj riječi u j-toj rečenici N-tog dokumenta.


najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječ koje nije

uobičajena riječ (eng. stop word) onda je

128

푛 > 푛


푊 +⋯+ 푊 > 푊

Iz ovoga također slijedi da je vremenska složenost algoritma

RemoveStopwordsCollection veća od vremenske složenosti algoritma

RemoveStopwordsDocument tj.

O(푛 ) > 푂(푛 )

Algoritam za generiranje parova riječ-posting (posting se sastoji od identifikatora rečenice

i broja pojavljivanja riječi u rečenici) za metode na razini kolekcije može se definirat kao:

GenerateTermPostingPairsCollection(collection)

R ← newArray



H ← newAssociativeArray

Foreachtermt ∈ sdo

H[t] ← H[t] + 1

Foreachterm푡 ∈ 퐻do

AddToArray(R,(t,(sentID(s),H[t])))

ReturnR

Algoritam za generiranje parova riječ-posting za metode na razini dokumenta može se

definirati kao:

GenerateTermPostingPairsDocument(d)

R ← newArray


H ← newAssociativeArray

129

Foreachtermt ∈ sdo

H[t] ← H[t] + 1

Foreachterm푡 ∈ 퐻do

AddToArray(R,(t,(sentID(s),H[t])))

ReturnR

Prethodna dva algoritma predstavljaju modifikaciju mapper algoritma iz [64].

Primjer rezultata gornja dva algoritma je prikazan slikom 4.57.

Slika 4.57. Primjer rezultata algoritama GenerateTermPostingPairsCollection i

GenerateTermPostingPairsDocument

Vremenska složenost algoritma GenerateTermPostingPairsCollection iznosi O(푛 )

gdje je:

푛 = 푊 = 푊 +⋯+ 푊 (4.17)

Gdje je:



푊 broj riječi u j-toj rečenici i-tog dokumenta.

Vremenska složenost algoritma GenerateTermPostingPairsDocument iznosi O(푛 )

gdje je:

푛 = 푊 (4.18)

130

Gdje je:


푊 broj riječi u j-toj rečenici N-tog dokumenta.


najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječi koja nije

uobičajena riječi (eng. stop word) onda je

푛 > 푛


푊 +⋯+ 푊 > 푊

Iz ovoga također slijedi da je vremenska složenost algoritma

GenerateTermPostingPairsCollection veća od vremenske složenosti algoritma

GenerateTermPostingPairsDocument tj.

O(푛 ) > 푂(푛 )

Algoritam za generiranje indeksa za metode na razini kolekcije kao i za metode na razini

dokumenta može se definirati kao:

GenerateIndexCollection(ArrayOfTermPostingsPairs)

R ←ArrayOfTermPostingsPairs

SortByTermAndSentenceID(R)

ConvertToIndex(R)

ReturnR

Primjer rezultata algoritma (vezan za primjer sa slike 4.57) je prikazan slikom 4.58.

131

Slika 4.58. Primjer rezultata algoritma GenerateIndexCollection

Vremenski najsloženiji dio algoritma je sortiranje SortByTermAndSentenceID(R) čija

vremenska složenost iznosi

O(푃푙표푔푃)

gdje je P broj parova riječ-posting.

Broj parova riječ-posting je različit kod metoda na razini kolekcije i metoda na razini

dokumenta. Kod metoda na razini kolekcije vremenska složenost algoritma

GenerateIndexCollectioniznosi

O(푃 ∙ 푙표푔푃 )

gdje je 푃 izraženo jednadžbom:

푃 = 푃 (4.19)

Gdje je:

푇 broj riječi u kolekciji

푃 broj postinga generiranih iz cijele kolekcije koji odgovaraju i-toj riječi

Vremenska složenost algoritma GenerateIndexCollection kod metoda na razini

dokumenta je

O(푃 ∙ 푙표푔푃 )

132

gdje je 푃 izraženo jednadžbom

푃 = 푃 (4.20)

Gdje je:

푇 broj riječi u dokumentu

푃 broj postinga generiranih iz dokumenta koji odgovaraju i-toj riječi


najmanje dva dokumenta i da svaki dokument sadrži riječi koje nisu uobičajene riječi (eng.

stop words) može se zaključiti da veći broj dokumenata (n dokumenata kod metoda na

razini kolekcije naspram jednog dokumentu kod metoda na razini dokumenta) odgovara

većem broja izraza tj. 푇 < 푇

i/ili većem broja postova za jedan od izraza (푃 < 푃 za 푖 ∈ {1,2,… , 푇 } )

U oba slučaja dolazi do povećanja broja parova riječ-posting tj.:

푃 < 푃

Iz čega slijedi da je vremenska složenost metoda na razini kolekcije veća od vremenske

složenosti metoda na razini dokumenta odnosno

O(푃 ∙ 푙표푔푃 ) > 푂(푃 ∙ 푙표푔푃 )

S ovim je pokazano da je svih pet pod-koraka pred-procesiranja i indeksiranja vremenski

manje složeno kod metoda na razini dokumenta iz čega slijedi da je korak pred-

procesiranje i indeksiranje dokumenta n vremenski manje složen od koraka pred-

procesiranje i indeksiranje dokumenata 1,2,…n (slika 4.54. i tablica 4.32)

b) Računanje ocjene relevantnosti rečenica

133

Algoritam za generiranje ocjena relevantnosti (tj. kosinus kuta između vektora upita i

rečenice) za metode na razini kolekcije i za metode na razini dokumenta može se definirat

slično kao u [18]:

RelevanceScore(Index,q)

Scores ← newAssociativeArray

Length← newAssociativeArray

InitializeLength

Foreachquerytermt ∈ q

Docalculatew , andfetchpostingslistfort

Foreachpair SenID, tf , inpostingslist

DoScores[s] ←Scores[s]+tf , ∙w ,

Foreachs

DoScores[s] ← Scores[s] Length[s]⁄

ReturnScores

U algoritmu RelevanceScore:

w , predstavlja broj pojavljivanja izraza u upitu pomnožen sa invertnom

frekvencijom dokumenata koje sadrže izraz,

tf , predstavlja broj pojavljivanja izraza 푡 u rečenici s.

Kod algoritma RelevanceScore vremenski najsloženiji dio je petlja For each

pair 푆푒푛퐼퐷, 푡푓 , in postings list.

Kod metoda na razini kolekcije vremenska složenost algoritma RelevanceScoreiznosi

O(푃 )

gdje se 푃 odnosi na broj koraka petlje For each pair 푆푒푛퐼퐷, 푡푓 , in postings list što

je izraženo jednadžbom:

푃 = 푃 (4.21)

134

Gdje je:

푇 broj riječi u upitu,

푃 broj postinga generiranih iz cijele kolekcije koji odgovaraju i-toj riječi iz

upita.

Vremenska složenost algoritma RelevanceScorekodmetodana razini dokumenta je

O(푃 )

gdje se 푃 odnosi na broj koraka petlje For each pair 푆푒푛퐼퐷, 푡푓 , in postings list što

je izraženo jednadžbom

푃 = 푃 (4.22)

Gdje je:

푇 broj riječi u dokumentu,

푃 broj postinga generiranih iz dokumenta koji odgovaraju i-toj riječi iz upita.

Uzevši u obzir prethodno navedene pretpostavke, da se kolekcija dokumenata sastoji od

najmanje dva dokumenta i da svaki dokument sadrži barem jednu novu riječ koja nije

uobičajena riječ (eng. stop word), može se zaključiti da veći broj dokumenata (n

dokumenata kod metoda na razini kolekcije naspram jednog dokumentu kod metoda na

razini dokumenta) odgovara većem broja postova za jedan od izraza (푃 < 푃 za neki

izraz).

U takvom slučaju dolazi do povećanja broja parova riječ-posting tj.

푃 > 푃

Iz čega slijedi da je vremenska složenost metoda na razini kolekcije veća od vremenske

složenosti metoda na razini dokumenta odnosno:

135

O(푃 ) > 푂(푃 )

Preostao je još zadnji korak iz tablice 4.32., a to je dohvaćanje gornjih k rečenica. Ovaj

korak je identičan i kod metoda na razini kolekcije i kod metoda na razini dokumenta iz

čega slijedi da je i vremenska kompleksnost odgovarajućih algoritama jednaka. Usporedba

vremenskih kompleksnosti svih koraka nakon trenutka t3 (slika 4.54.) između metoda na

razini kolekcije (sa statičkim indeksom) i metoda na razini dokumenta je prikazan tablicom

4.33.

Tablica 4.33. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3

Metode na razini

kolekcije (statički

indeks)

Metode na razini

dokumenta

Usporedba vremenskih

složenosti algoritama

Pred-procesiranje i

indeksiranje dokumenata

1,2,…n

Pred-procesiranje i

indeksiranje dokumenta n

Manja vremenska složenost kod

metoda na razini dokumenata

Računanje ocjene

relevantnosti rečenica iz

dokumenata 1, 2,…n

Računanje ocjene


dokumenata n


metoda na razini dokumenta

Dohvaćanje gornjih k

rečenica

Dohvaćanje gornjih k

rečenica

Jednaka vremenska složenost

Iz prethodnih rezultata (tablica 4.33.) može se zaključit da je vremenska složenost

algoritama nakon trenutka t3 manja kod metoda na razini dokumenta nego kod metoda na

razini kolekcije iz čega slijedi da u scenariju predstavljanom na početku poglavlja 4.5.

metode na razini dokumenta omogućavaju brže davanje odgovora krajnjem korisniku.

4.5.1.2 Usporedba metoda na razini kolekcije (dinamički indeks) sa metodama na razini

dokumenta nakon trenutka t3

Koraci metoda na razini kolekcije (sa dinamičkim indeksom) nakon trenutka t3 su (slika

4.54.):

136

Pred-procesiranje i indeksiranje dokumenata 3

Integracija sa postojećim indeksom

Računanje ocjene relevantnosti rečenica iz dokumenata 1, 2 i 3

Dohvaćanje gornjih 푘rečenica

Ili poopćeno za 푛 dokumenata

Pred-procesiranje i indeksiranje dokumenata 푛

Integracija sa postojećim indeksom

Računanje ocjene relevantnosti rečenica iz dokumenata 1,2,…푛

Dohvaćanje gornjih 푘 rečenica

Koraci metoda na razini dokumenta nakon trenutka t3 su (Slika 4.54.):

Pred-procesiranje i indeksiranje dokumenta 3

Računanje ocjene relevantnosti rečenica iz dokumenta 3



Pred-procesiranje i indeksiranje dokumenta 푛

Računanje ocjene relevantnosti rečenica iz dokumenta 푛


U cilju uspoređivanja vremena izvršavanja ove dvije skupine metoda usporedit će se

odgovarajući koraci kao što je prikazano u prve dvije kolone tablice 4.34.

137

Tablica 4.34. Usporedba vremenskih kompleksnosti koraka nakon trenutka t3

Metode na razini

kolekcije (dinamički

indeks)

Metode na razini

dokumenta

Usporedba vremenskih složenosti

algoritama

Pred-procesiranje i

indeksiranje

dokumenata 푛

Pred-procesiranje i

indeksiranje dokumenta 푛


Integracija sa

postojećim indeksom

- Manja vremenska složenost kod


Računanje ocjene


dokumenata 1, 2,…푛

Računanje ocjene


dokumenta 푛



Dohvaćanje gornjih 푘

rečenica

Dohvaćanje gornjih 푘

rečenica


Cilj je pokazati da je vremenska kompleksnost svih koraka metoda na razini dokumenta

manja nego odgovarajućih koraka metoda na razini kolekcije. U tu svrhu je dovoljno

pokazati da je svaki korak manje ili jednako vremenski složen s tim što barem jedan korak

mora biti manje složen. Procjena vremenske složenosti koraka je već napravljena u

prethodnom poglavlju tako da su rezultati usporedbi već prikazani u zadnjoj koloni tablice

4.34..

Iz prethodnih rezultata (tablica 4.34.) može se zaključit da je vremenska složenost

algoritama nakon trenutka t3 manja kod metoda na razini dokumenta nego kod metoda na

razini kolekcije sa dinamičkim indeksom iz čega slijedi da u scenariju predstavljanom na

početku poglavlja 4.5. metode na razini dokumenta omogućavaju brže davanje odgovora

krajnjem korisniku.

Uzevši sve napravljene usporedbe općenito se može zaključiti da metode na razini

dokumenta mogu ubrzati proces davanja odgovora krajnjem korisniku.

138

5. OWL PRIKAZ DOKUMENTA ZA PRONALAŽENJE REČENICA

Koristeći razvijene metode na razini dokumenta za pronalaženja rečenica moguće je razviti

pristup pronalaženju rečenica zasnovan na semantičkom webu. Drugim riječima, moguće

je definirati OWL prikaz tekstnog dokumenta koji može biti korišten za pronalaženje

rečenica.

Semantički web (eng. Semantic web) je grupa metoda i tehnologija koje strojevima

omogućavaju razumijevanje značenje ili semantiku informacija na web-u [65]. Tim

Berners-Lee definira semantički web kao „Web podataka koji mogu biti procesirani

direktno ili indirektno od strane strojeva“ [66], [67]. Ključni element semantičkog weba su

ontologije. Ontologija je definirana kao eksplicitna specifikacija zajedničke

konceptualizacije domene od interesa [68]. Za definiranje ontologija koriste se

ontologijski jezici. Standardni ontologijski jezici na web-u su (poredani prema rastućoj

kompleksnošću):

RDF [69], [70]

RDFS [71], [72]

OWL [17], [73]

Koristeći ontologije za opisivanje web sadržaja stvara se okruženje u kojem strojevi mogu

izvršavati napredno procesiranje i na taj način pružiti bolje usluge krajnjem korisniku. Da

bi se sadržaji opisali koristeći ontologije najprije je potrebno imati ontologiju (kreirati

klase, podklase, svojstva). Zatim je potrebno izvršiti punjenje ontologije kreirajući instance

klasa i svojstava. Cijeli proces se naziva generiranje i punjenje ontologija (eng. Ontology

learning and population). Međutim automatsko generiranje ontologija je zahtijevan

zadatak koji najčešće ne daje zadovoljavajuće rezultate ako se u cijeli proces ne uključi i

čovjek. Iz ovog razloga će u ovom poglavlju biti demonstriran jedan primjer kako se iz

tekstnih izvora može automatski generirati nova informacija koja se može prikazati

koristeći ontologiju na razini dokumenta (OWL prikaz dokumenta). Takav OWL prikaz

dokumenta se može koristiti za zadatak pronalaženja rečenica pri čemu je implementacija

sustava za pronalaženje rečenica znatno pojednostavljena. Na ovaj način se olakšava

automatsko procesiranje weba što je smisao semantičkog weba.

139

5.2. Razvoj OWL prikaza dokumenta

Na koji način se može automatski generirati OWL prikaz dokumenta? U prethodnim

poglavljima je:

pokazano na koji se način jednostavna struktura običnog tekstnog dokumenta

(rečenice i susjedne rečenice) može dodatno iskoristiti za unapređenje modela

vektorskog prostora pronalaženja rečenica,

pokazano da se informacija iz dokumenta može dodatno iskoristiti u smislu

uzimanja u obzir duljine rečenice,

pokazano da je moguće unaprijediti osnovni model vektorskog prostora

pronalaženja rečenica koristeći kontekst i/ili duljinu rečenice čak i kad nova metoda

koristi samo informacije iz dokumenta u kojem se nalazi rečenica.

Dodatno, treba uzeti u obzir i karakteristike modela vektorskog prostora. Kod modela

vektorskog prostora pronalaženja informacija i dokument i upit predstavljeni su kao

vektori. Formalni prikaz vektora dokumenta 푑 i vektora upita 푞 je definiran kako slijedi

[23]:

푑 = 푡 ,푤(푑, 푡 ); 푡 , 푤(푑, 푡 );… 푡 , 푤(푑, 푡 ); … ; 푡 , 푤(푑, 푡 ) (5.1)

푞 = 푡 , 푤(푞, 푡 ); 푡 , 푤(푞, 푡 );… 푡 , 푤(푞, 푡 ); … ; 푡 , 푤(푞, 푡 ) (5.2)

Gdje:

푛 predstavlja broj izraza (riječi) dozvoljenih u sustavu,

푡 , 푡 , … 푡 predstavlja listu svih izraza dozvoljenih u sustavu,

푤(푑, 푡 ) predstavlja težinu izraza 푡 u dokumentu 푑,

푤(푞, 푡 ) predstavlja težinu izraza 푡 u upitu 푞.

Uzevši u obzir vektorski prikazi dokumenta i upita moguće je dobiti ocjenu sličnosti

koristeći sljedeću funkciju rangiranja:

140

푅(푑|푞) = 푤(푑, 푡 ) ∙ 푤(푞, 푡 ) (5.3)

Težine izraza 푤(푑, 푡 ) and 푤(푞, 푡 ) definirane su koristeći tri komponente: komponentu

frekvenciju izraza, komponentu invertne frekvencije dokumenata i normalizacijsku

komponentu [18]. Jedna primjer funkcije rangiranja modela vektorskog prostora

primijenjen na zadatak pronalaženja rečenica je predstavljen jednadžbom (3.14).

Kada je u pitanju OWL prikaz dokumenta za zadatak pronalaženje rečenica cilj je izraziti

važnost određenog izraza u opisivanju sadržaja rečenice. Ako se krene od klasičnog

zadatka pronalaženja dokumenata tj. ako se uzme u obzir vektor dokumenta 푑 onda se

važnost izraza 푡 u opisivanju dokumenta 푑 može izraziti koristeći sljedeći iskaz u

prirodnom jeziku:

“Dokument 푑 contains term 푡 with weight 푤(푑, 푡).”

Ili na hrvatskom

“Dokument 푑 sadrži izraz 푡 sa težinom 푤(푑, 푡).”

Analogno se važnost izraza 푡 u opisivanju rečenice 푠 može izraziti koristeći sljedeći iskaz u

prirodnom jeziku:

“Sentence 푠 contains term 푡 with weight 푤(푠, 푡)”.

Ili na hrvatskom

“Rečenica 푠 sadrži izraz 푡 sa težinom 푤(푠, 푡)”.

Ako se ova logika primjeni na DL TF-ISFcon,length metodu (jednadžba (4.10)) onda su

moguće dvije vrste iskaza u ovisnosti o tome je li se izraz pojavljuje u rečenici ili u

kontekstu:

1. U slučaju da se izraz pojavljuje u rečenici

141

o “Sentence 풔 contains term 풕 with weight 풘(풔, 풕) ” (ili na hrvatskom

“Rečenica 푠 sadrži izraz 푡 sa težinom 푤(푠, 푡)“)

2. U slučaju da se izraza pojavljuje u kontekstu (susjedne rečenice)

o “Sentence 풔 contains in context term 풕 with weight 풘풄풐풏(풔, 풕)” (ili na

hrvatskom “Rečenica 푠 sadrži u kontekstu izraz 푡 sa težinom 푤(푠, 푡)“)

Dodatno je moguće definirat iskaz u kojem se govori o duljini rečenice:

o “Sentence 풔 has length |풔| .” (ili na hrvatskom “Rečenica 푠 ima duljinu

|푠|“)

Vrijednost 푤(푠, 푡) može se definirati tako da bude sljedeća TF i ISF komponenta iz

jednadžbe (4.10):

푤(푠, 푡) = log 푡푓 , + 1 log푛 + 1

0,5 + 푠푓 (5.4)

Vrijednost 푤 (푠, 푡) može se definirati tako da bude TF-ISF vrijednost povezana sa

prethodnom i sljedećom rečenicom iz jednadžbe (4.10) kako slijedi:

푤 (푠, 푡) = 푤 푠 , 푡 + 푤 (푠 , 푡) (5.5)

Gdje se 푤 푠 , 푡 i 푤 (푠 , 푡) mogu definirati kako slijedi:

푤 푠 , 푡 = (1 − 휇) ∙ 푤 푠 , 푡 + 휇 ∙ 푤 푠 , 푡 + 푤 푠 , 푡 (5.6)

푤 (푠 , 푡) = (1 − 휇) ∙ 푤(푠 , 푡) + 휇 ∙ 푤 푠 , 푡 + 푤 푠 , 푡 (5.7)

Gdje je:

푠 prethodna rečenica od rečenice 푠 ,

푠 sljedeća rečenica od rečenice 푠 ,

푠 prethodna rečenica od rečenice 푠 ,

푠 sljedeća rečenica od rečenice 푠 .

142

푤 푠 , 푡 je po definiciji 0 ako je 푠 prva rečenica u dokumentu, a 푤 (푠 , 푡) je po

definiciji 0 ako je 푠 zadnja rečenica u dokumentu. Osnovni slučaj za koji funkcije

푤 푠 , 푡 i 푤 (푠 , 푡) daju rezultat bez ponovnog pozivanja izostavljen je radi

čitkosti. Osnovni slučaj je definiran jednako kao u poglavlju 5. uzevši u obzir broj puta u

kojima funkcija poziva samu sebe. Kad se dođe do pozivanja funkcije u kojem su

uključene tri prethodne i tri sljedeće rečenice s ponavljanje staje (tj.

푤 푠 , 푡 = 푤 푠 , 푡 ). U testovima u prethodnim poglavljima

nije testirano uključenje većeg broja susjednih rečenica u proces računanja relevantnosti

rečenice. Naravno da je moguće čak uzeti u obzir sve susjedne rečenice u dokumentu.

Međutim, određivanje optimalnog broja prethodnih i sljedećih rečenica je ostavljeno za

budući rad, a svi testovi metoda su rađeni sa tri prethodne i tri sljedeće rečenice pri

računanju relevantnosti rečenice.

Sada je moguće početi kodirati dva spomenuta iskaza prirodnog jezika (“Sentence 푠

contains term 푡 with weight 푤(푠, 푡).” i “Sentence 푠 contains in context term 푡 with weight

푤 (푠, 푡) .”) koristeći OWL. Pritom je potrebno koristiti ternarnu relaciju koja spaja

rečenicu, izraz i težinu. Da bi se definirala ternarna relacija koristi se metoda za

prezentiranje dodatnih atributa koji opisuju relaciju (eng. representing additional

attributes describing a relation) predstavljena u [74]. Da bi se realizirala ternarna relacija

kreirane su dvije klase:

Sentence

TermImportance

Sve rečenice iz dokumenta su instance klase Sentence. Svaka rečenica je povezana sa

stringom (tip Literal) koji sadrži obični tekst rečenice (tj. sadržaj rečenice) kroz relaciju:

hasContent

Svaka rečenica je također povezana sa ne-negativnim cijelim brojem (tip

nonNegativeInteger) koji predstavlja duljinu rečenice:

hasLength

Svaka instanca rečenice povezana je sa instancama klase TermImportance kroz sljedeće

relacije:

contains

143

containsInContext

Da bi se upotpunila ternarna relacija instance klase TermImportance povezane su sa

nazivom izraza (tip Literal) i sa težinom (tip double) kroz sljedeće relacije

hasTermName

hasWeight

Na slici 5.1. prikazane su klase, vrste podataka i svojstva korištena u prikazu rečenice za

zadatak pronalaženja rečenica.

Slika 5.1. Prikaz rečenice korišten za pronalaženje rečenica s klasama, vrstama podataka i

svojstvima

Proces automatskog kreiranja instanci za klase i automatskog kreiranja tvrdnji svojstava

(eng. property assertion) je jednostavan. Svaka instanca rečenice sadrži nekoliko contains i

containsInContekst tvrdnji ovisno o tome je li se izraz pojavljuje u rečenici ili u susjednim

rečenicama. String (tip Literal) svojstva hasTermName jest naziv izraza nakon određenog

pred-procesiranja (npr. sa svim slovima pretvorenim u mala slova). Realni broj (tip double)

od svojstva hasWeight računa se koristeći jednadžbu (8.4) ako govorimo o izrazu iz

rečenice i koristeći jednadžbu (8.5.) ako govorimo o izrazu iz konteksta. Tekstni dokument

je predstavljen koristeći nekoliko rečenica od kojih je svaka spojena s više naziva izraza i

težina. Ako se određeni izraz ne pojavljuje u rečenici ili u kontekstu izostavljena je

contains ili containsInContekst tvrdnja svojstva. Dodatno je svaka rečenica spojena sa ne-

negativnim cijelim brojem koji predstavlja duljinu rečenice preko svojstva hasLength.

144

Koristeći ovakvu prezentaciju dokumenta funkcija rangiranja se može definirati kako

slijedi:

푅 , (푠|푞) =|푠|

퐴푣푔푆푒푛퐿푒푛푔푡ℎ 푑(푠)∙

(1 − 휇) ∙ log(푐(푡, 푞) + 1) ∙w(s, t) + 휇 ∙ log(푐(푡, 푞) + 1) ∙푤 (푠, 푡)∈∈

(5.8)

U jednadžbi (5.8) izrazi |푠|, w(s, t), i 푤 (푠, 푡) mogu se dobiti koristeći OWL prikaz

dokumenta.

Prednosti predstavljene OWL prezentacije dokumenta za pronalaženje rečenica su

sljedeće:

Moguće je spremiti djelomične rezultate procesa pronalaženja rečenica. Preciznije,

pod-zadaci kao pred-procesiranje (uklanjanje uobičajenih riječi, pretvaranje slova u

mala slova, korjenovanje itd.) ili računanje TF-ISF vrijednosti mogu se odraditi i

eksplicitno zapisati za buduće potrebe. Novi dokumenti se mogu jednostavno

dodavati u kolekciju dokumenta bez ponovnog procesiranje starih dokumenata.

Kada su u pitanju tekstovi sa web stranica, kao npr. novinski članci, ovakva

prezentacija tekstnog dokumenta može biti spremljena na poslužiteljima (zajedno

sa tekstnim dokumentima) i poslana krajnjem korisniku u slučaju da mu zatreba

pronalaženje rečenica. To čini implementaciju modula za pronalaženje rečenica

mnogo jednostavnijom jer nije potrebno implementirat cijeli proces pronalaženja

rečenica. Tj. nije potrebno raditi pred-procesiranje teksta i jedan dio računanja

ocjena relevantnosti.

Važnost TF-IDF vrijednosti (koja je analogna TF-ISF vrijednosti) prelazi granice

pronalaženja informacija. Na primjer u [75] korištene su riječi sa visokim TF-IDF

vrijednostima kao riječi koje najbolje opisuju sadržaj dokumenta za zadatak

rudarenja asocijacijskih pravila iz teksta. Pretpostavka je da se predstavljena

prezentacija dokumenta može također koristiti i za pojednostavljenje

implementacija rudarenja asocijacijskih pravila iz teksta. Detalji jedne ovakve

implementacije su ostavljeni za budući rad.

145

OWL prezentacija dokumenta za pronalaženje rečenica može se smatrati

ontologijom dokumenta za pronalaženje rečenica. U ovom poglavlju je pokazano

da se cijeli proces generiranja OWL prezentacije dokumenta može odraditi

automatski. Generiranje OWL prezentacije dokumenta spada u područje

automatskog generiranja i punjenja ontologija (eng Ontology Learning and

Population), [76]. OWL prezentacija dokumenta predstavlja primjer na koji se

način tekstni izvori mogu dodatno iskoristiti u automatskom smislu za koristan

zadatak. Preciznije, da bi se generirala prezentacija dokumenta korištene su

informacije iz rečenice i iz susjednih rečenica. Uključujući informacije iz susjednih

rečenica u OWL prezentaciju dokumenta (tj. u ontologiju dokumenta), pokazano je

automatsko generiranje pozadinskog znanja (eng. background knowledge). Ovo se

nastavlja na diskusiju iz [77] gdje se govori o tome da postoji pozadinsko znanje

koje je potrebno za automatsko generiranje ontologija koje nije eksplicitno

navedeno u tekstovima, ali koje je potrebno za generiranje ontologija. U [78] je bilo

govora o tome da je za uspješno generiranje ontologija i gradnju semantičkog weba

među ostalim potrebno temeljno iscrpiti sve informacije iz svih dostupnih izvora. U

ovom poglavlju je upravo to primijenjeno. Odnosno pronađene su nove informacije

(kontekst i duljina rečenice) u dostupnim izvorima (tekstnim dokumentima) i

korištene su za unapređenje korisnog zadatka pronalaženja rečenica.

146

6. ZAKLJUČAK

Na početku ove doktorske disertacije istaknuta je veličina digitalnog univerzuma

informacija što pronalaženje informacija čini sve zahtjevnijim i traženijim procesom.

Predstavljen je uvod u područje pronalaženja informacija, pronalaženje dokumenata i

pronalaženje rečenica. Detaljno je predstavljen zadatak pronalaženja rečenica koji se sve

više primjenjuje u područjima kao što su detekcija novosti, odgovaranje na pitanja i

sažimanje teksta. Pronalaženje rečenica je analogno pronalaženju dokumenata s tim što je

jedinica pronalaženja rečenica, a ne dokument. Predstavljeni su najuspješniji modeli

pronalaženja rečenica:

Model vektorskog prostora

Model vjerojatnosti upita

Također su predstavljene modifikacije osnovnih modela koje omogućavaju dodatno

unapređenje zadataka pronalaženja rečenica. Posebna pažnja je dodijeljena korištenju

dodatnih informacija iz tekstova odnosno konteksta rečenice koji se sastoji od nekoliko

susjednih rečenica ili od cijelog dokumenta u kojem se rečenica nalazi. Prezentirane su

metode bazirane na modelu vjerojatnosti upita koje su unaprjeđene koristeći kontekst

rečenice. Za razliku od metoda baziranih na modelu vjerojatnosti upita ne postoji metoda

bazirana na modelu vektorskog prostora koja uspješno primjenjuje uži kontekst rečenice.

Iz tog razloga je razvijena nova metoda TF-ISFcon, bazirana na standardnoj TF-ISF metodi,

koja koristi prethodne tri i sljedeće tri rečenice od promatrane rečenice u svrhu

unapređenja pronalaženja rečenica. Ova metoda polazi od pretpostavke da relevantnost

rečenice ovisi dijelom o sadržaju same rečenice i dijelom o sadržaju susjednih rečenica.

TF-ISFcon metoda je iscrpno testirana na skupovima podataka iz TREC staza novosti. Pri

tom je pokazala statistički signifikantno bolje rezultate prema mjerama MAP i R-precision

i kompetitivne rezultate (bez statistički signifikantnih razlika) prema nizu P@x mjera

(P@5 – P@100) u odnosu na SOTA metode bazirane na modelu vektorskog prostora (TF-

ISF) i modelu vjerojatnosti upita (3MMPDS).

Budući da su metode bazirane na modelu vjerojatnosti upita također uspješno poboljšane

forsirajući dohvaćanje dugih rečenica ovo poboljšanje je također prvi put primijenjeno i na

osnovnu TF-ISF metodu. Razvijene su dvije nove metode:

147

TF-ISFlength, tj. osnovna TF-ISF metoda s forsiranjem dohvaćanja dugih rečenica

TF-ISFcon,length, tj. TF-ISFcon metoda s forsiranjem dohvaćanja dugih rečenica. Ova

metoda koristi u isto vrijeme i kontekst i forsiranje dohvaćanja drugih rečenica.

Na skupovima podataka iz TREC staza novosti pokazano je da forsiranje dohvaćanja dugih

rečenica može dodatno unaprijediti pronalaženje rečenica. Između ostalog uspješno je

statistički signifikantno poboljšana metoda TF-ISFcon (koristeći TF-ISFcon,length). S ovim je

pokazano da je korisno u isto vrijeme koristiti i kontekst rečenice i forsiranje dohvaćanja

dugih rečenica. Ovo predstavlja dodatni doprinos u ovoj disertaciji uzevši u obzir da u [5]

kod najuspješnijih metoda s kontekstom iz područja modeliranja jezika nije jasno je li, i u

kojoj mjeri poboljšanje dolazi od korištenja konteksta, budući da metode forsiraju

dohvaćanje dugih rečenica.

Općenito metoda TF-ISFcon,length pokazala je najbolje performanse u odnosu na sve testirane

SOTA metode sa statistički signifikantnim poboljšanjima prema svim testiranim mjerama.

Također je po prvi put uvedena i testirana nova modifikacija TF-ISF baziranih metoda na

razini dokumenta u smislu da funkcija rangiranja koristi samo informacije iz dokumenta u

kojem se rečenica nalazi, a ne cijelu kolekciju dokumenata. Na taj način su nastale nove

metode na razini dokumenta: DL TF-ISF, DL TF-ISFcon, DL TF-ISFcon,length. Metode DL

TF-ISFcon i DL TF-ISFcon,length su usprkos užem izvoru informacija pokazale statistički

signifikantno bolje rezultate u odnosu na SOTA metode.

Postavlja se pitanje koja je prednost razvijenih metoda na razini dokumenta. Prva prednost

je mogućnost računanja ocjene relevantnosti rečenica prije nego što su dohvaćeni svi

dokumenti korpusa. Ovo je korisno kod scenarija u kojem se pronalaženja rečenica odvija

na računalu korisnika i gdje se jedan po jedan dokument dohvaća sa servera. U takvoj

situaciji računanje relevantnosti rečenica prije nego što su dohvaćeni svi dokumenti

ubrzava proces davanja odgovora korisniku što je također i formalno pokazano te

predstavlja dodatni doprinos u ovoj disertaciji.

Druga prednost metoda na razini kolekcije jest mogućnost kreiranja OWL prikaza

dokumenta u stilu semantičkog weba. Pokazano je da je koristeći metodu na razini

dokumenta (DL TF-ISFcon,length) moguće automatski generirat OWL prikaz dokumenta koji

148

između ostalog u sebi sadrži informacije o kontekstu rečenice i duljini rečenice. Takav

OWL prikaz dokumenta se može koristiti za pronalaženje rečenice s tim što olakšava

implementaciju modula za pronalaženje rečenica jer već sadrži gotove rezultate većeg

dijela procesa. Ovo je primjer kako se dodatna informacija iz tekstnih izvora može potpuno

automatski koristiti za kreiranje ontologija (OWL prikaza dokumenta) za unapređenje

korisnog zadatak pronalaženja rečenica čime se podržava razvoj semantičkog weba.

6.1. Budući rad

Koristeći OWL prikaz dokumenta pokazan je primjer korištenja dodatnih informacija iz

tekstnih izvora za pronalaženje rečenica. Međutim postoje i drugi izvori informacija koji se

mogu koristiti za dodatno poboljšanje metoda pronalaženja rečenica. U [78] je rečeno da je

za unapređenje automatskog generiranja ontologija i gradnju semantičkog weba potrebno

pronaći mogućnosti dodatnog korištenja postojećih izvora kao i integraciju različitih

izvora. Dodatne informacije se mogu dobiti iz ponašanja korisnika na webu. Npr. mogu se

pratiti nizovi url-ova kojima je korisnik pristupio radi stvaranja profila korisnika s kojim bi

se mogao unaprijediti upit. Drugi mogući izvor informacija su kolekcije dokumenata koje

nisu dio kolekcije nad kojima se vrši pretraživanje rečenica. Npr. dodatne kolekcije

dokumenata bi se mogle koristiti za kreiranje asocijacijskih pravila s kojima bi se mogao

obogatiti OWL prikaz dokumenta.

Što se tiče zadatka pronalaženja rečenica u okviru discipline pronalaženja informacija

interesantno bi bilo isprobati varijante metoda vjerojatnosti upita na razini dokumenta.

Npr. moglo bi se testirati izglađivanje s modelom dokumenta, ali bez izglađivanja sa

modelom kolekcije. Također je dio budućeg rada testiranje novih metoda u okviru drugih

zadataka iz područja pronalaženja informacija kao što su odgovaranje na pitanja i

sažimanje.

149

LITERATURA

[1] Gantz, J. (2008). The Diverse & Exploding Digital Universe: An Updated Forecast of Worldwide Information Growth Through 2011. IDC, EMC, (http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf).

[2] Harman, D. (2002). Overview of the TREC 2002 novelty track. U Proceedings of the

Eleventh Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2002. [3] Soboroff, I., Harman, D. (2003). Overview of the TREC 2003 novelty track. U

Proceedings of the Twelfth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2003.

[4] Soboroff, I. (2004). Overview of the TREC 2004 novelty track. U Proceedings of the

Thirteenth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2004. [5] Fernández, R. T., Losada, D. E., Azzopardi, L. (2011). Extending the language

modeling framework for sentence retrieval to include local context. Information Retrieval 14(4), 355-389.

[6] Fernández, R. T. (2011). Improving search effectiveness in sentence retrieval and

novelty detection. SIGIR Forum 45(1), 75-76 [7] Murdock, V. G. (2006). Aspects of sentence retrieval. PhD thesis, University of

Massachusetts Amherst. [8] Voorhees, E. M. (2003). Overview of the TREC 2003 Question Answering Track. U

Proceedings of the Twelfth Text REtrieval Conference (TREC 2003) (pp. 54–68), Gaithersburg, Maryland, Studeni 2003.

[9] Voorhees, E. (2005). Overview of the TREC 2004 Question Answering Track. U

Proceedings of the Thirteenth Text REtreival Conference (TREC 2004) (pp. 52–62), Gaithersburg, Maryland, Studeni 2005.

[10] Murdock, V., Croft, W. B., (2005). Simple translation models for sentence retrieval in

factoid question answering. U Proceedings of the Information Retrieval for Question Answering Workshop at SIGIR. Sheffield, UK, Srpanj 2004.

[11] Chen, P., Verma, R., (2006). A Query-based Medical Information Summarization

System Using Ontology Knowledge. U Proceedings of the 19th IEEE Symposium on Computer-Based Medical Systems (CBMS’06), Salt Lake City, Utah, Lipanj 2006.

150

[12] Ganguly, D., Leveling, J., Jones, G.J.F. (2012). DCU@INEX-2012: Exploring Sentence Retrieval for Tweet Contextualization. CLEF (Online Working Notes/Labs/Workshop).

[13] Damova, M., Koychev, I. (2010). Query-Based Summarization: A survey. U

Proceedings of the Second International Conference S3T. Varna, Bugarska, Rujan 2010.

[14] Allan, J., Wade, C., Bolivar, A. (2003). Retrieval and novelty detection at the

sentence level. U Proceedings of the 26th ACM international conference on research and development in information retrieval (SIGIR 2003) (pp. 314–321). Toronto, Kanada: ACM.

[15] Zhang, H.P., Xu, H.B., Bai, S., Wang, B., Cheng, X.Q. (2004) Experiments in TREC

2004 novelty track at CAS-ICT. U Proceedings of the Thirteenth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2004.

[16] Losada, D. E. (2008). A study of statistical query expansion strategies for sentence

retrieval. U Proceedings SIGIR 2008 workshop on focused retrieval (question answering, passage retrieval, element retrieval), Singapur: ACM.

[17] http://www.w3.org/TR/owl-features/. OWL Web Ontology Language Overview.

Datum zadnjeg pristupa 28.3.2013. [18] Manning, C. D., Raghavan, P., Schuetze, H. (2008). Introduction to Information

Retrieval. Cambridge, UK: Cambridge University Press. [19] Baeza-Yates, R., Ribeiro-Neto, B. (1990). Modern Information Retrieval. Boston,

MA, SAD: Addison-Wesley Longman Publishing Co. [20] Liddy, E. D. (2005). Automatic Document Retrieval. In: Encyclopedia of Language

and Linguistics. 2nd Edition. Elsevier Press [21] Zhu, M. (2004). Recall, precision and average precision. Technical Report 09,

Department of Statistics & Actuarial Science, University of Waterloo [22] Turpin, A., Scholer, F. (2006). User performance versus precision measures for

simple search tasks. U Proceedings of the 29th Annual international ACM SIGIR Conference on REsearch and Development in information Retrieval (pp. 11-18), Seattle, WA, Kolovoz 2006.

[23] Salton, G., Buckley, C. (1998). Term-weighting approaches in automatic text

retrieval. Information Processing and Management 24(5)

151

[24] Singhal, A., Salton, G., Buckley, C. (1996). Length normalization in degraded text collections. U Proc. SDAIR (pp. 149–162), Las Vegas, Nevada, Travanj 1996.

[25] Salton, G. (Eds.). (1971). The SMART Retrieval System—Experiments in Automatic

Document Retrieval. Englewood Cliffs, NJ: Prentice Hall Inc. [26] Fernández, R. T., Losada, D. E. (2009). Using opinion-based features to boost

sentence retrieval. U Proceedings of the ACM 18th conference on information and knowledge management (CIKM 2009) (pp. 1617–1620). Hong Kong, Kina: ACM.

[27] Losada, D. E., Fernández, R. T. (2007). Highly frequent terms and sentence retrieval.

U Proceedings of the 14th String processing and information retrieval symposium (SPIRE 2007), Lecture Notes in Computer Science (pp. 217–228). Santiago de Chile, Chile: Springer.

[28] Song, F., Croft, W. B. (1999). A general language model for information retrieval. U

Proceedings of Eighth International Conference on Information and Knowledge Management (CIKM’99), Kansas City, MO, SAD: ACM, Studeni 1999.

[29] Ponte, J., Croft, W. B. (1998). A language modeling approach to information

retrieval. U Proceedings of the 21st Annual Conference on Research and Development in Information Retrieval (ACM SIGIR), Melbourne, Australija: ACM, Kolovoz 1998.

[30] Losada, D. E., Azzopardi, L. (2008a). An analysis on document length retrieval trends

in language modeling smoothing. Journal of Information Retrieval 11(2), 109–138. [31] Smucker, M. D., Allan, J. (2005). An investigation of dirichlet prior smoothing's

performance advantage. Tech. Rep. IR-391, The University of Massachusetts, The Center for Intelligent Information Retrieval. (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.121.5491)

[32] Chen, S. F., Goodman, J. (1996). An empirical study of smoothing techniques for

language modeling. In Proceedings of the 34th annual meeting on Association for Computational Linguistics (pp. 310-318), Santa Cruz, Kalifornija, SAD, Lipanj 1996.

[33] Robertson, S. E., Walker, S., Beaulieu, M. (1999). Okapi at TREC-7: Automatic ad

hoc, filtering, VCL and interactive track. U Proceedings of the 7th text retrieval conference (TREC 1999) (pp. 253–264), Gaithersburg, SAD.

[34] Blott, S., Boydell, O., Camous, F., Ferguson, P., Gaughan, G., Gurrin, C., Murphy,

N., Smeaton, A. F., Smyth, B., Wilkins, P. (2004). Experiments in terabyte searching, genomic retrieval and novelty detection for TREC-2004. U Proceedings of the Thirteenth Text Retrieval Conference (TREC), Gaithersburg, Maryland, Studeni 2004.

152

[35] Losada, D. E. (2008b). A study of statistical query expansion strategies for sentence

retrieval. U Proceedings of ACM SIGIR 2008 Workshop on Focused Retrieval (Question Answering, Passage Retrieval, Element Retrieval) (pp. 37–44), Singapur, Srpanj 2008.

[36] Fellbaum, C. D. (1998). WordNet – An Electronic Lexical Database. Cambridge, MA,

SAD: MIT Press. 194, 522 [37] http://www.ncbi.nlm.nih.gov/sites/entrez?db=pubmed, Home – PubMed - NCBI,

Datum zadnjeg pristupa 17.4.2013. [38] Hsu, M.-H., Tsai, M.-F., Chen, H.-H. (2006) Query expansion with ConceptNet and

WordNet: an intrinsic comparison. In Proceedings of the Third Asia Information Retrieval Symposium (pp. 1-13). Singapore, Listopad 2006.

[39] Schütze, H. (1998). Automatic word sense discrimination. Computational Linguistics

24(1), 97–124. [40] Walker, D., (2001). Query Expansion using Thesauri: Previous Approaches and

Possible New Directions. University of California, Los Angeles [41] Rocchio, J. J. (1971). Relevance feedback in information retrieval. In Salton, G.

(Eds.), SMART Retrieval System – Experiments in Automatic Document Processing. New Jersey, (pp. 313–323. 181, 193, 314, 530). SAD: Prentice Hall.

[42] Ruthven, I., Lalmas, M. (2003). A survey on the use of relevance feedback for

information access systems. Knowl. Eng. Rev. 18(2), 95-145. [43] Xu, J., Croft, B. (1996). Query expansion using local and global document analysis. U

Proc. SIGIR-96, the 19th ACM Conference on Research and Development in Information Retrieval (pp. 4–11), Zurich, Švicarska, Srpanj 1996.

[44] Collins-Thompson, K., Ogilvie, P., Zhang, Y., Callan, J. (2002). Information filtering,

novelty detection and name-page finding. In Proceedings of the 11th text retrieval conference (TREC 2002), Gaithersburg, Maryland, Studeni 2002.

[45] Jaleel, N. A., Allan, J., Croft, W. B., Diaz, F., Larkey, L. S., Li, X., et al. (2004).

UMass at TREC 2004: Novelty and hard. U Proceedings of the 13th text retrieval conference (TREC 2004), volume Special Publication (pp. 500-261). Gaithersburg, Maryland, Studeni 2004.

[46] Mijić, J., Moens, M.-F., Dalbelo Bašić, B. (2009). CADIAL Search Engine at INEX.

Lecture Notes in Computer Science, Advances in Focused Retrieval (INEX 2008).

153

Geva, S., Kamps, J., Trotman, A. (Eds.). Springer Verlag, Berlin, Heidelberg, vol. 5631, (pp. 71-78)

[47] Tsai, M.-F., Chen, H.-H. (2002). Some Similarity Computation Methods in Novelty

Detection. U Proceedings of the Eleventh Text REtrieval Conference (pp. 500-251), Gaithersburg, Maryland, Studeni 2002.

[48] Miller, G. A. (1995). WordNet: A Lexical Database for English. Communications of

the ACM 38(11), 39-41. [49] http://trec.nist.gov/overview.html. Text REtrieval Conference (TREC) Overview.

Datum zadnjeg pristupa 28.3.2013. [50] http://trec.nist.gov/data/t11_novelty.html. Text REtrieval Conference (TREC) 2002

Novelty Track. Datum zadnjeg pristupa 28.3.2013. [51] http://trec.nist.gov/data/t12_novelty.html. Text REtrieval Conference (TREC) 2003

Novelty Track. Datum zadnjeg pristupa 28.3.2013. [52] http://trec.nist.gov/data/t13_novelty.html. Text REtrieval Conference (TREC) 2004

Novelty Track. Datum zadnjeg pristupa 28.3.2013. [53] Voorhees, E. M., Harman, D. (1997). Overview of the sixth Text REtrieval

Conference (TREC-6).In NIST Special Publication 500-240: The Sixth Text REtrieval Conference.

[54] Voorhees, E. M., Soboroff, D. (1998). Overview of the Seventh Text REtrieval

Conference (TREC-7). In NIST Special Publication 500-242: The Seventh Text REtrieval Conference.

[55] Voorhees, E. M. (1999). Overview of the Eighth Text REtrieval Conference (TREC-

8). U Proceedings of the Eighth Text REtrieval Conference (TREC 8), Gaithersburg, Maryland, Studeni 1999.

[56] http://trec.nist.gov/data/t11_novelty/min_qrels.relevant. nist.gov. Datum zadnjeg

pristupa 28.3.2013. [57] http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2002T31. LDC

Catalog. Datum zadnjeg pristupa 28.3.2013. [58] http://trec.nist.gov/data/t12_novelty/qrels.relevant.03.txt. nist.gov. Datum zadnjeg

pristupa 28.3.2013.

154

[59] http://trec.nist.gov/data/t13_novelty/04.qrels.relevant. nist.gov. Datum zadnjeg pristupa 28.3.2013.

[60] http://rapid-i.com/content/view/181/196/. Rapid - I. Datum zadnjeg pristupa

21.4.2013. [61] http://rapid-i.com/content/view/202/206/. Rapid - I - Extensions. Datum zadnjeg

pristupa 21.4.2013. [62] Doko, A., Štula, M., Stipaničev, D. A Recursive TF-ISF Based Sentence Retrieval

Method With Local Context. International Journal of Machine Learning and Computing. Predstoji (forthcoming).

[63] Daume, H., Marcu, D. (2006). Bayesian Query-Focused Summarization. U

Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics (pp. 305-312), Sydney, Australija, Srpanj 2006.

[64] Lin, J., Dyer, C. (2010). Data-Intensive Text Processing with MapReduce. San

Rafael, CA, SAD: Morgan & Claypool Publishers. [65] http://en.wikipedia.org/wiki/Semantic_Web. Semantic Web, Wikipedia, the free

encyclopedia. Datum zadnjeg pristupa 28.3.2013. [66] Berners-Lee, T. (1999). Weaving the Web : The Original Design and Ultimate

Destiny of the World Wide Web by its Inventor, Harper San Francisco. [67] Berners-Lee, T., Hendler, J., Lassila, O. (2001). The Semantic Web, Scientific

American 284(5), 34-43. [68] Gruber, T. (1993). A translation approach to portable ontology specification.

Knowledge Acquisition 5(2), 199–220. [69] http://www.w3.org/RDF/, RDF - Semantic Web Standards, datum zadnjeg pristupa

28.3.2013. [70] http://en.wikipedia.org/wiki/Resource_Description_Framework. Resource

Description Framework - Wikipedia, the free encyclopedia. Datum zadnjeg pristupa 28.3.2013.

[71] http://www.w3.org/TR/rdf-schema/, RDF Vocabulary Description Language 1.0:

RDF Schema, datum zadnjeg pristupa 28.3.2013.

155

[72] http://en.wikipedia.org/wiki/RDFS. RDF Schema - Wikipedia, the free encyclopedia. Datum zadnjeg pristupa 28.3.2013.

[73] http://en.wikipedia.org/wiki/Web_Ontology_Language. Web Ontology Language -

Wikipedia, the free encyclopedia. Datum zadnjeg pristupa 28.3.2013. [74] Noy, N., Rector, A., Hayes, P., Chris W (2006). Defining N-ary Relations on the

Semantic Web. W3C Working Group Note 12 April 2006. (http://www.w3.org/TR/swbp-n-aryRelations/).

[75] Mahgoub, H., Roesner, D., Ismail, N., Torkey F. (2008). A Text Mining Technique

Using Association Rules Extraction. International Journal of Information and Mathematical Sciences 4(1).

[76] http://www.cs.oswego.edu/~sdoherty/CSC466/research/doc/sources/4.pdf. Ontology

Learning And Population. Datum zadnjeg pristupa 28.3.2013. [77] Brewster, C., Ciravegna, P., Wilks, Y. (2003). Back-ground and foreground

knowledge in dynamic ontology construction. U Proceedings of the SIGIR Semantic Web Workshop. Toronto, Canada, Srpanj 2003.

[78] Doko, A., Štula, M. (2012). A general framework for mining relations for the

semantic web. U Proceedings of the Ninth International Workshop on Information Integration on the Web, Scottsdale, AZ, SAD, Svibanj 2012.

[79] http://rapid-

i.com/component/option,com_docman/task,doc_download/gid,59/Itemid,165, RM_RA_FactSheet.pdf, Datum zadnjeg pristupa 17.4.2013.

156

DODATAK A - LISTA UOBIČAJENIH RIJEČI

abaft aboard about above

across afore aforesaid after

again against agin ago

aint albeit all almost

alone along alongside already

also although always am

american amid amidst among

amongst an and anent

another any anybody anyone

anything are aren around

as aslant astride at

athwart away back bar

barring be because been

before behind being below

beneath beside besides best

better between betwixt beyond

both but by can

cannot certain circa close

concerning considering cos could

couldn couldst dare dared

daren dares daring despite

did didn different directly

do does doesn doing

done don dost doth

down during durst each

early either em english

enough ere even ever

every everybody everyone everything

except excepting failing far

few first five following

for four from gonna

157

gotta had hadn hard

has hasn hast hath

have haven having he

her here hers herself

high him himself his

home how howbeit however

id if ill immediately

important in inside instantly

into is isn it

its itself ve just

large last later least

left less lest let

like likewise little living

long many may mayn

me mid midst might

mightn mine minus more

most much must mustn

my myself near neath

need needed needing needn

needs neither never nevertheless

new next nigh nigher

nighest nisi no one

nobody none nor not

nothing notwithstanding now er

of off often on

once oneself only onto

open or other otherwise

ought oughtn our ours

ourselves out outside over

own past pending per

perhaps plus possible present

probably provided providing public

qua quite rather re

158

real really respecting right

round same sans save

saving second several shall

shalt shan she shed

shell short should shouldn

since six small so

some somebody someone something

sometimes soon special still

such summat supposing sure

than that the thee

their theirs them themselves

then there these they

thine this tho those

thou though three thro

through throughout thru thyself

till to today together

too touching toward towards

true twas tween twere

twill twixt two twould

under underneath unless unlike

until unto up upon

us used usually versus

very via vice vis-a-vis

wanna wanting was wasn

way we well were

weren wert what whatever

when whencesoever whenever whereas

where whether which whichever

whichsoever while whilst who

whoever whole whom whore

whose whoso whosoever will

with within without wont

would wouldn wouldst ye

159

yet you your yours

yourself yourselves

160

DODATAK B – RAPIDMINER I RAPIDANALYTICS

Rapidminer je open-source sustav za rudarenje podataka. RapidMiner i serverski dodatak

RapidAnalytics je opisan u [79] kao:

RapidMiner je sveobuhvatna analitička radionica sa jakim fokusom na rudarenje

podataka, rudarenje teksta i prediktivnu analitiku.

RapidAnalytics je poslovni analitički server koji nudi kompletne sposobnosti

izvještavanja i nadzorne ploče (eng. dashboarding) i stoga kompletno rješenje

poslovne inteligencije u kombinaciji sa prediktivnom analitikom.

U ovoj doktorskoj disertaciji od važnosti je sposobnost rada s tekstnim izvorima koja je

dostupna preko Tekst dodatka (eng. Text plugin). Osnovni dio Tekst dodatka je Word

Vector Tool ili WVTool koji se koristi za generiranje vektorske prezentacije tekstnih

dokumenata u modelu vektorskog prostora. Tekst dodatak se integrira u razvojno

okruženje RapidMiner programa. Na slici 1. je prikazan izbornik s nekim koracima iz

područja pronalaženja dokumenata kao što su rastavljanje na pojedinačne riječi (Tokenize),

uklanjanje uobičajenih riječi (Filter Stopwords (English)), pretvaranje u mala slova

(Transform Cases).

161

Slika 1. Izbornik alata za procesiranje teksta

U okviru ove disertacije procesiranje kolekcije dokumenata počinje sa alatom Process

Documents from Files (slika 1.). Ovaj alat omogućava generiranja matrice izraz-dokument

(eng. term-document matrix) iz kolekcije dokumenata u obliku tekstnih dokumenata koji se

nalaze u određenom direktoriju. Opcije ovog alata su prikazane na slici 2. Treba uočiti da

matrica izraz-dokument sadrži broj pojavljivanja izraza u dokumentu (Term Occurences).

Matrica sa brojem izraza u dokumentu može se koristiti za implementaciju funkcija

rangiranja metoda korištenih u ovoj disertaciji.

162

Slika 2. Opcije alata Process Documents from Files

U okviru alata Process Documents from Files definirani su koraci pred-procesiranja

korišteni u ovoj disertaciji koji se sastoje od izdvajanja pojedinačnih riječi, pretvaranje svih

slova u malo slovo i uklanjanje uobičajenih riječi. Svaki od navedena tri koraka dodaje se

vizualno u razvojno okruženje kao što je prikazano na slici 3.

Slika 3. Tri koraka pred-procesiranja

163

Rezultat se može prikazati u okviru programa RapidMiner u obliku tablice koja predstavlja

matricu izraz-dokument. Međutim radi jednostavnijeg daljnjeg procesiranja rezultata

iskorištena je funkcionalnost RapidAnalytics dodatka koji omogućava prikaz rezultata u

obliku XML formatiranog dokumenta kojem se može pristupit preko url-a. Na slici 4.

prikazan je primjer rezultata koji predstavlja isječak matrice izraz-dokument.

Slika 4. Isječak matrice izraz-dokument prikazan kao XML formatirani dokument

164

DODATAK C – RAZVIJENI SUSTAV ZA EMPIRIJSKU STUDIJU

Sustav za pronalaženje rečenica koji se koristi za testiranja provedena u sklopu ove

doktorske disertacije sa jedne strane koristi program RapidMiner i RapidAnalytics, a sa

druge strane vlastite razvijene aplikacije u C# programskom jeziku. Programi RapidMiner i

RapidAnalytics koriste se za standardne zadatke iz područja pronalaženja informacija kao

što su rastavljanje na pojedinačne riječi, uklanjanje uobičajenih riječi, pretvaranje svih

slova u mala slova i generiranje matrice izraz-dokument. Vlastite razvijene aplikacije

koriste se za ne-standardne dijelove sustava. Na slici 1. je prikazan proces pronalaženja

rečenica koji se sastoji od tri koraka.

Slika 1. Tri koraka procesa pronalaženja rečenica korištenog u ovoj disertaciji

Korak 1 podrazumijeva izdvajanje rečenica i upita iz tekstnih datoteka TREC staza

novosti. Na slici 2. je prikazan isječak datoteke sa rečenicama. Na slici 3. je prikazan

isječak datoteke s upitima. Budući da RapidMiner kao ulazne podatke zahtijeva skup

datoteka, i rečenice i upite je bilo potrebno izdvojiti i pretvoriti u datoteke. Na slici 4. je

prikazan isječak datoteka korištenih kao ulaz u program RapidMiner. Svaka datoteka na

slici 4. sadrži jednu rečenicu.

165

Slika 2. Isječak daoteke sa rečenicama TREC 2003 staze novosti

166

Slika 3. Isječak daoteke sa upitima TREC 2003 staze novosti

167

Slika 4. Isječak skupa izgeneriranih datoteka s jednom rečenicom korištenih kao ulaz programa RapidMiner

Korak 2 je opisan u dodatku B.

Korak 3 podrazumijeva:

korištenje podataka iz matrice izraz-dokument (iz programa RapidAnalytics) kao i

informacija iz datoteke TREC staze novosti sa popisom relevantnih rečenica (slika

5.) za implementaciju funkcije rangiranja i računanje ocjene relevantnosti svake

rečenice (slika 6.),

sortiranje rečenica prema ocjeni relevantnosti (slika 6.),

računanje mjera učinkovitosti sustava (P@x, MAP, R-precision), (slika 7. i 8.).

prezentaciju mjera učinkovitosti sustava u obliku pogodnom za prezentaciju

rezultata u disertaciji (slika 7.),

prezentaciju mjera učinkovitosti u obliku pogodnom za kopiranje u Excel radi

testiranja statističke signifikantnosti razlike rezultata (slika 8.).

168

Slika 5. Isječak iz datoteke s popisom relevantnih rečenica TREC staze novosti 2003

Slika 6. Isječak C# koda vezanog za računanje relevantnosti rečenica koristeći metodu TF-

ISFcon i sortiranje rečenica prema ocjeni relevantnosti

169

Slika 7. Isječak iz C# koda vezan za prikaz rezultata u obliku pogodnom za umetanje u

kolonu tablice

Slika 8. Isječak iz C# koda koji generira tekstnu datoteku koja sadrži mjere učinkovitosti

sustava (P@x, MAP, R-precision) za pojedinačne upite radi kopiranja u Excel i testiranja

statističke signifikantnosti razlike rezultata

ŽIVOTOPIS

Alen Doko je rođen u Mostaru, Bosna i Hercegovina, 1982. godine. Osnovnu školu

započeo je u Mostaru, a završio u Passau, Njemačka. Srednju školu (prirodoslovno-

matematičku gimnaziju) završio je u Mostaru. Titulu diplomiranog inženjera računarstva

dobio je 2007. godine na Fakultetu strojarstva i računarstva Sveučilišta u Mostaru. Tijekom

studija dobio je tri Rektorove nagrade i jednu Dekanovu nagradu za najbolje studente. Od

2007. godine zaposlen je u JP Hrvatskim telekomunikacijama Mostar. U istoj godini

upisao je poslijediplomski studij na Fakultetu elektrotehnike, strojarstva i brodogradnje,

Sveučilišta u Splitu. Područja istraživanja koja ga zanimaju su Pronalaženje informacija i

Semantički web sa posebnim interesom za Pronalaženje rečenica.

BIOGRAPHY

Alen Doko was born in Mostar, Bosnia and Herzegovina in 1982. He started primary scool

in Mostar and completed it in Passau, Germany. He completed secondary school in Mostar.

He received his dipl. Ing. Degree in Computer engieneering in 2007 from the Faculty of

Mechanical Engineering and Computer Engineering, University of Mostar. He received

three Chancellor's Awards and one Dean Award for best students during his time at the

University of Mostar. Since 2007 he has been employed by the Croatian

Telecommunications Mostar and also has started postgraduate study at University of Split,

Faculty of Electrical Engineering, Mechanical Engineering and Naval Architecture. His

research interests are in the field of Information Retrieval and Semantic Web with a special

interest in Sentence Retrieval.