47
Knowledge Technologies Laboratoy KTLab Laboratorij za tehnologije znanja Prof. dr. sc. Bojana Dalbelo Bašić Mr. sc. Jan Šnajder Jure Mijić, dipl. ing. Fakultet elektrotehnike i računarstva Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave HMD, Zagreb, 28. siječnja 2010.

Fakultet elektrotehnike i računarstva - cadial.org · Fakultet elektrotehnike i računarstva Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave HMD, Zagreb,

  • Upload
    others

  • View
    29

  • Download
    0

Embed Size (px)

Citation preview

Knowledge Technologies Laboratoy

KTLab

Laboratorij za tehnologije znanja

Prof. dr. sc. Bojana Dalbelo Bašić

Mr. sc. Jan Šnajder

Jure Mijić, dipl. ing.

Fakultet elektrotehnike i računarstva

Zavod za elektroniku, mikroelektroniku,

računalne i inteligentne sustave

HMD, Zagreb, 28. siječnja 2010.

Sadržaj

Predstavljanje Grupe za tehnologiju znanja –članovi i vanjski suradnici

Predstavljanje aktivnosti Znanstvena aktivnost

Međunarodni i domaći projekti

Objavljeni znanstveni radovi radovi

Stručna aktivnost (suradnja s privredom)

Suradne institucije

Proizvodi

Grupa za tehnologije

znanja – ZEMRIS – FER

Voditelj laboratorija:

Prof. dr. sc. Bojana Dalbelo Bašić, redoviti profesor

Članovi:

Mr. sc. Jan Šnajder

Jure Mijić, dipl. ing.

Artur Šilić, dipl. ing.

Frane Šarić, dipl. ing.

Vanjski suradnici:

Prof. dr. sc. Marko Tadić, Filozofski fakultet

Davor Delač, apsolvent Računarstva, FER

Saša Petrović, dipl. ing. – University of Edinburgh

Prof. dr. sc. Marie-Francine Moens, Katoličko sveučilište, Leuven, Belgija

Prof. dr. sc. Annie Morin, IRISA/INRIA Francuska

Grupa za tehnologije

znanja – ZEMRIS – FER

Zajednička slika članova KTLab-a i vanjskih suradnika na CADIAL projektu:

Jure Mijić

Jan Šnajder

Marko Tadić, Filozofski fakultet

Marie-Francine Moens, KU Leuven, Belgija

Bojana Dalbelo Bašić

Artur Šilić

Frane Šarić

Davor Delač

Područje istraživanja i

stručnog rada

Umjetna inteligencija, strojno učenje

Obrada i razumijevanje prirodnog jezika (natural language processing & understanding)‏

Dubinska analiza podataka i teksta (data & text mining)

http://textmining.zemris.fer.hr

Projekti - znanstveni

MZOŠ projekt “Otkrivanje znanja u tekstnimpodacima” rmjt.ffzg.hr

CADIAL (hrvatsko-belgijski projekt) www.cadial.org

Knowledge discovery in textual data and visualisation (francusko-hrvatski projekt)

AIDE (FER, FF, JRC Ispra, Italija)

TEMPUS – COGNOSCENTE – (Njemačka, Mađarska, Nizozemska, Austrija)

bib.irb.hr“Otkrivanje znanja u tekstnim podacima” (036-1300646-1986)

Radovi od 1.1.2007. god. do danas ukupno:

Uredničke knjige (1)

Poglavlja u knjizi (7)

Udžbenici i skripta (1)

Izvorni znanstveni i pregledni radovi u CC časopisima (4)

Znanstveni radovi u drugim časopisima (9)

Kongresno priopćenje (sažeci) u ostalim časopisima (1)

Plenarna izlaganja (1)

Objavljena pozvana predavanja na skupovima (1)

Znanstveni radovi u zbornicima skupova s međunar.rec. (18)

Drugi radovi u zbornicima skupova s recenzijom (1)

Neobjavljena sudjelovanja na skupovima (1)

Magistarski radovi (1)

Diplomski radovi (35)

Druge vrste radova (4)

Puni popis radova na linku: http://bib.irb.hr/lista-radova?projekt=036-1300646-1986

AIDE projekt

(textmining.zemris.fer.hr, -> AIDE projekt)

(www.hidra.hr , -> projekti->AIDE)

Fakultet elektrotehnike i računarstva

Filozofski fakultet, Zagreb

HIDRA

Joint Research Centre Europen Comission, ItalijaOstvaren cilj: Sustav eCADIS za automatsko indeksiranje dokumenata deskriptorima

EUROVOC-a (www.hidra.hr/eurovoc/eurovoc.htm), (europa.eu/eurovoc/)

Sustav eCADIS

NAGRADA

VIDI

e-novation

2007

“Zlatno

Teslino jaje”

PARTNERI:

1. Department of Computer Science, Katholieke Universiteit Leuven, Belgium Prof. Marie-Francine Moens, associate professor

2. Faculty of Electrical Engineering and Computing (FER), University of Zagreb, Croatia Prof. Bojana Dalbelo Bašid

3. Faculty of Humanities and Social Sciences (FFZG), University of Zagreb, Croatia Prof. Marko Tadid

4. Croatian Information Documentation Referral Agency (HIDRA), Croatia Neda Erceg Maja Cvitaš, M.Sc.

PROJEKT Computer Aided Document Indexingfor Accessing Legislation - CADIAL

Computer Aided Document Indexing for Accessing Legislation - CADIAL

www.cadial.org

VIDI

e-novation

2009

“Zlatno Teslino

jaje”

Premijerkina

nagrada za

doprinos

informatizaciji

državne

uprave

www.cadial.org

KTLab fokus

Automatska kategorizacija/klasifikacija teksta (document classification)‏

Automatsko dodjeljivanje ključnih riječi(keyword assignment, document indexing)

Crpljenje ključnih riječi iz teksta (keyword extraction)

Crpljenje fraza iz teksta (collocation extraction)

Sustavi za vizualizaciju zbirke dokumenata (snižavanje dimenzionalnsti)(korištenjem CA, Orange data mining tool)

Inteligentno pretraživanje dokumenata (CADIAL)

Automatsko generiranje morfološkog rječnika (za hrvatski jezik) iz korpusa

Sustav za upravljanje i nadziranje automatske klasifikacije dokumenata

http://www.ailab.si/orange/extensions.html

KTLab fokus

Detekcija trenda, analiza raspoloženja i mišljenja, analiza blogova (Trend detection, sentiment analysis, blog mining)

Međujezično pretraživanje (Cross-language information retrieval)

Ekstrakcija informacija (Information extraction)

Sustavi odgovora na pitanje (Question answering systems)

Automatsko sažimanje teksta (Text summarization)

Dijaloški sustavi (Dialog systems)

Projekti - stručni

Hidra

Konzum

IRB (bib.irb.hr)

NOVENA

Hina

Ostali primjeri sustava

1. KTN indexing sustav za učenje automatskog klasificiranja dokumenata u predefinirani skup kategorija (mogu biti hijerarhijski organizirane)

2. CatViz - Sustav za vizualizaciju velikog skupa dokumenata i pradenje tema kroz vrijeme

3. TermeX – Sustav za gradnju terminološkog leksikona (ekstrakciju kolokacija)(http://textmining.zemris.fer.hr/termex/index.html)

4. CORAL – (CORpus ALigner)- sustav za poravnavanje korpusa tekstova(http://textmining.zemris.fer.hr/coral/)

Sustav za upravljanje1.1.

Strojno učenje klasificiranja dokumenata

2.

3.

TermeXTerminnologyextraction

Project

meeting

Zagreb

2007-11-12

Computer Aided Document Indexing

for Accessing Legislation

Joint Flemish-Croatian project

Project

meeting

Zagreb

2007-11-12

Morfološka normalizacija

Jan Šnajder

KTLab

Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave

Fakultet elektrotehnike i računarstva

Sveučilište u Zagrebu

[email protected]

Morfološka složenost

belgija belgija N=fpg

belgijama belgija N=fpd

belgijama belgija N=fpl

belgijama belgija N=fpi

belgije belgija N=fsg

belgije belgija N=fpn

belgije belgija N=fpa

belgije belgija N=fpv

belgiji belgija N=fsd

belgiji belgija N=fsl

belgijo belgija N=fsv

belgijom belgija N=fsi

belgiju belgija N=fsa

belgijska belgijski Aspnpn

belgijska belgijski Aspnpa

belgijska belgijski Aspnpv

belgijska belgijski Aspfsn

belgijska belgijski Aspfsv

belgijske belgijski Aspmpa

belgijske belgijski Aspfsg

belgijske belgijski Aspfpn

belgijske belgijski Aspfpa

belgijske belgijski Aspfpv

belgijski belgijski Aspmsn

belgijski belgijski Aspmsa

belgijski belgijski Aspmsv

belgijski belgijski Aspmpn

belgijski belgijski Aspmpv

belgijskih belgijski Aspmpg

belgijskih belgijski Aspnpg

belgijskih belgijski Aspfpg

Belgijanac belgijanac N=msn

Belgijanac belgijanac N=msa

Belgijanaca belgijanac N=mpg

Belgijanca belgijanac N=msg

Belgijance belgijanac N=mpa

Belgijancem belgijanac N=msi

Belgijanci belgijanac N=mpn

Belgijanci belgijanac N=mpv

Belgijancima belgijanac N=mpd

Belgijancima belgijanac N=mpl

Belgijancima belgijanac N=mpi

Belgijancu belgijanac N=msd

Belgijancu belgijanac N=msl

Belgijanče belgijanac N=msv

belgijanaka belgijanka N==pg

Belgijanci belgijanka N==sd

Belgijanci belgijanka N==sl

Belgijanci belgijanka N=fsd

Belgijanci belgijanka N=fsl

Belgijanka belgijanka N==sn

Belgijanka belgijanka N==pg

Belgijanka belgijanka N=fsn

Belgijanka belgijanka N=fpg

Belgijankama belgijanka N==pd

Belgijankama belgijanka N==pl

Belgijankama belgijanka N==pi

Belgijankama belgijanka N=fpd

Belgijankama belgijanka N=fpl

Belgijankama belgijanka N=fpi

Belgijanke belgijanka N==sg

Belgijanke belgijanka N==pn

Belgijanke belgijanka N==pa

Belgijanke belgijanka N==pv

Belgijanke belgijanka N=fsg

Belgijanke belgijanka N=fpn

Belgijanke belgijanka N=fpa

Belgijanke belgijanka N=fpv

Belgijanki belgijanka N==sd

Belgijanki belgijanka N==sl

Belgijanki belgijanka N==sl

Belgijanki belgijanka N=fsd

Belgijanki belgijanka N=fsl

Belgijanko belgijanka N==sv

Belgijanko belgijanka N=fsv

Belgijankom belgijanka N==si

Belgijankom belgijanka N=fsi

Belgijanku belgijanka N==sa

Belgijanku belgijanka N=fsa

Belgijac belgijac N=msa

Belgijaca belgijac N=mpg

Belgijca belgijac N=msg

Belgijce belgijac N=msv

Belgijce belgijac N=mpa

Belgijcem belgijac N=msi

Belgijci belgijac N=mpn

Belgijci belgijac N=mpv

Belgijcima belgijac N=mpd

Belgijcima belgijac N=mpl

Belgijcima belgijac N=mpi

Belgijcom belgijac N=msi

Belgijcu belgijac N=msd

Belgijcu belgijac N=msl

Belgijče belgijac N=msv

Morfološka normalizacija

Prije indeksiranja: morfološka normalizacija

Hrvatski jezik je morfološki izuzetno složen

Flektivna + derivacijska normalizacija

Koristi se pri

Klasifikaciji dokumenata

Automatskom indeksiranju

Pretraživanju informacija

Normalizacija temeljena na lekiskonu

Prednost: dobra kakvoća normalizacije

Nedostatak: ograničen opseg leksikona

Dva pristupa

A: Hrvatski morfološki leksikon (HML)

B: Automatski pribavljen leksikona (Molex)

Hrvatska morfologija

1. Visok stupanj afiksacije

Oblici se dobivaju sufiksacijom, prefiksacijom,

glasvnim smjenama i proširenjima/kraćenjima osnove

Fleksija

imenice: deklinacije (7 padeža, broj)

glagoli: konjugacija (vrijeme, lice, broj, rod)

pridjevi: deklinacija (7 padeža, broj, rod),

stupnjevanje (3 stupnja), (ne)odreĎenost

Tvorba

Veliki broj tvorbenih uzoraka za izvoĎenje imenica iz

glagola, imenica iz imenica, glagola iz imenica,

pridjeva iz imenica, ...

Hrvatska morfologija 2

Primjer fleksije

pridjev: brz, brza, brzi, brzima, brzih, brzoj, brze,

brzim, brzog, brzoga, brz, brza, brzo, brzom,

brzomu, brži, bržeg, brža, brži, bržima, bržih, bržoj,

brže, bržim, bržem, bržima, najbrži, bržeg, najbrža,

najbržima, najbržih, najbrže, najbržim, najbrži,

najbržoj, ...

imenica: brzina, brzinom, brzine, brzinama, brzinu,

brzina, brzini

pridjev: brzinski, brzinskom, brzinske, brzinskih,

brzinska, brzinskoj, brzinsko, brzinskog,

brzinskoga,…

prilog: brzo, brže, najbrže, brzinski

Primjer tvorbe

brz > brzina > brzinski > …

Hrvatska morfologija 3

2. Visok stupanj istopisnosti (homografije)

vode = voda | voditi | vod

Iziskuje razrješavanje (POS/MSD označavanje)

3. Višeznačnost (plodnost) sufikasa

Mnogo višeznačnih pravila sufiksacije

npr. bolnic-a / bolnic-i vs. ruk-a / ruc-i

npr. bolnic-a / bolnic-om vs. brodolom / brodolom-a

Pogreške na flektivnoj razini

narančast / narančast-om vs. ruž / ruž-om (umjesto ruža)

Pogreške na razini tvorbe

npr. kralj / kralj-ica vs. stan / stan-ica

Normalizacija temeljena na lekiskonu

Morfološki leksikon

Svaki flektivni/tvorbeni oblik povezuje s morfološkom

normom (lemom, osnovom, korijenom) i eventualno s

morfosintaktičkim opisom

UgraĎuje lingvističko znanje i na taj način izbjegava

opisane probleme

Nedostatci

Sastavljaju ih lingvisti (skupo i vremenski zahtjevno)

Ograničeni opseg (neologizmi, žargonizmi,

dijalektizmi)

Naš pristup

Akvizicija leksikona velikog opsega iz neoznačenog

korpusa tekstova temeljem morfoloških pravila

(morfološkog modela)

Naš pristup

1. Akvizicija flektivnog leksikona

ulaz: neoznačeni korpus i skup flektivnih i

derivacijskih pravila u prikladnom formalizmu (nalik

tradicionalnim gramatikama)

2. Normalizacija oblika

flektivna (lematizacija)

Flektivna + derivacijska

Usporedivo s korjenovanjem (ali preciznije)

Prednosti

Može se koristiti kao lematizator (s MSD opisima) i

kao stemmer (s promjenjivom jakosti)

Veliki i zbirci prilagoĎen opseg leksikona

Iziskuje ograničeno lingvističko znanje

Prikaz morfologije

Npr. Imenička paradigma

vojnik

Padež Jednina Množina

N vojnik-Ø vojnic-i

G vojnik-a vojnik-a

D vojnik-u vojnic-ima

A vojnik-a vojnik-e

V vojnič-e vojnic-i

L vojnik-u vojnic-ima

I vojnik-om vojnic-ima

Prikaz morfologije 2

Definiramo flektivna i derivacijska pravila

Koristimo funkcije kao gradivne blokove:

A) funkcije uvjeta

B) funkcije preoblike

Definiramo ih posredno putem funkcija višeg reda

Npr.

sfx

sfx('a')

sfx('a')('vojnik') = 'vojnika'

sfx(‘e’) alt(pal)

(sfx('e') alt(pal))('vojnik') = 'vojniče'

Prikaz morfologije 3

Padež Jednina Množina

N vojnik-Ø vojnic-i

G vojnik-a vojnik-a

D vojnik-u vojnic-ima

A vojnik-a vojnik-e

V vojnič-e vojnic-i

L vojnik-u vojnic-ima

I vojnik-om vojnic-ima

(s.ends('k','g','h')(s) consGroup(s),

{null, sfx(‘a’), sfx(‘u’), sfx(‘om’), sfx(‘e’) alt(pal),

sfx(‘i’) alt(sib), sfx(‘ima’) alt(sib), sfx(‘e’)})

Prikaz morfologije 4

Prikladno i za složenije paradigme(c, {null, sfx(‘a’), sfx(‘u’), ..., sfx(‘ima’)}

{sfx(‘og’), sfx(‘om’), ..., sfx(‘ima’)}

{sfx(‘i’) alt(jot), sfx(‘eg’) alt(jot), ..., sfx(‘ima’) alt(jot)}

{sfx(‘i’) alt(jot) pfx(‘naj’), ..., sfx(‘ima’) alt(jot) pfx(‘naj’)})

Prikaz morfologije 5

prednosti

Odgovara morfološkim opisima tradicionalnih

gramatika

Iziskuje minimalno lingvističko znanje

Visoko ekspresivan formalizam

Prilagodiv morfološki sličnim jezicima

Implementirano u Haskellu

Čisto funkcijski programski jezik

Implementacija modela ne iziskuje znanje

programiranja

Akvizicija leksikona

Koristimo flektivna pravila + neoznačeni korpus

kako bismo izlučili leme i pripadne paradigme

Frekvencije oblika iz korpusa + heuristika

Lingvistička točnost nije od primarne važnosti

Radimo normlalizaciju, a ne generiranje oblika

Ljudska intervencija nije potrebna

Rezultati

Primjer manjeg leksikona

Novinski korpus, 20 Mw

90 flektivnih i >300 derivacijskih pravila

Sadržava cca 42,000 lema odnosno 500,000 oblika

Kakvoća

Lingvistička točnost F1 = 88% per type

opseg 96% per type i 98% per token

podkorjenovanje = 7%

prekorjenovanje < 4%

Može se poboljšati ručnim intervencijama

Derivacijska normalizacija

Flektivni leksikon grupira se u klase ekvivalencije

prema relaciji tvorbene veze

Stupanj normalizacije ovisi o broju korištenih

derivaicjskih pravila

Problem sa semantikom:

Kontekst, stupanj

Reference

Šnajder, Jan; Dalbelo Bašić, Bojana; Tadić, Marko.

Automatic Acquisition of Inflectional Lexica for

Morphological Normalisation // Information Processing and

Management, 2008. (in press)

Applied in document indexing

projects AIDE & CADIAL www.cadial.org

Dalbelo Bašić, Bojana; Tadić, Marko; Moens, Marie-Francine.

Computer Aided Document Indexing for Accessing

Legislation // Toegang tot de wet / J. Van Nieuwenhove & P.

Popelier (eds). Brugge : Die Keure, 2008. pp. 107-117.

Applied in text classification

Malenica, Mislav; Šmuc, Tomislav; Jan, Šnajder; Dalbelo

Bašić, Bojana. Language Morphology Offset: Text

Classification on a Croatian-English Parallel Corpus. //

Information Processing and Management, 44 (2008), 1;

325-339.

Project

meeting

Zagreb

2007-11-12

Inteligentna tražilica s web sučeljem

Jure Mijić

KTLab

Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave

Fakultet elektrotehnike i računarstva

Sveučilište u Zagrebu

[email protected]

Što želimo postići?

Karakteristike dobre tražilice:

Efektivna

Relevantni rezultati unutar prvih desetak rezultata

Brza

Brza obrada upita nad velikom količinom dokumenata

Efikasna

Efikasno skladištenje velike količine dokumenata

(preduvjet za brzinu tražilice)

Jednostavna za korištenje

Jednostavno i intuitivno postavljanje upita

Nadogradiva

Jednostavno proširenje tražilice novim procedurama

Tražilica CADIAL

Objektno orijentirani model sustava tražilice (C++)

Korištena biblioteka Text Mining Tools (KTLab)

Karakteristike tražilice:

Morfološka normalizacija

Podrška za pretraživanje strukturiranih dokumenata

Dvije procedure za pretraživanje:

Pretraživanje fraza

Jezično modeliranje (eng. language modelling)

Pretraživanje po naslovu i tekstu dokumenta

Pretraživanje po dodijeljenim deskriptorima Eurovoca i

njihovim nedeskriptorima (na hrvatskom i engleskom)

Jednostavna nadogradnja sustava tražilice novim

procedurama za pretraživanje

Shema sustava tražilice CADIAL

Jezični model tražilice CADIAL

Evaluacija tražilice CADIAL

Evaluacija performansi tražilice CADIAL

INEX workshop, Prosinac 2008, Dagstuhl, Njemačka

Ad Hoc Track

Korištena kolekcija Wikipedia na engleskom jeziku

660.000 strukturiranih dokumenata u XML formatu

4,6 GB ukupne veličine

Fokusirano pretraživanje

29. mjesto od 76 kandidata

Pretraživanje dokumenata

9. mjesto od 76 kandidata

Web sučelje tražilice CADIAL

Hvala na pozornosti!