SISTEMI ZA OBRADU PRIRODNOG JEZIKA

jedna od oblasti računarske lingvistike (Computational Linguistics) koja se bavi analizom govornog ili pisanog jezika deli se u faze: leksička analiza, morfo-sintaksna analiza i semantička analiza računarska analiza prirodnog, ljudskog jezika opterećena je mnogim problemima izazvani kompleksnošču samog jezika (višeznačnost, sinonimija...) ide se ka tome da se razviju takvi sistemi za OPJ koji omogućuju strukturisanje velikih celina tekstualnih informacija sa pogledom na pronalaženje određene informacije tehnike OPJ primenjuju se u mnogim oblastima istraživanja kao što su: mašinski prevodi, obrađivanje i sumiranje teksta prirodnog jezika, korisnička sučelja, pronalaženje informacija preko više jezika, prepoznavanje govora, veštačka inteligencija i ekspertski sistemi itd.

2

ACL – Association of Computational Linguistics EACL – European Association of Computational Linguistics COLING – International Conference on Computational Linguistics MUCs – Message Understanding Conferences TRECs – Text Retrieval Conferences ACM-SIGIR (Association of Computing Machinery – Special

Interest Group on Information Retrieval) conferences

3

o ARIST - Annual review of information science and technology

o Computational linguistics

o Natural language engineering

o Information processing and management

o Journal of the American Society for information Science and technology

o Journal of documentation

o International journal of medical informatics

o Journal of chemical information and computer science

4

FRUMP (Fast Reading Understanding and Memory Program) program brzog pregledanja novina razvijen u Jejlovom projektu

veštačke inteligencije radi na relativno slobodnom domenu novinskih članaka i rutinski

razume priče koje nikada nije ranje video koristi strukturu podataka koja se zove „nacrt skripta“ da bi

organizovao svoje znanje o svetu - opisuje odgovarajuće sekvence događaja u određenom kontekstu

semantička analiza teksta nije samostalna zato što je semantički oblik koncepta sa kojim će se susresti u velikoj meri predvidljiv

semantička šema obezbeđuje već gotove okvire za predstavljanje objekata, ideja, događaja ili aktivnosti koje su tipične za određenu oblast (izveštaji o avionskim nesrećama, ratovi, uspostavljanje diplomatskih veza…)

5

Konceptualni analizatori Anatole V. Gershman opisuje radni okvir za procesore prirodnog jezika

koji uzimaju tekstove na prirodnom jeziku kao ulaz i daju pregled konceptualne zavisnosti njihovog značenja na određenom nivou detalja

analizator prolazi kroz rečenicu s leva na desno pokušavajući da pronađe konceptualizaciju koja formira okosnicu, stub prikazivanja značenja za tu rečenicu; jednom kada se nađe konceptualni okvir rečenice, analizator koristi predviđanja koja dolaze sa okvirom da bi analizirao ostatak rečenice odozgo na dole

konceptualna analiza je zasnovana na rečniku koji za svaku reč sadrži informaciju o tome šta ta reč znači i kako se koristi

Generator izveštaja berze još jedan primer automatskog generisanja teksta koji uzima jednostavne

činjenice sa berzanskog displeja kao ulaz i proizvodi izveštaje prirodnog jezika

6

RUBRIC (RUle-Based Retrieval of Information by Computer) sistem pronalaženja potpunog teksta zasnovanog na pravilu koje se

obično prikazuje u formi „ako USLOV onda POSLEDICA“ znanje o zahtevima pronalaženja je šifrovano kao skup pravila sa

vrednostima očekivane greške - u datom zahtevu pronalaženja, tekst dokumenta je činjenica za koju sistem može da odredi relevantnost tog dokumenta

sastoji se od dva modula: modul preprocesora i modul sistema modul preprocesora uzima tekst slobodnog formata iz kolekcije

dokumenata i gradi bazu podataka, što prvenstveno predstavlja invertovanu strukturu stabala reči koje se pojavljuju u kolekciji dokumenata - svaka reč ima jedan ulaz u strukturu i prate je kontekstualne informacije kao što su u kom dokumentu i na kom mestu se pojavljuje

modul sistema podrazumeva korisničko sučelje, alate i podsisteme pronalaženja

7

SCISOR ( System for Conceptual Information Summarization) je sistem pronalaženja informacija koji čita vesti iz mrežnog izvora vesti,

izvlači informacije iz tekstva i odgovara na pitanja o tome šta je pročitao da bi se prevazišla jedna značajna mana sistema OPJ, tj. nemogućnost

leksikona da pokrije sve reči i fraze u tekstu, usvojene su dve metode: primena strategije obrade teksta koja je tolerantna na nepoznate reči i praznine, i automatsko usvajanje leksičke informacije iz teksta

sistem kombinuje potpuni parser TRUMP (Transportable Understanding Mechanism Package) odozdo na gore koji kombinuje reči u fraze i rečenice, proverava specifična ograničenja i određuje jezičke odnose, i delimični parser koji brzo pregledava od vrha na dole, prelazi preko nepoznatih reči ili konstrukcija i ignoriše neke kompleksnosti jezika

od ukupnog broja od 729 vesti u jednom danu SCISOR je postigao preko 90% prosečnog razumevanja i preciznosti u svom određivanju o čemu se radilo u tim pričama

8

deo je šire oblasti - otkrivanje znanja i iskopavanje (mining) informacija podrazumeva izvlačenje ili ekstrakciju korisnih delova tekstualnih informacija iz tekstova na prirodnom jeziku primenom raznih tehnika, izvučene informacije se mogu koristiti u brojne svrhe: npr. da se pripreme sažeci tekstova, da se popune baze podataka, da se dopune prazna mesta u okvirima, identifikuju ključne reči i fraze za pronalaženje informacija itd. neki od sistema koji koriste tehnike izvlačenja informacija su:

Construe, razvijen za Reuters, koji klasifikuje nove vesti; softver Construe je potom generalizovan u komercijalni proizvod nazvan TCS (Text Categorization Shell)

PROMETHEE, sistem koji izvlači leksičko sintaksičke obrasce koji se odnose na specifične konceptualne odnose iz tehničkih korpusa

MITA (Metlife’s Intelligent Text Analyzer), koji izvlači informacije iz aplikacija životnog osiguranja

9

neki sistemi obrade prirodnog jezika su napravljeni da bi obrađivali tekstove korišćenjem određenih malih podjezika da bi se smanjila veličina operacija i priroda kompleksnosti može da se odnosi na oblast određene teme ili na specifične tipove dokumenata kao što su patent tekstovi

SINTESSI (Integrated System for Italian Text) prototip sistema za interpretaciju italijanskih tekstova o istraživanjima automobila, koje je objavio Fijatov istraživački centar u Torinu

TICA sistem koji izdvaja informacije iz apstrakata u oblasti neorganske titrimetičke analize

RESEARCHER analizira patentne apstrakte i kreira hijerarhijsku prezentaciju znanja o informacijama sadržanih u patentima

LEXITRAN projekat koji je pokušao da primeni tehnike obrade prirodnog jezika da izgradi tehnološke leksikone za dokumente patenata indeksiranja koji su klasifikovani u Međunarodnom patent klasifikacionom sistemu (IPC - International Patent Classification)

10

ponekad se termini „front-end“ ili „gateway“ koriste sinonimno sa terminom „interface“ glavni cilj sučelja prirodnog jezika je razumevanje korisnika i njegovog problema sa jedne strane, i razumevanje dokumenata i opisa dokumenata koji su bitni za funkcionisanje sistema sa druge strane prihvata upite ili komande na prirodnom jeziku, prevodi izjave prirodnog jezika u odgovarajuće akcije za sistem i šalje podatke u sistem (obično sistem pronalaženja), što onda rezultuje odgovarajućim odgovorima na komande ili upite olakšavaju zadatak komuniciranja sa izvorom informacija, omogućavajući sistemu da odgovori na širok spektar „ulaza“ (ulazni podaci) da bi proizveo što prilagođeniji „izlaz“ (izlazni podaci) inteligentno sučelje je ono koje koristi neku vrstu baze znanja i prilagodljivo je novim ili jedinstvenim situacijama

11

CANSEARCH zasnovan na setovima pravila koji izvode odgovarajuće funkcije u

skladu sa odabirima korisnika i internim porukama ova pravila predstavljaju poznavanje oblika upita za pronalaženje

referenci koje se odnose na terapiju raka iz baze podataka MEDLINE (Medical Literature Analysis and Retrieval System Online)

svaki korisnik može direktno da izabere termin dodirom ekrana terminala, prstom ili olovkom - sistem je zasnovan na pretpostavci da korisnici ne mogu tačno da znaju koje termine pretrage treba da koriste ali će ih prepoznati kada ih vide na ekranu

terminologija domena ovog predmeta je kodirana u MeSH (Medical Subject Headings), hijerarhijskom rečniku sinonima (tezaurus) koji se koristi za indeksiranje dokumenata u bazi MEDLINE

12

PLEXUS projekat dizajniran kao prototip alatke koja bi se koristila u javnim

i akademskim bibliotekama, gde mu je namena da pomaže referensnom bibliotekaru da odgovara na pitanja korisnika

korisnički zahtevi se analiziraju po rečima: beznačajne reči se zamenjuju odgovarajućim prema listi “stopword”, a preostalim rečima se uklanjaju sufiksi korišćenjem glasovnog algoritma

sistem pokušava da izvuče značenje upita tako što mu pridružuje okvir ili kontekst - jednom kada se kontekst dodeli tom upitu, model upita je izgrađen i sastoji se od jednog ili više međusobno povezanih okvira, pri čemu svaki okvir predstavlja značajan termin u upitu i ima određen oblik i strukturu specifičnu za klasu određenog koncepta

termini su organizovani prema BSO (Broad System of Ordering)

13

PLEXUS kriterijumi dizajna za korisničko sučelje bili su sledeći:

korisnik treba da bude u mogućnosti da rukuje sistemom sam, bez pomoći ljudskog ili priručnog savetnika

unos podataka treba da bude kroz izjave prirodnog jezika i da ga vodi meni

sistem ne sme da se sruši ili da prikaže korisniku neuspelu poruku nakon prve poruke

sistem treba da bude sposoban da prihvati izjave od strane korisnika u bilo kom obliku – jednu jedinu reč, listu reči, fraze ili gramatičke rečenice

sučelje mora da bude sposobno da se bavi inteligentno terminima koje ne može da prepozna

14

određeni broj sistema “odgovaranje na pitanja” (question-answering systems) se razvija u poslednje vreme da bi se obebzbedili odgovori na pitanja prirodnog jezika direktno, a ne kroz informacije koje se odnose na to pitanje, a koje sadrži neki dokument

takvi sistemi često koriste razne operacije veštačke inteligencije i pronalaženja informacija korišćenjem alatki i tehnika OPJ da bi se dobio tačan odgovor iz izvornih tekstova - ako ne bi bio nađen odgovarajući tip odgovora onda bi bio pronađen pasus koji najbolje odgovara

ovaj pristup dobro funkcioniše sve dok tipovi upita koje prepoznaje sistem imaju široku pokrivenost i dok sistem može da klasifikuje pitanja dovoljno precizno

mane većine sučelja prirodnog jezika i sistema baza podataka su prvenstveno zbog njihove slabe interpretativne moći, što je prouzrokovano njihovom nemogućnošću da se bave nijansama u ljudskoj upotrebi prirodnog jezika

15

razvoj interneta i mreže doneo je značajno poboljšanje u načinu na koji kreiramo, tražimo i koristimo informacije – brz pristup velikom broju podataka sa druge strane, inovacije sa sobom nose određene poteškoće koje se tiču obrade i pronalaženja informacija prema jednom istraživanju iz 2001. došlo se do podatka da 55% internet korisnika nije sa engleskog govornog područja i da se ta cifra ubrzano povećava; uprkos tome oko 80% internet i digitalnobibliotečkih resursa su danas dostupni na engleskom jeziku potreba da se uspostavi višejezični informacioni sistem i CLIR (Cross-Language Information Retrieval) veštine

16

postoje dve sfere interesovanja u ovoj oblasti:

1. prepoznavanje, manipulacija i prikazivanje informacija na više jezika – odnosi se na uvođenje tehnologije koja će omogućiti korisnicima da dođu do informacije na bilo kom jeziku da je ona sačuvana

2. pretraga i pronalaženje informacija preko više jezika - odnosi se na dozvoljavanje korisnicima da definišu informaciju koju žele na jeziku koji žele, dok se informacija traži na bilo kom jeziku na kome je sačuvana

kako manipulisati velikom količinom višejezičnih podataka? na nivou korisničkih sučelja, mora da postoji sistem prevoda upita

sa korisnikovog maternjeg jezika na jezik sistema; predloženi su razni pristupi za prevod upita:

pristup zasnovan na rečniku - koristi dvojezični rečnik da prebaci termine sa izvornog jezika na ciljani jezik

pristup zasnovan na korpusu - koristi paralelne korpuse za odabir reči, gde problem leži u domenu i opsegu korpusa

17

veliki je izazov omogućiti korisnicima koji traže informacije iz digitalne biblioteke da pretraže velike kolekcije samo jednom koristeći jedan jezik

višejezični tezaurusi kao što je EuroVoc pomažu da se odgovori ovom izazovu olakšavanjem kontrolisanog pretraživanja vokabulara korišćenjem termina iz više jezika, i službe kao što je Inspec, koja obezbeđuje engleske abstrakte za dokumenta na drugim jezicima

potpuni automatski višejezični tezaurusi trenutno nisu ni dovoljno brzi ni dovoljno precizni da podrže interaktivno traženje informacija preko više jezika u digitalnim bibliotekama i na mreži

na sreću aktivno i ubrzano rastuća zajednica istraživača se ujedinila oko ovih i drugih sličnih problema da bi obezbedili pristup velikim višejezičnim kolekcijama

18

Documents

SISTEMI ZA OBRADU PRIRODNOG JEZIKA