18
Marek Krę ołek * KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W TEKŚCIE POLSKIM Computer Science Vol. 4. 2002 81 ’32 Tekst opisuje program zajmujący się problemem kontekstowego rozstrzygania wieloznacz ności w tekście polskim. Wieloznaczność to mo ność przypisania wyrazowi kilku ró nych interpretacji, np. wyraz „zamek” mo e oznaczać budowlę, zamknięcie, zapięcie. Opisany w tekście program korzysta ze słownika znaczeń, który dołączony do słownika flek- syjnego określa znaczenia dowolnego wyrazu tekstu. Przy rozstrzyganiu wieloznaczności program stosuje dwie metody kontekstowego rozpoznawania znaczeń. 1) Rozpoznanie znaczenia wyrazu wieloznacznego za pomocą wyrazów powiązanych z wy razem wieloznacznym. 2) Dostosowywanie znaczenia do tematu tekstu, w którym dany wyraz się znajduje. Słowa kluczowe: przetwarzanie j ęzyka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING AMBIGUITIES OF MEANING FROM CONTEXTUAL CLUES IN POLISH TEXTS This article describes a Computer programme designed to assign the appropriate meaning to homonyms based on the context in which they appear. Homonyms can be defined as words with a number o f dijferent, often unrelated, meanings (for example a bank - a business that lends or keeps money, the land along the side o f river, a large pile o f earth, sand, snów). The programme described in the paper exploits a monolingual dictionary, which, together with and supported by declension dictionary assigns the appropriate meaning for any given word from the text. In order to assign the correct and appropriate meaning for the given context two methods are used and exploited: 1) Recognition of the meaning of a particular homonym based on the occurrence o f its collocations in the immediate context. 2) Applying the correct meaning o f the word based on the overall theme or topie of the text in which appears. Keywords: natural languaąe processing, recognition o f the meaning, homonyms, disambiguation 1. Problem wieloznaczności Wieloznaczność w języku naturalnym to - mówiąc najogólniej - mo liwość przypisania kilku ró nych interpretacji jakiemuś wyra eniu. Doktorant wydziału EAIiE AGH 101

KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Marek Krę ołek *

KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W TEKŚCIE POLSKIM

C om puter S c ien ce Vol. 4 . 2 0 0 2 81 ’32

Tekst opisuje program zajmujący się problemem kontekstowego rozstrzygania wieloznacz ności w tekście polskim. Wieloznaczność to mo ność przypisania wyrazowi kilku ró nych interpretacji, np. wyraz „zamek” mo e oznaczać budowlę, zamknięcie, zapięcie.Opisany w tekście program korzysta ze słownika znaczeń, który dołączony do słownika flek- syjnego określa znaczenia dowolnego wyrazu tekstu. Przy rozstrzyganiu wieloznaczności program stosuje dwie metody kontekstowego rozpoznawania znaczeń.1) Rozpoznanie znaczenia wyrazu wieloznacznego za pomocą wyrazów powiązanych z wy

razem wieloznacznym.2) Dostosowywanie znaczenia do tematu tekstu, w którym dany wyraz się znajduje.Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja

RESOLYING AMBIGUITIES OF MEANING FROM CONTEXTUAL CLUES IN POLISH TEXTSThis article describes a Computer programme designed to assign the appropriate meaning to homonyms based on the context in which they appear. Homonyms can be defined as words with a number o f dijferent, often unrelated, meanings (for example a bank - a business that lends or keeps money, the land along the side o f river, a large pile o f earth, sand, snów).The programme described in the paper exploits a monolingual dictionary, which, together with and supported by declension dictionary assigns the appropriate meaning fo r any given word from the text. In order to assign the correct and appropriate meaning for the given context two methods are used and exploited:1) Recognition o f the meaning o f a particular homonym based on the occurrence o f its

collocations in the immediate context.2) Applying the correct meaning o f the word based on the overall theme or topie o f the text

in which appears.Keywords: natural languaąe processing, recognition o f the meaning, homonyms, disambiguation

1. Problem wieloznacznościWieloznaczność w języku naturalnym to - mówiąc najogólniej - mo liwość przypisania kilku ró nych interpretacji jakiemuś wyra eniu.

Doktorant wydziału EAIiE AGH

101

Page 2: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

W języku polskim mamy do czynienia z dwoma rodzajami wieloznaczności:1 ) syntaktyczną,2 ) semantyczną.

Z wieloznacznością syntaktyczną mamy do czynienia wtedy, gdy na podstawie anali zy formy fleksyjnej występującej w tekście potrafimy jednoznacznie rozpoznać znaczenie wyrazu, lecz sam kształt formy fleksyjnej nie wskazuje na funkcję zdaniową rozpoznanego wyrazu. Przykładowo, gdy w tekście pojawi się napis zegar, jednoznacznie rozpoznajemy wyraz, ale nie jesteśmy w stanie powiedzieć, czy ten wyraz pełni funkcję podmiotu, np. Zegar bije, czy dopełnienia np. Marek rozbił zegar.

Wieloznaczność semantyczna polega na tym, e pewne formy fleksyjne pojawiające się w tekście mogą reprezentować ró ne wyrazy. Zatem wieloznaczna semantycznie jest zarówno forma piec, mogąca oznaczać rzeczownik lub czasownik, jak i forma zamek repre zentująca trzy ró ne rzeczowniki: „budowlę”, „zaniknięcie” i „zapięcie”.

Praca niniejsza zajmuje się problemem rozstrzygania wieloznaczności semantycznej.

2. Przetwarzanie tekstu a wieloznacznośćProgram przetwarzania tekstu powinien działać tak jak człowiek, który musi przeczytać i zrozumieć tekst w nieznanym sobie języku obcym. Człowiek taki zaopatruje się w słownik dwujęzyczny, tj. słownik tłumaczący wyra enia języka tekstu na wyra enia języka zna nego człowiekowi. Mając do dyspozycji taki słownik, człowiek czyta tekst napis po napi sie, identyfikując ka dy napis w słowniku. Poprawna identyfikacja wyra enia wejścio wego pozwala zrozumieć znaczenie tego wyra enia poprzez odesłanie do znaczenia w języku znanym człowiekowi. Proces taki jest efektywny do momentu, w którym napo tkamy wyra enie wieloznaczne. Wówczas człowiek musi przeprowadzić rozumowanie pozwalające wybrać jedno z mo liwych znaczeń wyra enia wejściowego. Rozumowanie takie opiera się na zasadzie badania zgodności znaczeń wyrazu analizowanego ze zna czeniami pozostałych wyrazów tekstu, co jest mo liwe dzięki posiadanej przez człowie ka wiedzy o świecie.

Przedstawiony tu - w ogromnym uproszczeniu - proces przetwarzania tekstu przez człowieka jest zjawiskiem tak zło onym, e ciągle jeszcze stanowi przedmiot badań i eks perymentów. Niniejszy tekst przedstawi opis eksperymentu, którego celem było skonstru owanie algorytmów rozstrzygających pewne przypadki semantycznej wieloznaczności wy razów polskich.

3. Wiedza językowa potrzebna algorytmom do rozstrzygania wieloznaczności

3.1. Słownik

Wa ną częścią ka dego programu z zakresu przetwarzania języka naturalnego jest słownik fleksyjny, którego zadaniem jest weryfikacja faktu, czy dana forma nale y do języka, oraz rozpoznanie tego, jaki wyraz dana forma reprezentuje. Zatem słownik fleksyjny to zbiór form oraz zbiór informacji na temat form.

102

Page 3: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Do podstawowych informacji nale ą:

1 ) informacja wskazująca na to, jaki wyraz (wyrazy) jest reprezentowany przez daną for mę fleksyjną;

2 ) informacja o tym, którą z form danego wyrazu reprezentuje konkretna forma;3) klasyfikacja semantyczna wyrazu.

Zatem dla np. występującej w tekście formy kota ze słownika powinniśmy uzyskać informację, e jest to dopełniacz lub biernik liczby pojedynczej wyrazu kot oraz e forma ta reprezentuje rzeczownik męski ywotny. W programie przedstawione wy ej informacje prze chowujemy w tzw. słowniku fleksyjnym [ 2, 3],

Podczas wyszukiwania wyrazu dla formy mo e się okazać, e dana forma reprezentuje więcej ni jeden wyraz. Wtedy mamy do czynienia z wieloznacznością. Przykładem mo e być forma piec, która reprezentuje zarówno czasownik, jak i rzeczownik.

Jednak przy rozstrzyganiu wieloznaczności potrzebna jest dodatkowa informacja o zna czeniach. Informację tę zawiera skonstruowany specjalnie dla potrzeb niniejszego progra mu słownik (opisu) znaczeń. W słowniku znaczeń opisane są znaczenia danego wyrazu, wraz z własnościami danego znaczenia oraz powiązania danego znaczenia z innymi wyrazami lub znaczeniami wyrazów. Budowa słownika znaczeń została przedstawiona w rozdziale 8 .

3.2. Opis zale ności syntaktycznychPrzy przetwarzaniu języka naturalnego, w szczególności przy rozpoznawaniu znaczeń, wa ną rolę odgrywa gramatyka języka, gdy dzięki niej mo emy poznać zale ności między wy razami w zdaniu, co z kolei mo e pomóc przy rozpoznawaniu znaczeń, poniewa w pewnym związku wyrazowym mo e wystąpić tylko jedno ze znaczeń. Na przykład, jeśli wieloznacz nemu wyrazowi zamek przysługuje określenie kamienny, to mo emy stwierdzić, e w tym przypadku chodzi o budowlę. Natomiast analizując związek syntaktyczny między wyrazami zamek i kamienny, mo emy rozpoznać, e wyraz kamienny jest określeniem wyrazu zamek.

W języku polskim wyró nia się kilka podstawowych części mowy: czasownik, rze czownik, zaimek, przymiotnik, przysłówek i liczebnik. Ka da z tych części mowy pełni w zdaniu określoną rolę (jako część zdania) i jest powiązana z innymi częściami zdania.

Rozpatrując zale ności syntaktyczne występujące w zdaniu, mo emy wyró nić dwie grupy wyrazów: grupę podmiotu i grupę orzeczenia. W grupie podmiotu główną rolę pełni podmiot, którym jest rzeczownik (lub zaimek) w mianowniku, natomiast w grupie orzecze nia główną rolę pełni orzeczenie, którym jest czasownik w formie osobowej. Podmiot i orze czenie, poza pewnymi szczególnymi przypadkami, mają taką samą liczbę i rodzaj. Ozna cza to, e jeśli podmiot jest w liczbie pojedynczej i rodzaju męskim, to orzeczenie tak e musi być w liczbie pojedynczej i rodzaju męskim. Wyjątek stanowią sytuacje, gdy wystę puje kilka podmiotów: wtedy orzeczenie zawsze jest w liczbie mnogiej, natomiast o rodza ju decyduje to, czy występuje wśród nich podmiot w rodzaju męskoosobowym. Jeśli tak, to orzeczenie tak e jest w rodzaju męskoosobowym, w przeciwnym wypadku orzeczenie jest w rodzaju niemęskoosobowym. W opisanych poni ej algorytmach przyjęte zostało zało e nie, e orzeczenie jest wyrazem podrzędnym w stosunku do podmiotu.

W grupie podmiotu jako określenia podmiotu występują przydawki, którymi mogą być najczęściej przymiotniki, liczebniki lub rzeczowniki. Jeśli przydawką jest przymiotnik lub

103

Page 4: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

liczebnik, to zgadzają się one z rzeczownikiem, który określają pod wzglądem liczby, rodzaju i przypadka. Mo na powiedzieć, e przydawka jest wyrazem podrzędnym w stosunku do pod miotu. Jeśli przydawka jest rzeczownikiem, to mo e on tworzyć własną grupę, w której wy stępują przydawki. W wyra eniu zamek bogatego człowieka wyraz człowieka jest przydawką dla wyrazu zamek, a wyraz bogatego jest przydawką dla wyrazu człowieka.

W grupie orzeczenia jako określenia orzeczenia występują dopełnienia i okoliczniki. Dopełnienie jest rzeczownikiem w przypadku innym ni mianownik. Poniewa dopełnie nie jest rzeczownikiem, mo e tak e posiadać przydawki. Okolicznikami mogą być najczę ściej przysłówki oraz rzeczowniki określające między innymi czas, miejsce, sposób wy konania danej czynności. W wyra eniu szybko zamknąłem piękny zamek, wyraz zamknąłem jest orzeczeniem, zamek dopełnieniem, piękny przydawką wyrazu zamek, a szybko okolicznikiem sposobu. Okoliczniki i dopełnienia są wyrazami podrzędnymi w stosunku do orzeczenia.

Wykorzystując opisane zale ności mo na dla ka dego zdania w tekście zbudować po wiązania pomiędzy wyrazami. Powiązania te znajdą zastosowanie przy rozpoznawaniu zna czeń wyrazów.

4. Opis działania programuPrzedstawiony w pracy program działa według opisanego poni ej algorytmu. Początkowo program dokonuje tokenizacji, tj. dzieli tekst na jednostki składowe (wyrazy, zdania, akapi ty). Tokenizacja jest przeprowadzana w ten sposób, e ignoruje się pewne szczególne sytu acje, i np. w tekście przetwarzanym przez program ka da kropka oznacza koniec zdania.

Kolejno następuje etap pobrania ze słownika informacji na temat ka dego wyrazu wy stępującego w tekście. W słowniku, z którego korzysta ten program, oprócz wyrazów pro stych mogą występować wyrazy zło one, tu traktowane jako osobne znaczenia dla ka dego z wyrazów składowych.

Następnym elementem programu są algorytmy wyszukiwania powiązań pomiędzy wyrazami1̂ , te powiązania są u yte przy rozpoznawaniu znaczeń wyrazów.

Jako ostatni element jest uruchamiany algorytm rozpoznawania znaczeń, który w pierw szej kolejności sprawdza, czy dany wyraz nie jest częścią wyrazu zło onego lub frazy2), następ nie stosowane są algorytmy rozpoznawania znaczeń z u yciem wyrazów nadrzędnych i pod rzędnych3), a na końcu stosowany jest algorytm „kontekstowego** rozpoznawania znaczeń4).

5. Algorytmy wyszukiwania powiązań pomiędzy wyrazamiW zdaniu występują zale ności pomiędzy wyrazami5). Zale ności te polegają na tym, e danym wyrazom mo na przyporządkować wyrazy nadrzędne i podrzędne. Dla wielu wyra zów mo na znaleźć zarówno wyrazy nadrzędne, jak i podrzędne, ale w związku z tym, e ka dy wyraz ma co najwy ej jeden wyraz nadrzędny (poza pewnymi szczególnymi przy

11 Porównaj rozdział 5.2) Porównaj podrozdział 6 .1.3) Porównaj podrozdział 6.3.4) Porównaj rozdział 7.5) Porównaj podrozdział 3.2.

104

Page 5: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

padkami), stosujemy tu algorytmy wyszukiwania wyrazów nadrzędnych, a po znalezieniu wyrazu nadrzędnego przyporządkowujemy mu wyraz podrzędny.

W artykule opisano nie jeden algorytm, ale zbiór algorytmów, gdy dla ka dej części mowy stosowany jest inny algorytm wyszukiwania wyrazu nadrzędnego.

Algorytmy zostały zbudowane dla zdań prostych w stronie czynnej, natomiast w zda niach innego typu tak e wyszukują zale ności, ale wyniki wyszukiwania mogą być błędne.

Dzięki tym algorytmom mo emy zbudować strukturę, która jest bardzo pomocna przy rozpoznawaniu znaczeń wyrazów.

5.1. Wyszukiwanie wyrazu nadrzędnego dla czasownikaAlgorytm wyszukuje wyraz nadrzędny dla podanego czasownika. Rozró niane są dwa rodza je czasowników: bezokoliczniki i pozostałe. Dla bezokoliczników szukany jest wyraz nad rzędny, którym musi być czasownik, natomiast dla pozostałych szukamy rzeczownika lub zaimka w mianowniku zgadzających się z czasownikiem pod względem liczby i rodzaju (czyli dla orzeczenia jest wyszukiwany podmiot). Poszukiwanie rozpoczynamy od najbli szego wyrazu na lewo od danego wyrazu, przeglądane są kolejno wszystkie wyrazy i sprawdzane jest, czy któryś z nich spełnia warunki dla wyrazu nadrzędnego. Jeśli nie znajdziemy wyrazu nadrzędnego po lewej stronie, to przenosimy się na prawo od danego wyrazu.

5.2. Wyszukiwanie wyrazu nadrzędnego dla rzeczownikaRozró nianych jest kilka form rzeczownika, dla których szukamy wyrazów nadrzędnych (podział jest według przypadków, w których występują):

- rzeczownik w mianowniku to podmiot, więc nie ma on wyrazów nadrzędnych;- rzeczowniki w dopełniaczu, narzędniku lub miejscowniku mogą mieć za wyraz nad

rzędny zarówno czasownik, jak i rzeczownik;- pozostałe rzeczowniki mogą mieć za wyraz nadrzędny tylko czasownik.

Podobnie jak dla czasowników, rozpoznawanie rozpoczyna się na lewo od danego wy razu, a jeśli tam nie znajdziemy wyrazu nadrzędnego, to kontynuujemy poszukiwania na pra wo od danego wyrazu, a do napotkania wyrazu, który mo e być wyrazem nadrzędnym dla danego rzeczownika.

5.3. Wyszukiwanie wyrazu nadrzędnego dla przymiotnika i liczebnikaSzukanie wyrazu nadrzędnego dla przymiotnika rozpoczynamy od szukania wśród wyra zów znajdujących się po jego prawej stronie. Szukamy rzeczownika lub zaimka, który jest zgodny pod względem formy z danym przymiotnikiem (tzn. zgadza się pod względem przy padku, liczby i rodzaju). Przymiotnik mo e zostać przyporządkowany grupie rzeczowni ków i wtedy on mo e być w liczbie mnogiej, natomiast ka dy z tych rzeczowników lub zaimków mo e być w liczbie pojedynczej lub mnogiej (np. w wyra eniu piękne: czapka i rękawiczki przymiotnik piękne podlega grupie czapka i rękawiczki).

5.4. Wyszukiwanie wyrazu nadrzędnego dla przysłówkaWyrazu nadrzędnego dla przysłówka tak e zaczynamy szukać na prawo od niego, a jeśli to nie da efektów, to analizujemy wyrazy znajdujące się po jego lewej stronie. Wyszukiwany jest dla niego jako wyraz nadrzędny czasownik, przymiotnik lub imiesłów przymiotnikowy.

105

Page 6: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

5.5. Wyszukiwanie wyrazu nadrzędnego dla przyimkaWyrazem nadrzędnym dla przyimka mo e być rzeczownik lub zaimek, przeszukiwanie roz poczynane jest wśród wyrazów znajdujących się w zdaniu po jego prawej stronie.

6. Algorytm rozpoznawania znaczeńZnaczenie wyrazu jest to treść kryjąca się za danym wyrazem. Wyraz w słowniku mo e mieć przyporządkowanych kilka znaczeń, które są określone razem z danym wyrazem w słowniku znaczeń. Zadanie programu polega na wybraniu znaczenia dla wyrazu wystę pującego w zdaniu spośród wszystkich znaczeń danego wyrazu występujących w słowniku (wraz z wyrazami zło onymi).

Mo na powiedzieć, e ten algorytm dopasowuje kontekst wyrazu do kontekstu zna czenia występującego w słowniku. Kontekstem wyrazu nazywamy jego otoczenie w tek ście, w którym występuje. Jego najbli szym otoczeniem są jego wyrazy nadrzędne i pod rzędne. Dalszym kontekstem wyrazu są pozostałe wyrazy występujące w zdaniu i akapicie. Natomiast kontekstem znaczenia nazywamy zbiór cech określonych w słowniku znaczeń dla danego znaczenia wyrazu, które powinien posiadać wyraz w zdaniu odpowiadający da nemu wyrazowi słownikowemu, do którego nale y znaczenie, aby to znaczenie mogło zo stać przypisane danemu wyrazowi w zdaniu. Dzięki porównaniu kontekstu wyrazu w zda niu i kontekstu znaczenia zdefiniowanego w słowniku, mo emy dane znaczenie przypisane wyrazowi przyjąć lub odrzucić.

Algorytm działa w ten sposób, e idąc od początku analizowanego tekstu, rozpoznaje znaczenie dla kolejnych wyrazów, wykorzystując do tego ju rozpoznane znaczenia in nych wyrazów. Jeśli dojdzie do końca tekstu, program wraca do początku i ponawia roz poznawanie zadaną ilość razy. Dzieje się tak dlatego, e algorytm w pierwszym przejściu pętli ma ju częściowo zidentyfikowane znaczenia wyrazów poprzedzających badany wy raz, natomiast nie ma rozpoznanych znaczeń wyrazów występujących za nim, co powa nie ogranicza zdolność tego algorytmu, natomiast w kolejnych przejściach pętli ma ju więcej znaczeń rozpoznanych.

Algorytm rozpoznając znaczenie wyrazu, korzysta z kilku metod opisanych poni ej. W ka dej z tych metod wykorzystywane są pewne elementy opisane w słowniku znaczeń, a czasami tak e we fleksyjnym. W algorytmie jest zało enie, e ka dy wyraz w zdaniu ma jakieś znaczenie, więc jeśli liczba znaczeń dla danego wyrazu spadnie podczas przeszuki wania do zera, to wyrazowi są przypisywane od nowa wszystkie znaczenia i algorytm po nownie próbuje rozpoznawania znaczeń.

Istnieją dwie główne metody rozpoznawania znaczeń:1) niezale na,2 ) zale na.

Metoda niezale na polega na tym, e dla ka dego spośród potencjalnych znaczeń da nego wyrazu analiza kontekstu odbywa się osobno (niezale nie od pozostałych znaczeń) i niezale nie podejmowana jest decyzja, czy w danej sytuacji to znaczenie jest mo liwe, czy nie. Metoda zale na polega na tym, e spośród dopuszczalnych znaczeń wybierane jest najbardziej prawdopodobne w tej sytuacji6!. Z tą metodą mamy do czynienia przy dostoso

6) Porównaj rozdział 7.

106

Page 7: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

wywaniu znaczenia do tematu akapitu, natomiast z metodą niezale ną mamy do czynienia przy rozpoznawaniu znaczenia z u yciem form i odmiany, lub z u yciem wyrazów nad rzędnych i podrzędnych. Wyjątkiem są sytuacje identyfikowania danego znaczenia. Wystę puje to wtedy, gdy dla jednego ze znaczeń jest prawdziwa flaga identyfikująca, co powodu je odrzucenie wszystkich znaczeń, dla których adna flaga identyfikująca nie jest prawdziwa. W pierwszej kolejności sprawdzane jest (wszystkimi metodami), czy dane znaczenie nie jest odrzucane w danym kontekście, oraz czy jest mo liwe, a dopiero później jest spraw dzana identyfikacja. Szczegóły dotyczące ustawiania poszczególnych wartości i flag znaj dują się w rozdziale 8 .

6.1. Wyrazy zło one i algorytmy ich wyszukiwania

Jeśli jakieś znaczenie jest związane z jakimś wyrazem zło onym (lub frazą), to w pierwszej kolejności są analizowane flagi dla wyrazów zło onych. Uruchamiany jest wtedy algorytm sprawdzania, czy w danym zdaniu jest związek wyrazowy odpowiadający danemu znacze niu; jeśli związek ten zostanie zidentyfikowany, to odrzucane są wszystkie znaczenia nie- związane z wyrazami zło onymi.

Związek wyrazowy (lub wyraz zło ony czy zło enie wyrazów) jest specyficznym ro dzajem wyrazu w słowniku, jest to ciąg wyrazów prostych, na które nało one są pewne dodatkowe warunki. Często znaczenie wyrazu zło onego jest ró ne od znaczeń poszcze gólnych wyrazów wchodzących w jego skład.

Związek wyrazowy mo e być definiowany w słowniku znaczeń, nie definiuje się dla niego odmiany, gdy ka dy z jego składników ma zdefiniowaną odmianę, poniewa samo dzielnie tak e stanowi wyraz w słowniku. Wyraz taki definiujemy poprzez wprowadzenie pewnych ograniczeń dla jego składników, natomiast w zdaniu jest identyfikowany za po mocą określonych własności. Jest on traktowany jako osobne znaczenie dla ka dego z jego wyrazów składowych.

Frazą natomiast nazywamy specyficzny rodzaj zło enia wyrazów, w którym mo e wy stąpić wyraz zastępczy, powodujący, e dana fraza mo e występować w tekście w wielu postaciach.

Wyraz zastępczy jest to wyraz specjalnego typu zdefiniowany w słowniku znaczeń na potrzeby fraz, jest on u ywany do ich definiowania. Wyrazy zastępcze nie pojawiają się w tekstach, a u ycie takiego wyrazu w definicji frazy określa, e jeśli dana fraza pojawi się w tekście, to zamiast wyrazu zastępczego pojawi się w niej dowolny wyraz spełniający warunki określone przy definicji frazy7).

Wyraz zastępczy mo na poznać po tym, e jest ujęty w nawiasy o.W yrazy zastępcze nie są widoczne poza słownikiem znaczeń. Dzięki wyrazom zastępczym mo emy definio wać pewne własności jakiegoś wyrazu we frazie bez precyzowania dokładnie, o jaki wyraz nam chodzi (np. mo emy określić, e zamiast tego wyrazu mo e wystąpić rzeczownik w do pełniaczu). Przykładem mo e być wyra enie Zbić <kogoś> z pantałyku zdefiniowane w słow niku, natomiast w analizowanym tekście pojawi się odpowiadające mu wyra enie Zbiłem Jasia z pantałyku.

7) Porównaj podrozdział 8.2.4.1.

107

Page 8: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Algorytm wyszukiwania związków wyrazowych jest uruchamiany, zanim zostaną urucho mione inne algorytmy rozpoznawania znaczeń. Algorytm dla ka dego słowa występującego w związku wyszukuje jego odpowiednik w zdaniu (lub kilka odpowiedników, jeśli jest kilka takich samych wyrazów w zdaniu). Jeśli choć jeden wyraz nie ma odpowiednika w zdaniu, to algorytm kończy się z wynikiem negatywnym. Następnie na podstawie uło enia wyrazów w związku i zdaniu oraz tego, które formy danego wyrazu są dopuszczalne w tym związku, wybierany jest dla ka dego wyrazu ze związku jeden odpowiednik w zdaniu. Otrzymujemy w zdaniu związek, który jest następnie poddawany analizie, czy pasuje do warunków określo nych dla danego zło enia wyrazów w słowniku znaczeń. Warunki te określają dopuszczalne formy dla ka dego wyrazu, czy jest wymagana kolejność wyrazów, czy nie, oraz czy wyrazy z danego związku muszą się znajdować obok siebie. Dany związek mo e zostać odrzucony lub, zidentyfikowany. Przykładowo, jeśli w słowniku mamy zdefiniowany związek wyrazowy8)panna młoda i mamy zdefiniowane w słowniku znaczeń, e ten związek jest identyfikowany, gdy wyrazy go tworzące występują obok siebie w określonej kolejności, a w ka dym innym przypadku jest odrzucany, to jeśli w zdaniu pojawia się ...panna młoda..., to ten wyraz zło ony jest identyfiko wany, natomiast gdyby w zdaniu wystąpił ciąg ...młoda panna..., to byłby on odrzucony.

6.2. Rozpoznawanie za pomocą form wyrazu i odmianyForma wyrazu jest to postać, pod jaką dany wyraz mo e wystąpić w zdaniu. Natomiast odmiana to określenie formy wyrazu nie bezpośrednio, ale przez formę fleksyjną, jaką ona reprezentuje (np. zamiast powiedzieć, e wymagana jest forma pantałyku, mo emy powie dzieć, e wymagany jest dopełniacz liczby pojedynczej). Odmianą musimy się posługiwać, gdy nie wiemy, jaki to będzie wyraz (przy wyrazach zastępczych9).

W słowniku mo e zostać określone, które formy są mo liwe, niedozwolone lub iden tyfikujące dla danego znaczenia. Jeśli w zdaniu akurat występuje forma niedozwolona (od rzucająca), to dane znaczenie jest odrzucane, jeśli natomiast trafi na formę identyfikującą, to identyfikuje to znaczenie. Jeśli dla danego znaczenia są określone formy mo liwe, a w zda niu występuje forma nie nale ąca do tej grupy, to dane znaczenie jest odrzucane.

Podobne zale ności mo na określić dla odmiany wyrazu.Ta metoda nie jest związana z rozpoznawaniem kontekstowym, ale jest prostsza do

stosowania, pewniejsza i dlatego jest wykonywana w pierwszej kolejności.

6.3. Rozpoznawanie z u yciem powiązań między wyrazamiPo wykonania algorytmu poszukiwania wyrazów nadrzędnych10), dla wyrazów z analizo wanego tekstu są przydzielone wyrazy nadrzędne i podrzędne. W słowniku dla danego zna czenia mogą być określone wyrazy nadrzędne i podrzędne odrzucające, mo liwe i identyfi kujące. Porównując je z wyrazami nadrzędnymi i podrzędnymi dla danego wyrazu w zdaniu, mo emy odrzucić, zidentyfikować lub pozostawić dane znaczenie. Przykładowo w zdaniu: Mam zielony beret zidentyfikowane zostanie dla wyrazu zielony to znaczenie, dla którego jest określony wyraz nadrzędny identyfikujący jako beret, a odrzucone to, dla którego jest określony wyraz nadrzędny odrzucający jako beret.

81 Porównaj podrozdział 8.2.4.1.9) Porównaj podrozdział 6.1.

10) Porównaj rozdział 5.

108

Page 9: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

6.4. Rozpoznawanie z u yciem własności wyrazów

Mo emy tak e określić w słowniku dla danego znaczenia własności odrzucające, identyfi kujące i wymagane wyrazów nadrzędnych i podrzędnych. Porównując te własności z wła snościami, jakie w danym zdaniu posiadają wyrazy nadrzędne i podrzędne, mo emy odrzu cić, zidentyfikować lub pozostawić dane znaczenie.

Własności są to cechy określone w słowniku fleksyjnym"), jakie posiada dane znacze nie, cechy te są przypisywane wyrazowi w zdaniu, jeśli dla danego wyrazu zostanie ziden tyfikowane dane znaczenie. Ka da własność składa się z nazwy własności i wartości (mo e ich być dowolna ilość). Własności mogą być dziedziczone* 12), tzn. mo emy określić wła sności dla wyrazu człowiek, a następnie definiując np. wyraz ołnierz, mo emy wskazać, e dziedziczy on wszystkie własności od wyrazu człowiek (oraz mo emy doło yć własności specyficzne dla wyrazu ołnierz) bez specyfikowania, o jakie własności nam chodzi. Struk tura własności przypomina strukturę sieci semantycznych.

Jeśli chcemy, aby dane znaczenie zostało zidentyfikowane, gdy wyrazem nadrzęd nym jest wyraz określający człowieka, to wystarczy podać, e własnością identyfikują cą wyrazu nadrzędnego jest jest = człowiekiem, i wtedy niezale nie od tego, które z okre śleń człowieka zostanie u yte (np. ołnierz), znaczenie zostanie zidentyfikowane właściwie.

Poniewa własności są związane ze znaczeniem, to aby ich u yć, dany wyraz, po siadający te własności musi mieć zidentyfikowane znaczenie. Czyli, aby algorytm roz poznający znaczenia mógł dla danego wyrazu u yć cech odnoszących się do własności wyrazu nadrzędnego, to wyraz nadrzędny musi mieć rozpoznane znaczenie. Natomiast przy metodzie odwołującej się bezpośrednio do wyrazów nie ma znaczenia to, czy dla wyrazu nadrzędnego zostało zidentyfikowane znaczenie. Przewagą metody u ywającej własności jest to, e nie odwołujemy się do konkretnego wyrazu, tylko do pewnego zbioru wyrazów, który mo e zostać powiększony lub pomniejszony (bez ingerencji w de finicję badanego wyrazu) poprzez przypisanie lub zabranie tej własności jakiemuś wyrazowi.

6.5. Rozpoznawanie za pomocą innych wyrazów występujących w zdaniu i akapicie

Ta metoda polega na określeniu wyrazów identyfikujących i odrzucających, które mogą zidentyfikować lub odrzucić dane znaczenie w ramach zdania lub akapitu. Metoda ta bazu je na tym, e jeśli w danym tekście pojawi się wyraz związany z danym znaczeniem, to w tekście pojawią się wyrazy związane tematycznie z danym wyrazem, lepszą wersją ta kiego rozpoznawania jest metoda kontekstowego rozpoznawania znaczeń13), gdy tutaj o zi dentyfikowaniu lub odrzuceniu decyduje wystąpienie pojedynczego wyrazu, natomiast w tamtej metodzie temat całego akapitu.

11 > Porównaj podrozdział 3.1.12) Porównaj podrozdział 8.2.6.131 Porównaj rozdział 6 .

109

Page 10: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

7. Rozpoznawanie kontekstowe znaczenia wyrazuZaimplementowany w program jest tak e algorytm wyboru najlepszego znaczenia na pod stawie akapitu. Wykorzystywane jest tu spostrze enie, e wyrazy występujące w jednym akapicie najczęściej są ze sobą powiązane tematycznie.

W słowniku dla ka dego znaczenia powinny być określone grupy tematyczne, do ja kich nale y dane znaczenie. Powinno to być zrobione dla wszystkich wyrazów, nie tylko dla wyrazów wieloznacznych. Algorytm ten oblicza dla ka dego znaczenia badanego wy razu współczynnik pewności i współczynnik prawdopodobieństwa.

Algorytm działa w ten sposób, e ze wszystkich wyrazów występujących w danym akapicie pobiera grupy tematyczne i dla ka dej grupy tematycznej oblicza ilość jej wystą pień. Do obliczenia współczynnika pewności brane są pod uwagę tylko te wyrazy w akapi cie, dla których ju jednoznacznie zidentyfikowano znaczenie, natomiast do obliczenia współ czynnika prawdopodobieństwa brane są wszystkie wyrazy ze wszystkimi znaczeniami, jakie jeszcze pozostały, z tym e punkty za wystąpienie grupy dzieli się przez ilość znaczeń danego wyrazu. Jeśli jakieś znaczenie badanego wyrazu ma zdecydowanie więcej punktów ni pozostałe, to ono jest identyfikowane. Jeśli nie ma takiego znaczenia, ale najlepsze znaczenie zidentyfikowane za pomocą współczynnika pewności i współczynnika prawdo podobieństwa jest takie samo, to sprawdzane są inne wystąpienia tego wyrazu w akapicie. Je eli jest jeszcze jakieś wystąpienie tego wyrazu i wszystkie wystąpienia posiadają to zna czenie, które uzyskało najwięcej punktów, to jest ono identyfikowane.

8. Opis struktury słownika znaczeńW słowniku znaczeń zapisujemy tylko te wyrazy, których nie ma w słowniku fleksyjnym, lub te, które mogą mieć kilka znaczeń. Musimy zdefiniować tutaj tak e wszystkie wyrazy zło one i frazy. Słownik znaczeń (i rozpoznawanie znaczeń) mo emy zdefiniować na wiele sposobów, które daje nam ten program. Sposób definicji słownika znaczeń określa metodę rozpoznawania znaczeń zastosowaną w tekście. To, którą metodę nale y wybrać, zale y od u ytkownika i specyfiki tekstów, które chce on interpretować.

Struktura słownika jest ściśle powiązana z algorytmami u ytymi do rozpoznawania znaczeń.

8.1. Podstawowe pojęcia związane ze słownikiemSłownik ma budowę blokową, tzn. składa się z odrębnych bloków, w skład których wcho dzą inne bloki oraz zmienne. Bloki posiadają nagłówek bloku i zakończenie. Nagłówek bloku to nazwa bloku ujęta w nawiasy kwadratowe []. Natomiast koniec bloku to nazwa bloku ujęta w nawiasy kwadratowe i poprzedzona słowem KONIEC.

Zmienne podaje się w ten sposób, e podaje się jej nazwę (wielkość liter nie jest rozró niana), a następnie znak równa się i wartości danej zmiennej oddzielone średnikami. Wiele wartości danej zmiennej mo na podać równie , podając nazwę zmiennej dla ka dej wartości osobno w osobnej linii. Niektóre zmienne wymagają, aby dla nich była dokładnie jedna war tość (np. zmienna CzęśćMowy) i wtedy mo emy podać tylko jedną wartość dla zmiennej.

W blokach mogą występować tak e operacje. Ró nią się one tym od zmiennej, e składają się z dwóch części: atrybutu i jego wartości. W blokach wypisuje się je w ten sposób, e podaje się nazwę operacji, a następnie w nawiasach (), po przecinku najpierw

110

Page 11: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

atrybut, a później jego wartość. Jeśli w nawiasie będą więcej ni dwa argumenty, to pozo stałe argumenty będą traktowane jako inne wartości tego samego atrybutu. Operacje wyko rzystywane są na przykład przy własnościach.

8.2. Charakterystyka bloków słownika8.2.1. Blok W YRAZNajbardziej zewnętrznym blokiem jest blok WYRAZ. W bloku tym występują zmienne: Wyraz oraz CzęśćMowy. Zmienna Wyraz określa formy podstawowe wyrazu, który definiujemy w danym bloku, zmiennej tej mo e zostać przypisanych kilka wartości (wtedy pierwsza jest wartością identyfikującą dany wyraz), jeśli kilka wyrazów z słownika fleksyjnego chcemy połączyć tu w jeden wyraz (przykładowo wyraz on ma podane wartości w polu on, ona, ono, oni, one, gdy w słowniku fleksyjnym są to osobne wyrazy). Natomiast CzęśćMowy określa, jaką część mowy reprezentuje dany wyraz. Ka dy wyraz lub zło enie wyrazów zdefiniowany w słowniku musi znajdować się w osobnym bloku WYRAZ.Przykład bloku WYRAZ.[WYRAZ]

Wyraz = zobaczyć CzęśćMowy = czasownik [ODMIANA]

[KONIEC ODMIANA][ZNACZENIE]

[KONIEC ZNACZENIE][ZNACZENIE]

[KONIEC ZNACZENIE]

[KONIEC WYRAZ]

8.1.2. Blok ODM IANABlok ten wchodzi w skład bloku WYRAZ i definiuje odmianę dla ka dego wyrazu. Dla ka dej części mowy ten blok wygląda inaczej. Jeśli korzystamy z fleksyjnego słownika na serwerze, ten blok mo e być pominięty lub mo e słu yć jako uzupełnienie tamtego słowni ka, dlatego te dokładniejszy opis tego bloku zostanie pominięty.

8.1.3. Blok ZN ACZEN IE

Blok ZNACZENIE opisuje pojedyncze znaczenie danego wyrazu. Znajduje się wewnątrz blo ku WYRAZ i mo e wystąpić dowolna liczba tych bloków, bo ka dy wyraz w słowniku mo e mieć jedno lub więcej znaczeń. Jeśli znaczenie nie zostanie podane dla danego wyrazu, to przy wczytywaniu słownika przez program jest tworzone dla tego wyrazu znaczenie domyśl ne. Działanie programu polega na wybraniu spośród wszystkich znaczeń pasujących do danej formy zdaniowej jednego najbardziej pasującego w danym kontekście. Blok ZNACZENIE składa się z trzech bloków opisujących dane znaczenie: KONTEKST, INFO, WŁASNOŚCI oraz posiada jedną zmienną: NazwaZnaczenia, określająca nazwę danego znaczenia.

111

Page 12: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Przykład bloku ZNACZENIE-.[ZNACZENIE]

NazwaZnaczenia = budowla [KONTEKST]

[KONIEC KONTEKST][INFO]

[KONIEC INFO][WŁASNOŚCI]

[KONIEC WŁASNOŚCI][KONIEC ZNACZENIE]

8.1.4. Blok KONTEKSTBlok KONTEKST wchodzi w skład boku ZNACZENIE i mo e istnieć tylko jeden taki blok w jednym bloku ZNACZENIE. Blok KONTEKST zawiera zbiór własności danego znacze nia, które pozwalają zaakceptować lub odrzucić dane znaczenie w pewnym kontekście. W bloku tym przede wszystkim są określone parametry do rozpoznawania danego znaczenia z u yciem wyrazów nadrzędnych i podrzędnych.

Cechy charakteryzujące dane znaczenie mogą odnosić się do:

1) cech samej formy zdaniowej, dla której identyfikujemy dane znaczenie; własności te mogą dotyczyć tego, jaka forma danego wyrazu jest dopuszczalna dla danego znaczenia;

2 ) cech wyrazów nadrzędnych i podrzędnych, czyli tego, jakie to są wyrazy, jakie posia dają własności;

3) wszystkich wyrazów w zdaniu, w którym jest badany wyraz;4) wszystkich wyrazów, jakie występują w akapicie, w którym występuje badany wyraz;5) ustawienia, e dane znaczenie jest znaczeniem domyślnym.

W pierwszej grupie mamy cechy dotyczące formy i odmiany. Forma określa dokładną postać danego wyrazu w zdaniu (np. zamka jest formą wyrazu zamek), natomiast odmiana określa, co reprezentuje ta forma (np. mianownik liczby pojedynczej). Jeśli chcemy okre ślić, e dana forma wyrazu zidentyfikuje nam to znaczenie, to przypisujemy ją zmiennej Formaldentyfikująca; analogicznie - jeśli dana forma nigdy nie będzie występowała dla danego znaczenia, to mo emy ją przypisać zmiennej FormaOdrzucająca, natomiast jeśli formy danego wyrazu dla danego znaczenia są ograniczone do pewnego zbioru (i spoza niego formy na pewno nie będą związane z danym znaczeniem), to mo emy je przypisać zmiennej FormaMo liwa.

Analogiczne zmienne, zachowujące się w podobny sposób, mamy dla:- Odmiany Identyfikującej,- OdmianyOdrzucającej,- Odmiany Mo liwej.

112

Page 13: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

W drugiej grupie mamy zmienne dotyczące wyrazów nadrzędnych i podrzędnych. Je śli chcemy określić, jaki wyraz nadrzędny spowoduje zidentyfikowanie danego znaczenia, to przypisujemy go zmiennej

WyrazNadrzędnyldentyfikujący.

Podobnie, jeśli jakiś wyraz nadrzędny nie pasuje do danego znaczenia wyrazu, to przypisu jemy go zmiennej

WyrazNadrzędnyOdrzucający,

a jeśli dane znaczenie wyrazu mo e występować tylko razem z wyrazami, które mo emy wyliczyć, to mo emy je wszystkie przypisać zmiennej

WyrazNadrzędnyMo l iwy.

Podobnie mo emy uczynić ze zmiennymi dotyczącymi wyrazów podrzędnych, takimi jak:

- WyrazPodrzędnyldentyfikujący,

- WyrazPodrzędnyOdrzucający,- WyrazPodrzędnyMo liwy.

W drugiej grupie znaj dują się tak e operacje dotyczące własności wyrazów. Jeśli chcemy określić zale ność jakiegoś znaczenia nie od konkretnego wyrazu, ale od wyrazu posiadają cego jakąś własność, to mo emy u yć jednej z tych operacji. Operacje w odró nieniu od zmiennych składają się z dwóch części: atrybutu i jego wartości. Własności są podawane w bloku WŁASNOŚCI.

Operacje:- Własność WyrazuNadrzędnegoIdentyfikująca,

- Własność WyrazuPodrzędnegoIdentyfikująca,

- Własność WyrazuNadrzędnegoOdrzucająca,

- Własność WyrazuPodrzędnegoOdrzucająca,

mogą być u ywane analogicznie jak zmienne opisane powy ej.Natomiast operacje:

- Własność WyrazuNadrzędnego Wymagana,

- Własność WyrazuPodrzędnego Wymagana,

określają, jakie własności (atrybut plus wartość) muszą posiadać wyrazy nadrzędne lub podrzędne, aby dane znaczenie było mo liwe.

Trzecia grupa zawiera zmienne dotyczące identyfikacji na poziomie zdania za pomocą innych wyrazów. Jeśli chcemy, aby wystąpienie jakiegoś wyrazu w zdaniu identyfikowało jakieś znaczenie, to musimy je przypisać zmiennej

Wyrazldentyfikujący,

analogicznie jeśli chcemy odrzucić znaczenie, jeśli w danym zdaniu wystąpi jakiś wyraz, to musimy go przypisać zmiennej

WyrazOdrzucający.

113

Page 14: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Podobnie zachowują się zmienne z czwartej grupy:- WyrazIdentyfikującyWAkapicie,- WyrazOdrzucającyWAkapicie,

tylko e dotyczą identyfikacji za pomocą wyrazów znajdujących się w akapicie.Jeśli chcemy, eby dane znaczenie było znaczeniem domyślnym (tzn. aby było identy

fikowane, jeśli po zastosowaniu innych metod identyfikacji pozostało kilka znaczeń dla danego wyrazu - grupa piąta), to musimy zmienną DomyślneZnaczenie ustawić na TAK. Mo na to wykorzystać, je eli dany wyraz ma kilka znaczeń, ale jedno z nich występuje w znaczącej liczbie przypadków.Przykład bloku KONTEKST.[KONTEKST]

WyrazNadrzędnyldentyfikujący = zwiedzać WyrazNadrzędnyOdrzucający = podnieść WyrazPodrzędnyldentyfikujący = średniowieczny WyrazIdentyfikującyWAkapicie = zwiedzać Wyrazldentyfikujący = zwiedzaćWłasnośćWyrazuNadrzędnegoIdentyfikująca = (wykonują, zwiedzanie)

[KONIEC KONTEKST]

8.2.4.I. Blok KONTEKST dla wyrazów zło onych i frazW bloku KONTEKST dla wyrazów zło onych i fraz mogą występować wszystkie elementy, jakie są w bloku KONTEKST dla zwykłych wyrazów. Dodatkowo mogą wystąpić tu zmien ne dotyczące kolejności i sposobu występowania poszczególnych składników oraz opisy wyrazów wchodzących w skład wyrazów zło onych.

Jeśli chcemy wymusić, aby dany wyraz zło ony był identyfikowany zawsze, gdy wy razy są uło one kolejno, nale y ustawić flagę

IdentyfikacjaZawszeGdyKolejnona TAK. Jeśli ta flaga nie jest ustawiona, to brane są pod uwagę inne własności wyrazu w celu jego identyfikacji.

Natomiast jeśli chcemy, aby dany wyraz był identyfikowany zawsze, gdy wyrazy skła dające się na niego zło one są obok siebie, to nale y ustawić flagę

IdentyfikacjaZawszeGdyObokSiebiena TAK. Jeśli uwa amy, e dany wyraz zło ony ma sens, tylko wówczas, gdy wyrazy są uło o ne kolejno (np. przy nazwach takich, jak Polskie Koleje Państwowe), to ustawiamy flagę

MusząZachowaćKolejnośćna TAK. Natomiast jeśli uwa amy, e poszczególne wyrazy muszą występować obok siebie w zdaniu (wykorzystywane np. przy nazwach), to ustawiamy flagę

MusząByćObokSiebie.Istnieje jeszcze flaga IdentyfikacjaZawsze,

która oznacza, e identyfikujemy dane zło enie wyrazów zawsze, gdy tylko mo na je zidentyfi kować (tzn. istnieją wszystkie składowe i nie zachodzi sprzeczność z adną z ustawionych flag).

114

Page 15: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Poni ej przedstawiono przykład bloku KONTEKST dla dla frazy: obiecywać <komus> gruszki na wierzbie.[KONTEKST]

IdentyfikacjaZawszeGdyKolejno = TAK IdentyfikacjaZawszeGdyObokSiebie = TAK MusząByćObokSiebie = NIE MusząZachowaćKolejność = NIE [KONTEKST]

Wyraz = gruszkaFormaMo liwa = gruszki, gruszek

[KONIEC KONTEKST][KONTEKST]

Wyraz = wierzba FormaMo liwa = wierzbie

[KONIEC KONTEKST][KONTEKST]

Wyraz = <ktoś>OdmianaMo liwa = Celownik Mo eByćNieobecny = TAK

[KONIEC KONTEKST][KONIEC KONTEKST]

8.2.4.2. Blok KONTEKST wyrazu składowego w bloku KONTEKST dla wyrazów zło onych i fraz

W bloku tym mamy zmienną Wyraz, która określa, który z wyrazów składowych jest tu opisywany. A poza tym mo emy u ywać zmiennych zawartych w bloku KONTEKST dla normalnego znaczenia. Najczęściej u ywana jest zmienna FormaMo liwa do określenia, która z form wyrazu mo e występować w danym związku. Przykład bloków dla wyrazu składowego mo na zaobserwować w przykładzie podanym w podrozdziale 8.2.4.1.

8.2.5. Blok INFOBlok ten znajduje się w bloku ZNACZENIE i zawiera informacje potrzebne do identyfikacji danego znaczenia, jak równie informacje, które mogą zostać u yte do identyfikacji innych wyrazów za pomocą danego. Blok ten powinien być definiowany, jeśli chcemy u yć kon tekstowego rozpoznawania znaczeń14*. W bloku tym mo e wystąpić zmienna GrupyTema- tyczne, zawierająca informacje, do jakich grup tematycznych nale y dane znaczenie. Na podstawie grup tematycznych wszystkich wyrazów w akapicie mo na określić, do jakiego tematu zalicza się cały akapit (mo e to być kilka tematów), a następnie na tej podstawie jest dla danego wyrazu identyfikowane to znaczenie, którego grupy tematyczne najlepiej pasują do grup tematycznych danego akapitu. Jeśli jakaś grupa tematyczna jest szczególnie wa na dla identyfikowanego znaczenia, to mo na ją wypisać dwa razy, wtedy przy oblicza niu grupy tematycznej akapitu jest punktowana podwójnie.

I4) Porównaj rozdział 7.

115

Page 16: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Przykład bloku INFO:[INFO]

Grupy Tematyczne = budowle [KONIEC INFO]

8.2.6. Blok WŁASNOŚCIBlok ten znajduje się w bloku ZNACZENIE i zawiera własności, jakie posiada dane znacze nie. Własność to atrybut razem z wartością. W bloku tym atrybuty traktowane są jak zmienne, ich wartości jak wartości tych zmiennych. Przykładowo, aby ustawić danemu znaczeniu atrybut kolor na wartość zielony, piszemy

kolor = zielony.Dany atrybut mo e być definiowany tylko dla niektórych znaczeń, dla innych znaczeń

mo e być pominięty. Mo emy zadeklarować dowolne własności o dowolnych nazwach. Oprócz tego w bloku tym dostępnych jest kilka operacji wykonujących pewne operacje na własnościach.

Własności znaczenia powinniśmy definiować, jeśli zdecydowaliśmy się u ywać metody po średniej 15) rozpoznawania znaczeń za pomocą wyrazów powiązanych z danym w zdaniu, z tym e definiujemy go nie tylko dla wyrazów niejednoznacznych (czyli tych, które będziemy rozpozna wać), ale dla wszystkich wyrazów, które potencjalnie mogą być u yte do rozpoznawania znaczeń.

Myślę, e ta metoda mo e przynieść dobre efekty, jeśli nadawanie własności wyrazom będzie się odbywało w sposób przemyślany i własności zostaną zdefiniowane dla większo ści istotnych wyrazów w słowniku znaczeń.

Pierwszą z operacji występujących w tym bloku jest operacja PobierzWłasnościOd, która powoduje pobranie wszystkich własności od znaczenia określonego przez argumenty tej operacji (pierwszy argument to wyraz, od którego mamy pobrać własności, a drugi to nazwa znaczenia dla danego wyrazu, od którego mamy pobrać własności; jeśli nie podamy drugiego argumentu, to operacja pobierze własności od wszystkich znaczeń podanych dla wyrazu o identyfikatorze określonym przez pierwszy argument).

Drugą operacją jest Usuń, która powoduje usunięcie pewnych wartości dla danej wła sności. Pierwszym argumentem jest nazwa własności, z której usuwamy wartości, a następ nie podane są wartości, które są usuwane. Jeśli jest podana tylko nazwa własności, to usu wana jest cała własność wraz ze wszystkimi wartościami.

Trzecią operacją jest operacja Dodaj, która zachowuje się analogicznie jak zwykłe przypisanie wartości do nazwy własności.

Kolejną operacją jest operacja Ustaw, która powoduje dla danej własności wykasowa nie wszystkich jej dotychczasowych wartości i ustawienie nowych podanych jak kolejne argumenty tej operacji.

Ostatnią operacją jest operacja Zmień, która powoduje zmianę jednej wartości dla da nej własności na inną. Jako pierwszy argument podaje się nazwę własności, na której chce my wykonać operację, następnie podajemy, jaką wartość chcemy zamienić, ostatnim argu mentem jest nowa wartość danej własności.

W bloku WŁASNOŚCI, w odró nieniu od innych bloków, wa na jest kolejność zapisa nia operacji. Operacje na własnościach są wykonywane w takiej kolejności w jakiej zosta ną zapisane.

I5> Porównaj podrozdział 6.4

116

Page 17: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Operacje takie, jak Usuń, Zmień, Ustaw są przydatne, jeśli chcemy dziedziczyć wła sności z jakiegoś znaczenia, ale nie wszystkie (wtedy niektóre z nich mo emy usunąć).

Przykład bloku WŁASNOŚCI (np. własności dla znaczenia ołnierz wyrazu admirał): [WŁASNOŚCI]

PobierzWłasnościOd = ołnierz Usuń(musi, słuchać)

Jest = dowódcą [KONIEC WŁASNOŚCI]

9. Podsumowanie

9.1. Zastosowania programuProgram ten mo e zostać wykorzystany w systemach przetwarzania języka naturalnego w ró nych celach. Jednym z zastosowań tego programu po niewielkiej modyfikacji jest automa tyczne wstawianie w tekście linków do stron opisujących jakieś obiekty, rzeczy. Przykłado wo, mamy tekst HTML będący częścią przewodnika po Krakowie, w którym pojawia się wyraz Wisła. Dzięki temu programowi i odpowiednio skonstruowanemu słownikowi zna czeń mo emy określić, czy chodzi nam o rzekę Wisłę, czy o klub sportowy Wisła, czy te mo e o jakąś restaurację o nazwie Wisła. Po zidentyfikowaniu odpowiedniego znaczenia do danego tekstu wkładamy link do strony opisującej obiekt, który został zidentyfikowany (dokładniej zostało zidentyfikowane znaczenie wyrazu Wisła, które określa dany obiekt).

Program ten mo na tak e wykorzystać jako element systemu tłumaczącego teksty z języka polskiego na angielski. Niektóre wyrazy w języku polskim mają kilka swoich odpowiedników w języku angielskim w zale ności od tego, co oznaczają. Dzięki temu programowi (i oczywiście odpowiedniemu słownikowi znaczeń) mo emy wybrać zna czenie (a więc i odpowiednią formę angielską), która najlepiej pasuje do danego kontek stu. Przykładowo dla polskiego wyrazu zamek w zale ności od znaczenia mo emy uzy skać angielski wyraz: zip, castle, lock.

Innym zastosowaniem tego programu mo e być u ycie go w wyszukiwarce interneto wej, w której oprócz słowa kluczowego mo emy określić jego znaczenie, które nas intere suje i na podstawie słownika znaczeń jesteśmy w stanie sprawdzić, czy znalezione na stro nie internetowej słowo ma takie znaczenie, o jakie nam chodzi, i w ten sposób mo emy ograniczyć liczbę znalezionych stron do tych, które nam są potrzebne.

9.2. Ograniczenia programu

Program posiada wiele ograniczeń, które wynikają z wielkości i zło oności problemu, ja kim jest przetwarzanie języka naturalnego, a rozpoznawanie znaczeń w szczególności. Pro gramowi mogą sprawić trudność sytuacje, gdy dana forma w zdaniu reprezentuje dwa ró ne wyrazy, bedące ró nymi częściami mowy (np. piec), gdy wtedy pojawiają się powa ne problemy z określeniem zale ności w zdaniu.

Kolejne ograniczenia są związane z tworzeniem zale ności pomiędzy wyrazami w zda niu. Algorytmy u yte w tym programie są dostosowane do zdań najprostszych: pojedyn czych w stronie czynnej.

117

Page 18: KONTEKSTOWE ROZSTRZYGANIE WIELOZNACZNOŚCI W … · 2020. 3. 4. · Słowa kluczowe: przetwarzanie języka naturalnego, rozpoznawanie znaczeń, wieloznacz ność, dyzambiguacja RESOLYING

Dla innych zdań (na przykład zdań zło onych czy w stronie biernej) są stosowane te same algorytmy, co mo e spowodować, e pewne zale ności nie zostaną wykryte lub zosta ną źle określone.

9.3. Mo liwe kierunki rozwojuJednym z ulepszeń, które mo na zastosować w programie, jest modyfikacja tego, co zosta ło opisane w podrozdziale poprzednim jako ograniczenia programu. Stworzenie programu analizującego poprawnie zdania w stronie biernej czy zdania zło one jest trudne do zreali zowania, ale mogłoby znacznie wzbogacić i zwiększyć mo liwości tego programu.

Innym kierunkiem rozwoju mo e być napisanie algorytmów specjalnych dla niektó rych wyrazów w naszym języku (na razie algorytmy są stworzone dla poszczególnych czę ści mowy), bo niektóre wyrazy w języku polskim zachowują się trochę inaczej ni inne wyrazy reprezentujące tę samą część mowy. Do takich wyrazów mo na zaliczyć być, zo stać itp. Mo na tak e przejrzeć i udoskonalić algorytmy wyszukujące wyrazy nadrzędne.

W miarę rozwoju słownika fleksyjnego mo na pójść tak e w kierunku głębszej z nim współpracy i gdy do tego słownika zostaną wprowadzone wyrazy wielosegmentowe (zło one), mo na próbować stworzyć algorytmy rozpoznające te wyrazy zdefiniowane w słow niku fleksyjnym bez potrzeby ich definiowania w słowniku znaczeń.

Literatura[1] Lyons J.: Wstęp do językoznawstwa. PWN 1975[2] Lubaszewski W.: O slownikch komputerowych i przetwarzaniu tekstu. Gdańsk, PTSK 2001[3] Lubaszewski W.: Gramatyka leksykalna w maszynowym słowniku fleksyjnym języka polskie

go. Kraków, IJP PAN 1997[4] Gajęcki M.: Serwer leksykalny - narzędzie wspomagające przetwarzanie języka naturalnego

(raport z 25.01.2000)[5] Miller G.A., Beckwith R., Fellbaum C., Gross D., Miller K.: Introduction to WordNet: An On

line Lexical Database (dostępne pod adresem www.cogsci.princeton.edu)

Program działający według zasad opisanych w tej pracy mo na obejrzeć: http://winnie.ics.agh.edu.pl/ls