7
1 Seznámení s počítačovou lingvistikou Závěrečný úkol do předmětu KPI11 Lucie Soukupová, UČO 40264

Kpi zaverecny ukol_40264

Embed Size (px)

Citation preview

Page 1: Kpi zaverecny ukol_40264

1

Seznámení s počítačovou lingvistikouZávěrečný úkol do předmětu KPI11

Lucie Soukupová, UČO 40264

Page 2: Kpi zaverecny ukol_40264

2

Anotace 1

Tento text si klade za cíl poskytnout základní informace o vědním oboru nazývaném počítačová

lingvistika. Seznamuje čtenáře s jejím zařazením mezí ostatní vědní disciplíny a shrnuje ve stručnosti

nejzajímavější praktické úkoly, kterými se tento obor zabývá.

Klíčová slova: počítačová lingvistika, matematická lingvistika, zpracování přirozeného jazyka,

seznámení s počítačovou lingvistikou, základy počítačové lingvistiky, úkoly počítačové lingvistiky,

čím se zabývá počítačová lingvistika

Page 3: Kpi zaverecny ukol_40264

3

Argumentace 2

Obor Čeština se specializací počítačová lingvistika, který druhým rokem studuji, patří mezi nejmladší

obory; v nabídce Filozofické fakulty Masarykovy univerzity se objevil poprvé roku 2010. Jeho název

napovídá, že jde o spojení přirozeného jazyka (v tomto případě českého) a informačních technologií,

což je pro mnoho lidí kombinace poměrně neobvyklá a hůře pochopitelná. Z těchto důvodů často ve

svém okolí narážím na nedostatek informací o tom, co počítačová lingvistika vlastně je a jaké jsou její

cíle. V rámci všeobecné osvěty jsem se proto rozhodla napsat pojednání na toto základní téma.

Page 4: Kpi zaverecny ukol_40264

4

Co je počítačová lingvistika 3

Počítačová lingvistika je vědní disciplínou na pomezí jazykovědy a informatiky. Fakt, že se jedná

o disciplínu pomezní, nelze vykládat tak, že je to disciplína okrajová nebo v nějakém smyslu méně

důležitá než její “mateřské” disciplíny; právě naopak, v dnešní době již mají pomezní vědní obory v

tomto smyslu mnohdy větší význam než ty původní. Stejně tak v případě počítačové lingvistiky lze

hovořit o sice relativně mladé, avšak velmi nadějné disciplíně, která je zaměřená převážně na řešení

praktických problémů namísto teoretických bádání, a protože existuje teprve pár desítek let, nabízí

ještě mnohé velmi zajímavé výzvy těm, kdo se jí budou chtít věnovat.

Chceme-li co nejlépe objasnit pojem počítačová lingvistika, budeme potřebovat nejdříve vyložit

význam několika dalších vědních oblastí, ze kterých počítačová lingvistika vychází, případně s nimi

úzce souvisí. Tím získáme výchozí materiál, který použijeme k sestavení celkového obrázku, podobně

jako když se z jednotlivých dílků skládá puzzle.

Lingvistika (z latinského ling ua – jazyk) neboli česky jazykověda se zabývá studiem přirozených

jazyků, jejich tříděním a stavbou v nejširším smyslu. Přirozenými jazyky jsou míněny komunikační

systémy založené na slovech a vzniklé postupným, přirozeným způsobem, které za účelem běžného

dorozumění používají prakticky všechna lidská společenství na světě; rozlišení je zde nutné proto,

aby nedošlo k záměně za jiné typy jazyků, například programovací.

Matematická lingvistika je pomezní obor, který využívá ke zkoumání jazyka nejrůznějších

matematických metod. Tradičně se vnímá jako obor zastřešující a dělí se dále na tři oblasti:

lingvistiku kvantitativní (statistickou), algebraickou (neboli teorii matematických modelů) a

konečně počítačovou. První dvě jsou zaměřené teoreticky, třetí naopak převážně prakticky, přičemž

se navzájem vhodně využívají a obohacují: počítačová lingvistika jednak využívá poznatků zmíněných

teoretických disciplín, jednak jim zpětně nabízí ke zkoumání problémy, na které v praxi narazí.

Specifickou oblastí počítačové lingvistiky je pak lingvistika korpusová, která se zabývá tvorbou a

využitím rozsáhlých elektronických sbírek textů, takzvaných jazykových korpusů.

Zpracování přirozeného jazyka (anglicky N a tura l La ng ua g e Processing, NLP) je prakticky synonymem

pro počítačovou lingvistiku; vzhledem k tomu, že už víme, co je přirozený jazyk, můžeme jednoduše

říct, že jde o zpracování přirozeného jazyka pomocí výpočetní techniky a řešení souvisejících

praktických úkolů.

Umělá inteligence je jedním z mnoha podoborů informatiky a jejím cílem je vytváření systémů,

které jsou schopny napodobit inteligentní chování a uvažování. Významnou součástí takového úkolu

je napodobení komunikace v přirozeném jazyce, tedy analýza vstupního a generování výstupního

textu (případně mluvené řeči), podobně jako to dělá člověk. Dá se tedy říci, že zpracování

přirozeného jazyka neboli počítačová lingvistika je součástí oboru umělé inteligence.

Uvedené poznatky můžeme shrnout do nákresu, který názorně shrnuje, kam počítačová lingvistika

jako věda patří:

Page 5: Kpi zaverecny ukol_40264

5

Co je počítačová lingvistika 3

Page 6: Kpi zaverecny ukol_40264

6

Čím se počítačová lingvistika zabývá 4

Nyní víme, kam počítačovou lingvistiku v rámci vědních oborů zařadit, a také víme, že je zaměřená

převážně prakticky. Zbývá otázka, čím přesně se zabývá a jaké konkrétní zajímavé úkoly řeší.

Následující seznam je obsahuje v poměrně vyčerpávajícím množství a v přibližném pořadí od

nejlehčích až po velmi obtížné, jejichž uspokojivé řešení není dosud na obzoru.

Jazyková analýza textu (morfologická, syntaktická, sémantická)

Korektura textu (doplňky textových editorů pro kontrolu pravopisu a gramatiky)

Automatické dělení slov, vět

Určení typu dokumentu

Získávání a extrakce informací

Výtah z textu

Rozpoznávání psaného textu (skenování a převod do elektronické podoby, rozpoznání jazyka)

Rozpoznávání a syntéza mluvené řeči

Výuka jazyků za pomoci počítače

Odpovídání na otázky

Generování přirozeného jazyka (tvorba souvislého textu prezentujícího informace z databází)

Strojový překlad (automatizovaný překlad z jednoho jazyka do druhého)

Výsledky snah v oblasti strojového překladu jsou zatím největším zklamáním, protože úspěchy se

dostavují výrazně pomaleji, než experti v oboru dříve předpokládali. Úspěšné jsou některé systémy

pro poloautomatizovaný překlad a další pomůcky pro překladatele, plně automatizovaně se také daří

překládat některé jednoduché texty technického rázu, ale například v oblasti krásné literatury se již

dá s poměrně vysokou jistotou říci, že skutečně kvalitní překlad ještě dlouho zůstane výhradní

doménou lidských talentů a velkou výzvou pro odborníky na strojový překlad.

Největší výzvou počítačové lingvistiky je však ještě něco jiného: takzvaný Turingův test. Britský

matematik Alan Turing jím v roce 1950 definoval konkrétní cíl snažení v oblasti počítačové

inteligence. Zjednodušeně řečeno, cílem je vytvořit umělou inteligenci s komunikačními

schopnostmi na takové úrovni, že nezávislý posuzovatel nepozná, zda mu na otázky odpovídá jiný

člověk, nebo stroj. Odměnou za kompletní složení Turingova testu je Loebnerova cena, kterou nabízí

americký vynálezce a filantrop Hugh Loebner ve spolupráci s Cambridge Center of Behavioral

Studies. Cenu tvoří zlatá medaile a finanční odměna 100 000 dolarů. Každoročně se také uděluje dílčí

cena (bronzová medaile a 2000 dolarů) pro stroj či program, který dosahuje zatím nejlepších

výsledků.

Jak je vidět, počítačová lingvistika skýtá mnohá zajímavá témata pro ty, kdo se jí budou chtít věnovat.

Doufám, že snahy o propagaci tohoto zatím nepříliš známého oboru přinesou ovoce a že se mu

v budoucnu bude věnovat více studentů, kteří do něj vnesou invenci a nadšení.

Page 7: Kpi zaverecny ukol_40264

7

Použitá literatura 5

1. ČERNÝ, Jiří. Ú vod do studia ja zyka . 1. vyd. Olomouc: Rubico, 1998. ISBN 80-85839-24-5.

2. HORÁK, Aleš. Ú vod do počíta čové ling vistiky [online]. Brno: Fakulta informatiky Masarykovy

univerzity, 2012 [cit. 2013-01-05]. Dostupné z: <http://nlp.fi.muni.cz/poc_lingv/pl01.pdf>.

3. Natural language processing. W ikipedia : the free encyclopedia [online]. Wikimedia Foundation,

Inc. 4. 1. 2013 [cit. 2013-01-05]. Dostupné z: <http://en.wikipedia.org/wiki/

Natural_language_processing>.

4. BOLSHAKOV, Igor a Alexander GELBUKH. Com puta tiona l Ling uistics: M odels, Resources,

A pplica tions [online]. Mexico: 2004 [cit. 2013-01-05]. Dostupné z: <http://www.gelbukh.com/

clbook/Computational-Linguistics.htm>.

5. Český ná rodní korpus [online]. Praha: Ústav Českého národního korpusu, Filozofická fakulta

Univerzity Karlovy. [cit. 2013-01-05]. Dostupné z: <http://ucnk.ff.cuni.cz>.

6. TURING, Alan. Computing machinery and intelligence [online]. Původně publikováno v: M ind.

1950, č. 59, s. 433–460. [cit. 2013-01-05]. Dostupné z: <http://www.loebner.net/Prizef/

TuringArticle.html>.

7. LOEBNER, Hugh. Hom e Pa g e of The Loebner Prize in A rtif icia l Intellig ence: "The First Turing Test"

[online]. 11. 1. 2011 [cit. 2013-01-05]. Dostupné z: <http://www.loebner.net/Prizef/loebner-prize.

html>.

8. Frequently asked questions about Computational Linguistics. A CL W iki for Com puta tiona l

Ling uistics [online]. The Association for Computational Linguistics, 22. 11. 2005 [cit. 2013-01-05].

Dostupné z: <http://aclweb.org/aclwiki/index.php?

title=Frequently_asked_questions_about_Computational_Linguistics>.

Poznámka: Všechny uvedené zdroje (kromě Wikipedie) považuji za důvěryhodné, protože jsou

zaštítěné konkrétní univerzitou, případně jinou institucí, jejíž důvěryhodnost se dá na Internetu na

mnoha místech snadno ověřit. Autory jsou univerzitní profesoři a další respektované osobnosti.

Wikipedii si troufám považovat za poměrně spolehlivý zdroj v případě článků na široce pojatá

témata, o kterých má informace mnoho lidí a jejich správnost na takto hojně navštěvovaném webu

navzájem kontrolují.