Upload
luciesou
View
142
Download
0
Tags:
Embed Size (px)
Citation preview
1
Seznámení s počítačovou lingvistikouZávěrečný úkol do předmětu KPI11
Lucie Soukupová, UČO 40264
2
Anotace 1
Tento text si klade za cíl poskytnout základní informace o vědním oboru nazývaném počítačová
lingvistika. Seznamuje čtenáře s jejím zařazením mezí ostatní vědní disciplíny a shrnuje ve stručnosti
nejzajímavější praktické úkoly, kterými se tento obor zabývá.
Klíčová slova: počítačová lingvistika, matematická lingvistika, zpracování přirozeného jazyka,
seznámení s počítačovou lingvistikou, základy počítačové lingvistiky, úkoly počítačové lingvistiky,
čím se zabývá počítačová lingvistika
3
Argumentace 2
Obor Čeština se specializací počítačová lingvistika, který druhým rokem studuji, patří mezi nejmladší
obory; v nabídce Filozofické fakulty Masarykovy univerzity se objevil poprvé roku 2010. Jeho název
napovídá, že jde o spojení přirozeného jazyka (v tomto případě českého) a informačních technologií,
což je pro mnoho lidí kombinace poměrně neobvyklá a hůře pochopitelná. Z těchto důvodů často ve
svém okolí narážím na nedostatek informací o tom, co počítačová lingvistika vlastně je a jaké jsou její
cíle. V rámci všeobecné osvěty jsem se proto rozhodla napsat pojednání na toto základní téma.
4
Co je počítačová lingvistika 3
Počítačová lingvistika je vědní disciplínou na pomezí jazykovědy a informatiky. Fakt, že se jedná
o disciplínu pomezní, nelze vykládat tak, že je to disciplína okrajová nebo v nějakém smyslu méně
důležitá než její “mateřské” disciplíny; právě naopak, v dnešní době již mají pomezní vědní obory v
tomto smyslu mnohdy větší význam než ty původní. Stejně tak v případě počítačové lingvistiky lze
hovořit o sice relativně mladé, avšak velmi nadějné disciplíně, která je zaměřená převážně na řešení
praktických problémů namísto teoretických bádání, a protože existuje teprve pár desítek let, nabízí
ještě mnohé velmi zajímavé výzvy těm, kdo se jí budou chtít věnovat.
Chceme-li co nejlépe objasnit pojem počítačová lingvistika, budeme potřebovat nejdříve vyložit
význam několika dalších vědních oblastí, ze kterých počítačová lingvistika vychází, případně s nimi
úzce souvisí. Tím získáme výchozí materiál, který použijeme k sestavení celkového obrázku, podobně
jako když se z jednotlivých dílků skládá puzzle.
Lingvistika (z latinského ling ua – jazyk) neboli česky jazykověda se zabývá studiem přirozených
jazyků, jejich tříděním a stavbou v nejširším smyslu. Přirozenými jazyky jsou míněny komunikační
systémy založené na slovech a vzniklé postupným, přirozeným způsobem, které za účelem běžného
dorozumění používají prakticky všechna lidská společenství na světě; rozlišení je zde nutné proto,
aby nedošlo k záměně za jiné typy jazyků, například programovací.
Matematická lingvistika je pomezní obor, který využívá ke zkoumání jazyka nejrůznějších
matematických metod. Tradičně se vnímá jako obor zastřešující a dělí se dále na tři oblasti:
lingvistiku kvantitativní (statistickou), algebraickou (neboli teorii matematických modelů) a
konečně počítačovou. První dvě jsou zaměřené teoreticky, třetí naopak převážně prakticky, přičemž
se navzájem vhodně využívají a obohacují: počítačová lingvistika jednak využívá poznatků zmíněných
teoretických disciplín, jednak jim zpětně nabízí ke zkoumání problémy, na které v praxi narazí.
Specifickou oblastí počítačové lingvistiky je pak lingvistika korpusová, která se zabývá tvorbou a
využitím rozsáhlých elektronických sbírek textů, takzvaných jazykových korpusů.
Zpracování přirozeného jazyka (anglicky N a tura l La ng ua g e Processing, NLP) je prakticky synonymem
pro počítačovou lingvistiku; vzhledem k tomu, že už víme, co je přirozený jazyk, můžeme jednoduše
říct, že jde o zpracování přirozeného jazyka pomocí výpočetní techniky a řešení souvisejících
praktických úkolů.
Umělá inteligence je jedním z mnoha podoborů informatiky a jejím cílem je vytváření systémů,
které jsou schopny napodobit inteligentní chování a uvažování. Významnou součástí takového úkolu
je napodobení komunikace v přirozeném jazyce, tedy analýza vstupního a generování výstupního
textu (případně mluvené řeči), podobně jako to dělá člověk. Dá se tedy říci, že zpracování
přirozeného jazyka neboli počítačová lingvistika je součástí oboru umělé inteligence.
Uvedené poznatky můžeme shrnout do nákresu, který názorně shrnuje, kam počítačová lingvistika
jako věda patří:
5
Co je počítačová lingvistika 3
6
Čím se počítačová lingvistika zabývá 4
Nyní víme, kam počítačovou lingvistiku v rámci vědních oborů zařadit, a také víme, že je zaměřená
převážně prakticky. Zbývá otázka, čím přesně se zabývá a jaké konkrétní zajímavé úkoly řeší.
Následující seznam je obsahuje v poměrně vyčerpávajícím množství a v přibližném pořadí od
nejlehčích až po velmi obtížné, jejichž uspokojivé řešení není dosud na obzoru.
Jazyková analýza textu (morfologická, syntaktická, sémantická)
Korektura textu (doplňky textových editorů pro kontrolu pravopisu a gramatiky)
Automatické dělení slov, vět
Určení typu dokumentu
Získávání a extrakce informací
Výtah z textu
Rozpoznávání psaného textu (skenování a převod do elektronické podoby, rozpoznání jazyka)
Rozpoznávání a syntéza mluvené řeči
Výuka jazyků za pomoci počítače
Odpovídání na otázky
Generování přirozeného jazyka (tvorba souvislého textu prezentujícího informace z databází)
Strojový překlad (automatizovaný překlad z jednoho jazyka do druhého)
Výsledky snah v oblasti strojového překladu jsou zatím největším zklamáním, protože úspěchy se
dostavují výrazně pomaleji, než experti v oboru dříve předpokládali. Úspěšné jsou některé systémy
pro poloautomatizovaný překlad a další pomůcky pro překladatele, plně automatizovaně se také daří
překládat některé jednoduché texty technického rázu, ale například v oblasti krásné literatury se již
dá s poměrně vysokou jistotou říci, že skutečně kvalitní překlad ještě dlouho zůstane výhradní
doménou lidských talentů a velkou výzvou pro odborníky na strojový překlad.
Největší výzvou počítačové lingvistiky je však ještě něco jiného: takzvaný Turingův test. Britský
matematik Alan Turing jím v roce 1950 definoval konkrétní cíl snažení v oblasti počítačové
inteligence. Zjednodušeně řečeno, cílem je vytvořit umělou inteligenci s komunikačními
schopnostmi na takové úrovni, že nezávislý posuzovatel nepozná, zda mu na otázky odpovídá jiný
člověk, nebo stroj. Odměnou za kompletní složení Turingova testu je Loebnerova cena, kterou nabízí
americký vynálezce a filantrop Hugh Loebner ve spolupráci s Cambridge Center of Behavioral
Studies. Cenu tvoří zlatá medaile a finanční odměna 100 000 dolarů. Každoročně se také uděluje dílčí
cena (bronzová medaile a 2000 dolarů) pro stroj či program, který dosahuje zatím nejlepších
výsledků.
Jak je vidět, počítačová lingvistika skýtá mnohá zajímavá témata pro ty, kdo se jí budou chtít věnovat.
Doufám, že snahy o propagaci tohoto zatím nepříliš známého oboru přinesou ovoce a že se mu
v budoucnu bude věnovat více studentů, kteří do něj vnesou invenci a nadšení.
7
Použitá literatura 5
1. ČERNÝ, Jiří. Ú vod do studia ja zyka . 1. vyd. Olomouc: Rubico, 1998. ISBN 80-85839-24-5.
2. HORÁK, Aleš. Ú vod do počíta čové ling vistiky [online]. Brno: Fakulta informatiky Masarykovy
univerzity, 2012 [cit. 2013-01-05]. Dostupné z: <http://nlp.fi.muni.cz/poc_lingv/pl01.pdf>.
3. Natural language processing. W ikipedia : the free encyclopedia [online]. Wikimedia Foundation,
Inc. 4. 1. 2013 [cit. 2013-01-05]. Dostupné z: <http://en.wikipedia.org/wiki/
Natural_language_processing>.
4. BOLSHAKOV, Igor a Alexander GELBUKH. Com puta tiona l Ling uistics: M odels, Resources,
A pplica tions [online]. Mexico: 2004 [cit. 2013-01-05]. Dostupné z: <http://www.gelbukh.com/
clbook/Computational-Linguistics.htm>.
5. Český ná rodní korpus [online]. Praha: Ústav Českého národního korpusu, Filozofická fakulta
Univerzity Karlovy. [cit. 2013-01-05]. Dostupné z: <http://ucnk.ff.cuni.cz>.
6. TURING, Alan. Computing machinery and intelligence [online]. Původně publikováno v: M ind.
1950, č. 59, s. 433–460. [cit. 2013-01-05]. Dostupné z: <http://www.loebner.net/Prizef/
TuringArticle.html>.
7. LOEBNER, Hugh. Hom e Pa g e of The Loebner Prize in A rtif icia l Intellig ence: "The First Turing Test"
[online]. 11. 1. 2011 [cit. 2013-01-05]. Dostupné z: <http://www.loebner.net/Prizef/loebner-prize.
html>.
8. Frequently asked questions about Computational Linguistics. A CL W iki for Com puta tiona l
Ling uistics [online]. The Association for Computational Linguistics, 22. 11. 2005 [cit. 2013-01-05].
Dostupné z: <http://aclweb.org/aclwiki/index.php?
title=Frequently_asked_questions_about_Computational_Linguistics>.
Poznámka: Všechny uvedené zdroje (kromě Wikipedie) považuji za důvěryhodné, protože jsou
zaštítěné konkrétní univerzitou, případně jinou institucí, jejíž důvěryhodnost se dá na Internetu na
mnoha místech snadno ověřit. Autory jsou univerzitní profesoři a další respektované osobnosti.
Wikipedii si troufám považovat za poměrně spolehlivý zdroj v případě článků na široce pojatá
témata, o kterých má informace mnoho lidí a jejich správnost na takto hojně navštěvovaném webu
navzájem kontrolují.