Általános nyelvészeti tanulmányok 24

Embed Size (px)

Citation preview

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    1/351

    ltalnos NyelvszetiTanulmnyok

    XXIV.

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    2/351

    Alapt fszerkeszt: Telegdi Zsigmond (IXVIII.)Alapt trsszerkeszt: Szpe Gyrgy Fszerkeszt: Kiefer Ferenc (XIXXXII.)

    Szerkesztbizottsg

    Ackerman, Farrell | University of California at San Diego, CA, USA. Kiss Katalin | MTA Nyelvtudomnyi Intzet, BudapestHunyadi Lszl | Debreceni Egyetem, DebrecenKecsks Istvn | State University of New York, Albany, NY, USAKiefer Ferenc (tiszteletbeli tag) | MTA Nyelvtudomnyi Intzet, BudapestLiptk Anik | Universiteit Leiden, Leiden, HollandiaMolnr Valria | Universitet Lund, Lund, SvdorszgMoravcsik, Edith A. | University of Wisconsin-Milwaukee, Milwaukee, WI, USAPlh Csaba | Eszterhzy Kroly Foiskola, EgerSherwood, Peter A. | University of North Carolina, Chapel Hill, NC, USASzab Zoltn | Yale University, New Haven, CT, USASzpe Gyrgy | Pcsi Tudomnyegyetem, Pcs

    Vago, Robert M. | City University of New York, New York, NY, USA

    Technikai szerkeszt: Siptr Pter

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    3/351

    ltalnos

    NyelvszetiTanulmnyok XXIV.

    Nyelvtechnolgiai kutatsok

    Fszerkeszt:

    Kenesei Istvn

    Szerkesztette:

    Prszky Gbor s Vradi Tams

    Akadmiai Kiad, Budapest

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    4/351

    A kiadvny a Magyar Tudomnyos Akadmia tmogatsval kszlt

    ISBN

    Kiadja az Akadmiai Kiad,az -ben alaptott Magyar Knyvkiadks Knyvterjesztk Egyeslsnek tagja Budapest, Prielle Kornlia u. .www.akademiaikiado.hu

    Elsmagyar nyelvkiads:

    Akadmiai Kiad,

    A kiadsrt felels az Akadmiai Kiad Zrt. igazgatjaFelels szerkeszt: Vajda LrincTermkmenedzser: Egri RbertA szmtgpes szerkeszts G. Kiss Zoltn munkja LATEX rendszerrelA nyomdai munklatokat a Prime Rate K. vgezteFelels vezet: Tomcsnyi Pter

    Budapest, Kiadvnyszm: TKMegjelent , (A/) v terjedelemben

    HU ISSN -

    Minden jog fenntartva, belertve a sokszorosts, a nyilvnos elads, a rdi- stelevziads, valamint a fordts jogt, az egyes fejezeteket illeten is.

    Printed in Hungary

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    5/351

    Szpe Gyrgy ()

    Ktetnket azltalnos Nyelvszeti Tanulmnyokata kezdetektl gondoz Szpe Gyrgy emlknek ajnljuk

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    6/351

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    7/351

    Tartalomjegyzk

    Szerkeszti bevezets(Prszky Gbor Vradi Tams) . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Prszky Gbor:A magyarorszgi szmtgpes nyelvszet trtneti ttekin-tse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Rebrus Pter Kornai Andrs Varga Dniel:Egy ltalnos cl morfolgiaiannotci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Recski Gbor Varga Dniel:Magyar fnvi csoportok azonostsa . . . . . . . . . . . . . . . .

    Vincze Veronika Farkas Richrd:Tulajdonnevek a szmtgpes nyelvszet-

    ben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Klmn Lszl:Analgis tanuls asszociatv memriamodellel . . . . . . . . . . . . . . . . . . .

    Alberti Gbor Kroly Mrton KleiberJudit:A mondatoktl a hatkri re-lcikig s vissza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Mihltz Mrton:Tudsalap koreferencia- s birtokviszony-felolds magyarszvegekben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Hja Enik Gbor Kata:Igk lexikai reprezentcija s a nyelvtechnolgia . . . . . . . . .

    Vradi Tams Oravecz Csaba Peredy Mrta:A Budapesti Szociolingvisz-tikai Interj lexikai s szintaktikai jellemzi . . . . . . . . . . . . . . . . . . . . .. . . . . . . .

    Babarczy Anna Simon Eszter:A fogalmi metafork s a szvegstatisztikaszerepe a metafork felismersben . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .

    Simon Eszter Sass Blint: Nyelvtechnolgia s kulturlis rksg, avagy kor-puszpts magyar kdexekbl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

    Hunyadi Lszl Fldesi Andrs SzekrnyesIstvn Staudt Alexandra KissHermina Abuczki gnes Bdog Alexa:Az embergp kommuni-kci elmletitechnolgiai modellje s nyelvtechnolgiai vonatko-zsai . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .

    Tth Lszl:Ksrletek beszdfelismerk akusztikus modelljnek nyelvek k-ztti tvitelre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . .

    Gsy Mria:Multifunkcionlis beszlt nyelvi adatbzis BEA . . . . . . . . . . . . . . . . . . . .

    Fszerkeszti utsz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    8/351

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    9/351

    Szerkeszti bevezets

    Az olvas azltalnos Nyelvszeti Tanulmnyokegy jabb tematikus ktett tart-ja kezben, amelynek alcme: Nyelvtechnolgiai kutatsok. A nyelvtechnolgia sztaln tbbek szmra magyarzatra szorul. Ez a fogalom a . szzad msodik fe-lben inkbbszmtgpes nyelvszetnven volt ismert. Korbban mg az ezzel

    rokonmatematikai nyelvszetkifejezs is hasznlatos volt: -ben a MagyarTudomnyos Akadmia Nyelvtudomnyi Intzete munkartekezletet szervezettA matematikai nyelvszet s a gpi fordts krdseicmmel. Ennek a kereken flvszzaddal ezeltti esemnynek az eladsai lttak napvilgot -ben azlta-lnos Nyelvszeti TanulmnyokII. ktetben. Sorozatunkban azta a szmtgpsanyelvkapcsolatrlnemjelentmegrs.Ezalattaz tvenvalattviszontasz-mtgp oda jutott, hogy szinte minden rajta fut alkalmazstallkozik az emberinyelvek beszlt vagy rsos formjnak valamelyikvel: egymsnak sznt szve-geink, leveleink, hreink, feljegyzseink, dolgozataink, folyirataink, knyveink,

    tudomnyos publikciink s mg sorolhatnnk valamilyen emberi nyelvenrdnak, s a gpek ezeket a szvegeket segtenek ltrehozni, kijavtani, lefordta-ni, vagy ppen keresni bennk. Ez angol nyelvterleten persze angolul trtnik,spanyol nyelvterleten spanyolul, Magyarorszgon pedig magyarul. Az ezeket atevkenysgeket ler szmtgpes nyelvszeti irodalomban sokat hasznlt ki-fejezs a szakterlet megnevezsre a termszetesnyelv-feldolgozs (natural lan-

    guage processing),br angolul napjainkban egyre inkbb ahuman language tech-nologies elnevezst hasznljk. Magyarul ez a fogalom vonult be nyelvtechnolgianven a szakmai kztudatba.

    Mivel is foglalkozik a nyelvtechnolgia? A nyelvtechnolgia a nyelvhasz-nlatbl indul ki, azaz konkrt szveggel, konkrt beszddel foglalkozik: btranfelvllalja teht az elmleti nyelvszet ltal lerni szndkozott kompetencivalszemben a performancia vizsglatt. Jellemzen a kidolgozott eljrsok, tech-nolgik valamilyen alkalmazs cljbl (pl. gpi fordts, beszdfelismers) sz-letnek, ezrt a nyelvnek olyan szempont vizsglata is megjelenik az rsok k-ztt, amely az elmleti nyelvszetben ritka vagy ismeretlen, hiszen az elmletinyelvszek szmra egyszerennemvetdnek fel ezek a krdsek. Gondolunk itt

    pldul a szfaji egyrtelmsts problmira, amely a hagyomnyos nyelvszet-

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    10/351

    ben nem is ltezik. Azrt nem, mert az ember hatatlanul hasznlja teljes nyel-vi tudst s vilgismerett a szveg rtelmezsben, s nemcsak az adott mon-dat betire hagyatkozik a tbbrtelmkifejezsek kezelsben. sszessgben isigaz: a nyelvtechnolgia szmos olyan jelensggel foglalkozik az emberek nyel-

    vi kompetencijt megkzeltpontossggal s hatkonysggal, amelyet elmletinyelvszek trivilisnak tartanak, vagy ami egyltaln nem jelenik meg szmukraproblmaknt.

    A nyelvtechnolgia kzponti kihvsa az, hogy a szmtgpek szmra te-gye rthetv s rtelmezhetv az emberi nyelvet, azaz ha gy tetszik a leg-szigorbb mdon valstsa meg a generatv nyelvszetben Chomsky ltal meg-hirdetett programot: egyfajta explicit nyelvlerst szorgalmaz, amely nem t-maszkodik az emberi intucira a jelensgek rtelmezsben. Az explicit s nem

    explicit nyelvi lers klnbsgnek illusztrlsra emlthetjk a sztrak pl-djt. Manapsg mr a legtbb sztr digitlis technolgival kszl, s szintemindegyik elrhetelektronikus adathordozn vagy a vilghln. Ettl azon-ban a tartalma, azaz az adatok megjelentse vltozatlanul emberi fogyasztsraszolgl, azaz igen nagy mrtkben tmaszkodik a sztr olvasinak nyelvi intel-ligencijra (hogy mindazon prezentcis fogsok dekdolsi kszsgrl ne isbeszljnk, amelyeket rszletesen sorolnak a sztrak elszavai). Ezek a sztrakazonban kzvetlenl nem alkalmasak arra, hogy szmtgpes nyelvfeldolgozrendszerek sztri komponensei legyenek: az ilyen sztraknak a nyelvtechno-

    lgia szmra trtntalaktsa jelents erfesztst s megfelelnyelvtechno-lgiai elkpzettsget kvn.

    Izgalmas problma, hogy a nyelvtechnolgia mennyire alkalmas ellenr-z eszkze az elmleti nyelvszet nyelvlersnak. Mint emltettk, a nyelvtech-nolgia abbl a szempontbl az elmleti nyelvszet szmra is kihvst jelent,hogy a lehetlegexplicitebb lersra knyszerti a nyelvszt. Ha a gp, azaz nemaz ember a kszlgrammatika felhasznlja, akkor pldul a stb.-vel vgzdfelsorolsoknak nem lehet helye a nyelvlersban. Ugyanakkor nem llthatjuk,hogy a nyelvtechnolgiai alkalmazs eredmnyessge egyben a nyelvelmletekkzvetlen validlsnak mrcje lehetne; mr csak azrt sem, mert nyelvi kom-petencia tekintetben a jelenlegi legsszetettebb szuperszmtgp teljestmnyeis messze elmarad az emberi agytl. Bizonyosra vehet, hogy ez alapvetennema kapacits, hanem az eltrfelpts miatt van. A nyelvtechnolgia kzvetlenlteht nem tzi ki a nyelvi kompetencia modellezst, azaz nem akarja felttlenla beszd- s nyelvhasznlat mentlis folyamatait lekpezni a nyelvtechnolgiaialgoritmusokban.

    Br a nyelvtechnolginak sokszor a gyakorlati knyszer szlte alapelvei

    kezdetben ellentmondtak az uralkod elmleti nyelvszeti felfogsnak (pldul

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    11/351

    ers empirikus irnyultsga, a nyelvhasznlat vizsglata, vagy a jelensgek gya-korisgra pl statisztikai mdszerek alkalmazsa miatt), ma mr ezek lpsrllpsre trt hdtanak az elmleti nyelvszet keretein bell is. Az utbbi idbenegyre inkbb terjed gpi tanulsos mdszerek npszersge ellenre korntsem

    akarnnk azt lltani, hogy a nyelvsz intucijnak semmi szerept nem ltjuka nyelvtechnolgiban. ppen ellenkezleg: a nyelvtechnolgit az klnbztetimeg az ltalban vett szmtgpes adatkezelstl, hogy a nyelvszet elvi felisme-rseit pti be a technolgikba. Az pldul, hogy egy szociolingvisztikai krdvadatait Excel-tblkban vagy valamilyen adatbzis-kezelprogram segtsgveltroljuk, nem tbb mint szmtgppel segtett szociolingvisztikai kutats. Sen-ki nem tekinti szmtgpes nyelvszetnek azt, ha kedvenc pldamondatainkatszmtgpes fjlokban troljuk, s onnan msoljuk be a szvegszerkesztvel k-

    sztett tanulmnyunkba. Az viszont mr nyelvtechnolgia (mg ha megint csakegy ltszlag trivilis problmt old is meg), ha egy szveg s annak idegen nyelvifordtsa kztt meg akarjuk tallni a mondatok szintjn a fordtsi megfelelse-ket. Lehet, hogy ehhez kezdetben egy olyan egyszeralgoritmust hasznltunk,hogy a rvid mondatok fordtsa is vrhatan rvid lesz s fordtva. Ugyanak-kor ez az egyszerelv is meglepen hatkonynak bizonyult a prhuzamos kor-puszok mondatszintillesztsben, ami viszont a ma mr tmegesen hasznlt,statisztikai gpi fordt rendszerek kifejlesztsben alapvetszerepet jtszik. Ezutbbi plda rvilgt a nyelvtechnolgia trsadalmi hasznossgra s kldets-

    re. A szvegszerkesztkben hasznlt helyesrs-ellenrzk, a gpi fordts, vagyakr a felolvas- s beszdfelismerprogramok mind bevonultak mindennapja-ink szmtgpes eszkztrba. Ily mdon a nyelvtechnolgia kivlan alkalmasarra, hogy a trsadalom szles krben rthetv s hasznoss tegye a nyelvsze-tet, amelyet sokan egybknt elg elvont diszciplnnak tartanak.

    A ktet tanulmnyainak vlogatsban az egyik rendezelv az volt, hogyreprezentatv ttekintst adjunk a magyar nyelvtechnolgia jelenleg hasznltmdszereirl s eredmnyeirl. Fontosnak tartottuk azonban azt is, hogy olyankutatsoknak is adjunk teret a ktetben, ahol maga a szerzi grda vagy az olvasknnyen eljuthat olyan konklzikra, amelyek mr tlmutatnak a pusztn adatalap, gyakorlatorientlt projekteken.

    Prszky Gbor ktetindt tanulmnyaA magyarorszgi szmtgpes nyel-vszet trtneti ttekintsecmmel azt a folyamatot vzolja, amely Magyarorsz-gon mr a hatvanas vek elejn az akkori gpi fordtsi munklatokba val be-kapcsoldssal elindult, s tbbszri megszaktssal, hol szmtgpes nyelv-szet, hol termszetesnyelv-feldolgozs nven lte tl a . szzad utols vtize-deinek hazai kutats-fejlesztsi nehzsgeit. A kitart kutatk munkja vgl is

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    12/351

    azokhoz a magyar nyelvtechnolgiai eredmnyekhez vezetett, amelyeket ma mrnemzetkzileg is szmon tartanak.

    Az emltett trtneti folyamat utols idszaknak, a . szzad elsvti-zednek eredmnyeit mutatja be teht a ktet, mgpedig tbb-kevsb a g-

    pi nyelvfeldolgozsi szintek szerinti elrendezsben. Elsknt gy egy szalakta-ni problmkkal foglalkoz rs szerepel benne: Rebrus Pter, Kornai Andrs sVarga DnielEgy ltalnos cl morfolgiai annotcicmdolgozata a nyelv-technolgiban kulcsfontossg szalaktani annotcis smk problmival fog-lalkozik, majd a magyar fnvi, igei s egyb inflexis paradigmk ezek segt-sgvel val kdolst trgyalja rszletesen. A lers alapelvei nemcsak teljesenltalnosak s nyelvfggetlenek,hanem a gyakorlatban, a szabadon elrhet hun-morphprogramban is megtallhatk.

    Eztkveten egy, a szintagmaszint problematikjval foglalkoz rs kvet-kezik: Recski Gbor s Varga DnielMagyar fnvi csoportok azonostsa cmmelaz n. NP-darabolrl (angolulNP chunker) r, amely magyar nyelvfnvi cso-portok azonostst teszi lehetv itt ppen egy felgyelt gpi tanulsi mdszersegtsgvel. A mdszer a gyakorlatbanhunchunknven rhetel.

    Ezt kveten a fnvi csoportokhoz hasonl problematikj nvkifejez-sek kezelse kvetkezik: Vincze Veronika s Farkas RichrdTulajdonnevek a sz-mtgpes nyelvszetbencmrsa az angolulnamed entity recognitionnven is-mert problmakrrel, a nvelem-felismerssel foglalkozik. A tulajdonnevek s

    ms szvegbeli entitsok, pldul email-cmek, weblapok, rendszmok, telefon-szmok, dtumok, vagy orvosi-biolgiai szvegekben fehrjenevek, gnnevek,kmiai szvegekben a vegyletek neveinek s kpletnek felismerse is ide tar-tozik. Sokszor a felismersen tl tovbbi a szveg tartalmtl is fgg belsosztlyozst is illik adni a megtallt elemeknek, hiszen pldul a jogi szvegekbenelfordul szemlynevek igen klnbzszerepeket testesthetnek meg a brtla vdlottig.

    A nvelem-felismersben hasznlt gpi tanulsi eljrsok gyakran induktvmdszereken alapulnak. Klmn Lszl tanulmnya, azAnalgis tanuls asszo-ciatv memriamodellelezzel szemben egy abduktv eljrst mutat be, azaz egykvetkeztets konklzijt reprezentl formulahalmazhoz keres minl nagyobbkonzisztens premisszahalmazt egy olyan adatbzisban, amelyben klnbzva-lsznsggel igaznak tekinthetformulk vannak trolva. Ez az adatbzis nemms, mint a korbbi tapasztalatokat trol memria. Klmn kutatsnak leg-fbb eredmnye, hogy laboratriumi mretekben sikerlt egy olyan memria-alap modell alapjait lefektetni, amely hosszabb tvon kpes lehet megragadnia nyelvi viselkeds legltalnosabb mechanizmusaira jellemz folyamatokat, s

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    13/351

    gy alapjul szolglhat a nyelvi produkci s a nyelvi megrts minden eddiginlhatkonyabb szimulciinak.

    A mondatszint lerssal ktetnkben Alberti Gbor, Kroly Mrton sKleiber JuditA mondatoktl a hatkri relcikig s visszacmmunkja fog-

    lalkozik.k a magyar kijelentmondatok informciszerkezett trjk fel gpimdszerekkel, az esetkben totlisan lexikalista irnyultsg generatv gram-matika alapelvei mentn. A bemenbetsorhoz minden lehetsges intoncismintzatot hozzrendelnek, gy igyekeznek az rott bemenetnek a hangz be-szddel val kapcsolatt is kezelni. Mivel kutatsuk tvlati clja a gpi fordts, azellenkezirnnyal, az informciszerkezetbl intoncis jelekkel elltott mon-datot elllt algoritmussal is foglalkoznak, amire a dolgozat cme is utal.

    A mondatszintaxis trgyalsa a modern nyelvszet kzponti krdskrtje-

    lenti, m a nyelvtechnolgiai kutatsokban, br ez a nyelvi szint is fontos, nemfelttlenl jtszik kzponti szerepet. A kvetkezkben trgyaland koreferencia-viszonyok kilpnek a mondatszintrl. Radsul itt mr megjelenik a tudsala-p kzelts is, vagyis a szemantika s a vilgismeret bevonsa a gpi elemzsbe.Mihltz MrtonTudsalap koreferencia- s birtokviszony-felolds magyar szve-

    gekben cmmel arrl r, hogy milyen gpi algoritmusokkal lehetsgesa szvegbelientitsok kztti kapcsolatok koreferenciaviszonyok, birtokviszonyok auto-matikus felismerse. Ennek a problmnak a megoldsa gyakorlatilag a nyelv-technolgia minden terletn(a gpi fordtsban, az informci-kivonatolsban,

    a szveg-sszefoglalsban, vagy a vlemnyanalzisben) egyarnt fontos. Fnvicsoportok koreferenciinak feloldsn az egy dokumentumban megjelenk-lnbz, de a vilgban azonos entitsra referl fnvi csoportok kztti viszo-nyok azonostst rtjk. A birtokviszony-felolds az egymstl a mondatban k-lnvlt birtokos szerkezet birtokosnak s birtoknak felismerst s prostst

    jelenti. Ezekre a feladatokra ad algoritmikus megoldst a dolgozat.A jelentssel kapcsolatos ismereteket a nyelvtechnolgiai eszkzk az eze-

    ket is ler gpi lexikonok vilgbl szerzik be. Hja Eniks Gbor KataIgklexikai reprezentcija s a nyelvtechnolgia cmmel arrl r, hogy milyen elv-rsoknak kell megfelelnie a nyelvtechnolgiai alkalmazsok igei lexikonjnak.Elvrhat, hogy egy ilyen adatbzisban az ugyanolyan tpus dolgok ugyangylegyenek reprezentlva, azaz a lexikonnak koherensnek kell lennie. Msfell a le-xikai adatbzisnak explicitnek is kell lennie, vagyis nem tmaszkodhat a felhasz-nl intucijra. A szerzk krljrjk, hogy hogyan hatrozhat meg a produk-tv igei bvtmnyek kre. Ezltal a tbbek kztt ltaluk korbban kidolgozottigei vonzatkeret-adatbzist olyan informcikkal bvtik ki, amelyek segtsg-

    vel hasznos ltalnostsok tehetk az igk bvtmnykeretre vonatkozan, gy

    nvelve az adatbzis koherencijt s explicitsgt.

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    14/351

    Az ezt kvet ngy dolgozat a modern nyelvtechnolgia legjabb alkal-mazsi terleteit villantja fel: a szociolingvisztikt (ahol lbeszd-tiratok se-gtsgvel vals beszdhelyzetek szmtgpes elemzse trtnik); a metaforikusnyelvhasznlat gpi kezelst; az ember s a gp kztti kommunikci kln-

    fle aspektusait nyelvtechnolgiai szempontbl vizsgl kutatst; vgl pedig anyelvtechnolginak a nyelvtrtneti kutatsban val felhasznlst.

    Vradi Tams, Oravecz Csaba s Peredy MrtaA Budapesti Szociolingvisz-tikai Interj lexikai s szintaktikai jellemzi cm tanulmnynak clja a ma-gyar nyelv trsalgsi szvegek lexikai s szintaktikai elemzse nyelvtechnolgiaimdszerekkel s ennek segtsgvel a szbeli s rsbeli nyelvhasznlat kzt-ti klnbsgek kvantitatv megfogalmazsa. Az elemzprogram a szmtgpeselemzssel annotlt szvegkorpuszt elssorban statisztikai eljrsokkal vizsglja.

    A BUSZI trsalgsi nyelvhasznlatt a szerzk a Magyar Nemzeti Szvegtrblvett minta segtsgvel az rott nyelvhasznlat jellemzivel vetikssze. Az ismer-tetett vizsglatok a magyar nyelvre mg nagyrszt feltratlan lehetsgeket mu-tatjk be, azaz elssorban a kezdetet jelentik ezen a gpi eszkzkkel korbbannem kutatott terleten.

    Babarczy Anna s Simon EszterA fogalmi metafork s a szvegstatisztikaszerepe a metafork felismersbencmmunkja a metaforikus kifejezsek auto-matikus szmtgpes felismerst vizsglja. Az emberi metaforartelmezs ktelmleti modelljt, a fogalmimetafora-elmletet s a statisztikai megkzeltst ve-

    tikssze. A kt elmlet alapjn pszicholingvisztikai s korpusznyelvszeti md-szerek felhasznlsval a metaforikus hasznlatra utal nyelvi jelek listit hoztkltre, majd ezek vals metaforajsl erejt szmtgpes modellel teszteltk. Azeredmnyek alapjn a statisztikai mdszer tnik a legsikeresebbnek, br enneka teljestmnye is elmarad a vrakozsoktl, nagy valsznsggel a metafora je-lensgnek megfoghatatlansga, illetve magnak a fogalommeghatrozsnak azelmleti pontatlansgai miatt.

    Simon Eszter s Sass Blint tanulmnyaNyelvtechnolgia s kulturlisrk-sg,avagy korpuszpts magyar kdexekblcmmelszerepelaktetben. A nyelvikulturlisrksg szles krelrhetv ttelben manapsg vilgszerte kulcs-szerep jut a nyelvtechnolginak. A gpi mdszerekkel a kutatk eddig nemltott, egysges, kvetkezetes, rengeteg kiegszt nyelvi informcival elltottadatbzisokhoz juthatnak. A dolgozatban bemutatsra kerl a nyelvtrtnszeks a nyelvtechnolgusok els hazai kzs kutatsi terlete, a trtneti szvegkor-puszok ptse. Ezek segtsgvel a kutatk egysges, akr egy egsz korra jellem-z, tfog keressi eredmnyekhez is juthatnak, amelyekkel elmleti feltevseikknnyebben igazolhatv vlnak. A minderre kivl terepet szolgltat magyar

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    15/351

    nyelvtrtneti szvegadatbzis ltrehozsnak s a hozz tartoz gpi lekrdezeszkzk alkalmazsnak problematikjrl esik sz az rsban.

    Az embergp kommunikci elmleti-technolgiai modellje s nyelvtechno-lgiai vonatkozsaicmmel Hunyadi Lszl, Fldesi Andrs, Szekrnyes Istvn,

    Staudt Alexandra, Kiss Hermina, Abuczki gnes s Bdog Alexa szmol be aHuComTech korpusz ltrehozsrl, amelynek a motivcija az volt, hogy lt-rejjjn az embergp kommunikci olyan technolgiai modellje, amely alap-

    veten pt az emberember kommunikci lnyeges s e feladat szempontjblrelevns jellemzire. A modell fontos tulajdonsga, hogy ktirny, azazegyarntszolglja a szintzist (egy kommunikatv esemny technolgiai megvalstst)s az analzist (ezen esemny interpretcijt, megrtst). Radsul lehet-

    v teszi e kt, ellenttes irny folyamat egyidejkezelst is, miltal alkalmass

    vlik az embergp kommunikci ktirny folyamatnak egysges kezels-re. A tanulmny az ehhez szksges multimodlis (video-, akusztikai, tekintet-,gesztikulci-, szintaktikai s pragmatikai) annotlsi folyamatot mutatja be, va-lamint az adatbzis lekrdezse alapjn mr elrhet egyes eredmnyeket.

    A ktetet a beszdtechnolgiai terlet kt kutatsnaksszefoglalja zr-ja: az egyik a beszd gpi felismersben elengedhetetlen akusztikus modellek, amsik a beszlt nyelvi adatbzisok ltrehozsnak problmakrt jrja krl.

    Tth LszlKsrletek beszdfelismerk akusztikus modelljnek nyelvek k-ztti tvitelre cmdolgozata a szoksos beszdhang-alap beszdfelismerkkel

    szemben a fonolgiai megklnbztetjegyekre plmdszereket jrja krl.Mivel a megklnbztetjegyek jval univerzlisabbak s kevesebben vannak,mint a beszdhangok, gy a hipotzis az, hogy ezekre ptve jval knnyebb shatkonyabb nyelvfggetlen akusztikus modellt kszteni. A szerz angol nyelvrebetantott rendszerekbl ksztett kt magyar nyelvakusztikus modellt, ahol azeredeti, angol felismer az egyik esetben beszdhangok, a msik esetben megk-lnbztetjegyek felismersre volt betantva. Eredmnyei meglepek, ugyanisegyik angol nyelvrl tltetett modell sem ri el a tisztn magyar tants mo-dell teljestmnyt. gy nem teljesl teht az a remny, hogy a nagy mennyis-gadaton tantott angol modellekbl kiindulva elkerlhet, hogy a magyarra ishasonl hatalmas korpuszokat kelljensszegyjtennk. A szerzrdekes ltal-nos konklzira jut a gpi tanulsi mdszerekkel kapcsolatban, ha ezek minta bemutatott kutatsban is az intucinak ellentmond eredmnyeket adnak:ilyenkor sokszor nem az alapkoncepcival van a baj, hanem a tanulalgoritmusparamtereivel, modellvlasztsval, optimumkeressi mdszervel, vagy egybtechnolgiai tnyezvel.

    Gsy Mria dolgozata egyMultifunkcionlis beszlt nyelvi adatbzis, a sz-

    mos tekintetben nemzetkzileg is jelents BEA munklatait foglalja ssze. Ez

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    16/351

    az elssok beszlvel rgztett, nagy mennyisghangz anyagot s klnbzszinttiratukat, illetve annotlsukat tartalmaz adatbzis, amelynek a felv-teli krlmnyei llandak. A jl megtervezett s kivitelezett, annotlt s lekr-dezhetadatbzis kivltja az idignyes felvtelek ksztsnek munkjt, hatal-

    mas adathalmazt biztost sokfle kutatshoz, s a nyelv vals hasznlatt tkrzi.A BEA adatbzis rvn magyar nyelven elszr vlt lehetv az sszes magn-hangz akusztikai-fonetikai szerkezetnek lersa, a koartikulcis mezk jel-lemzse, a beszdhangok semlegesedsnek, a gyakori szavak ejtsi sajtossga-inak, a zngeminsg kommunikcis funkciinak az elemzse, avagy a proz-dia szerepnekvizsglata a spontn beszd tagolsban. A szoros rtelemben vettfonetikai kutatsok mellett a szerzszmos, a BEA segtsgvel lehetv vl jkutatsi irnyra is rirnytja az olvas figyelmt.

    * * *

    A szerkesztk ksznetket fejezik ki mindazoknak, akik hozzjrultak azlta-lnos Nyelvszeti Tanulmnyoknyelvtechnolgival foglalkoz XXIV. ktetnekltrejtthez. A lektorok figyelmes munkja s a szerzk trelmes egyttmk-dse kvetkeztben ez a ktet, mg ha nem is az eredetileg elkpzelt sebessggel,de vgl is az eredeti elveknek megfelelen kszlhetett el. Kln ksznet illeti

    Kenesei Istvn sorozatszerkesztt s Siptr Pter technikai szerkesztt, valamintPintr Tibort, aki lelkiismeretes szervezmunkjval jrult hozz a ktet ltrejt-thez.

    Prszky Gbor, Vradi Tams

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    17/351

    A magyarorszgi szmtgpes nyelvszettrtneti ttekintse

    Prszky GborMTAPPKE Nyelvtechnolgiai Kutatcsoport, PPKE ITK & MorphoLogic, [email protected]

    sszefoglal nven nyelv- s beszdtechnolginak hvjk manapsg azt a komplex tu-domnyterletet, amely a szmtgp s az emberi nyelv, illetve az emberi beszd kap-csoldsi pontjn alakult ki. Korbban ezt szmtgpes nyelvszetnek neveztk. Tanul-mnyunk felptse kutatsi tmnknt igyekszik amennyire lehetsges, azon bellidrendben kvetni a hazai nyelvtechnolgiai tevkenysgeket. A bevezet rsz utn

    ttekintjk a szmtgpes morfolgia s a gpi szintaxis hazai kutatsi eredmnyeit,ezutn vgigvesszk a korpusznyelvszeti kutatsokat, majd a szmtgpes lexikogr-fival, vgl a gpi fordtssal kapcsolatos kutatsok hazai helyzett. A korai idszak t-tekintsben Prszky (1989)-re, a ksbbiekben PrszkyOlaszyVradi (2006) ta-nulmnyra tmaszkodtunk.

    Kulcsszavak:szmtgpes nyelvszet, trtneti ttekints, beszd- s nyelvtechnolgia,magyar nyelvtechnolgiai alkalmazsok, a nyelvi rendszerek

    Annak ellenre, hogy az angol az utbbi vtizedekben egyeduralkod vilgnyelv-

    v lett, a nemzeti nyelvek s kultrk szerepe egyrtelmen felrtkeldtt az in-

    formatikban. A magyar nyelvtechnolgiai kutatsok eredmnyekppen ltrejtt

    nyelvi szovereszkzket ma mr tbbszzezren hasznljk naponta, s hatsuk

    a magyar nyelvhasznlkra ennek kvetkeztben a magyar nyelv jvjre l-

    nyegesen nagyobb, mint gondolnnk.

    . A kezdetekrl

    A szmtgpes nyelvszeti kutatsok Magyarorszgon gyakorlatilag mr a sz-

    mtgp hazai megjelensekor elindultak. sztl Fodor Istvn, Papp Fe-

    renc, Tarjn Rezs s Szalai Sndor tbbszr is tartottak eladst a gpi ford-

    tsrl a Nyelvtudomnyi Trsasgban s az MTA Nyelvtudomnyi Intzetben.

    -ban a gpi fordts elksztse az MTA tvlati terveibe is bekerlt. Ennek

    az vnek a vgn lezajlott az els magyarorszgi interdiszciplinris rtekezlet is

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    18/351

    Prszky Gbor

    a nyelvszek, logikusok s az akkor megjelen nvvel kibernetikusoknak ne-

    vezett szmtgpesek rszvtelvel. Az els gyakorlati eredmny e tren:HellGyrgysSipczy Gyz a BME-n a Vezetkes Hradstechnika Tanszk jelfogsgpn magyarra fordtott egy orosz mondatot. elejn Hell Gyrgy Dml-

    ki Blint segtsgvel megkezdte az elsoroszmagyar gpi fordt algoritmusalapjainak kidolgozst az MTA Szmtkzpont M- szmtgpn. A ksrle-tek ellenre a magyarrl vagy magyarra val fordts tfog lersrl ez id-ben nem jelent mg meg komoly publikci. -ben kt fontos tancskozsis volt haznkban: Budapesten az MTA munkartekezlete Kalmr Lszl veze-tsvelA matematikai nyelvszet s a gpi fordts krdseicmmel, valamint Ti-hanybanA matematika alapjai, matematikai gpek s alkalmazsaik konferencia

    Matematikai nyelvszet s gpi fordtsszekcilse. Ebben az idben Budapes-

    ten, az MTA Szmtkzpontjban, a BME Gpszkari Idegennyelvi Lektortu-sn s Debrecenben, a KLTE Szlv Filolgiai Intzetben folytak szmtgpesnyelvszeti ksrletek. Ezekrl elssorban azltalnos Nyelvszeti TanulmnyokII. szmban s fknt klnbzknyvtri feldolgozsokkal kapcsolatos kiad-

    vnyokban, egy-kt alkalommal a Magyar Nyelvrhasbjain, valamint -tlkezdve az MTA Szmtkzpont ltal tbb-kevsb vente megjelentetett angolnyelv kiadvnyban, a Computational Linguistics-ben olvashattak az rdekldk.Az MTA Szmtkzpontjban -ban az Egyeslt llamokban foly gpifordtsi kutatsok nagy rsznek lelltst kezdemnyezALPAC-tanulmny

    megjelensvel egyidejleg a gpi nyelvszeti munkacsoport talakult, s Do-kumentcis Nyelvszeti Csoport nven, megvltozott sszettelben mr csakrszben folytatta a jogeldje ltal megkezdett munkt. -ben a csoport s azOMKDK kzs rendezsbenMASPEREVOD-nven sor kerlt a szocialistaorszgok elsgpi fordtsi tallkozjra is. szn Balatonszabadiban voltegy matematikai nyelvszeti konferencia, amelyen a csoportban foly szintakti-kai kutatsokrl szintn hangzott el elads.

    A magyar szmtgpes nyelvszeti trekvsek megbecslst is jelentet-te, hogy -ben a ktvenknt megrendezsre kerlNemzetkzi Szmtg-pes Nyelvszeti Kongresszus (a ksbbi COLING vilgkonferencik eldje) szn-helye a tma kutatsban len ll Grenoble s Stockholm utn Debrecen lett.-tl kezdve ugyanis a vros egyeteme egyre inkbb a szmtgpes nyelv-szet egyik elssorban a filolgiai munkkhoz elengedhetetlen gnak, a PappFerenc nevvel fmjelzett szmtgpes lexikolginak a blcsjv vlt. A Do-kumentcis Nyelvszeti Csoport felszmolsval az MTA Szmtkzpontjbanminden szmtgpes nyelvszettel kapcsolatos szervezett munka megsznt ahetvenes vekre. Az MTA Szmtkzpont jogutdjaknt mkd MTA SZTAKI

    kiadvnyaknt idnknt megjelent az talaktottComputational Linguistics and

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    19/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    Computer Languageskiadvny, de az is inkbb a formlis nyelvekkel kapcsola-tos krdsekre helyezte a hangslyt. A hetvenes vekben Debrecenben a PappFerenc vezetsvel mkdkutatcsoport mr elssorban nem a szvegfeldol-gozs szempontjbl jelents, hanem az irodalmr-filolgus kutatk ignyeinek

    jobban megfelel kvantitatv nyelvszeti, illetve kimondottan lexikolgiai feldol-gozsokra sszpontostott. A magyar szmtgpes nyelvszeti kutatsok nyel-

    vszeti szempontbl legjelentsebb kiadvnya, a Papp Ferenc ltal rtA magyarfnv paradigmatikus rendszere(Papp)ppebbenazidszakbanjelenikmeg,br az alapjul szolgl szmtgpes munka az elzkorszak eredmnyeit id-zi. A debreceni csoport figyelme a hetvenes vek vgtl inkbb a nyelvokta-ts szmra hasznlhat szmtgpes programok irnyba fordul. Ez idtjt azMTA Nyelvtudomnyi Intzetben is szinte kizrlag kvantitatv jellegszm-

    tgpes munklatok(A magyar kznyelv s irodalmi nyelv gyakorisgi sztra)folynak egszen a hetvenes vek legvgig, amikorra szmtstechnikai eszkze-ink hardver s szover tekintetben egyarnt elrtk azt a szintet, hogy az EurpaMagyarorszgon kvli rszben mindenhol elterjedt nyelvfeldolgoz rendsze-rek (termszetes nyelvadatbzis-lekrdezs, szvegkivonatols, dialgusrend-szerek) hazai megvalstsnaklegalbb a lehetsgefelmerljn.gykerlhetettsor az SZKI, s ezen bell is a korbbi gpi fordt csoport valahai tagjnak,Dmlki Blintnak a tmogatsval a mestersges intelligencia cljaira fejlesz-tett s a hazai szmtstechnikai letben nagy sikerrel bevezetett programozsi

    nyelv, a Prolog kezdeti alkalmazsai kzt szmtgpes nyelvszeti kutatsok-ra is. A nyolcvanas vekben sikerlt nhny korbbi szmtgpes nyelvszetianyagot jraleszteni Kornai Andrsnak s Prszky Gbornak (Kornai ;Papp),akikezid tjt mg inkbb elmleti munkssgot folytattak. Az ne-

    veikhez fzdik egybknt az elstfog hazai szmtgpes nyelvszeti knyv(Prszky ), illetve a nemzetkzi matematikai nyelvszeti kutatsok elmltvtizedeineksszefoglalsa is (Kornai ).

    Budapest-kzpont orszgunkban mint jeleztk a szmtgpes nyel-vszeti kutatsok terletn korbban Debrecen jtszotta a legfontosabb nem-fvrosi kutathely szerept. Ma is folynak ott ilyen irny kutatsok (Hunyadi), de a kilencvenes vekben elssorban Csirik Jnos kutatcsoportja mun-kjnak kvetkeztben a Szegedi Tudomnyegyetem vlt a legismertebb nembudapesti nyelvtechnolgiai kzpontt. Egy msik, nagy mlt egyetemi vro-sunkban, Pcsett Alberti Gbor munkatrsaival szintn a kilencvenes vekbenalaktotta ki a magyar gpi nyelvszet egy jabb kzpontjt. -bensszellta hazai gpi nyelvszet elsmagnvllalkozsa, a MorphoLogic, mely a kilenc-

    venes vektl meghatroz szerepet jtszott a hazai kutatsokban. A -es

    vektl a kiemelt kutatsfejlesztsi tmk kz bekerlt a nyelvtechnolgia is.

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    20/351

    Prszky Gbor

    Eleinte elssorban a fent emltett magnvllalkozs, az MTA NyelvtudomnyiIntzete, valamint az SZTE Informatikai Tanszkcsoportja kutatinak egytt-mkdsben valsult meg tbb alapvetszvegnyelvszeti, illetve elssorbana BME TMIT-en nhny alapvetbeszdtechnolgiai kutats. Az vek folya-

    mn tovbbi szereplk jelentkeztek: az elssorban a mestersgesintelligencia-alkalmazsaival hress lett AITIA s ALL, vagy a fordtstmogat szoveresz-kzk fejlesztsre koncentrl Kilgray magnvllalkozsok, illetve az egyete-mi kutathelyek kzl pedig elssorban a BME MOKK, majd a PPKE ITK.A BME-n, az SZTE-n s a PPKE ITK-n egybknt a -es vektl a nyelv-technolgiai trgyak szerves rszt alkotjk a BSc-, MSc- s PhD-programoknak.-ben megalakult a Nyelv- s Beszdtechnolgiai Platform, amely indulsa-kor nyolc (ksbb tovbbi tz) ipari s kutatsi partnert tmrt rdekkpviseleti

    trsuls volt, annak rdekben, hogy elmozdtsa a hazai nyelv- s beszdtech-nolgia fejlesztst s a mr meglv eszkzk hasznlatt, illetve jvkpet mu-tasson a nyelv- s beszdtechnolgia mint leendiparg szmra.

    . A magyar szmtgpes morfolgia eredmnyei

    A magyar nyelv grammatikjnak viszonylag legknnyebben de semmikppensem knnyen szmtgpesthetrsze a morfolgia. Mivel a ktszintes mor-

    folgiai modell (Koskenniemi ) megjelensig nem volt olyan eszkz, amelyegymagahasznlhatlettvolnaelemzsresgenerlsraegyarnt,amagyarmor-folgiai programok is kt csaldra oszlanak, a szintetizlkra s az elemzkre.A morfolgiai szintetizl rendszerek a magyar szalakok esetben a kt nagyszfajosztly, a nvszk s az igk automatikus toldalkolst vgzprogramokgyjtneve. A ktfle rendszer nem pusztn a toldalkok klnbzsge miatt

    vlik el egymstl klnsen mivel a toldalkok egy rsze (a birtokos szemly-ragoksazigeiszemlyragok)nemisklnbznek , hanem az igazi klnbsganvszk toldalkolsnak meglehetsen tisztn agglutinl s az igei toldalkoksszemosdott, nehezen kielemezhetvoltban van.

    Az elskomolyabb gpi morfolgiai ksrlet haznkban Vargha Dnes ne-vhez fzdik:az sztvezrelt, a Dmlki-szrre(Dmlki)pl szuk-cesszv behatrols mdszervel mkdmorfolgiai elemzse magyar szala-

    Szegedi Tudomnyegyetem

    Budapesti Mszaki Egyetem, Tvkzlsi s Mdiainformatikai Tanszk

    Budapesti Mszaki Egyetem, Mdia Oktat s Kutat Kzpont

    Pzmny Pter Katolikus Egyetem, Informcis Technolgiai Kar

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    21/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    kokat gyakorlatilag nem is elemzett, csak orosz nominlis formkat (Vargha). Sorra vette a vizsgland objektum, pldul egy sztri tmorfolgiai tu-lajdonsgait, majd megllaptotta, hogy a kvnt toldalkok ltal meghatrozottgrammatikai kategrik kzl melyek egyeztethetkssze velk. gy lpsen-

    knt, szukcesszve szkl le a vizsglt objektumokra vonatkoztathat kategrikhalmaza, mg el nemllalegszkebb olyan halmaz, amelybe a vizsglt objektummg beletartozik. Knyi () a magyar fnevek gpi elemzsrl szl rsbanfelsorolta a magyar fnvtpusok teljes paradigmit. Nagyon fontos megjegyez-ni, hogy nem a tvek alakja vagy vltozsa, hanem a paradigmk klnbzsgeszolgltatta ezeket a tpusokat. Melcsuk () magyar fnevek szintzist vg-zmodellje egy thz paradigmatikus alakot volt kpes ellltani. Klauszer() a magyar fnevek szintzist a Papp-fle Szvgmutat Sztr elkszlte

    eltt nem alapozhatta a teljes nyelvi anyagra, hanemcsak egy korbbi a Nemes-fle gyakorisgi sztr (Nemes ) segtsgvel kivlogatott , kb. elemettartalmaz szjegyzkre. gy az ebbl elvonatkoztatott trvnyek nem voltakmaradktalanul helyesek, de arra mindenkppen jk voltak, hogy ksbbi szint-zisksrletek alapjul szolgljanak. A rendszer a fnevekegyesszmtrgyesetbeli,tbbes szm alanyesetbeli s a birtokos ragozs egyes szm . szemly toldalkaithz val kapcsoldsnak megfigyelsein alapul. Stein fnvszintetizl rend-szere szintn a debreceni szmtgpes nyelvszeti munkacsoport munkjnakeredmnye volt (Stein ). Jnoska igeszintzise aSzvgmutat Sztr(Papp

    ) iget-alaptpusaira pl, br annak knyv formban val megjelentetseeltt kszlt el szintn a debreceni szmtgpes nyelvszeti munkacsoport kuta-tsaknt (Jnoska ). A csoport vezetje, Papp Ferenc -os fnvszinteti-zlsi elkpzelsvel minden hinyossga ellenre j kiindulpontot szolgl-tatott ahhoz, hogy -re a kutats berjen, s a szerza kor legtkletesebb al-goritmusnak lersaknt kzlje. Ez a megolds az rtelmez sztr teljes anya-gra ptett gondos elemzmunka eredmnyeknt (Papp ) mr mentes volta korbbi gpi morfolgiai modellek hibitl. A Papp-fle modell tulajdonkp-pen nem is tvekre, hanem a lehetsges sztvek alapjul szolgl hrom bzisrapl: ezek segtsgvel egy ragozsi tpusba azok a sztvek tartoznak, amelyekugyanazon sorszm bziselemhez a megfeleltoldalkmorfmk azonos al-lomorai kapcsoldnak. Egyes toldalkok csak egy-egy konkrt bzishoz jrul-hatnak, de vannak klnbzttpusok esetn klnbzbzishoz kapcsoldtoldalkok is. A ttpusra jellemz, hogy melyik bzisa milyen jellegtoldalkokfelvtelre alkalmas. Vsrhelyi () igeszintzise a Vargha Dnes ltal kidol-gozott szukcesszv behatrols mdszern alapult (Vargha ). Lugosin igeszintetizl modellje a szemlyragos alakokon s igeneveken kvl mg a hat,

    mveltets szenvedalakok, ill. ezek tovbbtoldalkolt forminak ellltsra

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    22/351

    Prszky Gbor

    is alkalmas volt. Az Elekfi-fle alaki rendszer az rtelmez sztr igit egyms-tl tulajdonkppen sokszor csak minimlisan eltr ragozsi tpusokba sorolja,gy a rendszer segtsgvel kapott toldalktmbk kzvetlenl a thz jrulnak,mindssze a hasonuls, a hangkiess, illetve -beszrs jelent aprbb nehzsget.

    Pajzs () morfolgiai szintetizl programjnak sztri informcii szintn atvarinsok ragozsi tpusba val sorols nlkli ellltst szolgljk, csak itt attpusba tartozs a valdi toldalk-elhangzkkal kiegsztett tvet jelenti.

    A magyar nyelvszalakok morfolgiai elemzsre kszltGZoLajmo-dell (Prszky et al. ) jobbrl balra halad a sz belsejben. Az algoritmusnemcsak a tovbbi balra levtoldalkokra s a lehetsges tvekre tesz hipotzi-seket, hanem ezek morfofonolgiai tulajdonsgaira is. A szablyok tulajdonkp-pen logikai lltsok, s a megfelellltssorozat bizonythatsga jelenti a he-

    lyes morfolgiai elemzst. A rendszer ilyenfajta interpretcijt a megvalstsnyelve, a Prolog logikai programnyelvsztnzte (Sntn-TthSzeredi ).A GZoLaj rendszer igealakok elemzst is vgezte, m mivel az igei paradig-ma egyes elemei nominlis toldalkokat is felvehetnek,az igei vgzdseknekgykapott kt csoportjt elklntettk egymstl. A nem nominlis igei toldalkokrendszere finitum vgzdsekbl, ragozott s puszta infinitvuszokbl, valaminthatrozi igenevekbl ll. A finitum vgzdseket s az infinitvuszi ragozst azeljrs komplex toldalkokknt kezeli. Ennek oka a magyar igeragozs mr tbb-szr emltett, flektlba hajl, a nvszi ragozsnl kevsb agglutinl jellegze-

    tessgeiben keresend.A mai napig a gpi morfolgia terletn a legtfogbb szalaktani rendszer

    a magyar nyelvhez az -ben elksztettHumor(High-speed Unification Mor-phology)morfolgiai elemzprogram volt. A rendszerhez egy ler formanyelvis tartozott, mely a MorphoLogic cg els tudomnyos eredmnynek tekinthet(PrszkyKis ; PrszkyMernyi ). Ennek a szmtgpes szalaktanirendszernek a kidolgozshoz a magyar szavaknak olyan jellegs rszletessgosztlyozsa volt szksges, amely korbban nem volt mg kidolgozva (Prszky). A program bels sszetevs szerkezet nlkli lapos morfsorozatokkntelemzi a szavakat. Ennek az az oka, hogy a program regulris sznyelvtant tar-talmaz, amely egyfajta determinisztikus vges llapot automataknt van imple-mentlva. Ez egyrszt nagy sebessget biztost, msrszt elkerli a sok irrelevnsszerkezeti tbbrtelmsg ellltst, amit a megfelelkrnyezetfggelemzgenerlna, pldul a tbbszrsen kpzett sszetett szavak esetben. Az elem-zolyan morfokat keres a sztrban, amelyeknek a felszni alakja illeszkedika megadott sz mg elemzetlen rszre. A lexikon nemcsak morfokat, hanemsszevont morfsorozatokat is tartalmaz, amelyeket az elemzgy egy lpsben

    ismer fel. Elemzs kzben a program ktfle ellenrzst hajt vgre (gyakorlatilag

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    23/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    ez a program nevben szerepl unifikcis rsze a formalizmusnak): egyrszt lo-klis kompatibilits-ellenrzst vgez az egyms mellett ll morfok kztt, azazellenrzi a morfofonolgiai s a loklisan ellenrizhetmorfotaktikai felttelekteljeslst; msrszt azt is ellenrzi, hogy az elemzst alkot morfmk a nyelv

    lehetsges szkonstrukcii egyikt testestik-e meg, azaz megfelelnek-e az adottnyelv morfolgiai konstrukciit ler sznyelvtannak. A magyarban pldul at +kpzk + ragok alak morfmasorozatok jl formltak, ugyanilyen kateg-rij morfmk ms sorrendben azonban nem jk. A sznyelvtan nem szomsz-dos sszetevk kztti megszortsok ellenrzstislehetv teszi: pl. a leg- fels-fokjelet egy tle jobbra ll morfmnak (leggyakrabban a-bbkzpfokjelnek)engedlyeznie kell, kzttk azonban szmos ms morfma is llhat. A ksb-biekben a formalizmushoz egy magas szintler nyelv s az ebbl a tnyleges

    Humor-adatbzist elllt eszkzkszlet is csatlakozott (Novk ; NovkM. Pintr ). Ebbe a rendszerbe nagyon knnyen lehet j szavakat felven-ni, mert csak azokat a megjsolhatatlan tulajdonsgaikat kell megadni, amelyekeltrnek a sz alakjbl kvetkezalaprtelmezett viselkedstl. A Humor rend-szer szadatbzisa lefedi az rtelmezkzisztr teljes szanyagt, st mintegytvenezer tovbbi alapszval gazdagtja is. A produktv toldalkolsi ssszet-teli szablyok miatt a programrendszer becslsek szerint tbb millird helyesmagyar szalak elemzsre kpes, ugyanakkora helyignnyel s ugyanolyan se-bessggel, mint a nhny szzezres adatbzis nyelvekhez ksztett elemzprog-

    ramok. A Humor rendszerhez kifejlesztett formanyelv a magyar szalaktan re-latv bonyolultsga miatt ms nyelvekre is knnyen s eredmnyesen alkalmaz-hat volt: a MorphoLogic nyelvi programtermkei ezt az elemzmodult hasznl-tk a lengyel (Woosz ), a cseh, a romn, az angol, a nmet, a francia s aspanyol esetn (PrszkyKis ). Az idk folyamn tbb kutatsi plyzat-ban is urli nyelvszek vezetsvel a MorphoLogic ler formalizmust hasznl-

    va tbb kicsiny rokon nyelv (komi, udmurt, manysi, tundrai nyenyec, nganaszanstb.) morfolgijnak lersa is megvalsult (PrszkyNovk ).

    A BME MOKK-ban kidolgozotthunmorph (Trn et al. ) nylt forrs-kd, nyelvfggetlen morfolgiai elemzhelyesrs-ellenrzsre, sztvestsres morfolgiai elemzsre egyarnt hasznlhat. A hunmorph keretrendszer h-romf rszblll:egynyelvfggetlenvgzdskezelbl,egylexikaiadatbzisbl(valjban egy morfolgiai nyelvtanbl) s egy magas szintler formalizmus-bl, illetve az ennek mkdtetshez szksges elfordtbl.

    A nyelvtechnolgiban van egy, a morfolgihoz szorosan kapcsold, maz elmleti nyelvszetben nem szereplterlet, ami elmleti nyelvszeti krk-ben magyarzatra szorul: a szfaji egyrtelmsts. Ez a kategria azrt nem l-

    tezik a nyelvtudomny ms terletein, mert az ember szmra egy tbbrtelm

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    24/351

    Prszky Gbor

    sz rtelmezsekor mindig ltezik olyan nyelvi szint, ahol csak egyetlen szfa-ji rtelmezse van az illetsznak. A morfolgiai tbbrtelmsgek kezels-ben mindig segt a szintaxis, a szemantika vagy a pragmatika, vagy valami kl-skrlmny segtsgvel el tudjuk klnteni az egyik szfajt a msiktl (Pr-

    szky ). A szmtgpes mdszerek sokszor nem lpnek t a magasabb nyel-vi szintekre, de az adott nyelvi szinten elvrhat volna tlk a szveg egyrtelmkdolsa. A morfolgiai elemzs tbb lehetsges felbontsbl ki kell teht v-lasztani azt az egyet, amely az adott krnyezetben szerepel. A magyar nyelvvelkapcsolatos szfaji egyrtelmstmdszerek kutatsa tbb mint tzves mltranz vissza: szablyok alapjn dolgozott Megyesi () Svdorszgban, klnf-le valsznsgszmtsistatisztikai mdszereket alkalmazott Oraveczs Dienes() a Nyelvtudomnyi Intzetben, Kuba et al. () Szegeden, Halcsy et al.

    () a BME-n, valamint legutbb Orosz () a PPKE-n.

    . A magyar szmtgpes szintaxis eredmnyei

    A morfolgiai rendszerek vilghoz kpest kisszm s meglehetsen szernykpessgszintaktikai elemzs generl modell kszlt a magyar nyelvre. Mi-

    vel kezdetben az oroszmagyar gpi fordts megvalstsa volt a cl, a magyarszvegek szintetizlsa llt a kutatsok elterben, s ezt mindssze nhny k-

    srleti jellegprblkozs kvette. A magyar szvegek szintaktikai szintzise ahatvanas vek elejnek gpi fordtsi lzban fontos kutatsi terletnek szm-tott, m egy-egy rszterlet tanulmnyozsn tl az idszak jelents eredmnyeknlkl zrult. Szintn a hatvanas vekben, Vargha Dnes elkpzelsei alapjn azMTA Szmtstechnikai Kzpontjban indult meg az elsautomatikus mondat-tani elemzst vgz program kidolgozsa. Az eljrs alapjul Dmlki () tet-szleges jelsorozatok felismersre kidolgozott algoritmusa szolglt. A Vargha-fle felfogsban a nyelvtan nem a hagyomnyos rtelemben vett nyelvtant je-lenti, mivel nem clja a mondatok s a nem mondatok megklnbztetse k-pessgnek lersa. Annak, hogy a mondat a nyelvhez tartozik-e vagy sem, annyikze van a nyelvtanhoz, mint egy tny igaz vagy hamis voltnak egy rla szllogikai lltshoz. Vargha megllaptja, hogy a szabad szrendnyelvek elem-zje nem hasznlhat transzformcikat, mert azok vagy nem llthatk elis-mert transzformcik (pl. a trls) inverzeknt, vagy a szerkezet ismerete nlklnem alkalmazhatk. Maga az eljrs morfolgiai elemzssel kezddik,saszvegmorfmi helyett a szintaktikai elemzmr csak kategriakdjaikkal tallkozik.

    Hell Gyrgy a hetvenes vek elejn a BME Idegennyelvi Intzetben foglal-

    kozott magyar mondatok szintaktikai elemzsvel is: elkpzelse a fggsgi le-

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    25/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    rson alapult. Ksrleti elemzalgoritmusa csak egyszer, ellipszismentes mon-datokat kezelt. Gyakorlati megfigyelsekre plelemzprogramjt az Egyete-mi Szmtkzpont RAZDAN- gpn implementltk, gpi kdban (Hell ).Prszky s Tth () szintaktikai elemzje szintn csak a ksrleti stdiumig

    jutott: az ELTE- gpn fut FORTRAN nyelvprogram egyszerbvtett(vesszt nem tartalmaz) magyar mondatok nyelvtani elemzst vgezte.

    AMorphoLogicels ksrletimondattanielemzjnek, a HumorESK rend-szernek (Prszky ) a segtsgvel valsult meg egy rvidhrek elemzs-re ksztett rendszer, a NewsPro (Prszky ). A kutats a MorphoLogic,az MTA Nyelvtudomnyi Intzete s a SZTE Informatikai Tanszkcsoportjnakkzs projektjben zajlott, s eredmnye egy olyan ksrleti elemzvolt, amelyegymondatos hrekbl volt kpes informcit kivonatolni. A program gazdasgi

    hreket kategorizlt: mintegy n. hrkeretet klnbztetett meg. Az eml-tett szintaktikai modul olyan mondatszintelemzst ignylkutats alapjul isszolglt, mint a pszicholgiai szvegek elemzsre irnyul projekt a Pcsi Tudo-mnyegyetemPszicholgiaiTanszkesaMorphoLogicegyttmkdsben.Azelkszlt LinTagrendszer magyar nyelvpszicholgiai narratvumok nyelvi el-elemzst vgzi (LszlEhmann ). A program rszleges, felszni mondat-elemzs tjn ksrli meg a pszicholgiai kutats szempontjbl relevns nyelvimarkerek felismerst. A ksbbiekben a Lszl Jnos vezette pszicholgiai ku-tatcsoport s az MTA Nyelvtudomnyi Intzet kutati az albb rszletesebben

    emltettNooJ rendszert s a MetaMorpho (szintn lsd albb) nyelvi elemzseitissszekapcsolva megindtottk a narratv pszicholgiai elemzsben a szeman-tikus szerepek vizsglatt (Ehmann et al. ).

    Az ezredfordul elsveiben elkszlt egy msik, s a jelenleg is legt-fogbbnak tekinthet, a gyakorlatban is mkdmondatelemzrendszer is: aMoose(Prszky et al. ). Ennek segtsgvel tovbbi olyan j alkalmazsiterleteken sikerlt mondattani megoldsokat ajnlani, ahol nemcsak az elem-zs, hanem az azonnali eredmnygenerls is fontos. Ilyen volt pldul maga aMetaMorpho gpi fordt rendszer is. Az elemzrdekessge a szabad frzis-rendmagyar nyelv klnfle szintaktikai funkcij nominlis szerkezeteinekbegyjtst vgzalgoritmus (Mernyi ). Ennek segtsgvel a magyar saz angol nyelv jelents felszni klnbsgei ellenre egyazon mkdtetforma-lizmus segtsgvel sikerlt a szintaktikai elemzst megoldani.

    A BME MOKK ltal ksztetthunparsszintaktikai elemz(Babarczy et al.) bemenetknt egy szvegfjlt kap mondatokkal, kimenetknt pedig meg-adja a mondatok szintaktikai fjt egyszerzrjelezses jellsben (illetve egykzvetlen szerkezetmegjelentsre szolgl grafikus formban).

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    26/351

    Prszky Gbor

    A Pcsi Tudomnyegyetem szmtgpes nyelvszeti kutatcsoportjnak(Alberti ) kutatsi clja ketts: egyrszt elmleti, egy sajt kidolgozs to-tlisan lexikalista grammatika ltjogosultsgnak s egzaktsgnak bizonytsa

    volt; msrszt gyakorlati, azaz egy komoly szemantikai komponenssel rendelke-

    zelemzprogram megalkotsa is ott lebegett a clok kztt. Kutatsaik sornelksztettek egy Prolog programnyelvelemzt is, amely az elmletet volt hiva-tott demonstrlni, m amely csak igen kis szm adattal mkdtt. A programa jl formlt (angol vagy magyar nyelv) mondatokhoz morfofonolgiai, szin-taktikai s szemantikai reprezentcit trst, s a kt nyelv egyszerszerkezeteikztt egyfajta gpi fordtst is megvalst. Napjainkban a munklatok aReALISprojekt keretben folynak (Alberti ), amely mr egy nagy mennyisgada-tokkal is mkdni kpes adatbzis-szerkezetet gr a szintaktikai s szemantikai

    elemzs megvalstsra.ANooJvaljban olyan integrlt nyelvelemzkrnyezet, amely egyarnthasznlhat korpuszlekrdez eszkznek, komplex grammatikapteszkznek,st nyelvszetet oktat eszkznek is. A szovert Max Silberztein fejlesztette kia francia nyelv feldolgozshoz (Silberztein ), de azta mr sok ms nyelv-re is tdolgoztk. A magyarra ta folynak ezzel kapcsolatos fejlesztsek azMTA Nyelvtudomnyi Intzetben. A rendszer meghonostst nemcsak a ro-busztus s gyors vges llapot technolgia indokolja, hanem a fejlesztknek aza szndka is, hogy viszonylag knnyen hasznlhat oktatsi eszkzt is adjanak

    a nem informatikus nyelvszek szmra. Elsmegkzeltsben a NooJ egy gyorskorpuszkezeleszkznek tnik, amely amint betltttnk egy sima formzatlanszveget, mris kszen ll arra, hogy lekrdezhessk regulris kifejezsek segts-gvel. A regulris kifejezsek azonban nemcsak a szavak alakjra, hanem nyelvi(morfoszintaktikai vagy akr szemantikai) jegyeikre is utalhatnak. Ezek az infor-mcik a sztri komponensbl szrmaznak, amely a rendszer kzponti rsztalkotja. A sztr egy-, illetve tbbtag kifejezsek tra, amelyekben szalakok ta-llhatk, a lemmval s tetszleges trstott nyelvi informcival, mindez igenhatkony vges llapot belsreprezentciban. A rendszer egyedi sajtossga,hogy a sztr, a szveg, valamint a szvegre alkalmazott grammatika egyarnt

    vges llapot technolgival van megvalstva. Ami a rendszert szles krben isklnsen hasznlhatv teszi, az a grafikai fellet, amelyen viszonylag egyszer-en szerkeszthetjk s kezelhetjk a lexikai elemek vagy szintaktikai szerkezeteklersra szolgl vges llapot grammatikkat. A NooJ rendszer sztri modul-

    ja azonnal ellltjaaszveg morfolgiai elemzst is. Az egyszerbb szalaktannyelvek esetben ezt gy oldottk meg, hogy az egy-egy szthz tartozsszeskpzett s ragozott alakot ttelesen felsoroltk egy sztrban, ami a magyar mor-

    folgia gazdagsga s produktivitsa miatt nem jrhat t. A magyar vltozat

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    27/351

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    28/351

    Prszky Gbor

    sz morfolgiailag elemzett s egyrtelmstett alakban szerepel. A morfolgiaielemzs a MorphoLogic Humor morfolgiai elemzjvel kszlt, az egyrtelm-sts pedig egy erre a clra kidolgozott statisztikai alap eljrssal (OraveczDie-nes ). -ban megkezddtt az anyag kiegsztse a hatron tli nyelvvl-

    tozatok szvegeivel. AKrpt-medencei Magyar Korpuszmegalkotsban azMTA Kisebbsgkutat Intzete, illetve az MTA Nyelvtudomnyi Intzete koordi-nlsval ngy hatron tli kutatlloms vett rszt: a dunaszerdahelyi GrammaNyelvi Iroda, a szabadkai Magyarsgkutat Trsasg, a Krptaljai Nyelvi Irodas a kolozsvri Szab T. Attila Nyelvi Intzet.

    AWebkorpusz teln szletett aSzszablyaprojekt keretben a BMEMOKK-ban: tbb mint , millird szavval (szretlenl, illetve milli meg-szrt szval) ez jelenleg a legnagyobb magyar nyelvkorpusz. A gyjtemny

    milli magyar weboldalbl ll. A tbbszrsen elfordul szvegllomnyokat,illetleg a hasznlhat szveget nem tartalmaz llomnyokat kiszrtk belle.A szvegek teljes llomnyt alapul vve elllt egy gyakorisgi sztr is, amelya klnbzszrsi szintek mellett tartalmazza az egyes szalakok gyakorisgt.A Webkorpusz ktfle formtumban tlthet le: a szvegeken alapul gyakoris-gi sztrknt s az eredeti szvegeksszessgeknt.

    Mivel a szalaktani szint magban hordozza a tbbrtelmsget, a szfajegyrtelmmegllaptshoz a sz krnyezetnek tanulmnyozsra, illetve azezt lehetv tev szvegkorpuszokra van szksg. Ezek megvalstshoz a SZTE

    Informatikai Tanszkcsoport s a MorphoLogic egyttmkdsvel alakult kon-zorcium s kzttSzeged Korpusznven elksztett egy magyar ter-mszetes nyelvi szvegadatbzist, valamint egy, a szfaji egyrtelmstst tmo-gat szoverrendszert (Csendes et al. ). A korpusz a szvegeket strukturl-tan trolja (cikk, bekezdsek, mondatok). A szveg minden egyes szava mellettszerepel a Humor morfolgiai elemzkimenete, amely a lehetsges szfaji k-dokat s sztveket tartalmazza, valamint a kzi egyrtelmstssel kivlasztott,az adott szvegkrnyezetnek megfelelhelyes kdols s szt. A szavak sz-faji kdolsa az eurpai nyelvekre azzal az MSD-kdrendszerrel trtnt, ame-lyet az MTA Nyelvtudomnyi Intzete s a MorphoLogic alaktott ki egy akkormr lteznemzetkzi sztenderd, a MULTEXT alapjn aMULTEXT-EASTnevCopernicus-plyzatban. Azt kisebb tmakrbl szrmaz szpirodal-mi, publicisztikai, szmtstechnikai, jogi szvegekbl, valamint tizenvesek r-

    vid rsaibl ll ,sszessgben egymilli szvegszt tartalmaz magyar kor-pusz a TEI nemzetkziszvegkdolsi ajnlsnak megfelel XML-formtumbankszlt. A korpusz . vltozatt egy ezer szbl ll,zleti szvegeket tartal-maz rszkorpusszal egsztette ki a gazdasgi szvegek elemzst vgzNews-

    Prorendszert (Prszky ) megvalst s az MTA Nyelvtudomnyi Int-

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    29/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    zetbl, a Szegedi Tudomnyegyetembl s a MorphoLogicbl ll konzorci-um. Ezzel ltrejtt a korpusz , milli szvegszavas s ezer rsjel mret. verzija. Az annotlst kveten a konzorcium kutati megvizsgltk a gpitanulsi algoritmusok alkalmazhatsgt a lapos szintaktikai elemzs problm-

    jra. Az algoritmusok hatkony mkdtetshez fnvicsoport-felismerszab-lyokat vontak ki a korpuszbl, majd ezeket szakrtk ltal definilt szablyokkalkombinltk. ASzeged Treebanka Szeged Korpusz mondatszerkezeti egysge-inek bejellst is tartalmaz vltozata (Csendes et al. ), a Szeged Depen-dencia Treebankpedig a Szeged Treebank fggsgi mondatszerkezetekkel valreprezentcija (Vincze et al. ).

    Az egynyelvkorpuszok mellett az utbbi idben egyre tbb figyelem ir-nyul az n. prhuzamos korpuszok kutatsra. Prhuzamos korpusznak olyan

    kt-, esetleg tbbnyelvkorpuszt neveznk, ahol az egyik nyelvkorpusz szve-gei a msik szvegeinek fordtsai. Az ilyen korpuszok kutatsnak clja az, hogykiaknzza s jrafelhasznlja a fordtsokban megtestesl emberi tudst. Ez k-lnfle szmtgpes alkalmazsok, jelesl a gpi fordts vagy a szmtgppeltmogatott fordts szmra rendkvl rtkes, de a fordtstudomny is egyreinkbb tmaszkodik az ilyen korpuszokra. A mr emltett MULTEXT-EAST pro-

    jektum keretben elkszlt egy prhuzamos korpusz, amely George Orwellcmregnynek angol eredetijt s annak szmos nyelvre, kzttk a magyarra

    val fordtst is tartalmazza (Dimitrova et al. ). A korpusz rtkt nveli,

    hogy akrcsak az MNSZ s a Szeged Korpusz, ez is gondosan van nyelvileg an-notlva: minden szvegsz morfolgiailag elemezve s egyrtelmstve van.

    A Hunglish Korpusz egy angolmagyar ktnyelv mondatgyjtemny,amely az MTA Nyelvtudomnyi Intzete s a BME Mdiaoktatsi s Kutat Kz-pontja kzremkdsben szletett (Halcsy et al. ). Ahuntokenprogrammagyar nyelvszvegeket mondatokra, azon bell pedig n. tokenekre (szavak-raskzpontozsi jelekre) bont. Lexikonptshez, informci-visszakeresshez,szvegbnyszathoz s sok egyb termszetesnyelv-feldolgoz alkalmazshoz ishasznlhat. A hunalign egy szabadon felhasznlhat automatikusmondatszink-ronizl program prhuzamos korpuszok ptsre.

    Az utbbi vekben jabb prhuzamos korpuszok is jelentkeztek: ilyen aSzegedParalell kzzel prhuzamostott angolmagyar korpusz(Tth et al. ),illetleg aHunOrmagyarorosz prhuzamos korpusz (Szab et al. ).

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    30/351

    Prszky Gbor

    . A magyar szmtgpes lexikogrfia eredmnyei

    A magyar lexikogrfia szmtgpes munklatai elssorban az irodalmi nyelvvizsglatra irnyulnak, legtbbszr szerzk szerinti bontsban. Az albbiakban

    a magyar szmtgpes lexikolgiai kutatsok kzl azokkal foglalkozunk, ame-lyek a magyar nyelv szmtgpes rendszerekben val alkalmazshoz kszltek,

    vagy megfeleltalaktssal ahhoz felhasznlhatak.A magyar nyelv rtelmez sztra cmszbl ll anyagt -tl

    a debreceni KLTE oktati s hallgati vittk lyukkrtyra Papp Ferenc vezets-vel. Magt a kdokkal kiegsztett s lyukkrtyn trolt anyagot szrmazsi he-lye utn Debreceni szaurusznak is nevezik (Papp ). Az rtelmez sztranyagnak elksztettk a szalakok vge szerinti rendezst, az anyag nyelvtani(elssorban morfolgiai) szempontok szerinti kdolst, statisztikkat a nyelv-tani kdok alapjn, valamint a bent levinformcikhoz hozzvettek tovbbi, jszempontok szerinti kdokat. Az anyag -ben knyv alakban is napvilgot l-tott A magyar nyelv szvgmutat sztra cmmel (Papp ). Ezzel gyakorla-tilag egyidejleg, Wolfgang Veenker nmet nyelvsz knyv alakban megjelentet-te a magyar toldalkok s toldalkkombincika tergojegyzkt (Veenker ).Ebben nyelvnk ragjai, jelei, st kpzi is megtallhatk, mghozz minden le-hetsges, illetve a szerz ltal lehetsgesnektartott kombinciban. A nyolcvanasvekben mind a Szvgmutat Sztr, mind a Veenker-fle toldalk-adatbzis

    eredeti lyukkrtys formjban megtallt s jrafelhasznlhatv tett anyag-bl az MTA SZTAKI akkori igen korszerIBM szmtgpn lekrdezhetadatbzis kszlt (Kornai ), amely innen jutott el az akkor mr ledezsze-mlyi szmtgpek vilgba.

    Az rtelmez kzisztr j vltozatnak kidolgozsakor az MTA Nyelvtu-domnyi Intzetben felmerlt az igny, hogy ez a sztr mr korszer, forma-nyelven kdolt elektronikus vltozatban szlessen meg. Az ehhez szksges ku-tats a teljes sztr lexikai adatbziss alaktst tzte ki clul. A feldolgozs sornszmos igen munkaignyes feladatot kellett elvgezni annak rdekben, hogy az

    emberi olvassra s megrtsre kszlt szcikkekbl nyelvtechnolgiai felhasz-nlsra alkalmas lexikai adatbzis alakuljon ki.

    A nagykznsg szmra csak knyv formban volt elrhetA magyarnyelv gyakorisgi sztra, amely egy ezer, . szzadi szpirodalmi szve-gekbl val szvegszt tartalmaz anyagon nyugszik. Ebbl az anyagbl az idkfolyamn tbbfle, gpi statisztikai mdszerekkel kialaktott gyakorisgi lista k-szlt,amelybekerltazMTASZTAKImremltettadatbzisbais(Kornai).

    Az MTA -ben hatrozatban dnttt arrl, hogy ltre kell hozniA ma-

    gyar nyelv nagysztrt, amely eredetileg a legutbbi t vszzad, jelenleg azon-

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    31/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    ban az elmlt v magyar nyelvnek szanyagt tartalmaz nyelvtrtneti sz-tr. Mintegy ezres cmszllomnyt egysszesen milli szvegszt tartal-maz szvegkorpuszbl szmtgpes segdlettel lltjk el. Az anyaggyjts,azaz a sztri cdulk kzrsos ksztse korbban mintegy hetven ven t folyt,

    aminek eredmnyekppen az -es vekre , millisra becslt sztri cdu-latmeg gyltssze. A Magyar Tudomnyos Akadmia -ben hatrozatbandnttt a nagysztri munklatok folytatsrl, s egyben azt is kimondta, hogya sztr munklatait szmtgp segtsgvel, az rsbelisg kezdettl napjainkigvel szmtgpesszveges adatbzis, azaz szmtgpes korpusz alapjn kell v-gezni (Pajzs ). Ez a dnts nemcsak a szmtgpes lexikogrfia intzmnyesmegersdshez vezetett, hanem egyben ezeken az alapokon indult el haznk-ban a korpusznyelvszet is. Az Akadmiai Nagysztr ma mr korszerXML-

    adatbzisknt kszlanyagbl knyv alakban eddig ngy ktet jelent meg.Az MTA Nyelvtudomnyi Intzetben idkzbenmegvalsultaknyvalak-ban korbban megjelentMagyar ragozsi sztr(Elekfi ) adatbziss valtalaktsa is, mely eredetileg az rtelmezkzisztr szmra kszlt ragozsitmutatbl lett egynll, a sztr teljes szcikkllomnyt feldolgoz sztr.Ahhoz, hogy a Magyar ragozsi sztr gazdag tartalmt szmtgp szmra ke-zelhet alakrahozzk, a sztrban rejl implicit informcit explicitalakrakellettalaktani. Ennek elslpseknt minden egyes paradigmatblt elkellett llta-ni, azaz azrkltt jegyeket az adott paradigma egyni jegyeivel egytt le kellett

    generlni a talakvltozatok pontos feltntetsvel. Tovbbi feladat volt a tolda-lkok lehetsges kombinciinak ellltsa is, valamint a sztr eredeti cljaintl mg a kpzket is bevontk az alakvltozatok lersba.

    Az MTA Nyelvtudomnyi Intzetnek Korpusznyelvszeti Osztlyn a-es vekben ltrejtt aVonzatsztr-adatbzis. Ez minden olyan vonzat

    jelleginformcit tartalmaz, amely a magyar nyelv szmtgpes szintaktikaielemzshez szksges lehet. Szanyagt a Magyar Nemzeti Szvegtr leggya-koribb ezer szava, kzponti rszt pedig egy tbb mint hromezer elemigeiadatbzis alkotja. A vonzatokat felszni esetvgzdsk szerint (pl. nominatvusz,akkuzatvusz s mg legfeljebb kt vonzat), a tematikus szerep megjellse nl-kl tartjk szmon. Emellett megszort szablyok is vannak, amelyek a mondatfbbsszetevinek (alany, trgy) jegyeire hivatkoznak (pl. lalany, absztrakttrgy stb.). A vonzatkeret mellett feltntettk a fmondat s az ige komplemen-seknt szerepltagmondat kztti koreferencilis viszonyokat is.

    Napjaink egyik legfontosabb nyelvtechnolgiai clja, hogy a szavakat s je-lentsket egy egysges, nyelvi s vilgismeretet tartalmaz fogalmi rendszer-ben helyezzk el. Az egyik legszlesebb krben hasznlt ilyen fogalmi rendszer

    a Princeton Egyetemen ksztettWordNetadatbzis (Miller et al. ), amely

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    32/351

    Prszky Gbor

    tbb mint szzezer nyelvi egysg kztt definil fogalmi viszonyokat. A vllal-kozs annyira sikeresnek bizonyult, hogy tbb eurpai nyelvre is adaptltk azEuroWordNet projektum keretben. A magyar nyelv WordNethez kapcsolsvalfoglalkoz elsksrletek a -es vek elejn indultak el, amikor a Morpho-

    Logic kutati mdszereket kezdtek keresni, illetve kidolgozni arra, hogy az angolnyelvWordNet adatbzist elszr csak a fnvi rszt minl automatiku-sabb mdon lehessen tltetni magyarra (PrszkyMihltz ). Az eljrsmgtt az a hipotzis ll, hogy a WordNet-rendszerben kdolt relcik tbb-kevsb nyelvfggetlenek, ezrt teht, ha a rendszer csompontjain ll lexikaielemekhez tallunk magyar megfelelt, a kztk lvfogalmi kapcsolat az angolWordNetbl egyszeren trkthet. A ksrleteket egy mr tbb intzmny l-tal koordinlt kutats kvette: aMagyar WordNet(sokszor: HuWN) teljes lt-

    rehozsra irnyul munka s kztt folyt a MorphoLogic, az MTANyelvtudomnyi Intzete s a SZTE Informatikai Tanszkcsoportja kzremk-dsvel (PrszkyMihltz ; Mihltz et al. ). Idkzben tbb hazai in-tzmny kutati gy tltk meg, hogy a szemantikai jegyek kdolst a jvbenszerencss volna egysges formban vgezni. Ezrt s kztt folyt egyezt megclz projekt, aMagyar Egysges Ontolgia, az NKFP tmogatsval.

    . A magyar szmtgpes nyelvszet eredmnyei a gpifordts terletn

    A szmtgpes nyelvszeti kutats klasszikus problmja a gpi fordts, amely-nek termszetesen csak tudomnyos, szakmai, esetleg kznapi szvegek (hrek,hirdetsek stb.) lefordtsban vagy megrtsben van szerepe. A kutatsok nemtudnak s nem is szndkoznak kiterjedni a szpirodalmi szvegek szmtgpes

    vizsglatra s a mfordtsra. Ebben az irnyban, teht a hagyomnyos, teljesengpi ton vgzett fordtrendszer fejlesztse irnyban is megindultak munk-

    latok. Az MTA Nyelvtudomnyi Intzetben az EU . keretprogramja ltal fi-nanszrozottMATCHPADprojektum keretben folyt egy nagyszabs ksrletegy angolmagyar fordtrendszer kifejlesztsre (Senellart et al. ). A szo-

    vertechnolgit a francia Systran cg nyjtotta, amely egyike az elsgenercisfordtrendszereknek, s jelenleg szinte az egyetlen olyan ltalnos cl gpi for-dtrendszer, amely bizonytottan jl mkdik. A magyar nyelv ehhez szksgeslersa az MTA Nyelvtudomnyi Intzete s a MorphoLogic egyttmkds-

    vel kszlt. A rendkvl gazdag morfolgia, az indoeurpai nyelvektl nagy-mrtkben klnbzelvmondatszerkeszts igazi kihvst jelentett a francia

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    33/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    szovercg szmra is, s bebizonyosodott, hogy a nemzeti nyelvek technolgiaimegoldsait nem lehet automatikusan importlni ms nyelvek bevlt rutinmeg-oldsaibl.

    A MorphoLogic ltal -tl kezdden fejlesztettMetaMorpho(Pr-

    szkyTihanyi ) gpi fordtrendszerben az igazi jdonsgot egyrszt a sza-blyok s a pldk egysges kezelse jelenti, msrszt a rendszer a hagyom-nyos fordtprogramoktl eltr elvet hasznl: gyakorlatilag a forrsnyelvi elem-zs mellktermkeknt jn ltre a clnyelvi szveg. A fejlesztk nyelvi mint-nak neveznek minden olyan szimbolikus lerst, amelyet a szvegtest valamelyrszre helyezve a benne szereplszimblumok illeszkednek a szveg megfelelelemeire, legyen ez az illeszkeds betszerinti, szfaji vagy jelents alap, vagy anyelvsz ltal definilt egyb megfeleltets. Ha a mintk rvidek s specifikusak,

    akkor ms elmletekben sztri elemeknek hvjkket; ha hosszabbak, akkorkollokciknak vagy idimknak. Ha viszont kevsb specifikusak, akkor ezeka mintk nem lexiklis, hanem strukturlis szegmensek, azaz nyelvi szerkeze-tek, cmkzett zrjelezsek. A tbb mint ktszzezer szablysmt tartalmazMetaMorpho mindezeket a mintkat egysgesen kezeli, illeszthetsgk sike-ressge esetn lehetv teszi a hozzjuk tartoz clnyelvi mintk megjelenst.A rendszer a clnyelvi oldalon a mintk egymsba ptst egyfajta fggvny-alkalmazsknt oldja meg. A teljes MetaMorpho-formalizmus s a mkdtetrendszer, valamint az angolmagyar nyelvi adatbzis a MorphoLogic kutatinak

    sajt fejlesztse, a magyarangol nyelvi adatbzis ptshez az MTA Nyelvtu-domnyi Intzete s a Szegedi Tudomnyegyetem kutati csatlakoztak egy er-re szolgl plyzat keretben. A program ingyenesen hasznlhat ta awww.webforditas.hu weboldalon, valamint az ennek a programnak az alaptle-tre pls (pp ezrt) magyar kutatk vezette nemzetkzi konzorcium ltal elejn publikuss tett www.itranslate.hu weboldalakon is. Ezeken a ma-gyar nyelv mr nemcsak az angollal, hanem az angolon keresztl ms kutat-partnerek angolX nyelvmoduljainak a kiegsztsvel sok vilgnyelvre, sgyakorlatilag azsszes eurpai nyelvre, illetve ezekrl a nyelvekrl magyarra iskpes fordtani.

    . A magyar nyelvtechnolgiai kutatsok gyakorlatieredmnyei

    A szmtgpes nyelvszeti alkalmazsok gyakorlati jelentsgt az adja, hogyidkzben a szmtgp alapveten s elssorban a kinyomtatand vagy fel-

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    34/351

    Prszky Gbor

    olvasand s egyre inkbb elektronikus formban felhasznlt dokumentu-mok ellltsnak eszkzv vlt. A Humor morfolgiai lerson alapul helyes-rs-ellenrzknt bevezetettHelyes-e?, valamint a szintn a kilencvenes vekelejn kidolgozott Nyelvsz ksbb Lektor (Seregy ) valjban mg csak

    szellenrzk voltak. A szszinthelyesrs-ellenrznekcsltsa van, hiszenmindig csak azt az egy szt ltja, amit odaadott neki a hv program; fogalmasincs az elzs a kvetkezszavakrl. A fentiekkel szemben, ha valaki mondat-szinten ellenriz, akkor tbb mindent lt, kombinlni tudja a mondat szavainaknyelvi tulajdonsgait, s ezltal bonyolultabb jelensgeket, egyberstklnrst,

    vesszhibkat is kpes kezelni. Ezt a fejlesztst vgezte el a MorphoLogic aHe-lyesebbrendszer kidolgozsakor (Naszdi ). A kifejlesztett mdszer az n.rszleges szintaktikus lerssal adja meg az egyes hibajelensgek formlis szab-

    lyait. A mondatszinthelyesrs-ellenrzjelenleg krlbell ngyezer szablyttartalmaz, de jabb jelensgek lersval a korbbi szablyok mdostsa nlklis bvthet. A magyar elvlasztst nem lehet az elvlasztsi szablyok puszta g-pi kezelsvel megoldani. AHelyeselelvlaszt rendszer (PrszkyKis ),amely a megjelense utn hamarosansszeplt a Helyes-e? helyesrs-ellenr-zvel, a sztagols tkletes megoldshoz a Humor morfolgiai elemz progra-mot hasznlja. Ennek a feladata ebben az esetben az egyes szalakokat felptmorfmk hatrainak megtallsa. A krdses szalak morfolgiai elemzse se-gtsgvel megllapthat, hogy az elvlaszts szempontjblsszetett sz-e, s

    ha igen, melyek azok a morfmahatrok, amelyek fellbrljk az egyszersz-tagolssal kapott elvlasztsi pozcikat. A vlasztkos fogalmazs tmogatsraa MorphoLogic kidolgozott egy toldalkol szinonimasztrt, aHelyetterend-szert (PrszkyTihanyi ). Ez hrom, nyelvi szempontbl fontos funkcit

    valst meg: felismeri a forrs-szalak sztri tvt, megkeresi a forrssz je-lentskreit, s az azokhoz tartoz szinonimkat; majd visszarja a szvegbe akivlasztott szinonima megfelelalakjt. A bemutatott sz- s mondatszinthe-lyesrs-ellenrzbl, elvlasztbl s szinonimasztrbl ll Helyesekmagyarnyelvhelyessg-ellenrzprogramcsomag ta beplt azsszes magyaror-szgi irodai rendszerbe (PrszkyKis ), st ugyanez a magyar technolgiaa romn nyelv lersra alkalmazva -tl elrhetazsszes romniai irodaitermkben is. Fontos nyelvpolitikai eredmny volt, hogy a MorphoLogic tel-

    jes magyar nyelvhelyessgi csomagja -ben bekerlt a legelterjedtebb irodaiprogramrendszer szlovk nyelvvltozatba is. A szvegekben val keress sze-repe az utbbi idben az internet elretrse miatt jelentsen megntt. A maikeresprogramok egyszerenegyrvidebb betsorozatot prblnak megkeresniegy nagyon hosszban, mghozz minden intelligencia nlkl, a keresett sz-

    vegnek csak azokat az elfordulsait jelezve, melyek pontosan, bethven meg-

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    35/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    egyeznek a keresendbetsorozattal. Ennek a problmnak a kikszblsrefejlesztette ki a MorphoLogic a magyarra s ms nyelvekre a HelyesLem lemma-tizl rendszert (Prszky ), amelyet tbbekkzt a Microso ltal tbb nyelvkeresmoduljba beptett MorphoStemkeresstmogat rendszer is hasznl

    (Prszky ).A nyelvtechnolgiban sokszor van szksgegyszveg nyelvnek az azono-

    stsra. Ha megvan a nyelv, meghvhatk az adott nyelvet kezelni kpes nyelv-technolgiai eszkzk. A nyelvazonostst statisztikai mdszerrel vagy szlistasegtsgvel szoks vgezni, de mindketthz nagy mennyisg, adott nyelvszveget kell feldolgozni. A statisztikai alapnl klnbz mret szrszek el-fordulsi valsznsgbl hozzk meg a dntst, a szlista alap megkzeltsszgyakorisgoksszehasonltsn alapul. Ez utbbi mdszeren alapul rend-

    szert fejlesztettek ki (Nmeth et al. ) a BME Tvkzlsi s Telematikai Tan-szkn (-tl Tvkzlsi s Mdiainformatikai Tanszk, rviden: TMIT). Ezazt hatrozza meg, hogy az adott levl szvege magyar, nmet, illetve angol nyel-

    v-e. A kialaktott rendszer -ban helyesen llaptja meg a dokumentum nyel-vt, amennyiben az tbb mondatbl ll. A MorphoLogic ltal mkdtetett ingye-nes fordtportlon, a www.webforditas.hu weboldalon egy szintn statisztikaialap nyelvfelismer, a LangWitch kerlt beptsre a fordtand szveg nyelv-nek azonostsra.

    A -es vek elejn folyt mg egy rdekes kutats: a felismerprogramok

    folytonos bemenett szegmentlni kpes eszkz kezeli az idben (akr beszd-hanghossz, akr karakterszlessg alapjn) s minsgben alulspecifiklt infor-mcit s a nyelvi modulok prhuzamos kezelsrl is gondoskodik. ARecog-nition Assistantrendszer (Prszky et al. ) elszr egy kzrs-felismerrendszer prototpusnak kialaktsakor kerlt beptsre (Karacs et al. ).

    A szmtgpes, illetve mobiltelefonos gyakorlatban klnbz okok mi-att gyakoriak az olyan magyar szvegek, amelyekben az egybknt kezetesbetket az kezet nlkli legkzelebbi megfeleljkkel rjk (e-levelek, SMS-szvegek). Amennyiben ilyen csonka szvegeket kell felolvastatni egy beszd-szintetiztorral, a felolvass eltt helyre kell lltani az kezeteket. Ezt nevezik au-tomatikus kezetestsnek. A magyarbant olyan kezet nlkli betvan, mely-nek legalbb egy kezetes prja is ltezik. Vannak viszont olyan szavaink is, ame-lyeknek mind az kezetes, mind az kezet nlkli formja rtelmes, ezrt nehzeldnteni, hogy a szveg adott pontjn melyik a helyes (pl.meg, mg). Minlhosszabb egybknt egy sz, annl tbbfle kezetestett vltozatot lehet vonat-koztatni r (termszetesen ezekbl csak nhnyra lehet azt mondani, hogy nyel-

    vileg helyes). A nyelvi szablyokon alapul kezetestmegolds csak a magyar

    kznyelvi szllomnyra vgez sikeres kezetestst, a szemly-, illetve cgnevek-

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    36/351

    Prszky Gbor

    re pldul nem hasznlhat eredmnyesen, knnyen tveszthet. Ilyen feladat-nl kln kivtelsztrakat kell a nevek rtelmezsre kszteni. Magyar nyelv-re -ben kszlt egy automatikus, statisztikai alap kezetestalgoritmus aBME Tvkzlsi s Telematikai Tanszkn az els magyar elektronikus levlfelol-

    vashoz. A statisztikai elemzsek egy milli szavas szvegllomnyon alapul-nak,sasegtsgvelkszlt kezetest -os pontossggalmkdtt(Nmethet al. ). Egy elssorban morfolgiai meggondolsokon alapul kezetestalgoritmus mkdtt a MorphoLogicnak a (ma mr rsban nem hasznlt, desok magyar nyelvjrsban meglev) zrt hangok szvegbeli bejellst vgzprogramjban is (NovkEndrdy ), amelyet ksbb ltalnos kezetestsiproblmk megoldsra is hasznlhatv tettek.

    AMoBiMousesztrrendszer (Clark ; PrszkyKis ) egy sz-

    vegfelismermodul, egy nyelvi elemzs szmtgpes sztrak kombincija.A felhasznl az egrmutatval rmutat a szveg valamely rszre, a program azegrmutat alatti szt s krnyezett elolvassa, s a sz tvt adott esetbena krnyezetben szereplszavakkal egytt gy tovbbtja az ppen aktv szt-raknak, hogy azok a lehetsgekhez mrten, krnyezetfggmdon a sz ak-tulis krnyezetnek megfeleljelentseit adjk csak vissza, egyfajta dinamikusszcikk-elllt modul mkdsnek kvetkeztben. A MoBiMouse rendszerfelletnek, valamint a MetaMorpho fordtprogramnak a kombincija az in-ternetes szolgltatsknt mkdMoBiCATmegrtstmogatfordt, amely

    egy a mondat fltt megjelen buborkban az aktulisan kijellt szt tartalmazteljes mondat azonnali fordtst nyjtja (Tihanyi ).

    . A magyar nyelvtechnolgia eredmnyei a beszdkezelsben

    Az rott nyelvvel kapcsolatos nyelvtechnolgiaieredmnyek azrt olyan fontosak,

    mert az emberrel szemben a szmtgpnek az rott s nem a beszlt nyelv azelsdleges nyelve. Ugyanakkor az egyre emberkzelibb, tovbb az egyre t-gul informcitechnolgiai alkalmazsok ignylik azt is, hogy bizonyos infor-mcikat a gp szban mondjon el (beszdszintzis), illetve, hogy a szmtgpmegrtse az emberi beszdet (beszdfelismers). Ez a terlet a nyelvtechno-lgiai meghatrozst kvetve a beszdtechnolgia. Itt is kivl eredmnyeketmutathat fel a magyar kutats-fejleszts. A beszd mestersges ellltsnak ki-indul alapja a szveg, amit a gp felolvas. A beszd megrtsekor az elhangzakusztikai jelbl kell a gpnek eljutni a nyelvi formhoz. A beszdtechnolgia

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    37/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    alapjainak elsajttshoz ajnljuk az rdekldknek a Nmeth Gza s OlaszyGbor ltal szerkesztett knyvet (NmethOlaszy ). Az akusztikai, fizikai,

    jelfeldolgozsi folyamatok professzionlis kezelsn tl is azonban az a folyamat,amelyben a szvegtl a gpi beszdig vagy a gpi beszdtl az rott szvegig elju-

    tunk, szmos olyan nyelvtechnolgiai megoldst tartalmaz, amelyben a szkebbrtelemben vett nyelvszet is rintett. Az automatikus beszd-elllts egyik leg-nehezebb problmakre a nv- s cmfelolvass j minsgmegoldsa (pldulcgbrsgi adatok lekrse telefonon, tzsdei informcik beszddel val meg-adsa, automatikus telefonos tudakoz a szm alapjn stb.), ugyanis meg kell ha-trozni a nv (cg-, illetve szemlynv) hangz, kiejtsi formjt (ami sok eset-ben nem egyszer), majd a kiejts prozdiai paramtereit (hol legyen hangsly,sznet, milyen dallamformval kell elmondani a krt adatot), vgl ki kell ala-

    ktani az esetleges sztagolsi, betzsi formkhoz a szablyokat. A megoldsranagy mennyisgvals nv- s cmadatot kell feldolgozni, statisztikailag oszt-lyozni, csoportokba sorolni, elemezni s kialaktani a megfelel kiejtsi szablyo-kat, prozdiai formkat. Magyarorszgon az elskomplex nv- s cmfelolvas-ban kszltelaBMETMITfejlesztsben(Nmethetal.)egyautoma-tikus szmszerinti tudakoz alkalmazshoz (mintegy ngymilli telefon-elfize-tadatainak felolvassra). A fejleszts sorn vgzett tesztek azt mutattk, hogya nevek, cgnevek gpi felolvassnl mg fokozottabban rvnyes a j rthet-sg biztostsa (esetleges tlbiztostsa), mint a norml szveges felolvassnl,

    hiszen ennek hinya hibs informciadst eredmnyez. Erre fejlesztettk ki azgynevezett rszletez felolvassi formt (Fk et al. ), amely az elsma-gyar beszlsztagol automatnak is tekinthet. A rszletezfelolvasst krfelhasznl sztagolva hallja az adott nevet, tovbb kiegszt, pontost infor-mcikat is tud krni a nv rsval kapcsolatban, pl. csaldnevek esetben.

    A gpi beszdkelts egyik kulcskrdse a beszd dallam-, hangslyozsi, rit-mikai s intenzitsszerkezetnek (a prozdinak) a helyes megvalstsa. A pro-zdia legfontosabb elemei a szveg alapjn elre jsolhatk. Ilyenek a mondat-dallam, a hangslyos/hangslytalan szavak, a gondolatiegysgetalkotszvegr-szek (szintagmk) hatrai, a beszdsebessg lassulsa/gyorsulsa, a sznetek he-lye s hossza, valamint az tlagintenzits vltozsa. Ez az egyik legbonyolultabbnyelvi technolgiai tmakr, amelyre haznkban inkbb statisztikai alap meg-oldsokat hasznlnak, amelyek a gyakorlatban klnfle kzlekedsi tjkoztatrendszerekben,gyflszolglatoknl ugyangy megtallhatk, mint az interne-ten: a Profivoxrendszer a weben idjrs-jelentseket, vagy ltssrltek szm-ra akr teljes szpirodalmi mveket kpes j minsgben felolvasni (Olaszy et al.).

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    38/351

    Prszky Gbor

    A magyar esetben tbb szz szably biztostja a korrekt szveghang kon-verzit (az angolra pldul tbb ezer ilyen szablyt kell meghatrozni). Az tala-ktsi folyamat eredmnye, hogy a szvegbl kialakul a kiejtendhangsor hang-

    jainak sorozata. Ebbl mrsszellthat a tnylegesen megszlaltathat nyers

    beszdhangsor. A hangsor fizikai megvalstsa ltalban elre eltrolt (emberibeszdbl kivgott) hullmforma-rszleteksszekapcsolsval trtnik. Ebben afzisban is lnyeges szerepe van a nyelvtechnolginak annak kivlasztsban,hogy mik legyenek a beszdhangsort felptoptimlis elemek: hangok, hang-kapcsolatok, sztagok, szavak vagy esetleg ms egysgek (Olaszy ). A be-szd idszerkezetvel kapcsolatos modellkutatsok eredmnyeknt nagymre-tmagyar szadatbzis (, milli sz) kszlt (Olaszy ), amely az ssze-lltott hangfolyam idszerkezetnek a meghatrozshoz alapveten szksges

    volt. Termszetesen a prozdia megvalstshoz is megfelel modellt kellett k-szteni. A modellbl kapott adatok fizikai megvalstshoz fejlett jelfeldolgozsialgoritmusok lltak rendelkezsre (GordosTakcs ), amelyekkel pldul r-ltetheta hangsorra a kvnt dallammenet.

    A gpi beszdfelismers mg a beszdkeltsnl is nehezebb feladat, s cljaltalban az elhangzott hangsor gpi trsa a helyesrsnak megfelelrott alak-ba, illetve egy elre meghatrozott elemhalmazbl trtn kivlaszts az elhang-zotthangsor alapjn, ami parancsszavas vezrls, vagy kulcssz-felismers esetnszksges. A BME TMIT-n vgzett kutatsok kimutattk, hogy a (fonetikai rte-

    lemben) krnyezetfggbeszdhangmodellek alkalmazsval a felismersi hibaa harmadra cskkenthet (Fegy et al. ). Ez a kutatsieredmny tette a gya-korlatban is hasznlhatv a szemlyfggetlen nagysztras beszdfelismerst.Amagyarnyelvreiskszlt mr a kiejtsi szablyok alapjn mkd automatikusfonetikus tr program (Mihajlik et al. ). Magyarorszgon az els ilyen lta-lnosan hasznlhat, beszlfggetlen, ezres nagysgrend sztrra plrend-szert a BME TMIT-n dolgoztk ki az AITIA Zrt.-vel kzs kutatsban hanggal

    vezrelhettelefonkzpontok kialaktsra (Fegy et al. ). Szegeden a kt-ezres vekben szintn megindult egy folytonos, magyar nyelvbeszdfelismerrendszer kialakthatsgnak kutatsa is. A rejtett Markov-technolgin alapu-l (orvosi diktls cljt szolgl) prototpusrendszer akusztikai rsze a besz-lhangjhoz hozzigazod, ezltal a pontossgot nagymrtkben nvelni kpesmodult is tartalmaz. A folyamatos diktls nyelvi szint algoritmikus tmogatsasz-n-gramokat, klnbz simtsi mdszereket s krnyezetfggetlennyelvta-ni modellezst is magba foglal.

    Magyarorszgon az utbbi vben komoly kutatsi eredmnyek szletteka specilis beszdadatbzisok tervezse, fejlesztse s hasznlata terletn. Ilyen

    volt pldul a Babel nev, olvasott szvegbeszdadatbzis, amelyben a magyar

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    39/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    hangkapcsolatok -ra van minta (VicsiVig ). ASpeechdatvezetkestelefonbeszd-adatbzis magyar vltozata (Vicsi ), valamint annak mobilte-lefonos vltozata (Vicsi et al. ) kifejezetten izollt szavakat s szkapcsola-tokat, valamint dialgusszvegek leglnyegesebb elemeit tartalmazza. A BME s

    a Szegedi Tudomnyegyetem kutati egy diktlrendszer ksztshez fejlesztet-tek irodai krnyezetben rgztett beszdadatbzist (Vicsi et al. ), amelynekszvegkszlete a magyar nyelv hangzkapcsolatainak statisztikai feldolgozsnalapszik.

    Az gretes kutatsi irnyok kztt felttlen meg kell emlteni, hogy a PPKEITK-n egy kutatsi program keretben a hangz beszdet vals idben egy ezta hangsort produkl idelis szj mozgsv konvertltk (Takcs et al. ),lehetv tve ezzel a siketek mobiltelefon-hasznlatnak alapjait.

    . sszegzs

    Tanulmnyunkban igyekeztnksszefoglalni a hazai nyelv- s beszdtechnol-gia legfontosabb eredmnyeit. A klnfle nyelvi szinteknek megfelelgpi ku-tatsok termszetes kvetkezmnyei az ltalnos nyelvszet ltal kijellt nyelviszinteken trtnkutatsoknak. Van azonban a gpi mdszereknek olyan gais, amely a hagyomnyos nyelvszeti irodalomban nem ltezik. Ilyen pldul a

    szfaji egyrtelmsts, illetve ilyen maga az egsz gpi fordts is. Nagyon ne-hz a szba jhetjvbeli kutatsi irnyokrl brmit is mondani, hiszen a hazaikutatsok javarszt kvetik a vilg nagy nyelvtechnolgiai kutatsi trendjeit, msokszor az agglutinl, szabadabb szrendnyelvekre jellemznyelvi jelensgekgpi kezelsnek megvalstsval kiegsztik, pontostjk isket.

    Mivel a nyelvi technolgik kifejlesztse a magyar nyelv modernizcij-nak legalapvetbb tnyezje s felttele (Kiefer ), igyekeztnk ttekinteni amagyar nyelvvel kapcsolatos nyelvtechnolgiai kutatsok eddigi fontosabb ered-mnyeit. Tbb rszterleten is szp eredmnyek szlettek, br a magyar nyelvsajtossgai nem tettk lehetv a nagyobb nyugat-eurpai nyelvekre kidolgo-zott technolgiai megoldsok egyszeradaptlst. Br az akadmiai kutatk saz zleti alapon mkdnyelvtechnolgiai kutathelyek (pl. a MorphoLogic) te-

    vkenysgt a -es vek elsfelben tbb K+F-plyzati lehetsg tmogat-ta, napjainkra ezt a terletet lnyegesen nagyobb mrtkben kellene tmogatniaegy kzponti szndknak, hiszen amint az MTA korbbi elnke, Glatz Ferenc() rta: a kis nyelvek korszerstsi programja sohasem trtnhet zleti ala-pon: nem kifizetdbefektets.

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    40/351

    Prszky Gbor

    Irodalom

    Alberti, Gbor .ReALIS: interpretlk a vilgban, vilgok az interpretlban. Budapest: Aka-dmiai Kiad.

    Alexin Zoltn Csendes Dra (szerk.) . Az I. Magyar Szmtgpes Nyelvszeti Konferenciaeladsai. Szeged: Szegedi Tudomnyegyetem.

    Alexin Zoltn Csendes Dra (szerk.) . A II. Magyar Szmtgpes Nyelvszeti Konferenciaeladsai. Szeged: Szegedi Tudomnyegyetem.

    Alexin Zoltn Csendes Dra (szerk.) . A III. Magyar Szmtgpes Nyelvszeti Konferenciaeladsai. Szeged: Szegedi Tudomnyegyetem.

    Babarczy Anna Gbor Blint Hamp Gbor Krpti Andrs Rung Andrs Szakadt Istvn. Hunpars: mondattani elemzalkalmazs. In: Alexin Csendes (, ).

    Clark, Bob . MoBiMouse, the worlds first no-click dictionary program. International Jour-nal of Language and Documentation : .

    Csendes Dra Alexin Zoltn Csirik Jnos Kocsor Andrs . A Szeged Korpusz s Tree-bank verziinak trtnete. In: Alexin Csendes (, ).

    Dimitrova, Ludmila Tomaz Erjavec Nancy Ide Heiki-Jan Kaalep Vladimir Petkevic DanTufis . Multext-East: Parallel and comparable corpora and lexicons for six Central andEastern European languages. In: Christian Boitet Pete Whitelock (szerk.): Proceedings ofthe COLING-ACL . Montreal: Morgan Kaufman. .

    Dmlki, Blint . An algorithm for syntactic analysis. Computational Linguistics : .

    Ehmann Bea Lendvai Piroska Fritz Adorjn Mihltz Mrton Tihanyi Lszl . Szeman-tikus szerepek vizsglata magyar nyelvszvegek narratv pszicholgiai elemzsben. In:

    Tancs Vincze (, ).Elekfi Lszl . Magyar ragozsi sztr. Budapest: MTA Nyelvtudomnyi Intzet.

    Fegy, Tibor Pter Mihajlik Pter Tatai . Comparative study on Hungarian acoustic modelsets and training methods. In: Jean Cedric Chappelier (szerk.): Proceedings of the th Eu-ropean Conference on Speech Communication and Technology. Geneva: ACL. .

    FkMrk Nmeth Gza Olaszy Gbor . Megrtst segt rszletez gpi nvfelolvass ma-gyar nyelvre. In: Alexin Csendes (, ).

    Glatz Ferenc (szerk.) . A magyar nyelv az informatika korban. Budapest: MTA.

    Gordos Gza Takcs Gyrgy . Digitlis beszdfeldolgozs. Budapest: Mszaki Kiad.

    Halcsy Pter Kornai Andrs Nmeth Lszl Sass Blint Varga Dniel Vradi Tams Vo-ny Attila . A Hunglish korpusz s sztr. In: Alexin Csendes (, ).

    Halcsy, Pter Andrs Kornai Csaba Oravecz Viktor Trn Dniel Varga . Using a mor-phological analyzer in high precision POS tagging of Hungarian. In: Nicoletta Calzolari Khalid Choukri (szerk.): Proceedings of LREC-. .http://www.lrec-conf.org/proceedings/lrec

    Hell, Gyrgy . Generationof nominal constructions in Hungarian. Computational Linguistics: .

    Hunyadi Lszl. . Az embergp kommunikci elmleti-technolgiai modellje. Httr salapkrdsek. In: Bdog Alexa (szerk.): Az embergp kommunikci technolgijnak

    elmleti alapjai. IKUT zrktet. Debreceni: Debreceni Egyetemi Kiad. .

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    41/351

    A magyarorszgi szmtgpes nyelvszet trtneti ttekintse

    Jnoska Sndor . A magyar ige automatikus toldalkolsnak egy modellje. Nyelvtudomnyirtekezsek : .

    Karacs, Kristf Gbor Prszky Tams Roska . Cellular wave computer algorithms withspatial semantic embedding for handwritten text recognition. International Journal of Cir-

    cuiteory and Applications : .Kiefer Ferenc . Nhny gondolat a nyelvi technolgikrl. In: Glatz (, ).

    Kiss, Gabriella Margit Kiss Jlia Pajzs . Normalisation of Hungarian archaic texts. In: PaulRayson (szerk.): Papers in computational lexicography (COMPLEX-).Birmingham: Uni-versity of Birmingham. .

    Klauszer Judit . A magyar fnevek szintzisnek krdshez. ltalnos Nyelvszeti Tanul-mnyok : .

    Knyi Sndor . A magyar fnevek elemzse. ltalnos Nyelvszeti Tanulmnyok : .

    Kornai Andrs . Sztri adatbzis az akadmiai nagyszmtgpen. Mhelymunkk a nyelv-szet s trstudomnyai krbl : .

    Kornai, Andrs . Mathematical linguistics. Dordrecht: Springer.

    Koskenniemi, Kimmo . Two-level morphology: A general computational model for word-form recognition and production. Helsinki: University of Helsinki.

    Kuba, Andrs Andrs Hcza Jnos Csirik . POS tagging of Hungarian with combined sta-tistical and rule-based methods. In: Ivan Kopeek Karel Pala (szerk.): Proceedings of theSeventh International Conference on Text, Speech and Dialogue (LNAI ). Dordrecht:Springer. .

    LszlJnos Ehmann Bea . A narratv pszicholgiai tartalomelemzsj eljrsa: a LAS VER-TICUM. Magyar Pszicholgiai Szemle : .

    Lugosin Papp, Mria . One model of the Hungarian verb synthesis. Computational Linguis-tics : .

    Megyesi, Beta . Improving Brills PoS tagger for an agglutinative language. In: Pacale Fung Joe Zhou (szerk.): Proceedings of the Joint SIGDAT Conference on Empirical Methods inNatural Language Processing and Very Large Corpora. New Brunswick NJ: Association forComputational Linguistics. .

    MelcsukIgor.Amagyarfnvragozsegy modellje. Nyelvtudomnyi rtekezsek: .

    Mernyi Csaba . A MetaMorpho magyarangol gpi fordt rendszer igei vonzatkereteit m-kdtetnyelvtan. In: Alexin Csendes (, ).

    Mihajlik, Pter Tibor Rvsz PterTatai . Phonetic transcription in automatic speechtran-scription. Acta Linguistica Hungarica : .

    Mihltz, Mrton Csaba Hatvani Judit Kuti Gyrgy Szarvas Jnos Csirik Gbor Prszky Tams Vradi . Methods and results of the Hungarian WordNet project. In: AttilaTancsDra CsendesVeronika VinczeChristiane FellbaumPiek Vossen (szerk.):Proceedings of the Fourth Global WordNet Conference. Szeged: University of Szeged. .

    Miller, George A. Richard Beckwith Christiane Fellbaum Derek Gross Katherine J. Miller. Introduction to WordNet: An on-line lexical database. International Journal of Lexi-cography : .

  • 7/23/2019 ltalnos nyelvszeti tanulmnyok 24.

    42/351

    Prszky Gbor

    Naszdi Mtys . Nyelvhelyessg-ellenrzs szmtgppel (parcilis szintaxis). In: Polyk Il-dik (szerk.): Hetedik Orszgos Alkalmazott Nyelvszeti Konferencia. Budapest: Klkeres-kedelmi Fiskola. .

    Nemes Zoltn . Szstatisztika egymilli sztagot felleljsgszvegek alapjn. In: Az Egy-

    sges Magyar Gyorsrs Knyvtra. Szeged: Gyorsrsi gyek M. Kir. Kormnybiztossga..

    Nmeth Gza Olaszy Gbor (szerk.) . A magyar beszd. Beszdkutats, beszdtechnolgia,beszdinformcis rendszerek. Budapest: Akadmiai Kiad.

    Nmeth, Gza Csaba Zaink Lszl Fekete Gbor Olaszy Gbor Endrdi Pter Olaszi Gza Kiss Pter Kis . e design, implementation and operation of a Hungariane-mail reader. International Journal of Speech Technology : .

    Nmeth, Gza Csaba Zaink Gza Kiss Gbor Olaszy Gza Gordos . Langua