82
White Paper Series THE WELSH LANGUAGE IN THE DIGITAL AGE Cyfres Papurau Gwyn Y GYMRAEG YN YR OES DDIGIDOL Jeremy Evas

WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

White Paper Series

THE WELSHLANGUAGE IN

THE DIGITALAGE

Cyfres Papurau Gwyn

Y GYMRAEGYN YR OESDDIGIDOL

Jeremy Evas

Page 2: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol
Page 3: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

White Paper Series

THE WELSHLANGUAGE IN

THE DIGITALAGE

Cyfres Papurau Gwyn

Y GYMRAEGYN YR OESDDIGIDOL

Jeremy EvasYsgol y Gymraeg, Prifysgol Caerdydd

School of Welsh, Cardiff University

Georg Rehm, Hans Uszkoreit(Golygyddion, editors)

Page 4: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

RHAGARWEINIAD PREFACEMae’r papur gwyn hwn yn rhan o gyfres sy’n hyrwyddo is white paper is part of a series that promotesgwybodaeth am dechnoleg iaith a’i photensial. Mae’n knowledge about language technology and its poten-targedu addysgwyr, newyddiadurwyr, llunwyr pol- tial. It addresses journalists, politicians, language com-isi, gwleidyddion, cynrychiolwyr a chymunedau ieith- munities, educators and others. e availability andyddol ac eraill. Mae faint o dechnoleg iaith sydd ar gael use of language technology in Europe varies betweenyn Ewrop a’r defnydd ohoni yn amrywio rhwng ieith- languages. Consequently, the actions that are requiredoedd. O ganlyniad, mae’r camau gweithredu y mae eu to further support research and development of lan-hangen i gefnogi ymchwil bellach ac i ddatblygu techn- guage technologies also differ. e required actionsolegau iaith hefyd ynwahanol ar gyfer pob iaith. Mae’r depend on many factors, such as the complexity of acamau gweithredu angenrheidiol yn dibynnu ar sawl given language and the size of its community.ffactor, megis cymhlethdod yr iaith a nifer ei siaradwyr. META-NET, a Network of Excellence funded by theYn y gyfres hon o bapurau gwyn, mae META-NET, European Commission, has conducted an analysis ofrhwydwaith o ragoriaeth a ariennir gan y Comisiwn current language resources and technologies in thisEwropeaidd, wedi cynnal dadansoddiad o’r adnoddau white paper series. e analysis focuses on the 23 offi-a thechnolegau ieithyddol cyfredol sydd ar gael. Canol- cial European languages as well as other important na-bwyntiodd y dadansoddiad ar 23 iaith swyddogol tional and regional languages in Europe. e results ofEwrop yn ogystal ag ieithoedd cenedlaethol a rhan- this analysis suggest that there are tremendous deficitsbarthol pwysig eraill Ewrop. Mae canlyniadau’r dad- in technology support and significant research gaps foransoddiad hwn yn awgrymu bod llawer o fylchau ym- each language. e given detailed expert analysis andchwil sylweddol ar gyfer pob iaith. Bydd dadansodd- assessment of the current situation will help maximiseiadmwymanwl-arbenigol ac asesiad o’r sefyllfa bresen- the impact of future research.nol yn helpu i fanteisio i’r eithaf ar ymchwil ac i leihau As of November 2011, META-NET consists of 54risgiau. Fis Tachwedd 2011, roedd META-NET yn research centres in 33 European countries. META-cynnwys 54 o ganolfannau ymchwil o 33 o wledydd NET is working with stakeholders from economyEwropeaidd sydd yn gweithio gyda rhanddeiliaid o’r (soware companies, technology providers and users),economi (cwmnïau meddalwedd, darparwyr a defny- government agencies, research organisations, non-ddwyr technoleg) asiantaethau llywodraethol, sefydl- governmental organisations, language communitiesiadau ymchwil, sefydliadau anllywodraethol, cymun- and European universities. Together with these com-edau ieithyddol a Phrifysgolion Ewropeaidd. Ar y cyd munities, META-NET is creating a common technol-â’r cymunedau hyn, mae META-NET wrthi’n creu ogy vision and strategic research agenda for multilin-gweledigaeth gyffredin ar gyfer technoleg ac agenda gual Europe 2020.ymchwil strategol ar gyfer Ewrop amlieithog yn 2020

III

Page 5: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

META-NET – [email protected] – http://www.meta-net.eu

Mae awdur y ddogfen hon yn ddiolchgar i awduron y papurgwyn ar yr Almaeneg [1] am ganiatâd i ailddefnyddio pethdeunydd annibynnol-ar-iaith o’u dogfen ac i LauraAmey, JohnJudge, Jonathan Morris, Michael Speed, a Colin Williams ameu cymorth gyda’r papur hwn.

Ariannwyd datblygu’r papur gwyn hwn gan Raglen Seith-fed Fframwaith a Rhaglen Cefnogi Polisi TG y Com-isiwn Ewropeaidd o dan y contractau T4ME (CytundebGrant 249119), CESAR (Cytundeb Grant 271022), META-NET4U (Cytundeb Grant 270893) a META-NORD (Cyt-undeb Grant 270899).

e author of this document is grateful to the authors ofthe white paper on German for permission to re-use selectedlanguage-independent materials from their document [1], andto Laura Amey, John Judge, Jonathan Morris, Michael Speed,and Colin Williams for their help with this paper.

e development of this white paper has been funded by theSeventh Framework Programme and the ICT Policy SupportProgramme of the European Commission under the contractsT4ME (Grant Agreement 249119), CESAR (Grant Agree-ment 271022), METANET4U (Grant Agreement 270893)and META-NORD (Grant Agreement 270899).

IV

Page 6: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

TABL CYNNWYS CONTENTS

Y Gymraeg yn yr Oes Ddigidol

1 Crynodeb Gweithredol 1

2 Ieithoedd mewn perygl: her i Dechnoleg Iaith 32.1 Mae ffiniau ieithyddol yn llesteirio Cymdeithas Gwybodaeth Ewrop . . . . . . . . . . . . . . . . 42.2 Ein Hieithoedd mewn Perygl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3 Mae Technoleg Iaith yn dechnoleg allweddol ar gyfer galluogi . . . . . . . . . . . . . . . . . . 52.4 Cyfleoedd ar gyfer Technoleg Iaith . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.5 Caffael Iaith mewn Bodau Dynol a Pheiriannau . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Y Gymraeg yn y Gymdeithas Gwybodaeth Ewropeaidd 93.1 Ffeithiau cyffredinol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Nodweddion y Gymraeg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3 Datblygiadau diweddar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.4 Hyrwyddo a Rheoleiddio Iaith . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.5 Hyfforddiant Iaith a Thechnoleg ym myd Addysg . . . . . . . . . . . . . . . . . . . . . . . . . . 163.6 Agweddau Rhyngwladol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.7 Y Gymraeg ar y Rhyngrwyd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4 Cymorth Technoleg iaith ar gyfer y Gymraeg 184.1 Pensaernïaeth Rhaglenni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Meysydd Rhaglen Craidd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.3 Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.4 Argaeledd Offer ac Adnoddau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.5 Cymhariaeth Drawsieithyddol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.6 Casgliadau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5 Ynglŷn â META-NET 34

Page 7: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

THE WELSH LANGUAGE IN THE DIGITAL AGE

1 Executive Summary 35

2 Languages at risk: a challenge for Language Technology 372.1 Language Borders hold back the European Information Society . . . . . . . . . . . . . . . . . . . 382.2 Our Languages at Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.3 Language Technology is a key enabling technology . . . . . . . . . . . . . . . . . . . . . . . . . 392.4 Opportunities for language technology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.5 Language Acquisition in Humans and Machines . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3 The Welsh Language in the European Information Society 433.1 General Facts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2 Particularities of the Welsh Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.3 Recent developments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.4 Language Promotion and Regulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.5 Language and Technology in Education . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.6 International Aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.7 Welsh on the Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Language Technology Support for Welsh 524.1 Application Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.2 Core Application Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.3 Translation Workflow and Content Management Systems . . . . . . . . . . . . . . . . . . . . . . 594.4 Availability of Tools and Resources for Welsh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.5 Cross-language Comparison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5 About META-NET 67

A Cyfeiriadau -- References 68

B Aelodau META-NET -- META-NET Members 71

C Cyfres Papurau Gwyn META-NET -- The META-NET White Paper Series 74

Page 8: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

1

CRYNODEB GWEITHREDOL

Iaith yw’r prif ddull o gyfathrebu rhwng pobl. Mae’nein galluogi i fynegi syniadau a theimladau, yn einhelpu i ddysgu ac addysgu, mae’n hanfodol ar gyferbyw. Dyma’r prif ddull o drosglwyddo diwylliant, acmae’n symbol o’n hunaniaeth. O ystyried y globaleiddiosydd ohoni, mae gennym lawer o ddulliau o gyfathr-ebu’n hawdd gyda phobl o bob cwr o’r byd. Er eng-hrai, mae’r technolegau gwybodaeth a chyfathrebunewydd wedi galluogi datblygu rhwydweithiau cym-deithasol syddwedi annog a gwella rhyngweithio rhwngpobl o bron pob gwlad a diwylliant. Hefyd, yn ystody blynyddoedd diwethaf, yr ydym wedi gweld symud-iadau mawr o bobl tramor rhwng ein gwledydd, h.y.twristiaeth neu fewnfudo—sy’n creu’r angen am gyf-athrebu ymysg gwahanol ieithoedd. Yn aml bydd ybroblem cyfathrebu traws-ieithog hon yn cael ei datrysdrwy ddefnyddio lingua franca. Yng ngwledydd Ewropceir enghrai eglur o amrywiaeth ieithyddol a diwyll-iannol er gwaethaf y ffaith i Ewrop ymffurfio fwyfwyyn endid gwleidyddol ac economaidd penodol yn ystody 60 mlynedd diwethaf. O ganlyniad, mae’n anochelein bod yn wynebu heriau ieithyddol mewn bywyd bobdydd yn ogystal ag ym meysydd busnes, gwleidyddiaetha’r gwyddorau.

Mae’n anochel ein bod yn wynebu heriauieithyddol mewn bywyd bob dydd yn ogystal ag

ym meysydd busnes, gwleidyddiaeth a’rgwyddorau

Bydd sefydliadau’r Undeb Ewropeaidd yn gwario tuabiliwn Ewro y flwyddyn ar gynnal eu polisi amlieith-rwydd, h.y. cyfieithu testunau a chyfieithu ar y pryd.

Ar yr un pryd, mae Saesneg yn troi’n lingua franca wrthi’r sefydliadau Ewropeaidd gyfathrebu â’u dinasyddion.Yn y DU, fel enghrai o hyn, mae gennym sefyllfadebyg. Gan fod llawer o wasanaethau cyhoeddus bell-ach yn cael eu darparu naill ai’n uniongyrchol neu’n an-uniongyrchol drwy ddulliau technolegol, mae darparua chofnodi dewis iaith, a’r dechnoleg iaith angenrheid-iol i roi’r dewis hwn ar waith bellach yn fater o bwys amsawl rheswm. Mae’r cyfiawnhad mwyaf perthnasol ynymwneud â hyrwyddo: dinasyddiaeth weithgar, tegwcho ran mynediad at wasanaethau meddygol, hygyrcheddar gyfer y rhai, er enghrai, sydd â nam ar eu golwg, achynrychiolaeth ddemocrataidd ei hun.

Gall technoleg bontio rhwng gwahanol ieithoedd

O’i chyfuno â dyfeisiau deallus a rhaglenni, bydd techn-oleg iaith y dyfodol yn gallu helpu dinasyddion i siaradyn rhwydd â’i gilydd a gwneud busnes â’i gilydd, hyd ynoed os nad ydynt yn siarad iaith gyffredin. Mae hyn, yngnghyd-destun deddfwriaeth ieithyddol sydd newydd eiphasio sy’n effeithio ar y gwasanaethau cyhoeddus yngNghymru, yn hollbwysig. Bydd atebion technoleg iaithyn y pen draw yn gwasanaethu fel pont unigryw rhwnggwahanol ieithoedd. Fodd bynnag, mae’r technolegauiaith ac offer prosesu lleferydd sydd ar gael ar y farchnadar hyn o bryd (yn amrywio o systemau ateb cwestiwn iryngwynebau iaith naturiol, gan gynnwys systemau cyf-ieithu ac offer crynhoi, ymhlith llawer o rai eraill), yn dali fod heb gyrraedd y nod uchelgeisiol hwn. Mor gynnarâ diwedd y 1970au, sylweddolodd yr Undeb Ewrope-aidd berthnasedd arwyddocaol technoleg iaith fel grym

1

Page 9: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

i yrru undod Ewropeaidd, a dechrau ariannu’r pros-iectau ymchwil cyntaf o fewn y maes datblygol hwn. Aryr un pryd, sefydlwyd prosiectau cenedlaethol ac awt-onomig a oedd yn cynhyrchu canlyniadau gwerthfawrond ni chafwyd gweithgarwch Ewropeaidd cydlynol.Mae prif dechnolegau iaith heddiw yn dibynnu ar ddull-iau ystadegol nad ydynt yn fanwl gywir, nad ydynt yngwneud defnydd o ddulliau ieithyddol dyfnach, rheolaua gwybodaeth. Er enghrai, bydd brawddegau’n cael eucyfieithu’n awtomatig gan gymharu brawddeg newyddyn erbyn miloedd o frawddegau a gyfieithwyd yn flaen-orol gan fodau dynol. Mae ansawdd yr allbwn i raddauhelaeth yn dibynnu ar faint ac ansawdd y corpws samplsydd ar gael. Fodd bynnag, mae hyd yn oed y dull ystad-egol lled-anghywir yn llawer mwy cynhyrchiol na llafurcyfieithydd unigol nad yw’n ymelwa ar dechnoleg o’rfath, neu’n ymelwa ar rannu amser-go-iawn â gwaithcyfieithwyr eraill drwy Gof Cyfieithu. Er y gall cyf-ieithu brawddegau syml yn awtomatig mewn ieithoedda chanddynt symiau digonol o ddeunydd testun ddar-paru canlyniadau defnyddiol, mae dulliau ystadegol basyn rhwym o fethu yn achos ieithoedd a chanddynt gorffllawer llai o ddeunydd sampl, neu yn achos brawdd-egau a chanddynt strwythurau cymhleth. Dadansoddipriodweddau strwythurol dyfnach ieithoedd yw’r unigffordd ymlaen os dymunir adeiladu rhaglenni sy’n per-fformio’n dda ar draws ystod eang o ieithoedd. Felly,yr ateb i broblem cyfathrebu rhwng ieithoedd yw adeil-adu technolegau galluogi allweddol. Er mwyn cyrraeddy nod hwn a chadw amrywiaeth ddiwylliannol ac ieith-yddol Ewrop, yn gyntaf, mae angen dadansoddiad syst-ematig o nodweddion ieithyddol holl ieithoedd Ewrop,a chyflwr presennol technoleg iaith i’w cefnogi. Dymabwrpas y papur gwyn hwn sy’n ymwneud â’r Gymraeg.

Yr ateb i broblem cyfathrebu rhwng ieithoedd ywadeiladu technolegau galluogi allweddol

Fel y mae’r gyfres hon o bapurau gwyn yn ei ddangos,mae gwahaniaeth dramatig rhwng aelod-wladwriaethau

Ewrop o ran aeddfedrwydd y gwaith ymchwil a pharod-rwydd yr ymateb i adnabod a gweithredu atebion iaith.Un o gynigion a chasgliadau sy’n deillio o’r dystiolaetho’r hyn sydd ar gael yw bod yGymraeg yn un o ieithoeddyr UE sydd angen ymchwil bellach cyn bod technolegiaith yn barod i’w defnyddio mewn sefyllfaoedd bobdydd yn eang, cyn bod yr iaith wedi’i normaleiddio ymmyd technoleg a chyn bod y dechnoleg honno’n normal-eiddio’r Gymraeg i’w llawn botensial. Tra bo technolegiaith yn dechnoleg galluogi ac nid yn nod ynddi ei hunar gyfer y person-yn-y-stryd, mae’n hanfodol bod ieith-oedd llai fel yGymraeg yn derbyn sylwdyledus neu byddeu siaradwyr yn cael eu difreinio ymhellach.

Mae’n hanfodol bod ieithoedd lleiafrifol yn caelsylw dyledus, neu bydd eu siaradwyr yn cael eu

difreinio ymhellach

Mewn ardal lle na fydd yw siaradwyr iaith yn dod i ad-nabod ei gilydd mewn modd ethnig neu fel arall, maegan dechnoleg rôl fawr i’w chwarae o ran cofnodi dewisiaith dinasyddion. Byddai’r sefyllfa galluogi ddelfrydolhon yn gweld y dechnoleg yn galluogi asiantau’rwladwr-iaeth a sectorau eraill i gynnig gwasanaethau yn Gym-raeg mewn modd rhagweithiol, gan y bydd dewis iaithdinasyddion eisoes yn hysbys iddynt. Er bod y sefyllfaddeddfwriaethol yng Nghymru a ddisgrifir isod yn dat-blygu ei disgwrs ar gyfer y wladwriaeth i fod yn ddar-parwr gwasanaethau o’r fath, bydd technoleg yn gallu-ogi tegwch o ran darpariaeth iaith i bob dinesydd (e.e.cyfeirio galwadau ffôn Cymraeg yn awtomatig i staffsy’n siarad Cymraeg, cyfateb staff Cymraeg yn y gwas-anaethau cymdeithasol/meddygol â defnyddwyr gwas-anaeth sy’n siarad Cymraeg ac yn y blaen).

Bydd technoleg yn galluogi tegwch o randarpariaeth iaith i bob dinesydd

2

Page 10: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

2

IEITHOEDD MEWN PERYGL:HER I DECHNOLEG IAITH

Rydym yn dystion i chwyldro digidol sy’n effeithio cyf-athrebu a’r gymdeithas mewn modd dramatig. Weith-iau mae’r datblygiadau diweddar mewn technoleggwybodaeth ddigidol a chyfathrebu yn cael eu cymharuâ’r wasg argraffu a grëwyd gan Gutenberg. Beth gall ygymhariaeth hon ei ddweudwrthym am y dyfodol cym-deithas gwybodaeth Ewrop a’n hiaith ni yn benodol?Wedi iGutenberg ddyfeisio’rwasg, cafwyddatblygiadaugwirioneddol mewn cyfathrebu a chyfnewid gwybod-aeth trwy ymdrechion megis cyfieithu’r Beibl i ieith-oedd brodorol.

Mae modd cymharu’r chwyldro digidol â gwasgargraffu Gutenberg

Yn y canrifoedd dilynol, datblygwyd technegau diwyll-iannol i drin prosesu iaith a chyfnewid gwybodaeth ynwell:

‚ fe wnaeth safoni orgraffyddol a gramadegol y prifieithoedd alluogi lledaenu syniadau gwyddonol adeallusol newydd yn gyflym

‚ fe wnaeth datblygu ieithoedd swyddogol greu pos-ibilrwydd i ddinasyddion gyfathrebu o fewn ffiniaupenodol (yn aml rhai gwleidyddol)

‚ mae addysgu a chyfieithu ieithoedd wedi galluogicyfnewidfeydd ar draws ieithoedd; mae creu can-llawiau golygyddol a llyfryddiaetholwedi sicrhau an-sawdd deunydd print

‚ mae creu gwahanol gyfryngau megis papuraunewydd, radio, teledu, llyfrau, afformatau eraillwedibodloni anghenion cyfathrebu gwahanol.

Yn yr un modd, yn ystod yr ugain mlynedd diwethaf,mae technoleg gwybodaeth wedi helpu i awtomeiddio ahwyluso ymhellach prosesu iaith a chyfnewid gwybod-aeth:

‚ mae meddalwedd cyhoeddi bwrdd gwaith wedicymryd lle teipio a chysodi;

‚ mae Microso PowerPoint, ac yn fwy diweddar,Prezzi wedi disodli tryloywderau taflunydd;

‚ mae e-bost yn caniatáu i ddogfennau gael eu hanfona’u derbyn yn gyflymach na defnyddio peiriant ffacs;

‚ mae Skype a rhaglenni eraill yn darparu galwadauffôn rhad ar y rhyngrwyd a chynnal cyfarfodyddrhithwir;

‚ mae fformatau amgodio sain a fideo yn ei gwneud ynhawdd cyfnewid cynnwys aml-gyfryngol;

‚ mae peiriannau chwilio ar ywe yn darparumynediadyn seiliedig ar allweddeiriau;

‚ mae gwasanaethau ar-leinmegisGoogleTranslate yncynhyrchu cyfieithiadau cyflym ond bras;

‚ mae platffyrm cyfryngau cymdeithasol megis Fac-ebook aTwitter yn hwyluso rhannu cyfathrebu, cyd-weithio, a gwybodaeth.

Er bod yr offer a’r rhaglenni hyn yn ddefnyddiol, nidydynt eto yn gallu cynnal cymdeithas Ewropeaidd am-

3

Page 11: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

lieithog hollol gynaliadwy y gall gwybodaeth a nwyddaulifo’n rhydd ynddi.

2.1 MAE FFINIAU IEITHYDDOLYN LLESTEIRIO CYMDEITHASGWYBODAETH EWROPNi ellir rhagweld union ffurf a siâp cymdeithas gwybod-aeth y dyfodol. Ond mae tebygolrwydd cryf bod ychwyldro mewn technoleg cyfathrebu yn dod â phoblsy’n siarad ieithoedd gwahanol at ei gilydd mewnffyrdd newydd. Mae hyn yn rhoi pwysau ar unigol-ion i ddysgu ieithoedd newydd ac yn arbennig ar ddat-blygwyr i greu rhaglenni technoleg newydd i sicrhaucyd-ddealltwriaeth ymysg siaradwyr gwahanol ieith-oedd a mynediad at wybodaeth y gellir ei rhannu.Mewn gofod economaidd a gwybodaeth fyd-eang, maemwy o ieithoedd, siaradwyr a chynnwys yn rhyng-weithio’n gyflymach â mathau newydd o gyfryngau.Megis dechrau’r peth yw poblogrwydd cyfredol cyf-ryngau cymdeithas ‘Gwe2.0’ (megis Wikipedia, Fac-ebook, Twitter, YouTube, ayb). Cynnwys sydd frenina bellach, mae’r defnyddiwr yn rheoli i raddau na wel-wyd mo’u tebyg o’r blaen. Mae’r rhyddhau hwn rhagrheolaeth yn debyg i’r chwyldro mewn cyfalafiaeth ar-graffu a gynorthwyodd i ffurfio gwladwriaeth genedlfonolithig uniaith dair canrif yn ôl. Fodd bynnag, ytro hwn, unigolion sy’n rheoli, ac mae gan eu hieith-oedd lwybr ar gyfer mynegiant a wadwyd iddynt hydyma. A allai Gwe2.0, o’i chysylltu â thechnoleg iaithberthnasol fod yn gyfalafiaeth argraffu newydd a ddefn-yddid ynhanesyddol fel grymhomogeneiddio ganwlad-wriaethau cenedl, ond y tro hwn, o blaid ieithoedd llei-aifol?Heddiw, gellir trosglwyddo gigabeit o destun o gwm-pas y byd mewn ychydig eiliadau cyn inni sylweddoliei fod mewn iaith nad ydym yn ei deall. Yn ôl ad-roddiad gan y Comisiwn Ewropeaidd [2], bydd 57% o

ddefnyddwyr y rhyngrwyd ynEwrop ynprynunwyddaua gwasanaethau mewn ieithoedd nad ydynt yn frod-orol iddynt (Saesneg yw’r iaith dramor fwyaf cyffredinwedyn Ffrangeg, Almaeneg a Sbaeneg). Bydd 55% oddefnyddwyr yn darllen cynnwys mewn iaith dramorond dim ond 35% yn defnyddio iaith arall i ysgrifennue-bost neu i bostio sylwadau ar y we. Ychydig flynydd-oedd yn ôl, efallai y byddai’r Saesneg wedi bod yn lin-gua franca ar y we—roedd mwyafrif helaeth cynnwys ywe yn Saesneg, o bosibl oherwydd iddi gael ei datblyguyn y lle cyntaf mewn gwledydd Saesneg eu hiaith. Oran cyfnod cynnar datblygu gwe-cynnwys ar gyfer ieith-oedd RML, un rhagdybiaeth yw y gall hyn fod wedi di-gwydd oherwydd y meddylfryd a’r agweddau diglosig addisgrifir uchod.

Mewn gofod economaidd a gwybodaethfyd-eang, mae mwy o ieithoedd, siaradwyr a

chynnwys yn rhyngweithio’n gyflymach â mathaunewydd o gyfryngau

Yn ffodus, mae’r sefyllfa bellach wedi newid yn sylw-eddol. Mae cyfran y cynnwys ar-lein mewn ieithoeddEwropeaidd eraill (yn ogystal â rhai Asia a’r DwyrainCanol) wedi ffrwydro. Yn rhyfedd iawn, nid yw’rrhaniad digidol hollbresennol hwn o ganlyniad i ffin-iau ieithyddol wedi cael llawer o sylw cyhoeddus, aceto, mae’n codi cwestiwn pwysig iawn: Sut yn union ygall technolegau alluogi ieithoedd i ffynnu yn y gym-deithas gwybodaeth wedi’i rhwydweithio pan fydd cyn-ifer ohonynt mewn perygl? Er enghrai, mae Ethnol-ogue [3] yn nodi bod tua 7,015 o ieithoedd yn y byd.Mae’r rhan fwyaf o’r rhain o dan risg ac ni fyddant yncael eu trosglwyddo i genedlaethau’r dyfodol (mae’r fathdrosglwyddo iaith yn un o ddangosyddion allweddolbywiogrwydd iaith). Mae’r fath risgiau yn destun adrannesaf y papur gwyn hwn.

4

Page 12: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Nid yw’r rhaniad digidol hollbresennol hwn oganlyniad i ffiniau ieithyddol wedi cael llawer o

sylw cyhoeddus

2.2 EIN HIEITHOEDD MEWNPERYGLEr bod y wasg argraffu a’r gyfalafiaeth argraffu gysyllt-iedig wedi cynorthwyo i gyflymu cyfnewid gwybodaethyn Ewrop [4], mae hefyd yn cyfrannu’n sylweddol at ybroses lle mae llawer o ieithoedd Ewropeaidd yn collinifer sylweddol o siaradwyr. Anaml iawn y byddai llawero ieithoedd rhanbarthol neu leiafrifol yn cael eu har-graffu a chawsant eu cyfyngu i ffurfiau llafar, sydd ynei dro yn cyfyngu ar sgôp eu defnyddio. Fe wnaethy Gymraeg elwa ar iaith ysgrifenedig safonol a grëwydgan yr Esgob William Morgan yn ei gyfieithiad o’rBeibl yn 1588. Ond sut y bydd y Gymraeg yn goroesieffaith y rhyngrwyd? Mae oddeutu 80 o ieithoedd ynEwrop—dyma rai o’i hasedau diwylliannol cyfoethocafa phwysicaf, [5] ac maent yn rhan hanfodol o’i modelcymdeithasol unigryw. Er bod ieithoedd megis Saesnega Sbaeneg yn debygol o oroesi yn y farchnad ddigidolsy’n dod i’r amlwg, gallai llawer o ieithoedd Ewrope-aidd droi’n amherthnasolmewn cymdeithas syddwedi’irhwydweithio oni bai digon o gamau strategol yn caeleu cymryd. Byddai hyn yn gwanhau statws byd-eangEwrop, ac yn mynd yn groes i’r nod strategol o sicr-hau cyfranogiad cyfartal i bob dinesydd Ewropeaiddwaeth beth yw eu hiaith. Mae amrywiaeth ieithyddoleang Ewrop gyda’i hasedau diwylliannol cyfoethocaf aphwysicaf. Yn ôl adroddiad UNESCO [6] ar amlieith-rwydd, mae iaith yn gyfrwng hanfodol ar gyfer mwyn-hau hawliau sylfaenol, megis mynegiant gwleidyddol,addysg a chyfranogiad mewn cymdeithas.O’r fan hon, symudir oddi wrth elfennau gwleidyddol,athronyddol, hanesyddol a strategol, i rai gweithredol. I

ryw raddau, ac i orsymleiddio’n ddybryd gan esgeuluso’rcyd-destun cymdeithasol a amlinellwyd uchod, gellidportreadu iaith (wedi ei diriaethu ar ffurf gwrthrych ygellir ei fanipwleiddio) y tu allan i’r cyd-destun cym-deithasol hwnnw ac at ddibenion TG, fel ‘dim byd mwyna chynnwys.’ I grynhoi, mae gan dechnoleg a thechn-oleg iaith ran fawr i’w chwarae wrth helpu bywydaupobl ddwyieithog ac i gael ei defnyddio fel offeryn cyn-llunio statws i newid agweddau dwfn tuag at y defn-ydd iaith ‘L’ mewn meysydd sydd hyd yn hyn wedi bodyn anghyfarwydd iddynt. Mae technoleg yn hollbresen-nol. Rhaid i amlieithrwydd fod yn hollbresennol mewntechnoleg.

Sut y bydd y Gymraeg yn goroesi effaith yRhyngrwyd?

2.3 MAE TECHNOLEG IAITH YNDECHNOLEG ALLWEDDOL ARGYFER GALLUOGIYn y gorffennol, bu ymdrechion mewn cadwraeth ieith-yddol yn canolbwyntio ar ddysgu’r iaith a chyfieithu.Yn ôl un amcangyfrif, gwerth y farchnad Ewropeaiddar gyfer cyfieithu, dehongli, lleoleiddio meddalwedd aglobaleiddio gwefannau oedd e8.4 biliwn yn 2008 adisgwylir iddi dyfu o 10% y flwyddyn [7]. Eto mae’rffigurhwnondyncwmpasu cyfran fechano anghenionypresennol a’r dyfodol o ran cyfathrebu rhwng ieithoedd.Yr ateb mwyaf cymhellol a fydd yn sicrhau bod ieith-oedd Ewrop yn cael eu defnyddio’n eang ac mewn sawlmaes yw defnyddio technoleg briodol, yn union fel yrydym yn defnyddio technoleg i ddatrys ein hanghenioncludiant, ynni ac anabledd ymhlith eraill. Gall techn-oleg iaith sy’n targedu pob math o gyfryngau ysgrif-enedig a llafar helpu pobl i gydweithio, i gynnal busnes,

5

Page 13: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

i rannu gwybodaeth ac i gymryd rhan mewn dadleuoncymdeithasol a gwleidyddol gan ddiystyru rhwystrauiaith a sgiliau cyfrifiadurol.

Mae technoleg yn hollbresennol. Rhaid iamlieithrwydd fod yn hollbresennol mewn

technoleg

Yn aml bydd eisoes ar waith heddiw mewn modd an-weledig y tu mewn i systemau meddalwedd cymhlethi’n helpu i: ddod o hyd i wybodaeth gyda pheiriantchwilio; gwirio sillafu a gramadegmewnprosesydd geir-iau; i weld argymhellion cynnyrch mewn siop ar-lein, iddilyn cyfarwyddiadau llafar system llywio; i gyfieithuar y we tudalennau trwy wasanaeth ar-lein. Mae techn-oleg iaith yn cynnwys nifer o raglenni craidd sy’n gallu-ogi prosesau o fewn fframwaith mwy.

Pwrpas papurau gwyn iaith META-NET yw canol-bwyntio ar ba mor barod y mae’r technolegau galluogicraidd ar gyfer pob iaith Ewropeaidd. Mae ar Ewropangen technoleg iaith gadarn a fforddiadwy ar gyfer eiholl ieithoedd.

Mae ar Ewrop angen technoleg iaith gadarn afforddiadwy ar gyfer ei holl ieithoedd

Er mwyn cynnal ein safle rheng flaen o ran arloesi byd-eang, bydd angen ar Ewrop dechnoleg iaith, wedi’i theil-wra i bob iaith Ewropeaidd, sy’n gadarn ac yn ffordd-iadwy a gellir ei hintegreiddio’n dynn mewn amgylch-eddau meddalwedd allweddol. Heb dechnoleg iaith,ni fyddwn yn gallu sicrhau profiad rhyngweithiol, aml-gyfryngol ac amlieithog i’r defnyddiwr yn effeithioliawn yn y dyfodol agos.

2.4 CYFLEOEDD AR GYFERTECHNOLEG IAITHYm myd print, y datblygiad allweddol oedd galluogidyblygu delwedd testun yn gyflym, a hynny drwy ddefn-yddio gwasg argraffu ag iddi bŵer addas. Roedd ynrhaid i fodau dynol wneud y gwaith caled: chwilio,asesu, cyfieithu, a chrynhoi gwybodaeth. Bellach, galltechnoleg iaith symleiddio ac awtomeiddio prosesau llifgwaith cyfieithu, creu cynnwys, a rheoli gwybodaeth.Gall hefyd rymuso rhyngwynebau llafar deallus ar gyferoffer electroneg yn y cartref, mewn peiriannau, cer-bydau, cyfrifiaduron a robotiaid. Mae’n ddyddiau cyn-nar eto o ran datblygu rhaglenni masnachol a diwyd-iannol yn y byd go iawn, ond eto mae’r hyn a gyflawn-wyd o ran ymchwil a datblygu yn creu cyfleoedd gwir-ioneddol. Er enghrai, mae cyfieithu awtomatig (addisgrifir isod yn achos y Gymraeg) eisoes yn weddolgywir mewn meysydd penodol, ac mae rhaglenni ar-brofol yn darparu gwybodaeth amlieithog ac yn rheoligwybodaeth, yn ogystal â chreu cynnwys, mewn llawero ieithoedd Ewropeaidd. Fel yn achos y rhan fwyafo dechnolegau, datblygwyd y rhaglenni iaith cyntafmegis rhyngwynebau defnyddwyr seiliedig-ar-lais a syst-emau deialog ar gyfer meysydd arbenigol (er enghrai,meysydd meddygol cul, ar gyfer cymryd nodiadau), acyn aml cyfyngedig yw eu perfformiad. Fodd bynnag,mae marchnadoedd enfawr yn y diwydiannau addysgac adloniant ar gyfer integreiddio technolegau iaith imewn i gemau, pecynnau addysg-adloniant, llyfrgell-oedd, amgylcheddau efelychu a rhaglenni hyfforddi.Gwasanaethau gwybodaeth symudol, meddalwedd cyf-rifiadurol ben-bwrdd, e-ddysgu amgylcheddau dysgucyfunol, offer hunanasesu a meddalwedd canfod llên-ladrata (a ddefnyddir i ganfod llên-ladrata gwaith wedicyflwyno aseiniadau myfyrwyr) dyma rai yn unig o’rmeysydd y gall technoleg iaith chwarae rôl bwysigynddynt. Mae poblogrwydd rhaglenni cyfryngau cym-deithasol megis Twitter a Facebook yn awgrymu angen

6

Page 14: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

am dechnolegau iaith soffistigedig sy’n gallu monitropostiadau, crynhoi trafodaethau, awgrymu tueddiadaubarn, canfod ymatebion emosiynol, nodi tor-hawlfraintneu dracio camddefnydd. Mae’r un peth yn wir ar gyferprosiectau ymchwil ‘data mawr’ [8] a rhai sy’n olrhaintueddiadau, fel y rhai a ddefnyddir gan y gwasanaethaudiogelwch i ganfod y posibilrwydd o aflonyddwch cym-deithasol a geiriau ‘casineb’. Mae technoleg Iaith ynhelpu i oresgyn ‘anabledd’ (fel y byddai rhai yn ei alw)amrywiaeth ieithyddol. Mae technoleg iaith yn gyflegwych ar gyfer yr Undeb Ewropeaidd. Gall helpu i fyndi’r afael âmater cymhleth amlieithrwydd ynEwrop—sefy ffaith bod gwahanol ieithoedd yn cydfodoli’n natur-iol mewn busnesau, sefydliadau ac ysgolion. Fodd byn-nag, mae angen i ddinasyddion gyfathrebu ar drawsffin-iau iaith Marchnad Gyffredin Ewrop, a gall technolegiaith helpu i oresgyn y rhwystr olaf hwn, wrth gefn-ogi defnyddio ieithoedd unigol mewn modd rhydd acagored. Gan fwrw golwg ymhellach i’r dyfodol, byddtechnoleg iaith amlieithog arloesol yn Ewrop yn dar-paru meincnod ar gyfer ein partneriaid byd-eang panfyddant yn dechrau cefnogi eu cymunedau amlieithogeu hunain.

Mae technoleg Iaith yn helpu i oresgyn‘anabledd’ (fel y byddai rhai yn ei alw)

amrywiaeth ieithyddol

Er bod technoleg iaithwedi gwneud cynnydd sylweddolyn ystod y blynyddoedd diwethaf, mae cyflymder y cyn-nydd technolegol a’r arloesi sydd ohoni yn rhy araf oran cynhyrchion. Fel arfer, bydd technolegau a ddefn-yddir yn eang, fel gwirwyr sillafu a gramadegmewnpros-esyddion geiriau yn uniaith, ac maent ond ar gael argyfer llond llaw o ieithoedd. Mae gwasanaethau cyf-ieithu awtomatig ar-lein, er yn ddefnyddiol ar gyfer cyn-hyrchu brasamcan rhesymol o gynnwys dogfen yn gyf-lym, yn llawn anawsterau pan fydd angen cyfieithiadau

hynod gywir ac yn gyflawn. Mae cyflymder y cyn-nydd sydd ohoni ym myd technoleg iaith yn rhy araf.Oherwydd cymhlethdodau iaith ddynol, mae darparuar gyfer modelu cyfrifiadurol ein hieithoedd a’u profiyn y byd go iawn yn ofyn mawr o ran amser a chost acmae gofyn am ymrwymiadau ariannu parhaus. Felly,rhaid i Ewrop gynnal ei rôl arloesol wrth wynebu’r her-iau technolegol a grëir gan gymuned amlieithog trwyddyfeisio dulliau newydd i gyflymu datblygiad ar drawsy map.

2.5 CAFFAEL IAITH MEWNBODAU DYNOL APHEIRIANNAUEr mwyn dangos sut mae cyfrifiaduron yn trin iaitha pham y mae’n anodd eu rhaglennu i brosesu gwa-hanol ieithoedd, edrychwn yn gryno ar y ffordd y maepobl yn caffael iaith gyntaf ac ail iaith, ac yna gweldsut y mae systemau technoleg iaith yn gweithio. Maebabanod yn caffael iaith trwy ryngweithio ieithyddola thrwy wrando ar y rhyngweithio go iawn rhwng eurhieni, brodyr a chwiorydd ac aelodau eraill o’r teulu.O’r adeg y byddant yn dathlu eu pen-blwydd yn ddwyoed, bydd plant yn cynhyrchu eu geiriau cyntaf ac ym-adroddion byr. Mae hyn yn bosib dim ond oherwyddbod gan fodau dynol ragdueddiad genetig i ddynwaredac yna i resymoli’r hyn y maent yn ei glywed. Mae dysguail iaith wrth droi’n hŷn yn gofyn am ymdrech fwy gwy-byddol, yn bennaf oherwydd nad yw’r person wedi’i‘foddi’ mewn cymuned iaith o siaradwyr brodorol. Felarfer, yn yr ysgol, bydd ieithoedd tramor yn cael eucaffael drwy ddysgu strwythur gramadegol, geirfa a sill-afu drwy ddefnyddio driliau sy’n disgrifio gwybodaethieithyddol o safbwynt rheolau haniaethol, tablau ac eng-hreiiau. Mae pobl yn caffael sgiliau iaith mewn dwyffordd wahanol: dysgu o enghreiiau a dysgu’r rheolauiaith sylfaenol. Gan symud yn awr at dechnoleg iaith,

7

Page 15: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

mae’r ddau brif fath o systemau yn ‘caffael’ galluoeddiaith mewn modd tebyg. Mae dulliau ystadegol (neurai a ‘yrrir’ gan ddata) yn cael gwybodaeth ieithyddolo gasgliadau helaeth o destunau enghreiiol diriaetholneu ‘gorpora’. Er ei bod yn ddigonol i ddefnyddio testununiaith at ddibenion hyfforddi, dyweder, gwirydd sill-afu, rhaid i destunau cyfochrog mewn dwy neu fwy oieithoedd fod ar gael ar gyfer hyfforddi system cyfieithuawtomatig. Mae’r algorithm dysgu peirianyddol wedynyn ‘dysgu’ patrymau o ran sut y bydd geiriau, ymadrodd-ion byr a brawddegau cyflawn yn cael eu cyfieithu. Felarfer, mae’r dull ystadegol hwn yn gofyn am filiynau ofrawddegau, a hynny er mwyn rhoi hwb i ansawdd per-fformiad. Dymaun rheswmpamybydddarparwyr peir-iannau chwilio yn awyddus i gasglu cymaint o ddeunyddysgrifenedig ag y bo modd. Mae cywiro sillafu mewnprosesyddion geiriau, a gwasanaethau megis GoogleSearch neuGoogle Translate, i gyd yn dibynnu ar ddull-iau ystadegol. Mantais fawr y dull ystadegol yw body peiriant yn dysgu yn gyflym mewn cyfres barhaus ogylchoedd hyfforddi. Dull arall o fynd i’r afael â thechn-oleg iaith a chyfieithu awtomatig yn benodol, yw adeil-adu systemau yn seiliedig ar reolau. Yn gyntaf, rhaid i ar-benigwyr ym meysydd ieithyddiaeth, ieithyddiaeth gyf-rifiadurol a gwyddoniaeth gyfrifiadurol amgodio dad-ansoddiadau gramadegol (rheolau gramadegol) a lluniorhestrau geirfaol (geiriaduron). Mae hyn yn gofyn amlawer iawn o amser a llafur dwys. Mae rhai o’r systemaucyfieithu awtomatig ar sail rheolau wedi eu datblygu’ngyson am fwy na 20 mlynedd. Mantais fawr systemausy’n seiliedig ar reolau yw bod gan yr arbenigwyr reol-aeth fanylach dros sut y bydd yr iaith yn cael ei phrosesu.

Mae hyn yn ei gwneud yn bosibl i gywiro camgymer-iadau yn y meddalwedd mewn modd systematig ac i roiadborth manwl i’r defnyddiwr, yn enwedig pan fyddsystemau seiliedig ar reolau yn cael eu defnyddio ar gyferdysgu iaith. Foddbynnag, oherwydd cost uchel y gwaithhwn, datblygwyd technoleg iaith seiliedig ar reolau ondar gyfer ychydig ieithoedd mawr hyd yn hyn. Gan fodcryfderau a gwendidau systemau ystadegol a rhai seil-iedig ar reolau yn dueddol o ategu ei gilydd, mae’r ym-chwil gyfredol yn canolbwyntio ar ddulliau hybrid sy’ncyfuno’r ddwy fethodoleg. Mae’r posibiliadau o beir-iant peiriant cyfieithu tridarn ar gyfer y Gymraeg (sy’nseiliedig ar reolau, yn seiliedig ar ystadegau ac yn seil-iedig ar enghreiiau), ynghyd â chof cyfieithu rhannucyfieithiadau yn eang mewn amser go iawn yn cael eutrafod isod. Dylid nodi, fodd bynnag, bod y dulliauhybrid hyn hyd yn hyn wedi bod yn llai llwyddiannusmewn rhaglenni diwydiannol nag yn y labordy ymchwil.Mae’r ddau brif fath o systemau technoleg iaith yn caff-ael iaith yn yr un modd ag y bydd bodau dynol yn eiwneud. Fel yr ydym wedi ei weld yn y bennod hon, maellawer o raglenni a ddefnyddir yn eang yn y gymdeithasgwybodaeth heddiw yn dibynnu’n helaeth ar dechnolegiaith, yn enwedig yng ngofod economaidd a gwybod-aeth Ewrop. Er bod y dechnoleg hon wedi gwneud cyn-nydd sylweddol yn ystod y blynyddoedd diwethaf, maepotensial mawr o hyd i wella ansawdd systemau techn-oleg iaith. Yn y penodau nesaf, disgrifir rôl y Gymraegyng nghymdeithas gwybodaeth Ewrop a’r byd, ac asesirei chefndir cymdeithasol-ieithyddol a chyflwr cyfredoltechnoleg iaith ar ei chyfer.

8

Page 16: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

3

Y GYMRAEG YN Y GYMDEITHASGWYBODAETH EWROPEAIDD

3.1 FFEITHIAU CYFFREDINOLMae i’r Gymraeg, (iaith Geltaidd sy’n gysylltiedig âLlydaweg, Cernyweg, Gwyddeleg, Gaeleg yr Alban aManaweg) hanes tebyg i lawer arall o ieithoedd rhan-barthol neu leiafrifol eraill ar draws Ewrop yn sgil yroleuedigaeth, hypolisïau canoli’rwladwriaeth yn arwainat ddirywiad demograffig sydyn ar ddechrau’r ugein-fed ganrif, wedi’i ddilyn gan arafu yn y gostyngiad yn y1970au. Yn achos y Gymraeg, roedd canlyniadau’r cyf-rifiad dengmlyneddol diweddaraf (2011) [9] yn dangosbod 19% o boblogaeth Cymru (562,000) yn nodi eugallu i siarad Cymraeg, gostyngiad mewn niferoedd ab-soliwt o 20,400 ar y cyfrifiad blaenorol (2001). Dylidnodi, fodd bynnag bod Cyfrifiad 2001 yntau wedi dan-gos cynydd o 80,000 person ar gyfrifiad 1991. Byddaifelly’n ymddangos, o’r sampl graddfa fawr a ddarperirgan y Cyfrifiad, bod y Gymraeg mewn sefyllfa lawermwy diogel o ran ei ffigurau demograffig lefel uchaf nallawer o’r ieithoedd eraill yn y byd. Ond wrth gwrs,gall ffigurau lefel uchel o’r fath ond fod yn arwynebol.Mae’r darlun ei hunyn fwy cymhletho lawer [10]. Mae’rcymhlethdod hwn yn amlygu ei hun ym mhroffil oed-ran siaradwyr Cymraeg sydd wrthi’n esblygu. Er eng-hrai, o blith y grŵp oedran 10-14, cofnodwyd bod42.2% yn siarad Cymraeg yng nghyfrifiad 2011, sy’nuwch na’r ffigurau canrif ynghynt yn 1911 (ac yn llaweruwch na’r 16.2% o’r rhai hyn na 65 mlwydd oed a nod-odd eu bod yn siarad Cymraeg yn 2011).Yn wir, mae’rdadansoddiad diweddaraf o ffigurau Cyfrifiad 2011 ar

gyfer y Gymraeg [11] yn dangos bod ‘the number ofchildren speakingWelsh ismore than twice that of thoseaged 16-64 and the over 65s’. hefyd cyhoeddodd Bwrddyr Iaith Gymraeg ‘amcangyfrif rhesymol’ [12] y gallaifod 110,000 o siaradwyr Cymraeg yn byw yn Lloegr.Mae goblygiadau cadarnhaol technoleg iaith a thechn-oleg yn gyffredinol ar gyfer defnydd iaith a chynnal achadw cymunedau ieithyddol gwasgaredig o’r fath ynsylweddol. Mae’r sianel teledu Cymraeg, S4/C, yn dar-lledu yn Lloegr (a gweddill y DU yn Gymraeg). O’rholl siaradwyr Cymraeg hynny (100%) mae 44.9% ynbyw mewn cartrefi lle mae pawb yn siarad Cymraeg(ffigurau Cyfrifiad 2001—nid yw’r dadansoddiad cyf-atebol ar gyfer ffigurau 2011 ar gael adeg llunio’r papurgwyn hwn). Mae’r ystadegau hyn yn golygu bod byw-ydau teuluol llawer iawn o siaradwyr Cymraeg yn ddwy-ieithog; mae hyn yn achosi heriau penodol o ran techn-oleg iaith y gellir newid iaith ei rhyngwyneb a hynny yngnghyd-destun cynllunio ieithyddol statws (h.y. sut y gallpobl sydd â gwahanol alluoedd ieithyddol yn yr un teuluneu uned yn y gweithle rannu cyfrifiadur os yw ei ryng-wyneb yn yr iaith ‘L’ (statws diglosig is). Felly, mae’nhanfodol bwysig ar gyfer cynllunio ieithyddol cymwys-edig bod cymaint â phosibl o’r dechnoleg y bydd poblyn ei defnyddio yn yr ysgol a’r tu hwnt ar gael yn rhad acam ddim yn Gymraeg, a’i bod yn cael ei gweithredu yny sefydliadau a’r rhwydweithiau sy’n cael eu defnyddiogan segmentau arbennig penodol. Mae darparu dad-ansoddiad ystadegol o allu a defnydd y Gymraeg yn ôloedran y tu hwnt i gwmpas y papur gwyn hwn. Fodd

9

Page 17: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

bynnag, tâl inni nodi po fwyaf rhugl y bydd siaradwryn y Gymraeg, po fwyaf tebygol ydyw y bydd y siaradwrhwnnw i ddefnyddio’r iaith bob dydd.

Mae goblygiadau cadarnhaol technoleg iaith athechnoleg yn gyffredinol ar gyfer defnydd iaith a

chynnal a chadw cymunedau ieithyddolgwasgaredig yn sylweddol

Nododd Arolygon Defnydd Iaith Gymraeg Bwrdd yrIaith Gymraeg gynt (2004-2006) (dyma’r ffigurau defn-ydd iaith fwyaf diweddar sydd ar gael ar y lefel genedl-aethol), o’r 588,000 o bobl yr amcangyfrifwyd eu bodyn siarad y Gymraeg, 58% (317,000) a oedd yn ystyr-ied eu hunain yn rhugl yn yr iaith. Dywedodd 76% o’rsiaradwyr rhugl eu bod yn siarad Cymraeg bob dydd,a Chymraeg oedd iaith sgwrs ddiweddaraf 59% o’rsiaradwyr rhugl. Yn ystod oes Bwrdd statudol yr IaithGymraeg (1993-2012), esblygodd ydrafodaeth ymmaesCynllunio Ieithyddol o awydd gorsyml dim ond i gyn-yddu’r niferoedd sy’n gallu siarad Cymraeg i strategaethnewid ymddygiad fwy soffistigedig yn defnyddio gwersia ddysgwyd oddi wrth waith Hybu Iechyd y Gwasan-aeth IechydGwladol (cf prosiect Twf i berswadio rhienii siarad Cymraeg â’u plant lle nad oeddent yn medduar ddigon o hyder i wneud hynny) ac i gynyddu defn-yddio’r Gymraeg mewn sefyllfaoedd diglosig ‘H’ drwybrosiect o’r enw Mae gen ti ddewis.... Mae defnydd ynhytrach na chynyddu niferoedd hefyd yn britho dogfen-nau strategaeth mwy diweddar Llywodraeth Cymru.

Mae patrymau ymddygiad ieithyddol wedi’ugwreiddio’n ddwfn mewn seicoleg gymdeithasol,

hunan-ganfyddiadau, hunanhyder achanfyddiadau o hunan-effeithiolrwydd

ieithyddol (waeth beth yw rhuglder gwirioneddolsiaradwr Cymraeg)

Mae patrymau ymddygiad ieithyddol wedi’ugwreiddio’n ddwfn mewn seicoleg gymdeithasol,hunan-ganfyddiadau, hunanhyder a chanfyddiadau ohunan-effeithiolrwydd ieithyddol [13] (waeth beth ywrhuglder gwirioneddol siaradwrCymraeg). Mae’r elfen-nau hyn yn codi dro ar ôl tro yn yr ymchwil a gomisiyn-wyd gan Fwrdd yr Iaith Gymraeg gynt. Yn gryno, maecanfyddiad unigolyn gyfystyr â’i realiti goddrychol eihun ac, ar y cyd â nifer o ffactorau eraill, bydd bod dynolyn gweithredu o fewn y paramedrau y bydd ei hunan-gred un yn eu creu. Mae hyn yn arbennig o berthnasolwrth ystyried y defnydd o dechnoleg iaith.

3.2 NODWEDDION YGYMRAEGMae nodweddion ieithyddol cynhenid sy’n gwneud yGymraeg yn annhebyg i lawer o ieithoedd eraill y gyf-res hon papur gwyn (heblaw am ei chyfnither, y Wydd-eleg). Gall hyn wneud datblygu, ac yn benodol, croes-ffrwythloni technoleg iaith yn fwy o her na, dyweder,rhwng Ffrangeg, Sbaeneg a Saesneg.

Mae 29 o lythrennau yn y wyddor Gymraeg (defnyddirsgript Rufeinig). Nid yw’r Gymraeg yn defnyddio ‘x’neu ‘z’, a a defnyddir ‘j’ fel arfer mewn geiriau benthygo’r Saesneg). Mae’r iaith yn ymelwa ar gefnogaethUnic-ode lawn, ac felly, fel rheol gyffredinol, ni ddylai fod un-rhyw broblem o ran dangos y nodau a ddefnyddirmewnunrhyw raglen sy’n gydnaws ag Unicode.

Un o brif hynodion y Gymraeg yw ei bod yn defn-yddio deugraffau (dau symbol i gynhyrchu sain ben-odol). Mae’r rhain fel a ganlyn ch, dd, ff, ng, ll, mh,nh, ph, rh, th. Mae hyn yn cynnig her i’r technolegwyrhynny sy’n gweithredu, er enghrai, didoli mewn cron-feydd data, gan fod ‘Llandeilo’ yn dod ar ôl ‘Luton’ (illdau yn enwau lleoedd).

Mae’r Gymraeg, fel ei chyfnither y Wyddeleg, yn iaithffurfdroadol sy’n golygu bod ei ffurfiau ieithyddol yn

10

Page 18: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

newid gan ddibynnu ar (er enghrai) amser, nifer, apherson. Cymerwch, er enghrai y ferf reolaidd ‘canu’.Ar ei ffurf lenyddol, gryno, gallai’r ferf gael ei rhedeg fela ganlyn:

‚ Canaf

‚ Ceni

‚ Cân

‚ Canwn

‚ Canwch

‚ Canant

Fodd bynnag, mae’r bwlch rhwngCymraeg ysgrifenedigffurfiol a llafar yn eang. Mae’r iaith lafar yn tueddu tuagat ddefnyddio strwythurmwy cwmpasog (nad yw ei hunheb ei broblemau o ganlyniad i amrywiadau tafodieitholsylweddol yn y strwythur cwmpasog hwnnw). Er eng-hrai, yn y ffurf beriffrastig, byddid yn cyfleu ‘I amsinging/I sing’ fel a ganlyn (gan ddibynnu ar y ffurf ybydd y siaradwr yn ei mabwysiadu):

‚ Dwi’n canu

‚ Rwy’n canu

‚ Rwyf yn canu

‚ Rydw i’n canu

‚ Fi’n canu (ffurf wedi’i stigmateiddio, ond yn dod ynfwy cyffredin)

Mae’r un amrywiad yn bodoli hefyd ar gyfer personaueraill. Mae diffyg iaith lafar safonol yn achosi prob-lemau, er enghrai, ar gyfer datblygu systemau adnabodlleferydd, neu yn wir cyfieithu awtomatig neu chwilioffonig. Rhaid hefyd i’r gronfa ddata lemateiddio berth-nasol ddelio â’r broblem hon.Nodwedd arall o’r ieithoedd Celtaidd yw eu system odreigladau i gytseiniaid ar ddechrau geiriau. Bydd nawllythyren yn treiglo yn y Gymraeg, a cheir tri math odreiglad, fel y dangosir yn y tabl isod. Fodd bynnag,

mae angen i dechnoleg iaith ystyried y rheolau sy’n ach-osi i’r treigladau hyn ddigwydd. Er enghrai, gall y gair‘a’ olygu ‘yn ogystal â (and)’, neu gall fod yn eiryn cyn-ferfol. Yn y lle cyntaf, byddai’n achosi treiglad llaes, yn yrail, dreiglad meddal. Bydd gwrthrych ffurf gryno’r ferfhefyd yn cymryd treiglad meddal yn y Gymraeg. Felly,er enghrai, mae i ‘Gwelodd fachgen’ ystyr wahanol i‘Gwelodd bachgen’, a’r treiglad sy’n cyfleu hyn. Byddenwau lleoedd yn cymryd treiglad trwynol ar ôl ‘yn’, ondgall ‘yn’ hefyd fod yn eiryn cyn-ferfol. Sut y bydd techn-oleg iaith yn gallu gwahaniaethu rhwng y sefyllfaoeddhyn? Mae hyn, wrth gwrs, hefyd yn berthnasol ar gyfery cyfieithu awtomatig a drafodir yn ddiweddarach yn ypapur gwyn hwn.

Er bod technoleg iaithwedi gwneud cynnydd sylweddolyn ystod y blynyddoedd diwethaf, mae cyflymder cyf-redol cynydd ac arloesi cynnyrch technolegol yn araf argyfer llawer o ieithoedd llai Ewrop. Felly, rhaid i Ewropgynnal ei rôl arloesol wrth wynebu’r heriau technolegola grëir gan gymuned amlieithog trwy ddyfeisio dulliaunewydd i gyflymu datblygiad ar draws y map. Gallai’rrhain gynnwys datblygiadau a thechnegau megis torfolicyfrifiadurol. Yn achos penodol y Gymraeg, mae rhaiheriau y mae angen eu goresgyn wrth ddatblygu techn-oleg iaith fel a ganlyn, e.e. mae amrywiaeth tafodieitholyn y Gymraeg yn fawr, er bod siaradwyr pob tafodiaithyn deall ei gilydd. Hyd nes dyfodiad S4/C, y sianel del-eduGymraeg yn 1982, syddwedi hwyluso dealltwriaethfewnol yn y gymuned lleferydd Gymraeg, clywyd llawero gwynion anecdotaidd ynglŷn â’r diffyg gallu i ddealltafodieithoedd Cymru. Mae hyn yn cynnig her amlwg idechnoleg, megis adnabod llais. Mae Cymru wedi elwao iaith ysgrifenedig safonol ers cyfieithiad o’r Beibl ganyr EsgobWilliamMorgan yn 1588. Gwnaeth hyn laweri warchod undod iaith, lle, er enghrai, mae ieithoedderaill, megis y Llydaweg, wedi ffragmenteiddio’n dafod-ieithoedd gwahanol. Mae crefyddwedi chwarae, hyd ynddiweddar iawn, rôl gymdeithasegol fawr mewn cadwr-

11

Page 19: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Meddal Trwynol Llaes

T D NH THC G NGH CHP B MH PHB F M -D DD N -G [Diflannu] NG -M F - -RH R - -LL L - -

aeth ieithyddol yng Nghymru, pan nad oedd y wladwr-iaethmor barod i annog dwyieithrwydd ag ymae yn awr.

Gellid rhannu rhai cydrannau a’u hailddatblygurhwng ieithoedd

Fodd bynnag, mae’r iaith ysgrifenedig safonol a ddis-grifir uchod ynwahanol iawn iGymraeg llafar (yn ei hollffurfiau tafodieithol). Felly, er enghrai, yn achos defn-yddio offer trosi llais yn destun, pa offer technoleg iaitha fyddai’n ofynnol er mwyn trawsgrifio’r ymadroddion igreu cofnodffurfiolmewnCymraeg ysgrifenedig o’r cyf-arfod hwnnw (heb waith ôl-golygu sylweddol)? I ddan-gos y pwynt hwn, nododd yrAthroBobi Jones [14] syddwedi ysgrifennu’n helaeth ar faterion y Gymraeg, yngnghyd-destun Cymraeg ffurfiol ‘Yr ydym yn siarad iaithein mamau, ac yn ysgrifennu iaith neiniau neiniau einhen neiniau!’ Ar hyn o bryd, prin yw’r ddarpariaethffurfiol ar gyfer hyfforddi siaradwyr Cymraeg fel ieith-yddion cyfrifiadurol. Mae’r setiau angenrheidiol o sgil-iau technolegol, rhaglennu Cymraeg cywir ac ieithydd-iaeth gyfrifiadurol yn brin. Yn aml bydd yn anodd pen-odi staff i swyddi creu cynnwys hyd yn oed (er enghrai,ar gyfer gwefannau) a chanddynt ddigon o sgiliau iaithac ysgrifennu copi.

Ceir arbedion mewn costau, cynnydd mawr o rancysondeb a gostyngiad o ran cyfieithu

ailadroddus drwy rannu Cofion Cyfieithu

MaeprosiectauEwrop-eangmegisMETA-NETyndan-gos yr arbedionmaintmawr y gellir eu canfoddrwy fyndi’r afael â phroblemau tebyg llawer o ieithoedd mewnun lle. Yn ddiau, dyma gyfle i’r Gymraeg, ac ieithoeddllai eraill. Ac er nad yw llawer o ieithoedd Ewrop ynramadegol debyg, gellid rhannu rhai cydrannau a’u hail-ddatblygu rhwng yr ieithoedd hynny sy’n gysylltiedig.Dylid defnyddio hefyd lawer o dechnolegau generig ac,o bosibl, eu rhannu eu pensaernïaeth, ar gyfer ieithoeddEwrop, megis:

‚ Cofion cyfieithu sy’n seiliedig ar gwmwl

‚ Cyfieithu awtomatig hybrid (wedi ei gysylltu â’r cof-ion cyfieithu a ddisgrifir yn fanylach yn ypapur gwynhwn)

O ran y cyfleoedd ar gyfer y Gymraeg y gall technolegiaith eu darparu, gellir ystyried:

‚ Y cyfalaf cymdeithasol a allai ddeillio o brosiectautorfoli yn y sector gwirfoddol, a’r cyfalaf cymdeith-asol a ddaw o greu cynnwys ar y cyd yn y Gymraeg

‚ Arbedionmewn costau, cynnyddmawr o ran cyson-deb a gostyngiad o ran cyfieithu ailadroddus drwy

12

Page 20: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

rannu Cofion Cyfieithu yn y sector cyhoeddus arraddfa fawr

‚ Gall synthesis lleferydd ddarparu cymorth ar gyfer yrhai sy’n dysgu Cymraeg nad oes ganddynt fynediadbob dydd i siaradwyr yr iaith

‚ O ran yr agenda cynhwysiant, bydd darllenwyr sgriniaith Gymraeg yn cynyddu mynediad i’r rhai syddâ nam ar eu golwg i gynnwys a gwasanaethau iaithGymraeg.

3.3 DATBLYGIADAU DIWEDDARBu i athroniaeth cenedlaetholdeb rhamantaidd yn sgilyr oleuedigaeth wedi amlygu ei hunwrth greu gwladwr-iaethau cenedl monolithig sydd, er mwyn bod yn fonol-ithig, wedi gweithredu polisïau canoli, unffurfio a oeddyn gostwng (neu mewn rhai achosion, yn dileu) am-rywiaeth ieithyddol mewnol. Mae agweddau sosios-eicolegol y diglosia a grëwyd o’r herwydd ar gyfer techn-oleg a swyddogaethau ‘modern’ hefydwedi eu hesbonio.Fodd bynnag, yn ystod traean olaf yr 20 fed datblygoddmudiadbyd-eangoblaid glocaleiddio, a oedd yn rhoi prismawr ar elfennau lleol ond eto yn meddu ar fyd-olwgbyd eang. Gwelodd yr adfywiad hwn gynnyddmewndi-ddordebmewn ieithoedd rhanbarthol neu leiafrifol. Ynachos y Gymraeg, fe wnaeth anufudd-dod sifil eang led-aenu a phrotest ddi-drais (yn bennaf, yn y blynyddoeddcynharach, ar ran Cymdeithas y Gymraeg [15]) sicrhauconsesiynau gan y Llywodraeth. Cafwyd deddfwriaetharall hefyd yn sgil hynny:

‚ Deddf yr IaithGymraeg (1967), a ganiataodd iwein-idogion ragnodi fersiynau swyddogol o ffurflenni yny Gymraeg, defnydd cyfyngedig o’r Gymraeg yn ysystem llysoedd a nifer o ddarpariaethau eraill.

‚ Deddfau Darlledu (1981 a 1982) a arweiniodd atsefydlu S4/C, y sianel deledu Gymraeg. Mae S4/Cbellach yn ddarlledwr aml-lwyfan digidol arloesol

sy’n cynnwys cynulleidfaoedd yn ei rhaglenni trwygyfryngau cymdeithasol.

‚ Deddf Addysg 1988 a wnaeth y Gymraeg yn bwnccraidd yn yCwricwlwmCenedlaethol yngNghymru(nid oedd yr iaith hyd hynny wedi’i dysgu’n orfodolyn y system ysgolion, ac nid oedd llawer o ysgolionyn ei dysgu o gwbl).

‚ Bwrdd Ymgynghorol yr Iaith Gymraeg (1988) asefydlwyd iwneud argymhellion iWeinidogion yng-hylch priodoldeb deddfu ar gyfer y Gymraeg. Feachosodd argymhelliad o’r fath ddraio Deddf yrIaith Gymraeg 1993. Mae’r Ddeddf honno, sy’n di-ddymu llawer o ddarpariaethau Ddeddf 1967 ac asicrhaodd fod sefydliadau cyhoeddus sy’n gwasan-aethu’r cyhoedd yng Nghymru, lle bynnag y maentwedi’u lleoli yn y DU, yn darparu gwasanaethau i’rcyhoedd yng Nghymru ar sail cydraddoldeb rhwngy Gymraeg a’r Saesneg. Sicrhawyd hyn gan ‘gynllun-iau iaith Gymraeg’, dogfennau sydd i’w teilwra i am-gylchiadau pob sefydliad unigol. Yn ogystal, sefydl-odd yDdeddf Fwrdd yr IaithGymraeg statudol i ‘hy-rwyddo a hwyluso’r defnyddio’r Gymraeg.’ Cafoddy Bwrdd ei ddiddymu ym mis Mawrth 2012, gan yddeddfwriaeth ddiweddaraf a ddisgrifir isod.

‚ Deddfau Llywodraeth Cymru (1998 a 2006), sy’ncaniatáu datganoli pŵer mewn meysydd cyfyngedigi Gynulliad Cenedlaethol Cymru, ac yn rhoi iddo’rgallu i wneud ‘unrhyw beth o fewn ei bŵer’ i hy-rwyddo’r Gymraeg.

‚ Ymhlith datblygiadau arwyddocaol eraill mae mud-iadau cymdeithas sifil fel Mudiadau Dathlu’r Gym-raeg (mudiad ymbarél o fudiadau Cymraeg), Dy-fodol i’r Gymraeg, lobi o siaradwyr Cymraeg am-lwg a’r Awr Gymraeg; yn ystod yr awr hon anogirsiaradwyr Cymraeg, unwaith yr wythnos, i ddefn-yddio’r Gymraeg ar Twitter bob wythnos.

13

Page 21: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

‚ Arsyllfa polisi, a gyhoeddwyd ym mis Ionawr 2013gan Gomisiynydd y Gymraeg, i astudio goblyg-iadau’r Gymraeg ym mhob maes polisi

‚ Y Coleg Cymraeg Cenedlaethol, sefydliad rhithwirlefel Prifysgolwedi’i ariannu gan yLlywodraeth, sy’ncydlynu darpariaeth Gymraeg yn sefydliadau addysguwch Cymru. Mae darlithyddiaethau mewn techn-oleg wedi eu hysbysebu.

Mae llawer o’r datblygiadau uchod, i raddau, yn defn-yddio neu’n creu angen am dechnoleg iaith.

3.4 HYRWYDDO ARHEOLEIDDIO IAITHUn o’r datblygiadau mwyaf arwyddocaol ym mholisiiaith yng Nghymru fu caniatáu i Gynulliad Cenedl-aethol Cymru Gymhwysedd Deddfwriaethol i greudeddfwriaeth mewn materion sy’n ymwneud â sawl ag-wedd ar y Gymraeg. Fe wnaeth hyn alluogi Llywodr-aeth Cymru i gyflwyno un o brif bileri ei GytundebClymblaid ‘Cymru’n Un’, h.y. i ddraio Mesur y Gym-raeg (Cymru) 2011. Mae’r Mesur yn rhoi i Weinidog-ion Cymru y pŵer i ddiddymu Bwrdd yr Iaith Gym-raeg, ac i ad-drefnu ei swyddogaethau. Swydd Com-isiynydd y Gymraeg oedd un o brif elfennau’r ddeddf-wriaeth hon. Daeth y Comisiynydd i fodolaeth ym misEbrill 2012. Mae gan y Comisiynydd bŵer i orfodi cyd-ymffurfiaeth gyfreithiol â chyfres newydd o ‘SafonauIaithGymraeg’, y bwriedir iddynt gymryd lle’r 541Cyn-lluniau Iaith Gymraeg sydd ar waith, prif offeryn Deddfyr Iaith Gymraeg ar hyn o bryd. Mae’r safonau hyn yncael eu rhannu fel a ganlyn:

‚ Safonau cyflenwi gwasanaethau

‚ Safonau llunio polisi

‚ Safonau gweithredu

‚ Safonau hybu

‚ Safonau cadw cofnodion

Mae’r safonau hyn wedi bod yn destun ymgynghoriadcyhoeddus gan y Comisiynydd ac yn awr maent wrthi’ncael eu hailddraio a’u harchwilio ymhellach ganWein-idogion Cymru. Disgwylir y bydd y drefn yn gwblweithredol erbyn diwedd 2014. Mae’r safonau wedi euhategu gan system cydymffurfio fwy trylwyr, gan gyn-nwys hysbysiadau cydymffurfio a dirwy o hyd at £5,000(ac, wrth gwrs, y niwed i enw da a ddaw yn sgil hyn).Y tair safon gyntaf sydd fwyaf perthnasol i dechnolegiaith. Maent yn sicrhau bod y gwasanaethau a ddarperiri’r cyhoedd yng Nghymru (drwy ba fodd bynnag) yncael eu darparu trwy gyfrwng dewis iaith y defnyddiwrterfynol a bod yn rhaid i’r dewis hwnnw gael ei gipio a’iailddefnyddio yn ei holl ymwneud â’r sefydliad hwnnw(gwefannau, ap, CRM ac ati).

Gellir dwyn elfennau o’r sector teleffoni o fewncylch gorchwyl Mesur y Gymraeg, a thrwy hynnyei gwneud yn orfodol i ryngwynebau teleffoni

symudol i fod ar gael yn Gymraeg

Bydd safonau llunio polisi yn sicrhau bod yn rhaid i’rGymraeg gael ei hystyried fel ffactor ym mhob pender-fyniad polisi y bydd sefydliad yn ei wneud. E.e. o ranstrategaeth tymor-hir TG sefydliad, ‘a yw system X argael, neu’n debygol o fod ar gael yn yGymraeg, ac a yw’ncynnal ac yn rheoli dewis iaith’—os nad yw’n gwneud,dylid ei ddiystyru, neu lunio achos dros barhau â’r brosesgaffael (gan gadw cofnodion priodol o’r rhesymeg y tuôl i’r penderfyniad i barhau). Mae’r safonau gweith-redu yn ystyried gwaith mewnol sefydliad penodol, abyddai’r hawliau a allai godi o’r safonau hyn yn gallu-ogi gweithwyr i gyfathrebu â’i gilydd yn Gymraeg hebosod rhwystr rhag hynny, a hynny â chefnogaeth stat-udol lawn. Mae technoleg yn hwylusydd allweddol argyfer hyn a disgwylir cynnig gweithredol, er enghrai,o wasanaeth neu ddarpariaeth (o ran yr ochr weinyddol

14

Page 22: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

a chynnwys) mewn rhaglenni o’r fath fel systemau rhe-oli cynnwys a rhyngwynebauTG.Mae’rMesur hefyd yncaniatáu ar gyfer elfennau pwysig o’r sector telathrebu igael eu dwyn o fewn ei gylch gorchwyl yn ddiweddar-ach a thrwy hynny ei gwneud yn ofynnol, er enghrai,i ryngwynebau teleffoni symudol fod ar gael yn y Gym-raeg.Yn olaf fel cefndir strategol i’r fframwaith polisisy’n effeithio ar dechnoleg iaith yng Nghymru, maeLlywodraeth Cymru wedi cyhoeddi dogfen StrategaethIaith sylweddol (a hynnywedi cyhoeddi dogfen Strateg-aeth ar gyfer Addysg Gymraeg yn barod) a gyhoeddwydo dan y teitl Iaith Fyw: Iaith Byw. [16] Mae’r strateg-aeth yn amlinellu gweledigaeth y Llywodraeth ar gyferCymru ddwyieithog y mae’n dymuno ei gweld yn y dy-fodol, ac mae Gweinidogion wedi datgan sawl gwaithyn gyhoeddus y bydd cynyddu’r defnydd o ddarpar-iaeth ieithyddol sydd ar gael yn un o brif sylfeini athron-yddol y strategaeth honno. Mae’r athroniaeth hon yncael ei hamlinellu, a’i harchwilio, yng nghyd-destun yddarpariaeth TG sydd eisoes ar gael yn yGymraeg, isod.Mae’r strategaeth yn rhagweld yn ‘cynrychiolaeth grefo’r Gymraeg ar draws y cyfryngau digidol’ ac yn neilltuoun o’i chwe phennod i ‘Isadeiledd’ ar gyfer yr iaith, lle yreir i’r afael â thechnoleg iaith. Dyma dargedau strategoly bennod honno, gan nodi y bydd Llywodraeth Cymruyn gweithredu drwy:

‚ annog darparwyr gwasanaeth y sector preifat mawr,gan gynnwys banciau, manwerthwyr, cwmnïau ffônsymudol, datblygwyr meddalwedd a chaledwedd, aceraill i ddatblygu gwasanaethau, rhaglenni a rhyng-wynebau ar-lein drwy gyfrwng y Gymraeg

‚ hwyluso datblygu rhyngwynebauCymraeg ar gyfer ycyfryngau rhwydweithio cymdeithasol a ddefnyddiryn gyffredin, gan gynnwys meddalwedd cod agored

‚ darparu, o bosibl ar sail gyfatebol, cyllid cychwyn-nol ar gyfer mentrau fel y rhain ar sail gynyddrannoldros gyfnod o amser

‚ datblygu consensws mewn meysydd blaenoriaeth llemae angen buddsoddiad technolegol

Sefydlwyd y Gweithgor Gweinidogol yn gynnar yn2012 a chyfarfu sawl gwaith i drafod Strategaeth ddraa Chynllun Gweithredu ar gyfer y Gymraeg a thechn-oleg. Mae’r strategaeth [17] yn yn ymdrin yn fanwl â’rholl themâu uchod, ac yn rhoi pwyslais sydd i’w groes-awu ar greu cynnwys, a fydd, wrth gwrs, yn asio’n gryfgyda’r offer a themâu technoleg iaith a ddisgrifir yn yddogfen hon yn achos y Gymraeg. Mae’r Strategaeth,yn seiliedig ar drafodion y Gweithgor ac yn cynnig pummaes gweithredu:

‚ Marchnata a chodi ymwybyddiaeth

‚ Dylanwadu ar gwmnïau meddalwedd mawr

‚ Annog datblygu pecynnau meddalwedd newydd agwasanaethau digidol drwy gyfrwng y Gymraeg

‚ Annog creu a rhannu, a defnyddio cynnwys digidolCymraeg

‚ Rhannu arfer gorau yn y sectorau cyhoeddus, preifata’r trydydd sector.

Bydd y rhain yn cael eu rhoi ar waith drwy gyllid, an-ogaeth a deddfwriaeth gan y Llywodraeth.Er mwyn gwireddu gweledigaeth y Llywodraeth oGymru ddwyieithog, rhaid i’r Gymraeg fod â lle haedd-iannol ymmyd technoleg, acmae angendull gweithredustrategol, hirdymor i sicrhau hyn. Fel y gwelwyd, maehyn ar waith. Mae ystyriaethau eraill hefyd yn dylan-wadu ar rôl a sefyllfa gyfreithiol y Gymraeg. O fewn ydegawd diwethaf, daeth y Gymraeg yn rhan o’r agendacydraddoldeb ond eto nid yw’n ymddangos yn amlwgo’i chymharu âmeysydd cydraddoldeb eraill yn seiliedigar hil, rhyw, cyfeiriadedd rhywiol neu anabledd. Unffordd o gyfrannu at hollbresenoldeb y Gymraeg mewntechnoleg oedd cyhoeddi canllawiau manwl, technegola fyddai’n darparu cyngor ar sut i greumeddalwedd neuwefannau amlieithog, gan bwysleisio’r angen am newid

15

Page 23: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

iaith yn hawdd. Ym mis Ebrill 2006, lansiodd Bwrddyr Iaith Gymraeg Ganllawiau a Safonau MeddalweddDwyieithog cynhwysfawr, [18] (ar yr un diwrnod â’rddogfen Strategaeth gyntaf ar gyfer TG a’r Gymraeg[19]) a’u dosbarthu i bob sefydliad a oedd â ChynllunIaith statudol o dan Ddeddf yr Iaith Gymraeg 1993.Wedyn, cynhaliodd nifer o seminarau ar gyfer ymarfer-wyr technegol i roi cyhoeddusrwydd i’r safonau, un yrun yng ngogledd a de Cymru, ac un arall yn Llundain(yn bennaf ar gyfer Cyrff y Goron â Chynllun Iaith odan Ddeddf yr Iaith Gymraeg 1993). Y gobaith oeddy byddai’r cyngor a roddwyd yn y ddogfen hon, a’r ffra-mweithiaumonitro a ddefnyddir i dracio sut y’i gweith-redir, yn gwella darpariaeth ddwyieithog gwasanaethauelectronig o bob math, gan wella ar y perfformiad anodir yn nauGiparolwg o wefannau sector cyhoeddus yBwrdd a gynhaliwyd yn 2001 [20] a 2003 [21]. Ym misAwst 2009, lansiodd y Bwrdd Gynllun Achredu techn-egol [22] ar gyfer y ddogfen safonau ar ei wefan. Mae’rcynllun hwn, sy’n anelu at staff technegol medrus TGmewn sefydliadau â Chynllun Iaith o dan Ddeddf 1993(ac unrhyw sefydliad arall sy’n dymuno darparu gwas-anaethauTGdwyieithog) yGymraeg, yn troi’rCanllaw-iau a SafonauMeddalweddDwyieithog i ffurf cwestiwn,gan alluogi’r staff technegol hynny i ganfod yn hawdda yw system benodol yn cydymffurfio ac yn cyflenwidewis iaith ar sail cydraddoldeb rhwng y Gymraeg a’rSaesneg. Y bwriad yw y byddai canlyniadau’r cwestiynauhyn yn cael eu defnyddio fel dangosyddion diacronig argyfer gwella gwasanaethau TG dwyieithog. Diweddar-wyd y ddogfen hon, a’i hail-weithio fel un o’r dogfennaucyngor cyntaf a gyhoeddwyd gan Gomisiynydd y Gym-raeg yn 2012. Bydd holl ddogfennau cyngor y Com-isiynydd, maes o law, yn cael eu cyhoeddi fel Codau Ym-arfer dan Fesur y Gymraeg (Cymru) 2011, gyda sefydl-iadau yn gorfod profi sut y maent wedi rhoi ‘sylw dyl-edus’ i’r codau hyn i gydymffurfio â’r drefn safonau addisgrifir uchod.

3.5 HYFFORDDIANT IAITH ATHECHNOLEG YM MYDADDYSG

Mae ar faes hyfforddiant defnyddiwr a meithrin gallutrwy gyfrwng y Gymraeg ym maes TG angen sylw pen-odol. Mae amryw o switiau hyfforddi yn bodoli, arffurf electronig ac ar bapur, yn eu plith y DrwyddedYrru Gyifiadurol Ewropeaidd [23] a phrosiect Llythr-ennedd Digidol Microso, sy’n defnyddio terminolegsafonol a chipluniau fersiynau Cymraeg ei gynhyrch-ion ei hun. Gan fod y byd TG yn symud mor gyflym,bydd angen diweddariadau i’r math hwn o hyfforddiantyn rheolaidd, ac mae pecynnau hyfforddi eraill wrthi’ncael eu paratoi. O ran hyfforddiant ar gyfer sefydliadaui ddarparu technoleg iaith, fe wnaeth Bwrdd yr IaithGymraeg gylchredeg Nodyn Cyngor o dan Ddeddf yrIaith Gymraeg 1993, i bob un o’r 541 o sefydliadau achanddynt gynllun iaith, gan egluro’r ddarpariaeth bres-ennol o ran technoleg iaith, gan nodi’r mythau a am-linellir yn y papur gwyn hwn—a’u chwalu. Mae mod-iwlau israddedig ar gael i wahanol raddau mewn gwa-hanol sefydliadau ond nid ymhob un.

3.6 AGWEDDAURHYNGWLADOL

Mae’rGymraegwedi’i chwmpasu ganddarpariaethau yny Confensiwn Fframwaith ar gyfer Amddiffyn Lleiaf-rifoedd Cenedlaethol ac mae Llywodraeth y DU wedicadarnhau 52 o gymalau Siarter Ewrop ar gyfer Ieith-oedd Rhanbarthol neu Leiafrifol gyfer y Gymraeg. Maehefyd wedi’i chynrychioli ar y Rhwydwaith ar gyferHy-rwyddo Amrywiaeth Ieithyddol (y mae ei brif swyddfayng Nghaerdydd).

16

Page 24: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

3.7 Y GYMRAEG AR YRHYNGRWYDMae ffigurau Llywodraeth Cymru [24] ar gyfer 2012yn dangos bod gan 70% o gartrefi Cymru fynediad i’rrhyngrwyd. Mae hyn yn cyfateb i tua 77% o bobl 18oed neu’n hŷn a chanddynt fynediad i’r rhyngrwyd yn ycartref. Dywedodd 73% o bobl eu bod yn defnyddio’rrhyngrwyd yn y cartref, gwaith neu mewn man arall;roedd hyn yn amrywio yn ôl oedran gyda chyfran llawermwy o bobl o dan 45 oed yn defnyddio’r rhyngrwyd na’rrhai 45 oed a throsodd. Defnyddwyr y rhyngrwyd o dan25 mlwydd oedd yn fwy tebygol (41%) na defnyddwyry rhyngrwyd 65 oed a throsodd (8%) oed i fod wedi caelmynediad i’r rhyngrwyd yng nghartref rhywun arall ynystod y tri mis diwethaf. Dengys ffigurau diweddarach[25] mai’r ganran o boblogaeth Cymru nad oedd erioedwedi defnyddio’r rhyngrwyd oedd 17.5% (o’i chym-haru â 14% o boblogaeth y DU yn ei chyfanrwydd.Fodd bynnag, nid oes ffigurau manwl gywir ar gael yng-hylch pa iaith y bydd pobl Cymru yn ei defnyddio igael mynediad i’r rhyngrwyd. Y Gymraeg yw’r 65ainiaith fwyaf cryf ar Wikipedia, yn ôl cynnwys [26] (achanddi oddeutu 49,000 erthygl), sy’n profi hyfyweddac egni’r gymuned cod agored o lunwyr cynnwys gwir-foddol. Maenifer o borwyr eisoes â rhyngwyneb ar gyferyGymraeg (InternetExplorer,Opera, Firefox), a sawl un

arall, heb feddu ar ryngwynebau Cymraeg, ond yn can-iatáu i locale y porwr gael ei newid i Gymraeg er mwynawtomeiddio cyflwyno cynnwysCymraeg. Yn anffodus,ermwynmanteisio ar y ddarpariaeth hon, rhaid gwybodbeth yw locale, gwybod ymhle y mae, bod am ei ddefn-yddio ynGymraeg, a gwybod sutmae ei newid, a’i newidyn ôl os, er enghrai, y bydd diweddariad meddalw-edd yn ei ailosod. Mae hyn i gyd yn annibynnol ar iaithrhyngwyneb y system gweithredu er enghrai, Micros-o Windows. Mae rhyngwyneb Cymraeg wedi cael eiddatblygu ar gyfer Google (chwilio) a Gmail. Y cyf-leuster rhyngrwyd a ddefnyddir amlaf yw chwilio’r we,ac mae’n hollbresennol ar bob math o ddyfais a phlat-fform. Yn ogystal, mae chwilio ar y we ei hun yn defn-yddio neu fe all ddefnyddio ystod o dechnolegau iaith(o wahanol lefelau o soffistigedigrwydd) i wella canlyn-iadau ac ansawdd yn gyffredinol. Ar wahân i’r bri o fodyn gysylltiedig â brand rhyngwladol mor llwyddiannus,mae rhyngwynebau Cymraeg Google yn darparu mwyna phrofiad rhyngrwyd addas ar gyfer siaradwyr Cym-raeg, ond hefyd maent yn adlewyrchu’r angen cynyddolam offer chwilio a gwasanaethau prosesu iaith priodol iddelio â data’r Gymraeg. Mae’r adran nesaf yn rhoi cyf-lwyniad i dechnoleg iaith a’i meysydd craidd, ynghyd âgwerthusiad o gefnogaeth gyfredol technoleg ar gyfer yGymraeg.

17

Page 25: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

4

CYMORTH TECHNOLEG IAITHAR GYFER Y GYMRAEG

Defnyddir technolegau iaith i ddatblygu systemaumeddalwedd sydd â’r nod o ymdrin ag iaith ddynol, acfelly yn aml fe’u gelwir yn ‘dechnolegau iaith ddynol’.Daw iaith ddynol mewn ffurfiau llafar ac ysgrifenedig.Er mai lleferydd yw’r ffurf hynaf ar gyfathrebu ieith-yddol o ran yr esblygiad dynol, bydd y rhan fwyaf owybodaeth gymhleth yn cael ei storio a’i throsglwyddodrwy’r gair ysgrifenedig. Bydd technolegau testuna lleferydd yn prosesu neu yn cynhyrchu’r gwahanolfathau hyn o iaith, gan ddefnyddio geiriaduron, rheolaugramadegol, a semanteg. Mae hyn yn golygu bod techn-oleg iaith (TI) yn cysylltu iaith â gwahanol fathau owybodaeth, yn annibynnol ar y cyfryngau (lleferyddneudestun) y mae’n cael ei fynegi ynddynt. Mae Ffigur 1 yndangos y tirwedd technoleg iaith. Pan fyddwn yn cyf-athrebu, rydym yn cyfuno iaith â dulliau eraill o wybod-aeth a chyfryngau cyfathrebu—er enghrai, gall siaradgynnwys ystumiau amynegiant y wyneb. Bydd testunaudigidol yn cysylltu â lluniau a seiniau. Gall ffilmiaugynnwys iaith mewn ffurf lafar ac ysgrifenedig. Mewngeiriau eraill, mae technolegau lleferydd a thestun yngorgyffwrdd ac yn rhyngweithio â chyfathrebu amlfodderaill a thechnolegau aml-gyfryngol. Yn yr adran hon,trafodir prif feysydd defnyddio technoleg iaith ar gyfery Gymraeg, h.y., gwirio iaith, chwilio ar y we, rhyng-weithio lleferydd, a chyfieithu awtomatig. Gall y rhag-lenni a’r technolegau sylfaenol hyn gynnwys, ond nidydynt yn gyfyngedig i:

‚ gywiro sillafu

‚ cymorth i greu cynnwys

‚ dysgu iaith gyda chymorth cyfrifiadur

‚ galw gwybodaeth yn ôl

‚ echdynnu gwybodaeth

‚ crynhoi testun

‚ ateb cwestiwn

‚ adnabod llais

‚ synthesis lleferydd

Mae technoleg iaith yn faes ymchwil sefydledig a chan-ddo set helaeth o lenyddiaeth ragarweiniol. Cyn trafody meysydd uchod, ceir disgrifiad cryno o bensaernïaethRhaglen system TI nodweddiadol.

4.1 PENSAERNÏAETHRHAGLENNIFel arfer byddmeddalwedd ar gyfer prosesu iaith yn cyn-nwys sawl elfen sy’n adlewyrchu gwahanol agweddau ariaith. Er bod rhaglenni o’r fath yn tueddu i fod yn gym-hleth, dengys Ffigur 2 bensaernïaeth seml iawn systemprosesu testun nodweddiadol. Mae’r tri modiwl cyntafyn ymdrin â’r strwythur ac ystyr testun a roddwyd:

18

Page 26: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Technolegau GwybodaethTechnolegauIaith

Technolegau Testun

Technolegau LleferyddTechnolegauAmlgyfryngolac Aml-fodd

1: Technoleg iaith yn ei chyd-destun

1. Cyn-brosesu: glanhau’r data, dadansoddi neu gaelgwared â fformatio, canfod pa iaith a fewnbynnwyd,ac yn y blaen.

2. Dadansoddiad gramadegol: dodohyd i’r ferf, ei gwr-thrychau, addaswyr ac elfennau brawddegol arall;canfod strwythur y frawddeg

3. Dadansoddiad Semantig: dadamwyso (h.y., canfodystyr briodol geiriau mewn cyd-destun penodol);penderfynu anaffora (hy, pa ragenwau sy’n cyfeirioat ba enwau yn y frawddeg); cynrychioli ystyr yfrawddeg mewn ffordd y gall peiriant ei darllen.

Wedi dadansoddi’r testun, gall modiwlau tasg-benodolberfformio gweithredoedd eraill, megis crynhoiawtomatig ac edrych mewn cronfa ddata. Noder bodpensaernïaeth y rhaglenni wedi’i symleiddio fawr acwedi ei rhoi mewn ffordd ‘ddelfrydol’, er mwyn dangoscymhlethdod rhaglenni technoleg iaith mewn fforddgyffredinol ddealladwy. Yng ngweddill yr adran hon,ceir gorolwg o gyflwr ymchwil ac addysg technoleg iaithar gyfer yGymraeg fel ymae heddiw, ynghyd â disgrifiado ddatblygiadau technoleg iaith Gymraeg yn y gorffen-nol a’r presennol. Yn olaf, darperir amcangyfrif o offerac adnoddau technoleg iaith greiddiol ar gyfer y Gym-raeg o ran gwahanol ddimensiynau megis argaeledd,aeddfedrwydd ac ansawdd.

4.2 MEYSYDD RHAGLENCRAIDDYn yr adran hon, canolbwyntir ar yr offer technolegiaith pwysicaf a darperir gorolwgo weithgareddau TGar gyfer y Gymraeg.

4.2.1 Gwirio Iaith

Bydd pawb sydd wedi defnyddio prosesydd geiriaumegis Microso Word yn gwybod bod ganddo wiryddsillafu sy’n amlygu gallau sillafu ac yn cynnig cywiriadau.Ddeugain mlynedd wedi i Ralph Gorin greu’r rhaglengyntaf i wirio sillafu, nid yw gwirwyr sillafu ond yn creucymhariaeth seml o’r geiriaumaent wedi eu hechdynnu,ondmaentwedi dod yn gynyddol fwy soffistigedig. Ganddefnyddio algorithmau ieithyddol ar gyfer dadansoddigramadegol, maent yn canfod gwallau sy’n gysylltiediga morffoleg (e.e. ffurfiau lluosog) yn ogystal â rhai sy’ndeillio o’r gystrawen, megis berfau ar goll neu wrthdarowrth gytuno rhwng berf-gorddrych (e.e., *she write aletter yn Saesneg). Fodd bynnag, ni fydd y rhan fwyaf owirwyr sillafu a gramadeg yn canfod gwallau yn y testuncanlynol [27]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

19

Page 27: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Dadansoddi semantaidd Modiwlau Tasg-benodolDadansoddi gramadegolCyn-brosesu

Mewnbynnu testun Allbynnu

2: Pensaernïaeth nodweddiadol ar gyfer prosesu testun

Fel arfer, er mwyn mynd i’r afael â gwallau o’r fath, byddangen dadansoddi’r cynnwys. Rhaid i’r math hwn oddadansoddiad dynnu naill ai ar gramadegau sy’n ben-odol i’r iaith dan sylw, a’r rheini wedi eu codio’n llafurusi’r meddalwedd gan arbenigwyr, neu ar fodel ystadegol.Yn yr achos hwn, byddmodel yn cyfrif y tebygolrwydd ybydd gair penodol yn ymddangos mewn safle penodol.Gellri creu model ieithyddol ystadegol yn awtomatigdrwy ddefnyddio swm mawr o ddata ieithyddol (wedi’ihanodi). Gelwir hyn yn gorpws testun. Datblygwyd yddau ddull uchod o gwmpas data’r Saesneg. Ar hyn obryd, nid oes modd hawdd i drosglwyddo’r naill neu’rllall i’r Gymraeg oherwydd diffyg adnoddau ieithyddolsylfaenol. Ni cheir corpora testun digonmawr, a’r rheiniwedi eu hanodi, i hyfforddi model ystadegol, ac ni chaf-wyd ymchwil ddigonol i amgodio gwybodaeth ieith-yddol mewn gramadegau.

Nid yw gwirio iaith yn beth sydd ar gyferprosesydd geiriau yn unig—mae hefyd yn

berthnasol i systemau awduro

Y tu hwnt i’r gwirydd sillafu a gramadeg a chefnogaethi awduron, mae gwirio iaith hefyd yn bwysig ym maesdysgu-iaith-â-chymorth cyfrifiadur. Dyma faes a fyddaio fydd sylweddol i ddysgwyr y Gymraeg ac ieithoeddbychain eraill.

4.2.2 Gwirwyr sillafu, GwirwyrGramadega Geiriaduron Cyfrifiadurol

Er mwyn mynd i’r afael â’r problemau o ran creu cyn-nwys a ddisgrifir uchod, mae nifer o wirwyr sillafu agramadeg a geiriaduron cyfrifiadurol wedi eu comisiynuneu noddi gan gymorth grant. Y cyntaf oedd CySill,a gomisiynwyd gan Adrannau Seicoleg ac IeithyddiaethPrifysgol Cymru, Bangor. Roedd CySill yn chwyldro-adol gan ei fod yn cywiro treigladau cytseiniaid cych-wynnol y Gymraeg. Dilynwyd hyn gan Cysgair, geir-iadur cyfrifiadurol sy’n atodi wrth raglenni prosesu geir-iau, a grëwyd gan Ganolfan Bedwyr Prifysgol Cymru,Bangor. Fe wnaeth Canolfan Bedwyr ddiweddaru’rddau yn 2004, a’u cynnwys ar unCDo adnoddau cyfrif-iadurol Cymraeg, o dan yr enw Cysgliad. Ymysg y gwir-wyr sillafu eraill sydd eisoes yn bodoli yn yGymraeg ceiry canlynol:

‚ Gwirydd sillafu Cymraeg am ddim i MicrosoOffice XP, 2003, 2007, 2010, 2013.

‚ Gwirydd sillafu Cymraeg am ddim i OpenOffice

‚ Gwirydd Sillafu Cymraeg ar gyfer Neo Office (Ap-ple Mac)

Mae pwysigrwydd LAD (LanguageAutodetect), fforddo adnabod ieithoedd mewn dogfen hyd yn oed yn fwyamlwg mewn lleoliadau dwyieithog. Sut, er enghrai,byddai system adnabod llais yn adnabod a yw siaradwrnewid yr iaith y maent yn ei siarad mewn cyfarfod? Yn

20

Page 28: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Cynnig cywiriadauGwirio gramadegGwirio sillafuMewnbynnu testun

Modelau iaith ystadegol

3: Gwirio iaith (uchaf: ystadegol; isaf: ar sail rheolau)

fwy syml, sut mae siaradwr Cymraeg yn llunio dogfen-nau dwyieithog Cymraeg/Saesneg ac yn eu prawfddar-llen yn awtomatig gan y gwiriwr sillafu ‘brodorol’ hebfod y Gymraeg yn cael ei thagio’n anghywir fel petai’nSaesneg wedi’i chamsillafu? Mae Geiriadur yr AcademiGymreig (Saesneg-Cymraeg) [28] gynt ar bapur wedi’ilansio ar-lein, prosiect mawr a ariennir gan Fwrdd yrIaith Gymraeg ac wedi hynny gan Gomisiynydd y Gym-raeg.

4.2.3 Bysellfwrdd, marciau diacritig affontiau

Agwedd arall ar greu cynnwys yn y Gymraeg a oeddyn achosi anhawster sylweddol i ddefnyddwyr cyfrifiad-uron yn y gorffennol oedd diffyg, yn y lle cyntaf, ‘ŵ’ac ‘ŷ’ o’r set nodau safonol. I ddechrau, deliwyd â hyndrwy ddefnyddio ffontiau Cymraeg arbenigol sy’n dyn-wared y ffontiau system a gynhwyswyd gyda chyfrif-iaduron adeg eu creu, ond a oedd yn cynnwys yr acengrom ar ‘w’ ac ‘y’. Fodd bynnag, mae’r rhain yn achosiproblemauwrth anfonffeil i beiriant gwahanol nad yw’rffontiau hyn wedi eu gosod arno, byddai’r nodau hyn yncael eu disodli gan nodau Islandeg. Mae’r ffurf gywiro’r ddau nod hyn wedi eu cynnwys yn set nodau safonolUnicode (UTF-8) ers peth amser, gan osgoi’r angen argyfer prynu neu lawrlwytho ffontiau arbenigol ar gyferdefnyddwyr PC. Fodd bynnag, ni fu’n ddigon clir sut ydylai defnyddwyr gael mynediad i’r acenion hyn mewnffordd safonol, gydag unigolion a sefydliadau gwahanolneu hyd yn oed yr un sefydliadau yn dewis llwybrau

byr bysellfwrdd gwahanol, neu ddefnyddio rhifau codi osod marciau diacritig i mewn i ffeiliau. Mae’r brob-lemhon o ddiffyg trawiadau bysell diacritig safonol bell-ach wedi’i datrys, ar gyfer defnyddwyr PC, mewn dwyffordd: (1) gan Sgema Bysellfwrdd EstynedigMicrosoar gyfer y Deyrnas Unedig, a (2) gan gynnyrch poblog-aidd rhad ac am ddim o’r enw ‘To Bach’ (To) a grëwydgan Dechnoleg Draig.

4.2.4 Technoleg Lleferydd a’r Gymraeg

Gall technoleg llais gynnwys cynhyrchu llais synthetigneu adnabyddiaeth o lais dynol gan system TG. Maetechnoleg o’r fath eisoes yn dechrau treiddio i’n byw-ydau bob dydd (mae sawl canolfan galw wedi awtom-eiddio llawer o’r prosesau maent yn eu defnyddio, maerhai ffonau symudol sy’n gallu derbyn e-bost eisoes yncynnig cyfleuster llais synthetig i ddarllen negeseuon e-bost yn uchel i’r derbynnydd). Gall technoleg llefer-ydd fod yn gaffaeliad i unrhyw raglen TG benodol.Gall symleiddiomynediad i ddata, cyflymumewnbynnudata a chaniatáu rheolaeth ddi-ddwylo ac, yn arwyddoc-aol, darparu dilysu biometrig goddefol seiliedig-ar-laisar gyfer mynediad i wasanaethau diogel megis bancio.Mae’n amlwg hefyd fod iddi ganlyniadau enfawr i’r rhaisydd â nam ar eu golwg. Gan fod angen amser sylw-eddol i amgodio corpws lleferydd i unrhyw iaith, ynhanesyddol, yr ieithoeddmwy syddwedi elwa ar y budd-soddiad mwyaf, gyda’r ieithoedd lleiafrifol yn tueddui gael eu gadael ar ôl. Gan fod arwyddion yn dangosy bydd technoleg lleferydd drwy gydgyfeiriant â rhag-

21

Page 29: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

lenni bob dydd, yn dod yn rhan fwyfwy pwysig o fywydbob dydd yn y dyfodol, mae’n bwysig bod y Gymraeg ynsicrhau troedle cryf yn y maes hwn. O sylwi ar bwysig-rwydd strategol y maes, fe wnaeth Bwrdd yr Iaith Gym-raeg gyd-ariannu, gydag INTERREG, brosiect WISPR[29] (Welsh and Irish Speech Processing Resources)yng Nghanolfan Bedwyr ym Mhrifysgol Bangor. Wedihynny, esblygodd yprosiect hwnynBrosiect SALT[30].Yn gynnar yn 2010 cafwyd lleisiau o ansawdd uwch,yn seiliedig ar y lleisiau gwreiddiol sylfaenol. Creoddprosiect cychwynnol WISPR beiriant SAPI sylfaenol(Speech Application Programming Interface) ar gyfer yGymraeg. Ymhlith llawer o ffyrdd eraill, gall peirian-nau synthesis lleferydd gael eu defnyddio i drosi geiriauo ddogfen gyfrifiadurol (e.e. dogfen prosesydd geiriau,tudalen gwe), neu ryngwyneb yn lleferydd clywadwy i’wglywed drwy system sain y cyfrifiadur. Byddai hyn ynddefnyddiol i bobl sydd angen neu eisiau dilysu llafaro’r hyn y maent yn ei weld mewn print. Wrth gyn-nal EisteddfodGenedlaetholCymru ymmisAwst 2010,lansiwyd fersiwn alffa o ddau lais synthetig (un gwryw-aidd, un benywaidd) o ansawdd uchel. A hwythauwedi’u hariannu’n rhannol gan Lywodraeth Cymru, ahefyd gan Sefydliad Cenedlaethol Brenhinol y Deillion(RNIB), fe gafodd cynulleidfa’r lansiad eu symud ganansawdd uchel y lleisiau, a ddarllenodd ddarn o nofel.Mae’r ffaith mai fersiwn alffa a oedd yn cael ei lansio yngolygu y bydd tonnau dilynol o wella (yn seiliedig ar ad-borth torfol drwy ryngwyneb gwe).

4.2.5 Adnabod llais

Mae a wnelo adnabod llais, (fel y’i diffinnir gan dîmProsiect WISPR) neu ‘lleferydd-i-destun’, â dal a dig-ideiddio tonnau sain o feicroffon, eu trosi i unedau iaithsylfaenol neuffonemau, creu geiriau o’r ffonemau, a dad-ansoddi cyd-destun y geiriau i sicrhau sillafiad cywir ameiriau sy’n swnio’n fel ei gilydd (megis dear a deer ynSaesneg).Yna bydd y cynnyrch yn cael ei ddangos ar y

sgrin fel testun. Unwaith eto, er y gall ymanylion techn-egol ymddangos y tu hwnt i’r person lleyg, ni ddylid tan-brisio cyrhaeddiad ac arwyddocâd y cyfleuster hwn, ganfod llawer o systemau gweithredu cyfrifiadurol a setiaullaw eisoes yn cynnig cyfleusterau adnabod llais allan-o’r-bocs. Mae hyn yn debygol o gynyddu gyda threigl am-ser. Nid yw’n amhosib dychmygu y byddwn yn arch-ebu bwyd, yn gwneud ein bancio a llu o wasanaethaueraill drwy gyfrwng adnabod llais yn y dyfodol. Maeap Google Translate eisoes yn caniatáu i’r defnyddiwrddefnyddio adnabod lleferydd, yn gysylltiedig â synth-esis lleferydd trwy gyfrwng cyfieithu awtomatig. Gangydnabod pwysigrwydd datblygu’r maes hwn, hefydrhoddodd y Bwrdd grant i greu peiriant Adnabod Llaissylfaenol. Mae cydrannau’r prosiect hwn, a phrosiectsynthesis lleferydd WISPR, ar gael am ddim ar-lein.

Ym mis Mai 2010, cyhoeddodd Panel AdolyguAnnibynnol o Wasanaethau Dwyieithog CynulliadCenedlaethol Cymru ei adroddiad terfynol [31]. Ym-hlith ei argymhellion lu, bu technoleg yn flaenllaw,gydag argymhelliad y dylid datblygu mwy o dechn-oleg lleferydd er mwyn, yn y tymor hir, creu trawsgrif-iadau o gyfarfodydd yn lled awtomatig. Nodwyd hefydddymuniad y Cynulliad i fod yn arweinydd yn y maes oran darpariaeth ddwyieithog, drwy ddefnyddio techn-oleg.

Nid yw Mesur y Gymraeg (Cymru) 2011 yn gymwys iGynulliad Cenedlaethol Cymru a Chomisiwn y Cyn-ulliad (y Corff Corfforaethol sy’n gyfrifol am ddarparueiddo, staff a gwasanaethau i gefnogi Aelodau’r Cynull-iad).

Cafodd Bil Cynulliad Cenedlaethol Cymru (IeithoeddSwyddogol) (Cymru) ei gymeradwyo gan yCynulliad ar3Hydref 2012. Prif nod yDdeddf yw gosod dyletswyddstatudol ar Gynulliad Cenedlaethol Cymru a Chom-isiwn y Cynulliad i gydnabod y Gymraeg a’r Saesneg ynieithoedd swyddogol ac i drin y ddwy iaith yn gyfartal.

Mae’r Ddeddf hefyd yn gosod dyletswydd ar y Com-

22

Page 30: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Synthesis lleferydd Chwilio seinegol achynllunio goslef

Dealltwriaeth iaithnaturiol a deialog

AdnabodProsesu signalauMewnbynnulleferydd

Allbynnu lleferydd

4: System deialog yn seiliedig ar leferydd

isiwn i fabwysiadu a chyhoeddi Cynllun IeithoeddSwyddogol [32] sy’n nodi’r camau y bydd yn eu cym-ryd i gydymffurfio â’i ddyletswyddau fel yr amlinellir yny Ddeddf.Cymeradwywyd y Cynllun gan y Cynulliad ar 17Gorffennaf 2013. Mae’n diffinio’r safonau a’r gwasan-aethau y gall Aelodau a’r cyhoedd eu disgwyl gan Gom-isiwn y Cynulliad ac yn nodi pedwar maes allweddol argyfer gweithredu.Bydd Comisiwn y Cynulliad yn:

‚ darparu cymorth arloesol, wedi’i deilwra, i alluogipobl i ddefnyddio’r ddwy iaith yng nghyd-destunbusnes y Cynulliad;

‚ buddsoddi’n sylweddol mewn technoleg fel fforddo drawsnewid y ddarpariaeth o wasanaethau dwy-ieithog tra’n darparu gwerth am arian;

‚ datblygu sgiliau a hyder staff y Comisiwn i ddefn-yddio’u Cymraeg; a

‚ rhannu profiadau o ddarparu gwasanaethau dwy-ieithog gyda sefydliadau eraill yng Nghymru adeddfwrfeydd eraill a cheisio dysgu ganddynt.

Ar hyn o bryd, mae defnydd y Cynulliad o dechnolegcyfieithu yn gyfyngedig. Mae’r Google Translator Tool-kit yn cael ei ddefnyddio gan gontractwyr allanol yCyn-ulliad i gyfieithu Cofnod y Trafodion ac ategir hyn ganwaith golygu a phrawfddarllen i gywiro a mireinio all-bwn y peiriant. Yn fewnol, mae Gwasanaeth Cyfieithu

a Chofnodi’r Cynulliad yn defnyddio meddalwedd cofcyfieithuWordfast, syddwedi arwain at gynnyddmewnallbwn.

Mae’r Cynllun Ieithoedd Swyddogol yn ymrwymo’rCynulliad i wneud y defnydd gorau o dechnoleg i gyf-ieithu dogfennau yn gyflymach ac yn fwy effeithlon.Mae wedi dechrau gwneud gwaith i archwilio potens-ial a manteision buddsoddi mewn system cyfieithu peir-iant pwrpasol. Fel rhan o’r gwaith hwn, maent yn ystyr-ied sut y gall cyfieithu awtomatig gael ei ddefnyddionid yn unig gan y Gwasanaeth Cyfieithu a Chofnodi,ond gan aelodau eraill o staff y Cynulliad, staff cymorthAelodau’r Cynulliad ac Aelodau’r Cynulliad, a’r posibil-rwydd o’i wneud ar gael i sefydliadau y tu hwnt i’r Cyn-ulliad.

4.2.6 Integreiddio Cyfieithu awtomatig aThechnoleg Lleferydd

Un maes sy’n haeddu ystyriaeth yn y tymor canolig ywintegreiddio technoleg llais gyda’r dechnoleg cyfieithuawtomatig a ddisgrifiwyd uchod. Byddai’r sefyllfa ddel-frydol yn galluogi dau o bobl, y naill yn siaradCymraeg,a’r llall yn siarad Saesneg i sgwrsio â’i gilydd. Byddaihyn yn cael ei gyflawni drwy adnabod llais, bwydo imewn peiriant cyfieithu awtomatig, ac allbynnu’r cyf-ieithiad perthnasol drwy gyfrwng synthesis lleferydd.Mae technolegau integreiddiol o’r fath eisoes yn cael eucynhyrchu mewn sawl sefydliad, er enghrai, yr Athro

23

Page 31: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Alex Waibel o Brifysgolion Carnegie Mellon a Karls-ruhe yn benodol. Mae’n bosibl y bydd technoleg wedi’ihawtomeiddio o’r fath wedi’i chynnwys yn y systemaugweithredu y byddwn yn eu defnyddio bob dydd. Maeangen, felly, i ieithoedd llai fel y Gymraeg gael eu cyn-nwys yn y datblygiadau hyn. Mae potensial integreiddioo’r fath ar gyfer gwasanaethau Cymraeg, a chyfarfod-ydd dwyieithog, yn amlwg, a hynny mewn oes a reolirfwyfwy gan TG.

4.2.7 Cyfieithu a Therminoleg

Mae Comisiynydd y Gymraeg yn gyfrifol am bolisi cyf-ieithu yng Nghymru ac adeg llunio’r papur gwyn hwnroedd wrthi’n cynnal adolygiad annibynnol o’r proffes-iwn a’r anghenion strategol. Pwrpas yr adran hon, felly,yw delio â thechnoleg iaith a chyfieithu, a’r cyfraniad ygall technoleg ei wneud i ddiwydiant cyfieithu’r Gym-raeg neu unrhyw iaith arall a chanddi sefyllfa sosioieith-yddol debyg.

4.2.8 Cyfieithu â Chymorth Cyfrifiadur

Dyma’r term ehangaf a ddefnyddir i ddisgrifio maesrhaglenni technoleg iaith sy’n awtomeiddio neu’n cyn-orthwyo’r weithred o gyfieithu testun o’r naill iaith i’rllall. Maent yn effeithiol iawn o ran gwella cynhyrch-edd cyfieithu, yn enwedig o ran hwyluso cyfieithu cyf-lym iawn o destunau gwreiddiol ailadroddus. Dymarai o’r mathau mwyaf cyffredin o gof cyfieithu: SDLXTrados, Déjà Vu, Wordfast ac yn fwyaf diweddar, yGoogle Translator Toolkit, Pootle, Transifex aOmegaT.Mae meddalwedd cof cyfieithu yn cael ei ddefnyddioeisoes gan ystod o sefydliadau cyhoeddus yng Nghymrua thu hwnt, yn eu plith, Llywodraeth Cymru, PrifysgolCaerdydd (drwy model torfoli) a Chynulliad Cenedl-aethol Cymru ei hun. Un o brif rinweddau technolegauo’r fath yw y gall cyfieithwyr rannu gwaith cyfieithu eigilydd, waeth beth fo’u lleoliad daearyddol, drwy gron-feydd data canolog o gofion cyfieithu a wasanaethir i

gyfrifiaduron unigol drwy rwydweithiau corfforaetholneu hyd yn oed y rhyngrwyd. Mae hyn yn golygu ygall cyfatebiaethau 100% o segmentau’r testun gwreidd-iol gael eu hailddefnyddio, gan arwain at gynnydd yngnghysondeb a chyflymder cyfieithu (am wybodaeth argysondeb terminoleg, gweler isod). Gall rhaglenni cofcyfieithu hefyd gynnig cyfieithiadau o gyfatebiaethaurhannol (‘fuzzy’) a geir yn eu cronfeydd data. Mae hynhefyd yn cynyddu cyflymder y cyfieithu. Prif gafeat ydull hwn, wrth gwrs, yw bod ansawdd y cyfieithiadaua rennir drwy gofion cyfieithu a storir yn ganolog yndibynnu ar ansawdd a chysondeb yr holl gyfieithiadauhynny a fwydir i mewn iddynt. Felly, yn amlwg maeangen rheolaeth olygyddol lefel uchel ar brosiectau arraddfa fawr o’r fath. Un peth y dylid ei bwysleisio’ngyson [33] yw bod mawr angen cyfieithwyr sy’n fodaudynol, a nod y dechnoleg a ddisgrifir yma yw cynyddueu cynhyrchedd a’u cysondeb—ac nid i’w disodli!

4.2.9 Rheoli Terminoleg

Unwaith eto, dylid nodi ar ddechrau’r adran hon nadlle’r papur cyfredol yw delio â maes safoni termau fel ycyyw, dim ond i hwyluso lledaenu terminoleg safonoldrwyTG fel un o amcanion y broses normaleiddio iaith.Mae technoleg yn bodoli eisoes, fel yn achos y medd-alwedd cof cyfieithu a ddisgrifir uchod, i drosglwyddorhestri safonol o derminoleg i ddefnyddwyr terfynol ynawtomatig. Mae hyn yn bwydo i mewn i raglenni rhe-oli terminoleg sy’n gysylltiedig â rhai rhaglenni cof cyf-ieithu. Mae rhai rhaglenni o’r fath hefyd yn cynnig cyf-leusteraudadamwyso sy’ndarparu gwybodaeth ychwan-egol i ddefnyddwyr, e.e. mae’n bosibl na fydd fersiwnGymraeg Mill Street yn Aberystwyth (Dan Dre), yr uncyfieithiad â Mill Street mewn unrhyw dref arall yngNghymru (mae ‘Stryd y Felin’, wrth reswm, yn gyfieith-iad gramadegol a chywir, ond ni chaiff ei ddefnyddio argyfer enw’r stryd yn Aberystwyth). Mae gan y gair ‘acc-ess’ lawer o ystyron, gan gynnwys fel enw sy’n disgrifio’r

24

Page 32: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

lleoliad llemae eir imewn i adeilad, yn ogystal â berf sy’ngolygu’r camau gwirioneddol a gymerir i gael myned-iad i’r adeilad, ac yn wir cael mynediad i wybodaeth.Gall ‘Mole’ fod yn anifail tanddaearol bach sy’n effroliw nos, yn berson sy’n rhyddhau gwybodaeth o sefydl-iad, neu nifer eithriadol o fawr a ddefnyddir fel arfer ymmyd Cemeg; gallai’r holl ystyron hyn gael eu gwahan-iaethu drwy gyfleusterau dadamwyso. Po fwyaf maint,ansawdd a chysondeb cof cyfieithu, uchaf yw’r tebygol-rwydd y bydd llwyth gwaith y cyfieithydd yn cael ei gyf-lawni mewn cyfnod byrrach. O feddu ar ymwybydd-iaeth o’r posibiliadau y gall meddalwedd TM eu cyn-nig i ieithoedd lleiafrifol, yn gynnar yn 2010. Rhydd-haodd gyfanswm o tua hanner miliwn o eiriau o destundwyieithog, wedi’u prawfddarllen a hynny arffurfTMX(safon y diwydiant ar gyfer cyfnewid cofion yn agored)gan gynnwys:

‚ Cof Cyfieithu Adnoddau Dynol

‚ Cof Cyfieithu Bwydlenni

‚ Cof cyfieithu a grëwyd drwy alinio gwefan Bwrdd yrIaith Gymraeg (sy’n cynnwys llawer o eirfa’r sectorcyhoeddus)

Fe wnaeth y datganiad i’r wasg a gyhoeddwyd ynghylchy datblygiad hwn alw ar y sector cyhoeddus cyfan irannu eu cyfieithiadau yn agored, gyda’r Bwrdd yn cyn-nig i fod yn frocer ar gyfer y data mewn cyfnewidfa cofcyfieithu. Y prif wahaniaeth rhwng hyn a chyfnewid-feydd eraill yw bod y data a fyddai ar gael yn rhad acam ddim. Mae’r holl gofion hefyd wedi eu llwytho i’rGoogle Translator Toolkit a ddisgrifir isod, ac felly ynychwanegu at y corpws o gyfieithiadau sy’n seiliedig arenghrai ym mheiriant cyfieithu awtomatig Google,Google Translate. Mae’r weledigaeth hon wedi ystyrieddatblygiadau ehangach ym myd gwe2.0, torfoli a dull-iau cydweithredol. Yn ei hanfod, mae’n credu mai dimonddaioni a ddawo rannudata o ansawdd rhwng sefydl-iadau. Enghrai gorsyml a roddir yn aml mewn cyf-lwyniadau yw achos damcaniaethol 22 awdurdod lleol

Cymru yn cyfieithu ffurflen Treth y Cyngor 22 o weith-iau, tra gallai gweinyddion cof cyfieithu helpu i awtom-eiddio hwn yn sylweddol. Mae’r fath rannu a ffiniauniwlog rhwng sefydliadau hefyd yn adlewyrchu tuedd-iadau ehangach mewn theori rheoli ac agendâu nifer oadroddiadau a gomisiynwyd y Llywodraeth, fel Adolyg-iad Gershon [34], Adolygiad Beecham, [35] Cod Ym-arfer Llywodraeth y DU ar God Agored [36]. Mae’nhollbwysig sôn am reoli ansawdd y data a ryddheir gansefydliadau cyhoeddus; un elfen o hyn fyddai cyfrinach-edd. Gall cofion cyfieithu a ddefnyddir mewn sefydl-iadau cyhoeddus gynnwys data personol yn ymwneudagunigolion y gellir euhadnabod ymae’n rhaid ei symudcyn ei gyhoeddi er mwyn osgoi torri Deddf DiogeluData’r DU. Mae dulliau o awtomeiddio hwn eisoes argael mewn systemau o’r fath. Ni ddylai technoleg o un-rhyw fath fod yn ddiben ynddo’i hun ond yn alluogwrpolisi strategol, yn achos y Gymraeg, ar gyfer normal-eiddio ieithyddol.

4.2.10 Llif gwaith cyfieithu a Rheoli Dog-fennau Dwyieithog

Gellir cynorthwyo rheoli llawer o brosiectau cyfieithucydamserol drwy TG a systemau llif gwaith cyfrifiad-urol. Gall y rhain hefyd fonitro argaeledd gwahanolgyfieithwyr allanol neu lawrydd i ymgymryd â gwaithychwanegol (megis nifer o eiriau y gellir eu cyfieithu’rdydd fesul thema, a’r gyfradd cost). Gall systemau ‘das-hfwrdd’ mwy soffistigedig o’r fath hyd yn oed ryng-wynebu ag offer CAT er mwyn lleihau cyfieithu ail-adroddus sy’n cael ei gontractio allan. Gall technolego’r fath hefyd, wrth gwrs, reoli swyddfeydd, er eng-hrai, mewn sefydliadau megis awdurdodau lleol syddâ phyllau o gyfieithwyr mewnol. Byddai hyd yn oed ynbosibl i gyfieithwyr llawrydd allanol gofrestru ar gyfergwasanaethau o’r fath er mwyn cael gwaith rheolaidd,a diweddariadau i gof cyfieithu a therminoleg gyson, athrwy hynny greu corpws o gofion cyfieithu sy’n cyson

25

Page 33: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

esblygu a gwella y gellir ei rannu ymhellach, gan gyf-rannu ymhellach at normaleiddio’r Gymraeg. Mae syst-emau TM yn y ‘cwmwl’ megis y Google Translator To-olkit, yn hwyluso cydweithio o’r fath ymhellach o ranrheoli terminoleg a chof cyfieithu.

4.2.11 Llif gwaith cyfieithu a SystemauRheoli Cynnwys

Mae’r systemau cof cyfieithu a ddisgrifir uchod yngallu cael eu plygio i mewn i systemau rheoli cyn-nwys/dogfennau o bobmath, a’u cysylltu â rhaglenni llifgwaith ar gyfer unedau/cwmnïau/gweithwyr cyfieithullawrydd ac i systemau cyfieithu awtomatig. Mewnbyd lle mae gwybodaeth yn cyson newid, mae’n bwysigbod y ddau fersiwn ieithyddol yn cael eu cyhoeddi a’udiweddaru ar yr un pryd. Yn y modd hwn, dylid cofiomai prif egwyddor Mesur y Gymraeg (Cymru) 2011yw na ddylai’r Gymraeg gael ei thrin yn llai ffafriol na’rSaesneg. Mae gan dechnoleg rôl ganolog i’w chwarae oran galluogi rheoli’r fath gyhoeddi cydamserol. Er eng-hrai, ar wefan awdurdod llywodraethol neu leol sy’ngwasanaethu’r cyhoedd yng Nghymru, bydd rhannauo dudalennau neu baragraffau yn cael eu diwygio bobdydd. Pan fydd y system rheoli cynnwys yn cael ei rhe-oli gan siaradwyr di-Gymraeg, gall y dechnoleg hon gyf-eirio segmentau i gyfieithydd a fydd wedyn yn eu cyf-ieithu gan ddefnyddio cof cyfieithu (ameddalwedd rhe-oli terminoleg). Pan fydd y cyfieithydd wedi cwblhaucyfieithu, bydd y system llif gwaith yn llwybro’r cyfieith-iad yn ôl i’r system rheoli cynnwys yn awtomatig a fyddwedyn yn ei gyhoeddi ar yr un pryd â’r fersiwn Saesneggwreiddiol a storiwyd wrth aros am ei gymar Cymraeg.Mae hwn yn offeryn pwysig ar gyfer normaleiddio’r pell-ach ar y Gymraeg a fydd yn galluogi defnyddwyr i gaelmynediad at testun Cymraeg a Saesneg cyfredol. (Un oganlyniadau’r Ciparolygon o wefannau oedd nad oeddfersiynau Cymraeg rhai o wefannau’r sector cyhoeddusyn cael eu diweddaru mor gyson â’r fersiynau Saesneg,

gwelid ‘Fersiwn Cymraeg i ddilyn’, mewn rhai achosion,am sawl blwyddyn).

4.2.12 Cyfieithu Awtomatig

Mae cyfieithu awtomatig yn thema a godir yn aml wrthdrafod y Gymraeg, cyfieithu a materion TG. Mae wediymelwa ar nifer o flynyddoedd o waith ymchwil, ac maerhai datblygiadau mawr wedi eu sicrhau. Fodd bynnag,ni all technoleg eto gynnig gwaith cyfieithu o ansawddi gyd-fynd â gwaith cyfieithwyr dynol heb ôl-olygu ganfodau dynol. Serch hynny, mae’r defnydd o systemau ar-lein rhad ac am ddim, yn enwedig Google Translate, aryddhawyd ar gyfer y Gymraeg ddiwedd Awst 2009, yndangos bod modd (yn achos mathau penodol o destun)darparu lefel ddefnyddiol a defnyddiadwy o gyfieithu.Hefyd, mewn cyfuniad â rheolaethau ar yr iaith a ddefn-yddir er enghraimewn ysgrifennu technegol, gallMTddarparu cyfieithiad dracyntaf o ansawdd ardderchognad oes angen fawr ddim diwygio arno ac sy’n cyn-nig arbedion mawr o ran costau cyfieithu. Gall hefydddarparu bras gyfieithiad o’r Gymraeg, sy’n galluogimynediad i’r gymuned ryngwladol, a galluogi staff di-Gymraeg i ddelio â gohebiaeth ysgrifenedig gan gyd-weithwyr/aelodau o’r cyhoedd sy’n siarad Cymraeg.

Fe argymhellodd astudiaeth ddichonolrwydd Bwrdd yrIaith Gymraeg 2004 i gyfieithu awtomatig gan yr AthroHarold Somers o Brifysgol Manceinion, a Golygyddyr International Journal of Machine Translation, greupeiriant cyfieithu hybrid ag iddo dair rhan: EBMT[Cyfieithu Peirianyddol yn seiliedig ar Enghreiiau],RBMT [Cyfieithu Peirianyddol yn seiliedig ar Reolau],ac SMT [Cyfieithu Peirianyddol ar Sail Ystadegau].Byddai hyn yn galluogi bras gyfieithu rhwng y Gym-raeg a’r Saesneg, ac, yn y dyfodol, yn integreiddio â rhag-lenni eraill (megis cwarel ymchwil MS Office a syst-emau cof cyfieithu). Fel y nodwyd uchod, dylid ystyriedhyn yn gymorth i gyfieithwyr, golygyddion ac eraill, ynhytrach nag yn fodd i’w disodli [37]. Byddai symud o

26

Page 34: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Dadansoddi testun(Fformatio, Morffoleg,

Cystrawen)

Cynhyrchu testun

Rheolau Cyfieithu

Testun Targed

Testun gwreiddiol

CyfieithuAwtomatigYstadegol

5: Cyfieithu awtomatig (chwith: ystadegol; dde: ar sail rheolau)

gyfieithu, i ôl-olygu, fodd bynnag, yn newid diwyllian-nol sylweddol ar gyfer nifer o gyfieithwyr a dylid defn-yddio methodoleg rheoli newid cydnabyddedig lle maesystem o’r fath yn cael eu rhoi ar waith. O ran hynny,dylid nodi bod Google Translate—System CyfieithuAwtomatig Google, yn cysylltu â’r Google TranslatorToolkit a hefyd SDL Trados Studio 2009, OmegaT asystemau cof cyfieithu eraill. Mae hyn yn rhoi i’r cyf-ieithydd proffesiynol ddashfwrdd llawn o opsiynau cyf-ieithu ‘cwmwl’: cyfieithu awtomatig [sy’n seiliedig arenghrai], Cof Cyfieithu, a rhestrau terminolegol, igyd ag iddynt fantais o rannu TM mewn amser goiawn gyda’r holl ddefnyddwyr eraill. Mae hyn uwch-law y grŵp bach o beiriannau cyfieithu awtomatigmegisIntertran sydd wedi eu seilio ar ystadegau; mae’r rhain,o’u defnyddio gan amaturiaid a chanddynt ewyllys daond heb fod ganddynt gymwysterau wedi creu rhai o’rcyfieithiadau mwyaf rhyfedd a welwyd erioed, e.e. cyf-ieithwyd ‘Staff Entrance’ ‘yn gywir’ fel ‘Pastwn Taflu iBerlewyg’ [hy [darnmawrobren [a ‘staff ’] /taflu rhywuni mewn i berlewyg [to ‘entrance’ them]]. Mae eng-hreiiau eraill yn rhy niferus i’w crybwyll a byddant,yn ddiau, yn gyfarwydd i ddarllenwyr mewn ardaloedddwyieithog eraill. Mae llawer o enghreiiau i’w gweldar y wefan rhannu lluniau Scymraeg [38]. Mae’r peir-iannau cyfieithu awtomatig canlynol ar gael ar gyfer yGymraeg:

‚ Apertium, a ddatblygwyd gan y grŵp ymchwil Tran-sducens yn y departament de Llenguatges i SistemesInformàtics, Universitat d’Alacant mewn cydweith-rediad â Pheirianneg Iaith Prompsit.

‚ Google Translate

‚ SystemCyfieithu awtomatig Saesneg-Cymraeg AlffaPrifysgol Bangor

‚ Intertran

Gallai Awtomeiddio Cyfieithu gynorthwyo ieithoeddlleiafrifol drwy wella cynhyrchedd cyfieithwyr ieith-oedd lleiafrifol a thrwy rannu adnoddau iaith ymhlithaelodau o’r gymuned cyfieithu proffesiynol. Gall cyn-nydd cynhyrchedd cyfieithu ynghyd â chynnydd o ranansawdd cyfieithu arwain at ostyngiadmewn costau cyf-ieithu i iaith leiafrifol, er nad dyma’r unig reswm drosbledio achosion mabwysiadu technoleg o’r fath. Gallaicynnydd yng nghyflymder y cyfieithu (drwy, er eng-hrai, lleihau cyfieithu ailadroddus) arwain at fwy ogyfieithiadau’n cael eu gwneud. Os bydd mwy o gyf-ieithiadau iaith leiafrifol yn cael eu gwneud mae mwy ogyfle y byddmwy o gynnwys ar gael yn yr iaith, sy’n cyn-orthwyo i ‘normaleiddio’ iaith. Mae gwneud ieithoeddlleiafrifol yn fwy gweladwy, yn enwedig mewn technol-egau modern, yn debygol o godi statws y ieithoedd llei-afrifol yn y llygaid siaradwyr iaith leiafrifol ac o bosibleu dymuniad, a’u cyfle, i ddefnyddio eu ieithoedd llei-afrifol. Y Google Translator Toolkit, adeg ysgrifennu’r

27

Page 35: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

papur gwyn hwn, oedd yr unig raglen TM a oedd argael am ddim a honno’n seiliedig ar dechnoleg cwmwlheb fod angen unrhyw wybodaeth am beirianneg i’wdefnyddio. Mae llawer o gofion cyfieithu eraill, yn rhaiperchnogol, a chod agored, yn bodoli. Mae’r GoogleTranslator Toolkit [39] yn offeryn Cof Cyfieithu sy’ngweithio drwy fod y cyfieithydd yn uwchlwytho testungwreiddiol; wedyn bydd y Toolkit yn rhannu’r dogfen-nau yn segmentau, yn rhoi cynnig ar gyfieithu’r segm-entau hynny, ac yna yn dangos gweddau gwahanol o’rdeunydd. Ar ochr chwith y sgrin dangosir y ddogfenwreiddiol, ar yr ochr dde dangosir y ddogfen sydd wediei rhag-gyfieithu. Mae ffenestr yn cael ei dangos hefydlle y gellir golygu’r segment a rag-gyfieithwyd, neu (osna rag-gyfieithwyd) ei gyfieithu. Ar adegau rheolaidd,bydd y corpws o gyfieithiadau a gynhyrchir yn dilyn ym-yrraeth y cyfieithydd dynol yn cael ei gynaeafu a’i roii mewn i’r peiriant cyfieithu, sef y tanwydd y tu ôl iGoogle Translate, a thrwy hynny creir cylch rhinweddolo ansawdd cyfieithu. Po fwyaf y corpws o gyfieithiadauenghreiiol, uchaf y bydd y tebygolrwydd ystadegol ybydd y cyfieithu awtomatig a gynigir o ansawdd uwch,heb fod arno angen cymaint o ôl-olygu ac yn y blaen.Mae’r posibiliadau ar gyfer rhannu cyfieithiadau, mewnamser go iawn, rhwng unrhyw nifer o sefydliadau, hebyr angen am meddalwedd ar ochr cleientiaid i gael eugosod, yn aruthrol.

Mae nifer o ganolfannau yn bodoli, ledled y byd, sy’nymchwilio i’r posibilrwydd o ddefnyddio posibiliadaucorpora a chyfieithu trwy gyfieithu awtomatig hybridmewn amgylchedd mainc gwaith. Ychydig iawn, foddbynnag, sydd wedi ystyried anghenion y cyfieithwyrdynol eu hunain sydd yn defnyddio’r dechnoleg bobdydd. Mae un astudiaeth o’r fath [40] wedi gwneudhynny. Gallaimainc o’r fath gael ei defnyddio gan yr hollgyfieithwyr mewn sefydliad penodol, neu rwydwaithehangach o sefydliadau a byddai’n cynnwys cyfleusterauo’r fath, yn ogystal ag awtomeiddio cyfieithu, er eng-

hrai, offer awduro rhagfynegol, didoli segmentau ynnhrefn ywyddor, a diweddarumewn amser go iawn tuagat y cam cwblhau. Gall y technolegau cysylltiedig wellaymhellach cynhyrchedd cyfieithwyr, ac felly gwella tir-wedd ieithyddol Cymru. Rydym yn cymryd rhanmewnchwyldro technolegol tawel a fydd, o gael buddsoddiadangenrheidiol mewn cydrannau technoleg iaith addas,yn trawsnewid cynllunio ieithyddol statws ar draws ybyd.

4.3 CORPORAMae Corpora Cymraeg ysgrifenedig o faint digonol(a allai, er enghrai, gynnwys nifer fawr o fersiynauelectronig o gyhoeddiadau print) yn rhagofyniad argyfer datblygiadau pellach mewn technoleg iaith. Maetechnoleg iaith o’r fath yn sail ar gyfer llawer o rag-lenniCymraeg eraill, er enghrai, y dechnoleg cyfieithuawtomatig a lleferydd a drafodir yn y papur gwyn hwn.A hithau ar flaen y gad yn y maes hwn ers blynydd-oedd lawer, mae Canolfan Bedwyr (ac eraill) wedi dat-blygu lemateiddwyr (sy’n torri geiriau i lawr ac yn tagioeu ffurfiau gramadegol), corpora (cronfeydd data mawro destun neu leferydd Cymraeg), algorithmau ar gyfertrefnau didoli a materion peirianneg iaith eraill. Er ybydd y rhan fwyaf o’r adnoddau hyn ynddynt eu hunainond o ddiddordeb i arbenigwyr, mae effaith yr offer ang-enrheidiol hyn yn bellgyrhaeddol iawn ac yn arwydd-ocaol, wrth iddynt fwydo i mewn i raglenni technolegiaith eraill. Gweler hefyd y dechnoleg awtoglosio y cyf-eiriwyd ati uchod. Isod ceir rhestr (heb fod yn gynhwys-fawr) o rai o’r corpora mwyaf arwyddocaol sydd ar gaelar gyfer y Gymraeg.

‚ CEG (Corpws Electroneg o’r Gymraeg)

‚ Sefydliad Cenedlaethol er Ymchwil i Addysg, EinGeiriau Ni

‚ Corpws Siarad (Corpws Lleferydd).

28

Page 36: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

4.4 ARGAELEDD OFFER ACADNODDAUMae Ffigur 6 yn rhoi sgôr ar gyfer y gefnogaeth techn-oleg iaith sydd ar gyfer y Gymraeg. Mae’r graddiohwn o offer ac adnoddau cyfredol wedi’i gynhyrchuar sail amcangyfrifon yn seiliedig ar raddfa o 0 (iseliawn) i 6 (uchel iawn) gan ddefnyddio saith maenprawf. Gellir crynhoi’r canlyniadau allweddol fel a gan-lyn: Er bod sefyllfa’r Gymraeg yn weddol dda ymhlithieithoedd lleiafrifol eraill o ran yr offer, a’r adnoddaumwyaf sylfaenol sydd ar gael, megis corpora, geiriad-uron ffurfdroadol, toceneiddwyr, rhyngwynebau, tag-wyr a lemateiddwyr, nid yw hyn yn rheswm i orffwys arein rhwyfau. Mae llawer o’r adnoddau presennol heb eusafoni felly mae angen mentrau i safoni’r data a fform-atau cyfnewid, er enghrai ym maes rheoli terminolega rhannu cofion cyfieithu. Hefyd ceir cynnyrch un-igol a chanddynt swyddogaethau cyfyngedig mewn is-feysydd megis synthesis lleferydd, adnabod llais ac ech-dynnu gwybodaeth. Ar hyn o bryd, dim ond nifer facho gwmnïau neu sefydliadau yngNghymru sy’n gweithioym maes technoleg iaith. Mae’n eithriadol o bwysigfelly i barhau â chefnogaeth gyhoeddus i dechnoleg iaithar gyfer y Gymraeg, yn arbennig o ystyried ehangu tir-wedd ieithyddol y Gymraeg yn dilyn gweithredu Mesury Gymraeg (Cymru) 2011. Mae’n arbennig o braf, felly,nodi’r alwad ddiweddar ar gyfer rhaglenni grant a estyn-nwyd gan Lywodraeth Cymru yn seiliedig ar ei DogfenStrategaeth Technoleg Cymraeg a’r Cynllun Gweith-redu cysylltiedig.

4.5 CYMHARIAETHDRAWSIEITHYDDOLMae cyflwr presennol y gefnogaeth technoleg iaith ynamrywio’n sylweddol o’r naill gymuned ieithyddol i’rllall. Ermwyn cymharu’r sefyllfa rhwng ieithoedd, bydd

yr adran hon yn cyflwyno gwerthusiad yn seiliedig arddau faes rhaglen enghreiiol (cyfieithu awtomatig aphrosesu lleferydd) ac un dechnoleg sylfaenol (dadan-soddi testun), yn ogystal ag adnoddau sylfaenol syddeu hangen ar gyfer adeiladu rhaglenni technoleg iaith.Mae’r ieithoeddwedi eu categoreiddio gan ddefnyddio’rraddfa pum pwynt canlynol:

1. Cefnogaeth ragorol

2. Cefnogaeth dda

3. Cefnogaeth gymedrol

4. Cefnogaeth ddarniog

5. Cefnogaeth wan neu ddim cefnogaeth

Cafodd cefnogaeth TI ei mesur yn ôl ymeini prawf can-lynol:Prosesu Lleferydd: Ansawdd offer adnabod lleferyddcyfredol, ansawdd y technolegau synthesis lleferydd cyf-redol, cwmpas y parthau, nifer a maint y corpora llefer-ydd cyfredol, maint ac amrywiaeth y rhaglenni lleferyddsydd ar gael.Cyfieithu awtomatig: Ansawdd technolegau cyfredolcyfieithu awtomatig, nifer y parau iaith a gwmpesir,cwmpas y ffenomenau ieithyddol a meysydd, ansawdda maint presennol corpora cyfochrog, nifer ac amryw-iaeth y rhaglenni cyfieithu awtomatig sydd ar gael.DadansoddiTestun: Ansawdd a chwmpas technolegaudadansoddi testun cyfredol (morffoleg, cystrawen, sem-anteg), cwmpas y ffenomenau ieithyddol a meysydd,maint ac amrywiaeth y rhaglenni sydd ar gael, ansawdda maint y corpora testun cyfredol (wedi eu hanodi), an-sawdd a chwmpas gramadegau ac adnoddau geirfaol cyf-redol.Adnoddau: Ansawdd a maint y corpora testun cyf-redol, corpora lleferydd a chorpora cyfochrog, ansawdda chwmpas yr adnoddau a gramadegau geirfaol presen-nol. Dengys Ffigurau 7 i 10 fodCymru yn y clwstwr is argyfer bron pob un o’r offer a’r adnoddau a restrir. Mae’ncymharu’n dda ag ieithoedd eraill sydd â nifer fach o

29

Page 37: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Maint

Arg

aeledd

Ans

awdd

Cwm

pas

Aed

dfed

rwyd

d

Cyn

aliadw

yedd

Mod

dAdd

asu

Technoleg Iaith: Offer, Technolegau a Rhaglenni

Adnabod Lleferydd 1 1 1 1 1 1 3

Synthesis Lleferydd 1 2 2 2 3 2 3

Dadansoddi Gramadegol 2 1 2 2 3 2 1

Dadansoddi Semantaidd 2 2 2 2 2 2 2

Creu testun 2 2 2 2 2 2 2

Cyfieithu awtomatig 3 3 3 2 1 1 2

Adnoddau Ieithyddol: Adnoddau, Cronfeydd Data a Gwybodaeth

Corpora testun 1 1 2 1 2 2 1

Corpora lleferydd 4 3 4 4 4 4 3

Corpora cyfochrog 3 3 2 3 3 4 3

Adnoddau geiriadurol 3 2 3 2 2 4 4

Gramadegau 4 3 3 3 3 5 4

6: Cyflwr cefnogaeth technoleg iaith i’r Gymraeg

siaradwyr, megis Estonia, Latfia, Lithwania, Slofacia.Fodd bynnag, mae’r holl ieithoedd hyn yn llusgo ym-hell y tu ôl ieithoedd mawr fel Almaeneg a Ffrangeg,er enghrai. Ond mae’n eglur nad yw hyd yn oedadnoddau ac offer TI ar gyfer yr ieithoedd hynny etoyn cyrraedd y safon a chwmpas adnoddau offer tebyg argyfer y Saesneg, sydd yn arwain bron ymmhobmaesTI.Ac mae dal i fod digon o fylchau mewn adnoddau iaithSaesneg o ran rhaglenni o safon uchel.

4.6 CASGLIADAUMae’n amlwg y gall rhwystrau sosioseicolegol hanes-yddol a diwylliannol rhag defnyddio’r iaith ddiglosig‘L’ (y Gymraeg yn yr achos hwn) dal i fodoli wrthgyflwyno’r iaith i feysydd lle nad oedd yn bodoli o’r

blaen—ac nid oedd disgwyl cyffredinol iddi fodoli. Ymmhob maes, mae newid arferion defnyddio’r iaith wedibod yn rhan o bob dogfen strategaeth iaith ar ryw ffurfneu’i gilydd—mae’n weithgaredd sy’n cymryd amser hiracmae angen i gynllunwyr iaith chwarae gêmhir. Yr hynsy’n eglur, o’r gweithgarwch sylweddol ym myd Techn-oleg Iaith cod agored a pherchnogol, yw bod unigolionyn barod i ddefnyddio meddalwedd Cymraeg os yw argael yn hawdd, o ansawdd uchel, pan fydd lefel benodolo ymwybyddiaeth ohoni a phan fydd peth esbonio wedibod arni. Cysyniad ‘Cynnig Rhagweithiol’, a ddaeth ynboblogaidd yn y lle cyntaf yng Nghanada, ac a ddaeth-pwyd i Ewrop gan brosiect FromAct to Action [41] syddar ei fwyaf amlwg yn y maes hwn; fel yn achos yr hollwasanaethau eraill sy’n gysylltiedig ag iaith (os nad ywdefnyddiwr yn ymwybodol ohoni, heb dderbyn cyn-

30

Page 38: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

nig rhagweithiol o wasanaeth ieithyddol, sut (ac yn wirpam) y byddai’r person lleyg yn mynd allan o’i ffordd iddod o hyd iddi a’i defnyddio?) Mae’r potensial ar gyfernormaleiddio’r Gymraeg ym maes technoleg iaith ac argyfer technoleg iaith i normaleiddio’r Gymraeg drwygydlynu rhannu data cyhoeddus mawr yn enfawr.Yn y gyfres hon o bapurau gwyn, yr ydym wedi gwneudymdrech bwysig drwy asesu’r gefnogaeth technoleg iaithar gyfer 31 o ieithoedd Ewropeaidd, a thrwy ddarparucymhariaeth lefel uchel ar draws yr ieithoeddhyn. Drwynodi’r bylchau, yr anghenion a’r diffygion, mae cym-uned technoleg iaith Ewrop a’i rhanddeiliaid cysyllt-iedig bellach ar dir i gynllunio rhaglen ymchwil a dat-blygu fawr a chanddi’r nod o alluogi cyfathrebu gwir-ioneddol amlieithog, â chymorth technoleg ar drawsEwrop. Mae canlyniadau’r gyfres hon o bapurau gwynyn dangos bod gwahaniaeth dramatig o ran cefnogaethtechnoleg iaith rhwng y gwahanol ieithoedd Ewrope-aidd. Er bod meddalwedd ac adnoddau o ansawdd

da ar gael ar gyfer rhai ieithoedd a meysydd rhagleneraill fel arfer bydd gan rai eraill—fel arfer y rhai llaieu maint—fylchau sylweddol. Nid oes gan sawl iaithdechnolegau sylfaenol ar gyfer dadansoddi testun a’radnoddau hanfodol. Mae gan eraill offer ac adnoddausylfaenol ond, er enghrai, mae gweithredu dulliausemantig yn dal i fod yn bell i ffwrdd. Felly, mae angenymdrech ar raddfa fawr i gyrraedd y nod uchelgeisiol oddarparu cefnogaeth technoleg iaith o ansawdd uchel argyfer pob iaith Ewropeaidd, er enghrai trwy gyfieithuawtomatig o ansawdd uchel. Nod hirdymor META-NET yw galluogi creu technoleg iaith o ansawdd uchelar gyfer pob iaith. Mae hyn yn gofyn i’r holl ran-ddeiliaid—mewn gwleidyddiaeth, ymchwil, busnes a’rgymdeithas—i uno eu hymdrechion. Bydd y dechnolega grëir o ganlyniad yn helpu i chwalu’r rhwystrau cyf-redol ac yn adeiladu pontydd rhwng ieithoedd Ewrop,gan fraenaru’r tir ar gyfer undod gwleidyddol ac eco-nomaidd trwy amrywiaeth ddiwylliannol.

31

Page 39: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Cefnogaeth Cefnogaeth Cefnogaeth Cefnogaeth CefnogaethRagorol Dda Gymhedrol Ddarniog Wan/dim

Saesneg TsiecegIseldiregFfinnegFfrangegAlmaenegEidalegPortiwgalegSbaeneg

BasgegBwlgaregCatalanegDanegEstonegGalisiegGroegHwngaregGwyddelegNorwyegPwylegSerbegSlovacegSloveneSwedeg

CroatiegCymraegIslandegLatfiegLithwaniegMaltegRwmaneg

7: Prosesu lleferydd: cyflwr cefnogaeth technoleg iaith i 31 iaith Ewropeaidd

Cefnogaeth Cefnogaeth Cefnogaeth Cefnogaeth CefnogaethRagorol Dda Gymhedrol Ddarniog Wan/dim

Saesneg FfrangegSbaeneg

CatalanegIseldiregAlmaenegHwngaregEidalegPwylegRwmaneg

BasgegBwlgaregCroatiegTsiecegDanegEstoniegFfinnegGalisiegGroegIslandegGwyddelegLatfiegLithwaniegMaltegNorwyegPortiwgalegSerbiegSlovacegSlofenegSwedegCymraeg

8: Cyfieithu awtomatig: cyflwr y gefnogaeth technoleg iaith i 31 iaith Ewropeaidd

32

Page 40: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Cefnogaeth Cefnogaeth Cefnogaeth Cefnogaeth CefnogaethRagorol Dda Gymhedrol Ddarniog Wan/dim

Saesneg IseldiregFfrangegAlmaenegEidalegSbaeneg

BasgegBwlgaregCatalanegTsiecegDanegFfinnegGalisiegGroegHwngaregNorwyegPwylegPortiwgalegRwmanegSlovacegSlofenegSwedeg

CroatiegCymraegEstoniegIslandegGwyddelegLatfiegLithwaniegMaltegSerbieg

9: Dadansoddi testun: cyflwr y gefnogaeth technoleg iaith i 31 iaith Ewropeaidd

Cefnogaeth Cefnogaeth Cefnogaeth Cefnogaeth CefnogaethRagorol Dda Gymhedrol Ddarniog Wan/dim

Saesneg TsiecegIseldiregFfrangegAlmaenegHwngaregEidalegPwylegSbaenegSwedeg

BasgegBwlgaregCatalanegCroatiegDanegEstoniegFfinnegGalisiegGroegNorwyegPortiwgalegRwmanegSerbiegSlovacegSlofeneg

IslandegGwyddelegLatfiegLithwaniegMaltegCymraeg

10: Adnoddau lleferydd a thestun: cyflwr y gefnogaeth i 31 iaith Ewropeaidd

33

Page 41: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

5

YNGLŶN Â META-NETMaeMETA-NETynRhwydwaith oRagoriaeth a arien-nir yn rhannol gan y Comisiwn Ewropeaidd. Ar hyno bryd mae’r rhwydwaith yn cynnwys 54 canolfanymchwil mewn 33 gwlad Ewropeaidd. Mae META-NET yn sefydlu META, Cynghrair Technoleg Am-lieithog Ewrop, cymuned gynyddol o weithwyr proff-esiynol a sefydliadau technoleg iaith yn Ewrop. MaeMETA-NET yn meithrin y seiliau technolegol ar gyfercymdeithas gwybodaeth Ewropeaidd wirioneddol am-lieithog sy‘n:

‚ gwneud cyfathrebu a chydweithio yn bosibl ar drawsieithoedd;

‚ caniat áu mynediad cyfartal i bawb yn Ewrop iwybodaeth waeth beth yw eu hiaith;

‚ adeiladu ar swyddogaethau technoleg gwybodaethwedi’i rhwydweithio ac yn adeiladu arni.

Mae’r rhwydwaith yn cefnogi Ewrop sy’n uno ar ffurfmarchnad ddigidol sengl ac fel gofod gwybodaeth.Mae’n ysgogi ac yn hyrwyddo technolegau amlieithogar gyfer pob iaith Ewropeaidd. Mae’r technolegau hynyn cefnogi cyfieithu awtomatig, creu cynnwys, prosesugwybodaeth a rheoli gwybodaeth ar gyfer amrywiaetheang o feysydd pwnc a rhaglenni. Maent hefyd yngalluogi rhyngwynebau greddfol sy’n seiliedig ar dechn-oleg iaith yn amrywio o offer electroneg y cartref, ibeiriannau a cherbydau i gyfrifiaduron a robotiaid.LansiwydMETA-NET ar 1Chwefror 2010; ac mae eis-oes wedi cynnal gweithgareddau amrywiol yn ei thairllinell gweithredu META-VISION, META-SHARE aMETA-RESEARCH.MaeMETA-VISION yn meithrin cymuned rhanddeil-iaid ddeinamig a dylanwadol sy’n uno o gwmpas gwel-

edigaeth ranedig ac agenda ymchwil strategol gyffredin(SRA). Prif ffocws y gweithgaredd hwn yw adeiladucymuned technoleg iaith gydlynol yn Ewrop drwy ddodâ chynrychiolwyr o grwpiau rhanddeiliaid amrywiol acwedi eu ffragmenteiddio. Paratowyd y Papur Gwyn cyf-redol ynghyd â chyfrolau ar gyfer 30 o ieithoedd eraill.Datblygwyd y weledigaeth am dechnoleg wedi’i rhannuGrŵp Gweledigaeth sectoraidd. Sefydlwyd CyngorTechnoleg META er mwyn trafod a pharatoi’r SRA ynseiliedig ar y weledigaeth, a hynny wrth ryngweithio’nagos gyda’r gymuned technoleg iaith yn ei chyfanrwydd.Mae META-SHARE yn creu cyfleuster agored, wedi’iddosbarthu, ar gyfer cyfnewid a rhannu adnoddau.Bydd y rhwydwaith cymar-i-gymar o storfeydd yn cyn-nwys data, offer a gwasanaethau ieithyddol a gwasan-aethau gwe wedi eu dogfennu gyda metaddata o an-sawdd uchel acwedi’i drefnu’n gategorïau safonol. Byddmodd hawdd ac unffurf o chwilio’r adnoddau hyn aco gael mynediad iddynt. Mae’r adnoddau yn cynnwysdeunyddiau rhad ac am ddim, cod agored yn ogystal ageitemau cyfyngedig, sydd ar gael yn fasnachol, yn seil-iedig ar ffioedd.Mae META-RESEARCH yn codi pontydd i feysyddtechnoleg cysylltiedig. Mae’r gweithgaredd hwn ynceisio godro datblygiadaumewnmeysydd eraill gan fan-teisio ar ymchwil arloesol a all fod o fudd technolegiaith. Yn benodol, mae’r llinell gweithredu hon yncanolbwyntio ar gynnal ymchwil flaengar mewn cyf-ieithu awtomatig, casglu data, paratoi setiau data athrefnu adnoddau iaith at ddibenion gwerthuso; lluniorhestri o offer a dulliau, a threfnu gweithdai a digwydd-iadau hyfforddi ar gyfer aelodau o’r gymuned.

[email protected] – http://www.meta-net.eu

34

Page 42: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

1

EXECUTIVE SUMMARY

Language is the primary means of communication be-tween humans. It allows us to express ideas and feel-ings, helps us to learn and teach, is essential for living,is the primary vehicle of transmission of culture, and is asymbol of identity. In our current level of globalization,we have many ways to easily communicate with peoplefrom all over the world. For example, the new informa-tion and communication technologies have enabled thedevelopment of social networks that have encouragedand enhanced interaction between people from virtu-ally all countries and cultures. Also, in recent years, wehave seen large movements of foreign people betweenour countries, i.e. tourism or immigration that createsthe necessity for communication among different lan-guages. is cross-lingual communication problem isoen solved through the use of a lingua franca. ecountries of Europe provide a clear example of linguis-tic and cultural diversity despite the fact that, duringthe last 60 years, Europe has increasingly become a dis-tinct political and economic entity. As a result, languagechallenges are inevitably confronted by people in every-day life as well as in the spheres of business, politics andsciences.

Language challenges are inevitably confrontedby people in everyday life as well as in thespheres of business, politics and sciences

e European Union’s institutions spend about a bil-lion Euros a year on maintaining their policy of mul-tilingualism, i.e. translating texts and interpreting spo-

ken communication. In parallel, English is becoming alingua franca in the communication between Europeaninstitutions and citizens. In the UK, as a case in point,we find a similar scenario. As so many public servicesare nowprovided either directly or indirectly by techno-logical means, providing and recording Welsh languagechoice, and the language technology required for acti-vating this choice is now a pressing issue for many rea-sons. e most salient justifications relate to the pro-motion of: active citizenship, equity of access to medi-cal services, accessibility for those, for example, with im-paired vision, and democratic representation itself.

Language technology may serve as a uniquebridge between different languages

When combined with intelligent devices and applica-tions, language technology will in the future be ableto help citizens talk easily to each other and do busi-ness with each other even if they do not speak a com-mon language. is, in the context of recently passedlanguage legislation affecting public services in Wales isof paramount significance. Language technology solu-tions will eventually serve as a unique bridge betweendifferent languages. However, the language technolo-gies and speech processing tools currently available onthe market (ranging from question answering systemsto natural language interfaces, and including translationsystems and summarization tools, among many oth-ers), still fall short of this ambitious goal. As early asthe late 1970s, the European Union realised the pro-

35

Page 43: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

found relevance of language technology as a driver ofEuropean unity, and began funding its first researchprojects within this emerging field. At the same time,national and autonomic projects were set up that gener-ated valuable results but never led to concerted Euro-pean action. e predominant language technologiestoday rely on imprecise statistical approaches that donot make use of deeper linguistic methods, rules andknowledge. For example, sentences are automaticallytranslated by comparing a new sentence against thou-sands of sentences previously translated by humans. equality of the output largely depends on the size andquality of the available sample corpus. However, eventhis quasi-imprecise statistical method is far more pro-ductive than the labours of a lone translator not bene-fitting from such technology, or benefitting from real-time sharing of other translators’ work via TranslationMemory. While the automatic translation of simplesentences, in languages with sufficient amounts of avail-able text material, can achieve useful results, such shal-low statistical methods are doomed to fail in the caseof languages with a much smaller body of sample ma-terial or in the case of sentences with complex struc-tures. Analysing the deeper structural properties of lan-guages is the only way forward if we wish to build ap-plications that perform well across a wide range of lan-guages. e solution to the cross-language communi-cation problem is therefore to build key enabling tech-nologies. To achieve this goal and preserve Europe’s cul-tural and linguistic diversity, it is necessary to first carryout a systematic analysis of the linguistic particularitiesof all European languages, and the current state of lan-guage technology to support them. is is the purposeof the White Paper on Welsh.

The solution to the cross-language communicationproblem is to build key enabling technologies

As this series of white papers demonstrates, there is adramatic difference between Europe’s member states in

termsof both thematurity of the research and in thepre-paredness with regard to recognising and implementinglanguage solutions. One of the propositions and con-clusions based on evidence of the offerings available isthat Welsh is one of the EU languages that still needsfurther research before truly effective language technol-ogy solutions are ready for widespread everyday use, andthat the language is normalised in technology, and thattechnology normalises the language to its full potential.Whilst language technology is an enabling technologyand not an end in itself for the person-in-the-street, it isimperative that smaller languages such as Welsh receivedue attention or their speakers will be further disenfran-chised.

It is imperative that minority languagesreceive due attention, or their speakers

will be further disenfranchised

Language technology also has a great role to play interms of recording citizens’ language choice. is idealenabling situation would be for the technology to en-able those agents of the state and other sectors to proac-tively offer services in Welsh, because citizens’ languagechoice will already be known to them. Whilst the leg-islative situation in Wales is developing its discoursefor the state to be a provider of such services, languagetechnology will enable equity of language provisionfor all citizens (at its most simple level routing Welsh-speaking phone calls automatically to Welsh speakingstaff, matching Welsh speaking social services/medicalstaff to Welsh speaking service users and so on), at itsmost complex, automatically translating documents andmeetings.

Technology will provide fairness in terms oflanguage provision for all citizens

36

Page 44: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

2

LANGUAGES AT RISK: A CHALLENGE FORLANGUAGE TECHNOLOGY

We are witnesses to a digital revolution that is dramati-cally impacting communication and society. Recent de-velopments in digital information and communicationtechnology are sometimes compared to Gutenberg’s in-vention of the printing press. What can this analogy tellus about the future of the European information societyand our languages in particular?

The digital revolution is comparable toGutenberg’s invention of the printing press

Aer Gutenberg’s invention of the press, real break-throughs in communication and knowledge exchangewere accomplished by efforts such as the translation ofthe Bible into vernacular languages. In subsequent cen-turies, cultural techniques have beendeveloped tobetterhandle language processing and knowledge exchange:

‚ the orthographic and grammatical standardisationof major languages enabled the rapid disseminationof new scientific and intellectual ideas

‚ the development of official languages made it possi-ble for citizens to communicate within certain (of-ten political) boundaries

‚ the teaching and translation of languages enabled ex-changes across languages; the creation of editorialand bibliographic guidelines assured the quality ofprinted material

‚ the creation of different media like newspapers, ra-dio, television, books, and other formats satisfieddifferent communication needs.

Likewise, in the past twenty years, information technol-ogy has helped to further automate and facilitate lan-guage processing and knowledge exchange:

‚ desktop publishing soware has replaced typewrit-ing and typesetting;

‚ Microso PowerPoint, and latterly, Prezzi have re-placed overhead projector transparencies;

‚ e-mail allows documents to be sent and receivedmore quickly than using a fax machine;

‚ Skype and other offerings provide cheap internetphone calls and host virtual meetings;

‚ audio and video encoding formatsmake it easy to ex-change multimedia content;

‚ web search engines provide keyword based access;

‚ online services like Google Translate produce quickthough approximate translations;

‚ social media platforms such as Facebook and Twit-ter facilitate communication, collaboration, and in-formation sharing.

Although these tools and applications are helpful, theyare not yet capable of supporting a fully sustainable,multilingual European society in which informationand goods can flow freely.

37

Page 45: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

2.1 LANGUAGE BORDERSHOLD BACK THE EUROPEANINFORMATION SOCIETYWe cannot predict exactly what the future informationsociety will look like. But there is a strong likelihoodthat the revolution in communication technology isbringing people speaking different languages togetherin new ways. is is putting pressure on individuals tolearn new languages and especially on developers to cre-ate new technology applications to ensure mutual un-derstanding among speakers of different languages andaccess to shareable knowledge. In a global economicand information space, more languages, speakers andcontent interact more quickly with new types of media.e current popularity of ‘Web2.0’ social media (suchas Wikipedia, Facebook, Twitter, YouTube, etc) is onlythe tip of the iceberg. Content is king and the user isnow in control to an extent never beforewitnessed. isfreeing of control is akin to the revolution in print capi-talism which helped the formation of the monolingual,monolithic nation state three centuries ago. However,this time individuals are in control, and their languageshave an avenue for expression hitherto denied to them.Could Web2.0, connected with relevant language tech-nology, be the new print capitalism, historically usedas a homogenising force by nation states, but this timefaouring RMLs?

In a worldwide economic and information space,more languages, speakers and content are

interacting more quickly with more types of media

Today, we can transmit gigabytes of text around theworld in a few seconds before we recognise that it is ina language we do not understand. According to a re-port from the European Commission [2], 57% of in-ternet users in Europe purchase goods and services in

non-native languages (English is the most common for-eign language followed by French, German and Span-ish). 55% of users read content in a foreign languagewhile only 35% use another language to write e-mails orpost comments on the web. A few years ago, Englishmight have been the lingua franca of the web. e vastmajority of content on the web was in English, possiblybecause of its initial development in English-speakingcountries. In terms of the early-stage development ofweb-content for RML languages, one postulate is thatthis may have been because of the diglossia-provokedmentalities and attitudes described above.

The omnipresent digital divide caused bylanguage borders has not received

much public attention

Fortunately, this situation has now drastically changed.e amount of online content in other European (aswell as Asian and Middle Eastern) languages has ex-ploded. Surprisingly, this ubiquitous digital divide dueto language borders has not gained much public atten-tion; yet, it raises a very pressing question: How ex-actly can technologies enable languages to thrive in thenetworked information and knowledge society when somany of them, the world over, are under threat? Forexample, Ethnologue [3] notes that there are approxi-mately 7,015 languages in the world. e majority ofthese are under threat and will cease to be transmittedto future generations (such intergenerational languagetransmission being one of the key indicators of languagevitality). Such risks are the focus of the next section ofthis white paper.

2.2 OUR LANGUAGES AT RISKWhile the printing press and associated print capital-ism helped step up the exchange of information in Eu-rope [4], it contributed substantially to the process by

38

Page 46: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

which many European languages lost substantial num-bers of speakers. Many regional or minority languageswere rarely printed and were limited to oral forms oftransmission, which in turn restricted their scope of use.Welshbenefited from the standardwritten language cre-ated by Bishop William Morgan’s 1588 translation ofthe Bible. But how will Welsh survive the impact ofthe internet? Europe’s approximately 80 languages areone of its richest andmost important cultural assets [5],and a vital part of its unique social model. While lan-guages such as English and Spanish are likely to survivein the emerging digital marketplace, many Europeanlanguages could become irrelevant in a networked soci-ety unless sufficient strategic steps are taken. is wouldweakenEurope’s global standing, and run counter to thestrategic goal of ensuring equal participation for everyEuropean citizen regardless of language. e wide vari-ety of languages in Europe is one of its richest and mostimportant cultural assets. According to aUNESCO re-port on multilingualism [6], languages are an essentialmedium for the enjoyment of fundamental rights, suchas political expression, education and participation insociety.

How will the Welsh language survivethe effect of the Internet?

We now move from the political, philosophical, his-toric and strategic, to the operational. To a certain de-gree, and to grossly oversimplify by neglecting the socialcontext outlined above, language (reified as amanipula-ble construct in itself outside of that social context forthe purpose of ICT) could, simplistically, be portrayedas nothing more than ‘content.’ In summary, technol-ogy and language technology have a large role to play inhelping people’s bilingual lives and to be used as an in-strument of status planning to change deeply-embeddedattitudes toward the use of the ‘L’ language in hitherto

unfamiliar domains. Technology is omnipresent. Mul-tilingualism must be omnipresent in technology.

2.3 LANGUAGE TECHNOLOGYIS A KEY ENABLINGTECHNOLOGYIn the past, investment efforts in language preservationfocused on language education and translation. Accord-ing to one estimate [7], the European market for trans-lation, interpretation, soware localisation and websiteglobalisationwase8.4 billion in 2008 andwas expectedto grow by 10% per annum. Yet this figure covers just asmall proportion of current and future needs in commu-nicating between languages. e most compelling so-lution for ensuring the breadth and depth of languageusage in Europe tomorrow is to use appropriate tech-nology, just as we use technology to solve our transport,energy and disability needs among others. Languagetechnology targeting all forms of written text and spo-ken discourse can help people to collaborate, conductbusiness, share knowledge and participate in social andpolitical debate regardless of language barriers and com-puter skills.

Technology is omnipresent. Multilingualismmust be omnipresent in technology

It oen operates invisibly inside complex soware sys-tems to help us already today to: find information witha search engine; check spelling and grammar in a wordprocessor; view product recommendations in an onlineshop; follow the spoken directions of a navigation sys-tem; translate web pages via an online service. Languagetechnology consists of a number of core applicationsthat enable processes within a larger application frame-work. e purpose of the META-NET language white

39

Page 47: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

papers is to focus on how ready these core enabling tech-nologies are for each European language. Europe needsrobust and affordable language technology for all Euro-pean languages.

Europe needs robust, affordable languagetechnology for all its languages

Tomaintain our position in the frontline of global inno-vation, Europe will need language technology, tailoredto all European languages, that is robust and affordableand can be tightly integrated within key soware envi-ronments. Without language technology, we will notbe able to achieve a really effective interactive, multime-dia and multilingual user experience in the near future.

2.4 OPPORTUNITIES FORLANGUAGE TECHNOLOGYIn the world of print, the technology breakthrough wasthe rapid duplication of an image of a text using a suit-ably powered printing press. Human beings had to dothe hard work of looking up, assessing, translating, andsummarising information. Language technology cannow simplify and automate the workflow processes oftranslation, content production, and knowledge man-agement. It can also empower intuitive speech-basedinterfaces for household electronics, machinery, vehi-cles, computers and robots. Real world commercialand industrial applications are still in the early stagesof development, yet R and D achievements are creatinga genuine window of opportunity. For example, ma-chine translation (described below in the case ofWelsh)is already reasonably accurate in specific domains, andexperimental applications provide multilingual infor-mation and knowledge management, as well as con-tent production, in many European languages. As withmost technologies, the first language applications such

as voice based user interfaces and dialogue systems weredeveloped for specialised domains (for example, spe-cific narrow fields of medicine, for note taking), and of-ten exhibit limited performance. However, there arehuge market opportunities in the education and enter-tainment industries for integrating language technolo-gies into games, edutainment packages, libraries, sim-ulation environments and training programmes. Mo-bile information services, computer assisted languagelearning soware, eLearning and blended learning en-vironments, self-assessment tools and plagiarism detec-tion soware (used to detect plagiarised work on sub-mission of students’ assignments) are just some of theapplication areas inwhich language technology can playan important role. e popularity of social media ap-plications like Twitter and Facebook suggest a need forsophisticated language technologies that can monitorposts, summarise discussions, suggest opinion trends,detect emotional responses, identify copyright infringe-ments or track misuse. e same goes for ‘big data’monitoring [8] and trending research projects, such asthose used by the security services to detect possiblesocial unrest and ‘hate speech’. Language technologyhelps overcome the ‘disability’ (as perceived by some)of linguistic diversity. Language technology representsa tremendous opportunity for the European Union. Itcan help to address the complex issue ofmultilingualismin Europe ‘the fact that different languages coexist natu-rally in European businesses, organisations and schools.However, citizens need to communicate across the lan-guage borders of the European Common Market, andlanguage technology can help overcome this final bar-rier, while supporting the free andopenuse of individuallanguages. Looking even further ahead, innovative Eu-ropean multilingual language technology will provide abenchmark for our global partners when they begin tosupport their own multilingual communities.

40

Page 48: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Language technology helps overcome the‘disability’ (as some would call it)

of linguistic diversity

Although language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is too slow.Widely used technologies, such as the spelling andgrammar correctors in word processors, are typicallymonolingual, and are only available for a handful of lan-guages. Online machine translation services, althoughuseful for quickly generating a reasonable approxima-tion of a document’s contents, are fraught with difficul-ties when highly accurate and complete translations arerequired. e current pace of progress in language tech-nology is too slow. Due to the complexity of humanlanguage, providing for the computational modelling ofour tongues and testing it in the real world is a long,costly business that requires sustained funding commit-ments. Europe must therefore maintain its pioneeringrole in facing the technological challenges of a multiplelanguage community by inventing new methods to ac-celerate development right across the map.

2.5 LANGUAGE ACQUISITIONIN HUMANS AND MACHINESTo illustrate how computers handle language andwhy itis difficult to program them toprocess different tongues,let us look briefly at the way humans acquire first andsecond languages, and then see how language technol-ogy systems work. Babies acquire a language by lin-guistic interaction and by listening to the real interac-tions between their parents, siblings and other familymembers. From the age of about two, children producetheir first words and short phrases. is is only possi-ble because humans have a genetic disposition to imi-tate and then rationalise what they hear. Learning a sec-

ond language at an older age requires more cognitive ef-fort, largely because the person is not immersed in a lan-guage community of native speakers. At school, foreignlanguages are usually acquired by learning grammaticalstructure, vocabulary and spelling using drills that de-scribe linguistic knowledge in terms of abstract rules, ta-bles and examples. Humans acquire language skills intwo different ways: learning from examples and learn-ing the underlying language rules. Moving now to lan-guage technology, the two main types of systems ‘ac-quire’ language capabilities in a similar manner. Statisti-cal (or data driven) approaches obtain linguistic knowl-edge from vast collections of concrete example texts or‘corpora’. While it is sufficient to use text in a singlelanguage for training, say, a spell checker, parallel textsin two or more languages have to be available for train-ing a machine translation system. e machine learn-ing algorithm then ‘learns’ patterns in terms of howwords, short phrases and complete sentences are trans-lated. is statistical approach usually requires millionsof sentences to boost performance quality. is is onereason why search engine providers are eager to collectas much written material as possible. Spelling correc-tion in word processors, and services such as GoogleSearch or Google Translate, all rely on statistical ap-proaches. e great advantage of statistics is that themachine learns quickly in a continuous series of trainingcycles. Another approach to language technology andto machine translation in particular, is to build rules-based systems. Experts in the fields of linguistics, com-putational linguistics and computer science first haveto encode grammatical analyses (grammar rules) andcompile vocabulary lists (lexicons). is is very timeconsuming and labour intensive. Some of the leadingrules-based machine translation systems have been un-der constant development for more than 20 years. egreat advantage of rules-based systems is that the expertshavemoredetailed control over the languageprocessing.

41

Page 49: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

is makes it possible to systematically correct mistakesin the soware and give detailed feedback to the user, es-pecially when rules-based systems are used for languagelearning. However, due to the high cost of this work,rules-based language technology has so far only been de-veloped for a few major languages. As the strengths andweaknesses of statistical and rules-based systems tend tobe complementary, current research focusses on hybridapproaches that combine the two methodologies. epossibilities of a tripartite machine translation enginefor Welsh (rules-based, statistical-based and example-based), combined with translation memory and widereal-time sharing of translations are discussed below. Itshould be noted, however, that these hybrid approaches

have so far been less successful in industrial applicationsthan in the research lab. e two main types of lan-guage technology systems acquire language in a similarmanner as humans do. As we have seen in this chap-ter, many applications widely used in today’s informa-tion society rely heavily on language technology, partic-ularly in Europe’s economic and information space. Al-though this technology has made considerable progressin the last few years, there is still huge potential to im-prove the quality of language technology systems. Inthe next chapters, we describe the role of the Welsh lan-guage inEuropean information society and in theworld,and assess its sociolinguistic background and the currentstate of language technology for Welsh.

42

Page 50: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

3

THE WELSH LANGUAGE IN THEEUROPEAN INFORMATION SOCIETY

3.1 GENERAL FACTSe Welsh language, a Celtic language (related to Bre-ton, Cornish, Irish, Scottish Gaelic and Manx) has asimilar post-enlightenment history tomany other of theother regional orminority languages all over Europe, i.e.centrist policies and a sharp demographic decline be-ginning at the start of the twentieth century, followedby a slowing in that decline in the 1970s. In the caseof Welsh, the latest decennial census results (2011) [9]found that 19% (562,000) of the population of Walesnoted an ability to speak Welsh, a decrease in absolutenumbers of 20,400 on the previous census (2001). Itshould be noted however, that the 2001 census had itselfshown an increase of 80,000 people on the 1991 census.It would therefore appear, from the large-scale samplethat the census provides, that the Welsh language is in afar safer situation in terms of its top level demographicfigures than many of the other languages in the world.But such top level figures can, of course, only be superfi-cial. e picture itself is much more complex [10].

is complexity manifests itself in the evolving age pro-file of Welsh speakers. For example, of the 10-14 yearold age group, 42.2% were recorded as Welsh speakersat the 2011 census, higher than the figures for a cen-tury earlier in 1911 (and much higher than the 16.2%of those older than 65 years of age who noted that theyspoke Welsh in 2011). Indeed, the most recent analy-sis of the 2011 Census figures for the Welsh language[11] shows that ‘the number of children speakingWelsh

is more than twice that of those aged 16-64 and theover 65s’. e Welsh Language Board also published a‘reasonable estimate’ [12] that there could be 110,000Welsh speakers living in England. e positive impli-cations of language technology and technology in gen-eral for language use and maintenance in such diasporacommunities are substantial. e Welsh language tele-vision channel, S4/C, broadcasts in England (and therest of the UK outside Wales in Welsh). Of all thoseWelsh speakers (100%) 44.9% live in homes where ev-eryone speaks Welsh (2001 Census figures) the corre-sponding analysis for 2011 figures is not available at thetime of writing this white paper). ese statistics meanthat the family lives of very many Welsh speakers arebilingual, which pose particular challenges in terms ofswitchable interface language technology, for languagestatus planning (i.e. how can people with differing lan-guage abilities in the same family or work unit share acomputer if its interface is in the ‘L’ (diglossic lower sta-tus) language. It is therefore of fundamental importancefor applied language planning that as much as possibleof the technology people use in school and beyond isfreely available inWelsh, and implemented in the organ-isations and networks that are used by particular targetsegments. It is beyond the scope of this white paper toprovide a detailed statistical breakdown by age of Welshlanguage use and ability. However, it is worth notingthat themorefluent a speaker is inWelsh, themore likelythat speaker is to use the language every day.

43

Page 51: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

There are substantial positive prospects forlanguage technology and technology in generalfor language use and for sustaining fragmented

linguistic communities

e former Welsh Language Board’s Welsh LanguageUse Surveys (2004-2006) (themost recent national lan-guage use figures available) noted that of the 588,000people it estimated were speakers of Welsh, 58%(317,000) considered themselves fluent. 76% of fluentspeakers said they spokeWelsh every day, andWelshwasthe language of the most recent conversation of 59%of the fluent speakers. During the life of the statutoryWelsh Language Board (1993-2012), the discourse inLanguage Planning evolved from an overly simple de-sire merely to increase numbers able to speak Welsh toa more sophisticated behaviour-changing strategy usinglessons learnt from the National Health Service’s PublicHealth Promotion work (cf the Twf [‘growth’] projectto persuade parents to speak Welsh to their childrenwhere they may not have previously had enough confi-dence todo so) and to increase use of theWelsh languagein diglossic ‘H’ situations via a project calledMae gen tiddewis... (‘You’ve got the choice’). e discourse of userather than increasing numbers also prevails in more re-cent Welsh Government strategy documents.

Language use patterns are deeply rooted insocial psychology, self-perception and

perceptions of linguistic self-efficacy (whateverthe true fluency of a given Welsh speaker)

Language behaviour patterns are deeply rooted in so-cial psychology, self-perception, self-confidence andperceived linguistic self-efficacy (regardless of a Welshspeaker’s actual language fluency) [13]. ese elementscome up time and time again in the research commis-sioned by the former Welsh Language Board. In short,

perception is one’s own subjective reality and, in com-bination with other factors, one acts within the param-eters that one’s self-belief creates. is is particularlysalient in considering the use of language technology.

3.2 PARTICULARITIES OF THEWELSH LANGUAGEWelsh has intrinsic linguistic features whichmake it dis-similar to many of the other languages of this whitepaper series (apart from its cousin language, Irish).is may make development, and in particular, cross-fertilization of language technology more challengingthan, say, between French, Spanish and English.ere are 29 letters in theWelsh alphabet (Roman scriptis used). Welsh does not use ‘x’ or ‘z’, and ‘j’ is only nor-mally used in words borrowed from English. e lan-guage benefits from full Unicode support and therefore,as a general rule, there should be no problem in depict-ing the characters used in any Unicode-compliant set-ting. One of the main particularities of Welsh is thatis uses digraph letters (two symbols to produce a spe-cific sound). ese are ch, dd, ff, ng, ll, mh, nh, ph, rh,th. is poses a challenge to those technologists imple-menting, for example, sorting indatabases, as ‘Llandeilo’will come aer ‘Luton’ (both place names).Welsh, like its Irish cousin, is an inflectional languagewhich means that its linguistic forms change dependingon (for example) tense, number, and person. Take, forexample the regular verb ‘canu’ (to sing). In compact,literary form, the verb could be conjugated as follows:

‚ Canaf

‚ Ceni

‚ Cân

‚ Canwn

‚ Canwch

‚ Canant

44

Page 52: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

However, the gulf between formal written and spokenWelsh is wide. e oral language tends towards use of amore periphrastic structure (which itself is not unprob-lematic due to substantial dialectal variation in that pe-riphrastic structure). By way of example, ‘I am singing/Ising’ in the periphrastic form could be heard as follows(depending on the form the speaker adopts):

‚ Dwi’n canu

‚ Rwy’n canu

‚ Rwyf yn canu

‚ Rydw i’n canu

‚ Fi’n canu (stigmatised form, but becoming morecommon)

e same variation also exists for other persons. e lackof a standard oral language causes problems, for exam-ple, for development of speech recognition systems, orindeed automatic translation or phonic searching. erelevant lemmatizing databases will also have to dealwith this problem.

Another feature of the Celtic languages is their systemof initial consonantmutation. Nine letters of theWelshalphabet mutate, and there are three types of mutation,as shown in the table below. However, language tech-nology needs to take into account the rules by whichthese mutations occur. For example, the word ‘a’ canmean ‘and’, or can be a preverbal particle. In the first in-stance, it would cause an aspirate mutation, in the sec-ond a so. e object of compact form verbs also takes asomutation inWelsh. So, for example, ‘Gwelodd fach-gen’ (He/She saw a boy) is only different from ‘Gweloddbachgen’ (A boy saw) by the mutation. Placenames takea nasal mutation aer ‘yn’ (’in’), but ‘yn’ can also be apreverbal particle. How will language technology beable to differentiate between these situations? is, ofcourse, is also salient for the machine translation dis-cussed later in this white paper.

Although language technology has made considerableprogress in the last few years, the current pace of tech-nological progress and product innovation is slow formany of Europe’s smaller languages. Europemust there-fore maintain its pioneering role in facing the technol-ogy challenges of multiple language communities by in-venting new methods to accelerate development rightacross the map. ese could include both computa-tional advances and techniques such as crowdsourcing.In the particular case of Welsh, some of the challengesthat that need to be overcome in the development oflanguage technology are as follows: Dialectal variationin Welsh is great, although all dialects are mutually in-telligible. Up until the advent of S4/C, the Welsh lan-guage television channel in 1982, which has facilitatedinternal comprehension in the Welsh language speechcommunity, many anecdotal complaints were heard re-garding ‘incomprehensibility’ of Welsh dialects. isposes obvious challenges to technology, such as speechrecognition. Welsh has benefitted from a standard writ-ten language since the translation of the Bible by BishopWilliam Morgan in 1588. is did much to conservelanguage unity, where, for example, other languages,such as Breton, fragmented dialectally. Religion hasplayed, up until very recently, a large sociological role inlanguage conservation in Wales, when the state was notas amenable to additive bilingualism as it now is.

Components could be shared and reusedbetween languages

However, the standard written language describedabove is widely different from oral Welsh (in all its di-alectal forms). So, for example, in the case of speechto text recognition used in a formal meeting, what lan-guage technology tools would be needed to allow oneto transcribe the utterances to create a formal record inwritten Welsh of that meeting (without large amounts

45

Page 53: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

So Nasal Aspirate

T D NH THC G NGH CHP B MH PHB F M -D DD N -G [Disappears] NG -M F - -RH R - -LL L - -

of post-editing)? To illustrate this point, ProfessorBobi Jones, who has written extensively on Welsh lan-guage matters, wrote of formal Welsh [14]: ‘We speakthe language of our parents and write the language ofthe grandparents of our great great grandparents!’ Atpresent, there is scant formal provision for the trainingof Welsh speakers as computational linguists. e req-uisite skillsets in technology, programming and correctWelsh language skills and computational linguistics arerare. It is oen difficult to appoint staff even to contentcreation posts (for example, for websites) with sufficientcopywriting and language skills.

Cost savings, increases in consistency and adecrease of repetitive translation can all be

achieved via the sharing of Translation Memories

Europe-wide projects such as META-NET show thelarge economies of scale that can be found by tacklingsimilar problems of many languages in one space. isis undoubtedly an opportunity for Welsh, and othersmaller languages. And whilst Europe’s many languagesare not grammatically similar, some componentsmay beshared and redeveloped between those languages whichare related. Many generic technologies also should befully utilised and, possibly, their architecture shared forEurope’s languages such as:

‚ Cloud-based translation memories

‚ Hybridmachine translation (patched into the trans-lation memories described in detail in this white pa-per)

In terms of the opportunities for the Welsh languagethat language technology may provide, we may count:

‚ e social capital that may accrue from crowdsourc-ing projects in the voluntary sector, and the socialcapital from joint origination of content in Welsh

‚ Savings in cost, large increase in consistency and a re-duction of repetitive translation via large-scale shar-ing of Translation Memories in the public sector

‚ Speech synthesis may provide assistance for thoselearning Welsh who do not have every day access tospeakers of the language

‚ In terms of the inclusivity agenda, Welsh languagescreenreaders will increase access of those with vi-sual impairments toWelsh language content and ser-vices.

‚ Itmay also assist to post editmachine translated out-put more quickly than via keyboard

3.3 RECENT DEVELOPMENTSe philosophy of post-enlightenment romantic na-tionalismmanifested itself in the creation ofmonolithic

46

Page 54: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

nation states which, in order to be monolithic, imple-mented centrist, uniforming policies which decreased(or in some cases, deleted) internal linguistic diversity.e sociopsychological aspects of the resultant diglos-sia for technology and ‘modern’ functions have been afetter on Welsh language normalisation, particularly in’new’ spheres such as language technology. However,from the last third of the 20th century, a world-widemovement for glocalisation developed, prizing the localyet with a global worldview. is saw resurgence in in-terest in regional or minority languages. In the case ofWelsh, wide-spread civil disobedience and non-violentprotest (mostly, in the earlier years, on behalf of theWelsh Language Society) elicited government conces-sions. ereaer other legislation followed:

‚ eWelsh Language Act (1967), allowingministersto prescribe official versions of forms in Welsh, lim-ited use of Welsh in the courts system and severalother provisions.

‚ e Broadcasting Acts (1981 and 1982) which ledto the establishment of S4/C, the Welsh languagetelevision channel, (S4/C is now a pioneering dig-ital multi-platform broadcaster involving audiencesin its programmes via social media)

‚ e Education Act 1988 which made Welsh a coresubject in the National Curriculum in Wales (thelanguage was not hitherto compulsorily taught inthe school system, and many schools did not teachit at all).

‚ e Advisory Welsh Language Board (1988) whichwas to make recommendations to Ministers regard-ing the appropriacy of legislation for the Welsh lan-guage. One such recommendation caused the dra-ing of the Welsh Language Act 1993. is Act,which repealed many of the provisions of the 1967Act and ensured that public organisations in serv-ing the public in Wales, wherever they were situatedin the UK, provided service to the public on a ba-

sis of equality between Welsh and English. is wasensured by ‘Welsh language schemes’, documentstailored to each individual organisation’s circum-stances. e Act established the statutory WelshLanguage Board to ‘promote and facilitate the useof the Welsh language’. e Board was abolished inMarch 2012, by the legislation described below.

‚ e Government of Wales Acts (1998, and 2006),granting devolution of power in limited fields to theNational Assembly forWales, and giving the Assem-bly the ability to do ‘anything within its power’ topromote the Welsh language.

‚ Other significant developments include civil soci-etymovements such asMudiadauDathlu’r Gymraeg(an umbrella movement of Welsh language organi-sations), Dyfodol i’r Gymraeg, (a lobby of eminentWelsh speakers) and Yr Awr Gymraeg (the WelshLanguage Hour), during which Welsh speakers areonce per week encouraged to use Welsh on Twitterfor a given hour each week.

‚ A policy observatory, announced in January 2013by the Welsh Language Commissioner, to study theimplications of the Welsh language in every policysphere.

‚ e Coleg Cymraeg Cenedlaethol (NationalWelsh Language College), a Government-funded,university-level Virtual organisation, coordinatingWelsh-medium provision in Wales’ higher educa-tion establishments. Lectureships in technologyhave been advertised.

Manyof the abovedevelopments, to a degree, use, or cre-ated a need for language technology.

47

Page 55: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

3.4 LANGUAGE PROMOTIONAND REGULATIONOne of the most significant developments in languagepolicy in Wales was been the granting of LegislativeCompetence to the National Assembly for Wales to en-act legislation in matters relating to certain aspects ofthe Welsh language. is enabled the Welsh Govern-ment to bring forward one of themain pillars of its ‘OneWales’ Coalition Agreement, i.e. to dra the WelshLanguage (Wales) Measure (2011) [42]. e Measuregave Welsh Ministers the power to abolish the WelshLanguage Board and reorganise its functions. e postofWelsh Language Commissioner was one of themain-stays of this legislation. e Commissioner came intobeing in April 2012. e Commissioner has power toenforce legal compliance with a new series of ‘LanguageStandards’, which are intended to replace the 541 extantWelsh Language Schemes, the main instrument of thecurrent Welsh Language Act. ese standards are sub-divided as follows:

‚ Service delivery standards

‚ Policy making standards

‚ Operational standards

‚ Promotion standards

‚ Record keeping standards

efirst three aremost relevant to language technology.ey ensure that services provided to thepublic inWales(by whatever means) are provided via the language ofthe end user’s choice and that that choice must be cap-tured and reused via the whole dealings of organisation‘X’ with that end user (websites, app, CRM etc).

Parts of the telephony sector may be broughtunder the aegis of the Welsh Language Measure,which therefore may mean compulsion to create

mobile telephony interfaces in Welsh

Policy making standards will ensure that in every pol-icy decision an organisation makes, the Welsh languagemust be considered as a factor. E.g. in terms of an or-ganisation’s long-term IT strategy, ‘is systemX available,or likely to be available in Welsh, and does it captureand manage language preference’ ‘ if not, disregard, orsupply a case for continuing with procurement (keep-ing due records of the reasoning behind the decision tocontinue). e operational standards regard the inter-nal workings of a given organisation, and the rights thatmay arise from these standards would enable workers tocommunicate with each other in Welsh without let orhindrance and fully supported by statutory underpin-ning. Technology is a key facilitator for this and ac-tive offer, for example, of service or provision (admin-istrative and content side) will be expected in applica-tions such as content management systems and IT in-terfaces. e Measure also allows for major elements ofthe telecommunications sector to be brought within itspurview at a later date thereby requiring, for example,interfaces of mobile to be available in Welsh.

Lastly, as strategic background to the policy frameworkeffecting language technology inWales, theWelshGov-ernment has published a substantial Language Strat-egy document [16] (having already published a Strategydocument for Welsh Language Education) publishedunder the title of Iaith Fyw: Iaith Byw (A Living Lan-guage, a Language for Living). e strategy outlines theGovernment’s vision for the bilingual Wales it wishes tosee in the future, andMinisters have stated several timesin public that one of the main philosophical founda-tions of that strategy will be increasing use of languageprovision which is already available by whatever means.is philosophy is outlined, and examined, in the con-text of IT provision which is already available in Welsh,below. e strategy envisions a ‘strong representation ofthe Welsh language throughout the digital media’ anddevotes one of its six chapters to ‘Infrastructure’ for the

48

Page 56: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

language, under which language technology is tackled.ese are that chapter’s strategic targets, noting that theWelsh Government will act by:

‚ encouraging major private sector service providers,including banks, retailers, mobile phone companies,soware and hardware developers, and others todevelop online services, applications and interfacesthrough the medium of Welsh

‚ facilitating the development of Welsh interfaces forcommonly used social networking media, includingopen source soware

‚ providing, possibly on a matched basis, seedcornfunding for initiatives such as these on an incremen-tal basis over time

‚ developing a consensus around priority areas wheretechnological investment is required

e Ministerial Task and Finish Group on Welsh Lan-guage Technology and Digital Media was formed inearly 2012 and met several times to discuss a dra Strat-egy and Action plan for the Welsh language and tech-nology. e strategy [17] deals in detail with all theabove themes, and provides a welcome emphasis oncontent creation, which will, of course, strongly dove-tail with the language technology tools and themes de-scribed below in the case of Welsh. e strategy pro-poses five fields of action:

‚ Marketing and awareness raising

‚ Influencing large soware companies

‚ Encouraging development of new soware packagesand Welsh medium digital services

‚ Encouraging creation and sharing, and use of Welshlanguage digital content

‚ Sharing best practice in the public, private and thirdsectors.

ese will be operationalized by Governmental fund-ing, encouragement and legislative initiatives. In order

to realise the Government’s vision of a bilingual Wales,Welsh must have its rightful place in the world of tech-nology, and a strategic, long-term approach is in placeto ensure this. Other considerations influence the roleand legal position of the Welsh language. Within thepast decade it has become part of the equalities agendayet it does not figure prominently in comparison withother equality strands based upon race, gender, sexualorientation or disability.

Oneway of contributing to this omnipresence [ofWelshin technology] has been to publish detailed, technicalguidelines which would provide advice on how to cre-ate multilingual soware or websites, emphasising theneed for easy language switching. In April 2006, theWelsh Language Board therefore launched comprehen-sive Bilingual Soware Guidelines and Standards [18],(on the same day as the first Strategy document for ITand theWelshLanguage) [19] and circulated them to allorganisations with a statutory Language Scheme undertheWelsh Language Act 1993. It then held several sem-inars for technical practitioners to publicise the stan-dards, one each in north and south Wales, and anotherin London (principally for Crown Bodies with a Lan-guage Scheme under the Welsh Language Act 1993).It was hoped that the advice this document provided,and the monitoring frameworks used to track its im-plementation, would improve the bilingual provision ofelectronic services of all kinds, improving on the per-formance noted in the two Snapshot Surveys of pub-lic sector websites the Board carried out in 2001 [43]and 2003 [21]. In August 2009, the Board launcheda technical Accreditation Scheme [22] for the Stan-dards Document on its website. is scheme, aimed attechnically skilled IT staff within organisations with aLanguage Scheme under the Welsh Language Act 1993(and any other organisation wishing to provide IT ser-vices bilingually), turns the Bilingual Soware Guide-lines and Standards into question form, enabling those

49

Page 57: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

technical staff to ascertain easily whether a given systemis compliant and supplies a language choice on a basisof equality between Welsh and English. e intentionis that the results of these questions will be used as di-achronic indicators for improving bilingual IT services.is documentwas updated, and reworked as one of thefirst guidance documents published by the Welsh Lan-guage Commissioner in 2012. All the Commissioner’sguidance documents will, in due course, be publishedas Codes of Practice under theWelsh Language (Wales)2011 Measure, with organisations having to prove howthey have given ‘due regard’ to these codes in complyingwith the standards regime described above.

3.5 LANGUAGE ANDTECHNOLOGY IN EDUCATION

e field of end user training and capacity buildingthrough themedium ofWelsh in the field of IT requiresspecific attention. Various training suites exist, bothin electronic and paper format, amongst them e Eu-ropean Computer Driving Licence [23] and Microso’sDigital Literacies project, using the standardised ter-minology and screengrabs of the Welsh Language ver-sions of its own products. As the world of IT movesso quickly, updates to this type of training will regularlybe needed, and other training packages are in prepara-tion. In terms of training for organisations to providelanguage technology, e Welsh Language Board cir-culated an Advice Note under the Welsh Language Act1993, to all 541 organisations with a language scheme,explaining the current provision in terms of languagetechnology, noting the myths outlined in this white pa-per and debunking them. Undergraduate university-level courses are available in language technology to dif-fering degrees in different institutions, but not in all.

3.6 INTERNATIONAL ASPECTSe Welsh Language is covered by provisions in theFramework Convention for the Protection of NationalMinorities and the UK Government has ratified 52Clauses of the European Charter for Regional or Mi-nority Languages forWelsh. It is also represented on theNetwork for the Promotion of Linguistic Diversity, thehead office of which is in Cardiff.

3.7 WELSH ON THE INTERNETWelsh Government figures [24] for 2012 show 70%of Welsh households had access to the internet. isequates to approximately 77% of people aged 18 or overhaving access to the internet at home. 73% of peoplesaid that they used the internet at home, work or else-where; this varied by age with a far greater proportionof people under 45 using the internet than those aged45 and over. internet users under 25 years old are morelikely (41%) than internet users aged 65 and over (8%)to have accessed the internet at another person’s home inthe last three months. Later figures show that the per-centage of the Welsh Population that had neer usedthe internet was 17.5% (compared with 14% [25] ofthe UK population as a whole. However, no accuratefigures are available as to which language Welsh peopleuse to access the internet. Wikipedia has Welsh as its65th strongest content language (with circa 49,000 ar-ticles) [26], proving the vitality and energy of the opensource community of volunteer content creators. Sev-eral browsers already have an interface for Welsh (In-ternet Explorer, Opera, Firefox), and several more, al-though not having Welsh interfaces, allow the browserlocale to be switched to Welsh in order to automate pre-sentation of Welsh content. Unfortunately, in order toavail oneself of this provision, one has to know what lo-cale is, to know where it is, to want, and know how tochange it, and to change it back if, for example, a so-

50

Page 58: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

ware update resets it. All this is independent of the lan-guage interface of a given operating system, for example,Microso Windows. A Welsh language interface hasbeen developed for Google (search) and Gmail. Websearch is the most commonly used internet applicationand it is ubiquitous across all sorts of devices and plat-forms. In addition, web search itself employs, or can em-ploy, a range of language technologies (of various levelsof sophistication) to improve results and overall qual-ity. Aside from the prestige of being associated with

such a successful international brand, Google’s Welshlanguage interfaces provides not only a language appro-priate internet experience forWelsh speakers, but it alsoreflects the growing need for appropriate search and lan-guage processing tools and services to deal with Welshlanguage data. e next section gives an introduction tolanguage technology and its core application areas, to-gether with an evaluation of current language technol-ogy support for Welsh.

51

Page 59: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

4

LANGUAGE TECHNOLOGYSUPPORT FOR WELSH

Language technologies are used to develop sowaresystems designed to handle human language and aretherefore oen called ‘human language technologies’.Human language comes in spoken and written forms.While speech is the oldest and in terms of human evo-lution the most natural form of language communica-tion, complex information and most human knowledgeis stored and transmitted through the written word.Speech and text technologies process or produce thesedifferent forms of language, using dictionaries, rulesof grammar, and semantics. is means that languagetechnology (LT) links language to various forms ofknowledge, independently of themedia (speech or text)in which it is expressed. Figure 1 illustrates the LTlandscape. When we communicate, we combine lan-guage with other modes of information and commu-nication media’ for example speaking can involve ges-tures and facial expressions. Digital texts link to picturesand sounds. Movies may contain language in spokenand written form. In other words, speech and text tech-nologies overlap and interact with other multimodalcommunication and multimedia technologies. In thissection, the main application areas of language tech-nology are discussed for Welsh, i.e., language checking,web search, speech interaction, and machine transla-tion. ese applications and basic technologies may in-clude, but are not limited to:

‚ spelling correction

‚ authoring support

‚ computer-assisted language learning

‚ information retrieval

‚ information extraction

‚ text summarisation

‚ question answering

‚ speech recognition

‚ speech synthesis

Language technology is an established area of researchwith an extensive set of introductory literature. Beforediscussing the above application areas, the architectureof a typical LT system Application is briefly described.

4.1 APPLICATIONARCHITECTURESSoware applications for language processing typicallyconsist of several components that mirror different as-pects of language. While such applications tend to becomplex, Figure 2 shows a highly simplified architectureof a typical text processing system. e first three mod-ules handle the structure andmeaning of the text input:

1. Pre-processing: cleans the data, analyses or removesformatting, detects the input languages, and so on.

2. Grammatical analysis: finds the verb, its objects,modifiers and other sentence elements; detects thesentence structure

3. Semantic analysis: performs disambiguation (i.e.,computes the appropriate meaning of words in a

52

Page 60: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Multimedia &MultimodalityTechnologies

LanguageTechnologies

Speech Technologies

Text Technologies

Knowledge Technologies

1: Language technology in context

given context); resolves anaphora (i.e., which pro-nouns refer to which nouns in the sentence); rep-resents the meaning of the sentence in a machine-readable way.

Aer analysing the text, task-specific modules can per-form other operations, such as automatic summarisa-tion and database look-ups. Note that the architecturesof the applications are highly simplified and idealised,to illustrate the complexity of language technology ap-plications in a generally understandable way. In the re-mainder of this section, anoverviewof the state ofLTre-search and education forWelsh as it is today is provided,along with a description of past and present Welsh lan-guage technology developments. Finally, an estimate ofcoreLT tools and resources forWelsh in terms of variousdimensions such as availability, maturity and quality isprovided.

4.2 CORE APPLICATION AREASIn this section, we focus on themost important LT toolsand resources, and provide an overview of LT activitiesfor Welsh.

4.2.1 Language Checking

Anyone who has used a word processor such as Mi-crosoWord knows that it has a spell checker that high-

lights spelling mistakes and proposes corrections. Fortyyears aer the first spelling correction programme byRalph Gorin, language checkers do nowadays do notsimply compare the list of extracted words, but havebecome increasingly sophisticated. Using language-dependent algorithms for grammatical analysis, theydetect errors related to morphology (e. g., plural forma-tion) as well as syntax-related errors, such as a missingverb or a conflict of verb-subject agreement (e. g., she*write a letter). However, most spelling and grammarcheckers will not find any errors in the following text[27]:

I have a spelling checker,It came with my PC.It plane lee marks four my revueMiss steaks aye can knot sea.

Handling these kinds of errors usually requires an anal-ysis of the context. is type of analysis either needs todraw on language-specific grammars laboriously codedinto the soware by experts, or on a statistical languagemodel. In this case, a model calculates the probabilityof a particular word as it occurs in a specific position. Astatistical language model can be automatically createdby using a large amount of (annotated) language data(called a text corpus). Both of the above approacheshave been developed around data from English. Cur-

53

Page 61: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Input Text

Pre-processing Grammatical Analysis Semantic Analysis Task-specific Modules

Output

2: A typical text processing architecture

rently, neither approach can transfer easily toWelsh dueto a lack of basic language resources. ere are no suffi-ciently large annotated text corpora to train a statisticalmodel, and there has been insufficient research into theencoding of linguistic knowledge in grammars.

Language checking is not limited to wordprocessors but also applies to authoring systems.

Besides spelling and grammar checkers and authoringsupport, language checking is also important in the fieldof computer-assisted language learning. is is an ap-plication area which would be of enormous benefit tolearners of Welsh and other RMLs.

4.2.2 Spellcheckers, Grammar Checkers,and Computerised Dictionaries

In order to tackle problems regarding content creationin Welsh, several spelling and grammar checkers andcomputerised dictionaries were commissioned or spon-sored by grant in aid. e first was CySill, commis-sioned from the Departments of Psychology and Lin-guistics of the University of Wales Bangor. CySill wasrevolutionary in that it corrected Welsh’s initial conso-nant mutations. is was followed by Cysgair, a com-puterised dictionary which interfaced with word pro-cessing applications, and created byCanolfanBedwyr ofthe University of Wales Bangor. Canolfan Bedwyr up-dated both products in 2004, and included on a single

CD of Welsh language computer resources. Amongstthe other spellcheckers that already exist in Welsh arethe following:

‚ A free Welsh language spellchecker for MicrosoOffice XP, 2003, 2007, 2010, 2013.

‚ A free Welsh language spellchecker for OpenOffice

‚ A free Welsh Language Spellchecker for Neo Office(Apple Mac)

LAD (Language Autodetect), a way of detecting lan-guages in a given document, is all the more salient inbilingual settings. How, for example, would a speechrecognition system recognise if a speaker changes thelanguage they were speaking at a meeting (either en-tirely, or by code switching or mixing)? More sim-ply, how does a Welsh speaker construct bilingual En-glish/Welsh documents and have them proofed auto-matically by the built-in spellchecker without theWelshbeing wrongly tagged as mis-spelt English? e WelshAcademy’s English-Welsh formerly paper-based dictio-nary [28] was launched online, a large-scale projectfunded by theWelsh Language Board and thereaer theWelsh Language Commissioner.

4.2.3 Keyboards, diacritics and fonts

Another element of content creation in Welsh whichcaused substantial difficulty for computer users in thepast was the initial absence of the ‘ŵ’ and ‘ŷ’ from the

54

Page 62: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Input Text Spelling Check Grammar Check Correction Proposals

Statistical Language Models

3: Language checking (top: statistical; bottom: rule-based)

standard character set. Initially, this was dealt with bythe creation of specialist Welsh language fonts whichmimicked the system fonts included as standard onPCs,butwhich contained the circumflex on ‘w’ and ‘y’. How-ever, these caused problems on sending a file to a dif-ferent machine on which those fonts were not installed,the characters being replaced by Icelandic characters.e correct form of both these characters have been in-cluded as standard in the Unicode (UTF-8) characterset for some time, obviating the need for the purchaseor download of specialist fonts for PC users. However,it has not been clear enough how individual end usersshould access these diacritics in a standardised way, withindividuals and different or even the same institutionschoosing different keyboard shortcuts, or using charac-ter code numbers to insert diacritics into files. is stan-dard diacritic keystroke problem has now been solved,for PC users, in two ways: (1) by the Microso UKExtended Keyboard Schema, and (2) by a popular freeproduct called ‘To Bach’ (Circumflex)manufactured byDraig Technology.

4.2.4 Welsh Language Speech Technol-ogy

Speech technology may involve production of a syn-thetic voice or recognition of a human voice by a givenIT system. Such technology is already beginning to per-meate our everyday lives (Many call centres have au-tomated their processes using speech synthesis, certainmobile phones which can receive e-mail already offer

a synthetic voice facility to read e-mail messages aloudto the recipient). Speech technology can be an asset toany given IT program. It can simplify data access, speeddata entry, and allow hands-free control and, signifi-cantly, provide biometric passive voice-based authenti-cation for access to secure services such as banking. It ob-viously also has enormous repercussions for the visuallyimpaired. As speech corpus codification takes substan-tial effort for any language, it has, historically, been thelarger languages which have benefitted from the largestinvestment, with the RMLs tending to get le behind.As indications show that speech technology, throughconvergence with other everyday applications, will be-come a more important part of daily life in the future, itis important that Welsh and other smaller languages se-cure a strong foothold in this field. Noticing the strate-gic importance of the field, the Welsh Language Boardco-funded, with INTERREG, the WISPR (Welsh andIrish Speech Processing Resources) Project at Canol-fan Bedwyr at Bangor University [29]. is projectthereaer evolved into the SALT Project [30]. In early2010 higher quality voices, based on the original basicvoices, became available. e initialWISPRproject cre-ated a basic SAPI compliant (Speech Application Pro-gramming Interface) speech synthesis engine for Welsh.Amongst many other uses, speech synthesis engines canbe used to convert words from a computer document(e.g. word processor document, web page), or inter-face into audible speech spoken through the computersound system. is would be helpful to people who

55

Page 63: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

need orwant aural verification of what they are seeing inprint. At the main annual Welsh language festival (eNational Eisteddfod ofWales) inAugust 2010, an alphaversion of two (one male, one female) high quality syn-thetic voice was launched. e fact that this was an al-pha version which was being launched meant that therehave been subsequent waves of improvement (based onfeedback via a web interface).

4.2.5 Speech Recognition

Speech recognition, (as defined by the WISPR Projectteam) or speech-to-text, involves capturing and digi-tizing the sound waves from a microphone, convertingthem to basic language units or phonemes, constructingwords from phonemes, and contextually analyzing thewords to ensure correct spelling for words that soundalike (such as dear and deer). e output is then dis-played on the screen as text.

Again, although the technicalitiesmay seembeyond thelay person, the reach and significance of this facilityshould not be underestimated, as many computer op-erating systems and handsets already offer voice recog-nition facilities as standard. is is only likely to in-crease with the passage of time. It is not inconceivablethat we will order food, do our banking and a wholehost of other services via speech recognition in the fu-ture. e Google Translate smartphone app already in-cludes speech recognition, linked with speech synthe-sis viamachine translation. Recognising the importanceof developing this field, the Board also gave a grant tocreate a basic Speech Recognition Engine. e compo-nents of this project, and the WISPR speech synthe-sis project, are freely available on-line. In May 2010,the Independent Review Panel on Bilingual Services ofthe National Assembly for Wales [31] published its fi-nal report. Amongst its many recommendations, tech-nology figured prominently, with a recommendationthatmore speech technology should be developed in or-

der, in the long term, to create transcripts of meetingssemi-automatically. It noted the Assembly’s wish to be aleader in the field of bilingual provision, by using tech-nology.e Welsh Language (Wales) Measure 2011 does notapply to the National Assembly for Wales and the As-semblyCommission (theCorporate Bodywhich has re-sponsibility for the provision of property, staff and ser-vices to support the Members of the Assembly).e National Assembly for Wales (Official Languages)Bill was approved by the Assembly on 3 October 2012.e Act’s principal objective is to place a statutory dutyon the National Assembly for Wales and the AssemblyCommission to treat Welsh and English as its officiallanguages and on the basis of equality.e Act places a duty on the Commission to adopt andpublish an Official Languages Scheme [32] specifyingthe measures it will take in order to comply with its du-ties as outlined in the Act.e Scheme was approved by the Assembly on 17 July2013. It defines the standards and servicesMembers andthe public can expect from the Assembly Commissionand identifies four key areas for action.e Assembly Commission will:

‚ provide innovative, tailored support to enable peo-ple to use both languages in the context of Assemblybusiness;

‚ invest significantly in technology as a way of trans-forming bilingual service provision whilst also pro-viding value for money;

‚ develop the Welsh-language skills and confidence ofthe people who work for the Commission; and

‚ share experience of delivering bilingual services withother organisations in Wales and legislatures else-where and seek to learn from them.

eAssembly’s use of translation technology at themo-ment is limited. Google Translator Toolkit is used

56

Page 64: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Speech Input Signal Processing

Speech Output Speech Synthesis Phonetic Lookup & Intonation Planning

Natural Language Understanding &

Dialogue

Recognition

4: Speech-based dialogue system

by their external contractors to produce the Record ofProceedings, supplemented by post-editing and proof-reading to correct and refine the Machine Translationoutput. Internally the Assembly’s Translation and Re-porting Service usesWordfastTranslationMemory so-ware, which has resulted in an increase in output.

e Official Languages Scheme commits the Assemblyto make best use of technology to translate documentsmore quickly and efficiently. It has embarked onwork toexplore the potential benefits of investing in a bespokemachine translation system. As part of this work, theyare considering how machine translation can be usednot only by the Translation and Reporting Service butother Assembly staff, and Assembly Members and po-tentially made available to other organisations and in-stitutions beyond the Assembly.

4.2.6 Integration of Machine Translationand Speech Technology

One field which merits consideration in the mid-termis the integration of speech technology with the ma-chine translation technology described above. e idealscenario would enable two people, one speaking Welsh,the other English, to converse with each other. iswould be accomplished by speech recognition, feedinginto a machine translation engine, and outputting therelevant translation via speech synthesis. Such integra-tive technologies are already in production in several in-

stitutions, for example e work of Prof Alex Waibel ofCarnegie Mellon and Karlsruhe Universities in particu-lar. Such automated technologymay soon be implantedin the operating systems we use every day, and thereforemust be supported for smaller languages such as Welshaswell. epotential for such integration forWelsh lan-guage services, and bilingualmeetings, in an age increas-ingly controlled by IT is obvious.

4.2.7 Translation and Terminology

e Welsh Language Commissioner is responsible fortranslation policy in Wales and, at the time of writingthis white paper, was undertaking an independent re-view of the profession and its strategic needs. e pur-pose of this section, then, is to deal with technology andtranslation, and the contribution that technology canmake to the Welsh (or any other sociolinguistically sim-ilar language) language translation industry.

4.2.8 Computer Assisted Translation

is is the broadest term used to describe an area oflanguage technology applications that automates or as-sists the act of translating text from one language to an-other. ey are highly effective in improving translationproductivity, especially in facilitating very quick transla-tion of repetitive source texts. Some of the most com-mon forms of translation memory are SDLX Trados,Déjà Vu, Wordfast and most recently, Google Transla-

57

Page 65: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

tor Toolkit, Pootle, Transifex and OmegaT. Translationmemory soware is already used by a range of publicinstitutions in Wales and beyond, amongst them, theWelsh Government, Cardiff University (via a crowd-sourcing model) and the National Assembly for Walesitself. One of the main virtues of such technologiesis that translators can share each other’s translationwork, regardless of geographical location, via centraldatabases of translation memories served to individualPCs via corporate networks or even the internet. ismeans that 100% matches of source text segments canbe reused, thereby leading to an increase in the consis-tency and speed of translation (for information on con-sistency of terminology, see below). Translation mem-ory applications can also offer translations of partial or‘fuzzy’matches in their databases. is also increases thespeed of translation. emain caveat of this approach ofcourse is that the quality of translations shared throughcentrally stored translation memories depends on thequality and consistency of all those translations fed intothem. High-level editorial control is therefore obviouslyneeded on such large-scale projects. One thing thatshould be consistently emphasised is that human trans-lators are very much needed [33], and that the technol-ogy described here aims to improve their productivityand consistency—not to displace them!

4.2.9 Terminology Management

Again, it should be noted at the start of this section thatit is not the place of the present document to deal withthe general field of standardisation of terminology perse, merely to facilitate the diffusion of standardised ter-minology via IT as an objective of the language nor-malisation process. Technology already exists, as for thetranslation memory soware described above, to auto-matically pass standardised lists of terminology to in-dividual end users. is feeds into terminology man-agement applications linked to those translation mem-

ory applications. Some such applications also offer dis-ambiguation facilities which provide extra informationto end users, e.g. the Welsh version of Mill Street inAberystwyth (Dan Dre), may not be the same transla-tion as Mill Street in any other town in Wales (‘Stryd yFelin’ is a grammatically and correct translation, but notused for the street name in Aberystwyth). eword ‘ac-cess’ has many meanings, including as a noun describ-ing the location where one approaches a building, aswell as a verb meaning the actual action of gaining en-trance to a building, and indeed gaining access to in-formation. ‘Mole’ can be a small subterranean noctur-nal animal, a person who leaks information from an or-ganisation, or an extremely large number normally usedin chemistry; all these meanings could be differentiatedby means of disambiguation facilities. e larger thesize, quality and consistency of a translation memory,the higher the probability that the translator’s workloadwill be achieved in a shorter time. Being aware of thepossibilities that TM soware offered RMLs, in early2010. In total around half a million words of bilingual,quality-controlled text were released in TMX format(the industry standard for open exchange of memories),including:

‚ Human Resources Translation Memory

‚ Menus Translation Memory

‚ A translationmemory created by aligning theWelshLanguage Board’s website (containing much publicsector vocabulary)

e press release issued with this development calledupon the whole public sector to share their translationsopenly, with the Board offering to be a broker for thedata in a translation memory exchange. e main dif-ference between this and other Exchanges is that thedata made available would have to be free of charge.All memories are also uploaded to the Google Trans-lator Toolkit described below, and therefore add to the

58

Page 66: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

corpus of example-based translations in Google’s Auto-matic Translation engine, Google Translate. is visionhas taken into account wider developments in Web2.0,crowdsourcing and collaborational approaches. In itsessence, it believes that nothing but good can come fromsharing quality-controlled data between organisations.An over simplistic example oen given in presentationsis the theoretical case of the 22 local authorities inWalestranslating a Council Tax form 22 times, whereas trans-lation memory servers could help automate this sub-stantially. Such sharing and blurring of boundaries be-tween organisations also reflects wider trends in man-agement theory and the agendas of several Govern-ment commissioned reports, such as the Gershon Re-view [34],e BeechamReview [35], and theUKGov-ernmentCode of Practice [36] onOpen Source. It is all-important to mention quality control of data releasedby public bodies, one element of which would be confi-dentiality. Translation memories used in public organi-sations may contain personal data regarding identifiableindividuals which must be removed before publicationto avoid breach of the UK Data Protection Act. Waysof automating this are already available in such systems.Technology of any sort should not be an end in itselfbut a strategic policy enabler, in the case of the Welshlanguage, for linguistic normalisation.

4.2.10 TranslationWorkflow and BilingualDocument Management

emanagement ofmany translation projects occurringat the same time can be greatly aided by IT and comput-erised workflow systems. ese can also monitor avail-ability in the capacity of various external or freelancetranslators to undertake extra work (such as number ofwords translatable per day per theme, and the cost rate).emore sophisticated of these ‘dashboard’ systems caneven interface with CAT tools in order to reduce repet-itive translation which is contracted out. Such technol-

ogy can also, of course, manage offices, for example, ininstitutions such as local authorities who have pools ofin-house translators. It would even be possible for ex-ternal freelance translators to register for such services inorder to receive regular work, as well as updates to trans-lationmemory and consistent terminology, thereby cre-ating an ever evolving and improving, consistent, qualitycontrolled, corpus of translation memories which canbe further shared, further contributing to the normal-isation of Welsh. TM systems in the ‘cloud’ such as theGoogle Translator Toolkit, further facilitate such col-laboration in both terminology and translationmemorymanagement.

4.3 TRANSLATION WORKFLOWAND CONTENTMANAGEMENT SYSTEMSe translation memory systems described above canbe be plugged into content/documentmanagement sys-tems of all sorts, and linked to workflow solutionsfor translation units/companies/freelancers and to ma-chine translation systems. In a world where informa-tion is constantly changing, it is important that bothlanguage versions are simultaneously published and up-dated. In this vein, it should be recalled that the maintenet of the Welsh Language (Wales) Measure 2011is that the Welsh language should be treated no lessfavourably than the English language. Technology hasa pivotal role to play in enabling such controlled simul-taneous publishing. On, for example, a governmentalor local authority website serving the public in Wales,parts of pages or paragraphs may be amended on a dailybasis. Where the content management system is man-aged by non-Welsh speakers, this technology can auto-matically route amended segments to a translator whowill then translate them using translation memory (andterminology management soware). Once the transla-

59

Page 67: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

tor has completed translation, the workflow system willautomatically route the translation back to the contentmanagement system which will publish it simultane-ously with the original English version which has beenstored awaiting its Welsh language counterpart. is isan important tool for the further normalisation of theWelsh language and will enable end users to have accessto up to date English and Welsh text. (One of the re-sults of the Snapshot Surveys ofwebsites described abovewas that the Welsh versions of some public sector web-sites were not updated as consistently as the English ver-sions, ‘Welsh Version to follow’ being seen on websites,in some cases, for several years).

4.3.1 Automatic Translation

Automatic translation is a theme oen raised when dis-cussing theWelsh language, translation and IT issues. Ithas benefited frommany years of research, and somema-jor advances have been secured. However, such technol-ogy without human intervention as ‘post editing’ can-not yet offer translation quality to match that of hu-man translators. Nevertheless, usage of free on-line sys-tems, particularly Google Translate, released for Welshin late August 2009, indicates that for certain types oftext, it can provide a useful and usable level of trans-lation. Furthermore, in combination with controls onthe language used for example in technical authoring,MT can provide an excellent quality of first-dra trans-lation needing little revision, and offering great savingsin translation costs. It can also provide gist translationfrom Welsh, enabling access to the international com-munity, and enabling non-Welsh speaking staff to dealwith written correspondence from Welsh speaking col-leagues/members of the public.

A 2004 Welsh Language Board feasibility study intomachine translation by Professor Harold Somers ofManchester University, and Editor of the InternationalJournal of Machine Translation, espoused a tripartite

hybrid translation engine: EBMT [Example BasedMachine Translation], RBMT [Rules Based MachineTranslation], and SBMT [Statistical Based MachineTranslation]. is would enable gist translation be-tween Welsh and English and, in the future, integra-tion with other applications (such as the research paneof MS Office and translation memory systems). Asstated above, this should be very much considered as anaid to translators, editors et al, rather than a means tosupplant them [37]. Moving from translation, to post-editing, however, would be a substantial cultural changefor many translators and a recognised change manage-ment methodology should be used where such a systemis to be put in place. Inasmuch, it should be noted thatGoogle Translate, Google’s Automatic Translation Sys-tem, patches into Google Translator Toolkit, SDL Tra-dos Studio 2009, OmegaT and other translation mem-ory systems. is gives the professional translator a full‘cloud-based’ dashboard of translation options: auto-matic [example-based] translation, Translation Mem-ory, and Terminological lists, all with the benefit of realtime TM sharing with all other users. is transcendsthe small corpus statistically based automatic translationengines such as Intertran which have, in the hands ofwell-meaning but unqualified amateurs created some ofthe strangest translations ever seen, e.g. ‘Staff Entrance’was translated ‘correctly’ as ‘Pastwn Taflu i Berlewyg’[i.e. [large piece of wood [a ‘staff ’]/throw someone intoa trance [to ‘entrance’ them]]. Other examples are toonumerous to mention and will, doubtlessly, be familiarto readers in other bilingual areas. Many examples canbe found on the Scymraeg picture sharing site [38]. efollowing machine translation engines are available forWelsh:

‚ Apertium, developed by the Transducens researchgroup at the Departament de Llenguatges i SistemesInformàtics of the Universitat d’Alacant in collabo-ration with Prompsit Language Engineering.

60

Page 68: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Statistical Machine

Translation

Source Text

Target Text

Text Analysis (Formatting, Morphology, Syntax, etc.)

Text Generation

Translation Rules

5: Machine translation (left: statistical; right: rule-based)

‚ Google Translate

‚ Bangor University’s Alpha English-Welsh MachineTranslation System

‚ Intertran

Translation automation could assist RMLs by improv-ing the productivity of minority language translatorsand by sharing language resources among members ofthe professional translation community. An increasein translation throughput coupled with an increase intranslation quality may lead to a reduction in minor-ity language translation costs, although this is definitelynot the sole reason for espousing adoption of such tech-nology. An increase in speed of translation (by, for ex-ample, reduction of repetitive translation) could lead tomore translations being undertaken. If more minoritylanguage translations are being undertaken there is anincreased chance that more content will be available inthe language, which assists in language ‘normalisation’.Making RMLs more visible, especially in modern tech-nologies, is likely to raise the status of the RMLs in theeyes ofminority language speakers and possibly increasetheir desire, and opportunity, to use their RMLs. eGoogle Translator Toolkit, at the time of writing thiswhite paper, was the only freely available cloud-basedTM solutionwhich required no engineering knowledgeto use it. Many other TM, both proprietary, and OpenSource, exist. e Google Translator Toolkit [39] is aTranslation Memory tool that works by the translator

uploading a source text, the toolkit then splits the doc-uments into segments, attempts to translate those seg-ments, and then displays different views of the material.On the le hand side of the screen the source documentis displayed, on the right hand side the pre-translateddocument is displayed. A window is also shown wherethe selected pre-translated segment can be edited, or(in the absence of a pre-translation) translated. Atregular intervals, the corpus of translations which arethereby produced following the intervention of the hu-man translator are harvested into the machine transla-tion engine which fuels Google Translate, thereby creat-ing a virtuous circle of translation quality. e larger thecorpus of example translations, the higher the statisticalprobability that the machine translation offered will beof higher quality, needing less post-editing and so on.e possibilities for sharing of translations, in real time,between any number of institutions, without the needfor client-side soware to be installed, is phenomenal.

Many centres exist, theworld over, which investigate thepossibility of advanced leveraging of corpora and trans-lation via hybrid machine translation in a workbenchenvironment. Few, however, have taken account of theneeds of the human translators themselves who use thetechnology day in, day out. One such study [40] hasdone so. Such a workbench could be used by all trans-lators in a given organisation, or a wider network of or-ganisations and would include such facilities, as well as

61

Page 69: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

translation automation, for example, predictive author-ing tools, sorting of segments alphabetically, real timeprogress update towards completion. ese linked tech-nologies can further improve the throughput of transla-tors, and therefore improve the linguistic landscape ofWales. We are participating in a quiet technological rev-olution that will, given necessary investment in suitablelanguage technology components, transform status lan-guage planning the world over.

4.3.2 Corpora

Sufficiently sized corpora of written Welsh (whichcould, for example, contain a large number of elec-tronic versions of printed publications) are a prerequi-site for further developments in language technology.Such language technology is the basis for many otherWelsh language applications, for example the speechand machine translation technology discussed in thiswhite paper. At the forefront of this field formany years,Canolfan Bedwyr (and others) has developed lemmatis-ers (which break down given words and tag their gram-matical forms), corpora (large databases of written orspokenWelsh), algorithms for sort orders and other lan-guage engineering issues. While the majority of theseresources in themselves will only be of specialist inter-est, the effect of these very necessary tools is far-reachingand significant, as they feed into other language tech-nology applications. (See also the autoglossing technol-ogy referred to above). Beloware listed someof themostsignificant corpora which are available for Welsh.

‚ CEG (Corpws Electroneg o’r Gymraeg/An elec-tronic corpus of the Welsh Language)

‚ National Foundation for Educational Research, Eingeiriau ni (Our Words)

‚ Corpws Siarad (Speech Corpus).

4.4 AVAILABILITY OF TOOLSAND RESOURCES FOR WELSHFigure 6 provides a rating for language technology sup-port for Welsh. is rating of existing tools and re-sources was generated from estimates based on a scalefrom 0 (very low) to 6 (very high) using seven criteria.e key results can be summed up as follows: AlthoughWelsh stands reasonablywell amongst other RMLswithrespect to themost basic language technology tools andresources, such as corpora, inflectional lexicons, tokenis-ers, interfaces, taggers and lemmatizers, this is no reasonto rest on our laurels. Many existing resources lack stan-dardisation so initiatives are needed to standardise thedata and interchange formats, for example in terminol-ogy management and sharing of translation memories.ere exist also individual products with limited func-tionality in subfields such as speech synthesis, speechrecognition and information extraction. At present,only a small number of companies or organisations inWales areworking in theLTarea. It is thus extremely im-portant to continue public support forWelsh LTpartic-ularly having in mind the enlargement of the Welsh lin-guistic landscape following the implementation of theWelsh Language (Wales) Measure 2011. It is particu-larly pleasing to note the recent call for grant applica-tions in this field extended by the Welsh Governmentbased on its 2013 dedicated Welsh Language Technol-ogy Strategy Document and Implementation Plan.

4.5 CROSS-LANGUAGECOMPARISONecurrent state of LT support varies considerably fromone language community to another. In order to com-pare the situation between languages, this section willpresent an evaluation based on two sample applica-tion areas (machine translation and speech processing)

62

Page 70: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

ua

ntity

Availabi

lity

ua

lity

Cov

erag

e

Matur

ity

Sustaina

bilit

y

Ada

ptab

ility

Language Technology: Tools, Technologies and Applications

Speech Recognition 1 1 1 1 1 1 3

Speech Synthesis 1 2 2 2 2 2 3

Grammatical analysis 2 1 2 2 3 2 1

Semantic analysis 2 2 2 2 2 2 2

Text generation 2 2 2 2 2 2 2

Machine translation 3 3 3 2 1 1 2

Language Resources: Resources, Data and Knowledge Bases

Text corpora 1 1 2 1 2 2 1

Speech corpora 4 3 4 4 4 4 3

Parallel corpora 3 3 2 3 3 4 3

Lexical resources 3 2 3 2 2 4 4

Grammars 4 3 3 3 3 5 4

6: State of language technology support for Welsh

and one underlying technology (text analysis), as wellas basic resources needed for building LT applications.e languages were categorised using the following fivepoint scale:

1. Excellent support

2. Good support

3. Moderate support

4. Fragmentary support

5. Weak or no support

LTsupportwasmeasured according to the following cri-teria:Speech Processing: uality of existing speech recog-nition technologies, quality of existing speech synthesistechnologies, coverage of domains, number and size ofexisting speech corpora, amount and variety of availablespeech-based applications.

Machine Translation: uality of existing MT tech-nologies, number of language pairs covered, coverage oflinguistic phenomena and domains, quality and size ofexistingparallel corpora, amount andvariety of availableMT applications.

Text Analysis: uality and coverage of existing textanalysis technologies (morphology, syntax, semantics),coverage of linguistic phenomena and domains, amountand variety of available applications, quality and size ofexisting (annotated) text corpora, quality and coverageof existing lexical resources and grammars.

Resources: uality and size of existing text corpora,speech corpora and parallel corpora, quality and cover-age of existing lexical resources and grammars. Figures 7to 10 show that Welsh is in the lower cluster for almostall of the tools and resources listed. It compares wellwith other languages with a small number of speakers,

63

Page 71: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

such as Estonian, Latvian, Lithuanian, Slovak. How-ever, all these languages lag far behind large languageslike German and French, for instance. But even LT re-sources and tools for those languages clearly do not yetreach the quality and coverage of comparable resourcesand tools for the English language, which is in the leadin almost all LT areas. And there are still plenty of gapsin English language resources with regard to high qual-ity applications.

4.6 CONCLUSIONSIt is clear that historical sociopsychological and culturalbarriers to the use of the diglossic ‘L’ language (in thiscase Welsh) may still exist on introducing the languageto domains such as Language Technology which it pre-viously did not and was not generally expected to in-habit. In all fields, changing habits of language use,which has figured in everyWelsh language strategy doc-ument in one formor another, takes a long time and lan-guage planners need to play a long game. What is clearfrom the great deal of activity, in both open source andproprietary Welsh language technology is that individ-uals are amenable to using easily available, high qualityWelsh language soware when there is awareness anda certain level of demystification of it. e concept of‘Active Offer’, first made popular in language servicesin Canada, and brought to Europe by the From Act toAction [41] project, is most salient in this field, as inall other language-related services—if a user is unaware,and not proactively offered a service in a language, how(and indeedwhy)would the lay person go out of his/herway to find and use it)? e potential for normalisation

ofWelsh in the field of language technology, and for lan-guage technology to normalise Welsh through the or-chestrated sharing of big public data is vast.In this series of white papers, we have made an impor-tant effort by assessing the language technology sup-port for 31 European languages, and by providing ahigh level comparison across these languages. By iden-tifying the gaps, needs and deficits, the European lan-guage technology community and its related stakehold-ers are now in a position to design a large scale re-search and development programme aimed at buildinga truly multilingual, technology-enabled communica-tion across Europe. e results of this white paper se-ries show that there is a dramatic difference in languagetechnology support between the various European lan-guages. While there are good quality soware and re-sources available for some languages and application ar-eas, others, usually smaller languages, have substantialgaps. Many languages lack basic technologies for textanalysis and the essential resources. Others have basictools and resources but the implementation of, for ex-ample, semantic methods is still far away. ereforea large-scale effort is needed to attain the ambitiousgoal of providinghigh-quality language technology sup-port for all European languages, for example throughhigh quality machine translation. e long-term goalof META-NET is to enable the creation of high-qualitylanguage technology for all languages. is requires allstakeholders—in politics, research, business, and soci-ety—to unite their efforts. e resulting technologywill help tear down existing barriers and build bridgesbetween Europe’s languages, paving the way for politi-cal and economic unity through cultural diversity.

64

Page 72: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFinnishFrenchGermanItalianPortugueseSpanish

BasqueBulgarianCatalanDanishEstonianGalicianGreekHungarianIrishNorwegianPolishSerbianSlovakSloveneSwedish

CroatianIcelandicLatvianLithuanianMalteseRomanianWelsh

7: Speech processing: state of language technology support for 31 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English FrenchSpanish

CatalanDutchGermanHungarianItalianPolishRomanian

BasqueBulgarianCroatianCzechDanishEstonianFinnishGalicianGreekIcelandicIrishLatvianLithuanianMalteseNorwegianPortugueseSerbianSlovakSloveneSwedishWelsh

8: Machine translation: state of language technology support for 31 European languages

65

Page 73: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English DutchFrenchGermanItalianSpanish

BasqueBulgarianCatalanCzechDanishFinnishGalicianGreekHungarianNorwegianPolishPortugueseRomanianSlovakSloveneSwedish

CroatianEstonianIcelandicIrishLatvianLithuanianMalteseSerbianWelsh

9: Text analysis: state of language technology support for 31 European languages

Excellent Good Moderate Fragmentary Weak/nosupport support support support support

English CzechDutchFrenchGermanHungarianItalianPolishSpanishSwedish

BasqueBulgarianCatalanCroatianDanishEstonianFinnishGalicianGreekNorwegianPortugueseRomanianSerbianSlovakSlovene

IcelandicIrishLatvianLithuanianMalteseWelsh

10: Speech and text resources: State of support for 31 European languages

66

Page 74: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

5

ABOUT META-NET

META-NET is a Network of Excellence partiallyfunded by the European Commission. e networkcurrently consists of 54 research centres in 33 Europeancountries. META-NET forgesMETA, theMultilingualEurope Technology Alliance, a growing community oflanguage technology professionals and organisations inEurope. META-NET fosters the technological founda-tions for a truly multilingual European information so-ciety that:

‚ makes communication and cooperation possibleacross languages;

‚ grants all Europeans equal access to information andknowledge regardless of their language;

‚ builds upon and advances functionalities of net-worked information technology.

e network supports a Europe that unites as a sin-gle digital market and information space. It stimulatesand promotes multilingual technologies for all Euro-pean languages. ese technologies support automatictranslation, content production, information process-ing and knowledge management for a wide variety ofsubject domains and applications. ey also enable in-tuitive language-based interfaces to technology rang-ing from household electronics, machinery and vehi-cles to computers and robots. Launched on 1 February2010,META-NEThas already conducted various activ-ities in its three lines of actionMETA-VISION,META-SHARE and META-RESEARCH.META-VISION fosters a dynamic and influentialstakeholder community that unites around a shared vi-sion and a common strategic research agenda (SRA).

e main focus of this activity is to build a coherentand cohesive LT community in Europe by bringing to-gether representatives from highly fragmented and di-verse groups of stakeholders. e present White Paperwas prepared together with volumes for 29 other lan-guages. e shared technology vision was developed inthree sectorial Vision Groups. e META TechnologyCouncil was established in order to discuss and to pre-pare the SRA based on the vision in close interactionwith the entire LT community.META-SHARE creates an open, distributed facilityfor exchanging and sharing resources. e peer-to-peer network of repositories will contain language data,tools and web services that are documented with high-quality metadata and organised in standardised cate-gories. e resources can be readily accessed and uni-formly searched. e available resources include free,open sourcematerials as well as restricted, commerciallyavailable, fee-based items.META-RESEARCH builds bridges to related tech-nology fields. is activity seeks to leverage advancesin other fields and to capitalise on innovative researchthat can benefit language technology. In particular, theaction line focuses on conducting leading-edge researchin machine translation, collecting data, preparing datasets and organising language resources for evaluationpurposes; compiling inventories of tools and methods;and organising workshops and training events formem-bers of the community.

[email protected] – http://www.meta-net.eu

67

Page 75: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

A

CYFEIRIADAU REFERENCES

[1] Aljoscha Burchardt,Markus Egg, Kathrin Eichler, Brigitte Krenn, Jörn Kreutel, Annette Leßmöllmann, Georg Rehm,Manfred Stede,Hans Uszkoreit, and Martin Volk. Die Deutsche Sprache im Digitalen Zeitalter –e German Language in the Digital Age. META-NET White Paper Series. Georg Rehm and Hans Uszkoreit (Series Editors). Springer, 2012.

[2] Gallup. User language preferences online Flash EB 313: Survey conducted by e Gallup Organization, Hungary upon the requestof Directorate-General Information Society and Media Coordinated by Directorate-General Communication. Technical report, Eu-ropean Commission, 2011. http://ec.europa.eu/public_opinion/flash/fl_313_en.pdf.

[3] Ethnologue. Endangered languages, 2013. http://www.ethnologue.com/endangered-languages.

[4] Benedict Anderson. Imagined Communities: Reflections on the Origin and Spread of Nationalism. Verso, London, 1983.

[5] European Commission. Multilingualism: an Asset for Europe and a Shared Commitment. Technical report, European Commission,Brussels, 2008. http://ec.europa.eu/languages/pdf/comm2008_en.pdf.

[6] UNESCO. Intersectoral mid-term strategy on languages and multilingualism. Technical report, UNESCO, Paris, 2007. http://unesdoc.unesco.org/images/0015/001503/150335e.pdf.

[7] A. Rinsche and N Portera-Zanotti. Studies on Translation and Multilingualism: e size of the language industry in theEU. Technical report, European Commission, Brussels, 2009. http://bookshop.europa.eu/is-bin/INTERSHOP.enfinity/WFS/EU-Bookshop-Site/en_GB/-/EUR/ViewPublication-Start?PublicationKey=HC8009985.

[8] YsgolGwyddorauCymdeithasolCaerdydd/CardiffSchool of Social Sciences School. CardiffOnlineSocialMediaObservatory (COS-MOS): Social Media and Data Mining, 2013. http://www.cardiff.ac.uk/socsi/research/researchgroups/comsc-socsi/projects.html.

[9] Llywodraeth Cymru/Welsh Government. Cyfrifiad 2011: Data Iaith Gymraeg ar gyfer ArdaloeddBach/2011 Census: Welsh Language Data for Small Areas, 2013. http://wales.gov.uk/docs/statistics/2013/130130-2011-census-welsh-language-data-small-areas-cy.pdf, http://wales.gov.uk/docs/statistics/2013/130130-2011-census-welsh-language-data-small-areas-en.pdf.

[10] Comisiynydd y Gymraeg/Welsh Language Commissioner. Cyfrifiad 2011: canlyniadau yn ôl oed/2011 Census: resultsby age. Technical report, Comisiynydd y Gymraeg/Welsh Language Commissioner, Caerdydd/Cardiff, 2013. http://www.comisiynyddygymraeg.org/Cymraeg/Cymorth/dataacystadegau/Pages/Cyfrifiad2011canlyniadauynoloed.aspx, http://www.comisiynyddygymraeg.org/English/Assistance/Dataandstatisitcs/Pages/2011Censusresultsbyage.aspx.

[11] GHenry. Numbers of children speakingWelshmore than double those of working age or pensioners, 2013. http://www.walesonline.co.uk/news/wales-news/numbers-children-speaking-welsh-more-3864527.

[12] Bwrdd yr Iaith Gymraeg/Welsh Language Board. Amcangyfrif y nifer o siaradwyr Cymraeg yn Lloegr/Estimation of thenumber of Welsh-speakers in England. Technical report, Bwrdd yr Iaith Gymraeg/Welsh Language Board, Caerdydd/Cardiff,2007. http://www.webarchive.org.uk/wayback/archive/20120330035632/http://www.byig-wlb.org.uk/english/publications/pages/publicationitem.aspx?puburl=/English/publications/Publications/4844.pdf, http://www.webarchive.org.uk/wayback/archive/20120330020357/http://www.byig-wlb.org.uk/cymraeg/cyhoeddiadau/pages/publicationitem.aspx?puburl=/Cymraeg/cyhoeddiadau/Cyhoeddiadau/4843.pdf.

[13] R. Bandura. Self-efficacy: the Exercise of Control. Freeman, New York, 1997.

[14] R.M Jones. Cymraeg Iach. Y Traethodydd, CXXXIX:590–593, 1984.

Page 76: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

[15] Cymdeithas yr Iaith Gymraeg/e Welsh Language Society. Gwefan/Website, 2013. http://www.cymdeithas.com.

[16] Llywodraeth Cymru/Welsh Government. Strategaeth y Gymraeg: Cynllun Gweithredu 2013 i 2014 – Iaith fyw: iaithbyw/Welsh language strategy: Action Plan 2013 to 2014 – A living language: a language for living. Technical report, Lly-wodraeth Cymru/Welsh Government, Caerdydd/Cardiff, 2013. http://wales.gov.uk/topics/welshlanguage/publications/welsh-language-strategy-action-plan-2013-14/?skip=1&lang=cy, http://wales.gov.uk/topics/welshlanguage/publications/welsh-language-strategy-action-plan-2013-14/?skip=1&lang=en.

[17] Llywodraeth Cymru/Welsh Government. Cynllun Gweithredu Technoleg a Chyfryngau Digidol Cymraeg/Welsh LanguageTechnology and Digital Media Action Plan. Technical report, Llywodraeth Cymru/Welsh Government, Caerdydd/Cardiff,2013. http://wales.gov.uk/docs/dcells/publications/230513-action-plan-cy.pdf, http://wales.gov.uk/docs/dcells/publications/230513-action-plan-en.pdf.

[18] Richard Sheppard, Jeremy Evas, and Canolfan Bedwyr. Canllawiau a Safonau Meddalwedd/Bilingual Soware Guidelines andStandards. Bwrdd yr Iaith Gymraeg/Welsh Language Board, Caerdydd/Cardiff, Ebrill/April 2006. http://www.webarchive.org.uk/wayback/archive/20120330005938/http://www.byig-wlb.org.uk/cymraeg/cyhoeddiadau/Pages/PublicationItem.aspx?puburl=/Cymraeg/cyhoeddiadau/Cyhoeddiadau/3962.pdf, http://www.webarchive.org.uk/wayback/archive/20120330013521/http://www.byig-wlb.org.uk/english/publications/Pages/PublicationItem.aspx?puburl=/English/publications/Publications/3963.pdf.

[19] Bwrdd yr Iaith Gymraeg/Welsh Language Board. Technoleg Gwybodaeth a’r Gymraeg: Dogfen Strategaeth/InformationTechnology and Welsh: A Strategy Document. Technical report, Bwrdd yr Iaith Gymraeg/Welsh Language Board,Caerdydd/Cardiff, 2006. http://www.webarchive.org.uk/wayback/archive/20120330022112/http://www.byig-wlb.org.uk/cymraeg/cyhoeddiadau/pages/publicationitem.aspx?puburl=/Cymraeg/cyhoeddiadau/Cyhoeddiadau/3964.pdf,http://www.webarchive.org.uk/wayback/archive/20120330041214/http://www.byig-wlb.org.uk/english/publications/pages/publicationitem.aspx?puburl=/English/publications/Publications/3965.pdf.

[20] Jeremy Evas. Ciparolwg: Safleoedd gwe cyrff sydd â Chynllun Iaith statudol. Technical report, Bwrdd yr Iaith Gymraeg, Caerdydd,2001. http://orca.cf.ac.uk/43867/.

[21] Rhiannon Gomer. Ciparolwg Gwefannau (2003): Ciparolwg Annibynnol ar ddarpariaeth ddwyieithog gwefannau cyrff syddâ Chynllun Iaith Statudol – Snapshot Survey of Websites (2003): An independent snapshot survey on the bilingual provi-sion of the websites of bodies which have statutory language schemes. Technical report, Bwrdd yr Iaith Gymraeg/WelshLanguage Board, Caerdydd/Cardiff, 2003. http://www.webarchive.org.uk/wayback/archive/20120330022442/http://www.byig-wlb.org.uk/cymraeg/cyhoeddiadau/pages/publicationitem.aspx?puburl=/Cymraeg/cyhoeddiadau/Cyhoeddiadau/409.pdf,http://www.webarchive.org.uk/wayback/archive/20120330041238/http://www.byig-wlb.org.uk/english/publications/pages/publicationitem.aspx?puburl=/English/publications/Publications/410.pdf.

[22] Bwrdd yr Iaith Gymraeg/Welsh Language Board. Cynllun Achredu ar gyfer Meddalwedd Dwyieithog/Accreditation Scheme forBilingual Soware. Technical report, Bwrdd yr Iaith Gymraeg/Welsh Language Board, Caerdydd/Cardiff, 2009. http://orca.cf.ac.uk/43852/.

[23] Canolfan Bedwyr. ECDL (European Computer Driving Licence/Trwydded Yrru Gyfrifiadurol Ewropeaidd, 2013. http://www.bangor.ac.uk/itservices/ecdl/.

[24] Llywodraeth Cymru/Welsh Government. Statistical bulletin: National survey for wales – internet results. Technical report,Caerdydd/Cardiff, Mawrth/March 2012. http://wales.gov.uk/docs/statistics/2012/121219sb1202012en.pdf.

[25] Office for National Statistics. Internet access quarterly update, 2013. http://www.ons.gov.uk/ons/publications/re-reference-tables.html?edition=tcm%3A77-303599.

[26] Wikimedia. List of Wikipedias, 2013. http://meta.m.wikimedia.org/wiki/List_of_Wikipedias.

[27] Jerrold H. Zar. Candidate for a pullet surprise. Journal of Irreproducible Results, page 13, 1994.

[28] BruceGriffiths andDafyddGlyn Jones. Geiriadur yrAcademi/eWelshAcademyEnglish-WelshDictionary, 2012. http://techiaith.bangor.ac.uk/GeiriadurAcademi/?lang=en.

Page 77: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

[29] Canolfan Bedwyr. WISPR – Welsh and Irish Speech Processing Resources, 2013. http://www.bangor.ac.uk/canolfanbedwyr/wispr.php.cy.

[30] SALT. SALT Cymru, Technoleg Iaith a Lleferydd, Speech and Language Technology, 2012. http://www.saltcymru.org/wordpress/.

[31] Cynulliad Cenedlaethol Cymru/National Assembly for Wales. Adolygiad o Wasanaethau Dwyieithog, AdroddiadTerfynol /e Independent Review Panel on Bilingual Services: Final Report, 2010. http://www.assemblywales.org/cy/review-of-bilingual-services-report-english.pdf, http://www.assemblywales.org/review-of-bilingual-services-report-english.pdf.

[32] Cynulliad Cenedlaethol Cymru/National Assembly for Wales. Y Cynllun Ieithoedd Swyddogol – Official Languages Scheme, 2013.http://www.assemblywales.org/cy/bus-home/bus-business-fourth-assembly-laid-docs/gen-ld9401-e.pdf?langoption=3&ttl=GEN-LD9401%20-%20Comisiwn%20y%20Cynulliad%3A%20Y%20Cynllun%20Ieithoedd%20Swyddogol.

[33] A. Way. Who says machine translation will replace translators?, 2013. http://www.lingo24.com/blogs/company/who-says-machine-translation-will-replace-translators.html.

[34] Sir Peter Gershon. Releasing Resources to the Front Line: An Independent Review of Public Sector Efficiency. Technical report, HerMajesty’s StationeryOffice, London, 2004. http://webarchive.nationalarchives.gov.uk/20130129110402/http://www.hm-treasury.gov.uk/d/efficiency_review120704.pdf.

[35] Jeremy Beecham. Creu’r Cysylltiadau – Cyflawni Ar Draws Ffiniau: Gweddnewid Gwasanaethau Cyhoeddus yng Nghymru/Makingthe Connections – Delivering Beyond Boundaries: Transforming Public Services in Wales. Technical report, Llywodraeth Cynul-liad Cymru/Welsh Assembly Government, Caerdydd/Cardiff, 2006. http://webarchive.nationalarchives.gov.uk/20060715141954/http://new.wales.gov.uk/topics/improvingservices/strategypolicy/delivering/?lang=cy, http://webarchive.nationalarchives.gov.uk/20060715141954/new.wales.gov.uk/topics/improvingservices/strategypolicy/delivering/?lang=en.

[36] HM Government. Open Source, Open Standards and Re-use: Government Action Plan, 2010. https://www.gov.uk/government/publications/open-source-open-standards-and-re-use-government-action-plan.

[37] Piet Verleysen. MT at Work Conference: by Practitioners for Practitioners. Language and Translation No 6: Machine Translation,6:6–9, 2013. http://ec.europa.eu/dgs/translation/publications/magazines/languagestranslation/documents/issue_06_en.pdf.

[38] Sgymraeg. Sgymraeg, 2013. http://www.flickr.com/photos/tags/sgymraeg/.

[39] Google. Google Translator Toolkit, 2013. http://translate.google.com/toolkit.

[40] CASMACAT. CASMACAT: Cognitive Analysis and Statistical Methods for Advanced Computer Aided Translation – First YearReport. Technical report, CASMACAT, 2012. http://www.casmacat.eu/index.php?n=Main.FirstYear.

[41] C. H. Williams, S Sandberg, and P. Ó’Flatharta. From Act to Action: Implementing Language Legislation in Finland, Ireland andWales. Technical report, Dublin City University, Dublin, 2013.

[42] Cynulliad Cenedlaethol Cymru/National Assembly for Wales. Mesur y Gymraeg (Cymru) 2011/Welsh Language (Wales) Measure2011, 2011. http://www.legislation.gov.uk/mwa/2011/1/contents/enacted/welsh.

[43] Jeremy Evas. Snapshot survey: websites of organisations complying with statutory Welsh Language Schemes. Technical report, WelshLanguage Board, Cardiff, 2001. http://orca.cf.ac.uk/43868/.

Page 78: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

B

AELODAU META-NET META-NET MEMBERS

Gwlad Belg Belgium Computational Linguistics and Psycholinguistics Research Centre, University ofAntwerp: Walter Daelemans

Centre for Proc. Speech and Images, University of Leuven: Dirk van Compernolle

Bwlgaria Bulgaria Institute for Bulgarian Language, Bulgarian Academy of Sciences: Svetla Koeva

Cyprus Cyprus Language Centre, School of Humanities: Jack Burston

Croatia Croatia Institute of Linguistics, Faculty of Humanities and Social Science, University of Za-greb: Marko Tadić

Denmarc Denmark Centre for Language Technology, University of Copenhagen:Bolette Sandford Pedersen, Bente Maegaard

Estonia Estonia Institute of Computer Science, University of Tartu: Tiit Roosmaa, Kadri Vider

Swistir Switzerland Idiap Research Institute: Hervé Bourlard

Iwerddon Ireland School of Computing, Dublin City University: Josef van Genabith

Y Ffindir Finland Comp. Cognitive Systems Research Group, Aalto University: Timo Honkela

Department of Modern Languages, University of Helsinki: Kimmo Koskenniemi,Krister Lindén

Ffrainc France Centre National de la Recherche Scientifique, Laboratoire d’Informatique pour laMécanique et les Sciences de l’Ingénieur and Institute for Multilingual and Multi-media Information: Joseph Mariani

Evaluations and Language Resources Distribution Agency: Khalid Choukri

Yr Almaen Germany Language Technology Lab, DFKI: Hans Uszkoreit, Georg Rehm

Human Language Technology and Pattern Recognition, RWTH Aachen Univer-sity: Hermann Ney

Department of Computational Linguistics, Saarland University: Manfred Pinkal

Gwlad Groeg Greece R.C. “Athena”, Institute for Language and Speech Processing: Stelios Piperidis

Yr Eidal Italy Consiglio Nazionale delle Ricerche, Istituto di Linguistica Computazionale “Anto-nio Zampolli”: Nicoletta Calzolari

Human Language Tech. Research Unit, Fondazione Bruno Kessler: BernardoMagnini

Norwy Norway Department of Linguistic, University of Bergen: Koenraad De Smedt

Page 79: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Department of Informatics, Language Technology Group, University of Oslo:Stephan Oepen

Gwlad yr Iâ Iceland School of Humanities, University of Iceland: Eiríkur Rögnvaldsson

Yr Iseldiroedd Netherlands Utrecht Institute of Linguistics, Utrecht University: Jan Odijk

Computational Linguistics, University of Groningen: Gertjan van Noord

Latfia Latvia Tilde: Andrejs Vasiļjevs

Inst. of Mathematics and Comp. Science, University of Latvia: Inguna Skadiņa

Lithwania Lithuania Institute of the Lithuanian Language: Jolanta Zabarskaitė

Lwcsembwrg Luxembourg Arax Ltd.: Vartkes Goetcherian

Malta Malta Department Intelligent Computer Systems, University of Malta: Mike Rosner

Awstria Austria Zentrum für Translationswissenscha, Universität Wien: Gerhard Budin

Gwlad Pwyl Poland Institute of Computer Science, Polish Academy of Sciences: Adam Przepiórkowski,Maciej Ogrodniczuk

University of Łódź: Barbara Lewandowska-Tomaszczyk, Piotr Pęzik

Department of Computer Linguistics and Artificial Intelligence, Adam MickiewiczUniversity: Zygmunt Vetulani

Portiwgal Portugal University of Lisbon: António Branco, Amália Mendes

Spoken Language Systems Laboratory, Institute for Systems Engineering and Com-puters: Isabel Trancoso

Gweriniaeth Tsiec Czech Republic Institute of Formal and Applied Linguistics, Charles University in Prague: Jan Hajič

Y DU UK School of Computer Science, University of Manchester: Sophia Ananiadou

Institute for Language, Cognition andComputation, Center for SpeechTechnologyResearch, University of Edinburgh: Steve Renals

Research Institute of Informatics and Language Processing, University of Wolver-hampton: Ruslan Mitkov

Rwmania Romania Research Inst. for Artificial Intelligence, Romanian Academy of Sciences: Dan Tufiș

Faculty of Computer Science, University Alexandru Ioan Cuza of Iași: Dan Cristea

Serbia Serbia University of Belgrade, Faculty of Mathematics: Duško Vitas, Cvetana Krstev,Ivan Obradović

Pupin Institute: Sanja Vranes

Slofenia Slovenia Jožef Stefan Institute: Marko Grobelnik

Slofacia Slovakia Ľudovít Štúr Institute of Linguistics, SlovakAcademy of Sciences: RadovanGarabík

Sbaen Spain Barcelona Media: Toni Badia, Maite Melero

Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra: Núria Bel

Page 80: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

Aholab Signal Processing Laboratory, University of the Basque Country:Inma Hernaez Rioja

Center for Language andSpeechTechnologies andApplications,Universitat Politèc-nica de Catalunya: Asunción Moreno

Department of Signal Processing and Communications, University of Vigo:Carmen García Mateo

Sweden Sweden Department of Swedish, University of Gothenburg: Lars Borin

Hwngari Hungary Research Institute for Linguistics, Hungarian Academy of Sciences: Tamás Váradi

Department of Telecommunications andMedia Informatics, Budapest University ofTechnology and Economics: Géza Németh, Gábor Olaszy

Fe wnaeth oddeutu 100 o arbenigwyr – cynrychiolwyr gwledydd ac ieithoeddMETA-NET – drafod a rhoi terfynolwedd ar ganlyniadau a negeseuon allweddol y gyfres o bapurau gwyn mewn cyfarfod META-NET yn Berlin, yrAlmaen ar Hydref 21/22, 2011. — About 100 language technology experts – representatives of the countriesand languages represented in META-NET – discussed and finalised the key results and messages of the WhitePaper Series at a META-NET meeting in Berlin, Germany, on October 21/22, 2011.

Page 81: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

C

CYFRES PAPURAUGWYN META-NET

THE META-NETWHITE PAPER SERIES

Basgeg Basque euskaraSaesneg English EnglishBokmål Norwyeg Norwegian Bokmål bokmålBwlgareg Bulgarian българскиCatalaneg Catalan catalàCroateg Croatian hrvatskiDaneg Danish danskEstoneg Estonian eestiFfinneg Finnish suomiFfrangeg French françaisGalisieg Galician galegoGwyddeleg Irish GaeilgeAlmaeneg German DeutschGroeg Greek εηνικάEidaleg Italian italianoIslandeg Icelandic íslenskaLatfieg Latvian latviešu valodaLithwanieg Lithuanian lietuviu kalbaMalteg Maltese MaltiNynorsk Norwyeg Norwegian Nynorsk nynorskIseldireg Dutch NederlandsPwyleg Polish polskiPortiwgaleg Portuguese portuguêsRwmaneg Romanian românaSerbeg Serbian српскиTsieceg Czech ceštinaSlovaceg Slovak slovencinaSloveneg Slovene slovenšcinaSbaeneg Spanish españolSwedeg Swedish svenskaCymraeg Welsh CymraegHwngareg Hungarian magyar

Page 82: WhitePaperSeries CyfresPapurauGwyn THEWELSH …cyfeirio galwadau ffôn Cymraeg yn awtomatig i staff sy’nsiarad Cymraeg, cyfatebstaff Cymraeg yn y gwas- anaethau cymdeithasol/meddygol

www.meta-net.eu

La

ngua

ge Users Society Research Communities In

dustries

www.meta-net.eu

In everyday communication, Europe’s citizens, businesspartners and politicians are inevitably confronted withlanguage barriers. Language technology has the po-tential to overcome these barriers and to provide inno-vative interfaces to technologies and knowledge. Thiswhite paper presents the state of language technologysupport for the Welsh language. It is part of a se-ries that analyzes the available language resources andtechnologies for 31 European languages. The analy-sis was carried out by META-NET, a Network of Excel-lence funded by the European Commission. META-NETconsists of 54 research centres in 33 countries, who co-operate with stakeholders from economy, governmentagencies, research organisations, non-governmental or-ganisations, language communities and European uni-versities. META-NET’s vision is high-quality languagetechnology for all European languages.

Wrth gyfathrebu bob dydd, mae’n anochel boddinasyddion, partneriaid busnes a gwleidyddionEwrop yn wynebu rhwystrau ieithyddol. Mae gandechnoleg iaith y potensial i oresgyn y rhwystrauhyn ac i fod yn rhyngwyneb arloesol i dechnolegaua gwybodaeth. Mae’r gyfres hon o bapurau gwynyn cyflwyno cyflwr yr adnoddau a thechnoleg iaithsydd ohoni i 31 o ieithoedd Ewrop. Gwnaed y dad-ansoddiad gan META-NET, Rhwydwaith o Ragor-iaeth a ariannwyd gan y Comisiwn Ewropeaidd.Mae META-NET yn cynnwys 54 Canolfan Ymchwilmewn 33 gwlad, sy’n cydweithredu gyda rhanddeil-iaid o’r economi, asiantaethau llywodraethol, sefydl-iadau ymchwil, sefydliadau anllywodraethol, cymun-edau ieithyddol a Phrifysgolion yn Ewrop. Gweled-igaeth META-NET yw technoleg iaith uchel ei han-sawdd i bob un o ieithoedd Ewrop.

“All too often efforts to safeguard and sustain the Welsh language are concerned with trying to preserve the past. This paper looks to thefuture and demonstrates how technology can assist the language and its speakers occupy their rightful space in the digital world. It drawsattention to how much has yet to be done if Welsh is to take full advantage of what technology has to offer, since the language receivesweak or no support at best in each of the measured categories. Essential reading for policy makers and language planners.”— Rhodri Williams (Director, Wales, OFCOM)

“In an increasingly connected world, much power vests in those who own, control or shape the technology that connects us. In this context,most languages are minority languages, struggling in the first place for recognition, and then for resources and tools to facilitate their freeuse. In reviewing these developments for Welsh, and putting them in a global context, this META-NET white paper offers an intelligent andarticulate review of the issues faced, and strategies available to all languages in this position, not only those traditionally considered to bein the category of “minority”. It is required reading for professional language planners and others concerned to preserve language rightsand promote linguistic diversity.”— Emyr Lewis (Member, Committee of Experts of the European Charter for Regional and Minority Languages 2001-2013)