35
Projekt in korpus JANES Darja Fišer Oddelek za prevajalstvo, Filozofska fakulteta Univerze v Ljubljani Odsek za tehnologije znanja, Inš>tut Jožef Stefan Ljubljana, 4. julij 2016

Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Embed Size (px)

Citation preview

Page 1: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

ProjektinkorpusJANES

DarjaFišer

Oddelekzaprevajalstvo,FilozofskafakultetaUniverzevLjubljaniOdsekzatehnologijeznanja,Inš>tutJožefStefan

Ljubljana,4.julij2016

Page 2: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

JAZJANES,TI...?Predstavitevudeležencev

Page 3: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne
Page 4: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

ProjektJANES•  Viri,orodjainmetodezaanalizonestandardnespletneslovenščine•  nacionalnitemeljniprojektARRS•  2014-2017•  hQp://nl.ijs.si/janes/

•  2ins>tuciji,9raziskovalcev•  Filozofskafakulteta

•  DarjaFišer•  JakaČibej•  ŠpelaArharHoldt•  AnaZwiQerVitez•  DamjanPopič•  PolonaGantar

•  Inš>tutJožefStefan•  TomažErjavec•  NikolaLjubešić•  SenjaPollak

Page 5: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Delovnisklopi§  DS1:Izdelavakorpusa

–  N1:Zajembesedil–  N2:Obdelavabesedil–  N3:Objavakorpusa

§  DS2:Jezikoslovnaanaliza–  N1:Primerjavasstandardnoslovenščino–  N2:Primerjavazgovorjenoslovenščino–  N3:Analizanestandardneleksike

§  DS3:Razvojorodijzaprocesiranje–  N1:Avtomatskastandardizacijabesedil–  N2:Prilagajanjetegerjainlema>zatorja–  N3:Izdelavaspremljevalnegakorpusa

Page 6: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

IZBORINZAJEMBESEDILKorpusJANES

Page 7: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Izborvirov

Page 8: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Izborvirov

§  osnovnanačela–  spletneuporabniškevsebine–  javnakomunikacija

§  5zvrs>,10virov–  tvi>–  forumi

•  Medovernet•  Avtomobilizem•  Kvarkadabra

–  komentarjinanovice•  RTVSlo•  Mladina•  Reporter

–  blogi•  RTVSlo•  Publishwall

–  pogovorneinuporabniškestraninaWikipediji

Page 9: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

TviC

•  TweetCat(Ljubešićetal.2014)•  slovenskesemenskebesede->slovenskiuporabniki->njihovamreža•  filtriranjeuporabnikov,kitvitajopretežnovslovenščini•  metapodatki:uporabniškoime,časobjave,št.retweetov&všečkov

še,kaj,že,če,ampak,mogoče,jutri,zdaj,vendar,kje,oziroma,tudi,sploh,spet,všeč,ravnokar,končno,kdaj,preveč,očitno

Page 10: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Forumi

•  izbor:•  analiza96forumov(Lebaretal.2012)•  kriteriji:št.registriranihuporabnikov,št.indinamikaobjavljenih

sporočil,št.ak>vnihtem•  namenskiekstraktorjizavsakforumposebej•  metapodatki:tema,IDobjave,URLobjave,časobjave,upor.ime

Page 11: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Novice&komentarjinanje

•  namenskiekstraktorjizavsaknovičarskiportalposebej•  izbor:poli>kaportala&tehničnerešitve•  metapodatki:URLčlanka,IDčlanka,IDkomentarja,časobjave,upor.ime

Page 12: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Blogi&komentarjinanje

•  namenskiekstraktorjizavsaknovičarskiportalposebej•  izbor:enotnapredlogablogov•  metapodatki:URLobjave,IDobjave,časobjave,upor.ime

Page 13: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Uporabniške&pogovornestraninaWikipediji

•  WikitalkExtractor(Ljubešić2016)•  slovenskakodazauporabnika(“uporabnik”)&jezik(“sl”)•  minimalnasegmentacijaobjav

Page 14: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

OBDELAVABESEDILKorpusJANES

Page 15: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Koraki

1.  Stavčnasegmentacija&tokenizacija2.  Rediakri>zacija3.  Normalizacija4.  Tegiranje&lema>zacija5.  Zapiskorpusa

Page 16: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Stavčnasegmentacija&tokenizacija

§  temeljitanapravilihvoblikiregularnihizrazov§  standardnimodul+opcijskinestandardnimodul(LjubešićinErjavec2016)

–  pikalahkokončapoved,čepravsenaslednjabesedanezačenjazvelikozačetnicoalijicelonesledipresledek

–  pojavnice,kisekončajospikoinsonaseznamuokrajšav,kinekončajopovedi,kotnpr.prof.,nekončujejopovedi

–  emo>konisoenapojavnica,kotnpr.:-],:-PPPP,^_^§  evalvacija

–  ročnopopravljanjestavčnesegmentacijeintokenizacijeza4.000tvitov/100.000pojavnic(Čibejetal.2016)

–  stavčnosegmentacijobibilotvitovmogočešeprecejizboljša>(86,3%natančnost)–  tokenizacijajezadovoljiva(99,2%natančnost)

Page 17: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

RediakriCzacija

§  temeljinastrojnemučenju(Ljubešićindr.2016)–  učenjemodela:običajnabesedilasšumniki&besedilazodstranjenimišumniki–  strategija1:verjetnostprevodabesedebrezšumnikivbesedosšumniki–  strategija2:verjetnostbesedesšumnikigledenakontekst

§  evalvacija–  najboljširezulta>zamodel,naučennastandardnih&nestandardnihbesedilih

(Wikipedija,slWaC,tvi>)–  Wikipedija:99,62%–  tvi>:99,12%–  problem:se/še

Page 18: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Normalizacija

§  jest,jst,jas,js,jz->jaz§  temeljinastrojnemučenju

–  učenjeprevodnegamodela:ročnonormaliziranvzorec4.000tvitov/100.000pojavnic–  učenjemodelaciljnegajezika:korpusKres&standardnitvi>–  normalizacijapotekananivojubesede(nanivojupovedirezulta>maloboljši,aje

procesiranjevelikopočasnejše)

Page 19: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Tegiranje&lemaCzacija

§  Nikolex(LjubešićinErjavec2016)–  1.korak:tegiranje

•  temeljinastrojnemučenju•  učenjemodela:ročnooznačenkorpusssj500k1.3(Kreketal.2013)&

oblikoskladenjskileksikonSloleks1.2(Dobrovoljcetal.2015)•  zarazlikoodklasičnihoznačevalnikovleksikonuporabljensamoposredno,vobliki

značilk•  noveoznakezaspecifičneelementeRPK:

–  Nw:e-mailnaslovi,URL-ji–  Ne:emo>koni,emojiji:-),J–  Nh:heštegi#kvadogaja–  Na:@dfiser3

–  2.korak:lema>zacija•  upoštevaoblikoskladenjskooznakoiz1.koraka&oblikoskladenjskileksikon•  strojnonaučenmodelseuporabisamovprimerih,koparaoblikoskladenjska

oznaka:besednaoblikanivleksikonu§  evalvacija

–  natančnost:94,3%–  zmanjšanjerela>vnenapake:25%

Page 20: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Zapiskorpusa

§  metapodatki:lastniXMl§  anotacije:TEIP5

Page 21: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

ANALIZAKORPUSAKorpusJANES

Page 22: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

JANESvštevilkah

Št.besedil

tweet

forum

blog

news

wikipedia

Št.pojavnic tweet

f.avtomobilizem

f.medovernet

f.kvarkadabra

b.rtvslo.comment

b.rtvslo.post

b.publishwall.post

b.publishwall.comment

n.rtvslo.comment

n.mladina.comment

n.reporter.comment

w.usertalk

w.pagetalk

Janesv0.4Št.besedil 9.055.351

Št.besed 175.134.545

Št.pojavnic 208.261.725

Št.besed/besedilo 19,3

Št.avtorjev 96.648

Št.avtorjev

tweet

forum

blog

news

wikipedia

Page 23: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

JANESvštevilkah

Podkorpus Pov.št.besed/besedilo

Št.besed/uporabnika

Št.besedil/uporabnika

tweet 12 10.307,5 857,6forum 51,4 616,5 12,0

avtomobilizem 38,5 1.713,5 44,5medovernet 94,7 234,7 2,5kvarkadabra 77,1 2.814,1 36,5

blog 71,3 4.373,8 61,3rtvslo.comment 35,8 3.705,5 103,4

rtvslo.post 343,7 33.261,7 96,8publishwall.post 394 11.860,8 30,1

publishwall.comment 48,4 599,6 12,4news 41,8 867,7 20,7

rtvslo 38,6 800,5 20,7mladina 72,7 1.484,8 20,4reporter 54,4 1.221,7 22,5

wikipedia 50,8 1.609,3 31,7usertalk 52,2 1.765,5 33,8pagetalk 48 1.349,1 28,1

Page 24: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Metapodatki§  Gledenanačinoznačevanja

–  avtomatsko•  jezik•  spol•  stopnjastandardnos>•  sen>ment•  regija(samozatvite)

–  ročno•  >p•  spol(samozatvite)

§  Gledenanivooznačevanja–  nanivojuuporabnika

•  spol•  >p•  regija(samozatvite)

–  nanivojubesedila•  jezik•  sen>ment•  stopnjastandardnos>

Page 25: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Jezikbesedil

§  detekcija:–  langpy

–  slv,eng,hbs,und§  >1%tujejezičnih

besedilsamowiki&tvi>§  wiki:2,6%angbesedil§  tvi>:

–  9,6%angbesedil–  1,1%drugo

Page 26: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Starostbesedil

§  zajetoobdobje:–  2001–2015

§  najstarejšiviri:–  forumi(2001-)–  Wikipedija(2003-)–  blogi(2006-)

§  najmlajšiviri:–  komentarjina

novice(2014,poli>kaportala)

–  tvi>(2014,začetekzajema)

Page 27: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Spolavtorjev

§  detekcija:–  1.os.ed.pom.gl.+

deležnikna-l(sem/nisem/bommislil/a)

–  >0.7odkri>hž/m>1%besedil

§  evalvacija(tvi>):–  76%natančnost–  5%napačnispol–  19%nevtralnispol

§  komentarjiprevladujeN§  tvi>&avtomobilizem

prevladujeM§  medovernetprevladujeŽ

Page 28: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Tipavtorjev

§  >pavtorja–  osebniračuniposameznikov(pros>čas)–  uradniračunimedijskihhiš,ins>tucij,podje>j(profesionalnaraba)

§  označevanje–  ročno(analizaprofilauporabniškegaračuna&zgodovinoobjav)–  tvi>(blogikmalu)

§  rezulta>–  76%zasebnihuporabnikov–  24%korpora>vnihuporabnikov

•  84%N•  13%M•  3%Ž

Page 29: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Regijaavtorjev

0 20000 40000 60000 80000 100000 120000

Ljubljana

Štajerska

Gorenjska

Tujina

Dolenjska

Primorska

Koroška

Rovtarska

Panonska

Maribor

§  detekcija(ČibejinLjubešić2015):–  geolokacijatvitov–  7narečnihskupin+Lj+Mb–  >90%tvitoviz1regije

>2tvita

§  rezulta>:–  22%uporabnikov–  2%podkorpusa–  rednoosveževanje

Page 30: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

StopnjastandardnosC

§  stopnjestandardnos>(Ljubešićetal.2015):–  tehnična&lingvis>čna1-3

§  učenjemodela:–  ročnooznačenih1.200besedil

§  evalvacija:–  povp.abs.n.0,38T/0,42L

§  rezulta>:–  najboljnestandarden

avtomobilizem(20%L3)–  precejnestandardnitudi

tvi>(12%L3)–  najboljstandardni

kvarkadabra&wiki(2%L3)

Podkorpus T=1/L=3 T=3/L=1tweet AnisblavčernaBledu? komunisGčnaideologija

ubijaj,kradilaži.....zeloprimernazaaktualnovlado,,,,,

news.comment Mensodrugačvsifullepi,ampakzverjepaekstrakjut.Pafullepnasmešekma.Paobrvi..

Zadevajenerodnainzgledzeloslab,karseGčeostalihčlanic,kipravtakovisij(m)onanitki!

Page 31: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

SenCmentbesedil

§  sen>ment(Smailović2014):–  +/-/0

§  učenjemodela:–  5000ročnooznačenihtvitov

§  evalvacija:–  600besedil,3anotatorji–  ujemanjemedA.0,563,sistema0,432–  najboljšeblogi,najslabšeforumi–  razmeromanenatančnonanivoju

posameznihbesedil,azelonatančnonanivojupodkorpusov

Page 32: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

NERAZREŠENIPROBLEMIKorpusJANES

Page 33: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Izboljšavekorpusa§  Sestavakorpusa

–  reprezenta>vnost–  celovitost–  uravnoteženost

§  Metapodatki–  dodajanjestaros>uporabnikov–  podkorpuspoli>kov,mikrozvezdnikov,etc.

§  Zapis–  strukturadokumenta(specifičnielemen>RPK)

§  Spremljevalnikorpus–  TwiQer&Wikipedia

§  Uporabnostkorpusaizvenkonkordančnika–  sociolingvis>ka,analizadiskurza,žanrskaanaliza–  discussionthreads,layout,nebesedilnielemen>

Page 34: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

Objavakorpusa

§  Problemi–  pogojiuporabe(TwiQer)–  avtorskepravice(forumi,blogi,novičarskiportali)–  pravicadozasebnos>(informacijskapooblaščenka)

§  Rešitve–  anonimizacija–  premešanje–  vzorčenje

Page 35: Projekt in korpus JANES - nl.ijs.sinl.ijs.si/janes/wp-content/uploads/2016/04/sola-fiser-predavanje1.pdf · – pojavnice, ki se končajo s piko in so na seznamu okrajšav, ki ne

hap://nl.ijs.si/janes/

tenksJ