Italské Jazykové Korpusy-text

Embed Size (px)

DESCRIPTION

corpora

Citation preview

Italsk jazykov korpusy

Isabella Chiari: Corpora e risorse linguistiche per litalianoIN: Italienisch Zeitschift fr italienische Sprache und Literatur, slo 68, ronk 34, November 2012, str. 90 - 1051. Italsk psan korpusy

Lessico e frequenza dellitaliano contemporaneoprvn korpus vbec, cca 500 tisc slov, 70. lta, nyn ji nedostupn, vyrovnan zastoupen text (divadlo, romny, periodika, kinematografie, koln texty)

1.1 Modern a souasn jazykCOLFIS Corpus e Lessico di Frequenza dellItaliano Scrittohttp://www.ge.ilc.cnr.it/strumenti.php sloen z cca 3.800.000 slov rzn provenience (periodika a knihy), knihy vybrny podle italskch oficilnch statistik dle ebku nejtenjch z let 1992 a 1994vsledky bohuel nepln, zdrojov texty nejsou pln autorizovny k zveejovn

CORIS CODISCorpus di Italiano Scritto contemporaneo statick a dynamick verzehttp://corpora.dslo.unibo.it/TCORIS/ http://corpora.dslo.unibo.it/CODIS/ vytvoen v Bologni, texty od 80.-90. let a po dneek, prvn a jedin opravdov korpus,

obsahuje 130 milion slov, zdroje: tisk, beletrie, akademick texty a vzcn texty

Perugia CorpusVe fzi vstavbyzahrnuje souasnou italtinu psanou i mluvenou25 milin slov rozdlench do 10 nr, sesbranch mezi lety 1995 2011bude lemmatizovn a bude online

Korpusy zperiodik /Denn tisk

VELI - Corpus of Italian Newspapers80. lta, nebyl anotovn

Korpus La Repubblica 380 milion slov, lemmatizovn a anotovn dle nr (news port, komente) a dle tmat (church, culture, economics, education, news, politics, science, society, sport, weather)

1.2 Korpusy diachronn a ze star italtiny1.2.1 Korpusy star italtiny

LIZ Letteratura Italiana Zanichellivydno P. Stopellim a E. Picchim ve formtu DVD 1992 2001obsahuje 1000 text od 245 autor, nkolik milionu slov celkovje mon vyhledvat v rznch formtech systmem DBT

TLIO - Corpus del Tesoro della lingua italiana delle Originiaktuln sloen z 2319 text, 23 154 505 slovobsahuje cel texty a do roku 1375, kter jsou lemmatizovnyhttp://www.ovi.cnr.it

Corpus Taurinensevhradn italtina 13.stoletsloen z 260000 slovod roku 2008 online i ke staenhttp://www.corpora.unito.it/" http://www.corpora.unito.it/

1.2.2 Diachronn korpusy italtinyCorpus Penelopezejmna pro studium syntaxe70.lta, sloen z krtkch ryvk psan i mluven star italtinycelkem asi 30 tisc slovhttp://www.parlaritaliano.it/" http://www.parlaritaliano.it/

DiaCORISod roku 2004, zaloeno na CORIS/CODIStexty od 1861 a po 1945 vyven zastoupen chronologick i nrovspoluprce s Accademia della Crusca na obdobch 1946 -67 a 1968-2001celkov 25 milionu slov

1.3 Korpusy internetovch textItWacKorpus vystavn na focus crawling automatick sbr webovch dat skrze klov slovacca 1 miliarda slov, lematizovnaje mono pozorovat chovn lexiklnch jednotek a to i vzcn pouvanch slovnelze vak mluvit o vyvenosti nr vzhledem k automatickmu sbru dathttp://www.sketchengine.co.uk/

Pais - Piattaforma per lApprendimento dellItaliano Su corpora Annotatihttp://www.corpusitaliano.it 2010, focus crawling250 milionu, pouze wiki a blogykoncipovn jako korpus pro studenty italtiny, pln staiteln ve sv nezpracovan form

2. Italsk korpusy mluvenho jazyka

LIP - Lessico di Frequenza dellItaliano Parlatohttp://www.parlaritaliano.it/index.php/it/volip pevzato z De Maura, 1993 jako protistrana LIFpro studium mluven italtiny pedevm z hlediska sloen a distribucedoplnn detailn a pehlednou dokumentac, kter dovol texty vhodn zhodnotit

CLIPS Corpora e Lessici dellItaliano Parlato e Scrittohttp://www.clips.unina.it cca milion slov ze spontnnho mluvenho jazyka, rzn kontexty, z 15 italskch mst, sesbrno mezi lety 2000 a 2003pepsn ortograficky a fonetickydostupn zdarma i s pvodnm audiozznamem

LABLITALaboratorio Linguistico del Dipartimento di Italianistica dellUniversit di Firenzezabv se sbrem dat ji od roku 1973C-ORAL-ROM (Integrated Reference Corpora for Spoken Romance Languages36 hodin mluvenho jazykavyven z hlediska registru formln, neformln, sociln kontext

3. Italsk korpusy nerodilch mluv/L2Learner Corpora

Progetto di Pavia 1985 a 2000, cd rom, sbr od 20 imigrant, 120 hodin, cca 600.000 slovlOsservatorio sullitaliano di stranieri e sullitaliano allestero Perugiahttp://elearning.unistrapg.it/osservatorio/corpus" http://elearning.unistrapg.it/osservatorio/corpus,korpus mluvenho slova, 50 tisc slov, rzn pvod, anotovn, lemmatizovn

LIPS Lessico Italiano Parlato di StranieriSiena Universita per Stranierimilion slov, pepisy dialog a monolog mezi cizinci a rodilmi mluvmihttp://www.parlaritaliano.it

ADIL2 - Archivio Digitale di Italiano L2VALICO - Variet di Apprendimento della Lingua Italiana: Corpus Onlinehttp://www.valico.org/" http://www.valico.org/

4. Korpusy italskho znakovho jazykaLIS - lingua dei segni italiana

Progetto LIS http://w3.uniroma1.it/progettolis" http://w3.uniroma1.it/progettolis, videonahrvky, nen zatm zpracovno jako korpus