10
JAZYKOVÁ INFRASTRUKTURA Ústav Českého národního korpusu Filozofická fakulta UK Praha

JAZYKOVÁ INFRASTRUKTURA

Embed Size (px)

DESCRIPTION

JAZYKOVÁ INFRASTRUKTURA. Ústav Českého národního korpusu Filozofická fakulta UK Praha. CÍLE ČINNOSTI. trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací - PowerPoint PPT Presentation

Citation preview

Page 1: JAZYKOVÁ  INFRASTRUKTURA

JAZYKOVÁ INFRASTRUKTURA

ÚstavČeského národního korpusuFilozofická fakulta UKPraha

Page 2: JAZYKOVÁ  INFRASTRUKTURA

CÍLE ČINNOSTI

trvalé a kontinuální mapování vývoje jazyka jako základu lidské komunikace a nositele naprosté většiny sdělovaných informací

získávání a technické zpracování jazykových dat pro potřeby základního i aplikovaného výzkumu a vývoje v oblasti lingvistiky a dalších oborů

zveřejňování zpracovaných jazykových dat pomocí strukturovaných souborů (korpusů) odrážejících co nejvěrněji jednotlivé stavy jazyka a umožňujících co nejvšestrannější přístup k informacím

vývoj a zdokonalování nástrojů pro zpracování, analýzu a zpřístupňování korpusových dat

Page 3: JAZYKOVÁ  INFRASTRUKTURA

ZAPOJENÍ INFRASTRUKTURY

zapojení do projektu CLARIN zaměřeného na budování celoevropské infrastruktury výzkumu a vývoje v oblasti jazykových technologií a zdrojů

spolupráce s domácími specializovanými pracovišti (Ústav formální a aplikované lingvistiky MFF UK; FI, FF a PedF MU Brno; Ústav pro českou literaturu AV ČR; Ústav pro jazyk český AV ČR; FEL ČVUT; TU Liberec; ZČU Plzeň; UP Olomouc; VŠE Praha; Ústav srovnávací jazykovědy, Ústav teoretické a komputační lingvistiky FF UK aj.)

spolupráce s obdobnými infrastrukturními pracovišti v zahraničí (zejména University of Birmingham; Jazykovedný ústav Ľ. Štúra SAV; Österreichische Akademie der Wissenschaften; Institut für Deutsche Sprache Mannheim; Filologická fakulta Státní univerzity St. Petěrburg; Matematický a komputační institut, Lotyšská univerzita Riga aj.)

Page 4: JAZYKOVÁ  INFRASTRUKTURA

VÝSLEDKY ČINNOSTI

synchronní korpusy zachycující soudobou češtinu psanou i mluvenou

diachronní korpusy zachycující češtinu psaných textů v historickém vývoji od konce 13. stol.

paralelní korpusy v současné době zachycující češtinu v překladových paralelách s 19 jazyky

Page 5: JAZYKOVÁ  INFRASTRUKTURA

KONKRÉTNÍ VÝSTUPY(v rámci výzkumných záměrů MŠMT)

synchronní korpusy psaného jazyka SYN2000, SYN2005, SYN2006pub (publicistické texty) zachycující češtinu po roce 1989 a poskytující uživatelům bezplatný přístup k datům o celkovém rozsahu přes 500 milionů slov.

diachronní korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 1 700 000 slov)

mluvený korpus (kontinuálně budovaný, zpřístupněna data o rozsahu 2 000 000 slov)

paralelní korpusy (kontinuálně budované, současný celkový rozsah 20 000 000 slov)

Podrobnější informace o činnosti infrastruktury a jejích výsledcích viz http//:ucnk.ff.cuni.cz a http//:ucnk.ff.cuni.cz/intercorp

Page 6: JAZYKOVÁ  INFRASTRUKTURA

KONKRÉTNÍ VÝSTUPY(v rámci výzkumných záměrů MŠMT)

Monografie a studie vzniklé na základě vybudovaných korpusů publikované mj. ve dvou edičních řadách Nakladatelství Lidové noviny (vydáno 7 svazků).

Page 7: JAZYKOVÁ  INFRASTRUKTURA

APLIKACE

Frekvenční slovník češtiny (Nakladatelství Lidové noviny 2004)

Frekvenční slovník mluvené češtiny (Karolinum, Univerzita Karlova 2007)

Slovník Karla Čapka (Nakladatelství Lidové noviny 2007)

Page 8: JAZYKOVÁ  INFRASTRUKTURA

SOUČASNÉ VYUŽITÍ

S korpusy jako základními výsledky činnosti infrastruktury v současné době pracuje

přibližně 1700 registrovaných domácích uživatelů (lingvistů, literárních vědců a studentů filologických oborů, kulturologů, historiků, překladatelů, neurologů, redaktorů, právníků aj.)

přibližně 300 registrovaných zahraničních bohemistů a lingvistů, včetně studentů slavistických oborů

Page 9: JAZYKOVÁ  INFRASTRUKTURA

PERSPEKTIVNÍ VYUŽITÍ

vznik dvoudílné Mluvnice současné češtiny na korpusovém základě (Ústav Českého národního korpusu ve spolupráci s Ústavem formální a aplikované lingvistiky MFF UK; plánované vydání 2009)

vznik nového slovníku a akademické mluvnice češtiny na korpusovém základě (plánováno v Ústavu pro jazyk český AV ČR)

v delším časovém výhledu vznik překladových slovníků nového typu (na základě reálných překladových ekvivalentů identifikovaných v paralelních korpusech)

Page 10: JAZYKOVÁ  INFRASTRUKTURA

PLÁNOVANÉ APLIKACE

Regulace jazyka a koncept minimální intervence (V. Cvrček, Nakladatelství Lidové noviny 2008)

Statistiky češtiny (F. Čermák, V. Petkevič, V. Cvrček, T. Jelínek, T. Bartoň, Nakladatelství Lidové noviny 2009)

Valence abstraktních substantiv (A. Čermáková, Nakladatelství Lidové noviny 2009)

Slovník Bohumila Hrabala (kolektiv ÚČNK, Nakladatelství Lidové noviny 2009)

Dnešní skloňování jednoho typu substantiv (J. Šimandl, Nakladatelství Lidové noviny 2009)

Paralelní korpusy. Parallel corpora (kolektiv ÚČNK, Nakladatelství Lidové noviny 2010)

Slovník jazyka totality (kolektiv ÚČNK, Nakladatelství Lidové noviny 2010)

Česká korpusová lingvistika: současný stav (kolektiv ÚČNK, Nakladatelství Lidové noviny 2011)