14
Lingvistica bazată pe corpus Vlad Alexandra Cristina

Corpus Lingv

Embed Size (px)

DESCRIPTION

prezentare corpus lingvistic

Citation preview

Page 1: Corpus Lingv

Lingvistica bazată pe corpus

Vlad Alexandra Cristina

Page 2: Corpus Lingv

Definiţie

Corpusul lingvistic este o colecţie de piese ale limbajului, selectate şi ordonate după un criteriu lingvistic cu scopul de a fi utilizat ca un eşantion al limbii (McEnery,2001:1)

Page 3: Corpus Lingv

ComponenţăUn corpus are o componenţă

heterogenă din punct de vedere

lingvistic.

Acesta poate fi împărţit în sub-corpuri care au aceleaşi proprietăţi, doar că sunt mai mici.

Un corpus sau un sub-corpus se copune din componenţi.

Page 4: Corpus Lingv

Un component este o colecţie omogenă de texte selectate în funcţie de anumite criterii lingvistice, ce îi asigură omogenitatea.

Limbajul ilustrat de un component se mai numeşte şi sub-limbaj.

Page 5: Corpus Lingv

Caracteristici ale corpusurilor- DIMENSIUNE (mărime)

- CALITATE (autenticitate)

- REPREZENTATIVITATE

- DOCUMENTARE (structură, convenţii)

Page 6: Corpus Lingv

Clasificarea corpusurilor

• Corpus textual (memorează limbajul scris) şi corpus de vorbire (bazat pe înregistrare)

• Corpus reprezentaţional şi corpus experimental

• Corpus public şi corpus privat

Page 7: Corpus Lingv

Clasificarea corpusurilorCorpusul special curpinde :

-texte de întindere mică, specifice, chiar fragmentare, clasificate în domeniul literar în funcţie de autor, gen, perioadă sau temă

-sau texte obţinute în condiţii experimentale sau artificiale, după nişte scenarii pregătite de lingvişti.

Page 8: Corpus Lingv

Clasificarea corpusurilor• Corpusul de referinţă:

• este foarte mare, cuprinde toate variaţiile relevante de limbă şi vocabularul comun al limbii;

• este folosit ca bază pentru gramatici fundamentale, dicţionare, tezaure şi alte materiale referitoare la limbă;

• este structurat ierarhic pe subcorpusuri şi componenţi

Page 9: Corpus Lingv

Clasificarea corpusurilor• Corpusul monitor introduce

dimensiunea diacronică a limbajului unui derivat al corpusurilor de referinţă pentru care activitatea de întreţinere se bazează pe noţiunea de “debit de limbă”.

• Acesta reprezintă volume constante de eşantioane de limbaj introduse în corpusul de referinţă.

Page 10: Corpus Lingv

Clasificarea corpusurilor

• Corpusul paralel este o colecţie de texte fiecare dintre ele fiind traduse în una sau mai multe limbi.

• Acesta ajută la conceperea unor instrumente de traducere cât mai adecvate şi sunt construite cu precădere pentru activităţile de comunicare în societăţile multilingve.

Page 11: Corpus Lingv

Clasificarea corpusurilor• Corpusurile comparabile sunt formate din două

sau mai multe corpusuri pentru limbi diferite ce conţin texte similare.

• Criteriile de similaritate sunt dificil de cuantificat, elementul esenţial referindu-se la sens.

Page 12: Corpus Lingv

Legătura cu lingvistica computaţională

• Un corpus este o colecţie computerizată de texte autentice adecvată prelucrării sau analizei automate sau semi-automate. Textele sunt selectate potrivit unor criterii explicite cu scopul de a capta regularităţile limbii, ale unei varietăţi de limbi sau ale unui sublimbaj.

Page 13: Corpus Lingv

Utilitatea corpusului- Lexicografie

- Teoria traducerii

- Invatarea limbii de catre vorbitori straini

- Observaţii asupra comportamentului lingvistic

- Cercetarea lingvistica

Page 14: Corpus Lingv

Bibliografie• McEnery Tony, Corpus Linguistics, Edinburgh University

Press Ltd, 2001• Tufiş Dan, Limbaj şi Tehnologie, Ed. Academiei

Române, Bucureşti, 1996• Cusen Gabriela, Language and society, Curs Optional,

Anul II, Semestrul II, Brasov, 2010• www.wikipedia.com