28
Parallelkorpora Паралле́льные корпуса́ Florian Thelen ([email protected]) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović 28. 3. 2006

Parallelkorpora Параллельные корпуса Florian Thelen ([email protected]) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Embed Size (px)

Citation preview

Page 1: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Parallelkorpora Паралле́льные корпуса́

Florian Thelen([email protected])

Seminar: Slawische Korpuslinguistik

SS 2006

O. Prof. Dr. Branko Tošović

28. 3. 2006

Page 2: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Definition Определе́ние

Was sind Parallelkorpora ?

A collection of texts, each of which is translated into one or more other languages than the original. (EAGLES 1996)

Texts accompanied by their translation. (Véronis 2002)

Corpora which hold the same texts in more than one language. (McEnery/Wilson 1996)

2SE: Slawische Korpuslinguistik, SS 2006

Page 3: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Definition Определе́ние

Was sind Parallelkorpora?

Textsammlung bzw. Korpus собра́ние те́кстов

Mehrsprachigkeit многоязы́чность

Äquivalente Texte эквивале́нтные те́ксты

Verknüpfung der Texte выра́внивание те́кстов

3SE: Slawische Korpuslinguistik, SS 2006

Page 4: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Abgrenzung Отделе́ние

Unterschiede gegenüber anderen Korpora:

einsprachige Korpora одноязы́чные корпуса́

vergleichbare Korpora сравни́мые корпуса́

multilinguale Korpora многоязы́чные корпуса́

4SE: Slawische Korpuslinguistik, SS 2006

Page 5: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Arten von Parallelkorpora Ви́ды паралле́льных корпусо́́в

Unterteilung in:

bi- & multilinguale дву- и многоязы́чные

mono- & bidirektionale одно- и двунапра́вленные

alignierte & nicht- alignierte (не) выро́вненные

annotierte & nicht- annotierte (не) анноти́рованные

5SE: Slawische Korpuslinguistik, SS 2006

Page 6: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Anwendungsbereiche О́бласти примене́ния

Lexikographie лексикогра́фия

Grammatik грамма́тика

Semantik сема́нтика

Sprachpädagogik педаго́гика языко́в

6SE: Slawische Korpuslinguistik, SS 2006

Page 7: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Anwendungsbereiche О́бласти примене́ния

Übersetzungswissenschaft тео́рия перево́да

Vergl. Literaturwissenschaft срав. лит.ве́денние

Kulturwissenschaft култьурове́денние

7SE: Slawische Korpuslinguistik, SS 2006

Page 8: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Lexikographie Лексикогра́фия

Korrektur bestehender Wörterbücher

Erweiterung bestehender Wörterbücher

Erstellung neuer Fachwörterbücher

Kontrastive Untersuchungen

8SE: Slawische Korpuslinguistik, SS 2006

Page 9: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Alignement Выра́внивание

Definition: Verknüpfung von sprachlichen Einheiten, die sich gegenseitig entsprechen

Absatz: Fragmentierung фрагмента́ция

Satz: sentence alignement выра́внивание предложе́ний

Wort: word alignement выра́внивание слов

9SE: Slawische Korpuslinguistik, SS 2006

Page 10: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Alignement Выра́внивание

6 Fälle von Alignement:

1 Satz (L1) = 1 Satz (L2) 2 Sätze (L1) = 1 Satz (L2) 1 Satz (L1) = 2 oder mehrere Sätze (L2) 2 Sätze (L1) = 2 Sätze (L2), aber innere Grenzen fallen nicht

zusammen Satz (L1) wird nicht übersetzt Satz (L2) hat kein Äquivalent im Original und wurde vom

Übersetzer eingefügt

10SE: Slawische Korpuslinguistik, SS 2006

Page 11: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Texte Те́ксты

Verhältnis Original (L1) zu Übersetzung (L2):

Original entspricht eine authentischen Übersetzung (z.B. Dokumente internationaler Organisationen.

Original entspricht einer menschlichen Übersetzung.

Original entspricht einer maschinellen Übersetzung.

Original entspricht einer übersetzten Zusammenfassung gleichen Inhalts.

11SE: Slawische Korpuslinguistik, SS 2006

Page 12: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Probleme Пробле́мы

Nach Ebeling 2000:

Übersetzer machen Fehler.

Jede Übersetzung ist nur eine Variante einer unendlichen Zahl verschiedener Übersetzungen.

Übersetzung ist ein spezieller Texttyp, der die Zielsprache nicht adäquat repräsentiert.

12SE: Slawische Korpuslinguistik, SS 2006

Page 13: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ KACENKA (Masaryk Universität Brno)

Sprachen: Tschechisch – Englisch

Inhalt: Belletristik

Umfang: 3,297,283 Wörter

Verfügbarkeit: CD-ROM

13SE: Slawische Korpuslinguistik, SS 2006

Page 14: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ Bohemica.com (Dominik Lukeš)

Sprachen: Tschechisch – Englisch

Inhalt: Belletristik; Sachbücher

Umfang: 99,905 Wörter

Verfügbarkeit: Internetdownload

14SE: Slawische Korpuslinguistik, SS 2006

Page 15: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ IJS - ELAN (Institut Jožef Stefan)

Sprachen: Slowenisch – Englisch

Inhalt: Belletristik

Umfang: ~ 1,000,000 Wörter

Verfügbarkeit: Internetdownload

15SE: Slawische Korpuslinguistik, SS 2006

Page 16: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ SVEZ-IJS ACQUIS Corpus (Institut Jožef Stefan)

Sprachen: Slowenisch – Englisch

Inhalt: EU- Rechtstexte

Umfang: ~ 10,000,000 Wörter

Verfügbarkeit: Internetdownload

16SE: Slawische Korpuslinguistik, SS 2006

Page 17: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ The TELRI Republic (TELRI Working Group WG9)

Sprachen: Bulgarisch- Chinesisch – Tschechisch – Englisch – Deutsch – Lettisch –

Polnisch – Rumänisch – Slowakisch – Slowenisch

Inhalt: Platos „Republik“

Umfang: nicht bekannt

Verfügbarkeit: Internet (nur für TELRI Mitglieder)

17SE: Slawische Korpuslinguistik, SS 2006

Page 18: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ MULTEXT-East 1984 corpus (Institut Jožef Stefan)

Sprachen: Englisch – Rumänisch – Slowenisch – Tschechisch – Bulgarisch – Estnisch – Ungarisch – Serbisch – Litauisch – Russisch

Inhalt: George Orwells „1984“

Umfang: 100,000 Wörter (englisches Original)

Verfügbarkeit: CD-ROM

18SE: Slawische Korpuslinguistik, SS 2006

Page 19: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ Textcorpus „Idiot“ (ÖAW, Wien)

Sprachen: Russisch – Deutsch

Inhalt: Dostojevskijs „Idiot“

Umfang: noch unbekannt

Verfügbarkeit: online nicht verfügbar

19SE: Slawische Korpuslinguistik, SS 2006

Page 20: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Slawische Parallelkorpora Славя́нские паралле́льные корпуса́ Национа́́льный ко́́рпус ру́́сского языка́́

Sprachen: Russisch – Englisch

Inhalt: Belletristik

Umfang: ~ 2,500,000 Wörter

Verfügbarkeit: Internet

20SE: Slawische Korpuslinguistik, SS 2006

Page 21: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Anwendung Примене́ние Frage: Übersetzungen für das englische Wort „nice“

Ergebnis: хоро́ший gut краси́вий schön прия́тный angenehm ми́лый lieb отли́чный hervorragend прили́чный anständig

21SE: Slawische Korpuslinguistik, SS 2006

Page 22: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Anwendung Примене́ние Ergebnis:

симпати́чный hübsch хоро́шенький niedlich мирово́й friedlich здоро́вый gesund/ cool поря́дочный anständig шика́рный schick удо́бный schicklich наря́дный elegant до́брый gut идеа́льный ideal

22SE: Slawische Korpuslinguistik, SS 2006

Page 23: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Anwendung Примене́ние Frage: Volle Equivalenz von „love“ und „любо́вь“?

Ergebnis:

любо́вь – love

– passion

love – любо́вь

– пристра́стие

– жела́ние

23SE: Slawische Korpuslinguistik, SS 2006

Page 24: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Anwendung Примене́ние Frage: Übertragung einer russischen Passivkonstruktion ins

Englische?

Beispielswort: „сказа́ть“

Ergebnis:

9 Verwendungen

6 mal Passiv / 1 mal Aktiv / 2 mal Substantiv

24SE: Slawische Korpuslinguistik, SS 2006

Page 25: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Literatur und Quellen Литерату́ра и исто́чники Добровольский и др. 2005: Добровольский, Д. О.; Кретов, А. А.; Шаров, С. А.

Корпус параллельных текстов: архитектура и возможности использования. – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 263-296.

Андреева/Касевич 2005:Андреева,Е. Г.; Касевич, В. Б. Грамматика и лексика (на материале анг ло-русского корпуса параллельных текстов). – In: Национальный корпус русского языка: 2003-2005. Результаты и перспективы – Москва: Индрик. – С. 297-307.

Виландеберк 2004: Виландеберк, А. А. Корпус параллельных правовых документов как составная часть АРМ юриста-переводчика. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 72-85.

Беляева 2004: Беляева, Л. Н. Лексикографический потенциал параллельного корпуса текстов. – In: Труды международной конференции „Корпусная лингвистика – 2004“. – Санкт-Петербург: Изд-во Санкт-Петербургского ун-та. – С. 55-64.

25SE: Slawische Korpuslinguistik, SS 2006

Page 26: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Literatur und Quellen Литерату́ра и исто́чники Bernadini u.a. 2003: Bernadini, S.; Stewart, D.; Tanettin, F. Corpora in Translator

Education: An Introduction. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 1-14 S.

McEnery/Wilson 2006: McEnery, T.; Wilson, A. Corpus Linguistics. – Edinburgh: Edinburgh University Press. 209 S.

Johansson 2003: Johansson, S. Reflections on corpora and their uses in Cross-linguistic research. - In: Bernadini, S.; Stewart, D.; Tanettin, F. (eds.) Corpora in Translator Education. - Manchester: St. Jerome. - 135-144 S.

Laviosa-Braithwaite 2003: Laviosa-Braithwaite, S. Corpora and the Translator. - In: Somers, H. L. (ed.) Computers and Translation. A Translator’s Guide. - Amsterdam: John Benjamins. - 105-117 S.

Ebeling 2000: Ebeling, J. Presentative constructions in English and Norwegian. A corpus-based contrastive study. Acta Humaniora 68. - Oslo: Unipub forlag. – 299 S.

Véronis 2000: Véronis, J. From the Rosetta Stone to the Information Society: A Survey of Parallel Text Processing . – In: Véronis, J. (ed.). Parallel Text Processing. – Dordrecht: Kluwer. – 1-25 S.

26SE: Slawische Korpuslinguistik, SS 2006

Page 27: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Literatur und Quellen Литерату́ра и исто́чники http://infomap.stanford.edu/papers/bilingual-terms.pdf http://www.ruscorpora.ru http://www.bohemica.com/index.php?m=catalog&s=257 http://www.comp.leeds.ac.uk/ssharoff/paraquery-ru.html http://corpus.leeds.ac.uk/ http://rykov-cl.narod.ru/r.html http://www.slaviska.uu.se/korpus.htm http://nl.ijs.si/ME/ http://nl.ijs.si/svez/index-en.html http://nl.ijs.si/telri/Republic/ http://nl.ijs.si/elan/ http://www.aac.ac.at/ http://www.phil.muni.cz/angl/kacenka/kachna.html http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/types/

parallel.html

27SE: Slawische Korpuslinguistik, SS 2006

Page 28: Parallelkorpora Параллельные корпуса Florian Thelen (florian.thelen@stud.uni-graz.at) Seminar: Slawische Korpuslinguistik SS 2006 O. Prof. Dr. Branko Tošović

Literatur und Quellen Литерату́ра и исто́чники http://www.bmanuel.org/clr2_mp.html#Multilingual_and_Parallel_Corpora http://devoted.to/corpora http://www.up.univ-mrs.fr/~veronis/biblios/ptp.html http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm http://www.dialog-21.ru/Archive/2005/Mikhailov%20M/MihailovM.pdf http://www.phil.pu.ru/depts/12/corp04.htm#tis http://www.ksu.ru/f10/publications/2004/articles_1_1.php?id=10&num=9000000 http://www.uni-tuebingen.de/uni/nss/docs/Korpora.html http://lingo.lancs.ac.uk/devotedto/corpora/corpora2.htm http://www.ilc.cnr.it/EAGLES96/corpustyp/node20.html http://odur.let.rug.nl/~spenader/public_docs/Parallel_Corpora.pdf

28SE: Slawische Korpuslinguistik, SS 2006