59
KORPUSY REFERENCYJNE, KORPUSY RÓWNOLEGŁE, EKWIWALENCJA FRAZEOLOGICZNA Piotr Pęzik Uniwersytet Łódzki

korpusy referencyjne, korpusy równoległe, ekwiwalencja

Embed Size (px)

Citation preview

Page 1: korpusy referencyjne, korpusy równoległe, ekwiwalencja

KORPUSY REFERENCYJNE, KORPUSY RÓWNOLEGŁE,

EKWIWALENCJA FRAZEOLOGICZNAPiotr Pęzik

Uniwersytet Łódzki

Page 2: korpusy referencyjne, korpusy równoległe, ekwiwalencja

POTRZEBY TŁUMACZY• http://forum.mlingua.pl/archive/index.php/t-12612.html

• “Witam, od pewnego czasu szukam jakiegokolwiek słownika internetowego dot. kolokacji w j. polskim, czy ktoś mógłby mi pomóc? Czy taki słownik w ogóle istnieje? Myślę,że byłby on bardzo przydatny przy tłumaczeniu na język polski :) niekiedy tłumaczy się teksty nie wiedząc wcale, że dana kolokacja nie istnieje…” (KarolinaS)

• Kolokator pojawił się już właśnie na podanej wcześnien stronie: Narodowy Korpus Języka Polskiego.Wspaniała rzecz! KOLOKATOR (http://nkjp.uni.lodz.pl/collocations.jsp)

• Cudowna strona, właśnie czegoś takiego szukałam! Dziękuję:D (Joanna Ch.)

• “A nie wystarczyłby słownik frazeologizmów?” (Adriano)

• “Smutne, że tzw. tłumacze z tego forum nie widzą różnicy pomiędzy kolokacją a frazeologizmem…” (Janko Muzykant)

• “Istnieją dwa poglądy na temat tego czym są kolokacje. Dla jednych są to wyłącznie połączenia wyrazowe, które nie są idiomami, inni natomiast dzielą je na DWIE grupy: na połączenia utrwalone semantycznie (frazemy) należące do frazeologii i połączenia doraźne (syntaktyczne, gramatyczne), zwane też produktami języka. Mam nadzieję, że nieścisłość została już wyjaśniona”. Jo_asia

Page 3: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ROLA PAMIĘCI W UŻYCIU JĘZYKA• “The central fact to which any significant linguistic theory must address itself is this:

a mature speaker can produce a new sentence of his language on the appropriate occasion, and other speakers can understand it immediately, though it is equally new to them.” (Chomsky 1964:1)

• “It is evident that rote recall is a factor of minute importance in ordinary use of language, that a minimum of the sentences that we utter is learnt by heart as such -- that most of them, on the contrary, are composed on the spur of the moment and that one of the fundamental errors of the old science of language was to deal with all human utterances, as long as they remain constant to the common usage, as if something merely reproduced from memory” (Chomsky 1964:8), (Paul 1886).

• Sentences appear "for the first time in the history of the universe” (Pinker 2007:9).

Page 4: korpusy referencyjne, korpusy równoległe, ekwiwalencja

• “Speakers do at least as much remembering as they do putting together.” (Bolinger 1979)

• “All the evidence points to an underlying rigidity of phraseology, despite a rich superficial variation” (Sinclair 1991)

ROLA PAMIĘCI W UŻYCIU JĘZYKA

Page 5: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FUNKCJE FRAZEOLOGII W JĘZYKU

• Użycie gramatyczne nie zawsze jest użyciem idiomatycznym

• Sen czterolatka: “Potwór spadł z wysoka i zrobiła mu się krew.”

• Frazem i syntagma

Page 6: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ROZWÓJ KOMPETENCJI JĘZYKOWYCH

Page 7: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FUNKCJE FRAZEOLOGIIPhrasemes(

Referen,al(

,(

((

Textual(

Complex(preposi,ons,(Complex(

conjunc,ons,(Linking(adverbials,(Textual(sentence(stems,(lexical'

bundles((

Communica,ve(

Speech(act(&(aA,dunal(formulae,(

Proverbs,(Commonplaces,(Slogans,(Idioma,c(

sentences,(Quota,ons,(Jokes,'Internet'memes,'

Prayers(

(Burger  1998),  (Granger  &  Paquot  2004)  

Page 8: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEMATYKA• Frazematyka Chlebdy jako syntetyczne ujęcie “ścierania się czynników twórczych i

odtwórczych” w języku

• „Co w naszych wypowiedziach jest cudze, przywoływane z zewnątrz, przejmowane od kogoś czy powtarzane za kimś (a więc co jest odtwarzane, reprodukowane), co zaś naprawdę własne, tj. indywidualne, niepowtarzalne? ” (Chlebda 1991)

• „Kierunek postępowania badawczego jest we frazematyce odmienny niż w teorii standardowej: do języka i jego jednostek wielowyrazowych dociera się poprzez analizę zespołu wielkich kontekstów – historycznych, kulturowych, społecznych – w których nieustannie ścierają się z sobą czynniki odtwórcze (przejmowane) i twórcze (tworzone). Frazematyka jest organicznie w ten zespół kontekstów wpisana, stanowiąc werbalną, realizującą się w tekstach ludzkich wypowiedzi, kondensację procesów i mechanizmów odtwórczości/twórczości wszelkich działań człowieka.” (Chlebda 1991)

Page 9: korpusy referencyjne, korpusy równoległe, ekwiwalencja

DWIE ZAGADKI• Bez uwzględnienia roli formuliczności nie można zrozumieć, w

jaki sposób osiągamy:

• “Native-like fluency”: do kilku słów na sekundę w języku konwersacyjnym

• “Native-like selection”: selekcja nielicznych kombinacji idiomatycznych z licznego zbioru kombinacji gramatycznych

(Pawley & Syder 1983)

Page 10: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEOLOGIA JAKO PAMIĘĆ PODRĘCZNA

• Locality Principle: “People gather the most useful objects close around them to minimize the time and work of using them.” (P. Denning)

• Użycie frazemu jako “cache hit”.

• Z punktu widzenia nadawcy jest to również użycie łatwiejsze, bo wymaga mniej wysiłku włożonego w kompozycyjne generowanie języka. Komunikat jest też bardziej odporny na zakłócenia.

• Odbiorca zaś wkłada mniej wysiłku w interpretację komunikatu, ponieważ frazemy mają zazwyczaj skonwencjonalizowane znaczenia i pojawiają się w typowych dla siebie kontekstach.

• Użycie syntagmy można opisać jako przypadek “cache miss”.

Page 11: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ROZMIARY PAMIĘCI PODRĘCZNEJ

• Tysiące idiomów czystych i figuratywnych zaświadczonych w słownikach

• Dziesiątki tysięcy kolokacji z wyrazem uwięzionym oraz kolokacji ograniczonych (restricted collocations, por. Mielczuk 1998)

• Setki tysięcy kolokacji otwartych i tzw. “open-ended collocations” (Cowie, Mackin, and McCaig 1993)

Page 12: korpusy referencyjne, korpusy równoległe, ekwiwalencja

HASK

• pelcra.clarin-pl.eu/hask_pl

• pelcra.clarin-pl.eu/hask_en

Page 13: korpusy referencyjne, korpusy równoległe, ekwiwalencja

PAMIĘĆ TŁUMACZA

• Tłumacz komponuje/generuje/produkuje tekst tłumaczenia

• Na poziomie fraz, a także tzw. łańcuchów kolokacyjnych tłumacz poszukuje i przywołuje z pamięci gotowe frazemy, których następnie używa jako translatów dla napotkanych w oryginale translandów (por. Bogusławski 1988, Chlebda 2011)

• W ten sposób zapewnia minimalny poziom ekwiwalencji frazeologicznej pomiędzy oryginałem a tłumaczeniem

Page 14: korpusy referencyjne, korpusy równoległe, ekwiwalencja

PAMIĘTANIE A PRZYPOMINANIE

• Tłumacz, jako rodzimy użytkownik języka docelowego “pamięta” miliony frazemów

• Tłumacz inaczej niż działający w innych kontekstach użycia użytkownicy języka docelowego musi również przypominać sobie niektóre z milionów frazemów jako potencjalne ekwiwalenty frazemów z oryginału

Page 15: korpusy referencyjne, korpusy równoległe, ekwiwalencja

TOROWANIE FRAZEOLOGICZNE

Page 16: korpusy referencyjne, korpusy równoległe, ekwiwalencja

PRZYPOMINANIE

• Tłumacz inaczej niż działający w innych kontekstach użycia użytkownicy języka docelowego musi również przypominać sobie niektóre z milionów frazemów

• W procesie tłumaczenia brakuje istotnej części językowego i niejęzykowego kontekstu użycia frazemów

Page 17: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ADJ + NOS• http://pelcra.clarin-pl.eu/hask_pl/browser?

eh=11893b6a18cd0838e62d6b4cdd0b27c3

Page 18: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEM—SYNTAGMA

• Istnieje ryzyko odwzorowania frazemu z oryginału na syntagmę w tłumaczeniu

• Pojedyncze odwzorowania frazem-syntagma są niegroźne, czasem wręcz nieuniknione

Page 19: korpusy referencyjne, korpusy równoległe, ekwiwalencja

NIEDOSTATECZNY POZIOM EKWIWALENCJI

• W oryginale występują liczne frazemy przetwarzane przez odbiorców tekstu w trybie “cache-hit”

• W tłumaczeniu występują gramatyczne ale nie idiomatyczne syntagmy

• W dużych ilościach syntagmy znacząco obniżają komunikatywność tłumaczenia, zwiększają wysiłek kognitywny potrzebny do zrozumienia tekstu

• Czytelnicy muszą operować w trybie “cache-miss”

Page 20: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ROLA KORPUSÓW• K. referencyjny może wspomagać proces przywoływania z pamięci

tysięcy kontekstów użycia związków wyrazowych o bardzo różnym stopniu kompozycyjności i utrwalenia, od idiomów czystych po otwarte kolokacje

• KRef i ich pochodne pomagają weryfikować translaty (Chlebda 2011) słownikowe

• Korpusy Równoległe i tzw. pamięci tłumaczeniowe. pomagają weryfikować translaty słownikowe i tekstowe. Nie tylko wspomagają, ale też zastępują pamięć tłumacza

Page 21: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEM — FRAZEM

• https://www.youtube.com/watch?v=SBvmKwnGufI&feature=youtu.be&t=190

• “just blew my mind”

• “powaliło mnie na kolana”

Page 22: korpusy referencyjne, korpusy równoległe, ekwiwalencja

BLOW ONE’S MINDCOCA Corpus

1 This is the painting that blew everyone 's mind

. [CBS_Morning]

2 His expression at the finale indicates a lot more than the fact

that you completely

blew his mind , say experts . [Cosmopolitan]

3 as many numbers on a square of unit side as there are on the side ,

so -- and that

blew his mind . [NPR_Science]

4 And a word blew into my mind , blew as a fire does , fierce and crackling hot : <Kara.> And an answering word formed in my mind

[Flight of the Dragon Kyn]

5 She 's @ @ @ @ @ @ @ @ @ @ what really

blew my mind was when I walked out -- because we could n't stay there .

[Ind_Geraldo]

Page 23: korpusy referencyjne, korpusy równoległe, ekwiwalencja

POWALIĆ KOGOŚ NA KOLANA

1 Górnicze Marklowice chcą

powalić Europę na kolana . Trybuna Śląska

2Zamiast więc

błysnąć przed prezesem i

powalić go na kolana

, bo przecież miał taki zamiar , to sam oberwał w szczękę i robił wielkie oczy ze zdziwienia , że powalon został .

Blog Polonka54

3

O przyszłości gminnego

zakładu zdecyduje to , czy

powali na kolana i zaproponuje ceny poniżej kosztów świadczonej usługi . Gazeta Poznańska

4Agnieszka

zapytana o to , czy trudno było

powalić na kolana

takiego kolosa jak Petertil , wesoło odpowiada – A jak pan myśli …

Gazeta Wrocławska

5

Wątpię , by współczesnych

czytelników jakakolwiek

powalić na kolana . Gazeta Wyborcza

NKJP

Page 24: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEM — SYNTAGMA

http://www.economist.com/node/14966227

Page 25: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEMY W ORYGINALE

Page 26: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEMY W ORYGINALE

Page 27: korpusy referencyjne, korpusy równoległe, ekwiwalencja

PRZYKŁAD TŁUMACZENIA

• O: Why political orthodoxy must not silence scientific argument.

• T: Dlaczego ortodoksja polityczna nie może uciszyć kłótni naukowej.

Page 28: korpusy referencyjne, korpusy równoległe, ekwiwalencja

POLITICAL ORTHODOXYCOCA

1 the intellectual foundation that would later enable him to challenge the

political orthodoxy of both the left and the right . [Houston

Chronicle]

2 slightly uneasy about it because he could be perceived as following a

political orthodoxy rather than thinking for himself . [Too Soon to

Tell]

3 Defining political orthodoxy

as exclusively liberal has brought a pleasant bonus to the sort of

[Too Soon to Tell]

4hey were used to help motivate troops and maintain a high level of combat readiness

and

political orthodoxy .

[Armed Forces & Society (Transaction Publishers)]

5 should be measured as a normative matter by a person 's adherence to a particular

political orthodoxy .

[Harvard Journal of Law & Public Policy]

Page 29: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ORTODOKSJA POLITYCZNA

NKJP

Page 30: korpusy referencyjne, korpusy równoległe, ekwiwalencja

NAUKOWE KŁÓTNIE• “- Co roku spotykamy się - my, właściciele

ośrodków wczasowych, i władze samorządowe. Od kilku lat trwają badania, dyskusje i naukowe kłótnie na temat tego, jak zwalczyć sinice - dziwi się Joachim Gorus.” (NKJP, Nowa Trybuna Opolska, 2006)

• 1 wystąpienie na 1.5 miliarda słów. Syntagma?

Page 31: korpusy referencyjne, korpusy równoległe, ekwiwalencja

SPÓR/DEBATA NAUKOWA

Page 32: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FRAZEM — ?

Page 33: korpusy referencyjne, korpusy równoległe, ekwiwalencja

DROGOWY GNIEW

Page 34: korpusy referencyjne, korpusy równoległe, ekwiwalencja

GNIEW NA DRODZE

Page 35: korpusy referencyjne, korpusy równoległe, ekwiwalencja

AGRESJA NA DRODZE

• Ekwiwalent tekstowy, czy słownikowy?

Page 36: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ROAD RAGE

Page 37: korpusy referencyjne, korpusy równoległe, ekwiwalencja

KIEDY KORPUS NIE NADĄŻA

• Product placement

• Kryptoreklama (783 wystąpienia w NKJP)

• Audycja zawiera(ła) lokowanie produktu (0 wystąpień w NKJP)

Page 38: korpusy referencyjne, korpusy równoległe, ekwiwalencja

KORPUSY RÓWNOLEGŁE• Pełnią rolę pamięci tłumaczeniowych

• Faktyczne, a nie tylko możliwe translaty

• Powinny umożliwiać dużo bardziej zaawansowaną analizę lingwistyczną danych niż zwykłe pamięci tłumaczeniowe

• Możliwość definiowania przeszukiwanych zbiorów

Page 39: korpusy referencyjne, korpusy równoległe, ekwiwalencja

NARZĘDZIA

• http://pelcra.clarin-pl.eu/

• Wyszukiwarka PELCRA dla NKJP (nkjp.uni.lodz.pl)

• Wyszukiwarka SlopeQ dla NKJP: http://pelcra.clarin-pl.eu/NKJP

• Słowniki kombinatoryczne HASK PL i HASK EN

• Wyszukiwarka SlopeQ dla BNC: http://pelcra.clarin-pl.eu/SlopeqBNC/

• Wyszukiwarka Paralela http://paralela.clarin-pl.eu/

Page 40: korpusy referencyjne, korpusy równoległe, ekwiwalencja

SLOPEQ DLA NKJP• http://pelcra.clarin-pl.eu/NKJP

• Nowa wyszukiwarka dla danych NKJP (nkjp.uni.lodz.pl)

• Bogatsza składnia, lepsze wizualizacje, lepsze wyszukiwanie metadanych

• Fasety wyszukiwania

• Eksport danych, dostęp programistyczny

Page 41: korpusy referencyjne, korpusy równoległe, ekwiwalencja

KONKORDANCJE

Page 42: korpusy referencyjne, korpusy równoległe, ekwiwalencja

KWIC• KeyWords In Context

• Liczba trafień podana w zdaniach

• Dokładna liczba wystąpień liczona na pobranej próbce

• Domyślny zestaw kolumn metadanych może być zmieniony

• Do 10 tys. konkordancji na stronie lub w formacie JSON, do 100 tys. w arkuszu Excela

• Pełne wyniki dostępne przez stronnicowanie

Page 43: korpusy referencyjne, korpusy równoległe, ekwiwalencja

EXCEL# Left Match Right Source Text Id Nkjp Id

1Do pół litra wody wsypać po łyżeczce różnych aromatycznych przypraw , takich jak : " Jarzynka " albo " Vegeta " , sól , pieprz ziołowy ,

tymianek albo oregano , kilka suszonych grzybków , 2 - 3 ząbki czosnku drobno pokrojone i wszystko

Wegetariańskie okruchy 5eGx9 IJPPAN_k1235

39

2We wróżeniu według dawnej wiedzy druidów pomocne były : byli - ca pospolita , cykoria podróżnik , jałowiec , jesion , krwawnik pospolity ,

tymianek . Kod druidów i sekrety celtów 4BMEg IJPPAN_k1232

85

3Gdy mięso będzie rumiane , dorzucić czosnek nie obrany , cebule poćwiartowane ,

tymianek i pokruszony liść laurowy . Panorama Mazurska 4j9nz PWN_1202900

000728

4 • kwaśne owoce , tymianek , lipa , lukrecja , imbir – herbata naturalna Trybuna Śląska 4pqon IJPPAN_PolPr_

TS01156

5Wsypać do garnka z większą ilością wody , dosypać pół szklanki kaszy , ryżu lub makaronu , przyprawić czosnkiem i ziołami ( np . ziołowy

tymianek , albo majeranek , listek laurowy i angielskie ziele ) .

Wegetariańskie okruchy 5eGx9 IJPPAN_k1235

39

650 dag łopatki wołowej • 50 dag łopatki baraniej • 50 dag łopatki wieprzowej • 1 kg ziemniaków • 25 dag cebuli • czosnek • pieprz • sól •

tymianek • natka pietruszki • 1 / 2 l białego wina • mąka • woda Polityka 6zRoA IJPPAN_p0000

2620046

7 Z przypraw - szałwia i tymianek . Dziennik Polski 6npgLq IPIPAN_1301920020921

8 Majeranek , tymianek czy bazylia poprawiają smak zarówno góralskiej kwaśnicy jak i włoskiego spaghetti .

Trybuna Śląska 6RMrE IJPPAN_PolPr_TS00250

9 Dodać tymianek , pietruszkę , liść laurowy i listki selera , po czym przykryć i gotować 1 / 2- 1 godziny – aż groszek będzie

Trybuna Śląska 8Ryey IJPPAN_PolPr_TS00902

Page 44: korpusy referencyjne, korpusy równoległe, ekwiwalencja

FASETY

• Pełne wyniki są agregowane po metadanych

• Podawane są wielkości całkowite każdej kategorii

• Istnieje możliwość filtrowania kolejnych wyników po fasetach

• Aktualnie wyświetlane fasety: kanał, typ funkcjonalny, auto kategorie wiki

Page 45: korpusy referencyjne, korpusy równoległe, ekwiwalencja

AUTO KATEGORIE

Page 46: korpusy referencyjne, korpusy równoległe, ekwiwalencja

AUTO KATEGORIE

Page 47: korpusy referencyjne, korpusy równoległe, ekwiwalencja

AUTO KATEGORIE

Page 48: korpusy referencyjne, korpusy równoległe, ekwiwalencja

WIZUALIZACJA FASET

Page 49: korpusy referencyjne, korpusy równoległe, ekwiwalencja

OPCJE WYSZUKIWANIA

• Składnia DisMax dla metadanych• Wielostopniowe sortowanie (głębokie)• Podkorpus• Grupowanie/próbkowanie

Page 50: korpusy referencyjne, korpusy równoległe, ekwiwalencja

WIZUALIZACJA FASET

• Na wykresach podane są częstości znormalizowane (w tabeli również zwykłe)

• Możliwe jest pobranie wykresu w formacie wektorowym

• Możliwe kolejne fasety (słowa kluczowe, autorzy, itd.)

Page 51: korpusy referencyjne, korpusy równoległe, ekwiwalencja

SKŁADNIA

• Zapytania o formy

• Zapytania o lematy

• Zapytania o części mowy

Page 52: korpusy referencyjne, korpusy równoległe, ekwiwalencja

WARIANTYWNOŚĆ FRAZEMÓW

• JJ+EST EVER TO WALK THE EARTH

Page 53: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ADJ:SUP + SUBST + KIEDYKOLWIEK <LEMMA=CHODZIĆ> PO ZIEMI

Page 54: korpusy referencyjne, korpusy równoległe, ekwiwalencja

ZAPYTANIA

• (ever to walk earth|planet)=3

• (kiedykolwiek po ziemi)=4

• (kiedykolwiek <lemma=chodzić> po ziemi)=2

• (kiedykolwiek <pos=verb.+> po ziemi)=4

Page 55: korpusy referencyjne, korpusy równoległe, ekwiwalencja

JJ+EST EVER TO WALK THE EARTH

Page 56: korpusy referencyjne, korpusy równoległe, ekwiwalencja

(KIEDYKOLWIEK PO ZIEMI)=4

Page 57: korpusy referencyjne, korpusy równoległe, ekwiwalencja

OPEN-ENDED COLLOCATIONS

• (Cowie, Mackin, and McCaig 1993), walencja

• O: The SMOS spacecraft launched on Monday to study the Earth’s water cycle has passed a key mission milestone.

• T: Wystrzelony w poniedziałek statek kosmiczny SMOS (ang. Soil Moisture and Ocean Salinity) mający na celu obserwację obiegu wody na Ziemi osiągnął już najważniejszy etap swej misji.

Page 58: korpusy referencyjne, korpusy równoległe, ekwiwalencja

MIEĆ NA CELU• <lemma=mieć> na celu

• mieć** na celu

• poprawka, zmiana, ustawa, projekt, działanie, nowelizacja, akcja, przedsięwzięcie, rozwiązanie, spisek, ćwiczenia, spotkanie

• działanie/czynność

Page 59: korpusy referencyjne, korpusy równoległe, ekwiwalencja

HASK• słowniki kombinatoryczne wygenerowane z BNC i NKJP

• Przykłady zapytań:

• kawa

• herbata

• straszny, przerażający (kolozaurus)

• zamożny, majętny (kolozaurus)

• francuski, rosyjski, niemiecki, grecki (kolozaurus)