37
Transkripcija govornog diskursa 1

Transkripcija govornog diskursa

Embed Size (px)

DESCRIPTION

Transkripcija govornog diskursa. Transkripcija i anotacija diksursa – jedan primer (CHILDES). @Loc:Clinical/ Chiat /10-04.cha 1 @Begin 2 @Languages:eng 3 @Participants:CHI Ruth Target_Child , INV Chiat Investigator 4 @ID:eng|chiat|CHI|10;4.|||| Target_Child ||| - PowerPoint PPT Presentation

Citation preview

Page 1: Transkripcija govornog diskursa

Transkripcija govornog diskursa

1

Page 2: Transkripcija govornog diskursa

Transkripcija i anotacija diksursa – jedan primer (CHILDES)

• @Loc: Clinical/Chiat/10-04.cha• 1 @Begin• 2 @Languages: eng• 3 @Participants: CHI Ruth Target_Child, INV Chiat Investigator• 4 @ID: eng|chiat|CHI|10;4.||||Target_Child|||• 5 @ID: eng|chiat|INV|||||Investigator|||• 6 @Transcriber: Chiat and Davis• 7 @Situation: Conversation about horse riding and not leaving bags in the• 8 room. In a room in school.• 9 *CHI: I like horses (.) round there.• 10 *INV: that's your best thing (.) I think.• 11 *CHI: yeah (.) I like (.) do xx work in ə farm (.) wɛ bigger.• 12 *INV: huh?• 13 *CHI: me worki(ng) in ə farm.• 14 *INV: did you work in the farm?• 15 *CHI: no (.) me bɪ (.) bigger (.) go worki(ng) in ə farm.

2

Page 3: Transkripcija govornog diskursa

Anotacija, tagiranje, parseri

3

Page 4: Transkripcija govornog diskursa

Govorni i pisani jezik• Linearnost jezičkog znaka (de Sosir) odnosi se i na

govorni jezik u kome se jedinice (glasovi, morfeme,...) ređaju jedne za drugom. Ali postoji i hijerarhija jezičke strukture u svakom iskazu. Važnost tih činjenica za produkciju i razumevanje govora, sa stanovišta pošiljaoca i primaoca poruke, za transkripciju takođe.

• Karakteristike razgovornog jezika kao najopštijeg govorne komunikacije: diksursni markeri, deiksa, ponavljanja, preformulacije, fragmentarnost, upotreba narativnog prezenta, manje subordiniranih konektora.

• Usmena predavanja između govornog i pisanog: obraćanje, deiksa, oklevanja , diksursni markeri, ...

4

Page 5: Transkripcija govornog diskursa

Svakodnevni i dramski govor

• Zabluda je da su razgovor i onaj dijalog zabeležen u dramskom tekstu isti. To se može pokazati ako se uporedi funkcionisanje različitih partikula u razgovoru i njihovo izostavljanje u dramskom tekstu (na primer, znaš, možda, aha, itd.)

• Govori se i o nadilaženju razlike između pisanog i govorenog i upućuje na polaznu, po svemu artificijelnu, podelu jezika na pisani i govoreni, kao pogrešna teorijska polazišta.

• Neka istraživana: isti događaj opisati usmeno pa pismeno.• Konvencije u titlovima prevoda filmova sa drugog jezika

5

Page 6: Transkripcija govornog diskursa

ZAPISIVANJE GOVORNOG JEZIKA

Svako zapisivanje je društveni, ideološki čin.• Istorija pisanja, odnosno pisani spomenici unazad

nekoliko hiljada godina, pokazuju razvoj odnosa pretvaranja govornog jezik u pisani: piktografsko, ideografsko, silabičko, fonološko pismo.• Prvo kao znak koji je jednak predmetima, idejama,

rečima (hijeroglifi, kinesko pismo)• Znak koji je jednak glasovima (feničansko, starogrčko)• Postepeno stvaranje ortografskih pravila (razmak

između reči, veliko slovo, tačke, zarezi,...)

6

Page 7: Transkripcija govornog diskursa

Tradicionalne konvencije u zapisivanju govora

• Osnovni razlog što se prihvataju konvencije iz pisanog medijuma jesu znanja, navike, praksa u čitanju kod većine korisnika transkripta (teško da bez posebne obuke neko može da čita IPA azbuku i da protumači sve znakove za anotaciju govornog jezika)

• Način transkripcije uslovljen je teorijskim i istorijskim činiocima. (Transkripcija slovenskih jezika)

7

Page 8: Transkripcija govornog diskursa

Sociolingvistički aspekti transkribovanja

• Sam transkript je novi tekst, u krajnjoj liniji čak i sam snimak je rekontekstualizacija/entekstualizacija nekog govornog događaja

• Posmatrački paradoks (observer’s paradox, Labov) – prisustvo istraživača utiče na govor snimanih sagovornika. (recimo, trude se da “pravilno” govore, da ne psuju...)

• Onaj ko je snimao i prisustvovao interakciji i posle transkribovao može drukčije da tumači i čita tekst transkripta od drugih čitalaca.

• Predrasude: govor optuženog se često transkribuje kolokvijalnije nego govor policajca/istražitelja.

• Tehnički aspekti: pristup transkripcijama, štamparski uzusi, (ne)mogućnost štampanja.

8

Page 9: Transkripcija govornog diskursa

Zapisivanje kao metodološki problem percepcije govornog događaja

• Može da se istakne u transkriptu ono što sagovornik NE percepira na taj način. Posvećuje se pažnja aspektima koji nisu bili bitni učesnicima (slično i sa snimkom događaja u kome smo učestvovali)

• Moguća su stoga tri različita tumačenja: istraživača koji je prisustvovao govornom događaju, samih sagovornika-učesnika u događaju, novi čitalac transkripta koji je već publikovan negde.

9

Page 10: Transkripcija govornog diskursa

Entekstualizacija transkripta

• Korpusi se dodatno ili ponovo analiziraju sa stanovišta drugog istraživanja. Retko kada je istraživač zadovoljan nekim prethodnim korpusom. (Recimo prozodija nije zabeležena uopšte)

• Iako postoje principi i modeli trankripcije skoro globalno prihvaćeni, možda je za analizu interakcije bolje početi „svež“, i uvek preispitati konvencije za reprezentaciju interakcije.

• Poređenjem različitih transkripata iste interakcije pokazuje različite pretpostavke i ideologije o jeziku i diskursu, implicitne ili eksplicitne.

10

Page 11: Transkripcija govornog diskursa

Disciplinarni pristup

• Metodološki pristup različit iz različitih disciplina: analiza diskursa, konverzaciona analiza, terenska lingvistika, antroplogija...)

• Globalizacija i multilingvalna interakcija (promena koda, npr.)

• Da li će govorni događaj izgledati kao proza u pasusima, ili stihovi i strofe...Narativ u kome se intonacione konture jasno koriste u prezentaciji različitih likova koji su u narativu...

11

Page 12: Transkripcija govornog diskursa

Teorijski bitne odluke u vezi sa transkriptom

• Ponovna analiza i promene u transkripciji za druge istraživače ciljeve. Npr. – Izkazi ili replike, turnusi?– Razgovori se prikazuju kao niz “iskaza”, “replika”, bez

tematske podeljenosti na pasuse. Teško je sagledati: leksičku gustinu oko teme, kako se započinje nova tema, odrediti jedinice bitne za sumarizaciju, itd.

– Hymes: etnopoetika, usmeni narativ u stihovima i strofama...

– Nedostatak „pozadine“ iza „transkripta“ je metodološka odluka. Slično kao i svaki problem sa kontekstom u lingvistici

12

Page 13: Transkripcija govornog diskursa

Multimodalni elementi

• Multimodalnost: audio-vizuelni snimak i transkript.

• Neverbalni aspekti govornog događaja – postavlja se pitanje koje su radnje interakciono bitne.

• Neki istraživač smatra gestove značajnim za konverzaciju, dok sami interaktanti to ne vide na isti način kao istraživač...

13

Page 14: Transkripcija govornog diskursa

Tradicionalne konvencije potiču iz više izvora

• Tradicije: – književna, – popularna, (internet, mobilni)– mediji (u titlovima, npr. kurzivom replika

sagovornika u telefonskom razgovoru koga ne vidimo na ekranu)

– lingvistička analiza diskursa, razgovora...

14

Page 15: Transkripcija govornog diskursa

Ortografska tradicija u transkriptima diskursa

• Reči se odvajaju jednim razmakom• Minimalna jedinica je “iskaz” i to je jedan pasus? (u

nekim transkriptima su iskaz i pasus izjednačeni)• Delimično se zadržava veliko slovo, tačka, znak pitanja,

uzvičnik i sl. Ali:– postoji problemi čak i sa ovim znakovima: a) u govoru se

prozodijski često povezuju reči u jednu fonetsku jedinicu: Napametmi nije palo. b) Nekada je rečenica nezavršena: To je tako . ne znam kako da ti kažem. c) Neki iskazi se samo delimično mogu predstavti u pisanju tradicionalnim pismom: Mhm? Mhm! su fonetski: mmm sa posebnom prozodijom

15

Page 16: Transkripcija govornog diskursa

Pisana tradicija (često u književnim tekstovima)

• Predstavljanje “dijalekata” odnosno “sociolekta”, ... :• stol’ca, ...• gracki,...• becuz, ain’t, t’day• j’sais pas, z’allez haut?– (eye-dialect, allegro spelling...)

16

Page 17: Transkripcija govornog diskursa

Ortografska i fonetska transkripcija

• Fonetska dominira u: a) istraživanjima jezika koji se prvi put opisuju, najčešće skupa iskaza dok se ne dođe do fonološkog opisa, b)istraživanjima usvajanja L2, c) opisima izgovora potrebnim u leksikografiji

• Transkripti dužih govornih diskursa su uglavnom pisani pismom sredine. U nekim slučajevima se modifikuju fonetskim znakovima: xleb, leb, 'raiDer

17

Page 18: Transkripcija govornog diskursa

Elaborarinost transkripta• Različite konvencije se prihvataju u različitim sredinama i

istraživačkim projektima. To važi i za druge lingvističke konvencije:• [[ Stari ljudi] i žene] – [[ Stari ] [ljudi i žene]]•

• Transkripcija orijentisana na sadržaj, ili na diskursnu strukturu, ili na prozodiju

• Primer (Du Bois):JEFF; it’s been a long time

• JILL; it’s been so long• *****• JEFF; It’s been a [long time]• JILL; [(H)] It’s been so: long

18

Page 19: Transkripcija govornog diskursa

Elaborirani

• Simplifikovani transkript sačiniti od elaboriranog transkripta i obrnuto...okay -that's fine. Now, on the investigation, you know, the Democratic break-in thing, we're back to the-in the, the problem area because the FBI is not under control, because Gray doesn't exactly know how to control them, and they have, their investigation is now leading into some productive areas, because they've been able to trace the money, not through the money itself, but through the bank, you know, sources - the banker himself. ( odlomak iz transkripta “Watergate”)

19

Page 20: Transkripcija govornog diskursa

Faze u transkribovanju

• Više puta se sluša audio zapis, često se i tumači slušano na novi način (slično – nova “čitanja” književnog teksta)

• Prva faza – obično usmereno na semantički sadržaj diskursa

• Vreme transkripcije se produžava dva do tri puta ukoliko se unose oznake za prozodiju.

• Preklapanja, pauze, ponavljanja, mucanje…

20

Page 21: Transkripcija govornog diskursa

Imena učesnika u komunikaciji – lingvistički i etički problem

• Raniji korpusi , 50-tih i 60-tih godina koristili su npr. oznake za govornike A., B. C. ili zvezdicu za preklapanja. Negativne strane upotrebe takvih oznaka su što u razgovoru, A. govornik može da kaže: Ja, Milan..., te ipak “saznajemo” njegovo ime.

• Zvezdica može da ima i druge neke upotrebe, npr. tako se označava negramatična konstrukcija u lingvistici: *divna čovek

21

Page 22: Transkripcija govornog diskursa

Gramatička anotacija i parseri

• Programi koji anotiraju gramatičku strukturu iskaza (??) zasnivaju se na pravilima koja su utvrđena u gramatici ili na statističkoj, probabilističkoj metodi. Disambiguacija...Npr. The run zahteva naknadno editovanje. Greška: What’s he want to prove?

• Parseri za morfosintaksičku analizu engleskog jezika: Penn Treebank, TOSCA Parser

• Tagiraju se i parsiraju korpusi semantički (kao tezaurus, ontološki) diskursno (npr. anafore) i gramatički, kao i sa specijalnim namenama.

22

Page 23: Transkripcija govornog diskursa

Jezici za obeležavanje teksta

• SGML – standard generalized markup language kojim se pokusava postići standardizacija kako bi se moglo dokumenta prenositi sa kompjutera na kompjuter

• XML - prednost je što se već koristi na web stranama

• Broj oznaka za anotaciju zavisi od jezika, od toga koliko se detalja želi zabeležiti

23

Page 24: Transkripcija govornog diskursa

Govorni jezik i nove tehnologije

• Osnovna razlika pisani i govorni utiče na manje programa za anotiranje govornog jezika. – D’ya, D’you, ...Kaddolaziš, Nemamga, napamet mi nije

palo...• Poseban problem za parsere predstavlja govorni jezk zbog a)

negramatičnih struktura, b) netranskribovanih prozodijskih obeležja: The child broke his arm and his wrist and his mother called a doctor. Stoga se dodatno manuelno obeleže konstituentske zagrade. Ili npr. vokativi zapisani u tekstu, u govoru su jasno prozodijski izdvojeni. Ili se ponavljanja „normalizuju” , itd.

24

Page 25: Transkripcija govornog diskursa

Glose i glosiranje

• Glosira se na jezik na kome se piše istraživanje, analiza

• Kako iskombinovati reči u glosi ukoliko dolazi do preklapanja.

• Šta raditi sa redom reči u glosama, pogotovo ako to treba iskombinovati sa „preklapanjima“

25

Page 26: Transkripcija govornog diskursa

Primeri glosiranja

Makedonski glosiran na engleskom:Riba ne jadam.fish not eat.1Sg‘As for fish, I don’t eat it.’

Rumunski glosiran na engleskom: Ion s-o fi plimbînd.Ion Acc.Refl.Cl-will.Cl be.Inf walking.Pres.Part‘Ion will be walking (now).’

26

Page 27: Transkripcija govornog diskursa

Tipovi korpusa

• Opšti, Specijalni, Spontanog, Eksperimentalni• Elicitacija recimo iskaza sa „odglumljenim emocijama

– uglavnom čitan tekst, rečenice. • Spontani, autentični govori – gradacija spontanosti• Etički problemi ‘ kako imati spontani govor ako je

govornik svestan da je sniman– Nekada se saopštavalo naknadno– Danas potrebna “dozvola” sagovornika

27

Page 28: Transkripcija govornog diskursa

Tehnološki ciljevi

• Audio-video snimci sa podacima vezanim za ključne reči, traženjem tagova.

• Akustički snimak sadrži i buku: a) zvuk aparata kojim se snima, b) vokalne zvukove, (kašljanje,...) c) nevokalne zvukove (auto na ulici)

• Cilj: povezati zvuk, video snimak i transkript

28

Page 29: Transkripcija govornog diskursa

Nove tehnologije

• Neke aspekte prozodije u govoru nije moguće predvideti te je teško napraviti automatski program za transkripciju... Npr. preklapanja su nepredvidiva?

• S druge strane lakše je napraviti program koji će automatski označiti rečenicu. “Sve što se završava tačkom, jednim razmakom, pa zatim veliko slovo”.

29

Page 30: Transkripcija govornog diskursa

IME DOKUMENTA I ZAGLAVLJE TRANSKRIPTA

• Pretpostavimo da posedujete 10 snimaka skupštinskih debata, 8 emisija dijaloškog tipa sa radija i 10 snimaka svakodnovnih razgovora među prijateljima. Svaki od njih treba sačuvati kao poseban dokument (fajl). Koje biste oznake (imena) fajlova mogli upotrebiti?

• Neke vremenske jedinice treba obavezno navesti u osnovnom zaglavlju transkripta u vezi sa situacijom snimanja: Datum, vreme snimanja, mesto snimanja

30

Page 31: Transkripcija govornog diskursa

ZAGLAVLJE TRANSKRTA

• Ranije trebalo posebno beležiti u transkriptu vremenske jedinice poput sata, minuta, sekundi. Važno npr. u stresnim situacijama (piloti, vozači, dejstvo lekova i sl.)

• Opšte informacije vezane za transkript obavezno obuhvataju: a) oznaku početka, oznaku kraja, c) sagovornike

31

Page 32: Transkripcija govornog diskursa

ZAGLAVLJE TRANSKRIPTA

• Imenuju se učesnici• Obično i socijalne karakteristike sagovornika najčešće na

početku dokumenta – transkripta: a) godište, b) obrazovanje, c) socijalni status d) pol

• Transkripti razgovora/govora u nekim elementima podsećaju na dramska scenarija zbog toga što koriste i jedni i drugi koriste: popis lica ili osoba, didaskalija, kratki opisi i uputstva reditelju i glumcima (salon gospođe X, X sedi za pisaćim stolom I piše, gura je, premešta stolicu u drugi deo sobe, …), prizora (scene) - ulazak ili izlazak nekog lika na pozornicu

32

Page 33: Transkripcija govornog diskursa

Imena sagovornika

• tri najčešća načina obeležavanja učesnika u razgovoru zapisanom na transkriptu: a) NIK, b) A., c) Nikola.

• Koje su prednosti/nedostaci beleženja imena brojevima, ili slovima azbuke? Sagovornici se oslovljavaju ponekad imenom, nadimkom, i sl. te je čitaocu transkripta teško nekada da prati sam tekst koji nije povezan sa imenom onoga ko izgovara repliku.

33

Page 34: Transkripcija govornog diskursa

Posebne oznake

• Nerazumljiv govor se može na više načina označiti. (nrz), xxx

• Ponavljanja se mogu označiti na dva načina: ili se beleži izgovor svakog ponovljenog izraza ili se jedan navodi pa se stavlja posbena oznaka za broj puta koji se ponavlja.

• Preklapanje iskaza dva sagovornika se najčešće označava uglastim zagradama < >, [ ]. * *

• Pauze (.) . , • Ispunjene pauze

34

Page 35: Transkripcija govornog diskursa

Posebne oznake

• Produžavanje izgovora jednog glasa. /:/ da: Ako produžava glas i pravi pauzu dve dvotačke??? (CA). Ili se više puta ponovi slovo: daa

• Prekinuti iskaz?? / - /Od strane samog govornika ili od strane sagovornika. I nastavak iskaza od strane samog govornika ili od strane drugog sagovornika. (Npr. značajno za razvoj govora kod deteta, da li se samo ispravlja ili ne ume...)

35

Page 36: Transkripcija govornog diskursa

Posebne oznake

• Brojevi i složenice pišu se kao reči a ne kao brojevi• Paralingvistička ponašanja: plakanje, smejanje,

kašljanje, coktanje, stenjanje Npr. (smeh) (smeje se), @, @@@

• Ekstralingvistička situacija se označava kada se smatra bar delimično relevantnom za razumevanje transkriovanog govora. Npr. (okreće se slušaocima iza sebe, kada se „gubi“ glas.)

36

Page 37: Transkripcija govornog diskursa

• Govorni događaj se može do kraja protumačiti samo ako su svi elementi ubeleženi. Međutim, takav tekst postaje gotovo nečitljiv, te je cilj da se stvore anotirani korpusi koji olakšavaju čitanje i pretraživanje tako što pružaju opciju da se vide sve, nijedna ili samo odabrane anotacije.

37