24
PACOTES LEXICAIS EM CORPORA DE APRENDIZES Deise Prina Dutra (UFMG) [email protected] Tony Berber Sardinha (PUC-SP) [email protected] ELC 2010 Porto Alegre

PACOTES LEXICAIS EM CORPORA DE APRENDIZES

  • Upload
    ward

  • View
    31

  • Download
    0

Embed Size (px)

DESCRIPTION

PACOTES LEXICAIS EM CORPORA DE APRENDIZES. Deise Prina Dutra (UFMG) [email protected] Tony Berber Sardinha (PUC-SP) [email protected] ELC 2010 Porto Alegre. Agradecimentos. Tony Berber Sardinha CNPq (Brasília, Brazil) Fapesp (São Paulo, Brazil) PUCSP CEPRIL Deise Prina Dutra UFMG - PowerPoint PPT Presentation

Citation preview

Page 1: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Deise Prina Dutra (UFMG)[email protected]

Tony Berber Sardinha (PUC-SP)[email protected]

ELC 2010Porto Alegre

Page 2: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Agradecimentos Tony Berber Sardinha

CNPq (Brasília, Brazil) Fapesp (São Paulo, Brazil) PUCSP CEPRIL

Deise Prina Dutra UFMG POSLIN – Estudos baseados em corpora e

Ensino/Aprendizagem de línguas estrangeiras LEEL (Laboratório de Estudos Empíricos

Experimentais da Linguagem) PUCSP

Page 3: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Introdução geral Fraseologia

Central em várias áreas de pesquisa Colabora para uma melhor compreensão da

linguagem Cognição Descrição Ensino (Ellis 2008; Granger Meunier 2008)

“... Phraseology pervades theoretical, empirical, and applied linguistics. Like blood in systemic circulation, it flows through heart and periphery, nourishing all.” (Ellis, 2008: 9)

Page 4: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Fraseologia “o estudo de uma estrutura,

significado e uso de combinações de palavras” (Cowie 1994:3168 apud Granger e Paquot 2008)

Abordagens para o estudo de fraseologias

Fraseológica – baseada na linguística Distribucional – baseada na frequência ou

movida a dados (Granger e Paquot 2008)

Page 5: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Definições Expressões pré-fabricadas ou pre-padronizadas ao invés de palavras têm

um papel predominante na produção de discurso oral e escrito (Alterbeng 1993 apud De Cock et al. 1998:67)

Fazem parte de produções proficientes e fluentes Falantes de uma língua operam principalmente com base no “princípio idiomático”

(Sinclair, 1991) ao invés do “princípio da escolha aberta”. Chunks

“seqüências de duas ou mais palavras que ocorrem regularmente e parecem possuir unidade de significados ou funções” (O´Keeffe, McCarthy & Carter 2007: 46)

Pacotes lexicais “simplesmente sequências de palvras que comumente aparecem juntas em

discurso natural” (Biber et al. 1999: 990) in terms of the, a list of, the fact that, it is a, etc.

A questão do tamanho do pacote: maior é melhor? Tamanho e frequência - 3 e 4, occasionalmente 5 palavras

A questão da sobreposição de pacotes Eles proporcionam uma nova maneira de olhar a lingua: blocos formadores

não são mais a sintaxe/gramática, mas o léxico Eles podem ser responsáveis pela fluência e naturalidade em L1 e L2

Outros palavras utilizadas na área Sequências formulaicas, colocações, clusters, n-gramas, MWUs, etc.

Page 6: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Estudos Psicolinguística

Wray (2002, 2008) Schmitt et al (2004) Nekrasova (2009)

Identificação e classificação de pacotes lexicais Biber, Conrad e Cortes (2004) Biber (2009) Simpson-Vlach e Ellis (2010)

Ligados ao ensino aprendizagem de línguas estrangeiras de Cock et al (1998) de Cock (2000) Meunier e Granger (ed.) (2008) Barfiled e Gullstad (ed.) (2009) Chen & Baker (2010)

Page 7: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Objetivo deste trabalho em andamento

Identificar e classificar pacotes lexicais corpora de textos escritos de aprendizes

categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic Formulas List (AFL)

Michigan Corpus of Academic Spoken English (MICASE) British National Corpus corpus de Hyland (2004)

Conhecer como os alunos brasileiros utilizam pacotes lexicais na escrita de redações

Quais tipos de pacotes são utilizados? Função pragmática e funcional Estrutural

Como o uso dos pacotes lexicais se aproxima ou se distancia do pacotes mais utilizados em textos produzidos por falantes nativos ou por outros aprendizes

Adequar o ensino às necessidades dos alunos

Page 8: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Corpora Louvain Corpus of Native English Essays

(LOCNESS) 324.006 palavras corpus de aprendizes ou de referência?

International Corpus of Learner English (ICLE)

3,7 milhões de palavras (Granger et al. 2009)

Br-ICLE, subcorpus, em formação, do ICLE com textos de alunos brasileiros

até 2009-> 159,000 palavras

Juntos somam 4.251.714 palavras

Page 9: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Metodologia Passos

Extraímos pacotes de 3 e 4 palavras com um scripts especialmente criados para esta investigação

Os pacotes foram categorizados manualmente nas categorias da AFL

Principais: expressão referencial, expressões de julgamento e organizadores discursivos

Secundárias (e.g. atributos de enquadramento tangíveis e não tangíveis, expressões de habilidade e possibilidade, metadiscurso e referência textual)

Verificamos quais categorias são as mais frequentes em cada corpora

Analisamos subcategorias especificas e geramos linhas de concordância (com scripts específicos e com o WordSmith Tools) para verificar

seu uso em contexto padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer

Page 10: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Categorias da AFL - taxonomia pragmática funcional

Expressões referenciais

Expressões de julgamento

Funções organizadoras do discurso

Especificações de atributosa. Atributos de enquadramento intangívelb. Atributos de enquadramento tangívelc. Especificação de quantidade

Atenuadores Referência textual e metadiscursiva

Identificação e foco Epistêmicos Apresentação de tópico e foco

Contrastes e comparações Obrigações e diretivos Elaboração de tópicoa.Não causalb.Causa e efeito

Deiticos e locativos Expressões de habilidade e possibilidade

Marcadores discursivos

Marcadores de imprecisão Avaliação

Intenção/desejo, previsão

Page 11: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Resultados

Baseados nos pacotes lexicais mais frequentes (10 por milhão)

a categoria mais frequente expressões referenciais

Page 12: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

LOCNESS10 more frequent 3-word bundles

Bundle raw freq norm freq wp1m categoryTHE FACT THAT 163 503,077 A1aIN ORDER TO 130 401,227 C3bONE OF THE 123 379,623 A2THE UNITED STATES 117 361,104 A4THAT IT IS 104 320,982 A1aBE ABLE TO 95 293,204 B3THERE IS NO 94 290,118 A2IT IS NOT 83 256,168 A2DUE TO THE 82 253,082 C3bBECAUSE OF THE 79 243,823 C3b

Page 13: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

ICLE10 more frequent 3-word bundles

Bundle raw freq norm freq wp1m categoryA LOT OF 2473 656,225 A1cIN ORDER TO 2272 602,888 3CbONE OF THE 1801 477,906 A2IT IS NOT 1580 419,262 A2ON THE OTHER 1565 415,282 A3THERE IS NO 1468 389,542 A2THE FACT THAT 1369 363,272 A1aIT IS A 1367 362,741 A2THE OTHER HAND 1362 361,414 A3THERE IS A 1302 345,493 A2

Page 14: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Br-ICLE10 more frequent 3 word-bundles

Bundle raw freq norm freq wp1m categoryIN ORDER TO 83 521,416 C3bA LOT OF 69 433,466 A1cTHE OTHER HAND 45 282,695 A3 ON THE OTHER 45 282,695 A3TO HAVE A 40 251,285 A2AS WELL AS 35 219,874 C4IT IS NOT 32 201,028 A2THE FACT THAT 31 194,746 A1aIN THE WORLD 31 194,746 A4TO GET A 29 182,181 to-clause

Page 15: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Diferenças quantitativas – expressões referenciais(frequência bruta / frequência normalizada)

LOCNESS ICLE Br-ICLE

the fact that 163 / 503,1 1369 / 363,3 68/427,2

that there is 33 / 101,8 653 / 173,3 35/213,6

the number of 65 / 200,6 644 / 170,9 45/282,9

Page 16: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

LOCNESSN Concordance

131 counties self-sufficient, due to the fact that during the war counties like

132 do little to eliminate the problem due to the fact that there would be less

133 rewarded job. Perhaps this is due to the fact that women have successfully

134 forgotten, yet just as important. Due to the fact that the child cannot speak or

135 cities would cost billions due to the fact that it costs £1million a mile of

136 commits a fallacy and that only adds to the fact that he presents a weak

137 still won the title outright due to the fact that they played a higher ranked

138 but his charge was dismissed due to the fact that Michigan has no law against

139 entered into. In some marriages due to the fact that the wife does not work, she

140 and eighth grade years partly due to the fact that the number of black

141 the perpetrater knew. This is due to the fact that human beings tend to

142 other hand, maybe it's simply due to the fact that the crucial task of raising

143 intra venous prescriptions due to the fact that they thought he could pass

144 to add worth to the cause due to the fact that they are prepared to make

145 schools. Supporters often point to the fact that teen pregnancy, violence,

146 stays with him but this is largely due to the fact that he chooses the wrong

147 Guilt is implicit in the account, due to the fact that it is focalized through the

148 refers to Dante's Hell and alludes to the fact that Amsterdam is his wordly

149 french realised that a defeat was due to the fact that they were not a strong

150 writes, . This is somewhat true due to the fact that the limited genetic

151 does not deserve to "care" for it. Due to the fact that the child is biologically only

152 the mother may feel left out. Due to the fact that she did not bear the child

153 are looking for an easy solution due to the fact that they are af raid of death,

Page 17: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

ICLE

N Cluster Freq. Length

1 DUE TO THE FACT THAT 95 5

2 AWARE OF THE FACT THAT 62 5

3 IN SPITE OF 39 5

4 SPITE OF THE FACT THAT 38 5

5 THE FACT THAT IT IS 35 5

Page 18: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Br-ICLEN Concordance

51 Unfortunately, they overlook the fact that our desire to have higher

52 Internet or communication satellites. The fact that globalization has brought

53 of the people meet. In that sense, the fact that television has taken the

54 will consider arguments for supporting the fact that dreams and imagination are

55 democratic way of entertainment due to the fact that there is a wide variety of

56 to watch TV the whole afternoon, due to the fact that their parents are out

57 to rehabilitate them? Mainly, due to the fact that law is not strictly obeyed:

58 which is not active anymore, due to the fact that there was a massacre there

59 and imagination. This is due to the fact that one feels constantly

60 “panis et circensis”? It refers to the fact that people in the great Roman

61 the course does not have value due to the fact that it does not focus on the real

62 are becoming lazy thinkers due to the fact that now we computers and

63 situation that needs attention, due to the fact that the people are

64 have reduced their value to zero, due to the fact that some of them are only

65 obviously decadent and outdated due to the fact that it can not deal with the

66 important tools, society must face up the fact that each year, larger numbers

67 and people in general, mainly when the fact that Brazilians spend long hours

68 in Brazil is the one related with the fact that all politicians are robbers

Page 19: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Resultados: expressões de julgamento Baixa frequência de expressões no

BR-ICLE Atenuadores e marcadores

epistêmicos Maior frequência de expressões

De obrigação e diretivas De habilidadade e possibilidade Avaliação

Há diferenças quanto à frequência

Page 20: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada)

LOCNESS ICLE Br-ICLEseems to bemay not be

26 / 80,323 / 71,0

745 / 197,7134 / 35,6

21 / 56,54 / 12,6

according to

30 / 92,6 452 / 119,9 27 / 119,4

have to beit should be

51 / 157,424 / 74,1

574 / 152,3 325 / 86,2

19 / 119,49 / 56,5

be able to 95 / 293,2 1154 / 306,2 39 / 245,0

the most important

22 / 67,9 830 / 220,2 38 / 238,7

Page 21: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Resultados sobre os pacotes de organização discursiva

Mais marcados pragmaticamente Enfatizados em sala de aula

Page 22: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada)

LOCNESS ICLE Br-ICLE

in order to 130 / 401,2 2272 / 602,9 167 / 1049,1

due to the 82 / 252,1 440 / 116,8 36 / 226,2

because of the

79 / 243 679 / 180,2 24 / 150,8

as a result 45 / 139,0 731 / 194,0 27 / 169,6

Page 23: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Conclusões Similaridades entre os corpora

Alta frequência de expressões referênciais Gênero

Diferenças Frequência das expressões de julgamento e de

organizadores discursivos Próximos passos

Ajustes Metodológicos Sobreposição de pacotes

Necessidade de considerar pacotes maiores (?) Recontagem

Corte de 10 por milhão Br-ICLE (pacotes que ocorrem em somente 2 redações)

Page 24: PACOTES LEXICAIS EM CORPORA DE APRENDIZES

Próximos passos Ajustes Metodológicos

Sobreposição de pacotes Necessidade de considerar pacotes maiores (?)

Classificação Manual de todos os pacotes de 3 e 4 palavras Distribuição e padrões de uso de cada categoria

Bundle analyzer Estudo da composição dos pacotes

Porque há dificuldades para classificá-los todos de acordo com a taxonomia pragmática/funcional

Estrutura dos pacotes – itens fixos e variáveis Produtividade dos pacotes apropriados e não

apropriados