26
语语语语语语 1 语语语 ,: 以以以以以以以以以以以以以以以以以以以以以以以以以 以以以以以以以以以 “以以”以以以以以以以以以以以以以 以以以以以以以以以 以以以以以以以 。, 以以以以以以以以以 以以以以以以 以以以以以以以以以以以以以 以以以以以 ,,体 以以以以 以以以以以以以以以以以以 以以以以以以以以以以以以 以“以”以 ,。, “以以”以以以以以以以以以以以以以以 以以以以以以以以以以以以以以以以 以以以以以以以以以以 以以以以 以以以以以以以以以以以以以以 ,体。

语料库语言学

  • Upload
    laasya

  • View
    56

  • Download
    1

Embed Size (px)

DESCRIPTION

语料库语言学. 1 ,定义: 以往语言学家总是根据自己的语感来判定语言形式的意义,这样归纳出来的所谓“义项”在实际的话语中难免捉襟见肘。而要解决这个问题,最根本的办法就是广泛收录真实语料,建立语料库,对语言形式的语用状况的整体格局进行细致的调查,提示边界模糊的语义范畴。如果不采取这种研究手段,像“能”的“意愿”用法这样重要的义项就难以发现。语料库语言学的研究方法将为词典编纂提供可靠的科学依据,全面地体现语言形式的语义和用法全貌。. - PowerPoint PPT Presentation

Citation preview

Page 1: 语料库语言学

语料库语言学

1 ,定义:• 以往语言学家总是根据自己的语感来判定语言形式的意义,这样归纳出来的所谓“义项”在实际的话语中难免捉襟见肘。而要解决这个问题,最根本的办法就是广泛收录真实语料,建立语料库,对语言形式的语用状况的整体格局进行细致的调查,提示边界模糊的语义范畴。如果不采取这种研究手段,像“能”的“意愿”用法这样重要的义项就难以发现。语料库语言学的研究方法将为词典编纂提供可靠的科学依据,全面地体现语言形式的语义和用法全貌。

Page 2: 语料库语言学

• 富士通研究开发中心和北京大学计算语言学研究所从 1999 年 4 月起,以人民日报 1998 年上半年的语料为对象,合作制作大规模汉语标注语料库。富士通研究开发中心已使用这个标注语料库的部分成果,尝试研制汉语切分系统。 1999 年 11 月4 日,富士通研究开发中心在北京举行了题为《大规模汉语标注语料库的制作与使用》的研讨会。北京大学俞士汶教授作了题为《大规模汉语标注语料库的制作》的报告,富士通研究开发中心松井久仁於主管研究员作了题为《基于标注语料学习的汉语切分系统的研制》的报告。

Page 3: 语料库语言学

• 在 20 世纪 70 年代,美国制作了著名的 Brown Corpus 。当时语料库的规模大约在百万词左右,语料的种类也仅限于文本。进入 80 年代后,英国制作了标注语料库 LOB Corpus ,同时还制作了语音语料库 Birmingham Corpus 。这一时期语料库的特征是比 70 年代规模大,种类也丰富得多。 90 年代之前的语料基本上英语的。 90 年代以后,英语以外的语料也出现了,比如日本的 EDR 语料, NHK 的新闻稿语料,日本经济新闻 10 年语料,以及人民日报 50 年语料。

• 富士通和北京大学共同制作的半年人民日报(约 1,300 万汉字)标注语料库是迄今为止世界上规模最大的之一 [1] 。图 1 表示世界上主要语料的现状。

Page 4: 语料库语言学

• 语料库大体上有以下这些种类。• -文本 / 语音• -口语 / 书面语• -单语种 / 多语种• -带标注 / 不带标注 已有的标注有:词性标记,短语标记,格

关系,依存关系,语法树,语义

Page 5: 语料库语言学

• 北大与富士通合作制作的是上面各种类型中带下线的:即单语种书面语的文本语料库,对语料进行了词语切分和词性标注,并且对短语型专有名词加了标注。

Page 6: 语料库语言学

• 汉语书面语文本和其它语言相比,有以下特点:• 基本上都是汉字,词与词之间没有间隔。汉语没有日语

那种黏着于实词的助词• 汉语的词没有形态变化。英语和日语的动词、形容词都有

词尾变化。这些词尾变化为词性标注提供了较多的信息。• 汉语的词在使用时既没有形态变化,又表现出多功能性,

在使用时也没有形态上的变化这个特点给词性标注带来本质性的困难。

• 正是由于汉语有以上特点,由人工编写适用于大规模文本的词语切分规则和词性标注规则几乎是不可能的。目前汉语词语切分和词性标注软件的精度尚不能完全满足实用的要求,影响了汉语自然语言处理技术的发展和应用。

Page 7: 语料库语言学

三、大规模汉语标注语料库的制作3.1 规范的制订⑴ 词语切分的规范尽可能同中国国家标准

GB13715“ 信息处理用现代汉语分词规范”配套⑵ 词性标注使用小标记集。合计约 40 个左

右标记。⑶ 与已有资源的配合。⑷ 针对新闻语料的特点,对专有名词进行

了细致的标注。⑸ 规范的多元性。

Page 8: 语料库语言学

• 3.2 切分标注软件的开发• 大规模语料的加工不可能单靠人力完成。从 1992

年起,北大计算语言所就开始了语料库多级自动加工的研究 [6] 。从 1993 年开始开发基于《现代汉语语法信息词典》的“词语切分与词性标注”软件 [7] ,经 3届博士研究生的改进与发展,并经很多用户检验,现在已相当成熟:速度快,精度高。这些基本资源和工具的存在使得本项工程所需投入的人力、费用减少到可以承受的程度。

Page 9: 语料库语言学

• 切分句子时,切出所有的可能的切法,用词典中单词出现的概率和语法规则中词性和词性的连接概率,计算所有切法的概率总值,概率值最大的为第一候选。下面是例句「我去北京」的所有切分结果。但「我 /r 去 /v 北京 /ns」的值最大,是第一候选。其中 r 是代词, v 是动词, vn 是动名词, ns 是地名, f 是方位词, j 是缩略语, Vg 是动语素。

Page 10: 语料库语言学

• 思考练习• 1 ,对比你用过的电脑查询系统,比较它们

的自动化程度与人机对话的理解程度。• 2 ,利用检索软件,对比其查询功能的异同。

Page 11: 语料库语言学

• 统计语言学• 语言与言语的关系:• 语言规律的发现:• “例不正不立法”• “最重要的语言规律总会在量的分布上表

现出来”• 数理语言学

Page 12: 语料库语言学

语料库语言学• “语料库语言学已经成为语言研究的主流。基于

语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。

• (汤姆斯 1996 年为祝贺语料库语言学的主要奠基人与倡导者的研究论文集而写)

Page 13: 语料库语言学

• 语料库,就是存放语言材料的仓库。传统上,语言学家用语料库这个术语表示可作为语言研究基础的、大量自然出现的语言数据。这些语料库可以由书面语和(或口语)的样本组成,并通常被用来代表一定的语言或语言变体。在计算机出现之前,研究者——特别是词典编纂者,也有语料库,只是规模小、范围窄。近 40 年来,语料库通常指以电子形式保存的语言材料,并被广泛用于语言研究和语言工程。

Page 14: 语料库语言学

• 随着计算机功效的成倍增长,语料库在规模、多样性和使用方便等方面都发生了剧烈的变化。与此同时,为了存取和加工语料库所拥有的信息,已经开发了大量专用的软件。计算机语料库迅速成为语言研究的一种普遍资源,现在世界上已经建立了许多规模较大的语料库。

Page 15: 语料库语言学

定义:• 1. 以现实生活中人们运用语言的实例为基础进行的语言研究,称为语料库语言学。( McEnery & Wilson,1996)

2. 以语料为语言描写的起点,或以语料为验证有关语言假说的方法,称为语料库语言学。( Crystal,1991)

Page 16: 语料库语言学

• 语料库语言学与“统计语言学”“实证语言学”“计量语言学”有密切关系。是后者的基础性学科。

• 语料库语言的哲学基础是经验主义;与此相对的是理性主义、先验主义。语料库的语言研究方法是归纳法、重统计;与之相对的是演绎法,重推理。

Page 17: 语料库语言学

语料库语言的发展历史:1.早期的语料库语言学: 指 20 世纪 50 中期以前,即以乔姆斯基提出转换生成

语法理论之前的所有语言材料的语言研究。主要运用领域“语言习得”“方言学”“语言教学”“句法和语义”“音系研究”。

1959 年夸克着手建立“英语用法调查”语料库; Francis 和 Kucera 开始建立非常著名的“布朗语料库”。费时 20 年。“ Brown Cprpus ),以共时原则采订不同主题的英语样本,总规模为一百万词次,目的是研究美国英语。

Page 18: 语料库语言学

1975 年 Jan Svarvik 开始建造“伦敦 -隆德语料库”( London-Lund Corpus)

2. 语料库语言学的复苏:第二代语料库相继建成。以柯林斯——伯明翰英语

语料库( COBUILD )为代表。LOB 语料库(兰卡斯特 -奥斯陆 -卑尔根语料库),

500 个样本,每个样本两千词次,总规模一百万词次)

法语语料库:语料的跨度从 7 世纪到 20 世纪,包括各种样本两千个,总规模 1.5亿词次。

Page 19: 语料库语言学

《现代汉语频率词典》

Page 20: 语料库语言学

语料库语言学复苏的原因

1. 计算机科学的飞速发展与普及应用,为语料库语言学的复苏提供了强大的物质基础。

2.认识到基于统计与基于内省的方法各有所长。“从科学方法的角度,语料库方法是一种更为强有力的研究方法,因为其结果是可以验证的。( Leech , 1991 )

Page 21: 语料库语言学

语料库语言学的研究内容

1. 语料库的建设与编纂(陈原《汉语语言文字信息处理》,上海教育出版社, 1997 )内收刘连元《现代汉语语料库研制》

A :规划 plannignB :设计 desing (通用性原则;描述性原则;实用

性原则;抽样原则)C :选材 selection (语料分类;语料年限;语料描述信息;语料样本;选材细则

D :建库 creationE :标注 annotation

Page 22: 语料库语言学

• 人文与社会科学类语料占语料总量 59.6% 。• 自然科学类占 17.24% 。• 综合类语料占 9.36% 。• 报纸类语料 13.79% 。

现代汉语 7000 万字通用语料库

Page 23: 语料库语言学

现代汉语 7000 万字通用语料库• 核心语料库收入七类不同门类和来源的语料,

其中社科 1000 万字,教材 700 万字,科普 50万字,科幻 10 万字,应用文 10 万字,报纸 150 万字,刊物 120 万字。

• 社科语料分五个时期, 1930-1939 年,占 5%;1940-1949 年,占 10%; 1950-1965 年,占25%; 1966-1976 年,占 5%; 1977 年至今,占 55% 。

• 报刊语料也分五个时期: 1930-1939 年,占 5%; 1940-1949 年,占 10%; 1950-1965 年,占 20%; 1966-1976 年,占 5%; 1977 年至今,占 60% 。

Page 24: 语料库语言学

2. 语料库的加工和管理技术3. 语言研究中的语料库的使用4. 语料库语言学在计算语言学中的应用

Page 25: 语料库语言学

语料库语言学的对立面

• 介绍一下语料库语言学的对立面:• ( 这时主宰世界语言研究的是乔姆斯基的理性主

义,认为语言是人与生俱来的功能与装置。)• 自然语言句子的数量是无限的,是任何有

限的语料所不可能穷尽的。语料永远是不充分的。

Page 26: 语料库语言学

思考与练习• 观察一个语料库,分析其语料构成、性质、

作用。并进行 2-3 个专题的查询。查询内容自定。