63
文文文文文文文文 文文文文文文文文 文文 文文文文文 文文 文文文文文 张张张 张张张张张张张张张 张张张张张 ISO/IEC IRG 张张张 张张张 张张张张张张张张张张张 CEO [email protected] 2003-11-05 文文 文文文文文文文文文文文文文

文字信息国际标准 进展,问题与思考

  • Upload
    jett

  • View
    178

  • Download
    0

Embed Size (px)

DESCRIPTION

文字信息国际标准 进展,问题与思考. 张轴材 语言文字应用研究所 客座研究员 ISO/IEC IRG 汉字组 召集人 书同文数字化技术有限公司 CEO [email protected]. 2003-11-05 长沙 全国语言文字信息化工作会议. 为什么此处只谈文字信息化?. 对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础. 文字信息化的最基本的任务. - PowerPoint PPT Presentation

Citation preview

Page 1: 文字信息国际标准 进展,问题与思考

文字信息国际标准文字信息国际标准进展,问题与思考进展,问题与思考

张轴材 语言文字应用研究所 客座研究员ISO/IEC IRG 汉字组 召集人书同文数字化技术有限公司 CEO

[email protected] 长沙 全国语言文字信息化工作会议

Page 2: 文字信息国际标准 进展,问题与思考

为什么此处只谈文字信息化?为什么此处只谈文字信息化?

对语言信息化标准的进展缺乏了解 个人充其量只有一些“数量文字学”的概念 字词语,字是基础; 文字信息化是语言信息化的基础

Page 3: 文字信息国际标准 进展,问题与思考

文字信息化的最基本的任务文字信息化的最基本的任务

建立传统的真实世界的文字(古今中外)与计算机世界(虚拟世界)的联系:编码汉字 - 汉字编码 Character Encoding ≠IME 编码汉字是文字在计算机内最基本的表达形式

Page 4: 文字信息国际标准 进展,问题与思考

文字编码特点文字编码特点

按文字编码,而不是按语言、国度、地域编码; CJK 汉字统一编码。 按抽象字形编码,而不是按字音、字义编码,也不是按具体造型编码。 体系结构与过去 ISO 2022 迥然不同 在基本多文种平面, 16 比特全编码

Page 5: 文字信息国际标准 进展,问题与思考

ISO 2022 vs. UCS 16-Bit FISO 2022 vs. UCS 16-Bit Full Encoding ull Encoding 编码结构编码结构

UCS/Unicode 完全不同于 Code Page !!!

Page 6: 文字信息国际标准 进展,问题与思考

文字信息标准化的集中体现文字信息标准化的集中体现ISO/IEC 10646 & UnicodeISO/IEC 10646 & Unicode

80 年代末启动 ISO/IEC 10646-1:1993 = GB 13000 ISO/IEC 10646-1:2000 + CJK_A, 蒙 , 藏,彝,朝… ISO/IEC 10646-2:2001 + CJK_B, Tai Le, Yijing… ISO/IEC 10646-2003 = Unicode 4.0 Amendment 1 to 10646-2003 开始

Page 7: 文字信息国际标准 进展,问题与思考

Amendment Now ?Amendment Now ?未出版就开始作补编?未出版就开始作补编?

Yes ! 好像 IT 的特点。文字的信息技术标准像软件一样,版本不断更新。( e-Publishing 的驱动力)标志着文字的信息化步伐加快,正向深度和广度进军。对此要有足够的认识。不能拘泥于旧式的老套套、老本本。

Page 8: 文字信息国际标准 进展,问题与思考

广 度广 度 - - 文种的扩充文种的扩充 古波斯文 古希腊文 古希腊音乐符 巴斯巴文 西双版纳傣文 国际音标 IPA 扩充 古汉字:隶,篆,甲骨,…

Page 9: 文字信息国际标准 进展,问题与思考

深 度深 度

文字属性 (Characteristics) 的扩充 SC2 职能的扩大 (SC20 Character Ordering 纳入 SC2 ) UCA : Unicode 4.0 Collation Algorithm 理序算法

Page 10: 文字信息国际标准 进展,问题与思考

深 度深 度

国际基本汉字子集 International Basic CJK Ideograph Subset, 结合国家规范汉字表定义之。( IRG#21 ) WG2 决议: SuperCJK Database 纳入字典指针:康熙字典、汉语大字典、大汉和、大字源。 Signifying / Signified 能指 / 所指明晰化 。例: U+082B8 signifies 艺,芸,藝。指向了最主要的形音义属性。

Page 11: 文字信息国际标准 进展,问题与思考

深 度深 度 从汉字的“水平认同”走向“垂直关联” 简繁异体汉字的关联(有方向性、耦合强度、时间性、合法性等问题,略) 中文域名的简繁异关联已经提上日程 清华大学 = 清華大學 = 淸蕐大學

Page 12: 文字信息国际标准 进展,问题与思考

深 度深 度

Variant Selector 异体字选择符 USI=Unique Sequence Identifier 具有特异性的序列标识符,亟待研究 …

Page 13: 文字信息国际标准 进展,问题与思考

问 题问 题

全球化步伐加快,我体制跟不上 美国 -微软 -Unicode 形成强势难敌 我缺乏有效参与: Tai Lue, Phags-Pa 与 IT 界结合不紧密,未形成合力 长“坐而论”,偶“起而行”。

Page 14: 文字信息国际标准 进展,问题与思考

思 考思 考

一个文字发源于、应用于一个国家,但是它并不只属于这个国家。这个文字信息的标准化步伐并不完全以我们的意志为转移。 只有积极地参与、介入国际标准的开发,才能处于主导的地位。

Page 15: 文字信息国际标准 进展,问题与思考

思 考思 考

国家信息化,电子政务、电子政务、电子商务、数字图书馆、电子出版、电子教育,语言文字信息化是先行官,文字信息标准化是基础。 紧紧把握文字标准化的要点,做好高层协调、多方协作;掌握文字信息的核心资源、推动文字技术的核心技术开发。

Page 16: 文字信息国际标准 进展,问题与思考

思 考思 考

高度重视汉字属性 -知识库的建设 (Attributes - Characteristics) 发掘汉字的深层内涵,引导语文信息化发展。 文字信息标准化工作从 IT 界为主应当尽快转向文字工作者为主; 对以藏文为代表的民族文字信息化的走向做出果断的、正确的决策。

Page 17: 文字信息国际标准 进展,问题与思考

最主要的建议最主要的建议

期望国家语委真正担当起语言文字信息标准化的领导者的角色。 抓大放小,有所不为,保证重点。组织落实、任务落实、项目落实、经费落实。

Page 18: 文字信息国际标准 进展,问题与思考

谢谢!问题?谢谢!问题?

IRG: www.cse.cukh.edu.hk\~irg

UniHan: www.unihan.com.cn

Email: [email protected]

Page 19: 文字信息国际标准 进展,问题与思考
Page 20: 文字信息国际标准 进展,问题与思考

CJK 汉字 CJKA

CJK B CJK C

CJK D

汉字 形

n-Gram

音 义 码 频 序 简 繁 异

n-Gram 属性

词属性:音频义,同反义

语属性:音频义,同反义

国家语言文字资源建设—汉字属性数据库 HADB

属性 Characteristics

语词字

Page 21: 文字信息国际标准 进展,问题与思考

汉字属性数据库汉字属性数据库 HADB HADB vs.vs.

汉字知识平台汉字知识平台 HKPHKP

HADB 是 HKP 的基础: Hanzi Knowledge Platform 语言工作的编纂平台 HADB 是链接传统字书、辞书的纽带HADB 是挂接语料库的桥梁

Page 22: 文字信息国际标准 进展,问题与思考

汉字知识平台汉字知识平台 HKP-HKP-Authoring ToolAuthoring Tool

Operating System & Data Base Manager

HADB汉字属性库

Full Text RetrievalEngine OCR Engine

E- 字书集DictBank

语料库 CorpusSet

例证提取询经问典

Page 23: 文字信息国际标准 进展,问题与思考

ISO/IEC 10646 GB 13000

• GB 13000 ≠GB 18030

• GB 18030 = GBK 再扩充

Page 24: 文字信息国际标准 进展,问题与思考

文字定义文字定义 (Script≠Languag(Script≠Language)e)

Script : A set of graphic charact

ers used for the written form of

one or more languages

用于一种或多种书面形式的语言的图形字符的集合

Page 25: 文字信息国际标准 进展,问题与思考

CJK Unification

中日韩汉字统一编码

Page 26: 文字信息国际标准 进展,问题与思考

CJK Unification

中日韩汉字统一编码

Page 27: 文字信息国际标准 进展,问题与思考

CJK Unification

中日韩汉字统一编码

Page 28: 文字信息国际标准 进展,问题与思考

CJK Unification

中日韩

汉字

统一编码

Page 29: 文字信息国际标准 进展,问题与思考

CJK Unification

中日韩汉字

统一编码

Page 30: 文字信息国际标准 进展,问题与思考

CJK Unification

中日韩汉字

统一编码

简繁不认同

Page 31: 文字信息国际标准 进展,问题与思考

CJK Unification中日韩

汉字

统一编码

结构不同

不认同

Page 32: 文字信息国际标准 进展,问题与思考

CJK Unification源字集

分离者

不认同

Page 33: 文字信息国际标准 进展,问题与思考

CJK Unification 源字集分离者不认同

Page 34: 文字信息国际标准 进展,问题与思考

CJK Unification Rule

中日韩汉字认同规则

Page 35: 文字信息国际标准 进展,问题与思考

汉 字汉 字 编码的 +未编码的 以 CJK + CJK_A为基础 以国际基本汉字子集 BIIS ∋国家规范汉字为重点 加入 CJK_B 以后加入 CJK_C 古汉字 汉字系其他字

Page 36: 文字信息国际标准 进展,问题与思考

形 – 字形,字种及其代表形 – 字形,字种及其代表 典型字样 中日韩、大陆港澳台特征 部首 0 + (部首 1 )

康熙部首 汉语大字典 200部首

部首外笔画数 总笔画数 笔顺序列

Page 37: 文字信息国际标准 进展,问题与思考

音 音 汉语拼音 +调 ( +n 多音) 注音 BoPoMoFo+调 (+n 多音 ) 反切 CTS : Character To Speech 单字发声引擎 Katakana 日文发音

Page 38: 文字信息国际标准 进展,问题与思考

义 义

现代字义 古代字义 主要 /次要字义 在主要字典中的义项 摩登新义:“酷”,“靓” 港台变义 日文字义

Page 39: 文字信息国际标准 进展,问题与思考

码码

ISO/IEC 10646 Code=Unicode GB 2312 GBK Big5 – CNS 11643 ShiftJIS – JIS HKSAR Code 电报码 K,V,……

Page 40: 文字信息国际标准 进展,问题与思考

频频

• 平衡语料中字频• 古籍语料中字频• 现代社会生活“当今字频”

Page 41: 文字信息国际标准 进展,问题与思考

古籍字频古籍字频书同文公司八亿古籍语料统计书同文公司八亿古籍语料统计

1 1- 100图表 ( )

35. 97%

0. 00%

11. 00%16. 15%

19. 90% 22. 99%

25. 82%28. 22%

30. 34%32. 36%

34. 25%

0%5%10%15%20%

25%30%35%40%

0 10 20 30 40 50 60 70 80 90 100

字头(Hanzi)

覆盖

率(C

overage)

Page 42: 文字信息国际标准 进展,问题与思考

古籍字频古籍字频

2 100- 500图表 ( )

35. 97%

43. 15%

48. 71% 53. 15%

56. 83% 59. 99%

62. 72%65. 08%

67. 19%

35%

40%

45%

50%

55%

60%

65%

70%

100 150 200 250 300 350 400 450 500

字头(Hanzi)

覆盖

率(C

overage)

Page 43: 文字信息国际标准 进展,问题与思考

古籍字频古籍字频

3 500- 1000图表 ( )

80. 96%

67. 19%

70. 88%

74. 00% 76. 66%

78. 97%

65%

70%

75%

80%

85%

500 600 700 800 900 1000

字头(Hanzi)

覆盖

率(C

overage)

Page 44: 文字信息国际标准 进展,问题与思考

古籍字频古籍字频

4 1000- 10000图表 ( )

80. 96%

91. 65%

95. 66%

97. 55%

98. 55%

99. 10%

99. 43%

99. 62%

99. 73%

99. 81%

80%

85%

90%

95%

100%

1000 2000 3000 4000 5000 6000 7000 8000 9000 10000

字头(Hanzi)

覆盖

率(C

ov

erage)

Page 45: 文字信息国际标准 进展,问题与思考

古籍字频古籍字频

5 10000-30136图 ( )

99. 81%

99. 86%

99. 89% 99. 91%

99. 93% 99. 95%

99. 96%99. 97%

99. 97%99. 98%

99. 98%

99. 80%

99. 85%

99. 90%

99. 95%

100. 00%

10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 20000

字头(Hanzi)

覆盖

率(C

overage)

Page 46: 文字信息国际标准 进展,问题与思考

古籍字频统计 样张古籍字频统计 样张

Page 47: 文字信息国际标准 进展,问题与思考

古籍字频古籍字频 -- 中日韩标准对古籍的覆盖率中日韩标准对古籍的覆盖率

KBGTJ

5680

19172

62084607

12940

370

72. 57%

99. 28% 95. 57%

1. 39%

91. 91%

95. 26%

Go GBK J o J o+ Ko Bi g5

字符集

使用字·覆盖率

使用字

覆盖率

Page 48: 文字信息国际标准 进展,问题与思考

古籍字频古籍字频 - - 随机查询、关联查询随机查询、关联查询

国家语委十五科技攻关重点项目之一书同文公司开发辅助软件

古籍字频查询示例

Page 49: 文字信息国际标准 进展,问题与思考

例:查询前若干个高频字例:查询前若干个高频字

Page 50: 文字信息国际标准 进展,问题与思考

例:关联字字频查询例:关联字字频查询

Page 51: 文字信息国际标准 进展,问题与思考

序 序 Ordering & CollatingOrdering & Collating

• 在指定集合中• 以总笔划为序,横竖撇点折……• 以拼音为序• 综合理序(一二三四五怎么排序?)

Page 52: 文字信息国际标准 进展,问题与思考

简繁异简繁异 -- 单字关联单字关联

关联属性:简繁?正异?新旧?古今?通假?中日?正讹?避讳?…… 耦合强度 转换方向 - 对应方向:语境相关 语词背景 Context 代码转换 vs. 简繁转换

Page 53: 文字信息国际标准 进展,问题与思考

大量的异体字相互关联 Variants

Inherently Associated Each Other

簡體 - 繁體關係:简 / 簡 正體 - 異體關係:修 / 俢 兔 / 兎 刃 / 刄正字 - 訛(譌)字:久 / 乆 派 / 泒 叐 / 犮通假 - 被通假:詳 / 佯古今字:镸 / 長新舊字形:青 / 靑 說 / 説 媪 / 媼中日:売 / 卖 図 / 图 单 / 単形近異義字:义 / 叉 刺 / 剌 諫 / 諌避諱字:弘 / 玄 / 燁 / 胤 / 禛 /

Page 54: 文字信息国际标准 进展,问题与思考

异体字存在于多个代码页• Many Code Pages - Before

團団 JIS

GB團

Big5

KSC

Page 55: 文字信息国际标准 进展,问题与思考

异体字被归纳在一个统一的体系内

• Many Code Pages - Before

• Single Code Set – Now !

团 -團 -

団 Unicode/

CJK

Page 56: 文字信息国际标准 进展,问题与思考

檢索字串 匹配數目 查詢時間(ms)

無 有 無 有 無 有

荊軻

荊軻

荆轲

1 42 130 316

Page 57: 文字信息国际标准 进展,问题与思考

例:文字关联帮助读者检索

說説文

Page 58: 文字信息国际标准 进展,问题与思考

再例:文字关联帮助读者检索

渕小渊

Page 59: 文字信息国际标准 进展,问题与思考

词、语词、语

现代词库 10万? 古汉语词库 20万? 新词 (按揭,丁克, Kiosk ) 同义词库 ( 不一定符合传统语言学,孙中山 =孙逸仙 =孙文, OpenType = Open Type) 专业词库

Page 60: 文字信息国际标准 进展,问题与思考

nGramnGram

不一定具有语言学的意义,但对信息技术有利。例: Bigram “ 子曰”的高频度,有利于排除“子日”,“于曰”…

Page 61: 文字信息国际标准 进展,问题与思考
Page 62: 文字信息国际标准 进展,问题与思考
Page 63: 文字信息国际标准 进展,问题与思考