Upload
others
View
13
Download
0
Embed Size (px)
Citation preview
计算辅助翻译原理与实践 俞敬松
机器翻译与本地化工程概论(下)Introduction to Machine Translation and Localization Engineering
http://www.mandmx.com/2012/10/15/the-importance-of-learning-a-foreign-language/
什么是 ‘global economy/society’ ?
“… new economy is global because the central
activities of production, consumption and
circulation, as well as their components (capital,
labour, raw materials, management, information,
technology, markets), are organized on a global
scale, either directly or through a network of
connections between different economic
agents”. (Cronin 2003)
GILT? GILT! 跨越语言障碍的努力
Globalization 全球化
Internationalization 国际化
Localization 本地化
Translation 翻译
图片来自小米手机-MIUI国际站
G11N L10N I18N
经济全球化与语言的全球化
•“Translation partakes both of the Self and of
the Net”. (Cronin 2003)
强势语言• 某些语言具有文化、科技、政治的优势而广泛使用,导致语言趋同,升值成为中间语言。
语言多样性• 因为文化、主权、情感等多种因素,语言多样性成为很多地区、很多社群人们的诉求。
经济全球化与语言的全球化
•互相牵制、互相影响的两种工作:
Internationalization
本地化:让一款已经设计完成的产品根据特定地区
市场的需求进行裁剪、修改和补充完善。
国际化:设计一款产品使其可以很容易被世界上
其他地区人们所接受;
Localization
全球化
国际化
翻译
本地化
全球化
国际化
本地化
翻译
•为使产品可以行销世界,而进行的一系列准备工作:
GLOBALIZATION:全球化
同时考虑国内和国际市场;
为本地化工作做好国际化准备;
对于消费类产品尤其重要;
需要有整套的保证措施,工作设计和规划;
整体的行为:从技术到市场,从销售到服务。
1
2
3
4
5
INTERNATIONALIZATION:国际化
•所有为使本地化工作更容易而进行的设计工作
•多种语言和文化习惯的内建支持
•比如电源插头
•文字输入、显示、打印就够了?
•排序!货币符号,特殊排版习惯……
图片来自于Internet 搜索引擎
LOCALIZATION:本地化
•为了让产品适合当地市场而做出的从语言、文化到技
术的所有努力和工作:
1. 以跨语言、跨文化交流为基础
2. 以商业目的的达成为依归
3. 技术研发既是工作支撑,也是工作目标
•Globalization:(全球本土化?) 强调两方面的重要性
http://en.wikipedia.org/wiki/Glocalisation
不只遵从国际标准也注重在地的特点……
TRANSLATION:翻译
•语言转换:跨越语言、文化的交流和传播;
•本地化、国际化工作的核心内容;
•传统翻译是基础,此外还必须注意:
1. 技术支撑,CAT/Localization/PM 系统的广泛使用
2. 嵌入技术环境,“%1杀死了%2,获得了3%”
3. 服务于产品的商业目的(广义的翻译目的论)
翻译公司的变迁(服务内容扩大)
SDL International(必然伴随技术支撑)
TransPerfect Translation(整合解决方案)
TAUS 曾经认定的 翻译行业的变化
现代语言服务行业
•语言服务是以语言技术为技能和内容提供专业服务,它以
翻译为基础,但是已经 的范畴。
•语言服务保质保量的关键在于 和 的普及
和应用。
翻译
出版
技术写作 教育
咨询技术开发
多语种
规模化
专业化
市场化
全球化内容呈现
特征趋势
本地化在做些什么呢?
从文字翻译到语言服务工程
软件本地化的几个示例
网站本地化
网站本地化
游戏本地化
文档本地化
字幕与配音
程序的多语种支持
良好的本地化软件带来的好处
•更满意的用户体验
•降低用户认知负担
•用户更愿意长时间、深入的使用
•减少客户支持负担
更多的客户 更大的市场 更多的收入
本地化翻译的具体工作及工具
•文字载体:
•PDF、FM、Indd、HTML
•PHP、Java、Javascript
•XML……
•工作量:动辄几十万字 以亿为单位
•工具:
•格式转换工具、文件管理
•翻译记忆、术语库、机器翻译
•翻译管理工具……
•人力:几十甚至上百人的团队
•工作模式:敏捷开发、写作、翻译
本地化翻译的具体工作及工具
现代化翻译项目流程
项目需求项目分析
计划会议
前期设置翻译、编辑、
校对
内部计划与进度
项目总结和客户满意调查
客户复查
工程
DTP
语言复查
功能测试/最终语言QA
最后交付
抽样语言测试
软件本地化概要
软件系统是怎样拥有多语言支持的
软件本地化翻译工作的最美好的理想
翻译工作与程序开发彻底的分离:
1. 新的语言不必开发新的代码;
2. 翻译完成之后,不必重新编译;
3. 新增加语言,软件不需要重新测试;
4. 发行本地化版本不造成延误;
5. 新的发行和升级依然可以沿用旧版本的翻译;
6. 在别的软件上也可以重用翻译结果;
7. 翻译工作可以交给任何译员,即使这位没有任
何程序开发经验。
软件的内涵与外延
•软件核心的国际化支持几乎是必须的
•软件用户界面的翻译是最关键的
•技术写作是翻译工作顺利的基石
•软件周边的翻译/本地化工作占据了相当的工作量
CBTcomputer-based-training
UI
user interfaces
Marketing
packages, web
Documentation
manuals, help files
Support
customer, technical, web
国际化支持
document
document
document
文本档案
显 示
内 容
color, graphics, icons, symbols, display
organization
interface: menus, dialogs,messages, prompts, alerts,
document organization,writing system
date, time, calendar, currency, number, address
content: help files, auxiliarydocuments, HTML /
XML document content
metadata, vocabularies
non-linguistic
linguistic
—来自于Kent 大学Shreve 讲稿
结构-内容-呈现:层次清晰、分离
思想-结构-内容-呈现-交互层次之间互相独立
程序代码与文字输入输出
#include <stdio.h>
main() {
int n; char y[5];
printf("This program converts decimal numbers to
hexadecimal\n\n");
while(1) {
printf("\nEnter decimal number: ");
scanf("%d",&n);
printf("\nNumber entered is <%d> decimal and <%x>
hexa",n,n);
printf("\nDo you want to continue? ");
scanf("%s",y);
if(strcmp(y,"yes")) {
printf("\n exiting ..\n");
exit();
}
}
} 错误:显示给用户的字符串直接
写在程序内
注意:变量写在了语句内时,当心语序,特别是缺乏上
下文的时候
程序资源文件示例 (菜单可由此生成)
PortfolioMenu MENUBEGIN
POPUP "&File"BEGIN
MENUITEM "&Add Student",1MENUITEM SEPARATORMENUITEM "&Delete Student", 2MENUITEM SEPARATORMENUITEM "&Update Student", 3MENUITEM "E&xit", 4
ENDPOPUP "&Tools"BEGIN
MENUITEM "Add &Portrait", 5ENDPOPUP "&Help"BEGIN
MENUITEM "About Portfolio", 6MENUITEM SEPARATORMENUITEM "Contents", 7
ENDEND
注意:快捷键的定义,变换语言,按键通常不能变,于是失去了
助记的功能候
软件翻译时的质量控制检查清单(不完整列表)
字符集是否正确,兼容性
是否完整翻译了?
本地化内容中夹杂了格式标签、控制标签的时候的处理
有无非法标签(语法错),语义错误 (标签及文字的顺序)
由程序其他部分生成的动态文字或属性中的文字
源程序的格式指令是否适用于目标语言市场
图片是否也同步处理好了?
文字和图片的关系是否依然正确?
软件与说明书之间及其他媒体间是否保证了翻译的一致性?
本地化软件的功能
•格式处理
•待翻译段落、语句的抽取
•翻译过程中的支持(翻译记忆,术语管理)
•翻译过内容的放回
•多语言软件的测试支持(伪翻译)
•翻译工程项目的管理
软件本地化的部分最佳实践
•软件本身切割成程序和界面设计(资源文件)
•尽量引用操作系统级别的字符串处理功能
•尽量使用Unicode/UTF-8编码
•尽量使用程序和批处理作业模式,手工工作越
少,工作效率越高,且工作质量也越高
•从软件开发的源头起,包括核心部分、用户界
面及用户手册都要做到国际化支持
•整个团队都应该具有全球化的视野和策略安排
软件项目本地化实战过程
I18N受 控 语 言术 语 表
软件、软件帮助文档,说明书,市场宣传材料,………
帮助 文字
技术写作
L10N 本地化服务供应商
计算机辅助翻译 + 机器翻译
依赖关系、一致性控制
软件项目本地化支撑环境
L10N
本地化软件的发行版项目管理
工具及系统
本地化工具集合
工作流管理和优化 文档及文档管理
控制
译员 / 工程师
QA工具/测试软件/
软件的可用性评估
本地化工程项目
项目经理
翻译记忆
术语管理术语抽取工具
译员 / 工程师
Java 程序设计的国际化和本地化
最简单的一个示例
本节示例引用自: Alexander Schonfeld www.coolest.com/downloads/i18n-java.ppt在此谨向原作者表示感谢!
Java 程序改造为多语言支持的前后对比
System.out.println("Hello.");System.out.println("How are you?");System.out.println("Goodbye.");
执行结果
% java I18NSample fr FR
Bonjour.
Comment allez-vous?
Au revoir.
% java I18NSample en US
Hello.
How are you?
Goodbye.
代码区域的含义
1. 指示当前程序运行的语言环境
2. 根据网络浏览器、操作系统的标识,用户
的主动设定而确定
3. 影响所有与语言和地区相关联的地方,比
如排序、日期、时间、货币、数字等格式
•messages
•labels on GUI components
•online help
•sounds
•colors
•graphics
•icons
•dates
•Times
•……
•numbers
•currencies
•measurements
•phone numbers
•honorifics and personal titles
•postal addresses
•page layouts
•……
要翻译的内容
•Good!
为了翻译的便捷而进行的国际化设定
•BAD!
Button okButton = new Button(“OK”);
String okLabel = ButtonLabel.getString("OkKey");Button okButton = new Button(okLabel);
Java国际化程序范例
不同语言下的运行结果,注意细节…
currentLocale = en_US
At 1:15 PM on April 13, 1998, we attack the 7 ships on the
planet Mars.
currentLocale = de_DE
Um 13.15 Uhr am 13. April 1998 haben wir 7 Raumschiffe auf dem
Planeten Mars entdeckt.
请思考:• 遇到单复数的时候如何处理• 遇到主动、被动语态时如何处理?
Sample Run…
currentLocale = en_US
There are no files on XDisk.
There is one file on XDisk.
There are 2 files on XDisk.
There are 3 files on XDisk.
currentLocale = fr_FR
Il n' y a pas des fichiers sur XDisk.
Il y a un fichier sur XDisk.
Il y a 2 fichiers sur XDisk.
Il y a 3 fichiers sur XDisk.
345 987,246 fr_FR345.987,246 de_DE345,987.246 en_US
9 avr 98 fr_FR9.4.1998 de_DE09-Apr-98 en_US
•Good!
判断一个字符是否是字母
•BAD!
if (Character.isLetter(ch))// ch is a letter
if ((ch >= 'a' && ch <= 'z') || (ch >= 'A' && ch <= 'Z')) // ch is a letter
•预置的字符类型
•LOWERCASE_LETTER
•UPPERCASE_LETTER
•MATH_SYMBOL
•CONNECTOR_PUNCTUATION
•etc...
•isDigit ,isLetter
•isLetterOrDigit
•isLowerCase ,isUpperCase
•isSpaceChar
•isDefined
其他本地化处理上的麻烦
•单词、句子的边界(哪里可以折行?)
1. 不同的语言规则是完全不一样的
2. 要么逐语言写处理模块
3. 要么把处理函数抽象出来,主程序就可以自由书写,
实际处理函数随着新增语言写好
•各有优缺点
•从左到右的语言与从右到左的语言混排处理
•上下左右都有标记符号的语言混排处理
本地化需要的规范
无规则不成方圆,现代工业尤其如此
对本地化行业来说比较重要的一些标准规范
1. EN 15038:质量规范.
2. SRX (Segmentation Rules eXchange): 翻译单元的切分规则.
3. TBX (Term Base eXchange): 术语交换的格式.
4. TMX (Translation Memory eXchange): 翻译记忆交换格式.
5. UNICODE: 计算机处理多语言时的内码标准
6. XLIFF (XML Localization Interchange File Format): 为
了翻译处理其他文件格式的统一处理规范.
7. UAX#29, #14 (Unicode Annex 29, 14): Unicode处理多种语
言时的附加标准, 专门解决语言单位的额“边界”问题
参与制定标准的国际组织
1. ETSI: European Telecommunications Standards
Institute
2. GALA: Globalization and Localization Association
3. OASIS: Organization for the Advancement of
Structured Information Standards, XLIFF是其代表作.
4. TAUS: Translation Automation Users Society
5. UNICODE – ULI TC, Unicode Localization
Interoperability Technical Committee
参与制定标准的国际组织
Brigham Young University
Translation Research Group …
新世纪的翻译活动
1. 质量要求千差万别
2. 长尾理论很多种的语言需要处理
3. 内容巨量增长:自己创作、分享与购买的…
4. 有语义的数据是问题的关键
5. 翻译活动持续进行
6. 翻译成为工程任务
多人/多地点 同步/异步合作
7. 用户驱动的多方向翻译
翻译行业的驱动力、压力与策略选择
Machines
Open(Collaborative)
Closed(Competitive)
Human & Machine
4. TM is core
1. One translation quality fits all
3. Counting words
4. Data is core
2. Long-tail of languages
3. Unlimited content
2011 2012 2013
1. Quality differentiation.
2. Selecting locales
5. Project based
5. Continuous translation
Translation as utility
7. Cascaded supply chain
6. One-directional
7. Collaborative translation
6. Multi-directional
资料来源:TAUS,GALA
关键性的标准
• 曾经的LISA.org 倒闭了,但是留下了若干关键性的
标准化协议,包括:TMX, TBX, SRX 和 GMX
• ETSI 持有上述协议,并继续发展
• 目前游戏玩家主要是 TAUS, GALA, ISO TC 37,
OASIS, W3C
• ETSI-LISA 成员: WhP (convenor), HP, Huawei,
Alcatel-Lucent, Lionbridge, Cisco, IBM..for all
• 加入:http://docbox.etsi.org/HF/Open/ISGLIS
How can I join and participate?
1) Download and sign the ISG Agreement
ETSI ISG LIS KIT FOR SIGNATURE.zip
http://docbox.etsi.org/HF/Open/ISGLIS/
*and*
2) Subscribe to ISG LIS email exploder list
and participate in conference calls,
virtual meetings and face-to-face
meetings collocated with Localisation
events in all regions.
OASIS XLIFF 业内最重要的标准之一
XLIFF 2.0 core specification:
1. Committee Draft within 2011
2. Public review Q12012
3. OASIS standard Q22012
Characteristics of 2.0
1. Non-negotiable core
2. Optional modules for specialized functionalities
3. Explicit conformance criteria and processing requirements for
both core and modules
4. Although the XLIFF 1.x standard was intended primarily as an
exchange format the industry practice shows that the defined
format is also suitable for storage and legacy content leverage
purposes.
OASIS的其他任务
1. Leverage UAX#29 as the rule specification standard
2. Update SRX (Segmentation Rule eXchange) based on UAX29 for interchange
between systems
3. Establish core definition at per language level thru CLDR (Unicode Common
Locale Data Repository)
4. Allow for extension possibilities per language per domain thru ULI
segmentation repertoire (TBD)
5. Provide reference implementation where applicable:
6. Deliver basic implementation of segmentation thru ICU (International
Component for Unicode)
7. Integrate ICU in public domain translation workbench and management
software such as OpenTMS/OpenTM2 or GlobalSight
8. Shared reference implementation of XLIFF for localization data transfer
为加入本地化行业做好准备
“懂语言、懂文化、懂技术、懂管理”
知识基础
“懂语言、懂文化、懂技术、懂管理”
翻译是基本功信息技术专业1-3年级部分基
础课程
技术与行业的动态趋势,关注新
技术--------------Java国际化,已经和我们今天展示的有很大区别
了
翻译行业研究和商业管理
--------------团队协作能力,领导能力,沟通
交流能力
学习过程和知识体系架构
1 翻译训练,翻译实战训练
2 信息技术课程,计算机文化,基础编程技能
3 计算机辅助翻译原理与实践,即本门课程
4 可选:自然语言处理技术基础,behind scene
5 翻译行业研究与翻译管理
6 本地化与国际化工程
7 本地化项目实训
8 信息出版技术:信息建构,网站设计,内容管理系统
9 其他辅助课程:办公软件,实用写作,技术文档写作,技
术传播……
理论和实践相结合
1. 理论家与技术工人都不可能在行业内占据制高点
2. 尽管有很多重复性低水平工作导致行业内平均薪酬
较低,但是创造性劳动、管理层的薪酬与信息技术
行业一般水平相当
3. 不同的职位有不同的要求,但是只要突破门槛,就
会有独到的竞争优势,从而在职场中站住脚
4. 门槛的突破,就是学业深入的过程,磨练的过程,
锻炼思辨能力、洞察能力的过程
多多思考,多接触行业,多接触前沿
1. 技术瞬息万变,只有不断学习才能进步
2. 不要就事论事,要发现其中的规律,找到突破点
3. 任何新技术都有多个视角,能否找到对自己有价值
的方向,尽早规避不利因素,是思考的重点内容
4. 除了基础技能之外,前沿技术和方向才是最值得下
功夫的