Upload
bernard-madden
View
63
Download
0
Embed Size (px)
DESCRIPTION
A Repository System for Cross-lingual Documents. ○ Wenting Gu * , Koichi Sasada + , Shigeru Chiba * * The University of Tokyo + Heroku , Inc. Cross-lingual Documents. Written in more than one language N eed to be same O ne modified, others need to do the same modification. - PowerPoint PPT Presentation
Citation preview
A Repository System for Cross-lingual Documents
○Wenting Gu*, Koichi Sasada+, Shigeru Chiba**The University of Tokyo
+ Heroku, Inc.
2
Written in more than one language Need to be same
◦One modified, others need to do the same
modification.
Cross-lingual Documents
3
Collaborative Working On Cross-Lingual Documents
Ja
En
Fr
Cn
edition
Relationship between languages
4
Ruby Manual
User’s Demand: keep the same
Example
EnglishJapanese
A D
write write
Japanese version and English version are not same
The order of paragraph may be different
B
C
E
F
5
Hard to keep documents in different language the same.
Why?◦Difficult to find difference◦Difficult to locate the specific place
where need to be modified
Problem
6
English Document 日本語文書
Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience. The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button.
タブはアドレス バーの右に自動的に表示されますが、以前のバージョンの Internet Explorer と同様に、タブを移動してアドレス バーの下に表示することができます。お気に入りバーを右クリックし、メニューで選択することにより、常に表示させることができます。定期的に訪問する Web サイトを Windows 7 デスクトップ上のタスク バーに固定することで、それらの Web サイトにアクセスできます。
Can’t find differences between the two documents easily.
Tabs automatically appear to the right of the Address bar, but you can move them so they appear below the Address bar, as they did in previous versions of Internet Explorer. You can always show the Favorites and then selecting them on a menu.
Windows Internet Explorer 9 は、整理されたインターフェイスと、 Web 閲覧環境を高速化する多くの新機能を備えています。 [ ツール ] ボタン をクリックしたときに、印刷、ズームなどのほとんどのコマンド バー機能が表示されます。
7
GoalMake it easy to correspond documents and manage document version
ProposalLocating and displaying differences by
existing sentence alignment algorithm
Goal & Proposal
9
Demo
10
11
12
13
14
Modify the second sentence.
Delete the first sentence.
Add a paragraph
15
16
18
Getting corresponding relationships between paragraphs and sentences◦ By using existing sentence alignment
techniques to calculate the similarity of sentences and paragraphs
Tracking changesBy comparing with old version
Displaying differences
How our system works?
19
Several sentence alignment algorithms: Word-correspondence-basedReliable Measures for Aligning Japanese-English
News Articles and Sentences [2003, Masao Utiyama, Hitoshi Isahara]
Fast and Accurate Sentence Alignment of Bilingual Corpora[2002, Robert C. Moore]
Longest Sorted Sequence Algorithm for Parallel Text Alignment [2005, T Ildefonso]
Sentence alignment techniques
20
Paragraph alignment in the document1. Compare with number of sentences2. Calculate similarity between two sentences3. Compare with total similarities in paragraph
Sentence alignment in each paragraph1. Reuse the result in Paragraph similarity 2.2. Allow 1 to 1, 1 to 2, 1 to 3, 2 to 1, 3 to 1
How to use alignment algorithm
21
How to use alignment algorithm
22
Use Cases (1/2)
En
Time
Ja
write
write
Cnwrite
Event Target
En
Ja
Cn
Note:Different color means contents are not same.
A
B
C
Frwrite D Fr
23
Use Case (2/2)
En
Time
Ja
Cn
Ja
Cn
be modified
be modified
Event Target
En
Ja
Cn
Note:Different shape means the modification is not same.
Fr Fr
24
Correspondence relationships between sentences and paragraphs are not 100% correct.◦Allowing users modify relationships
between paragraphs.◦Recalculate relationships between
sentences when the relationship between paragraphs modified.
Weak points of our system (1/2)
25
The first time to make two documents the same, displaying differences inaccurately. ◦Once two documents are aligned,
modifications will be showed more correctly. If sentence alignment technique is more efficient, our system will be more useful.
Weak points of our system (2/2)
26
Huberdeau et al., WikiSym '08, 2008◦ Describing a tool called the Cross-Lingual Wiki
Engine (CLWE) to support completely open-ended collaborative translation workflows
Related Research
27
Wiki-based Support completely open-ended
collaborative translation workflows in cross-lingual documents
List changes◦ But do not show corresponding areas where need to
be modified. Do not support documents which already
have differing content like the Ruby manual
CLWE
28
UI Of CLWE
Note: This edit session will expire in 24 minutes. Preview or Save your work to restart the edit session timer.
Update “Ja” based on “En”
Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience.
Internet Explorer
The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button , and your favorites and feeds appear in Favorites Center when you click the Favorites button.
Edit:
Windows IE 9 は、整理されたインターフェイスと、 Web 閲覧環境を高速化する多くの新機能を備えています。
29
2 languages -> N languages (Major languages)
Adding version control functionMake an Evaluation
Future Plan
30
Problem◦ Difficult to correspond documents in different
languages in collaborative working Proposal
◦ Developing a repository with friendly UI to make it easy to manage cross-lingual documents Giving correspondence relationships between
sentences and paragraphs: using existing sentence alignment techniques
Tracking changes Showing difference locations
Summary
33
* グーさん質疑応答 文が対応していないとダメなの?
パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか?
一段落がに段落にわかれていたらどうするの?
あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?
今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど
類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば
もっと上げることができたりしますか? [10:49:28] SASADA Koichi (ko1): 質問者の名前も書きましょう [10:50:06] 高橋: 大山先生の隣の方ってだれでしたっけ? [10:50:35] SASADA Koichi (ko1): 柴山先生 [10:50:48] 180度以外: 質問をき記録して、ありがとうございます。 [10:50:50] 高橋: 廣津先生: 文が対応していないとダメなの?
パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか?
柴山先生: 一段落がに段落にわかれていたらどうするの?
あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?
今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど
question 廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか?[10:51:00] 高橋 : ああちがう[10:51:14] 180 度以外 : 私は質問の意図が間違いました?[10:51:18] 高橋 : 廣津先生: 文が対応していないとダメなの?
柴山先生: パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか?
一段落がに段落にわかれていたらどうするの?
あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?
今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど
廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか?[10:51:40] SASADA Koichi (ko1): ちょっと途中変だったね>回答[10:52:14] SASADA Koichi (ko1): 私が書き直すとこうなる:[10:52:16] SASADA Koichi (ko1): 廣津:質問:パラグラフの内容が対応していないのはどうするのか?
柴山:質問:パラグラフの順番が入れ替わるのは多いのか?
質問:最終目標は,パラグラフの順番などを揃えたいのか? それとも異なるままで編集したいのか?
廣津;コメント: 類似度の計算で,日本語は未定義野品詞をみていくと結構とれたりします.[10:57:14] SASADA Koichi (ko1): この発表面白いなあ[10:58:12] 180 度以外 : [10:52] SASADA Koichi (ko1):
<<< パラグラフの順番が入れ替わるのは多いのか? A: それほど多くないけど、今回は極端な例を挙げました。でも、段落の数が足りなくて、段落の対応関係をすぐ分からないため、段落対応して、文の差分を表示するのがユーザーに対して、使いやすいと思います。こう答えだらいいかな?(そして、多分 段落が足りない文書を例でしたら、もっど説明しやすいかも、そして、最終目標はパラグラフの順番などを揃えたいことは自然かな)[10:58:34] SASADA Koichi (ko1): そう答えられたらよかったね