29
A Repository System for Cross-lingual Documents ○Wenting Gu*, Koichi Sasada + , Shigeru Chiba* *The University of Tokyo + Heroku, Inc.

A Repository System for Cross-lingual Documents

Embed Size (px)

DESCRIPTION

A Repository System for Cross-lingual Documents. ○ Wenting Gu * , Koichi Sasada + , Shigeru Chiba * * The University of Tokyo + Heroku , Inc. Cross-lingual Documents. Written in more than one language N eed to be same O ne modified, others need to do the same modification. - PowerPoint PPT Presentation

Citation preview

Page 1: A  Repository  System for Cross-lingual Documents

A Repository System for Cross-lingual Documents

○Wenting Gu*, Koichi Sasada+,   Shigeru Chiba**The University of Tokyo

+ Heroku, Inc.

Page 2: A  Repository  System for Cross-lingual Documents

2

Written in more than one language Need to be same

◦One modified, others need to do the same

modification.

Cross-lingual Documents

Page 3: A  Repository  System for Cross-lingual Documents

3

Collaborative Working On Cross-Lingual Documents

Ja

En

Fr

Cn

edition

Relationship between languages

Page 4: A  Repository  System for Cross-lingual Documents

4

Ruby Manual

User’s   Demand: keep the same

Example

EnglishJapanese

A D

write write

Japanese version and English version are not same

The order of paragraph may be different

B

C

E

F

Page 5: A  Repository  System for Cross-lingual Documents

5

Hard to keep documents in different language the same.

Why?◦Difficult to find difference◦Difficult to locate the specific place

where need to be modified

Problem

Page 6: A  Repository  System for Cross-lingual Documents

6

English Document 日本語文書

Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience. The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button.

タブはアドレス バーの右に自動的に表示されますが、以前のバージョンの Internet Explorer と同様に、タブを移動してアドレス バーの下に表示することができます。お気に入りバーを右クリックし、メニューで選択することにより、常に表示させることができます。定期的に訪問する Web サイトを Windows 7 デスクトップ上のタスク バーに固定することで、それらの Web サイトにアクセスできます。

Can’t find differences between the two documents easily.

Tabs automatically appear to the right of the Address bar, but you can move them so they appear below the Address bar, as they did in previous versions of Internet Explorer. You can always show the Favorites and then selecting them on a menu.

Windows Internet Explorer 9 は、整理されたインターフェイスと、 Web 閲覧環境を高速化する多くの新機能を備えています。 [ ツール ] ボタン をクリックしたときに、印刷、ズームなどのほとんどのコマンド バー機能が表示されます。

Page 7: A  Repository  System for Cross-lingual Documents

7

GoalMake it easy to correspond documents and manage document version

ProposalLocating and displaying differences by

existing sentence alignment algorithm

Goal & Proposal

Page 8: A  Repository  System for Cross-lingual Documents

9

Demo

Page 9: A  Repository  System for Cross-lingual Documents

10

Page 10: A  Repository  System for Cross-lingual Documents

11

Page 11: A  Repository  System for Cross-lingual Documents

12

Page 12: A  Repository  System for Cross-lingual Documents

13

Page 13: A  Repository  System for Cross-lingual Documents

14

Modify the second sentence.

Delete the first sentence.

Add a paragraph

Page 14: A  Repository  System for Cross-lingual Documents

15

Page 15: A  Repository  System for Cross-lingual Documents

16

Page 16: A  Repository  System for Cross-lingual Documents

18

Getting corresponding relationships between paragraphs and sentences◦ By using existing sentence alignment

techniques to calculate the similarity of sentences and paragraphs

Tracking changesBy comparing with old version

Displaying differences

How our system works?

Page 17: A  Repository  System for Cross-lingual Documents

19

Several sentence alignment algorithms: Word-correspondence-basedReliable Measures for Aligning Japanese-English

News Articles and Sentences [2003, Masao Utiyama, Hitoshi Isahara]

Fast and Accurate Sentence Alignment of Bilingual Corpora[2002, Robert C. Moore]

Longest Sorted Sequence Algorithm for Parallel Text Alignment [2005, T Ildefonso]

Sentence alignment techniques

Page 18: A  Repository  System for Cross-lingual Documents

20

Paragraph alignment in the document1. Compare with number of sentences2. Calculate similarity between two sentences3. Compare with total similarities in paragraph

Sentence alignment in each paragraph1. Reuse the result in Paragraph similarity 2.2. Allow 1 to 1, 1 to 2, 1 to 3, 2 to 1, 3 to 1

How to use alignment algorithm

Page 19: A  Repository  System for Cross-lingual Documents

21

How to use alignment algorithm

Page 20: A  Repository  System for Cross-lingual Documents

22

Use Cases (1/2)

En

Time

Ja

write

write

Cnwrite

Event Target

En

Ja

Cn

Note:Different color means contents are not same.

A

B

C

Frwrite D Fr

Page 21: A  Repository  System for Cross-lingual Documents

23

Use Case (2/2)

En

Time

Ja

Cn

Ja

Cn

be modified

be modified

Event Target

En

Ja

Cn

Note:Different shape means the modification is not same.

Fr Fr

Page 22: A  Repository  System for Cross-lingual Documents

24

Correspondence relationships between sentences and paragraphs are not 100% correct.◦Allowing users modify relationships

between paragraphs.◦Recalculate relationships between

sentences when the relationship between paragraphs modified.

Weak points of our system (1/2)

Page 23: A  Repository  System for Cross-lingual Documents

25

The first time to make two documents the same, displaying differences inaccurately. ◦Once two documents are aligned,

modifications will be showed more correctly. If sentence alignment technique is more efficient, our system will be more useful.

Weak points of our system (2/2)

Page 24: A  Repository  System for Cross-lingual Documents

26

Huberdeau et al., WikiSym '08, 2008◦ Describing a tool called the Cross-Lingual Wiki

Engine (CLWE) to support completely open-ended collaborative translation workflows

Related Research

Page 25: A  Repository  System for Cross-lingual Documents

27

Wiki-based Support completely open-ended

collaborative translation workflows in cross-lingual documents

List changes◦ But do not show corresponding areas where need to

be modified. Do not support documents which already

have differing content like the Ruby manual

CLWE

Page 26: A  Repository  System for Cross-lingual Documents

28

UI Of CLWE

Note: This edit session will expire in 24 minutes. Preview or Save your work to restart the edit session timer.

Update “Ja” based on “En”

Windows Internet Explorer 9 has a streamlined look and many new features that speed up your web browsing experience.

Internet Explorer

The first thing you'll notice when you open Internet Explorer 9 is the simplified design. You can find most command bar functions, like Print or Zoom, when you click the Tools button , and your favorites and feeds appear in Favorites Center when you click the Favorites button.

Edit:

Windows IE 9 は、整理されたインターフェイスと、 Web 閲覧環境を高速化する多くの新機能を備えています。

Page 27: A  Repository  System for Cross-lingual Documents

29

2 languages -> N languages (Major languages)

Adding version control functionMake an Evaluation

Future Plan

Page 28: A  Repository  System for Cross-lingual Documents

30

Problem◦ Difficult to correspond documents in different

languages in collaborative working Proposal

◦ Developing a repository with friendly UI to make it easy to manage cross-lingual documents Giving correspondence relationships between

sentences and paragraphs: using existing sentence alignment techniques

Tracking changes Showing difference locations

Summary

Page 29: A  Repository  System for Cross-lingual Documents

33

* グーさん質疑応答 文が対応していないとダメなの?

パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか?

一段落がに段落にわかれていたらどうするの?

あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?

今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど

類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば

もっと上げることができたりしますか? [10:49:28] SASADA Koichi (ko1): 質問者の名前も書きましょう [10:50:06] 高橋: 大山先生の隣の方ってだれでしたっけ? [10:50:35] SASADA Koichi (ko1): 柴山先生 [10:50:48] 180度以外: 質問をき記録して、ありがとうございます。 [10:50:50] 高橋: 廣津先生: 文が対応していないとダメなの?

パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか?

柴山先生: 一段落がに段落にわかれていたらどうするの?

あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?

今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど

question 廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか?[10:51:00] 高橋 : ああちがう[10:51:14] 180 度以外 : 私は質問の意図が間違いました?[10:51:18] 高橋 : 廣津先生: 文が対応していないとダメなの?

柴山先生: パラグラフの順番が入れ替わるというようなことを行っていたが, そういうのはよくあるのか?

一段落がに段落にわかれていたらどうするの?

あなたのシステムはどれくらい段落に依存するのか?やっぱり言語がちがうから 一段落が二段落になるとうのはありえるとおもうんですけど.そこらへんはどうなの?

今すでにあるドキュメントはだめなんだけど,やっぱり,あなたの システムを使うと言語間の段落を揃えることができるんだよーという方針なのか? 方針の違いによって設計方針かわるとおもうんですけど

廣津先生: 類似度の計算って全部の単語を使っていましたよね?なんか特定の品詞にフォーカスすれば もっと上げることができたりしますか?[10:51:40] SASADA Koichi (ko1): ちょっと途中変だったね>回答[10:52:14] SASADA Koichi (ko1): 私が書き直すとこうなる:[10:52:16] SASADA Koichi (ko1): 廣津:質問:パラグラフの内容が対応していないのはどうするのか?

柴山:質問:パラグラフの順番が入れ替わるのは多いのか?

質問:最終目標は,パラグラフの順番などを揃えたいのか?   それとも異なるままで編集したいのか?

廣津;コメント: 類似度の計算で,日本語は未定義野品詞をみていくと結構とれたりします.[10:57:14] SASADA Koichi (ko1): この発表面白いなあ[10:58:12] 180 度以外 : [10:52] SASADA Koichi (ko1):

<<< パラグラフの順番が入れ替わるのは多いのか? A: それほど多くないけど、今回は極端な例を挙げました。でも、段落の数が足りなくて、段落の対応関係をすぐ分からないため、段落対応して、文の差分を表示するのがユーザーに対して、使いやすいと思います。こう答えだらいいかな?(そして、多分 段落が足りない文書を例でしたら、もっど説明しやすいかも、そして、最終目標はパラグラフの順番などを揃えたいことは自然かな)[10:58:34] SASADA Koichi (ko1): そう答えられたらよかったね