博宇 20150909 juxta

Preview:

Citation preview

1

數位人文工具介紹: JUXTA2015/09/09 博宇

2

概述

3

Juxta是University of Virginia開發的一款文本校勘軟體 後來該軟體整合進NINES的計劃進行後續開發

Networked Infrastructure for Nineteenth-century Electronic Scholarship

致力於整合 19世紀的數位典藏文獻和工具以協助研究者 原本是單機軟體,後來有開發線上版本的 Juxta

commons

4

NINES的介紹頁面

5

使用者可以將不同版本的文本加入一個比對組(Comparison Set)進行校勘

Juxta會自動找出使用者指定的版本 (基準文獻, Base Text)和其他版本 (見證文獻,Witness Text)的差異處 Juxta將這些差異視覺化並協助研究者尋找和比較不同程度的差異點 支援純文字檔案、 XML與 TEI格式的文本檔案

6

功能介紹

7

以下會以單機版的 Juxta的操作來介紹功能

8

9

加入文本 使用者建立一個比對組 (Comparison set)後即可開始加入文本以進行比對 文本可以是純文字檔、 XML、或是 TEI

10

Juxta有一套自定 XML的格式 (juxta-document) 文本若是 XML檔案,配合這個格式能夠較完整的使用 Juxta的一些功能,像是段落、行號、圖片、自動讀入文本屬性 (properties)等。

11

12

比對結果 Juxta將比對出的差異分為三類:

Insertion(增補 ):只有Witness出現的段落 Deleted(刪減 ):只有 Base Text出現的段落 Changed(更動 ):同段落中兩者部分文字有差異

會將各個見證文獻和基礎文獻的差異程度量化

13

比對結果的顯示 Juxta在文件視窗 (Document Panel)提供兩種顯示模式讓使用者觀看比對的結果:

Collation View Comparison View

14

COLLATION VIEW 畫面中只會出現 Base Text 差異會以藍色標記顯示

顏色深度越深,代表這個部分有越多文本與其相異 左側的Witness下的藍色條格越長、有越深的顏色則顯示該版本與 Basic Text的相差程度越高

15

右圖的紅圈處可以切換兩種顯示模式 右側文本視窗的藍標部分代表其他版本有相異的地方 左側的瀏覽列可以看到視覺化的差異程度 游標移動到項目上會顯示差異值

16

使用者點選劃標部分即可在右側查看其他Witness Text和 Base Text不同的部分

上面的標記顯示差異的性質: “+”代表 Inserted “-”代表 Deleted “▲”代表 Changed

17

18

COMPARISON VIEW 文本的顯示視窗會分為左右兩塊,左側為基礎文本,右側使用者可以選擇其中一個見證文獻顯示供使用者比對兩者的內容 綠色劃標顯示比對出來的差異處,滑鼠移到上方會顯示差異種類 中央會以連線的方式顯示對應的段落

19

20

“MOVE”功能 有些文本發生的異動是段落位置的調動 Juxta無法自動判別這樣的異動並找出對應段落的差異,因此提供使用者手動標出調動段落的功能以協助比對 在 Comparison View下,使用者可以標出兩篇文本相對應的段落並用”Move”功能告知 Juxta, Juxta會基於重新排序段落的版本重新做比對

21

以下圖為例,淺綠色區塊為使用者標出的對應段落,在 Comparison View中會以加粗的線框表示,可以看得出表示差別的虛線有對應到正確的段落

22

其他文本資訊的顯示 文件視窗下的欄位會顯示其他該文本的資訊

Source: 原檔案內容 Images: 連結原文本的圖片 Notes: 使用者對於差異段落的標註 Moves: 使用者標註的對應段落 Search: 搜尋介面

23

原本檔案內容、圖片 可以觀看原始檔的內容,也允許直接編輯後重新比對 如果 XML檔為 juxta-document格式的話,可以顯示對應目前顯示文本內容的圖片

24

觀看原始檔案

25

觀看對應圖片

26

註解 使用者可以針對差異內容進行註解

27

搜尋功能 使用者可以在文本中進行搜尋 搜尋到的內容在文本上會顯示黃色劃標

28

顯示直方圖 Juxta提供連續顯示文本各部分的變動程度的直方圖,使用者可以觀察直方圖去搜尋有興趣的段落 拖曳直方圖的窗格或點選直方圖的特定點可以移到對應的段落

29

30

輸出 輸出有兩種格式:

保存比對結果的 jxt檔案,可供其他人在 Juxta上觀覽或進行後續作業 將文本資訊和比較差異輸出成 html檔,並以特定的校勘格式列出所有差異內容

31

JUXTA COMMONS

32

JUXTA COMMONS Juxta的線上版本,可以在線上使用大部分

Juxta的功能,可以直接在上面上傳檔案進行比對 單機版 Juxta也可以將比對資料上傳到 Juxta

commons進行作業 比對的結果可以分享給其他人觀看

33

34

JUXTA COMMONS新增的功能 能透過 URL上傳文本,或是直接輸入文字內容 能把 HTML、MS Word DOCX、 PDF、

EPUB等檔案的文字內容轉為純文字的文本 對於 XML和 TEI的文本提供介面讓使用者去調整要輸入文本的文字內容

35

使用者可以看到 XML檔中哪些內容有被納入文本中,也可以直接在 XML的畫面中選擇單一標籤內的文字是否納入文本

36

可以輸入Wikipedia的條目網址或條目,可以抓出條目目前和過去版本的內容進行比對 但這功能目前無法正常使用

可以用 Versioning Machine( 另一個文本比對工具 )觀看比對結果

37

38

JUXTA的優點 易於找出不同版本間的相異點

自動化的分析差異並視覺 /圖像化 使用者可以選擇在 Collation View中觀看整體的差異情況,或是在 Comparison View中切換不同的文本進行兩兩比對 move功能可以改善分析效率

39

在校勘作業上提供不同情況下的需求 比如說在 Comparison View下,使用者可以依需求選擇是否讓 Basic Text 跟著 Witness的轉動跟著移動 可以同時參照文本的圖片或原始檔,並允許使用者在

Juxta中更改原檔案後重新比對 除了進行版本間的比對,也有利於校正錯誤

有使用者利用 Juxta來修正OCR判別錯誤的部分 離線版可以上傳至線上版,易於提供他人觀看結果

40

JUXTA的缺點 Juxta的辨別差異效率

有時會出現一些不合乎預期的判斷結果 下圖理論上四個對照版本應該都要顯示 deleted 適當的使用move功能可以改善判別結果

41

但是move功能往往會造成 Comparison View的畫面變得很混亂

42

不支援中文 雖然開發網誌表示希望支援更多語言

線上版 (Beta) 沒有離線版完整的功能 不支援圖片、文本視窗和輔助視窗無法同時觀看 不能使用move功能 有的功能目前還在測試當中 速度比單機版慢很多

43

關於版本沿革和研究者的使用心得可以參照Juxta的網站 http://www.juxtasoftware.org/