140
華語文八年計畫 「建置應用語料庫及標準體系」 104 年工作計畫【期末報告】 主管機關:教育部 執行機構:國家教育研究院 計畫主持人:柯華葳(國家教育研究院院長) 共同主持人: 林慶隆(國家教育研究院編譯發展中心研究員) 張俊盛(國立清華大學資訊工程學系教授) 陳浩然(國立臺灣師範大學英語系教授) 高照明(國立臺灣大學外國語文學系副教授) 蔡雅薰(國立臺灣師範大學應用華語文學系教授) 張郁雯(國立臺北教育大學教育學系教授) 陳柏熹(國立臺灣師範大學教育心理與輔導學系教授) 張莉萍(國立臺灣師範大學國語教學中心副研究員) 計畫參與人員: 吳鑑城、白明弘、劉寶琦、丁彥平、 陳鵬妃、李詩敏、簡盈妮、張玳維 (依研究計畫所列研究人力順序排列) 中華民國 104 12 31

104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

華語文八年計畫

「建置應用語料庫及標準體系」

104年工作計畫【期末報告】

主管機關:教育部

執行機構:國家教育研究院

計畫主持人:柯華葳(國家教育研究院院長)

共同主持人:

林慶隆(國家教育研究院編譯發展中心研究員)

張俊盛(國立清華大學資訊工程學系教授)

陳浩然(國立臺灣師範大學英語系教授)

高照明(國立臺灣大學外國語文學系副教授)

蔡雅薰(國立臺灣師範大學應用華語文學系教授)

張郁雯(國立臺北教育大學教育學系教授)

陳柏熹(國立臺灣師範大學教育心理與輔導學系教授)

張莉萍(國立臺灣師範大學國語教學中心副研究員)

計畫參與人員:

吳鑑城、白明弘、劉寶琦、丁彥平、

陳鵬妃、李詩敏、簡盈妮、張玳維

(依研究計畫所列研究人力順序排列)

中華民國 104年 12月 31 日

Page 2: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

i

摘要

本計畫為教育部「推動全球華語文教育八年計畫(102-109)」之「建置應用

語料庫及標準體系」的第三年工作,今(104)年度工作延續 102 年至 103 年之

工作成果,持續建置華語文語料庫及標準體系。

本年度語料庫建置的執行成果為:1) 書面語語料,持續收集國家教育研究院

之電子報、教科書及其他出版品語料,同時,聯繫政府機構,並獲國立科學工藝

博物館、中華民國僑務委員會等,以及坊間出版業者之出版品授權,共約 6,000

萬字;2) 口語語料,已收集 1,100 集節目之語音及文字資料,約 660 萬字;3) 雙

語語料,已收集華英雙語語料 340 萬字,並建立華英雙語句對規則,且依此規則

完成人工對應教育部網站訊息翻譯之雙語電子檔外,亦制定後設資料欄位及主題

分類;4) 華語中介語語料,已與國內大專校院華語文教學中心合作,完成收集不

限時書面語語料 30 萬字,而且取得國家華語測驗推動工作委員會限時書面語語

料 12 萬字;5) 完成中文分詞系統 API(Application Programming Interface, 應用

程式介面);6) 完成建置口語檢索系統雛形;7) 舉辦「華語文語料庫應用工作坊」

推廣語料庫之應用。

標準體系建置的執行成果為:1) 標準體系將分級定為三等七級;2)能力指

標,依據 102 年與 103 年國內、外語文能力指標文獻分析,依分級完成研擬聽、

讀能力指標初稿;3)分級標準,運用本計畫建置中的語料庫進行統計分析,協助

漢字、詞語分級標準研擬,已完成初級漢字草擬約 1,000 個漢字,詞語已分析統

計 16,077 個詞語,語法點與篇章分級已建置分級依據;4) 提供一個中文文章和

教材難度的可讀性公式;5)完成建置華語文教材分級檢索系統雛型介面;6)完

成編纂 350 個中文核心詞彙。

關鍵字:華語文、語料庫建置、標準體系建置、能力指標、分級標準

Page 3: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

ii

目錄 摘要 ........................................................................................................ i

壹、前言 ................................................................................................. 1

貳、104 年度建置華語文語料庫及標準體系的工作目標 .................... 2

參、語料庫建置 ..................................................................................... 4

一、書面語語料庫 ........................................................................... 5

(一)主題分類 ........................................................................ 5

(二)語料蒐集 ........................................................................ 7

二、口語語料庫 ............................................................................... 8

三、雙語語料庫 ............................................................................... 9

(一)語料蒐集 ........................................................................ 9

(二)語料處理 ...................................................................... 10

四、華語中介語語料庫 ................................................................. 13

(一)語料蒐集 ...................................................................... 13

(二)偏誤標記文獻整理 ...................................................... 14

(三)語料規劃及處理 .......................................................... 15

五、辦理語料庫應用推廣活動 ..................................................... 17

六、系統開發................................................................................. 17

肆、標準體系建置 ............................................................................... 21

一、能力指標建置 ......................................................................... 21

(一)能力指標之研擬 .......................................................... 23

(二)聽力能力指標 .............................................................. 26

(三)閱讀能力指標 .............................................................. 31

二、分級標準建置 ......................................................................... 34

(一)漢字分級標準 .............................................................. 35

(二)詞語分級標準 .............................................................. 40

(三)語法分類及分級 .......................................................... 44

(四)篇章分級標準 .............................................................. 46

三、提供中文文章和教材難度的可讀性公式 .............................. 47

四、建置教材分級檢索系統雛形 ................................................. 49

五、建置 350 個核心詞彙 ............................................................. 49

伍、結論 ............................................................................................... 51

一、語料庫建置 ............................................................................. 51

二、標準體系建置 ......................................................................... 51

參考文獻 ............................................................................................... 52

Page 4: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

iii

表目錄

表一、建置華語文語料庫 104 年度工作目標之關鍵績效指標(KPI)

及預期效益 ................................................................................. 2

表二、建置標準體系 104 年度工作目標之關鍵績效指標(KPI)及預

期效益 ......................................................................................... 3

表三、國家教育研究院書面語語料主題分類及相對應的中文圖書分

類號 ............................................................................................. 6

表四、104 年首批華英雙語語料採購內容.......................................... 10

表五、雙語句對 EXCEL 格式 ............................................................. 11

表六、人工對應華英雙語語料之範本 ................................................ 12

表七、國、內外能力指標內容型態對照表......................................... 22

表八、聽力能力之整體表現說明 ........................................................ 27

表九、聽力能力之各級指標說明 ........................................................ 28

表十、閱讀能力之整體表現說明 ........................................................ 31

表十一、閱讀能力之各級指標說明 .................................................... 32

表十二、漢字級對照之相關參考漢字表 ............................................ 37

表十三、運用「華語文語料庫」進行漢字統計分析結果之範本...... 38

表十四、Pre-A1 漢字表 ....................................................................... 39

表十五、子題分類對照表範本 ............................................................ 40

表十六、詞語統計分析結果之範本 .................................................... 42

表十七、詞語比對來源及詞語量 ........................................................ 43

表十八、詞語收錄於詞表數 ................................................................ 43

表十九、詞表比對範本 ........................................................................ 43

表二十、語法點「呢」範例建置草案 ................................................ 46

表二十一、文本難度分級特徵 ............................................................ 46

表二十二、中文可讀性公式與採用指標 ............................................ 48

表二十三、350 個核心詞彙列表 ......................................................... 50

Page 5: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

iv

圖目錄

圖一、本計畫蒐集之華語學習者主要母語分布情形 ......................... 16

圖二、103 年國內大專校院華語文中心國際學生國籍分布情形....... 16

圖三、國教院分詞系統介面 ................................................................ 18

圖四、口語檢索系統雛形,以搜尋『開發』為例 ............................. 20

圖五、口語檢索系統雛形,以搜尋『開發』為例 ............................. 20

圖六、華語文學習者能力指標研擬流程圖......................................... 23

圖七、華語文分級標準建置流程圖 .................................................... 35

圖八、書籤標準設定法示意圖 ............................................................ 39

圖九、語法點分類架構圖 .................................................................... 45

圖十、教材分級檢索系統雛形介面 .................................................... 49

附錄

附錄一 建置華語文語料庫及標準體系 104 年計畫研究人力工作內

容一覽表 ............................................................................... 55

附錄二 建置華語文語料庫及標準體系 104 年計畫諮詢專家委員名

單 ........................................................................................... 57

附錄三 標準體系(分級標準)104 年分組委員名單 ...................... 58

附錄四 104 年度相關會議紀錄 ......................................................... 59

附錄五 「2015 華語文語料庫應用工作坊」議程表 ....................... 132

附錄六 運用華語文語料庫計算「漢字」統計參數範本 ............... 134

附錄七 運用華語文語料庫計算「詞語」統計參數範本 ............... 135

Page 6: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

1

壹、前言

國家教育研究院(以下簡稱本院)依據教育部 102 年 8 月 29 日

「推動全球華語文教育八年計畫(102-109)」之「建置應用語料庫及

標準體系」項目架構圖,於 102 年至 109 年執行建置華語文語料庫及

訂定華語文能力指標及分級標準計畫(以下簡稱本計畫)之工作。

本院在 102 年完成 103 年至 109 年建置華語文語料庫之規劃,完

成研訂華語文語料庫建置及使用要點草案,以及訂定國際接軌之華語

文能力指標與分級標準之工作內涵、期程及所需資源之規劃。

本計畫於 103 年,在語料庫建置方面,完成「建置應用語料庫及

標準體系規劃說帖」及「華語文應用語料庫使用要點」,並完成開發

書面語系統介面雛型、中文分詞系統雛形、詞性標注系統雛形等,以

及完成收集與處理書面語語料 5,220 萬字(原訂目標 5,000 萬字)、口

語語料 300 萬字(原訂目標 50 萬字);書面語語料來源包括坊間出版

社授權的各類型文章,及國家教育研究院電子報、國小國語教科書、

編譯之出版品等;口語語料來源則涵蓋坊間電視臺的多種類型節目之

字幕語料。此外,本計畫亦完成國內、外華語中介語語料庫之重要文

獻分析,且藉由專家諮詢方式等完成華語中介語語料庫建置現況分析。

標準體系方面,本計畫完成國內、外重要語言能力指標之文獻分析,

包括歐洲共同語文參考架構(CEFR)、美國外語教師協會編定的外語

能力指標(ACTFL)、加拿大語言能力指標(CLB)、華語文能力測驗

(TOCFL)、新漢語水平(新 HSK)等,以及完成分析華語文漢字、

詞語、語法、篇章等分級標準的文獻,分析內容涵蓋華語能力測驗、

漢語水平詞語與漢字等級大綱、鍾榮富華語 41 種語法句型、漢語水

平等級標準與語法等級大綱、中文 LSA、中文文本可讀性分析(CRIE-

CFL)等。

延續 102 年及 103 年計畫的執行成果,本計畫在 104 年度計畫目

標為持續建置華語文語料庫與標準體系。語料庫的建置為擴充語料庫

系統功能,完成蒐集書面語 5,000 萬字、口語語料 150 萬字、華英雙

語語料 300 萬字、華語中介語 10 萬字等,並進行語料處理,包括語

料分類、後設資料建置、雙語語料對應、人工偏誤標記等,以及建置

口語檢索系統雛形,及辦理語料庫應用推廣活動,鼓勵各界運用本語

料庫之語料進行研究及應用,藉以豐富及推廣本語料庫。

標準體系的建置是依據 102 年與 103 年之國內、外語文能力指標

與分級標準等文獻分析,建置本計畫各級漢字 3,000 個與詞語 8,000

個,及語法點與篇章分級之依據,另分析探討中文文章和教材難度的

可讀性公式,建置華語文教材分級檢索系統雛形,以及編纂 350 個中

文核心詞彙。

Page 7: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

2

貳、 104年度建置華語文語料庫及標準體系的工作目

本計畫在本(104)年度的工作目標、關鍵績效指標(Key

Performance Indicators, KPI)與預期效益,詳如表一、二。

表一、建置華語文語料庫 104 年度工作目標之關鍵績效指標(KPI)

及預期效益

註:KPI = Key Performance Indicators,關鍵績效指標。

建置華語文語料庫

工作目標 KPI 預期效益

1. 語料處理及系統介

面程式雛形-口語。

完成口語系統介面

雛型。

作為後續處理口語語料系

統之基礎。

2.

招標採購並處理書

面語語料 5,000 萬

字。

完成處理語料庫書

面語語料 5,000 萬字

累積書面語語料資料,以

提供初步語料詞性分析、

詞頻統計、詞語例句。

3.

招標採購口語語料

轉寫成文字 150 萬

字,授權擷取電視節

目字幕。

完成處理語料庫口

語語料 150 萬字。

累積口語語料資料,以提

供初步語料詞性分析、詞

頻統計、詞語例句。

4.

招標採購並處理華

英雙語平行語料 300

萬字。

完成處理華英雙語

平行語料 300 萬字。

建置華英雙語平行語料資

料,以提供初步資料供擷

取核心詞語之英文翻譯、

華英例句等訊息。

5.

收集 10 萬字學習者

中介語料、訂定偏誤

標記項目,進行人工

偏誤標記。

完成處理 10 萬字學

習者中介語料、訂定

偏誤標記項目,並完

成部分人工偏誤標

記。

建置 10萬字華語書面中介

語語料,並完成部分人工

偏誤標記,以提供初步資

料顯示不同母語之華語學

習者的主要語言使用結構

型式、常見偏誤類型。

6. 辦理語料庫應用推

廣活動。

完成辦理語料庫應

用推廣活動。

鼓勵各界運用本語料庫之

語料進行研究及應用,藉

以豐富及推廣本語料庫。

Page 8: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

3

表二、建置標準體系 104 年度工作目標之關鍵績效指標(KPI)及預

期效益

註:KPI=Key Performance Indicators,關鍵績效指標。

建置標準體系於執行中認為分級標準之漢字、詞語及語法各有其

專業,應分組並由相關專家協助才較周延,因此,邀請學者專家,分

組積極的進行,同時滾動調整原目標。目前,分級標準將分級定為七

級,漢字組預期研擬 3,100 個漢字,至本(104)年已完成初級漢字草

擬,約 1,000 個漢字;詞語組則結合情境主題導向與「華語文語料庫」

量化分析,經運用本計畫語料庫統計詞頻與覆蓋率,其涵蓋率 90%,

共計 16,077 個詞語,各級漢字、詞語內容需經由專家持續的討論與調

校。

建置標準體系

工作目標 KPI 預期效益

1.

建 置 各 級 漢 字

3,000 個 與 詞 語

8,000 個,以及語

法點與篇章分級

之依據及範例。

完 成 各 級 漢 字

3,000 個 與 詞 語

8,000 個之初稿,

以 及 語 法點 與 篇

章 分 級 之依 據 及

範例之建置。

提供一套以本計畫華

語語料庫為主,建置之

各級漢字 3,000 個與

詞語 8,000 個之初

稿,以及語法點與篇

章分級之依據及範

例。

2.

分析探討中文文

章和教材難度的

可讀性公式。

提 供 一 個中 文 文

章 和 教 材難 度 的

可讀性公式。

提供適用於對外華語

教學的中文文章和教

材難度的可讀性公式。

3.

建置華語文教材

分級檢索系統雛

型。

完 成 華 語文 教 材

分 級 檢 索系 統 雛

型之建置。

提供各種對外華語教

學教材的分級檢索系

統雛型。

4.

編纂 350 個中文

核 心 詞 語 用 法 與

例句。

完成編纂 350 個中

文核心詞語用法與

例句。

提供適用於對外華語

教學的 350個中文核心

詞語用法與例句。

Page 9: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

4

參、語料庫建置

本年度語料庫建置工作,包括語料蒐集、處理(含後設資料標記

等)、語料庫及相關系統建置。語料蒐集除持續整合國內各相關資源,

包括本院院內、政府機關,以及各研究單位語料,並收集坊間語料,

以求能持續擴大語料庫之規模及內涵。以書面語為例,本計畫除持續

收集本院電子報、教科書及其他出版品外,亦納入本國語文教育研究

發展辦公室歷年所取得之語料;同時積極聯繫國立臺灣科學教育館、

國立科學工藝博物館,以及中華民國僑務委員會(以下簡稱僑委會),

冀能獲得各單位合適之出版品授權。

口語語料方面,本計畫除向僑委會負責製播的臺灣宏觀電視臺請

求授權所擁有之影片外,亦與負責「國立政治大學漢語口語語料庫」

之徐嘉慧教授洽談,尋求語料授權;此外,亦取得國立高雄師範大學

華語文教學研究所王萸芳教授收集之口語語料及標注資訊。

雙語語料方面,除參考文獻資料並規劃訂定華英雙語語料庫後設

資料,以及完成蒐集 340 萬字,亦函請僑委會授權其所擁有之雙語語

料。同時,亦已建立華英雙語句對規則,並依此規則,完成人工對應

教育部網站訊息翻譯之雙語電子檔。此外,亦制定雙語語料之後設資

料欄位以及主題類別。

華語中介語語料方面,本計畫蒐集華語中介語不限時書面語語料

共約 30 萬字、限時書面語語料共約 12 萬字,進行語料規劃及處理、

訂定華語中介語語料庫後設資料、整理偏誤標記文獻及進行部分人工

偏誤標記。

除持續豐富語料內容外,為使語料能發揮其效益,本計畫亦持續

開發各項語料分析及檢索系統,包括中文分詞系統、口語檢索系統、

華語中介語檢索系統等。且為推動各界運用華語文語料庫進行相關研

究及應用,本計畫並於今年度舉辦「2015 華語文語料庫應用工作坊」,

吸引超過百人參與盛會。

書面語、口語、雙語、華語中介語各語料庫建置,以及相關系統

建置,詳述如下:

Page 10: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

5

一、書面語語料庫

(一)主題分類

本計畫為使書面語語料庫能夠有更多的應用及參考性,書面語語

料庫的後設資料中,設有文本之主題類別,期使日後文本於應用時,

能夠發揮更大的效益,例如分析不同主題類型的文本詞語使用的差異

性,或是學習不同主題文本的文句寫作模式等。

書面語語料庫文本主題於去(103)年度經參考英國國家語料庫

(British National Corpus)、美國當代語料庫(Corpus of Contemporary

American English)等主題後,原設為 10 類:文學創作類、自然科學

類、應用科學類、社會科學類、世界事務類、商業及金融類、藝術類、

信仰及思想類、休閒類、其他。

然而人工標記耗時費力,在人工標記文本主題過程中,研究人員

發現主題判定不易客觀、常需共同進行討論及修正。考量計畫人力、

經費及時間所限,較難僅憑藉人工完成大量文章主題標注。此外,本

計畫未來將考慮採用電腦自動分類協助主題標注,使各種來源(如新

聞、雜誌)等文本皆能有主題參考之資訊,而大量有主題標注資訊之

文本為開發電腦自動分類系統之重要訓練資料。因本計畫所獲授權之

文本大都來自於各類書籍,在國內已有中文圖書分類資訊,所以原採

中文圖書分類及書面語 10 類主題直接對照方式進行文章主題分類,

可較客觀且大量替已蒐集之書籍類文本標注主題。然在製作對照表過

程中,遭遇無法以中文圖書分類簡表 10 大類對應至原訂書面語 10 類

主題的困難。

中文圖書分類簡表中,以總類(0001)為例,該類包含普通會社

(060)、國際性普通會社(061)、中國普通會社(062)、各國普通會

社等子類別(063)若直接對應至世界事務類,然 020~029 之圖書館

學,包括圖書館行政(022)、圖書館業務(022),卻較屬社會科學類,

顯然無法將此一大類直接對應至任何書面語主題類別。故需為中文圖

書分類的細分類一一尋找對應,而不宜以大類直接進行對應。

此一情形,令本計畫重新檢視主題修正的可能性。經討論,考量

本華語文語料庫主體內容為華文,而中文圖書分類法亦已被採用多年,

可視為一穩定的文本類型分類基礎,因此將中文圖書分類及原書面語

主題分類,整合為新版書面語語料主題分類,仍採 10 大類架構:總

類、哲學及宗教類、科學類、應用科學類、社會科學類、史地類、語

言文學類、藝術類、商業及金融類、休閒類。對應方式詳見表三。

1 此處所載之數字為中文圖書分類之號碼

Page 11: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

6

表三、國家教育研究院書面語語料主題分類及相對應的中文圖書分類

國教院書面語語料主

題分類名稱 中文圖書分類號 備註

總類 000~099[總類]

哲學及宗教類 100~199[哲學類]

200~299[宗教類]

科學類 300~399[自然科學類]

應用科學類 400~479[應用科學類]

480~489 『商業;各種營業』

490~499 『商學;經營學』

歸入商業及金融類。

社會科學類

500~549

554~557

570~599[社會科學類]

550~553 以及 558~569

歸入商業及金融類。

史地類 600~699[史地類]

710~799[世界史地類] 700~709 中文圖書分類無資料

語言文學類 800~899[語文類]

藝術類 900~989

990~999『遊藝.娛樂.休閒』

歸入休閒類

商業及金融類 480~499

550~553

558~568

480:商業總論

481:糧商業

482:其他農產品業

483:畜牧水產品業;飲食相關

行業

484:機械業;電機資訊業

485:化學製品業

486:礦產品業

487:製造品業

488:紡織品業

489:其他各種營業

490:商學總論

491:商業地理

492:商政

493:商業實踐

494:企業管理

495:會計

496:商品學;市場學;行銷管

497:廣告

498:商店

499:企業志;公司行號志

550:經濟學總論

551:經濟學各論

Page 12: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

7

552:經濟史地

553:生產;企業;經濟政策

558:貿易

559:合作;

560:財政學總論

561:貨幣;金融;

562:銀行

563:金融各論

564:公共財政

565:各國財政狀況

566:地方財政

567:租稅

568:關稅

休閒類 990~999

990:遊藝及休閒活動總論

991:公共娛樂

992:旅遊;觀光

993:戶外活動

994:水上運動

995:室內遊戲

996:兒童遊戲

997:智力遊戲

998:博戲

999:業餘遊玩;民俗藝術

(二)語料蒐集

本年度書面語語料蒐集主要仍分為三大來源:本院院內之語料、

政府機構之語料、以及坊間出版業者之語料。

1. 本院院內之語料

本年度本計畫持續整理、建置院內之文本語料,包括部編版國小

社會教科書、自然教科書、本院電子報、永續發展教育系列叢書等,

冀能擴充本語料庫之規模及內涵。此外,本院原本國語文教育研究發

展辦公室歷年來為編撰字、詞典,以及進行年度語詞調查等工作,每

年均採購許多文本語料,包括中國時報、聯合報、商業周刊等語料,

總計約有 16 億字,然目前因此批語料限定內部研究使用,冀待經費

許可時,與廠商洽談擴大語料授權之範圍。

2. 政府機構之語料

除了本院之文本資料外,本計畫亦持續尋找政府機構合適之文本

來源,並洽談授權事宜。僑委會編撰許多華語書籍及教材以及雙週刊

Page 13: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

8

等出版品,本計畫自去(103)年即函請授權,然因資料內容較多、版

權釐清需時且不易,致僑委會對運用語料所產生的工具之相關版權有

所疑慮,要求本計畫進行解釋,方可決定授權之範圍。故於今年 8 月

方獲通知,由於多數教材因年代久遠、著作權難以追溯而無法授權,

僅 18 冊教材(如《安弟與小甜甜》、《兒童文化教材》等較近期者)

可提供授權。

除僑委會資料外,本計畫獲得國立臺灣科學教育館授權,透過註

明資料來源使用的方式,可使用該館之月刊作為科學類文本之來源。

此外,亦獲得國立科學工藝博物館授權該館刊物包括:(一)電子世

界:科學家小史(二)國立科學工藝博物館出版品書目提要(三)神

奇世界 1:精靈王國(四)神奇世界 2:超時空遊俠(五)神奇世界

3:漫遊異次元(六)神奇世界 4:極地歷險記。惟經研究團隊討論後,

除電子世界一冊可納入書面語語料外,其餘五項授權刊物較不具妥適

性,且考量經費因素及授權語料之規模,本計畫將繼續洽詢各政府出

版品管理單位,尋求取得較大量數位檔之可行性。

3. 坊間出版業者之語料

本年度書面語語料收錄坊間出版業者之語料目標為需涵蓋近十

年之哲學及宗教類、科學類、應用科學類、社會科學類、史地類、語

言文學類、藝術類、商業及金融類、休閒類等多元文章類型;文章之

中文以臺灣使用之中文為限,且以正體字呈現之文字檔,至少 20,000

篇,總字數須至少 5,000 萬字。現已尋得合作廠商進行後續語料授權

事宜。

二、口語語料庫

本年度口語語料蒐集主要分為三大來源:本院院內之語料、政

府機構之語料及民間電視臺語料。

1. 本院院內及政府機構之語料

本計畫積極尋找國內口語(口述)文本之授權來源,首先考慮院

內及政府機構,包括國立教育廣播電臺出版之「兒童劇坊:品德生活

列車」劇本選粹,及「兒童劇坊:品德生活列車」導讀有聲書,惜經

檢視資料內容,考量此出版品適合年齡與華語學習者不盡相符,暫不

納入本計畫語料庫收錄範圍。此外,僑委會之宏觀電視臺共有「台灣

心動線」(143 集)、「文人政事」(142 集)、以及「致富密碼」(143 集)

三種影集,然因宏觀電視臺無法提供字幕檔案,考量逐字稿聽打之人

力成本,亦暫不納入本計畫語料庫。本院各中心在進行研究時亦收集

Page 14: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

9

了許多的訪談逐字稿,惟尚須獲得訪談人授權方能使用。

除了蒐集生語料進行建置外,本計畫亦嘗試整合現有之國內口語

語料庫資源。例如「國立政治大學漢語口語語料庫」為一公開免費使

用之語料庫,本計畫經聯繫該語料庫負責人徐嘉慧教授,徐教授亦願

有償授權已公開之語料轉寫檔及語音檔,然因經費有限,將視後續經

費狀況進行授權之洽談,以收錄至本計畫口語語料庫中。本計畫亦聯

繫國立高雄師範大學華語文教學研究所王萸芳教授,商討歷年來蒐集

並有標注之口語語料授權本計畫使用之可能性。王教授願意分享其珍

貴的研究資料,包括語音檔以及標注資訊等,然因該語料原蒐集之目

的僅為學術研究使用,須先處理相關授權方能公開使用,故該語料現

雖已收錄至本語料庫中,但僅可供內部研究使用。雖目前尚未獲得進

一步成果,本計畫將持續尋找合適之口語語料,擴充口語語料庫之內

容。

2. 民間電視臺語料

本年度口語語料收錄方面,由於本院(104)年持續進行年度語

詞調查之工作,調查資料範圍亦包含口語類型文本,為求相關經費之

有效運用,並藉此擴大建置華語口語語料,達到多元內涵,因此結合

兩計畫之經費以採購更多之語料。本年度現已獲 1,100 集節目(約 660

萬字)之授權,內容涵蓋近十年之法政軍事、財經、時事、科學、生

活時尚、文教藝術等多元節目類型,節目使用語言以臺灣使用之國語

為限,每集節目 20~50 分鐘(不含商業廣告),且每集皆包含語音檔

暨逐字稿文字檔兩種類型檔案。

三、雙語語料庫

本年度華英雙語語料之主要工作項目,分為語料蒐集及語料處理

兩項:

(一)語料蒐集

關於語料蒐集,為豐富語料多樣性,目前蒐集來源共分兩方面,

一為政府機構之語料,二為坊間機構之語料:

1. 政府機構之語料

本計畫於去(103)年 9 月函請僑委會授權對外華語相關教材,

因資料版權待釐清,於今(104)年 8 月始獲得僑委會正式書函回復

同意,僅能授權 18 項教材,其中有雙語語料之授權教材共計 4 項:

Page 15: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

10

《安弟與小甜甜》、《快樂學華語 2》、《兒童文化教材》及《觀光臺灣

-每日一句》。

此外,教育部網站訊息 103 年度中英教育訊息亦納入雙語語料來

源之一,目前以人工對應及校對方式,完成句對檔案 116 個,共計

1,567 個對應句,中文字數 62,378 字,英文字數 40,118 字。

2. 坊間機構之語料

今年度雙語語料之工作目標為取得並處理華英雙語平行語料 300

萬字,為利雙語語料庫之建置,本計畫提前於去年底規劃取得坊間出

版社優質雙語語料之使用權,於今年初完成採購首批雙語語料約 40

萬字,語料內容及數量詳如表四。

表四、104 年首批華英雙語語料採購內容

俟今年經費撥付後,於 6 月規劃第二批雙語語料公開招標採購,

然因無廠商投標,雙語語料採購案歷經 2 次流標。接著,進行限制性

招標,與有合作意願之廠商採購雙語語料,共計 300 萬字。

(二)語料處理

1. 訂定華英雙語語料庫後設資料

考量本計畫不同語式語料庫之間的支援性及結合性,雙語語料庫

後設資料的設定主要參考本計畫書面語語料庫及口語語料庫之設定,

包含以下 7 項後設資料欄位:作者、出版年、出版者、出版單位、主

題、媒體、語式(雙語)。惟因雙語語料之主題涵蓋性不似書面語廣

泛,故不採用書面語主題分類法,而改採 8 項主題分類:文學、科學、

財經、藝術、思想、文化、全球、休閒。

文章類型 數量(篇) 中文字數

(字)

英文字數

(字)

經費(新

臺幣)

光華畫報雜誌社中

英雙語語料 137 358,904 345,079 96,000

中央社之「新聞 E

點通」 32 24,163 37,621 19,200

英文中國郵報之

「臺灣原住民族文

化」報導

10 11,613 7,586 5,000

總數 179 394,680 390,286 120,200

Page 16: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

11

2. 人工對應部分華英雙語語料

在雙語語料對應處理方面,本計畫訓練人員,以人工比對方式,

兩人一組,一人對應、一人校對。雙語語料分句以句號、驚嘆號、問

號為依據,電腦程式自動分句,儲存成 EXCEL 檔案,格式詳見表五:

表五、雙語句對 EXCEL 格式

中文編號

(CID): 5-n

中文句子原文

(C-sentences)

英文編號

(EID): E-A-n

英文句子原文

(E-sentences)

中文編號的

對應

(C-alignment)

1 A

2 B

3 C

人工中英文句對編號的操作規則如下:

(1) 若該句英文 E-A (一個句子),無中文對應,則 E-A’s C-alignment

內填 0。

(2) 若該句英文 E-B (一個句子,整齊句對),對應中文 6,則 E-B’s C-

alignment 內填編號 2。

(3) 若多句英文如 E-C, E-D, E-E (多個句子),對應同一中文 C3,則 E-

C, E-D, E-E’s C-alignment 內皆填編號 3。

(4) 若該句英文 E-D (一個句子),對應多單位中文 C4, C5, C6,則 E-

D’s C-alignment 填編號 4, 5, 6。

(5) 若多句英文如 E-C, E-D, E-E (多個句子),對應多單位中文 C4, C5,

C6,則 E-C, E-D, E-E’s C-alignment 內皆填編號 4, 5, 6。

(6) 若該句英文 E-G,對應到中文 C8 的主詞但非其他部分,且為該

主詞首次出現,則 E-G’s C-alignment 內填編號 8。

(7) 若該句英文 E-G,對應到中文 C8 的主詞但非其他部分,且為該

主詞非首次出現,則 E-G’s C-alignment 內不填編號 8。

(8) 若遇 [表格資訊],則刪除原表格中的中文內容。

(9) 若遇 [Table information],則刪除原表格中的英文內容。

按照以上人工句對操作規則,對應標準以英文句為主,找出相對

應之中文翻譯;若中英對應順序有所挪動,則視整段為一個單位;表

六為範本:

Page 17: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

12

表六、人工對應華英雙語語料之範本

CID C-sentence EID E-sentence Alignment

1

落實環境教育-「聽水的故事」特

展將於 102 年 1 月 15 日盛大登

A

Implementing Environmental Education: A

Special Exhibition on "The Story of Water" Will Be Held on January

15th, 2013

1

2 教育部為充實教師將環境教育融

入各領域學科教學之專業知能, B

In order to enhance teachers' knowledge of the

environment and show them how to integrate

environmental education into each of the subjects

they are teaching, the National Taiwan Science

Education Center, with the support of the Ministry

of Education (MOE), is holding a special

exhibition entitled "The Story of Water: Science,

Civilization, and the Future."

2 3

3

補助國立臺灣科學教育館辦理

「聽水的故事-水的科學、文明

與未來」特展,

C

By using the abundant resources of the National

Taiwan Science Education Center, the MOE hopes

the exhibition can entertain as well as educate visitors, who will surely enjoy this learning

experience.

4 5 6

4 期透過館內豐富的資源, D

The MOE also expects that the special exhibition

can promote the professional development of all of

Taiwan's high school, junior high school and

elementary school teachers, and that it can

strengthen the schools' natural science curricula, in

particular with regard to environmental education.

6 7

5 提供深具教育啟發意義且寓教於

樂之管道, E

The theme of this special exhibition is science,

civilization and the future, a theme which

integrates environmental education, science

education, humanistic education and art education.

8 9

6 作為環境教育與自然科課程的重

要展示, F

By various means, including multimedia

interaction, specimen displays, and the

presentation of films, plays and artists' works, the exhibition aims to raise teachers' awareness of

water issues and eventually to integrate

environmental education into their schools'

curricula and methods of instruction.

10 11 12

7 並作為全國中小學教師的研習場

所。 G

The exhibition will run from January 15th, 2013 to

May 31st, 2013. 13

8 這次的特展將以水的科學、文明

與未來為主軸, H

The MOE sincerely invites all teachers who care

about environmental education to listen to the stories that water wants to tell us, and to join in a

journey of exploration of our water resources that

is guided by a dialogue between the sciences and

the humanities.

14 15 16

9 融合環境、科學、人文與藝術教

育, I

You can find further relevant information on the

following website: 17

依照以上處理原則及人工句對規則,已完成人工對應教育部網站

訊息 103 年度中英教育訊息句對檔案共 116 個。

以上雙語後設資料及人工句對原則之確定,可俾利加速未來雙語

語料庫建置,及後續編撰華語文學習素材時使用。

Page 18: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

13

四、華語中介語語料庫

本年度華語中介語之主要工作項目,主要分為語料蒐集、偏誤標

記文獻整理、語料規劃及處理三項:

(一)語料蒐集

為加深語料蒐集深度及廣度,且為豐富語料來源,華語中介語蒐

集來源主要有二:各大學附設華語文中心之臺灣華語非母語學習者自

願提供之作文或寫作練習文章及國家華語測驗推動工作委員會授權

之限時考試語料:

1. 各大學附設華語文中心之臺灣華語學習者自願提供作文或寫作

練習文章

本計畫考量經費及人力之限制,所收集之中介語以書面語為主。

為收集前述語料,本計畫於去(103)年底即規劃與各大學附設華語

文中心合作,徵求各華語文中心之臺灣華語非母語學習者自願提供作

文或寫作練習文章,以作為本計畫華語中介語之主要來源。

自去年底,本計畫徵詢北部各大學附設華語文中心合作之可行性。

參照教育部國際及兩岸教育司全國大專校院境外生生活資訊網網站

所提供的 98-103 年華語文中心國際學生人數統計資料,洽詢在北部

地區國際學生人數較多的學校,例如:國立臺灣師範大學國語教學中

心、淡江大學成人教育部華語中心、中國文化大學推廣部華語中心、

國立政治大學華語文教學中心、國立臺灣大學文學院語文中心中國語

文組、國立臺北教育大學華語文中心、輔仁大學附設語言中心,詢問

各單位合作意願。

截至今(104)年,已分別與國立臺灣師範大學國語教學中心、

國立臺灣大學文學院語文中心中國語文組、國立政治大學華語文教學

中心、國立臺北教育大學華語文中心合作,至各單位蒐集華語中介語

語料;同時,亦商請開南大學班級老師協助收集不限時書面語語料。

經由以上合作模式,取得第一批授權可公開使用之華語中介語不

限時書面語語料共 363 篇,約 20 萬字;第二批授權可公開使用之華

語中介語不限時書面語語料共 248 篇,可取得約 10 萬字華語中介語

語料。

藉由與各華語文中心合作取得之語料,可加深本計畫華語中介語

之深度。

2. 國家華語測驗推動工作委員會授權之限時考試語料

除考慮華語中介語語料之深度外,為加深語料之廣度及豐富語料

Page 19: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

14

來源,本計畫於今年初向國家華語測驗推動工作委員會提出計畫書,

獲其同意授權限時考試語料,內容有「進階高階級寫作測驗」文本,

計有書信寫作題型 76 份,觀點論述題型 196 份,共約 12 萬字。

截至今年年底,本計畫共蒐集華語中介語不限時書面語語料共約

30 萬字、限時書面語語料共約 12 萬字。

(二)偏誤標記文獻整理

華語中介語語料庫偏誤標記的目的在於提供研究者觀察語言學

習者偏誤分布的情形,進而分析語言學習者在學習第二語言時所可能

遭遇的困難。為選擇一套適用的偏誤標記方式,本計畫整理分析相關

偏誤標記文獻,包括:國際英語學習者語料庫(International Corpus of

Learner English) (Ellis & Barkhuizen 2005)、劍橋學習者語料庫

(Cambridge Learner Corpus)(Nicholls, 2003)、中國大陸 HSK 動態作

文語料庫(張寶林,2010)、TOCFL 學習者語料庫(張莉萍,出版中)、

國立臺灣師範大學頂尖大學團隊「華語文寫作語料庫」(洪嘉馡,2014)

等標記方式。

在這些過去的標記方法中,偏誤標記的方式可以被歸納成兩種類

別:目標差異分類標記(target modification taxonomy, TMT)及語言

學分類標記(linguistic category classification, LCC)。TMT 分類標記系

統主要標示出學習者所產出的語言與目標語言之間的差異處,例如:

缺漏字、錯別字等。TMT 的特色則為標記集簡單、規則明確、標記人

員易於記憶,因此標記效率高,且標記結果一致性也高。然而,標記

過於簡單,量化結果過於粗糙,無進一步語言學資訊可供分析。LCC

標記主要將偏誤依據語言學概念分類,例如:副詞遺漏、時貌動詞多

用等。LCC 的特色是標記集訊息豐富,同時標記集的制定可粗可細,

彈性極高。豐富的訊息可以提供研究者作深入的歸納分析,而標記集

的採用也可以依據不同的研究需求而調整。但是,過細標記集之缺點

則為,一方面不易記憶,導致標記效率低,另一方面則是標記結果較

不易達到一致。

為了讓標記集可涵蓋較全面之語言學標記訊息,同時顧及標記結

果的一致性,本計畫將暫採 TOCFL 學習者語料庫偏誤標記之概念(張

莉萍,出版中),將標記集分成兩個階層,第一層標記集採目標差異分

類系統(target modification taxonomy, TMT),將偏誤分成下列四大類:

1. 遺漏(omission):因缺漏字詞所造成的偏誤。

2. 冗贅(addition):因誤加字詞所造成的偏誤。

3. 錯序 (misordering):詞序不正確所造成的偏誤。

Page 20: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

15

4. 選用錯誤(mis-selection):使用不正確的詞所造成的偏誤。

在此四大類之下,再根據 LCC 分類系統,將每一類的偏誤細分成 36

個次類,此為第二層標記集,惟實際次類個數可依照需求適當調整。

實際標記時,次類別可再依據涵蓋語言結構的範圍,歸納成下列四個

範圍:

1. 詞的範圍:詞範圍的偏誤可再依詞類細分。

2. 語的範圍:語範圍的偏誤可再依語組結構細分。

3. 句的範圍:句範圍的偏誤可再依句型再細分。

4. 混合範圍:主要分成形式錯誤及表達方式錯誤。

標記的程序則先依照第一層的四大類標記偏誤主類,再標記第二層語

言學標記。語言學標記個數雖有 36 個,但歸納成詞、語、句、及混

合範圍之後,每一範圍下的類別便十分有限。

(三)語料規劃及處理

規劃及處理華語中介語語料之程序包括規劃及確認未來語料蒐

集方向、訂定華語中介語語料之後設資料、進行人工偏誤標記:

1. 規劃及確認未來語料蒐集方向

考量未來整體華語中介語語料庫之平衡性,冀能反映現今華語學

習者之情況,故透過檢視本計畫華語中介語語料庫受試者與我國大專

校院附設華語文中心外籍學生人數國籍兩者之分布,作為未來語料收

集方向之參考。圖一為 103 年本計畫所蒐集華語學習者不限時語料之

主要母語分布統計,圖二則為教育部國際及兩岸教育司全國大專校院

境外生生活資訊網網站所提供的 103 年華語文中心國際學生人數統

計資料。

從圖中可見,本計畫去年度所收集之母語排名依序為:日文、越

南文、韓文、印尼文、英文,而國際學生國籍排名則為日本、美國、

南韓、印尼、越南。當進一步分析近五年國際學生國籍排名,發現次

序雖非固定,但人數最多之前五個國家皆為日本、美國、南韓、印尼、

越南。此前五名國家和本計畫去年度所收集之不限時書面語語料學習

者母語之分布吻合,表示本計畫所收集之語料有其代表性,故而確立

未來本計畫規劃語料收集方向將仍依循此原則進行。

Page 21: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

16

圖一、本計畫蒐集之華語學習者主要母語分布情形

圖二、103 年國內大專校院華語文中心國際學生國籍分布情形

2. 訂定華語中介語語料庫後設資料

本計畫參考國立臺灣師範大學國語教學中心簡章之學生學習背

景資料,並召開華語中介語語料諮詢會議請教國內中介語專家學者後,

訂定後設資料欄位包括:題目、性別、文體(口語、書面語、作文)、

母語、能力等級、性質(限時考試、不限時作業)、建檔方式(打字、

手寫);並依 104 年諮詢會議決議,擬開放華語中介語語料庫查詢功

23.8

19.0

13.8

11.7 10.3 10.0

5.9 5.5

0.0

5.0

10.0

15.0

20.0

25.0

日文 越南文 韓文 其他 印尼文 英文 西班牙文 泰文

所佔比例(%

)

19.5

12.9 12.5

6.3 5.9 5.5

3.4 3.0 2.4 1.9 1.8 1.7 1.6 1.4 1.2 1.1 1.0 1.0 0.6

15.4

0.0

5.0

10.0

15.0

20.0

25.0

日本

美國

南韓

印尼

越南

法國

德國

泰國

中國大陸

菲律賓

加拿大

英國

澳大利亞

蒙古

俄羅斯

西班牙

荷蘭

義大利

印度

其他

所佔之比例(%)

Page 22: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

17

能,將先提供作文,以及母語、能力等級兩項資訊。

3. 進行人工偏誤標記

受限於計畫人力,本計畫於本年度僅先進行人工偏誤標記錯字

(即不成字的字)。待偏誤標記項目確定,旋即挑選本計畫所蒐集之

臺灣華語學習者母語排序前五名(即:日文、越南文、韓文、印尼文、

英文)之作文進行人工偏誤標記。

五、辦理語料庫應用推廣活動

本計畫為推動各界運用華語文語料庫進行相關研究及應用,於今

(104)年 9 月 25 日舉辦「2015 華語文語料庫應用工作坊」,除簡介

計畫內容外,並安排四場專題演講,邀請中外學者專家就語料庫應用

之相關課題進行分享,展現語料庫於教學、研究、實務應用中所扮演

的角色,藉此提昇與會者對語料庫應用之了解;下午舉辦「華語文語

料庫於研究與實務應用論壇」邀請產、學、研專家學者進行討論,透

過與談人經驗分享及對話與意見交流,展現華語文語料庫的實務應用

價值,並激發創新應用的新思維,詳細議程請參閱附錄五。

六、系統開發

本計畫為使建置之語料庫發揮更大的效益,亦持續開發語料庫處

理相關工具及系統,於去(103)年開發中文分詞系統及語料索引典

系統外,今(104)年則完成中文分詞系統及詞性標記系統 API

(Application Programming Interface, 應用程式介面)、口語檢索系統

雛形,現詳述如下:

1. 中文分詞系統 API:

本計畫所開發的中文分詞(含詞性標注)系統,雖已可透過線上

系統直接進行中文文本分詞(如圖三),但為了更方便大眾運用此系統

進行相關研究或應用,本計畫更進一步構思並完成中文分詞系統之

API。

Page 23: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

18

圖三、國教院分詞系統介面

中文語言由於詞彙沒有天然邊界,此係為和西方語言的一大差

異,也因此中文分詞系統是語料庫建置工作中最基礎的工具之一。

然而在語料的處理過程中,有非常多功能上的特殊需求要考慮。例

如:一篇以 XML 格式的文件中,可能包含文件的標題、作者、日

期、文件類別、文章出處及文章內容等等。這些訊息有些欄位需要

斷詞處理(如標題及文章內容);有些欄位不需要分詞(如作者、日

期、文件類別、文章出處等);甚至有一些需要分詞的段落之中又包

含了不需要斷詞的段落(例如文章中包含 html 標記、網址等)。這

些不同的需求只有透過周延的 API 設計,才能提供較全面性的分詞

服務。

除了文件格式上的需求之外,本分詞系統還提供包含多重檔案的

批次處理需求、透過網路呼叫分詞功能的主從式架構需求以及命令列

參數呼叫需求等。如何提供最大的使用彈性及便利性以充分發揮中文

分詞系統特性,是此 API 設計的考量點。

以下依照文件格式層面、批次處理層面、命令列層面及主從架構

層面,分別說明中文分詞系統 API 的設計。

文件格式:

─ 文件編碼指定:系統預設為 UTF-8 編碼,可以指定不同的編碼

系統,例如 BIG-5, UTF-16, UTF-32。

─ 詞彙邊界指定:系統預設為空白字元,可以指定不同的字元或字

Page 24: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

19

串,例如:全形空白、<TAB>字元等。

─ 指定分詞區間:系統預設所有文件內容都會分詞,可以指定分詞

的範圍,例如:<text>..</text> 指定處理 XML 文件中所有 <text>

到 </text> 之間的文字。區間可以多重指定。

─ 指定分詞區間中,不分詞的區域:文件中常常有一部分文字不需

要分詞處理,如 html 標記,網址等等,這些不需要分詞處理的部

分,可以透過 regular expression 來指定。例如: <[^>]*>,可以

避免所有 html 標記被分詞

─ 指定輸出格式:系統預設的輸出格式為「詞彙(詞類標記)」,透過

這個格式設定可以切換成 詞彙/詞類標記,或其他的格式。

多重檔案的批次處理:

─ 指定批次檔:使用者可以將所有要斷詞的檔名存放在一個檔案中,

系統可以直接讀入檔名列表,批次處理。這個批次檔也可以是標

準接收檔。

─ 目錄批次處理:使用者可以指定要處理文件的所在目錄做批次處

理。

─ 遞迴目錄批次處理:在目錄批次處理中,可以遞迴式地處理子目

錄下的檔案。

2. 口語檢索系統雛形:

本計畫所收錄的口語語料除文字資料外,更包括其語音檔。因此

本計畫透過利用語音及文字同步對應之技術對於所取得之語料進行

分析處理,並進而建置口語檢索系統雛形。使用者除可透過此雛形系

統搜尋詞彙,觀察其使用的語境(文句)外,更可以利用「播放」功

能聽取個別文句的語音(見圖四)。若使用者想要閱讀該完整文本,

亦可點選文本名稱,播放全文音檔,本系統亦會自動顯示正在播放的

內容(以底線標注),使用者更可以隨意點選文本中的句子,系統將

自動自該句進行播放(見圖五)。

Page 25: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

20

圖四、口語檢索系統雛形,以搜尋『開發』為例

圖五、口語檢索系統雛形,以搜尋『開發』為例

(資料來源:大愛電視臺)

Page 26: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

21

肆、標準體系建置

標準體系為達成本(104)年度工作目標,依據 102 年與 103 年

國內、外語文能力指標及分級標準之文獻分析,建置學習者聽、說、

讀、寫、譯等能力指標及漢字、詞語、語法、篇章等分級標準之內容

初稿。104 年執行成果分成兩個部分,包括能力指標、分級標準,根

據人類語言學習的歷程是由生疏至精熟,相對於語言測驗等級劃分就

是由初級、中級至高級的發展,此外,國內、外語言能力指標皆以初、

中、高的概念劃分等級,因此本計畫將能力指標與分級標準擬訂為 A、

B、C(初、中、高)三等與其 Pre-A1、A1、A2、B1、B2、C1、C2

七級,目前完成聽、讀能力指標內容初稿的建置;此外,分級標準運

用本計畫建置中的語料庫進行統計分析,提供漢字、詞語、語法、篇

章等分級標準內容研擬。標準體系之能力指標與分級標準成果分別敘

述如下:

一、能力指標建置

本計畫標準體系之能力指標依據 102 年與 103 年的文獻分析,參

考國、內外重要的語言能力指標,包括 CEFR(指標訂定以教學、學

習、測驗為主)、ACTFL(指標訂定以教學為主)、TOCFL(指標訂定

以測驗為主)、新 HSK(指標訂定以測驗為主)、國際漢語能力標準

(指標訂定以教學、學習、測驗為主),研擬聽、說、讀、寫、譯等華

語文學習者能力指標內容。

CEFR 強調以溝通時能做到(Can do)的能力制定聽、說、讀、

寫、譯等能力的三等六級之詳述指標內容(劉駿、傅榮譯,2008)。

ACTFL 則是以美國外語教學的五個目標 5Cs(溝通 communication、

文化 cultures、貫連 connections、比較 comparisons、社區 communities)

概念與三個溝通模式,包含語言溝通( interpersonal)、理解詮釋

(interpretive)、表達演示(presentational)而制定聽、說、讀、寫、

譯等能力的五等十一級之詳述指標內容( ACTFL proficiency

guidelines 2012;蔡雅薰,2009)。華語文能力測驗(TOCFL)是以華

語文學習者在華語測驗架構能達成的華語溝通能力規劃聽、說、讀、

寫等能力的三等六級之概述指標內容。新漢語水平考試(新 HSK)也

是以華語文學習者在華語測驗架構能達成的華語溝通能力規劃六級

概述的整體能力指標,但並未針對聽、說、讀、寫的個別能力訂定指

標內容。國際漢語能力標準是以華語文學習者在教學、學習、及測驗

架構能達成的華語溝通能力制定口頭與書面語等能力的五級詳述指

Page 27: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

22

標內容,但缺乏譯的能力指標(國際漢語國際推廣領導小組辦公室,

2007)。下列表七為五個能力指標的歸納整理。

表七、國、內外能力指標內容型態對照表

根據上述,TOCFL與新HSK雖為對外華語主要參閱之能力指標,

其內容是以華語文測驗為研制指標考量,缺乏詳盡完整聽、說、讀、

寫、譯等指標之敘述,而國際漢語能力標準雖也是對外華語教學的參

考指標之一,此標準僅以口頭與書面語交際能力擬定能力描述,但其

包含聽、說、讀、寫能力的詳盡說明,惟缺乏譯的能力指標之內容,

且其五級能力對於高級能力描述略顯不足,以上三個對外華語教學的

能力指標皆無法完整提供國內各大學華語中心規劃華語文課程之主

要參考,因此國內各大專校院之華語中心需另參考 CEFR 與 ACTFL

作為規劃課程期數的依據。臺灣各大學的國語中心、華語文中心或語

言中心的課程分級皆以各中心的特色與需求而規劃級數與期數,包括

臺灣師範大學國語中心(16 期的課程)、政治大學華語中心(4 等 13

級的課程)、成功大學華語中心(4 等 9 級的課程)、淡江大學華語中

心(3 等 9 級的課程)、文化大學華語中心(4 等 10 級的課程)。據此,

本計畫為提供我國各大專校院的對外華語教學課程在規劃分級的參

考對照標準,因此,本計畫參考 CEFR、ACTFL、TOCFL、新 HSK、

國際漢語能力標準等研擬與國際接軌之華語文學習者能力指標之內

容,將華語文學習者能力指標依精熟程度分為三等七級。研擬能力指

標流程詳如圖六。

能力指標 聽 說 讀 寫 譯 總體

CEFR

(三等六級) 詳述 詳述 詳述 詳述 概述 詳述

ACTFL

(五等十一級) 詳述 詳述 詳述 詳述 無 詳述

TOCFL

(三等六級) 概述 概述 概述 概述 無 概述

新 HSK

(六級) 無 無 無 無 無 概述

國際漢語能力標準

(五級) 詳述 詳述 詳述 詳述 無 詳述

Page 28: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

23

圖六、華語文學習者能力指標研擬流程圖

華語文學習者能力指標研擬流程如圖六所示,指標研擬先是進行

文獻分析,包括分析 ACTFL、CEFR、TOCFL、新 HSK、國際漢語能

力標準,此步驟已於 102 年度與 103 年度完成。今(104)年執行第

二步驟,開始研擬初稿,接續是召開專家會議審核初稿內容,提供修

訂意見,針對專家會議決議,統整修訂指標內容,此程序會持續反覆

進行,明(105)年確認能力指標內與分級標準能否相互對應,最後,

完成華語文學習者能力指標內容擬定。

華語文學習者能力指標目前已研擬聽、讀能力指標初稿內容,敘

述如下。

(一)能力指標之研擬

本計畫為了能確實呈現華語學習者的語言能力發展,及提供國際

評量華語學習者能力分級的參考框架。因此,依據國際具有影響力的

語言能力指標之文獻分析,如表七提列的 CEFR、ACTFL、TOCFL、

新 HSK、國際漢語能力標準研擬本計畫對外華語學習者的能力指標

內容。能力指標的研擬原則最主要考量學習語言是要達到語言的溝通

分級標準研究團隊

論 研究

團隊

修訂

文獻分析 (ACTFL、CEFR、TOCFL、

新 HSK、國際漢語能力

標準)

研究團

隊研擬

初稿

專家

審議

完成華語文

學習者能力

指標

是否需

修訂

Page 29: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

24

能力和技能,其溝通能力是經由語言溝通活動產生,在溝通活動過程

中,會具有不同的身分,作為聽眾、講話者、讀者、或寫作者,基於

不同身分,語言學習者應當具備以下一些能力(劉駿、傅榮譯,2008;

ACTFL proficiency guidelines 2012;蔡雅薰,2009;國際漢語國際推

廣領導小組辦公室,2007):

(1) 聽的能力,即:

─ 聽到話語的聽覺能力。

─ 識別語言訊息的語言能力。

─ 理解訊息的語意能力。

─ 解讀訊息的認知能力。

(2) 說的能力,即:

─ 預測並組織訊息的認知能力。

─ 遣詞造句的語言能力。

─ 讀出語句的語言能力。

─ 發出正確語音的語言能力。

(3) 寫的能力,即:

─ 組織並表達訊息的認知能力和語言能力。

─ 手寫或用電腦書寫的操作能力及其抄寫能力。

(4) 讀的能力,即:

─ 看到文字的視覺能力。

─ 識別書寫的識字能力。

─ 識別語言訊息的語言能力。

─ 理解訊息的語意能力。

─ 解讀訊息的認知能力。

(5) 譯的能力,即:

─ 理解受話者或作者的語言或語言代碼,並用另一種語言或

語言代碼以口頭或書寫方式向他人、聽眾或讀者輸出相同

內容文本的轉譯能力。

─ 理解兩位對話者的不同語言或不同語言代碼的內容,用另

外一種語言表達相應文本,文本翻譯互動中扮演中間人的

轉譯能力。

基於上述,在執行能力可分為語言接收(reception)、語言產出

(production)、互動(interaction)、監控(monitoring),其執行步驟如

下(劉駿、傅榮譯,2008;蔡雅薰,2009;國際漢語國際推廣領導小

組辦公室,2007):

(1) 語言接收為聽和讀,根據溝通實際狀況,對溝通上下文的預

期和對於文本的新的理解而不斷調整和重新解讀獲取的訊息,

Page 30: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

25

從基礎到深入的理解,具體的四個步驟是:

─ 識別聲音、書寫和詞語(手寫或印刷體)。

─ 識別全部文本的切題性。

─ 從語言層面理解全文。

─ 根據語境解讀文本信息。

(2) 語言產出為說和寫,可包括兩個方面:

─ 表達:語言的形式是整體的表現,包括語音、語法和詞語

等不同環節。在書面表達,還需加上拼寫環節。

─ 發音:發音器官使音位活動變成言語各個器官運作協調的

過程,從而發出一系列聲波,構成口頭表達,或者在需要

形成書面文字的情況下,發出的系列聲波會推動手的肌肉

運動機能寫出手稿或打字。

(3) 互動,分為口頭互動和書寫互動:

─ 口頭互動是聽和說的堆疊,這是因為:

語言接收和語言產出過程相互交錯。講話一方的話題

尚未結束,另一方已經對其所說內容、含義和理解進

行了假設,並據此規劃自己的回答。

話語是一個累積的過程。隨著互動的進展,溝通各方

逐步認同談話語境,開始對溝通內容進行預期,談話

也就越來越有針對性,這些都會經溝通參與者的談話

表現出來。

─ 書寫互動,如通信、傳真或電子郵件等,語言接收和語言

產出則是兩個分開的過程。但是,如今網路的電子互動趨

近現場的實際溝通,話語的累積效果與口頭互動相似。

(4) 監控,在語言溝通中,檢驗語言產出行為的一個重要策略,就

是看說話者/書寫者在表達、發音和聽力各個階段得到的反饋。

從更廣泛的意義上說,此策略也可用於溝通過程中檢驗溝通

的方式,因此還能在監控溝通過程的方式上發揮作用。例如:

─ 處理溝通過程中談話主題和領域的臨時變更。

─ 處理互動和語言產出中造成的溝通中斷現象:

溝通能力不能勝任正在進行的溝通任務,因此必須運

用諸如補償、重新組句、迂迴說法、替換和求助他人

等策略。

因為有誤解和模糊之處,要求予以澄清。

因為筆誤或口誤,或者因為沒有聽懂、聽清楚某個詞,

不得不使用補救策略等。

依據上述,本計畫華語學習者能力劃分如下:

Page 31: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

26

(1) 語言接收包含聽力理解和閱讀理解兩個方面。

(2) 語言產出包含口頭表達(說的能力)和書寫表達(寫的

能力)。

(3) 語言中介包含筆譯能力與口譯能力。

因此,本計畫先進行語言接收之聽的能力與讀的能力之指標內

容研擬,其初稿內容,敘述如下:

(二)聽力能力指標

聽力能力內容包含整體表現與能力指標。根據能力指標訂定原則,

聽力能力是語言的接收,此語言接收的方式可經由單向式透過他人或

媒體的公告、傳播的方式而接收訊息,也能經由兩人以上互動式的對

話或討論而接收的訊息,因此本計畫聽力能力指標內容以兩個形式呈

現,包括單向訊息及互動對話,其定義如下:

(1) 單向訊息:語言使用者作為受話人接收或處理他人口頭傳達的訊

息,此類聽力理解活動包括聽公告(訊息、須知、警示等)、聽傳

播媒體(廣播、電視、錄音、電影等)、作為觀眾(戲劇、公共集

會、報告會、演出等)。

(2) 互動對話:語言使用者在處理對話或討論過程中的口頭傳達的訊

息,此類的聽力理解活動包括對話、討論、辯論、聽有多個角色

互動的傳播媒體(廣播、電視、錄音、電影、戲劇、演出等)。

聽力能力之三等七級之整體能力與個別能力指標初稿詳如表八、

九。

Page 32: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

27

表八、聽力能力之整體表現說明

等別 級別 整體表現

A

Pre-A1

在說話者語速緩慢、發音清晰標準時,能聽懂與

個人基本資訊相關的詞彙與極為簡單的短語,需

要較長的時間來思考語義。

A1

在說話者語速緩慢、發音清晰標準時,能聽懂極

為簡單、簡短的對話和陳述,需要較長的時間來

思考語義。

A2

在說話者語速緩慢、發音清晰標準時,能聽懂簡

單且清楚的日常用語與簡短句子,其內容符合個

人的具體需求與具體而熟悉的話題。

B

B1

在說話者發音清晰標準時,能聽懂與個人一般日

常生活工作直接相關的話題資訊,及與工作、學

校、休閒活動等領域中個人熟悉或感興趣的話題

與重點。

B2

在說話者發音清晰標準時,無論談話內容是正式

或非正式的,都能聽懂有關個人、社交、學術或

工作等領域的話題大意。若話題相當熟悉,而且

談話內容有清楚的方向指引,能聽懂抽象、延伸

的話語及複雜的論證內容。

C C1

即使說話者話語結構不佳或表達不清楚,也能聽

懂較長的發言。對於非個人熟悉領域之抽象與複

雜主題,能聽懂其內容,及辨認不同的習慣用語

及口語用法,並察覺其語言形式的變換。

C2 在各種情境和語速下,能聽懂談話中的寓意。

Page 33: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

28

表九、聽力能力之各級指標說明

敘述

等級 單向訊息 互動對話

A

Pre-A1

在說話者語速緩慢及發音清晰標準

時,能聽懂下列事項:

L-Pre-A1-1 與個人密切關聯的簡單詞

彙,例如,名字、國籍、

年紀、學校名稱等。

L-Pre-A1-2 簡單的自我介紹,例如,

「我叫愛德華」、「我 20

歲」等等。

L-Pre-A1-3 簡單的說明、要求或指示,

例如,「請你自我介紹一

下」、「請坐下」、「打

開書本」等等。

在有適當的協助(例如,重述、解釋、

翻譯、改變表達方式、手勢、圖像等)

時,當對方以緩慢且清楚的方式述說

時,能聽懂下列事項:

L-Pre-A1-4 與個人密切關聯簡單及

簡短的問題,例如「你叫

什麼名字」、「住在哪裡」

等等。

L-Pre-A1-5 簡單的日常用語,例如,

「你好」、「請」、「謝

謝」、「對不起」等等。

A1

在說話者語速緩慢及發音清晰標準

時,能聽懂下列事項:

L-A1-1 與個人密切關聯的簡單詞彙,

例如,飲食習慣、時間日程、

課程安排等等。

L-A1-2 簡單的說明、要求或指示,例

如,「到哪裡見面」、「右轉」、

「在左邊」等等。

L-A1-3 簡易的數字,例如,時間、價

錢等等。

在有適當的協助(例如,重述、解釋、

翻譯、改變表達方式、手勢、圖像等)

時,當對方以緩慢且清楚的方式述說

時,能聽懂下列事項:

L-A1-4 與個人相關的簡單問題,例

如,「你喜歡吃米飯還是麵

條?」、「你是租房子嗎?」

等等。

L-A1-5 日常用語,例如,問候、道

別、感謝、指稱等。

A2

當說話者語速緩慢及發音清晰標準

時,能聽懂下列事項:

L- A2-1 與個人相關的常用詞語,例

如,自己、家人、購物、周邊

環境、工作等。

L- A2-2 簡單的說明或指示,例如,如

何從甲地到乙地。

L- A2-3 從簡短、清晰的訊息和宣告中

抓住重點,例如車子幾點在什

麼地方出發、公共場所開門和

關門的時間等等。

L- A2-4 日常生活中接觸到的簡短錄

音材料,例如,電話留言。

在有適當的協助(例如,重述、解釋、

翻譯、改變表達方式、手勢、圖像等)

時,當對方以緩慢且清楚的方式述說

時,能聽懂下列事項:

L-A2-5 在一般對話中已學過的詞語

和短語,並藉由已知部分辨

認出主題。

Page 34: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

29

敘述

等級 單向訊息 互動對話

B

B1

在說話者語速稍慢、發音清晰標

準時,能聽懂下列事項:

L-B1-1 熟悉話題和短篇敘述的主

要內容、重點及特定細

節。

L-B1-2 簡單連貫的說明或指示。

L-B1-3 簡單的技術性訊息,例如,

日常設備的操作說明。

L-B1-4 熟悉或感興趣的華語新聞

提要和一段簡單內容的

要點。

在對方發音清晰標準時,且述說

內容簡短與語言結構清楚,能聽

懂下列事項:

L-B1-5 以簡單連貫的語言所進行

的日常生活對話,與熟悉

主題的討論。

L-B1-6 熟悉主題或感興趣的華語

影音節目或電影的大概

內容。

B2

在說話者以一般速度及標準口語

表達時,能聽懂下列事項:

L-B2-1 熟悉主題的抽象和複雜觀

念的相關內容要點。

L-B2-2 言談內容的主要重點與細

節,並能大致辨認出說話

者的觀點、情感與態度。

L-B2-3 發布的說明、指示、宣布,

及社交、工作、或學術方

面的語音材料。

L-B2-4 新聞、時事報導、紀錄片

等華語電視節目。

L-B2-5 熟悉主題的報告與學術的

專業發表。

在對方口語表達標準,且述說內

容清楚與結構完整時,能聽懂下

列事項:

L-B2-6 熟悉主題的討論,及其抽

象、複雜觀念與延伸意義

等相關內容。

L-B2-7 具有對話情境或討論性的

華語電視節目,例如訪

談、談話性節目、電影等。

Page 35: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

30

敘述

等級 單向訊息 互動對話

C

C1

即使說話者以較快的語速、不太熟悉的

口音表達時,能聽懂下列事項:

L-C1-1 較長的敘述及描述文本,及複

雜的事實材料,例如,演講。

L-C1-2 不太熟悉話題內容中的部分含

義。

L-C1-3 各種不同類型的習慣用語和口

語用法。

L-C1-4 複雜的技術訊息,例如操作說

明、熟悉產品或服務的說明。

即使對話內容結構不佳或表達不清

楚,能聽懂下列事項:

L-C1-5 不同類型的華語視聽節目

內容,並能辨別說話者之間

的關係與立場。

L-C1-6 較長的討論和辯論。

L-C1-7 非個人熟悉領域或感興趣

的討論或辯論。

C2

即使說話者以不同腔調或語速表達時,

能聽懂下列事項:

L-C2-1 不同華語地區所使用的華語。

L-C2-2 抽象、複雜、不熟悉的話題。

L-C2-3 話質不良、收聽不清楚的公開

特定訊息,例如,在火車站、運

動體育場等的廣播訊息。

L-C2-4 不同地區華語節目所使用之華

語的差異與寓意。

針對不同類型的對話內容,能聽懂

下列事項:

L-C2-5 任何討論與辯論的口語語

言、地方用語、及不熟悉的

專業用語。

L-C2-6 對話者之間的隱含之義,例

如,幽默、反諷與嘲諷等。

L-C2-7 不同地區談話性的華語節

目內容。

Page 36: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

31

(三)閱讀能力指標

閱讀能力內容包含整體表現與能力指標。根據能力指標訂定原則,

閱讀能力也是語言的接收,此語言的接收方式是需透過看與讀而辨識

與理解文字以獲取訊息,且經由文字構成的篇章種類不同,而不同種

類篇章的內容對於不同程度學習者也有解讀能力之差異,因此本計畫

之閱讀能力指標內容以兩個形式呈現,包括獲取訊息理解及篇章理解,

其定義如下:

(1) 獲取訊息理解:閱讀及處理書面文本而獲取訊息,例如,廣告、

菜單、使用說明或指令等。

(2) 篇章理解:閱讀及處理不同體裁、類型的書面文本,例如,書籍、

小說、期刊、報紙、教材等。

閱讀能力之三等七級之整體能力與個別能力指標初稿詳如表十、

十一。

表十、閱讀能力之整體表現說明

等別 級別 整體表現

A

Pre-A1 在有視覺輔助及重複閱讀的情況下,能看懂基本數

字及日常生活常見詞彙。

A1 在有視覺輔助及重複閱讀的情況下,能看懂與個人

相關的訊息及簡單的短語。

A2 以具體、熟悉主題或以常見詞彙組成的短文,能看

懂文章的內容。

B

B1 針對個人熟悉或感興趣的主題,能讀懂表達直接的文

章內容。

B2

能針對不同文章和閱讀目的,調整閱讀方式和速度

以理解文本。能使用輔助工具理解不常見的詞彙、

慣用語及專有名詞。

C

C1 在能反覆閱讀的情況下,能讀懂專業領域的複雜長

篇文章。

C2

針對抽象、結構複雜、通俗文學或非文學作品等,能

讀懂其內容。能讀懂較難的長篇文章,並能辨認出其

不同的風格和隱喻。

Page 37: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

32

表十一、閱讀能力之各級指標說明

形式

等級 獲取訊息理解 篇章理解

A

Pre-A1

針對熟悉的主題,例行、日常生活的情境,與

個人立即需求的相關內容,能看懂下列事項:

R-Pre-A1-1 與個人當前需求相關的熟悉人名、

地名和詞語,例如個人的名字、家

人的名字、居住區域的地名。

R-Pre-A1-2 簡易的中文之數字,例如,一至十、

百、千。

A1

針對熟悉的主題,例行、日常生活的情境,與

個人需求的相關內容,能看懂下列事項:

R-A1-1 日常生活中熟悉人名、地名和名詞詞

語,例如圖片中的人名、地名、旅遊地

點名稱、商品名稱。

R-A1-2 與學習、工作有關的指示和非常簡單

的評語,例如,從甲地到乙地的方式、

老師在作業上用過的語言評價(如「很

好」、「更好」)。

R-A1-3 簡易的中文數字訊息,例如,列車時刻

表、物品數量。

R-A1-4 非常簡單的語句或真實材料中的基本

訊息,例如,佈告欄或海報上的時間、

地點;便條上的簡單用語。

R-A1-5 基本表格的詢問資訊,例如,名字、地

址、出生日期

A2

針對熟悉的主題,例行、日常生活的情境,與

個人相關的內容,能看懂下列事項:

R-A2-1 與個人相關領域的常用詞及句子,例

如,基本的個人及家族資訊、購物、工

作、當地的地理環境。

R-A2-2 簡單語言表達且條列清楚的規則,例

如,教室守則。

R-A2-3 簡單操作說明,例如,怎麼使用機器買

票。

R-A2-4 特定可預知的訊息,例如菜單上喜愛

或常吃的菜,或是火車時刻表上的行

程。

針對日常生活或個

人工作相關的用語,

能看懂下列事項:

R-A2-5 主題熟悉

且具體的簡

短 個 人 信

件。

Page 38: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

33

形式

等級 獲取訊息理解 篇章理解

B

B1

針對在個人、社交、旅遊、學

習、工作等相關領域中熟悉或感

興趣的主題,能做到下列事項:

R-B1-1 能讀懂不熟悉詞語的語

意,並能歸納出句子意

義。

R-B1-2 能讀懂結構清楚的影片

中清晰、簡單的字幕。

R-B1-3 能夠分析、比較和對照不

同來源的資料。

針對熟悉及感興趣主題,及印刷形式和字跡

端正的手寫字體,且在有辭典輔助下,能讀

懂下列事項:

R-B1-4 日常文件(例如,信件、小冊子和短

篇正式文件)的重要訊息。

R-B1-5 以瀏覽方式閱讀較長且組織清晰的

事實性文章,從中找尋所需的訊息。

R-B1-6 描寫事件、情感與希望的個人信件。

R-B1-7 論證清楚的議論文中的主要結論。

B2

針對不同類型的主題,能做到下

列事項:

R-B2-1 能讀懂不熟悉文章中作

者表達的重點與看法,例

如政論、展覽、表演、電

影等的評論。

R-B2-2 能讀懂關於自己興趣領

域的信件,並能快速找出

其主要文意。

R-B2-3 如果能重新閱讀困難的

部分,能理解熟悉領域中

複雜的說明,例如,關於

設備中特殊的使用條件

或警告說明。

針對不同類型專業主題的文本,且在有辭典

輔助下,能做到下列事項:

R-B2-4 能讀懂短篇故事、流行小說、通俗的

報章。

R-B2-5 能快速瀏覽長篇且複雜的文章或專

業報告,並能快速判斷是否值得進一

步閱讀。

C C1

針對專業與非專業領域的長篇複

雜文本,如果能重新閱讀困難的

部分,能做到下列事項:

R-C1-1 能讀懂長篇技術說明書。

針對專業與非專業領域的長篇複雜文本,偶

爾需查詢辭典,能做到下列事項:

R-C1-2 能讀懂任何信件。

R-C1-3 能讀懂與自身專業領域無關的專業

文章。

R-C1-4 能快速瀏覽複雜且詳細的長篇文章,

找出相關的細節,例如,只在個人認

為重要的、需仔細閱讀的段落停留。

R-C1-5 能掌握文學作品的文體特徵,例如,

修辭技巧(擬人等)或語用的意義。

R-C1-6 能讀懂複雜的長篇文章,包含態度和

隱含的意義。包含態度、隱含和陳述

的意見。

Page 39: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

34

二、分級標準建置

本計畫(104)年度為完成漢字、詞語、語法、篇章建置之初稿,

其工作目標為建置各級漢字 3,000 個與詞語 8,000 個之草案,以及制

定語法與篇章分級之依據及範例,惟於執行中認為分級標準之漢字、

詞語及語法各有其專業,因此,邀請相關學者專家分組進行,同時滾

動調整原目標。目前分級標準將分級定為三等七級,漢字組 7 級預期

研擬 3,100 個漢字,至本(104)年已完成初級漢字草擬,約 1,000 個

漢字;詞語組則結合情境主題導向與「華語文語料庫」量化分析,經

運用本計畫語料庫統計詞頻與覆蓋率,其涵蓋率 90%,共計 16,077 個

詞語,各級漢字、詞語內容需經由專家持續的討論與調校。此外分析

探討中文可讀性公式,提供一個中文文章和教材難度的可讀性公式。

另外,建置分級檢索系統雛型,及 350 個中文核心詞語用法與例句。

據此,分級標準是運用本計畫建置中的華語文語料庫進行建置工作,

分級標準建置之流程如圖七。

形式

等級 獲取訊息理解 篇章理解

C C2

針對所有語言的形式,能讀懂下列

事項:

R-C1-1 各種不同的慣用語句、比喻

語言。

針對所有語言的形式,包括抽象、結構

複雜或是相當口語化的文學和非文學

作品,能做到下列事項:

R-C2-2 能毫無困難地閱讀所有體裁

的文章,包括抽象、特殊主題

的文章或是文學作品等。

R- C2-3 能詮釋、比較和評估文章的內

容和形式。

R-C2-4 能依據任務而調整閱讀速度

和策略,進而流利且正確地閱

讀。

R- C2-5 文字隱喻和言外之意,例如,

文本中具有諷刺意味的文字。

Page 40: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

35

圖七、華語文分級標準建置流程圖

華語文分標準建置流程如圖七所示,文獻分析已在 102 年度與

103 年度完成,同時,也召開多次華語學者專家會議,彙集專家的意

見。今(104)年度持續召開專家會議與彙整意見,接續,運用「華語

文語料庫」開始進行分級標準建置的統計分析,將統計分析之結果研

擬分級標準內容初稿,並提供分組專家委員審議漢字、詞語、語法、

篇章等分級內容之參考,接著,修訂統整內容,分組專家審議與修訂

統整內容持續反覆進行,明(105)年確認分級標準能否對應華語文

學習者能力指標,最後,完成華語文分級標準。

經專家諮詢討論,分級標準(漢字組、詞語組、語法組)三組擬

定各組分級共同架構。自各組架構擬定後,著手進行分組內容研擬,

各組目前已完成進度,敘述如下:

(一)漢字分級標準

本計畫漢字分級暫定以初、中、高等將漢字分為七級,其分級與

漢字量 Pre-A1(200 個)、A1(500 個)、A2(800 個)、B1(1,300 個)、

B2(1,900 個)、C1(2,500 個)、C2(3,100 個),漢字分級目標為建

置 4,000 漢字分級內容,惟各級漢字量將依實際研擬情形調整。漢字

分級目前已完成草擬 Pre-A1 級的 212 個漢字,及 A1 與 A2 級各約

研究

團隊

修訂

文獻分析

運用「華

語文語料

庫」統計

結果研擬

初稿

分組專家

審議

完成華語文

分級標準

是否需

修訂

彙集專家

意見

能力指標研究團隊

Page 41: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

36

350 個漢字。依據分級標準建置流程,漢字分級研擬步驟分為二個階

段:(1)統計分析:運用「華語文語料庫」進行統計分析,包括頻率、

構詞率、權重、累計頻率、篇章分布率、覆蓋率、等作為計算漢字分

級初步排序的參考依據;(2)標準設定:依統計資料,切割初、中、

高級等各級漢字量區間,再經由專家與研究人員共同討論,調校篩選

每等級的漢字內容。研擬步驟,敘述如下:

1. 漢字統計分析

運用「華語文語料庫」統計頻率、構詞率、累計頻率、篇章分布

率等作為計算漢字與詞語的分級排序的參考依據,其內容如下。

(1) 字頻率

字頻是個別漢字出現於語料庫中之次數。

(2) 漢字構詞率

漢字學習的三個目標為掌握收字多、字義明顯的部首;掌握組字

力強的部件;掌握構詞率高的單字(黃沛榮,2001),顯見字的構

詞率在進行字的分級是很重要的參考依據,因此本研究採用構詞

率為漢字分級的其中一個參數,構詞率的計算方式為凡一個字能

構成一個單音節詞,計構詞率為 1,構成一個雙音節詞,計構詞

率為 1/2,構成一個三音節詞計構詞率為 1/3,構成一個四音節詞

計構詞率為 1/4,構成一個五音節詞計構詞率為 1/5,構成一個六

音節詞計構詞率為 1/6(張凱,1997),所以構詞率依下面公式計

算:

構詞率:單字構詞數 + 雙字構詞數/2 + 三字構詞數/3 + 四字構

詞數/4 + 五字構詞數/5 + 六字構詞數/6

(3) 字的覆蓋率

許多華語學者在進行詞語分級時,都會採用使用頻率和覆蓋率作

為參考,如葉德明(1995)收集教材的詞語,依教材的出現使用

頻率排序,約取前 8,000 筆詞語,再經由專家學者審核,訂定由

易至難的五個等級。鄭昭明(1997)也對常用字(4,583 字)和常

用詞(44,908 詞),依其累積頻率總次數的 50%、70%、95%、99%、

100%,分為 5 個不同程度的等級。但這樣的區分以及使用頻率經

由專家學者判定能否適用於華語學習者的目標是否客觀,都值得

商榷。張郁雯(2003)依照詞的累計頻率值設立為 75%、85%、

90%、95%作為分界點,將詞語分 5 個等級,經由張莉萍(2005,

Page 42: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

37

2012)的研究驗證,此為較客觀的參考依據。因此本計畫採用張

郁雯(2003)所提出的詞語的累計頻率分級法,作為單個漢字於

各級教材與所有教材語料庫的覆蓋率之參考。

(4) 篇章分布率

選詞時需要考慮的另一個重要的統計參數是篇章分布率。有些

詞出現頻率很高,但可能只集中在一篇特定的文章,或一個特

定的專業領域中。另一些詞則在各個領域出現頻率都很高。顯

然後者應給予優先考慮。因此篇章分布率為本研究字分級的參

數之一。篇章分布率的計算公式如下:

由於字在文檔中的出現都是散列的數值,在計算熵時使用的頻

率 p(x)採用的字是在文檔各個篇章中的頻率(郭志立,2003)。

(5) 相關字表之對照

在字表的制訂中,必須運用定性和定量的結合,進行必要的調

整,因此需參考現有國內、外華語教學的字表,對常用字進行

一定範圍的專家檢視與調整,其目的為增補一定數量的常用

詞,也需擴充這些常用詞的字種(王敏、王曉明,2012)。基於

此,本研究參考的字表如表十二。

表十二、漢字級對照之相關參考漢字表

2 〈華語八千詞〉是詞表非字表,此字表來源是將其詞語拆解為字而使用。 3 〈新 HSK〉是詞表非字表,此字表來源是將其詞語拆解為字而使用。

漢字字表名稱 漢字量

華語八千詞2 2,555 字

新 HSK3 2,716 字

教育部〈常用國字標準字體表〉 4,808 字

法國學校中文教學大綱所公布的對外漢語字表 805 字

日本中國語教育學會所制定之《中國語初級階段學習指

導大綱》 1,006 字

新加坡〈小學華文字表〉 1,826 字

Page 43: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

38

運用「華語文語料庫」進行漢字統計分析,其統計參數分析範本

如表十三所示,及參閱附錄六。

表十三、運用「華語文語料庫」進行漢字統計分析結果之範本

上述之漢字統計參數將提供分組專家會議進行分級審議之參考。

2. 標準設定

標準設定是建立測驗衡量分數區別的過程,即是適當依循訂定好

的、合理的規則或程序,達成特定一個數字以辨別兩種或兩種以上的

表現等,因此標準設定即是一種標記(Cizek, 2006)。標準設定常用於

判斷測驗分數的方式,這個分數能支持受試者知識、能力、精熟度或

預備度等標準的決定(Tannenbaum & Wylie, 2008)。常用標準設定方

法包括安戈夫法(Angoff)和書籤標準設定法 (the Bookmark standard-

setting method)。本研究運用書籤標準設定法(Lewis, Miztel, & Green,

1996)進行漢字分級,此法的訓練流程與安戈夫法(Angoff)相似,

但作法較為簡單易懂(林宜臻,2010;藍珮君、許嘉凌、陳柏熹,2014)。

書籤標準設定法是結合定性與定量分析。先由專家審核,以本研究建

置之能力指標所制定等級,將統計出漢字的頻率、構詞率、權重、累

計頻率、篇章分布率及參考相關字表列出漢字分級排序,如圖八;最

後,將其結果再請專家審核與驗證。

Page 44: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

39

圖八、書籤標準設定法示意圖

書籤標準設定法的步驟,每個等級分為三階段,在進行專家審議

之前,本研究小組先以語料庫漢字分級的統計資訊,與本計畫能力指

標,提供與會專家各個等級置入標籤的區間的依據。接著,進行第一

階段審議,請與會專家依據本計畫能力指標,審核每個區間的漢字,

完成第一階段判斷後,請與會專家討論分享每一級的判斷依據,待與

會專家皆陳述意見後,再進行第二階段的判斷,針對有差異性的判斷

提至第二階段討論,請專家說明或討論書籤放置的理由,最後,進行

第三階段的判斷,針對有差異性的判斷提至第三階段討論,達成該等

級最終內容的定稿。據此,每個等級的漢字都將經過三階段的專家校

閱、討論及調整。

本計畫 104 年漢字分級,在初級漢字已完成標準設定第一階段,

完成 Pre-A1 級 212 個漢字初稿,其漢字內容如表十四所示。

表十四、Pre-A1 漢字表

Pre-A1 漢字表

的、我、一、了、是、不、你、有、好、們、在、小、要、來、生、個、去、這、天、人、大、

看、上、很、到、太、他、先、子、王、以、家、可、嗎、都、也、什、兒、多、沒、吃、學、

方、那、時、下、立、想、起、爸、點、真、呢、年、歡、謝、中、喜、美、老、打、十、明、

請、把、吧、對、地、和、為、再、做、西、給、後、快、三、著、車、平、高、心、候、能、

東、書、些、兩、出、又、走、見、長、用、買、怎、文、玩、水、五、常、事、比、動、自、

哪、叫、氣、二、公、花、果、回、她、行、所、定、問、知、今、房、前、面、只、每、成、

友、月、山、日、服、少、別、次、色、早、台、機、物、朋、六、等、法、拿、外、己、四、

弟、期、才、孩、因、手、師、住、放、喝、找、飛、便、隻、八、分、門、字、位、塊、同、

忙、名、晚、白、作、口、工、安、如、依、風、表、百、但、正、本、客、七、牛、空、久、

姐、哥、妹、星、坐、包、紅、校、茶、午、奶、火、全、女、信、九、怕、送、身、加、非、

千、姊、媽

Page 45: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

40

(二)詞語分級標準

經專家諮詢,為考量 L2(second language)學習者常面臨之生活

情境,詞語分級作業優先訂出情境主題,再參考本計畫已進行之詞語

統計分析及進行中的詞語比對研擬詞語分級內容。因此,以下分為主

題分類、詞語統計分析及詞語比對等三部分詳述。

1. 主題分類

本計畫蒐集針對詞語而擬定主題分類之相關文獻,如《華語教學

基礎詞庫 1.0 版》(以下簡稱為《詞庫 1.0》)(共 12 項情境範疇、35

項情境主題、131 項情境次主題4)、「國民中小學九年一貫課程綱要語

文學習領域(英語)」(以下簡稱為「英語課綱」)(共 40 項主題)、The

European Benchmarking Chinese Language(以下簡稱為 EBCL,A1、

A2 等級共約 110 項主題),以及 CEFR 所擬定之 Waystage(即 A2 等

級,共 63 項主題)、Threshold(即 B1 等級,共 81 項主題)、Vantage

(即 B2 等級,共 82 項主題)等級別之主題。主題(暫稱之為「子題

(topic)」)比對方式取各文獻情境子題之聯集,由於共參考 6 篇文獻

來源,因此聯集最多為出現 6 次之子題。其對照結果範本如表十五。

表十五、子題分類對照表範本

註:「N/A」表示無此類別

4情境範疇、情境主題、情境次主題為上下位之概念,本研究採「情境次主題」層次與其他文獻

來源對照、歸類。

詞庫 1.0 英語課綱 A2

(Waystage)

B1

(Threshold)

B2

(Vantage)

A1-A2

(EBCL) 聯集數

地點;環境 Neighborhood region region

region and

geographical features

地理特徵 6

氣候;天氣 Weather &

climate

weather

conditions

weather

conditions

climate and

weather 天氣氣候 6

N/A Animals flora and fauna

flora and fauna flora and fauna

動植物世

界 5

N/A N/A leisure leisure leisure 度假方式 4

N/A N/A insurance insurance insurance N/A 3

入座;勸菜;退

席;請客;致謝 Manners N/A N/A N/A N/A 2

N/A N/A N/A N/A photography N/A 1

Page 46: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

41

經專家諮詢,初階詞語分級不宜涵蓋過多子題,建議約 50 至 60

個子題為原則。另,擬以「英語課綱」的 40 個子題為基礎,選各文

獻子題聯集(聯集數暫定為 3 次以上)之子題納入詞語分級之考量,

並進行人工檢閱及調整。

2. 詞語統計分析

運用「華語文語料庫」統計頻率、權重、累計頻率、篇章分布率、

覆蓋率等作為計算詞語分級排序的參考依據,其內容如下。

(1) 詞語頻率

詞頻是指每一個單詞出現之次數。

(2) 詞語權重

為了解語料庫的詞語在華語文教材出現的權重,單獨詞語的總值

為分級的參數之一。總值的計算是各級加權值*各級相對頻率之

總和(張莉萍、陳鳳儀,2005)。加權值的給定是對於教材級數的

初級、中級、高級,分別指派 4、3、2 的值。相對頻率是指詞語

在各級教材語料庫出現的次數除以詞語出現於全級教材的總數。

(3) 詞的覆蓋率

以張郁雯(2003)所提出的詞語的累計頻率分級法,75%、85%、

90%、95%作為分界點,將詞語分 5 個等級作為單個詞於各級教

材與所有教材語料庫的覆蓋率之參考。

(4) 篇章分布率

選詞時需要考慮的另一個重要的統計參數是篇章分布率。有些

詞出現頻率很高,但可能只集中在一篇特定的文章,或一個特

定的專業領域中。另一些詞則在各個領域出現頻率都很高。顯

然後者應給予優先考慮。因此篇章分布率為本研究詞語分級的

參數之一。詞語篇章分布率計算公式如上述漢字篇章分布率所

示。

(5) 相關詞表之對照

在詞表的制訂中,必須運用定性和定量的結合,進行必要的調整,

因此需參考現有國內、外華語教學的詞表,對常用詞進行一定範

圍的專家檢視與調整,其目的為增補一定數量的常用詞,也需擴

Page 47: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

42

充這些常用詞的字種(王敏、王曉明,2012)。基於此,本計畫參

考的詞表有國家華語測驗工作推動委員會所擬定的〈華語八千詞

表〉,共包含 5 個等級、7,979 個詞語;新漢語水平考試(新 HSK)

詞表共 5,000 個詞;《詞庫 1.0》共收錄 2,080 個詞。

綜上所述,本計畫建立多項參數作為取詞參考,運用「華語文語

料庫」進行詞語統計分析,其統計參數分析範本如表十六,及參閱附

錄七。

表十六、運用「華語文語料庫」進行詞語統計分析結果之範本

3. 詞語比對

經專家諮詢,暫選用本計畫之華語文語料庫詞彙涵蓋率百分之九

十,共計 16,077 個詞語為基礎,爾後根據詞語整併原則縮減詞語,並

參考情境調整詞語之排序,進行人工調校,依此訂出本計畫之觀念詞

彙(concept words)5。

詞語比對來源、取詞範圍、詞語量如表十七。國家華語測驗推動

工作委員會所擬定的〈華語八千詞表〉共包含 5 個等級、7,979 個詞

語,本計畫取前 3 個等級(入門級、基礎級、進階級)共 2,494 個詞,

將詞條梳理,如「一點/一點兒」、「超級市場/超市」、「洗手間/廁所」

等詞條皆拆成 2 項詞條,共計 2,523 個詞;《詞庫 1.0》包含基礎核心

及基礎情境詞彙,共 2,080 個詞,將詞條梳理,共計 2,038 個詞;《新

版實用視聽華語》共 5 冊,本計畫取前 3 冊之詞語及其衍生詞,共

2,080 個詞。將上述 3 項詞表合併、刪去重複詞條,共計 4,092 個詞。

5觀念詞彙相對於書寫詞彙(graphic words),「書寫詞彙」指含有文法語尾變化(inflection)之詞彙,而「觀

念詞彙」則為其詞幹(stem 或 base form),不含時式與單複數等之文法語尾變化。例如觀念詞彙 write 有

write、writes、wrote、writing、written 等五個文法語尾變化形式,因此有五個書寫詞彙(鄭恆雄,2005)。

觀念詞彙應用於本計畫所指的是「詞族(word family)」的概念,如取「哥哥」一詞,則需考慮「姊姊」、

「弟弟」等詞語。

Page 48: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

43

表十七、詞語比對來源及詞語量

詞語來源 取詞範圍 詞語量(個)

〈華語八千詞表〉 入門級、基礎級、進階級 2,523

《詞庫 1.0 版》 基礎核心、基礎情境 2,038

《新版實用視聽華語》 第一、二、三冊 2,080

總詞語量 -- 4,092

同時出現於 3 張詞表的詞有 808 個詞語,出現於 2 張詞表的詞有

933 個,僅出現於 1 張詞表的詞有 2,351 個詞,如表十八;其統計參

數分析範本如表十九,詞表數為 3 者可優先納入本計畫之初學詞表,

其次為 2 者,依此類推,可作為取詞權重參考。

表十八、詞語收錄於詞表數

表十九、詞表比對範本

詞語 詞性 詞表數 《詞庫 1.0》 〈華語八千詞表〉 《新版實用視聽華語》

哥哥 N 3 基礎核心 入門級 第 1 冊

報告 V 3 基礎情境 基礎級 第 3 冊

本 M 2 N/A 入門級 第 1 冊

和 CONJ 2 基礎核心 入門級 N/A

台幣 N 1 基礎情境 N/A N/A

連絡 N 1 N/A N/A 第 3 冊

好些 DET 1 N/A 進階級 N/A

註:「N/A」表示無此類別

揀選詞語暫擬以「華語文語料庫」統計分析為主,再比對相關

詞表;另需訂定選詞規則,同時亦考慮主題歸類而增刪詞。確定本

計畫欲收錄之詞語後,再進行詞語分級。以上資訊將提供分組專家

會議進行分級審議之參考。

收錄詞表數 詞語數(個)

3 808

2 933

1 2,351

Page 49: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

44

(三)語法分類及分級

依據今(104)年工作目標,需建置語法點分級依據及範例,茲就

「語法點分級依據」及「語法點範例建置」兩大面向逐一說明:

1. 語法點分級依據

關於語法點分級依據,經專家諮詢會議後,華語文學者建議在語

法分級方面,因考量計畫整體性及系統性,目前暫不分級,待分類草

擬後再行討論。

在草擬語法點分類前,首先必須先確立本計畫語法點範圍,也就

是「語法點」定義為何?究竟該選錄哪些教材之語法點作為研究範圍。

其次,待語法點範圍確立後,基於實用性及可操作性,本計畫採用鄧

守信《對外漢語教學語法》提出三個方面、十一個類別作為初步語法

點分類依據。最後,研究團隊整合現行教材語法點描述方式,提出本

計畫語法點範例建置雛形。

(1) 語法點定義

語法是一種標記系統,就是用「符號」來標記「意義」,但語法標

記系統並不只是為了製造合語法句子而產生的形式規則,其規則背後

尚蘊含了溝通目的(Givón,1993;劉美君,2015)。當中「語法點」

是以教學為導向,而教學語法探討必須是全面性的,它可能大於純語

法結構,也可能是一般的語法結構或句型(Kubler,1988;鄧守信,

2009)。綜上所述,本計畫「語法點」定義如下:

a. 語法點的教學是以 CSL/CFL 學習者為導向,是謂教學語法。

b. 若語言單位對 CSL/CFL 學習者非零教學(zero instruction),

即為語法點範疇。

c. 語法點範疇涵蓋部分到整體,包含語素、詞語、短語、定式

結構、句子、篇章等語言單位。

(2) 語法點選錄範圍

本計畫目前選用以中文為母語區之華語文教材為主,由教育部支

持臺灣師範大學主編之《新版實用視聽華語》(共五冊)及鄧守信主

編之《當代中文課程》(預計出版六冊、暫乙冊);中國大陸則為劉珣

主編《新實用漢語課本》(共六冊)及楊寄州主編《漢語教程》(共三

冊)。

教材語法點相關分析,上述四套教材皆為臺灣和中國大陸極具權

威之代表華語文教材。首先,其語法點總數經初步估算約有近 1,000

個,每課語法點平均數除《漢語教程》外,其餘約 5 至 6 個,符合短

Page 50: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

45

期記憶處理量及人類腦部加工效益。再者,四套教材適用對象皆為海

內或海外非以中文為母語者,當中從語法點注釋方式多為英文可以發

現,其教材規劃皆具有針對性及系統性。

2. 語法點範例建置

在語法點範例建置方面,因考量華語文教學兼納理論與實務,為

發揮兩者之最大效益,故本計畫目前以鄧守信(2009)提出三個方面、

十一個類別作為語法點分類架構雛形。三個方面包括:結構、語義、

話義;十一個類別為:語型類、功能類、語序類、句型類、特定類、

同類詞、近義詞、反義詞、語氣詞、副詞及定式。茲將分類架構及其

對應範例陳列如圖九所示。

圖九、語法點分類架構圖(鄧守信,2009)

確立語法點分類架構雛形後,本計畫整理華語文代表教材語法點

呈現形式。從中可以發現雖然每套教材編纂方式分歧多元,但仍然可

以歸納語法點描述基本訊息,包含:語法點類型(成語、俗語、句型)、

語法點英文翻譯、語法點說明、語法點例句等基礎面向。

經由文獻探討及專家諮詢,植基於教學效能、學習成效、認知心

理、訊息加工等多重因素,本計畫語法點範例建構在「結構」、「功能」、

「用法」三個平臺之上,語法點呈現方式包含兩大層面,第一層面為

「表層描述」,含「教材出處」、「課數」、「語法點」、「語法點例句」;

第二層面進入「深層分析」,以語法點分類(三大方面、十一個類別)

解構,進一步剖析為「結構」、「功能」、「用法」三個向度。茲以《當

代中文課程》之語法點「呢」進行範例建置,詳如表二十:

結構

語型 孤立型語言、話題凸顯

功能 定語、補語

語序 SVO、SOV、OSV

句型 肯定形式、否定形式、疑問形式

特定 把字句、被字句、分裂句

語義 同類詞 能願詞、多數疑問詞

近義詞 至於、關於;快樂、高興

反義詞 反義詞通常不在語法點範圍內

話義

語氣詞 吧、唄、嘛

副詞 其實、又、難道、居然

定式 連…都

語法點分類依據

Page 51: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

46

表二十、語法點「呢」範例建置草案

(四)篇章分級標準

依據 102 年規劃與 103 年文獻分析,篇章分級的考量因素,包括

詞彙(如詞頻、詞數)、句法結構(如名詞片語數、結構相似度)、潛

在語意分析(如詞與詞間關係、詞與篇章關係)及凝聚性(如連接詞

數、指稱詞數)、莊雅度(嵌偶詞、合偶詞、書面語句型),此特徵皆

為中文文本可讀性(readability)指標(宋曜廷等人,2013;馮勝利等

人,2008;Sung et al., 2014),因此,本計畫篇章分級依據為文本難度

分級特徵,其特徵內容如表二十一所示。

表二十一、文本難度分級特徵

層面一 表層描述 層面二 深層分析

教材出處 課

數 語法點 語法點例句

類 結構 功能 用法

當代中文

課程(I) 一

Contrastive

Questions

with 呢 ne

1. 我要喝茶,

你呢?

2. 王先生是日

本人,李先

生呢?

1. Same predicate,

different subjects

S1VO,S2 呢 ne?

2. Same subject,

different predicates

SVO1,O2 呢 ne?

表 示 疑

問語氣

常用於反問或選

擇性問句

類別 名稱 說明

詞彙類

詞彙數量 1.字數 加總文章中出現的字數

2.詞數 計算文章中出現的詞數

詞彙豐富

3.相異詞數比率 相異詞數除以詞總數

4.實詞密度 實詞總數除以詞總數

詞彙頻率

5.實詞頻對數平均 計算文章的實詞在整個資料

集出現的頻率取對數後平均

6.難詞數 加總文章中不在常用詞表的

詞數

詞彙長度

7.低筆劃字元數 加總文章中筆劃介於 1~10 筆

劃的字元數

8.中筆劃字元數 加總文章中筆劃介於 11~20筆

劃的字元數

9.高筆劃字元數 加總文章中筆劃介於 21 筆劃

的字元數

10.字元平均筆畫數 計算文章中的字元平均筆劃

Page 52: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

47

資料來源:中文文本可讀性探討:指標選取、模型建立與效度驗證,

宋曜廷等人,2013,《中華心理學刊》,頁 75-106;漢語書面語體莊雅

度的自動測量,馮勝利等人,2008,《語言科學》,頁 113-126。

三、提供中文文章和教材難度的可讀性公式

經 102 及 103 年度文獻分析,中文常見可讀性公式,詳如表二十

二。

11.二字詞數 加總文章中的二字元詞

12.三字詞數 加總文章中的三字元詞

語意類

13.實詞數 加總文章中的實詞數

14.否定詞 加總文章中的否定詞數

15.複雜語意類別句

子數 加總文章中的複雜語意句數

句法類

16.句平均詞數 詞數除以句數

17.單句數比率 計算文章中的單句數比例

18.名詞片語修飾語

計算文章中名詞片語的修飾

語平均數

19.名詞片語比率 計算文章中每句名詞片語數

與詞數比之平均

文章凝聚性

指稱詞

20.代名詞數 加總文章中的代名詞

21.人稱代名詞數 加總文章中的人稱代名詞

22.連接詞數 加總文章中的連接詞

23.正向連接詞數 加總文章中的正向連接詞

24.負向連接詞數 加總文章中的負向連接詞

書面語體類

莊雅特徵

25.嵌偶詞 計算文章中的嵌偶詞比例

26.合偶詞 計算文章中的合偶詞比例

27.書面語句型 計算文章的的書面句型比例

Page 53: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

48

表二十二、中文可讀性公式與採用指標

資料來源:中文文本可讀性探討:指標選取、模型建立與效度驗證,

宋曜廷等人,2013,《中華心理學刊》,頁 75-106;可讀性預測於中小

學國語文教科書及優良課外讀物之研究,劉憶年等人,2015,第二十

七屆中華民國計算語言學學術會議。

宋曜廷等人(2015)針對 1,578 篇華語文教材進行 CEFR 等級的

評定,並利用機器學習(machine learning)中的支援向量機(Support

Vector Machine, SVM)技術,運用在 2013 年所提出之中文可讀性公

式建置可自動判斷文本的 CEFR 級別,其預測模型的精確分級準確率

(exact-level accuracy)可達 75%,而分等準確率(division accuracy)

可達 90%,其為目前運用中文可讀性公式分析對外華語文教材達到相

公式名稱 計算式 採用指標

Yang

(1970)

年級 = .1788 × 筆劃數超過10劃百分比 + .1432

× 平均句長 + .6375 × 難字百分比

筆劃、難字比

率、句長

學期 = 14.95961 + 39.07746 × 詞彙數 -2.48491

× 平均筆劃數 + 1.11506 × 句數

詞彙數、句

數、筆劃數

陳世敏

(1970) 年級=(每句平均字數 + 難字數)× 0.7 句長、難字數

荊溪昱

(1992)

年級 = 5.43035627 + .00657347 × 課文長度

+ .02443016 × 平均句長 - 5.56746245 ×

常用字比率+ 1.38315091 × 詩歌體 -

1.07299966 × 對白文體

課文長度、

句長、常用

字比率、文

荊溪昱

(1995)

年級 = 8.76105604 + .00272438 × 課文長度

+ .07866782 × 平均句長 - 8.9311010 ×

常用字比率 + .42920182 × 詩歌體 +

3.23677141 × 文言文體

課文長度、

句長、常用

字比率、文

宋曜廷等

(2013)

年級= 4.53 + 0.01 × 難詞數 – 0.86 × 單句數比

率 – 1.45 ×實詞頻對數平均 + 0.02 × 人

稱代名詞數

難詞數、單

句數比率、

實詞頻對數

平均、人稱

代名詞數

劉憶年

(2015)

年級 = 11.701 – 5.362 ×領域實詞頻對數平均 +

0.176 × 負向連接詞數 + 0.167 × 句平均

詞數 + 0.024 × 代名詞數

領域實詞頻

對數平均、

負向連接詞

數、句平均

詞數、代名

詞數

Page 54: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

49

當高的準確率,因此本計畫提出宋曜廷(2013)的公式為適用於對外

華語教學的中文文章和教材難度的可讀性公式。

四、建置教材分級檢索系統雛形

為讓使用者能根據所需選擇適合閱讀程度之教材,本計畫亦為已

收集的教材(如僑委會之教材等)建置一檢索系統。使用者可輸入欲

查詢的詞彙,並選擇所想要的教材等級進行文句之檢索(見圖十)。

目前本系統之教材共分初、中、高三級,未來將參考能力指標進行調

整。

圖十、教材分級檢索系統雛形介面

五、建置 350 個核心詞彙

本計畫核心詞彙為華語文語料庫之高頻率與覆蓋率達到 75%之

詞彙。目前先透過統計華語文語料庫中的華語文教材資料高頻率及

覆蓋率 55%之詞彙,篩選作為前 350 個核心詞彙初稿,如表二十三

所示。

Page 55: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

50

表二十三、350 個核心詞彙列表

350 個核心詞彙草稿

的、了、是、他、我、有、不、在、個、就、人、這、說、你、也、都、

很、上、把、去、要、和、來、地、又、著、好、到、得、我們、天、

對、大、看、沒有、還、那、為、會、中、呢、想、兩、做、自己、他

們、而、時候、嗎、可以、被、小、什麼、年、之、能、次、才、用、

卻、知道、時、最、裡、過、叫、吃、種、家、再、事、只、西元、所

以、便、因為、後、先生、啊、聽、前、從、隻、跟、沒、可是、多、

牠、吧、非常、但是、下、每、她、大家、於是、像、您、以、現在、

讓、以後、給、喜歡、各、等、向、與、問、更、當、你們、幾、覺得、

這樣、如果、真、請、位、東西、太、裏、所、錢、它、使、很多、走、

死、王、怎麼、後來、並、朋友、見、一定、看到、地方、國家、可、

看見、已經、生活、但、誰、找、兒子、買、一樣、快、雖然、長、國、

比、邊、心、先、這些、話、水、偉立、許多、起來、塊、帶、寫、不

能、樹、們、張、拿、全、因此、當時、詩、打、喝、時代、太太、件、

書、媽媽、回答、將、怕、或、山、呀、畫、些、孔子、今天、老虎、

這麼、還是、路、馬、高興、由、條、字、一些、孩子、於、那麼、希

望、新、住、工作、手、應該、別人、句、派、頭、發現、開始、放、

並且、而且、高、衣服、人民、久、人們、最後、歲、皇帝、牛、國王、

不會、故事、狗、認為、越、老師、正、然後、酒、時間、告訴、往、

之後、問題、父親、原來、經過、不要、常常、殺、羊、不過、賣、學、

十分、一起、口、連、終於、母親、軍隊、學生、首、知、甚麼、世界、

起、為什麼、河、敢、只好、只要、身、已、讀書、聽到、坐、則、成

為、社會、受、遠、常、生氣、爸爸、大臣、太陽、由於、一下、一直、

得到、妻子、這時、回來、準備、方、比較、農夫、愛、猴子、李、此、

穿、玩、立刻、別、者、老、如、一點兒、其、建國、回家、跑、結果、

聰明、晚上、不但、有的、事情、看看、機會、以為、間、意思、以前、

果然、月、十、辦法、弟弟、歷史、無、道理、外、聽說、回、名、不

久、不同、當然、國君、的話、除了、風、花、笑、鹿、小姐、城

Page 56: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

51

伍、結論

本計畫 104 年度在語料庫建置工作,均依規畫執行,惟標準體系

在執行過程中,學者專家基於專業分工的考量,滾動修訂作法,但均

達成或超越目標。

一、語料庫建置

在語料庫建置方面,已完成語料蒐集及語料處理,包括書面語、

口語、雙語、華語中介語。書面語語料處理,已整合中文圖書分類及

原書面語主題分類,產生新版書面語語料主題分類,共 10 大類架構,

分為總類、哲學及宗教類、科學類、應用科學類、社會科學類、史地

類、語言文學類、藝術類、商業及金融類、休閒類。此外,書面語及

口語語料蒐集來源,包括坊間語料、本院院內語料、政府機構語料,

書面語已蒐集約 6,000 萬字,口語語料已蒐集 1,100 集之語音及文字

資料,約 660 萬字;華英雙語語料,已訂定人工對應華英語料之規則,

並完成人工對應部分華英雙語語料,已完成句對檔案 116 個,共計

1,567 個對應句,中文字數 62,378 字,英文字數 40,118 字,及完成蒐

集華英雙語語料 340 萬字;華語中介語語料,已蒐集華語中介語不限

時書面語語料 30 萬字、限時書面語語料 12 萬字,完成訂定華語中介

語語料庫後設資料,並已進行部分人工偏誤標記。另完成建置中文分

詞系統及詞性標記系統 API 及口語檢索系統雛形,以及辦理語料庫應

用推廣活動,參與人數超過 100 人。

二、標準體系建置

標準體系建置方面,目前將分級定為三等七級,華語文能力指標

建置雖未列為本(104)年工作目標,惟已完成能力指標研擬原則,依

據分級已完成聽、讀能力指標初稿研擬,聽、讀能力皆以兩個形式呈

現,聽力能力指標內容以「單向訊息」及「互動對話」形式呈現,閱

讀能力則以「獲取訊息理解」及「篇章理解」形式呈現。分級標準,

以漢字、詞語、語法三組進行,漢字已擬定分級原則,漢字量規劃為

3,100 個,且運用本計畫「華語文語料庫」進行統計資料作為分級排

序的參考依據,目前已完成初級漢字草擬,約 1,000 字;詞語為考量

L2 學習者常面臨之生活情境,詞語分級作業優先訂出情境主題,再

參考本計畫已進行之詞語統計分析及進行中的詞語比對研擬分級內

容;語法分級,已完成語法點分級依據,本計畫將以鄧守信(2009)

提出的三個方面及十一個類別作為語法點分類依據;篇章分級,以文

本難度分級特徵作為分級依據。另經文獻分析,已提供適用於對外華

語教學的一個中文文章和教材難度的可讀性公式。此外,已完成建置

教材分級檢索系統雛形,以及運用「華語文語料庫」建置 350 個核心

詞彙初稿。

Page 57: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

52

參考文獻

中文部分

王敏、王曉明(2012)。《漢語水平詞彙與漢字等級大綱》字表的收

字分級考察例析。河北大學學報(哲學社會學科版),37(4),

103-107。

宋曜廷、林維駿、洪嘉馡(2015)。基於 CEFR 架構之華語文本可讀

性模型的建置與驗證。第十三屆英國漢語教學研討會。

宋曜廷、陳茹玲、李宜憲、查日龢、曾厚強、林維駿、張道行、張國

恩(2013)。中文文本可讀性探討:指標選取、模型建立與效度

驗證。中華心理學刊,55(1),75-106。

信世昌、鄧守信、李明懿(2010)。華語教學基礎詞庫 1.0 版。臺北:

文鶴出版有限公司。

洪嘉馡、張人懿、張道行、宋曜廷(2014)。華語文寫作語料庫建置與

分析。第八屆國際漢語電腦教學研討會。

國民中小學九年一貫課程綱要語文學習領域(英語),2015/08/16 取自

http://www.k12ea.gov.tw/97_sid17/%E8%8B%B1%E8%AA%9E97

0526%E5%AE%9A%E7%A8%BF%E5%96%AE%E5%86%8A.pdf

國家華語測驗推動工作委員會。華語八千詞表。2015/10/12 取自

http://www.sc-top.org.tw/chinese/download.php

國家漢語國際推廣領導小組辨公室(2007)。國際漢語能力標準。北

京:五洲漢風教育科技有限公司。

張郁雯(2003)。詞彙分級研究。華語文能力測驗編製:研究與實

務,柯華葳主編,83-102,臺北:遠流出版社。

張莉萍(2012)。對應於歐洲共同架構的華語詞彙量。華語文教學研

究,9(2),77-96。

張莉萍(出版中)。TOCFL 學習者語料庫的偏誤標記。語料庫與華語

教學。第七章。

張莉萍、陳鳳儀(2005)。華語詞彙分級初探。第六屆漢語辭彙語義

學研討會論文集。

張凱(1997)。漢語構詞基本字的統計分析。語言教學與研究,1,

42-51。

張寶林(2010)。迴避與泛化─基於 HSK 動態作文語料庫的把字句

習得考察。世界漢語教學,24(2),263-278。

郭志立(2003)。使用互資訊輔助在篇章範圍內識別命名實體。語言

計算與基於內容的文本處理—全國第七屆計算語言學聯合學術

會議論文集,79-84。

黃沛榮(2001)。漢字教學的理論與實踐。臺北:樂學書局。

Page 58: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

53

葉德明(1995)。華語文常用詞彙頻率等級統整研究(附錄一),行

政院國家科學委員會專題研究計畫成果報,民國 84 年。

劉美君(2015)。如何理解中文語法──從功能詞說起。華語文教學

研究,12(3),31-52。

劉憶年、陳冠宇、曾厚強、陳柏琳(2015)。可讀性預測於中小學國語

文教科書及優良課外讀物之研究。第二十七屆中華民國計算語言

學研討會論文集。

劉駿、傅榮等(譯)(2012)。歐洲理事會文化合作教育委員會編。歐

洲語言共同參考框架:學習、教學、評估。北京:外語教學與研

究出版社。

蔡雅薰(2009)。華語文教材分級研制原理之建構。臺北,正中書

局。

鄧守信(2009)。對外漢語教學語法。文鶴出版有限公司。

鄧守信(2015)。當代中文課程(第一冊)。臺北:聯經出版社。

鄭昭明(1997)。漢語水平考試的定位、編製及「字彙」與「詞彙」

使用的問題,華文世界,85,42-47。

鄭恆雄(2005)。大學入學考試中心《高中英文參考詞彙表》之編輯

方法及原則,教育研究月刊,138,5-17。

Page 59: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

54

英文部分

ACTFL, (2012). ACTFL Proficiency Guidelines 2012. Retrieved August

20, 2014, from http://www.actfl.org/publications/guidelines-and-

manuals/actfl-proficiency-guidelines-2012/chinese/traditional-

characters

Ellis, R. & Barkhuizen, G., (2005). Analysing learner language. Oxford:

Oxford University Press.

Givón, T., (1993). English Grammar: A Function-based Introduction.

Amsterdam/Philadelphia: John Benjamins Publishing Co.

Kubler, C., (1988). Chinese grammar and expression check list. Journal of

Chinese Language Teachers Association, 23 (1), 57-86.

Nicholls, D. (2003). The Cambridge Learner Corpus: error coding and

analysis for lexicography and ELT. Proceedings of the Corpus

Linguistics 2003 Conference. Lancaster, United Kingdom, 28-31

March. 572-581.

Paternicò, L. M., Casalin, F., Shu, C., Allanic, B., Do, H. S., Guder, A.,

Wang, L., Song, L., & Shuen, L., (2012, 10). The European

benchmarking Chinese language project team presents * can-do

statements at levels A1-A2+. For the European symposium on

benchmarking Chinese language.

Van Ek, J. A. & Trim, J. L. M., (1980). Waystage English. London:

Pergamon Press.

Van Ek, J. A. & Trim, J. L. M., (1991). Threshold 1990. Cambridge:

Cambridge University Press.

Van Ek, J. A. & Trim, J. L. M., (2001). Vantage. London: Cambridge

University Press.

Page 60: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

55

附錄一 建置華語文語料庫及標準體系 104 年計畫研究人力工作內

容一覽表

名稱 姓名 服務單位及職稱 工作內容

計畫主持人 柯華葳 國家教育研究院院長 整合規劃及督導整體計畫之執

行及成果報告修訂

共同主持人 林慶隆 國家教育研究院編譯

發展中心主任

綜理整體計畫之內容執行進度

及成果報告整合、修訂

共同主持人 張俊盛 清華大學資訊工程學

系教授

語料庫建置技術開發及大型書

面語語料庫建置及成果報告修

共同主持人 陳浩然 臺灣師範大學英語系

教授

華語口語語料庫建置及中介語

語料庫探討及成果報告修訂

共同主持人 高照明 臺灣大學外國語文學

系副教授

建置「華/英雙語平行語料庫」

及成果報告修訂

共同主持人 蔡雅薰 臺灣師範大學應用華

語文學教授

華語文聽、說、讀、寫、譯等

能力指標探討及成果報告修訂

共同主持人 張郁雯 臺北教育大學教育學

系教授

華語文聽、說、讀、寫、譯等

能力指標探討及成果報告修訂

共同主持人 陳柏熹 臺灣師範大學教育心

理與輔導學系教授

華語文漢字、詞彙、語法、篇

章之分級標準探討及成果報告

修訂

共同主持人 張莉萍 臺灣師範大學國語教

學中心副研究員

華語文漢字、詞彙、語法、篇

章之分級標準探討及成果報告

修訂

研究人員 吳鑑城 國家教育研究院編譯

發展中心助理研究員

書面語、口語語料庫建置及成

果報告研擬;各類語料庫相關

工具及系統程式開發;書面語

語料需求規劃等

研究人員 白明弘 國家教育研究院編譯

發展中心助理研究員

雙語、中介語語料庫建置及成

果報告研擬;各類語料庫相關

工具及系統程式開發等

研究人員 劉寶琦 國家教育研究院編譯

發展中心研究助理

主辦語料庫應用推廣活動;協

助核稿;人事及行政;資料蒐

集;教育部聯絡窗口;協助計

畫相關事宜

Page 61: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

56

名稱 姓名 服務單位及職稱 工作內容

研究人員 丁彥平

國家教育研究院編

譯發展中心研究助

協辦語料庫應用推廣活動;經

費及行政;口語語料需求規

劃;資料蒐集;協助計畫相關

事宜

專案研究人員 陳鵬妃

國家教育研究院編

譯發展中心博士後

研究員

能力指標及分級標準探討及

研擬;標準體系研究報告之研

擬及總計畫研究報告彙整;計

畫相關事項

專案助理 李詩敏

國家教育研究院編

譯發展中心專案助

語料庫資料分析、標注;中

介語、雙語語料需求規劃;

分級標準探討及研擬;工讀

生培訓;協助報告彙整;計

畫相關事項

專案助理 簡盈妮

國家教育研究院編

譯發展中心專案助

能力指標及分級標準探討及

研擬;召開會議;協助報告

彙整;計畫相關事項

專案助理 張玳維

國家教育研究院編

譯發展中心專任助

能力指標及分級標準探討及

研擬;召開會議;協助報告

彙整;計畫相關事項

Page 62: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

57

附錄二 建置華語文語料庫及標準體系 104 年計畫諮詢專家委員名單

姓名 職稱 服務單位

鄭錦全 院士 中央研究院語言學研究所

曹逢甫 教授 清華大學外國語文學系

劉顯親 教授 逢甲大學外國語文學系

鄧守信 教授 中原大學應用華語文學系

屈承熹 教授 美國佛羅里達大學語言學研究所

黃沛榮 教授 中國文化大學中文系

信世昌 教授、副委員長 臺灣師範大學華語文教學系暨研究

所、中華民國僑務委員會

方麗娜 教授兼所長 中國文化大學推廣教育部華語文教

學碩士學位學程

陳克健 研究員 中央研究院資訊科學研究所

王萸芳 教授 高雄師範大學華語文教學研究所

劉昭麟 教授 政治大學資訊科學系

謝舒凱 助理教授 臺灣大學語言學研究所

Page 63: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

58

附錄三 標準體系(分級標準)104 年分組委員名單

組別

姓名 職稱 服務單位

總召集人

曹逢甫 教授 清華大學外國語文學系

漢字組

黃沛榮 教授 中國文化大學中文系

蔡宜妮 助理教授 臺灣大學華語教學碩士學位學程

陳立元 資深教師 臺灣大學國際華語研習所

詞語組

方麗娜 教授兼所長 中國文化大學推廣教育部華語文教學

碩士學位學程

信世昌 教授、副委員長 臺灣師範大學華語文教學系暨研究

所、中華民國僑務委員會

謝佳玲 教授 臺灣師範大學華語文教學系暨研究所

語法組

鄧守信 教授 中原大學應用華語文學系

戴浩一 教授兼首席校務

顧問及主任 中正大學

蘇以文 教授 臺灣大學語言研究所暨外文系

Page 64: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

59

附錄四 104 年度相關會議紀錄

(一)華語文八年計畫「建置應用語料庫及標準體系」

語料庫組 104 年第一次會議

會議紀錄

時間:104 年 1 月 7 日(星期三)下午 5 時 30 分

地點:國家教育研究院臺北院區 3 樓會議室

主席:本院編譯發展中心林主任 慶隆

出席人員:

清華大學資訊工程學系張教授俊盛、臺灣師範大學英語學系陳教

授浩然、臺灣大學外國語文學系高副教授照明、吳助理研究員鑑

城、林助理研究員明佳、丁研究助理彥平、劉研究助理寶琦、陳

專案研究員鵬妃、王專案助理琳、李專案助理詩敏、簡專案助理

盈妮

請假人員:臺灣師範大學國語中心張副研究員莉萍

記錄:王琳、劉寶琦

壹、主席致辭(略)

貳、報告事項(略)

参、討論事項

案 由一:關於書面語語料之後設資料中主題類別,提請 討論。

說 明:一、 目前本語料庫書面語文檔所屬主題,係經 103 年語

料庫組第五次會議決議,共分 10 類:文學創作

類、自然科學類、應用科學類、社會科學類、世界

事務類、商業及金融類、藝術類、信仰及思想類、

休閒類、其他。

二、 廠商(遠流圖書)提供之授權文章,皆有中文圖書

分類資訊。

三、 經 103 年語料庫組第八次會議決議,製作「中文圖

書分類及書面語既定 10 類主題對應表」,採直接對

Page 65: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

60

照方式進行文章主題分類,以節省人力,然製表過

程中,遭遇兩大困難:(詳附件一)

(一)同仁間對該對應表之分類認定不一致。

(二)無法以中文圖書分類簡表對應至既定 10 類主

題。

四、 考量本華語文語料庫主體內容為華文,是否可將施

行多年且具詳細類別定義之中文圖書分類法 10 大

類(總類、哲學類、宗教類、科學類、應用科學

類、社會科學類、中國史地、世界史地、語文類、

藝術類)作為書面語語料主題類別,提請討論。

決 議:一、 整合中文圖書分類及原分類。中文圖書分類分類號

100(哲學類)、200(宗教類)合併成「哲學及宗

教類」;分類號 600(史地類:中國史地)、700(史

地類:世界史地)合併成「史地類」。加入 103 年

語料庫組第五次會議決議中之「商業及金融類」及

「休閒類」二類。

九、 書面語語料主題分類採 10 大類架構:總類、哲學及宗教類、

科學類、應用科學類、社會科學類、史地類、語言文學類、藝

術類、商業及金融類、休閒類。

案 由二:關於雙語語料庫後設資料之設定,提請 討論。

說 明:目前已收集之中英雙語語料為光華雜誌、Focus Taiwan,

及 the student post。就下列二者擇一進行雙語之主題後設

資料設定:

一、 以既有之書面語後設資料類別為基礎,含 6 類:出

版者、出版年、語文、主題(10 類,詳如案由

一)、媒體、著作權;

二、 參考附件二之雙語語料庫後設資料分類,含 4 類:

文學(含小說、散文、戲劇等)、人文(含哲學、

文教、藝術、生活、人物等)、社會科學(含時

政、法律、財經、社科其他)、科學技術(含工

交、農林、醫衛、科技、其他)。

決 議:一、 雙語語料庫後設資料之設定參照書面語後設資料,

Page 66: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

61

但刪除「著(譯)作」乙項。

二、 雙語語料庫後設資料之資訊類型包括:作者(若無

作者,則設空白)、出版者、出版年、語文、主題

(依案由一決議之 10 大分類)、媒體(報紙、雜

誌、其他)、語式、著作權。

案 由三:有關向華測會申請授權使用華語學習者中介語語料之計

畫書,提請 討論。

說 明:本計畫擬向華測會申請授權使用華語學習者中介語語料,

該會要求標示計畫書以利進行申請程序,故擬用本計畫

104 年計畫書簡版(詳如附件三)提出申請。計畫書包含

該會申請要件:一、研究主題;二、研究目的;三、理

論架構;四、研究方法與工具;五、預期研究成果與建

議;六、研究時程(特別說明自 104 年至 107 年欲向華

測會逐年申請之語料內容)。

決 議:

一、 向華測會提出的計畫書,內容須說明該會所提供之

作文,本語料庫將匿名使用,並請該會標示作文書

寫者之母語、能力分級等資訊。

二、 計畫書內容完成後,須先完成本院行政程序,再向

華測會提出申請。

案 由四:關於中介語語料庫謄打及偏誤標記相關事宜,提請 討

論。

說 明:一、 目前已收集 292 份中介語語料,考量人力因素,擬

暫忽略漢字偏誤,並以可理解之語意、語式方式謄

打建檔(亦即以人工修正錯誤語料,包含錯字、溢

出空格、標點符號等書寫錯誤)。

二、 偏誤標記部分,擬參考洪嘉馡老師等人之〈偏誤結

構之華語表層結構分類〉(如附件四)為偏誤標記

第一層;以張莉萍老師之八大偏誤標記(如附件

五)為偏誤標記第二層,共計 26 種分類。

Page 67: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

62

三、 整體而言,中介語語料之整理擬保留原始語料、人

工更正錯誤語料,及自動斷詞後語料,以供日後研

究之需。

決 議:

一、 錯字謄打的方式為:可打出之錯字仍維持以錯字形

式呈現,打不出的錯字則打正確字,並加< >標記,

如<正確字>。

二、 外送謄打部分,須先確認廠商送回之樣本是否依照

規定打字無誤後,再將已收集之中介語語料送廠商

進行全面謄打。

三、 偏誤標記採用張莉萍老師最新之標記法,第一層為

4 種分類,第二層分類可適當合併。建議先試標一

兩篇之偏誤標記,於下次會議提案討論。

四、 找尋是否有適當之開放軟體工具可編輯偏誤標記,

並實際試用其可行性。

案 由五:關於口語語料整理狀況,提請 討論。

說 明:依據 103 年 12 月 8 日 103 年度諮詢會議之討論過程,王

萸芳教授願提供其歷來標注之口語語料(約 40GB),並

建議本計畫近兩年先以逐字稿(純文字)整理口語語

料,待口語語料數量達一定程度後,再諮詢專家意見進

行標注。今年暫不標注,是否可行。

決 議:

一、 考量王萸芳教授之語料未曾取得相關授權,故該批

語料僅供本院內部研究使用。

二、 今年度繼續收集口語語料,並以電腦程式自動處理

分詞及詞性標注。

案 由六:關於鄭定歐教授合作案與鄒嘉彥教授 LIVAC 共時語料

庫合作案,提請 討論。

說 明:一、請討論本計畫與鄭定歐教授主持之「構建國際華語教

學詞典化雙語母庫計畫(華語-英語版)」之合作可

Page 68: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

63

行性。

二、由鄒嘉彥教授主持之 LIVAC 共時語料庫,欲授權國

教院進行後續管理及研究合作乙案,敬請討論合作

之可行性。

決 議:

一、 鄭定歐教授計畫內容非本計畫之主要任務,故建議

與鄭教授於雙語資訊上進行互惠之交流。又鄭教授

具編字典經驗,建議將其轉介本院本國語文教育研

究發展辦公室曹逢甫顧問,以進行交流。

二、 建議於鄒嘉彥教授至臺灣師範大學擔任客座教授期

間,安排至本院演講,就語料建置之相關技術進行

交流。鄒教授具編纂新詞經驗,建議轉介本院本國

語文教育研究發展辦公室曹逢甫顧問,以進行相關

交流。

案 由七:關於國立教育廣播電臺出版品、僑委會宏觀電視台影

集,及「國立政治大學漢語口語語料庫」是否納入語料

庫,提請 討論。

說 明:一、 目前考慮將國立教育廣播電臺出版之「兒童劇坊:

品德生活列車」劇本選粹,及「兒童劇坊:品德生

活列車」導讀有聲書,納入本計畫之口語語料庫

中,惟此兩本出版品須陳文至教育部請求同意。敬

請協助確認此二本出版品納入語料庫之必要性。

二、 目前僑委會宏觀電視台共有「台灣心動線」(143

集)、「文人政事」(142 集)、以及「致富密碼」

(143 集)三種影集,將考慮納入本計畫之口語語

料庫中。為確認何種節目類型適合收錄至語料庫中

進行字幕文檔建置,請參考附件六之節目列表。

三、 「國立政治大學漢語口語語料庫」為一公開免費使

用之語料庫,計畫主持人徐嘉慧教授願提供已公開

之語料轉寫檔,敬請討論此批語料納入本計畫口語

語料庫中之妥適性。

決 議:

Page 69: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

64

一、 考量國立教育廣播電臺出版品適合年齡與華語學習

者不盡相符,暫不納入本計畫語料庫。

二、 僑委會宏觀電視台無法提供文字檔案,考量人力成

本問題,暫不納入本計畫語料庫。

三、 建議將「國立政治大學漢語口語語料庫」納入本計

畫語料庫中,並視國立政治大學之授權方式,進行

相關行政程序。

肆、臨時動議(無)

伍、散會 20:00

Page 70: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 65 -

(二)華語文八年計畫「建置應用語料庫及標準體系」

語料庫組 104 年第二次會議

會議紀錄

時間:104 年 02 月 25 日(星期三)下午 5 時

地點:國家教育研究院臺北院區 3 樓會議室

主持人:本院編譯發展中心林主任 慶隆

出席人員:

清華大學資訊工程學系張教授俊盛(視訊)、臺灣師範大學英語學系陳教

授浩然、臺灣大學外國語文學系高副教授照明、本院編譯發展中心吳助理

研究員鑑城、林助理研究員明佳、陳專案研究員鵬妃、丁研究助理彥平、

劉研究助理寶琦、王專案助理琳、李專案助理詩敏、簡專案助理盈妮

記錄:王琳、劉寶琦

壹、 主持人致辭(略)

貳、 報告事項(略)

參、 討論事項

案 由一:關於書面語語料之後設資料中主題類別,提請 討論。

說 明:一、經 104 年語料庫組第一次會議決議,整合中文圖書分類及舊

版書面語主題分類作為新版主題分類為 10 大類:「總類」、

「哲學及宗教類」、「科學類」、「應用科學類」、「社會科學

類」、「史地類」、「語言文學類」、「藝術類」、「商業及金融

類」、「休閒類」。

二、中文圖書分類中並無「商業及金融類」及「休閒類」二類,

建議挑選適當小分類號歸入此兩類。請參考新版書面語 10

大類主題分類及中文圖書小分類號之對應表初稿(附件

一),討論該表內容是否合宜。

決 議:

通過新版書面語 10 大類主題分類及中文圖書小分類號之對應表。

案 由二:關於「國立政治大學漢語口語語料庫」授權事宜,提請 討

Page 71: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 66 -

論。

說 明:一、王萸芳教授於 103 年度諮詢會議中,建議本計畫尋求與「國

立政治大學漢語口語語料庫」合作之可行性,經洽談後,徐

嘉慧教授願以 8 萬元授權費提供語料授權,授權同意書詳附

件二。

二、又本計畫年度編列之口語語料授權經費為 65 萬元,原為一

次性採購大量語料授權之招標案使用,故提請討論採購此語

料之急迫性,需否於採購大量語料前先行採購此批語料。

決 議:

本年度口語語料採購依規劃以大量語料招標案為主,有關徐嘉慧教授

「國立政治大學漢語口語語料庫」之語料將視年底經費運用情形而

定,或待明年度(105)考慮編列預算採購。

案 由三:關於本(104)年度擬辦理之語料庫應用推廣活動方案,提請

討論。

說 明:一、本(104)年度計畫舉辦語料庫應用推廣活動,各界投稿分

享語料庫相關運用之創意,預計以「語料庫應用工作坊」形

式舉行,方案如下:

(一)以「華語文語料庫」為主題之相關應用:包含教材製作、

辭典編纂、作文評分等創意發想皆可,以小型研討會方式

舉行,投稿文章經審查後擇優於活動中發表。

(二)以特定應用方式進行程式相關設計(如:華文拼字檢查、

華文文法檢查等):採先報名、後提供報名團隊本計畫相

關語料以進行模組設計之形式進行,各團隊模組之相關報

告於活動當天發表。

二、邀稿條件中,須否列入使用本計畫語料庫之要求,例如:

「僅限使用本計畫提供之語料庫作為研究資料」、「需使用本

計畫提供之語料庫,亦可同時使用其他研究資料」、或是

「建議使用本計畫提供之語料庫,但非必要」等條件限定。

決 議:

一、 語料庫應用推廣活動之主題以「華語文語料庫」相關應用為

主,含教材製作、辭典編纂、作文評分等創意發想,以小型研

討會方式舉行,投稿文章經審查後擇優於活動中發表。

二、 邀稿建議使用本計畫提供之語料庫資料,但非必要。

Page 72: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 67 -

肆、臨時動議:

伍、散會 19:30

附件一:

新版書面語 10 大類主題分類及中文圖書小分類號之對應表初稿

國教院書面語語料

主題分類名稱 中文圖書分類號 備註

總類 000~099

[總類]

哲學及宗教類 100~199

[哲學類]

200~299

[宗教類]

科學類 300~399

[自然科學類]

應用科學類 400~479

[應用科學類]

480~489 『商業;各種營

業』

490~499 『商學;經營

學』

歸入商業及金融類。

社會科學類 500~549

554~557

570~599

[社會科學類]

550~553 以及 558~569

歸入商業及金融類。

另此四小類是否須歸入商業

及金融?

554:土地問題

555:產業;工業

556:勞工

557:交通

史地類 600~699

[史地類]

710~799

[世界史地類]

700~709 中文圖書分類無資

語言文學類 800~899

[語文類]

藝術類 900~989 990~999『遊藝.娛樂.休

閒』

歸入休閒類

商業及金融類 480~499

550~553

558~568

480:商業總論

481:糧商業

482:其他農產品業

483:畜牧水產品業;飲食

相關行業

484:機械業;電機資訊業

485:化學製品業

486:礦產品業

Page 73: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 68 -

487:製造品業

488:紡織品業

489:其他各種營業

490:商學總論

491:商業地理

492:商政

493:商業實踐

494:企業管理

495:會計

496:商品學;市場學;行

銷管理

497:廣告

498:商店

499:企業志;公司行號志

550:經濟學總論

551:經濟學各論

552:經濟史地

553:生產;企業;經濟政

558:貿易

559:合作;

560:財政學總論

561:貨幣;金融;

562:銀行

563:金融各論

564:公共財政

565:各國財政狀況

566:地方財政

567:租稅

568:關稅

休閒類 990~999 990:遊藝及休閒活動總論

991:公共娛樂

992:旅遊;觀光

993:戶外活動

994:水上運動

995:室內遊戲

996:兒童遊戲

997:智力遊戲

998:博戲

999:業餘遊玩;民俗藝術

Page 74: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 69 -

附件二:授權同意書

國立政治大學 (英國語文學系)(以下簡稱甲方)同意因執行頂尖大學計畫所產

出之成果「國立政治大學國語口語語料庫」,依本同意書所載之授權標的以非

專屬方式授權予國家教育研究院(以下簡稱乙方)使用,約定條款如下:

第一條 授權標的

本授權同意書所指之授權標的,係指下列各項著作之著作財產權,其內容如

下:

(一)國語口語語料: 共 27 筆,詳細資料條列如附件清單。

(二)每筆資料除提供各文句之語音檔及對應之本文、說話者背景資訊、以及

相關標記(含檔案命名方式)之說明資訊,並提供現有 10 筆已註記之拼音

和英譯資訊。

(三)於授權期間,若授權標的有更新(如標記資訊),甲方須無償提供乙方

最新版本。

第二條 授權範圍

(一)甲方授權乙方在非營利之情況下,做下列之利用:

乙方將對授權標的進行斷詞、詞性分析、詞類標注等專業技術加工、加值,因

此,本授權同意書之授權標的,甲方同意乙方至少 1 年半之使用權且經乙方加

值完成後之語料,乙方有權永久使用,包括提供網站檢索、詞彙索引典、雙語

詞彙索引典、跨語料庫索引典、搭配詞參考工具、華文語言搜尋引擎、華文例

句自動產生、華文拼字檢查工具、華文文法檢查工具、易混淆字詞表、易讀性

自動分級、華文作文評分、華文試題自動產生、雙語檢索、翻譯輔助等加值利

用,及獲甲方授權後再授權非營利之第三方使用。

(二)凡此外任何用途變更、載體變更、重製或製作衍生性產品等,須再取得

甲方之書面授權。

第三條 使用方式

(一)乙方使用授權標的時須以適當之方式註明係由甲方授權,並加註來源為

「國立政治大學國語口語語料庫」。

(二)非符合著作權法中所規定之合理使用目的或以其作為商業用途,不在本

次甲方授權範圍之內。

(三)乙方保證對上列授權標的之使用方式,無誤用、曲解之情形。

第四條 再授權禁止

未經甲方書面同意,乙方不得就上述授權標的再授權第三人營利使用。

第五條 授權期間

自立約日起,至 中華民國 年 月 日止。

Page 75: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 70 -

第六條 授權費用

□ 授權免費使用。

■ 授權費用總額共新台幣 捌萬元整。

第七條 權利擔保

甲方擔保本同意書之授權標的,均具有合法、完整之著作權。

第八條同意書之解釋及爭議處理

本同意書若有未盡事宜悉依中華民國著作權法及其他相關法令辦理。

本同意書正本一式貳份,雙方各持乙份,如有任何爭議,雙方同意先以協調方

式處理,無法協調解決者,甲乙雙方同意以台灣台北地方法院為第一審合意管

轄法院。

第九條同意書內容變更

本同意書之內容,非經雙方書面合意不得變更。

第十條同意書份數

本同意書一式 3 份,由甲方持 2 份、乙方持 1 份為憑。

甲 方: 國立政治大學 乙 方: 國家教育研究院

授權代表人: O O O 代表人: O O O

(簽名或蓋章) (簽名或蓋章)

計畫主持人: 營利事業統一編號/身分證字號:

徐嘉慧教授

(簽名或蓋章)

地址: 地址:

電話: 電話:

中 華 民 國 年 月 日

Page 76: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 71 -

附件三:視訊會議照片

Page 77: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 72 -

(三)華語文八年計畫「建置應用語料庫及標準體系」

語料庫組 104 年第三次會議

會議紀錄

時間:104 年 03 月 13 日(星期五)上午 10 時

地點:國家教育研究院臺北院區 3 樓會議室

主持人:本院編譯發展中心林主任 慶隆

出席人員:

清華大學資訊工程學系張教授俊盛、臺灣師範大學英語學系陳教授浩然、

臺灣大學外國語文學系高副教授照明、本院編譯發展中心吳助理研究員鑑

城、陳專案研究員鵬妃、丁研究助理彥平、劉研究助理寶琦、王專案助理

琳、李專案助理詩敏、簡專案助理盈妮

請假人員:林助理研究員明佳

記錄:王琳、劉寶琦

肆、 主持人致辭(略)

伍、 報告事項(略)

陸、 討論事項

案 由一:關於本(104)年度預定辦理之語料庫應用推廣活動相關事

宜,提請 討論。

說 明:本計畫擬於 104 年 10 月 2 日(星期五)辦理「華語文語料庫應

用工作坊」,經 104 年 3 月 9 日第 9 次工作小組會議討論,預定

以邀請專家學者進行專題演講方式辦理,以增進與會者對語料庫

研究方法與相關應用等方面的認識。請討論前述專家學者之建議

名單。

決 議:

一、 請先就以下推薦之專家學者名單及初步擬訂之主題方向進行邀

請:

(一)曹逢甫教授:語料庫與語言教學;

(二)鄒嘉彥教授:成語 APP;

(三)鄭定歐教授:語料庫辭典;

(四)張俊盛教授:計算辭典學與語言學習;

Page 78: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

- 73 -

(五)王萸芳教授:語料庫與言談分析;

(六)徐嘉慧教授:口語語料庫應用;

(七)高照明副教授:雙語搭配語;

(八)張莉萍副研究員:學習者語料庫;

(九)張道行副教授:華語文教材難度分級與作文評分;

(十)陳浩然教授(未定)。

二、 活動流程預訂以開幕式(院長致詞及本計畫介紹)、分上下午場

次及座談會形式進行。

案 由二:關於國立科學工藝博物館已授權之 6 項語料運用情形,提請

討論。

說 明:一、本計畫於 2 月 25 日取得國立科學工藝博物館授權之六本刊

物紙本:

(一)電子世界:科學家小史;

(二)國立科學工藝博物館出版品書目提要;

(三)神奇世界 1:精靈王國;

(四)神奇世界 2:超時空遊俠;

(五)神奇世界 3:漫遊異次元;

(六)神奇世界 4:極地歷險記。。

二、除第一項可納入書面語語料外,請討論其餘五項授權刊物納

入語料庫之妥適性。

決 議:

一、 考量經費因素及授權語料之規模,此批語料暫不納入語料庫。

二、 先洽詢政府出版品管理單位,尋求取得較大量數位檔之可行

性。

肆、研究分享:

一、 陳浩然教授分享期刊論文:「分析華語口語語料庫高頻詞之特點

並對 TOCFL 詞表提出建議」(略)。

二、 張俊盛教授分享雙語語料庫相關資源之應用(略)。

伍、臨時動議(無)

陸、散會 12:30

Page 79: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

74

(四)華語文八年計畫「建置應用語料庫及標準體系」

語料庫組104年第四次會議紀錄

時間:104年06月22日(星期一)下午5時

地點:本院臺北院區 302會議室

主持人:林主任慶隆

記錄:王專任助理琳、劉研究助理寶琦

出席人員:張教授俊盛(視訊)、陳教授浩然、高副教授照明、吳助

理研究員鑑城、丁研究助理彥平、劉研究助理寶琦、陳

博士後研究員鵬妃、簡專案助理盈妮、李專案助理詩

敏、王專案助理琳

壹、主席致詞:(略)

貳、報告事項:高照明副教授分享「華語教材自動分級做法」

叁、討論事項:

【案由】有關本(104)年度書面語、口語及雙語語料採購之內

容,提請討論。

說明:一、本(104)年度原預計採購書面語5,000萬字、口語150

萬字、中介語10萬字、雙語300萬字及學習者中介語料

10萬字。

二、各語料採購之需求說明如下:

(一)書面語:涵蓋紀實報導、科普、慈善關懷、心靈啟發、

教育與親子、人文與藝術、生活環保、醫療健康等多

元文章類型,每篇文章約2,000至5,000個中文字,文章

使用語言以臺灣使用之國語為限。

(二)口語:具教育意義之國內電視臺口語節目語音檔(MP3、

WAV或其他通行之語音檔格式)暨該節目之逐字稿文

Page 80: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

75

字檔(TXT格式)資料光碟片1式2份。

(三)雙語:中文、英文雙語對照文章之文字檔(TXT格式,

UTF-8編碼),需涵蓋近十年(94年7月至104年7月)之

文學、科學、財經、藝術、思想、文化、全球、休閒

等主題,每篇文章皆應包含中英文文字,每篇中文字

數至少3,000字暨英文字數至少1,000字。

(四)中介語:臺灣華語非母語學習者之紙本作文(手寫或

打字皆可),每篇中文字數至少250字,主題不拘。

決議:

一、書面語:

(一)以近十年之哲學及宗教類、科學類、應用科學類、社

會科學類、史地類、語言文學類、藝術類、商業及金

融類、休閒類等多元文章類型。

(二)文章使用語言以臺灣使用之國語為限。

(三)每篇文章約2,000至5,000中文字,且每篇皆須有純文

字類型檔案(TXT格式,UTF-8編碼),至少20,000篇,

總字數須至少5,000萬字。

(四)語料採購參考COCA四大類類別之比例以平衡語料各

類別之收集,若需加入雜誌類別則考慮採用複數決標。

(五)招標時,提供103年國家教育研究院曾獲授權之書面

語語料清單,以利本(104)年度投標廠商檢覈,授權

文字內容不得與之重複。

二、口語:

(一)近十年之法政軍事、財經、時事、科學、生活時尚、

文教藝術等多元節目類型。

(二)2011年至2014年之法政軍事、財經、時事、科學、生

活時尚、文教藝術等類型節目每年需20集以上。

(三)節目使用語言以臺灣使用之國語為限。

(四)每集節目20-50分鐘(不含商業廣告),且每集皆應包

含語音檔暨逐字稿文字檔(TXT格式、UTF-8編碼)

兩種類型檔案,至少1,060集。

(五)就上述條件詢問相關電視台能否提供相符內容之語料,

若單一廠商無法提供本年度採購所需,則考慮以複數

決標或調整招標條件以利執行。

Page 81: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

76

三、雙語:

(一)近十年(94年至104年)之文學、科學、財經、藝術、

思想、文化、全球、休閒等主題。

(二)每篇文章皆應包含中英文文字,每篇皆須有純文字類

型檔案(TXT格式、UTF-8編碼),不含圖片。

(三)文章之中文以臺灣使用之中文為限。

(四)每篇文章文字檔之中文與英文段落須要相互對應(註

記)。

(五)全部文章之中文總字數至少300萬字。

(六)招標時,提供103年國家教育研究院曾獲授權之華英

雙語語料清單,以利本(104)年度投標廠商檢覈,華

英雙語文字授權內容不得與之重複。

(七)若單一廠商無法提供本院300萬字語料,則考慮以複

數決標方式處理本案。

四、中介語:

(一)預定於10月底前往各華語中心收集中介語語料。

(二)陳浩然教授所主持之「華語為第二語口語語料庫」,

計畫經費亦來自教育部,為充分利用政府資源,將尋

求合作之可行性,並在現有基礎上再行擴充。

肆、臨時動議:(無)

伍、散會:下午19時50分。

Page 82: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

77

(五)華語文八年計畫「建置應用語料庫及標準體系」

標準體系組 104 年第一次會議

會議紀錄

時間:104 年 2 月 11 日(星期三)14 時 30 分

地點:國家教育研究院(臺北院區)604 會議室

主持人:張郁雯教授

記錄:簡盈妮、陳鵬妃

出席人員:

計畫主持人:柯院長華葳

共同主持人:臺灣師範大學教育心理與輔導學系陳副教授柏熹、臺灣師

範大學國語中心張副研究員莉萍、本院編譯發展中心林主

任慶隆

本院人員:編譯發展中心林助理研究員明佳、吳助理研究員鑑城、陳專

案研究人員鵬妃、李專案助理詩敏、簡專案助理盈妮

請假人員:臺灣師範大學應用華語文學系蔡教授雅薰

壹、 主席致辭(略)

貳、 報告事項(略)

參、 討論事項

案 由一:有關研訂華語文學習者聽力分級能力指標內容等事

宜,詳如說明,提請 討論。

說 明:

1. 依據《華語文教材分級研制原理之建構》、CEFR、ACTFL、

TOCFL、2015 小學華文課程標準等能力指標,歸納華語文 A1

至 C2 級聽力能力指標內容說明,詳如附件一,請提供修訂意

見。

Page 83: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

78

2. 接續需進行說、讀、寫、譯何者能力指標之編纂,併請討論。

決 議:

1. 能力指標書寫方式需調整為雙向列表,橫向向度項目如聽音辨

義、對話理解、演說理解,縱向向度則為 A1、A2、B1、B2、

C1、C2 六個等級,再將 A1 至 C2 各等級在該項目的能力表現

填入對應的欄位中,以階段性呈現方式描述各等級之遞進能

力,如 A1 能力描述納入「可重複聆聽的情況下,說話者以非

常緩慢之語速、標準之語音說話時」為前提,以下再列點「1.

能聽懂……」;A2 能力描述納入「說話者以口齒清晰、緩慢語

速表達時」為前提,以下再列點「1. 能聽懂……」,以此類

推。另,三等六級之能力描述以典型為主,如 A1、A2 典型能

力指標為主,不需將 11 級之加級能力指標納入參考資料,例如

A1+、A2+……等。

2. 接續優先進行閱讀能力指標之編纂。

案 由二:如何就各漢字分級資料分析結果,及與本語料庫之華語

教材漢字比對結果,進行後續處理等事項,詳如說明,

提請 討論。

說 明:

1. 對於漢字分級的資料分析,已完成對照〈華語八千詞〉詞彙之

漢字、教育部網頁提供的〈常用國字標準〉4,808 之漢字、香

港〈小學中文科常用字表〉3,000 字、新 HSK 之 2,717 字表、

法國學校中文教學大綱所公布的對外漢語字表 805 字、日本中

國語教育學會所制定之《中國語初級階段學習指導大綱》1,006

字、陳學志教授之分級字表、以及新加坡〈小學華文字表〉

1,826 字,統計分析結果如華測會字集比較表與新 HSK 字集比

較表 Excel 檔。

2. 已將本語料庫與華語文教材語料之漢字進行字頻、構詞率、累

計頻率值、篇章分布率之統計分析,並與說明 1 之分析結果進

行比對,分析結果如華語文語料庫字庫 Excel 檔。

3. 依據上述資料,如何進一步分級,請提供建議。

決 議:

本計畫之華語文語料庫字頻為編列漢字分級之主要排序依據,

以語料庫字頻、全級教材的字頻級數,與初、中、高級教材的字頻

Page 84: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

79

級數為優先考量,其他參數為參考資料,初步排序初、中、高級漢

字,再由專家判斷、篩選介於級別之間的字。

案 由三:有關漢字與詞彙分級內容,第二階段需請專家審核與驗

證之專家會議,因此需提名參與第二階段之專家名單,

詳如說明,提請 討論。

說 明:依據書籤標準設定法,以本語料庫字庫與詞彙庫列出漢字

與詞彙的分級排序與統計分析的初步結果,將需進行第二

階段專家審核與驗證之程序,因此請討論參與第二階段之

專家名單。

決 議:

1. 專家會議委員名單,除了邀請華語教學與語言學學者專家,亦

應邀請現場初、中、高級華語教師參與,且南、北部專家與教

師都需考量。

2. 會後請陳柏熹老師推薦專家名單。

肆、 臨時動議

有關標準體系 104 年第二次會議,暫訂於 104 年 3 月 26 日或 3 月

27 日上午 10:00,會後再行確認。

伍、散會:16:30

Page 85: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

80

(六)華語文八年計畫「建置應用語料庫及標準體系」

標準體系組 104 年第二次會議

會議紀錄

時間:104 年 3 月 27 日(星期五)上午 10 時 30 分

地點:國家教育研究院(臺北院區)9 樓會議室

主持人:張莉萍副研究員

記錄:簡盈妮、陳鵬妃

出席人員:

計畫主持人:柯院長華葳

諮詢委員:中國文化大學華語文教學碩士學位學程方教授麗娜

共同主持人:臺北教育大學教育學系張教授郁雯、臺灣師範大學教育心

理與輔導學系陳副教授柏熹、本院編譯發展中心林主任慶

本院人員:吳助理研究員鑑城、陳專案研究人員鵬妃、李專案助理詩敏、

簡專案助理盈妮

請假人員:臺灣師範大學應用華語文學系蔡教授雅薰

伍、 主席致辭(略)

陸、 報告事項(略)

柒、 討論事項

案 由一:有關研訂華語文學習者聽力與閱讀分級能力指標內容等

事宜,詳如說明,提請 討論。

說 明:

1.依據華測會之〈華語文能力分級綱要〉2008 年草案,《華語文

教材分級研制原理之建構》、CEFR、ACTFL、TOCFL、2015 小

學華文課程標準等能力指標,歸納華語文 A1 至 C2 級聽力與閱

Page 86: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

81

讀能力指標內容說明,詳如附件一、二,請提供修訂意見。

2.接續需進行說、寫、譯何者能力指標之編纂,併請討論。

決 議:

1. 附件一聽力能力指標之編碼(第一碼)需改為「L」;橫向向度

項目需調整為「接收式理解」及「互動式理解」兩欄;部分能力

指標描述重複,需刪修、統整;C2 等級之整體表現需再補充、

敘寫完整。附件二閱讀能力指標之橫向向度需調整為「為獲取資

訊理解」及「篇章理解」兩欄。

2. 說、寫二項能力可擇一進行能力指標擬定,下次可一併討論。

案 由二:就本語料庫之華語教材漢字比對結果,進行初步漢字分

級列表,詳如說明,提請 討論。

說 明:

1.已將本語料庫與華語文教材語料之漢字進行字頻、構詞率、累

計頻率值、篇章分布率之統計分析,並依照 104 年 2 月 11 日決

議,根據語料庫字頻、全級教材的字頻,及初、中、高級數教

材的字頻之排序進行初步分級,分析結果請參見「華語文語料

庫字庫」Excel 檔。

2.依據上述資料,請提供建議。

決 議:

關於漢字分級第一階段所擬定的漢字字數區間(A1:300 至

400 字;A2:500 至 600 字;B1:900 至 1000 字;B2:1800-1900

字;C1:2500 至 2600 字;C2:3000 至 8606 字),仍須再考量學

習者歷程、予以調整,以供第二階段專家標準設定會議參考。例

如:C1 等級字數區間頂端應可至 3000 個字。另外,屆時進行專家

標準設定時,初步定出切截點後,再請專家提出需微調的字,尤初

學者須學習的漢字需特地留意初級教材欄位累積頻率非 1 者。

案 由三:有關漢字與詞彙分級內容,需進行第二階段專家審核與

驗證之專家會議,擬邀請專家名單,詳如說明,提請

討論。

說 明:

1. 依據書籤標準設定法,以本語料庫字庫與詞彙庫為基礎所得漢字

與詞彙的分級排序與統計分析的初步結果,需進行第二階段專家

Page 87: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

82

審核與驗證之程序。

2. 參與第二階段之專家需包括華語文理論、實務與教學等領域,預

計邀請 10 名專家。

3. 104 年 3 月 6 日陳柏熹教授回復之電子郵件,推薦專家人選為

曹逢甫教授、鄧守信教授、方麗娜教授等三名。

4. 依據上述資料,請討論並建議參與第二階段之專家名單。

決 議:

建議人選如黃沛榮(臺灣大學中國文學系教授)、張金蘭(臺

北教育大學語文與創作學系助理教授兼華語文中心主任)等專家。

會後再發信予主持人們詢問專家推薦名單。

案 由四:有關語法點分類,詳如說明,提請 討論。

說 明:依據鄧守信《對外漢語教學語法》及王佩卿《現代漢語語

法點等級化初探》,將語法點分為語型類、功能類、語序

類、句型類、句式類、語義群、篇章銜接等類別,本計

畫將依此分類建置資料庫,是否合宜,請提供建議。

決 議:

需再參考鄧守信教授《對外漢語教學語法》,進一步針對語法

點的類型做完整且詳細的定義,方能將教材語法點做適當歸類。

捌、 臨時動議

有關標準體系 104 年第三次會議,暫訂於 104 年 4 月 30 日或 5 月 1

日上午 10:00,會後再行確認。

伍、散會:12:40

Page 88: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

83

(七)華語文八年計畫「建置應用語料庫及標準體系」

標準體系組 104 年第三次會議

會議紀錄

時間:104 年 5 月 1 日(星期五)上午 10 時 00 分

地點:國家教育研究院(臺北院區)603 會議室

主持人:陳柏熹教授

記錄:簡盈妮、陳鵬妃

出席人員:

計畫主持人:柯院長華葳

諮詢委員:中國文化大學華語文教學碩士學位學程方教授麗娜

共同主持人:臺北教育大學教育學系張教授郁雯、臺灣師範大學應用華

語文學系蔡教授雅薰、臺灣師範大學教育心理與輔導學系

陳副教授柏熹、本院編譯發展中心林主任慶隆

本院人員:吳助理研究員鑑城、陳專案研究人員鵬妃、簡專案助理盈妮

請假人員:臺灣師範大學國語中心張副研究員莉萍、李專案助理詩敏

玖、 主席致辭(略)

壹拾、報告事項(略)

壹拾壹、討論事項

案 由一:有關研訂華語文學習者聽力與閱讀分級能力指標內容等

事宜,詳如說明,提請討論。

說 明:依據華測會之〈華語文能力分級綱要〉2008 年草案,《華

語文教材分級研制原理之建構》、CEFR、ACTFL、

TOCFL、2015 小學華文課程標準等能力指標,歸納華語

文 A1 至 C2 級聽力與閱讀能力指標內容說明,經 104 年

第二次會議決議與後續電子信件的討論,修訂更新的

Page 89: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

84

聽、讀能力指標,詳如附件一、二,請提供建議。

決 議:

1. 附件一聽力能力指標之「接收式理解」形式,需調整為

「單向接收理解」;「互動式理解」形式調整為「互動情境

理解」。

2. 部分能力指標之敘述方式,需依「條件或前提」、「能力表

現」為書寫順序再修改,以達聽、讀能力指標書寫方式體

例一致;部分能力指標之形式分類需再調整。

3. 部分能力指標之用詞或文句需修改,如「L-B1-2 以簡單連

貫的語言所進行的說明或指示。」改為「L-B1-2 簡單連貫

的說明或指示。」、「L-C1-3 廣泛使用的習慣用語和口語用

法。」改為「L-C1-3 各種不同類型的習慣用語和口語用

法。」;部分能力指標概念重複,需合併為一項,如「R-

B1-5 以瀏覽方式閱讀較長且組織清晰的事實性文章,從中

找尋所需的訊息。」和「R-B1-6 以簡單且清楚的文字所寫

成的文章。」

案 由二:謹就本院建置之語料庫的華語教材詞彙比對結果,進行

初步詞彙分級列表,詳如說明,提請討論。

說 明:

3.目前已將本院建置之語料庫與《新實用視聽華語》、《生活華

語》等 27 套華語文教材語料之詞彙進行詞頻、相對頻率、累計

頻率值、覆蓋率、篇章分布率等統計分析,分析結果請參見

「華語文語料庫詞彙庫」Excel 檔。

4.依據上述資料及〈華語八千詞〉等相關文獻,擬訂各等級放置

書籤的詞彙數量區間(A1:400 至 500 詞;A2:900 至 1,000

詞;B1:2,300 至 3,000 詞;B2:4,500 至 5,000 詞;C1:7,000

至 8,000 詞;C2:9,000 至 10,000 詞),請提供建議。

決 議:

1. 部分詞彙需再考量國內教材更新情形,如副詞標記「地」已改

由「的」表示,將影響其頻率及難度。

2. 詞彙數量區間方面,可暫定此詞彙數量作為預定的分級區間。

另,德語區漢語教學學會已公告詞彙等級相關資訊,需再加以

參考。

Page 90: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

85

壹拾貳、臨時動議

一、有關語法點分類定義,詳如說明,提請討論。

說 明:依據鄧守信《對外漢語教學語法》之語法點等級化分類,

本計畫將語法點分為 11 類並建置資料庫,其中,將針對語

序類、句型類、特定類進行分級,其架構及說明詳如附件

三。

決 議:語法點類型除了結構表現外,需考量其功能。然,以語料

庫檢索語法點時,有其規範及限制,無法以語法點之功

能為優先考量。因此,可暫以此分類架構將語法點歸

類,屆時試將語法點與本院建置之語料庫結合,再視實

際檢索情形作調整。另,需再參考鍾榮富〈華語的常用

句型〉(出自柯華葳主編《華語文能力測驗編制—研究與

實務》)。

二、有關漢字、詞彙分級之專家會議舉辦流程與時間,詳如說明,

提請討論。

說 明:依據書籤標準設定法,本計畫將於 104 年 5 月 30 日舉辦專

家會議,邀請 15 位專家學者參加,包括華語文學者 5 位、

華語教師 5 位、標準設定實務研究人員 5 位,其會議流程

詳簡報。

決 議:由於經費關係,此會議延後至六月中旬辦理。

伍、其它:有關標準體系 104 年第四次會議時間,於會後再行確認。

陸、散會:12:20

Page 91: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

86

(八)華語文八年計畫「建置應用語料庫及標準體系」

104 年第一次諮詢會議

會議紀錄

時間:104年6月11日(星期四)上午9時30分

地點:國家教育研究院臺北院區9樓簡報室

主持人:柯院長華葳

記錄:簡盈妮、陳鵬妃、劉寶琦

出(列)席人員:

諮詢委員:方教授麗娜、信教授世昌、曹教授逢甫、曾教授金金、黃

教授沛榮、鄧教授守信(依姓氏筆劃排序)、

鄭院士錦全(視訊方式出席)

共同主持人:林主任慶隆、張教授郁雯、張副研究員莉萍、蔡教授雅

薰(依姓氏筆劃排序)

本院計畫參與人員:吳助理研究員鑑城、丁研究助理彥平、劉研究助

理寶琦、陳專案研究人員鵬妃、王專案助理琳、李專案助

理詩敏、簡專案助理盈妮

請假人員:竺教授家寧、張教授俊盛、陳副教授柏熹

壹、主席致詞:(略)

貳、報告事項/簡報:103年工作成果及104年工作執行進度

參、討論事項:

【案由一】有關本計畫華語文學習者能力指標的研擬,詳如說

明,提請討論。

說明:

一、現有國、內外能力指標的分級方式,包括TOCFL(三

等六級)、CEFR(三等六級)、ACTFL(五等十一

級)、新HSK(六級)。

二、臺灣各大學的國語中心、華語文中心或語言中心的課

程分級,包括臺師大國語中心(16期的課程)、政大華

Page 92: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

87

語中心(4等13級的課程)、成大華語中心(4等9級的

課程)、淡大華語中心(3等9級的課程)、文大華語中

心(4等10級的課程)。

三、如上述,本計畫學習者能力指標由初級至精熟級暫分

為六級,將於研議過程中,依學者專家的意見修訂,

分級規劃是否能符合需求,請提供建議。

討論:

鄧守信教授:HSK 團隊第一版的語法等級大綱的徵求意見稿(含

假設資料)頗具重要性,然正式出版稿卻無保留

寶貴資料。我可提供此份資料,此計畫可將其納

入參考。

鄭錦全教授:此計畫相關報告表示指標需與國際接軌?應當調整,

為國際與我方接軌才是。我們建立一個創新的、

國際典範,非僅追求國際的指標;我們談到分級,

「歐洲共同語文參考架構」(CEFR,簡稱「歐規」)

談的是溝通,我們的指標是語言的學習。

柯華葳院長:歐規講求的是溝通,我們確實需思考由語言學習角

度出發。

信世昌教授:在做評斷之前,先跟隨鄭老師與鄧老師的發言。「對

應」與「套用」是兩種不同的概念。我們需做出符

合自己需求的、好用的指標,再與國際「對應」,

而絕非「套用」。專家學者首先應先做很深入的探

討與了解,然而目前程序卻有些相反,我們先定

了一條路,才試圖做一些修改。

柯華葳院長:針對指標,我們在「對應」及「套用」確實需再加

以思考。

黃沛榮教授:回應信世昌老師剛提到對應及套用問題。針對能力

指標,目前分為聽、說、讀、寫、譯,以西方語言

標準套用漢字是不妥的,西方語文是不需要習寫

的,我們應該將能力指標分為聽力、說話、閱讀、

作文、寫字、翻譯、打字等七項能力。我認同鄭錦

全老師所說的,能力指標應該要有創新,聽與說、

讀與寫分別是雙向的,但有些教材,像是 IQ

Chinese 教材包含「聽」、「說」、「讀」、「打」能力,

無「寫」的能力,而打字需發音正確且需認字,也

是有其參考價值。最後,翻譯應有多方面的翻譯,

Page 93: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

88

而非直譯。

曹逢甫教授:能力指標問題,如打字,應考量其為現代人不可或

缺的能力,也許可適時進入教材、提供學生練習

的機會,以因應學生上網、聊天等活動。

曾金金教授:由於林慶隆主任提及目前經費拮据,我們應考慮將

範圍縮小,將經費使用在最需要、急迫的事。海

外最需要的是什麼?我覺得是漢字能力指標,需

明訂各級字彙為何、需學什麼漢字,如可套用鄧

老師教學語法架構的指標,涵融鄭錦全老師所提

及的字的構詞率,我們用幾個向度、結合計算機

語言學等作法,也許可明訂出漢字字表。以漢語

作為第二語言來考量,情境及上下文因素對漢語

習得非常重要。我們現有資料僅蒐集學習者書面

語語料是不夠的,需考慮口語語料及情境因素。

可由小範圍先做,如前所述。明訂漢字字表,應

釐清哪些字的認讀是有問題?哪些沒問題?而目

前計畫在基礎研究方面顯示嚴重不足,需優先處

理。漢字規範應由我們來訂定,讓海外參考,此

法亦有助於我國推動正體字。

林慶隆主任:打字問題仍待討論,目前常見為口語輸入,趨向數

位化方式輸入,因此打字可能並非為必要的技能。

柯華葳院長:許多人使用平板電腦都是以手寫為主,因此書寫仍

是需考量的。

信世昌教授:寫字為技術問題,非語言本質問題,電腦或手機等

智慧型輸入法皆有自動校正功能,因此「打字」

很難成為國家型指標。

柯華葳院長:我們先不特別列寫字或打字。目前先以漢字指標為

主,在研擬的過程中,其能力指標項下可能再考

慮「輸入」、「打字」、「認字」、「寫字」等細項。

鄧守信教授:漢字教學與學習是無法做的。第一、先做國際性的

調查。假設有兩千萬學習漢字者,多少比例的人

是根據漢字的特點做教學、學習?目前漢字教學

法主要分兩種:simultaneous instruction 和 delayed

instruction ,實際華語教學中,大部分皆為

simultaneous 學習法。因此,曾金金老師的建議是

好的,但應考慮實際學習狀況,由於漢字受控於

口語語料,因此無法由結構來評定漢字的難度或

分級,如「謝謝」一詞。

Page 94: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

89

曾金金教授:大部分的教材都是隨文識字,學生未必皆能學會教

材中的字。如「我」即為隨文識字而習得的字。從

學習者角度訂定能力指標,如一年級需掌握的字

有哪些?若我們能從 L2(Second Language)習得

角度訂定指標及字詞表,則可供給國際參考。

鄧守信教授:我的美國學生很早就學會「學」這個字了,該字也

很複雜,因此非由結構來決定習得順序。

信世昌教授:分級無所謂對錯,需考量在操作上的目的,如各華

語中心課程的分級皆不同,有其各自的目的。另

外,大家喜歡套用歐洲共同語文參考架構,但此

架構的分級並不適用於「非歐洲語言」,僅考慮歐

洲國家。然而,漢語與歐語距離是很遠的,需考

慮真實狀況。

曹逢甫教授:實際層面來看,若分太多級,測驗執行方面是很難

實際操作的。我們仍可參考 CEFR 的標準,以六

級為基礎,若需再細分,再增加級別即可。如國

內閩南語認證考試分三卷(A、B、C),每一卷再分

兩級(A1、A2、B1、B2、C1、C2),共分為六級,

歷年來操作上是沒什麼問題的。

鄧守信教授:據我所知,國內各語言中心的分級為分班之用,應

為分班等級而非能力等級。

信世昌教授:我們在討論分級時缺乏基礎資料,需考慮各個等級

的學時。我先前參觀西班牙的語言中心,他們雖

參照 CEFR 擬定分級,但因各等級學時差異,在

執行上有其困難;另,回應曹逢甫老師,測驗並

不一定考量等級,如托福考試即不分等、分卷進

行,測驗完成後再以分數對應等級。若每一級的

考試都有每一級的考題,則其工作將繁重,操作

亦有難處,學生在報考時也將無所適從。

曹逢甫教授:托福原始目的是單純的,範圍是單一的;我們則是

依據各種不同的需要,進而訂定不同級別的試卷。

決定:

一、能力指標的擬訂應建立符合我國需求之指標。

二、文獻需參考 HSK 團隊第一版的語法等級大綱的徵求意

見稿(請鄧守信老師提供)。

三、能力指標仍聽、說、讀、寫、譯為主,「寫」項是否考慮

「輸入」、「打字」、「認字」、「寫字」、「作文」等細項,

Page 95: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

90

於實際執行後再討論。

【案由二】有關本計畫漢字、詞彙之分級標準的研擬,詳如說明,提

請討論。

說明:

一、以本計畫建置中之語料庫經統計分析產生計算參考資料,

再經由專家討論決定,規劃內容如下:

1. 以本計畫建置之華語文語料庫(含華語文教材資料庫),

計算參考資料,提供專家參考。

2. 漢字方面:

(1)以語料庫進行字頻、構詞率、累計頻率值、篇章分布率、

現有國內、外漢字表進行統計分析。

(2)在常用詞彙的基礎上,統計常用字,對現行常用詞進行

增刪,擴充這些常用詞中所含的常用字。

(3)漢字分級原則需考量常用性、能產性。

3. 詞彙方面:

(1)以語料庫進行詞頻、累計頻率值、覆蓋率、篇章分布率、

總值、現有詞表進行統計分析。

(2)以「主題聯想」、「類聚聯想」等方式,擴充各種情境詞、

主題詞等等。

4. 漢字、詞彙統計結果皆提供專家審議的參考。

5. 採用書籤標準設定法( the Bookmark standard-setting

method)進行專家審議,此過程將會實施三個階段,說

明如下:

(1)說明:

a.介紹標準設定流程與書籤標準設定法

b.講解漢字(或詞彙)分級的參數

c.說明閱讀能力指標

(2)第一階段:專家審議

a.專家審議決定漢字(或詞彙)的分級。

b.請與會專家依據閱讀能力指標與參數,獨立標記各級的

漢字(或詞彙)暫定序號,並寫下判斷理由。

c.完成第一階段判斷後,進行統整。

(3)第二階段:專家討論與判斷

Page 96: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

91

a.主持人說明第一階段的判斷結果,並提供統計資料包括

標記的漢字(或詞彙)序號與對應之分級值、各等級分

級值的平均數、中位數、最大值、最小值,依照分級值

得出等級暫定門檻的漢字(或詞彙)序號。

b.與會專家討論分享判斷依據,並針對歧異較大的等級凝

聚共識後(包括是否精減或增加級數),再各自進行第

二階段的判斷,並寫下判斷理由。

(4)第三階段:專家討論與決定

a.針對第二階段結果歧異較大的等級,或其他成員認為需

要討論的等級進行討論,邀請與會專家說明評估時的

考量,交換意見並凝聚共識(包括是否精減或增加級

數)。

b.請專家各自進行第三階段的判斷,並填寫會議問卷,最

後回收問卷。

二、如上述,本計畫分級標準的發展方向是否適當,請提供

建議。

討論:

鄧守信教授:語料庫的定位需清楚,使用對象及欲蒐集的語料是

L1(First Language)還是 L2(Second Language)?

此計畫若屬與華語相關,我認定為 L2 的問題;但

字頻則是 L1 的問題。目前大概沒有人著手進行

L2 漢字問題。

柯華葳院長:原則上此語料庫是以 L2 為主。

鄧守信教授:我研擬的教學語法,不應該放進文獻;若是放入文

獻,教學語法與語料庫建置有關的部分,即為「語

法」。但語法的定義有其爭議,對語法點的定義同

樣也頗具爭議,各方作法莫衷一是,語法點及語

法結構也有其不同,語法點數量亦無實際定量,

目前國內華語領域皆無定見。而此計畫中的語法

工作繁複,篇章更不用說了。

鄭錦全教授:針對詞的分級,我想提出一些想法。留學生第一天

到臺師大來,「國立」一詞在我們八千詞表,入門、

基礎、進階皆無收錄,而納入高階級。此狀況即

不可依賴教科書,需要以構詞法來教學。詞語在

高年級階段應考慮「縮略成詞」,如「申請奧運」

縮略為「申奧」;「意者請於……」即指「有意願者

請於……」應於高年級教授。另外,與高詞頻共

現的詞語,如與「大學」共現的詞,「國立」、「清

Page 97: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

92

華」、「政治」等詞,可能在語料庫中詞頻不高,但

對留華學生來說,因其面對的場景而有必要同時

學習。

信世昌教授:以詞彙來說,哪些先教或後教,有不同的方法

(approach)。方法一是先看外國學生最容易遇到什

麼樣的情境場合?如「國立」、「修課」是最常、最

需用到的詞彙;方法二是現在的作法,按照L1語

料詞頻,但這只是選詞方式之一,並非一定得這

麼做;方法三是從現有教材中挑選詞彙,而整理

出詞彙表;方法四是根據L2語料來選詞、而非L1

語料,選取學習者面臨表達時常用的詞語,也是

方法之一。專家學者應從這些選詞方法討論,再

決定怎麼做。但現在並非是如此作法,而是已先

決定要從L1的語料做出詞彙。我們需從觀念、原

則性來重新思考、討論,否則公布後將招致國內

外大量批評。例如,選詞方面,外國人在哪些常

見的場合、情境,來標定50個或100個情境,再從

情境範圍裡找出相關詞或詞頻較高者,此種作法

較符合L2所需的詞表,意即L1詞頻不見得是L2所

需求的詞。

柯華葳院長:針對學習者需學習的詞彙,確實應考量他們常面臨

的情境,如「發票」是學生很常用到的詞。

鄭錦全教授:針對共現詞,「教授」詞頻較「大學」低得多,但兩

者可共現在一個句子,則可用共現詞的作法排列。

此亦為一個選詞的方法。

曾金金教授:鄧守信老師的《對外漢語教學語法》中,頻率是其

中一個項次,且在情境中頻率才是有意義的。此

計畫語料庫所整理出的八千詞表「了」、「在」的

等級是有疑慮的。字詞什麼時候需要教、什麼時

候需要學、學生什麼時候學會,以及什麼字分在

哪一級等等,我們應了解學生是怎麼學的,考慮

時間學習向度。再者,我先前建議過,若其他語

料庫已有詞頻搜尋功能,則本計畫就不需重新建

置。國內有四十個語言中心,故有甚多課程進行

中,建議本計畫可著力於錄製、轉寫 L2 語料,並

進行統計,此即符合 L2 學習的情況。語料的量少

無所謂,但要實際蒐集、存取。我們要思考,此語

料庫是誰用?功能為何?再反推回來才知道此語

Page 98: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

93

料要蒐集什麼樣的資料、可以進行什麼樣的統計,

才能達到它的功能。

林慶隆主任:我們目前蒐集了臺師大及開南大學的中介語語料,

包含級別及相關 metadata,目前已有三百多篇、

二十萬字的語料,且已取得完全授權。除了建置

中介語,同時也建立了教材資料庫。

曹逢甫教授:我提出兩點:一、L2 語料庫現在都是在建構之中,

可參考的價值並不高。由 L1 語料起始是因為有現

成的材料,如何善加利用才是目前最需考慮的問

題,其實二者不互相牴觸;二、漢語特殊情形需

列入考量,我們不能忽略,如「詞」不能單獨考

慮,字與詞的教學法,應考慮兩者互動的關係。

L1 語料除詞頻之外,需結合構詞率等,每個漢字

的構詞率、共現詞及學生使用狀況等等,由這幾

方面著手即可。

信世昌教授:我想強調重要的方向需掌握。目前本計畫語料庫的

建置思維,與中研院平衡語料庫相近,與 L2、華

語教學的需求距離較遠,而距離最近的應是外籍

學生的中介語。然現今書面語語料已經很多了,

口語語料嚴重缺乏。當經費縮減,此計畫方向應

由 L1 純語言學計畫轉為優先處理 L2 中介語語料

及口語語料。若經費投入後,建置的速度也應該

增快。因此,本計畫目前所建置的語料庫,其經

費與人力應再思考,也就是說,L1 純語言學語料

庫應先暫緩;再者,L1 與 L2 的連結也有問題,

L1 與另外兩方面(能力指標及語言結構)不應結

合在一起。

柯華葳院長:我們今年已將許多經費投入在口語與中介語語料,

並進行轉寫等工作。

鄧守信教授:建置「華語文語料庫」在我們領域中是不存在的,

什麼叫做應用?就我所知應是「中介語語料庫」,

而非應用。

信世昌教授:針對能力指標及語言結構的分級,先前我們召集國

內多位學者專家,還是希望可以分組執行(漢字、

詞彙、語法),同一學者若有多方專長則可參與多

組,由此討論出的作法較為深入。然這兩年計畫

方向卻從淺層思考,不經深入討論即快速執行,

這是有問題的。分級方式需把握原則-(1)語言能力

Page 99: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

94

(聽、說、讀、寫等)的分級,是 can do 的問題,

若能力是達統一的,但每個人背景不同,自我介

紹所用的字詞是不同的,這是指標;(2)字、詞、

語法的分級,應由三個專家小組來深入研究如何

擬訂。

柯華葳院長:我從目前國內英語教學狀況來看,英文能力與英文

教材內容之間也有類似的問題,多次會議委員也

提出相關辯論。能力指標與教材分級確實是應分

別加以思考,但某程度上兩者也是有關係的,也

許我們多討論幾次會更加明朗。

鄭錦全教授:回應信世昌老師,舉例來說,一年級學習教科書是

固定的,學生語言能力檢定後,若表現出超過教

科書之外的能力,我們需思考「他怎麼學會的?」。

另外,口語蒐集問題,從語言立場來看,我們做

口語蒐集時非常仔細,標注了語氣、停頓等,造

成口語資料庫的建構非常困難,如政治大學所建

置的漢語口語語料庫,做起來非常累,我們應該

不需做語言學方面的標記。

柯華葳院長:好的,我們在口語語料可選擇不做詳細的標注。

鄧守信教授:由信世昌老師所提出及柯華葳院長所附議的部分,

我感到非常不安。針對能力問題,CEFR、ACTFL

都是指標,要能達到自我介紹的交際功能,必須

用到哪些詞彙、語法,其後有很實際的項目,也

就是說,這些指標訂定出交際能力,而為達這項

能力,語言能力需達到哪個階段,包括學會哪些

詞彙、哪些結構,都是必須討論的。也就是說,指

標及語言能力是相互對應的,能力後頭有需達到

的語言能力的指標,絕對不能予以忽略。

信世昌教授:回應鄧守信老師的說法。此計畫原先即是分為兩組,

一為語言能力聽說讀寫組,一為語言結構內容組,

前者為交際能力(can do)的指標,後者是語言內

涵的分級。舉例來說,針對自我介紹這項能力指

標,訂出舉世共通的詞彙是不太可能的,頂多訂

出詞彙量,如「欲達到自我介紹這項能力需學習

100 個詞彙」,其中有 20 至 30 個詞彙是共通的,

像是國家、年齡方面的詞彙,但其它 70 至 80 個

詞彙可能是人人不同的。另,語法問題又是另一

個議題。語言結構情況不同,也是我認為語言結

Page 100: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

95

構必須分組討論的原因。

曹逢甫教授:我擔任審查小學教科書已十年,品質參差不齊。以

詞彙量來說,固定詞彙量是很難執行的,如新HSK

訂 150 個詞(第一級),選擇性過少,哪些字是必須

先學的?我傾向訂出字詞的範圍,為一個區間,

而實際教學可能提供更多,如此一來,教材製作

者也能有所選擇。舉例來說,請學生談他的工作,

共通的字詞是得規範的,但每個人的情況都不同;

而由寫教科書的角度來看,字詞範圍需放寬些、

需有彈性空間,倘若規定得太死,對測驗或教材

都是有問題的。

鄭錦全教授:我得提醒,現今文獻或討論,常出現詞彙(lexicon)

與詞語(vocabulary)互通或隨意選用的現象,詞

彙是詞語的集合體,如兒童詞彙、商務詞彙,詞

彙與詞語互為整體與個別的因素。若混用,則往

後會有問題。

信世昌教授:回歸案由二,該作法所提及由語料庫著手是不對的,

此作法前後順序是有問題的,字、詞、語法的觀

念、原則及作法不同,應組成三組專家來討論、

研擬,再由這三組來判斷 L1 語料可扮演什麼作

用,語料庫應是放後段加以輔助的。

張郁雯教授:L2 的學習狀況有無數種情形,因國籍、年齡、學習

目的等等而有所不同。可以想像,如需將此加以

考量的話,語言結構是有多種分法的。像托福考

試是這麼做的嗎?外籍生來學習,一定會面臨例

外,例外就代表有問題嗎?我們必須考慮適用性

多廣,目前所蒐集的 L1 語料是面臨各式各樣的情

境,我們可就不同情境作分析、討論、調整。若因

應個別需求,作法將無限擴充到各種情況,致無

法收斂。

信世昌教授:根據L2學習者面臨的情境場合表現上好像很發散,

但其實是有些共同情境的。相對而言,有許多情

境是 L1 常面臨、L2 鮮少遇到的,像是政治場合、

選舉投票、投資或股票等相關詞彙,在 L1 語料庫

可能都屬於高頻詞,就不見得是本計畫所需採納

的。此外,歐洲學者對於外語學習者所面臨的共

同情境也有相關研究、基準(benchmark),目前已

針對 A1、A2 能力(can do)列出了許多情境功能,

Page 101: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

96

其中也有清楚的描述,這就是我們可以參考的部

分。另外,幾年前我們與鄧老師共同完成一個華

語情境詞彙庫,該專案雖非非常精密、也無 L2 語

料庫支持,但那是一種作法(approach),我們在

過程中實施了大量問卷調查,統計出約有 36 個情

境,並整理出各個情境所使用的詞語內容,再進

行人工干預、判斷,檢視各情境所使用的詞彙。

至於語法點,另屬於不同的考量。

林慶隆主任:本計畫語料庫除了蒐集 L1 語料之外,也包含大量

的教材及中介語,建置了多種資料可提供參考、

協助專家判斷,像是警政署針對外籍人士來台的

語言輔助材料、僑委會相關資料。我們重視語料

的應用性,以此為基礎,再透過科技的協助,使

專家判斷更省時、更有效率。

柯華葳院長:我們優先蒐集文獻,包括鄧老師建議的 HSK 徵求

意見稿,及鄧老師、信老師所研擬的情境詞彙。

(陳專案研究人員鵬妃表示本計畫已將情境詞彙納

入資料庫比對,並展示相關檔案)

鄧守信教授:我建議需納入北京語言大學漢語語料庫的詞頻表。

信世昌教授:我想提出比較具體的建議,此語料庫要怎麼用?應

該由三個專家小組來決定,如鄧守信老師、方麗

娜老師、黃沛榮老師分別帶領語法、詞彙、漢字

小組,各組決定其功能及作法,最後由曹逢甫老

師統整。

黃沛榮教授:我針對 L2 漢字教學提出建議。我是以有限人力資

源做出研究,提供各位參考。現今語料庫多從詞

頻、字頻入手,做出來的結果多與他人無異。因

此,我整理了 TOCFL(7,989 個詞)及 HSK(8,822

個詞)的詞表,首先找出共同詞(3,064 個詞),

再根據字頻、教材分為常用字、次常用字等,接

著檢視漢字構詞率及詞的常用率,再將漢字分部

件,統計各部件及其再生的構字率,若該部件亦

為部首則增加權重,同部首的常用字數量多者亦

增加權重。最後,一定要由多位專家進行人工調

整。上述兩岸(TOCFL 及 HSK)的測試標準已初

步完成。綜上所述,即可計算出各個字的學習價

值。然而,此作法尚未考量語法點層面為其缺陷,

如加以考量則較為合適。

Page 102: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

97

鄧守信教授:我建議此計畫需請益黃居仁老師。

柯華葳院長:黃居仁老師亦為本計畫諮詢委員之一。未來我們將

努力邀請黃居仁老師參與諮詢、提供指導。

信世昌教授:回歸分級問題。字、詞、語法怎麼做,都牽涉到分

級,目前大致分為四等較多。如漢字四等、詞彙

五等或六等、語法四等,由於各語言結構分級概

念不同,分級結果也不必一致,由專家小組各自

判斷。國內教育部針對漢字僅分三級,即常用

(4,808 個字)、次常用及罕用字。漢字、詞彙、

語法這三項概念不同,並非需擬定一致性的分級

結果。

方麗娜教授:我認為外語學習者的最終目標是與母語者讀一樣的

東西,而對分級有興趣者應是教材及測驗人士。

前兩年我們開會時,新加坡陳之權教授、日本古

川裕教授提供了很好的想法,針對第二語言學習

者,我們需檢視國際常用教材,對外華語教材,

建立華語教材資料庫,列出常用的詞,這些詞可

分為情境詞及功能詞—如張郁雯老師所述,學習

者所面臨的詞因個人背景而異,因此,僅能大致

地羅列、擬定主題情境下的建議詞表;至於功能

詞,是很不容易的,如鄧守信老師先前所述,我

們需釐清語法點、語法結構,有時也屬篇章層面

的功能。現在談分級可能有些早,我們需先思考

依據為何、選用哪些主題、進而歸類。因此,我們

現在預定完成的應是綜合類的詞表,尚無法做到

醫學、商業等細項詞表,頂多僅能提供建議。

柯華葳院長:我們可能先以蒐集資料、整理文獻為優先,擬定各

小組方向,進一步的分級工作則暫緩。

信世昌教授:我認為此研究團隊的助理群是很重要的,需負責計

畫進度、聯繫開會事宜、準備會議資料等事宜。

林慶隆主任:若以小組方式研擬語言結構分級,將增加不少經費,

尤其是會議經費,這方面需再陳教育部。

決定:

一、文獻需參考北京語言大學漢語語料庫相關資料。

二、請黃沛榮老師會後提供漢字字表研擬之資料。

三、口語語料不需做語言學方面的標記。

四、語言結構分為三類,由三位專家組成小組進行擬定,建

Page 103: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

98

議由鄧守信老師、方麗娜老師、黃沛榮老師擔任召集人,

分別帶領語法、詞彙、漢字小組,各組各自研擬其作法,

最後由總召集人曹逢甫老師統整(請於會後再確認各召

集人意願)。

肆、臨時動議:(無)

伍、散會:下午12時20分。

Page 104: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

99

(九)華語文八年計畫「建置應用語料庫及標準體系」標準體系組

(能力指標)104 年第四次會議

會議紀錄

時間:104年7月16日(星期四)下午2時30分

地點:本院臺北院區 6樓606會議室

主持人:蔡雅薰教授

記錄:陳鵬妃、簡盈妮

出列席單位或人員:

諮詢委員:方教授麗娜

共同主持人:林主任慶隆、張副研究員莉萍(依姓氏筆劃排序)

本院計畫參與人員:吳助理研究員鑑城、陳專案研究人員鵬妃、簡專

案助理盈妮

請假人員:柯院長華葳、張教授郁雯、陳教授柏熹、李專案助理詩敏

壹、主席致詞:(略)

貳、討論事項:

【案由一】有關訂定能力指標分級之級數名稱,詳如說明,提請

討論。

說明:

一、國、內外能力指標的分級方式,包括TOCFL(三等六級)、

CEFR(三等六級)、ACTFL(五等十一級)、新HSK(六

級)。

二、臺灣各大學的國語中心、華語文中心或語言中心的課程

分級,包括臺師大國語中心(16期的課程)、政大華語中

心(4等13級的課程)、成大華語中心(4等9級的課程)、

淡大華語中心(3等9級的課程)、文大華語中心(4等10

級的課程)。

三、綜合上述,本計畫學習者能力指標由初級至精熟級暫分

為六級,六級名稱為一級、二級、三級、四級、五級、

六級,或為初等(基礎級、初級)、中等(中級、中高級)、

高等(高級、精熟級),請提供建議。

決議:

一、能力指標決定訂為三等(初等、中等、高等)。

二、三等各自的級數擬定需待8月6日分級標準(漢字組、詞

語組、語法組)104年第一次會議的專家共同討論後,再

Page 105: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

100

斟酌參考其架構,進而訂定能力指標之級數。

【案由二】有關華語文學習者聽力與閱讀分級能力指標內容再修

訂事宜,詳如說明,提請討論。

說明:

華語文學習者聽力與閱讀分級能力指標內容已經過 104 年 2

月 11 日、3 月 24 日、5 月 1 日的三次會議討論,依據會議之

決議,修訂更新聽、讀能力指標內容(詳如附件一、二)。

決議:

依據案由一之決議,由於級數尚未訂定,因此聽、讀能力指標

內容研擬暫緩,待級數訂定後,再繼續研擬能力指標作業。

參、臨時動議:(無)

肆、散會:下午4點50分

Page 106: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

101

(十)華語文八年計畫「建置應用語料庫及標準體系」

語料庫組 104 年第五次會議紀錄

時間:104 年 8 月 10 日(星期一)下午 4 時 30 分

地點:國家教育研究院臺北院區 3 樓 302 會議室

主持人:林主任慶隆

記錄:丁研究助理彥平

出席人員:張教授俊盛、陳教授浩然、高副教授照明

列席人員:吳助理研究員鑑城、劉研究助理寶琦、陳博士後研究員鵬妃、

張專任助理玳維

請假人員:李專案助理詩敏

壹、主席致詞:(略)

貳、報告事項:(略)

參、討論事項:

【案由一】關於「建置應用語料庫及標準體系 104 年工作計畫期中報

告」初稿,提請討論。

說明:教育部國際及兩岸教育司預訂於104年8月19日上午召開本計畫

期中報告審查會議,謹擬具期中報告初稿,請提供建議。

決議:依與會教授建議,修改期中報告更新版如附件 1。

【案由二】關於 9 月 25 日「2015 華語文語料庫應用工作坊」事宜,提

請討論。

說明:一、依本年 6 月 22 日語料庫組第四次會議討論工作坊演講者名

單,已邀妥演講者,並已初步請其提供講題。

二、復依張老師及高老師近日來函提供之建議,初步調整工作坊

議程,敬請討論是否妥適。

決議:依與會教授建議,再行調整工作坊議程如附件 2。

肆、臨時動議:無。

伍、散會:下午 7 時。

Page 107: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

102

(十一)華語文八年計畫「建置應用語料庫及標準體系」

語料庫組語料標注第一次會議

會議紀錄

時間:104年10月16日(星期五)下午5時30分

地點:本院臺北院區9樓簡報室

主持人:林主任慶隆

記錄:張玳維

出列席單位或人員:

共同主持人:張教授俊盛、陳教授浩然、高副教授照明、張副研究員莉萍

諮詢委員: 王老師俊仁、李老師明懿、陳老師懷萱、張老師黛琪、楊老師

尤媛(按姓氏筆畫排序)

本院計畫參與人員:吳助理研究員鑑城、白助理研究員明弘、劉研究助理

寶琦、丁研究助理彥平、陳博士後研究人員鵬妃、李

專案助理詩敏、張專任助理玳維

壹、主席致詞:略

貳、討論事項:

【案由】有關華語文語料庫的語料標注方式,詳如說明,提請討論。

說明:

一、依據104年9月21日分級標準(語法組)第二次會議,鄧守信

教授建議華語文詞類項目及標注方式應先確立,以利華語文

教學實務之應用。

二、依據104年10月1日分級標準(詞語組)第三次會議決議,〈華

語八千詞〉八大詞類(名詞、動作動詞、狀態動詞、副詞、連

接詞、介詞、量詞、其他類)加入定詞、助詞,共十類(詳如

附件頁一)。

三、本計畫目前完成建檔之華語文詞類標注資料,包括《遠東生

活華語》、《新版實用視聽華語》、《當代中文課程》、〈華

語八千詞表說明〉、《華語教學基礎詞庫1.0版》,「中研院

平衡語料庫」〈詞類標記表〉共6套標注方式,內容如下:

1. 《遠東生活華語》,共32類(詳如附件頁二)。

2. 《新版實用視聽華語》,共30類(詳如附件頁三)。

3. 《當代中文課程》共8類,動詞系統共12類(詳如附件頁

四)。

Page 108: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

103

4. 〈華語八千詞表說明〉(2015.09),共19類(詳如附件頁

五)。

5. 《華語教學基礎詞庫1.0版》,共19類(詳如附件頁六)。

6. 「中研院平衡語料庫」〈詞類標記表〉,共46類(詳如附

件頁七、八)。

決議:

一、基於實用性及可操作性,關於語料庫語料詞性標注暫分為

「八大詞類」:名詞、動詞、副詞、連詞、介詞、量詞、助詞、

限定詞。本案將先以書信方式就教與會專家,請其將「中央研

究院平衡語料庫」之詞性標注(共46類)歸至八大詞類中。

二、關於八大詞類之次類項目,將於下一次會議討論。

參、臨時動議:無。

肆、散會:19時40分。

Page 109: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

104

(十二)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(漢字組、詞語組、語法組)

104年第一次會議

時間:104年8月6日(星期四)上午9時30分

地點:本院臺北院區 9樓簡報室

主持人:柯華葳院長、曹逢甫教授

記錄:簡盈妮、張玳維、陳鵬妃

諮詢委員:信教授世昌、黃教授沛榮、謝教授佳玲、蘇教授以文(依姓氏

筆劃排序)

共同主持人:林主任慶隆、張教授郁雯、張副研究員莉萍、陳副教授柏熹

(依姓氏筆劃排序)

本院計畫參與人員:吳助理研究員鑑城、陳專案研究人員鵬妃、簡專案助

理盈妮、張專任助理玳維

請假人員:方教授麗娜、陳老師立元、鄧教授守信、蔡教授雅薰、蔡助理

教授宜妮、戴教授浩一(依姓氏筆劃排序)

壹、主席致詞:(略)

貳、報告事項/簡報:104年工作計畫及執行進度

參、討論事項:

【案由一】有關漢字組、詞語組、語法組的共同事項,詳如說明,提請

討論。

說明:

一、本計畫目的為提供未來對外華語教育在教學、學習、測驗等

可實際運用參考的分級標準,因此在漢字、詞語、語法方面是

否需訂定共同架構,以利未來的應用。

二、國、內外的分級標準敘述如下:

1. 漢字方面:

(1) 《漢語水平詞彙與漢字等級大綱》訂定甲級(800個)、

乙級(1,604個)、丙級(2,205個)、丁級(2,905個)。

(2) 《漢語國際教育用音節漢字詞彙等級劃分》訂定一級

(900個)、二級(1,800個)、三級(3,000個)。

2. 詞語方面:

(1) TOCFL訂定入門級(500個)、基礎級(998個)、進

階級(2,501個)、高階級(4,997個)、流利級(7,989

個)。

Page 110: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

105

(2) 新HSK訂定一級(150個)、二級(300個)、三級(600

個)、四級(1,200個)、五級(2,500個)、六級(5,000

個)。

3. 語法方面:《漢語水平等級標準和語法等級大綱》訂定甲、

乙、丙、丁四級的語法分級,共252項、916點。甲級(129

項)、乙級(123項)、丙級(400點)、丁級(516點)。

三、國、內外能力指標的分級方式,包括TOCFL(三等六級)、

CEFR(三等六級或三等十一級〈視教學需要而細分〉)、ACTFL

(五等十一級)、新HSK(六級)、國際漢語能力標準(五級)。

四、標準體系組(能力指標)在104年7月16日會議之決議,初步

決定能力指標之分級訂為三等,但尚未訂定三等各自的級數。

五、需要應用那些語料庫的計算資料。

決議:

漢字組、詞語組、語法組在研擬分級的過程,有其不同考量,因

此,暫由各組各自訂定分級的規準與級數,往後再討論與國內外

語言能力指標之對應。

【案由二】有關漢字組、詞語組、語法組104年度工作目標的達成規劃,

詳如說明,提請討論。

說明:

一、依據本計畫104年工作計畫書擬訂之工作目標,分級標準今

年需達成之關鍵績效指標(KPI)如下:

1. 漢字組:完成各級漢字3,000個之建置。

2. 詞語組:完成各級詞語8,000個之建置。

3. 語法組:完成語法點分級之依據及範例之建置。

二、請各小組討論並研擬各組工作目標的執行方法與期程。

決議:

1. 漢字組:

(1) 漢字分級暫定為 8 級,依學習程度由低至高為 Pre-A1、

A1、A2、B1、B2、C1、C2、C2+。

(2) 承上,各級別及其累計字數對應如下:Pre-A1–200 字、

A1–500 字、A2–800 字、B1–1300 字、B2–1900 字、C1–

2500 字、C2–3100 字、C2+-4000 字。

(3) 漢字分級將以本計畫已完成之「應用語料庫漢字庫」的

統計結果資訊進行各級漢字的挑選,優先以華語教材資

料庫的字頻為主,再考量其他的統計參考資訊,例如:

構詞率。

(4) 挑選漢字時,除了參考上述統計結果的資訊,另需考慮

帶有部首、部件的漢字並作分類,例如:「言」包括

Page 111: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

106

「這」、「說」、「話」等部首或部件。

2. 詞語組:

(1) 詞語分級:依學習程度暫分為4級;各級詞語量未定。

(2) 情境主題:考量L2 (second language)學習者常面臨之生活

情境,優先訂出情境主題,參考資料包括:《華語教學

基礎詞庫》(包含12項情境範疇及情境主題、情境次主

題)、學者對於CEFR中A1、A2級所列出之主題(Can

Do);另需整理現行華語教材之主題。

(3) 作法:先依上述原則分好主題,請組內學者們判別,必

要時徵詢其他學者專家意見,再依本計畫已建置之「漢

詞詞彙分級參考資訊」的統計結果為基礎,新增詞語的

所屬情境或主題資訊,並檢視共同情境下之詞語,再行

討論。

(4) 待增補之資料:請張郁雯教授會後提供國外(尤美國)中小

學詞彙量擬定之相關研究;研究團隊需整理國內中小學

現行教材中詞語使用之狀況。

3. 語法組:

(1)請張莉萍副研究員協助詢問臺灣師範大學國語中心《中

文聽說讀寫》和《新實用漢語課本》教材借用事宜。

(2)首先需確認以下華語教材是否已建置語法點電子檔案,

包含:《實用視聽華語》、《遠東生活華語》、《當代中文

課程》、《中文聽說讀寫》;待資料建置完成,再討論後

續分級研擬。

肆、臨時動議:(無)

伍、散會:下午12時20分。

Page 112: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

107

(十三)華語文八年計畫「建置應用語料庫及標準體系」

標準體系組(能力指標)104年第五次會議

會議紀錄

時間:104年8月31日(星期一)上午9時30分

地點:本院臺北院區 6樓603會議室

主持人:張教授郁雯

記錄:張玳維、陳鵬妃

出列席單位或人員:

諮詢委員:方教授麗娜

共同主持人:陳教授柏熹、張副研究員莉萍

本院計畫參與人員:柯院長華葳、吳助理研究員鑑城、陳專案博士後研究

人員鵬妃、李專案助理詩敏、簡專案助理盈妮、張專

任助理玳維

請假人員:林主任慶隆、蔡教授雅薰

壹、主席致詞:略

貳、討論事項:

【案由一】有關訂定能力指標分級之級數,詳如說明,提請討論。

說明:

一、依據104年7月16日能力指標104年第四次會議之決議,能力

指標訂為三等,尚未訂定級數。

二、依據104年8月6日分級標準(漢字組、詞語組、語法組)104

年第一次會議之決議,漢字組將漢字暫定為8級,包括Pre-A1、

A1、A2、B1、B2、C1、C2、C2+,詞語組暫定4級,語法組尚

未決定分級之級數。

三、國內各大學之國語中心、華語中心,密集班皆以每週15小時

規劃課程,三個月為一期,對照CEFR的分級,以臺師大的國

語中心的課程規劃為例,第一期為180個小時,修畢《新版實

用視聽華語》第一冊,可達到A1級;第二期亦為180個小時,

修畢《新版實用視聽華語》第二冊,累計學時為360個小時,

可達到A2級。

四、張莉萍、陳鳳儀(2008)的研究顯示

1. 在臺師大國語中心學習150小時至360小時,可以達到

CEFR所描述的A2語言能力。

Page 113: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

108

2. 修畢《實用視聽華語》系列教材一至四冊(約530個學時),

可以達到CEFR所描述的B1語言能力。

3. 修畢《實用視聽華語》系列教材一至四冊後、《遠東生活

華語》第一冊至第三冊第八單元的學習者(共約610學時),

有 67%的學習者能通過華語文能力測驗 TOP-Huayu

(TOCFL的舊名)B2等級。

五、綜合上述,本計畫之能力指標分級之級數訂定,請提供建議。

決議:

一、請華測會執行長陳柏熹教授提供華測會近年考生資料(如考生學

習背景、使用教材、通過等級等),爾後再進一步研議學習時數

和程度之對應關係。

二、本能力指標分級將Pre-A1暫列入為最低等級之考量,故也需研擬

Pre-A1能力指標內容。

【案由二】有關華語文學習者聽力與閱讀分級能力指標內容再修訂事

宜,詳如說明,提請討論。

說明:

華語文學習者聽力與閱讀分級能力指標內容已經過 104 年 2 月 11

日、3 月 24 日、5 月 1 日的三次會議討論,依據會議之決議,修訂

更新聽、讀能力指標的部分以紅色字標示(詳如附件一、二)。

決議:

一、附件一聽力能力指標之「單向接收理解」改成「單向訊息」;

「互動情境對話理解」改成「互動對話」。

二、附件一聽力能力指標表前提或條件之詞語「當」改成「在」,並

依上下文略為調整字句。

三、附件一聽力指標之「單向訊息」定義「戲劇、公共集會、報告

會、演出等」改為「演講、報告等」。

四、附件一聽力指標「互動對話」定義「語言使用者在處理對話或討

論過程中的口頭傳達的訊息,此類的聽力理解活動包括對話、討

論、辯論、聽傳播媒體(廣播、電視、錄音、電影等)、聽戲劇

或演出。」改為「語言使用者在處理對話或討論過程中的口頭傳

達的訊息,此類的聽力理解活動包括對話、討論、辯論、聽有多

個角色互動的傳播媒體(廣播、電視、錄音、電影、戲劇、演出

等)。」

五、附件二閱讀能力指標之「獲取訊息理解」定義「語言使用者作為

讀者,閱讀及處理書面文本而獲取訊息,此類閱讀理解活動包括

瀏覽快讀、閱讀使用說明或指令等。」改為「閱讀及處理書面文

本而獲取訊息,例如:菜單、廣告、使用說明或指令等。」

六、在整體表現方面,部分能力指標用詞或文句需修改,以下分成

Page 114: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

109

「聽力能力指標」和「閱讀能力指標」兩大面向說明:

(一)聽力能力指標

1. A1級整體表現「當說話者以語速緩慢、發音清晰標準時,能

聽懂極為簡單、簡短的對話和陳述,需要較長的時間來思考語

義。」改為「在說話者語速緩慢、發音清晰標準時,能聽懂極

為簡單、簡短的對話和陳述,需要較長的時間來思考語義。」

2. C1級整體表現「當即使說話者話語結構不佳或表達不清楚,

能聽懂一定長度的發言。對於個人領域外之抽象與複雜主題,

能聽懂其內容,及能辨認不同的習慣用語及口語用法,並能察

覺其語言形式的變換。」改為「即使說話者話語結構不佳或表

達不清楚,也能聽懂較長的發言。對於非個人熟悉領域之抽象

與複雜主題,能聽懂其內容,及辨認不同的習慣用語及口語用

法,並察覺其語言形式的變換。」

3. C2級整體表現「無論是現場或是廣播,也不論是任何語速,

能聽懂任何話語及談話中的寓意。」改為「在各種情境和語速

下,能聽懂談話中的寓意。」。

(二)閱讀能力指標

1. A2級整體表現「內容以日常生活或工作常見詞彙組成的簡

短文章時,能看懂具體、熟悉主題的短文內容。」改為

「以具體、熟悉主題組成或以常見詞彙組成的短文,能看懂文

章的內容。」

2. B2級整體表現「針對不同文章和閱讀目的,能使用不同的閱

讀策略和速度以達成閱讀的目的,並知道選擇使用合適的參考

書。在有輔助工具下,能理解部分不常見的詞彙、慣用語及專

有名詞。」改為「針對不同文章和閱讀目的,調整閱讀方式和

速度以理解文本。使用輔助工具理解不常見的詞彙、慣用語及

專有名詞。」

3. C1級整體表現「在能反覆閱讀的情況下,能讀懂詳細且複雜

的專業領域的長篇文章。」改為「在能反覆閱讀的情況下,能

讀懂專業領域的複雜長篇文章。」

4. C2級整體表現「針對所有書寫語言形式,能讀懂不同類型的

文本,包括抽象、結構複雜、或者相當口語化的文學和非文學

作品等。能讀懂相當難度的長篇文章,並能辨認出其不同的風

格和隱喻的意義。」改為「針對抽象、結構複雜、通俗的文學

和非文學作品等,能讀懂其內容。能讀懂較難的長篇文章,並

能辨認出其不同的風格和隱喻。」

七、在能力敘述方面,部分能力指標之用詞或文句需刪修,以下分成

「聽力能力指標」和「閱讀能力指標」兩大面向說明:

(一)聽力能力指標

Page 115: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

110

1. L-A2-5「在一般對話中已學過的詞彙和短語,並藉由已知部分

辨認出主題。」改為「在一般對話中藉由已知的詞彙和短語辨

認出主題。」

2. 原L-B1-5「熟悉主題或感興趣的華語影音節目或電影的大概內

容。」刪除。原「L-B1-6」序號改成「L-B1-5」、原「L-B1-

7」序號改成「L-B1-6」。

3. L-B2-4「大部分比較規範的華語電視節目,例如,新聞、時事

報導、紀錄片等。」改為「新聞、時事報導、紀錄片等華語電

視節目。」

4. L-B2-7「大多數具有對話情境或討論性的華語電視節目,例如

訪談、談話性節目、電影等。」中的「大多數」刪除。

5. 將C1級「互動對話」標題描述「當對話內容結構不清楚,或

關聯性低,能聽懂下列事項」改為「即使對話內容結構不佳或

表達不清楚,也能聽懂下列事項」。

6. 將L-C1-5「不同類型的華語視聽節目內容,並能辨別說話者之

間的關係與立場。」從「單向訊息」移至「互動對話」。

7. L-C1-7「個人專業領域或感興趣的討論或辯論。」改為「非個

人熟悉領域或感興趣的討論或辯論。」

(二)閱讀能力指標

1. A2級篇章理解標題「針對日常生活或個人工作相關的口頭用

語,及印刷形式或近於印刷形式且字跡端正的手寫字體,能

看懂下列事項」改為「針對日常生活或個人工作相關的用

語,能看懂下列事項」。

2. R-B1-3「能從不同的資料來源蒐集訊息,進而分析、比較和

對照,以完成一個特定的任務,例如,課堂報告。」改為

「能夠分析、比較和對照不同來源的資料。」

3. R-C1-6「修辭技巧(暗喻)」改為「修辭技巧(擬人)」。

4. R-C1-7「能讀懂複雜且詳細的長篇文章,並能摘錄出要點與

結論,包含態度、隱含和陳述的意見。」改為「能讀懂複雜

且詳細的長篇文章,包含態度和隱含的意義。」

參、臨時動議:無。

肆、散會:中午12時03分。

Page 116: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

111

(十四)華語文八年計畫「建置應用語料庫及標準體系」

標準體系組(能力指標)104年第六次會議

會議紀錄

時間:104年11月02日(星期一)下午2時

地點:本院臺北院區 6樓603會議室

主持人:張副研究員莉萍

記錄:張玳維、陳鵬妃

出列席單位或人員:

諮詢委員:方教授麗娜

共同主持人:陳教授柏熹、張教授郁雯

本院計畫參與人員:柯院長華葳、林主任慶隆、吳助理研究員鑑城、白助

理研究員明弘、陳博士後研究人員鵬妃、李專案助理

詩敏、張專任助理玳維

請假人員:蔡教授雅薰、簡專案助理盈妮

壹、主席致詞:略

貳、討論事項:

【案由一】有關訂定能力指標分級之級數,詳如說明,提請討論。

說明:

一、依據104年8月31日能力指標104年第五次會議之決議,有關

華語學習者學習時數和程度之對應關係,由陳柏熹教授提供

華測會近幾年考生資料(如考生學習背景、使用教材、通過等

級等),做為研議能力級數參考。

二、華測會學時與能力統計結果,詳如表一。

表一 各等測驗學時與詞彙量建議

三、綜合上述,本計畫之能力指標分級之級數訂定,請提供建議。

決議:因有些等級間距較大,故目前暫在A級範圍內加入PreA1級,

測驗等級 建議學時

建議詞彙量 華語地區 非華語地區

入門基礎級 入門級 120-240小時 240-480小時 500

基礎級 240-360小時 480-720小時 1,000

進階高階級 進階級 360-480小時 720-960小時 2,500

高階級 480-960小時 960-1,920小時 5,000

流利精通級 流利級 960-1,920小時 1,920-3,840小時 8,000

Page 117: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

112

而其他各級則將再視實際情況滾動修正,目前暫定三等七級。

【案由二】有關篇章分級標準,詳如說明,提請討論。

說明:

一、依據本計畫104年工作目標之關鍵績效指標,篇章分級標準

為完成建置篇章分級之依據及範例。

二、篇章分級標準在102年之規劃,說明如下:

1. 以文本為主要材料,在「現代漢語書面語和口語語料

庫」和「華語文教材(初、中、高以及專業教材)資料

庫」的基礎上,進行篇章分級。

2. 兒童文本與成年文本、專業文本應有所區隔。

3. 考慮分級變數,如詞彙的難度、詞彙表、單詞的複雜

度、句子的長度和句子的複雜度。

4. 考慮篇章的謀篇手段,如:形式語法手段、語義主題手

段、抽象關係手段(聯想、預設等)、數位區分手段、

句法佈局手段、修辭手段等。

5. 考慮篇章的銜接手段,如:語法、語義、詞彙等聯繫形

式。

三、依據102年規劃與103年文獻分析,篇章分級的考量因素,包

括詞彙(如詞頻、詞數)、句法結構(如名詞片語數、結構相

似度)、潛在語意分析(如詞與詞間關係、詞與篇章關係)及

凝聚性(如連接詞數、指稱詞數)等,此特徵皆為中文文本可

讀性指標(宋曜廷等人,2013;Sung et al., 2014),故建議篇

章分級依據參考中文文本可讀性特徵。

四、CRIE (Sung et al., 2014)為第一個包含多特徵分析,涵蓋四大

層面語言特徵,詞彙類、語意類、句法類、凝聚類,包含24

個語言特徵;另開發CRIE-CFL,針對中文為外語讀者使用

的教材進行分析,分為四個層面,包含79個語言特徵。

五、綜合上述,本計畫篇章分級之依據,請提供建議。

決議:先參考相關文本難易度文獻,歸納分析影響篇章難易的特徵。

今年度先提出原則性的描寫(包括範例)。

【案由三】有關中文文章和教材難度的可讀性公式,詳如說明,提請討

論。

說明:

一、依據本計畫104年工作目標之關鍵績效指標,須提供一個中

文文章和教材難度的可讀性公式。

二、經文獻分析,中文常見可讀性公式,詳如表二。

Page 118: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

113

表二 中文可讀性公式與採用指標

公式名稱 計算式 採用指標

Yang

(1970)

年級 = .1788 × 筆劃數超過10劃百分比 + .1432 ×

平均句長 + .6375 × 難字百分比

筆劃、難字比率、句

學期 = 14.95961 + 39.07746 × 詞彙數 -2.48491 × 平

均筆劃數 + 1.11506 × 句數

詞彙數、句數、筆劃

陳世敏

(1970) 年級=(每句平均字數 + 難字數)× 0.7 句長、難字數

荊溪昱

(1992)

年 級 = 5.43035627 + .00657347 × 課 文 長 度

+ .02443016 × 平均句長 - 5.56746245 × 常

用 字 比 率 + 1.38315091 × 詩 歌 體 -

1.07299966 × 對白文體

課文長度、句長、

常用字比率、文體

荊溪昱

(1995)

年級 = 8.76105604 + .00272438 × 課文長度

+ .07866782 × 平均句長 - 8.9311010 × 常用

字比率 + .42920182 × 詩歌體 + 3.23677141

× 文言文體

課文長度、句長、

常用字比率、文體

宋曜廷等

(2013)

年級= 4.53 + 0.01 × 難詞數 – 0.86 × 單句數比率 –

1.45 ×實詞頻對數平均 + 0.02 × 人稱代名詞

難詞數、單句數比

率、實詞頻對數平

均、人稱代名詞數

劉憶年

(2015)

年級 = 11.701 – 5.362 ×領域實詞頻對數平均 + 0.176

× 負向連接詞數 + 0.167 × 句平均詞數 +

0.024 × 代名詞數

領域實詞頻對數平

均、負向連接詞

數、句平均詞數、

代名詞數

三、宋曜廷等人(2015)針對1,578篇華語文教材進行CEFR等級

的評定,並利用機器學習(machine learning)中的支援向量機

(Support Vector Machine, SVM)技術,建置可自動判斷文本

的CEFR級別,其預測模型的精確分級準確率(exact-level

accuracy)可達75%,而分等準確率(division accuracy)可達

90%。

四、綜合上述,本計畫中文文章和教材難度的可讀性公式,提請

討論。

決議:目前先以宋曜廷等人(2015)提出之可讀性公式「年級= 4.53 +

0.01 × 難詞數 – 0.86 × 單句數比率 – 1.45 ×實詞頻對數平均 +

0.02 × 人稱代名詞數」作為參考。

參、臨時動議:

一、有關提供350個中文核心詞彙,詳如說明,提請討論。

說明:

1. 依據104年計畫工作目標之關鍵績效指標(KPI),須提供適用於對

外華語教學的350個中文核心詞彙用法與例句。

Page 119: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

114

2. 350個中文核心詞彙用法與例句,將以本計畫建置中的書面語語料

庫及雙語語料庫,依詞頻與覆蓋率進行挑選。

3. 綜合上述,350個中文核心詞彙用法與例句初稿的進行方式是否合

適,提請建議。

決議:關於350個中文核心詞彙用法與例句,暫以本計畫建置中的書面語

語料庫及雙語語料庫,從中根據詞彙之詞頻與覆蓋率進行挑選。

二、有關105年標準體系工作目標,詳如說明,提請討論。

說明:

1. 持續建置各級漢字3,000個與詞語8,000個,以及語法點與篇章分級

之依據及範例。

2. 運用「應用語料庫」和「華語文教材資料庫」完成華語文教材中篇

章、語法、詞彙、漢字之分級標準,由專家進行調校,進行問卷施

測。

3. 完成華語文教材分級檢索系統及內部測試。

4. 發展與研定共通性華語文聽、說、讀、寫、譯各級能力指標與總體

能力指標,並確認華語文聽、說、讀、寫、譯各級能力指標內涵能

否搭配分級標準組華語文教材中篇章、語法、詞彙、漢字之分級標

準。

5. 依語料庫組編纂常用351-500個中文核心詞彙用法與例句及其英文

翻譯。

決議:105年標準體系工作目標暫依上述五項說明持續進行,爾後再視實

際情形修正。

肆、散會:下午4時50分。

Page 120: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

115

(十五)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(漢字組)104年第二次會議

會議紀錄

時間:104年9月7日(星期一)下午2時00分

地點:本院臺北院區 6樓603會議室

主持人:黃教授沛榮

記錄:張玳維、陳鵬妃

出列席單位或人員:

諮詢委員:蔡助理教授宜妮、陳老師立元

共同主持人:陳教授柏熹

本院計畫參與人員:陳博士後研究人員鵬妃、李專案助理詩敏、簡專案助

理盈妮、張專任助理玳維

請假人員:林主任慶隆、吳助理研究員鑑城

壹、主席致詞:略

貳、討論事項:

【案由】有關訂定各級漢字內容,詳如說明,提請討論。

說明:

一、依據104年8月6日之分級標準(漢字組、詞語組、語法組)104

年第一次會議之決議,漢字組將漢字暫定為8級,包括Pre-A1、

A1、A2、B1、B2、C1、C2、C2+。

二、承上,各級別及其字數對應如下:Pre-A1 – 200字、A1 – 300

字、A2 – 300字、B1 – 500字、B2 – 600字、C1 – 600字、C2 –

600字、C2+ - 900字。

三、漢字分級內容以本計畫「應用語料庫漢字庫」的統計結果,

進行各級漢字的挑選,其考量優先順序如下:

1. 華語教材資料庫的字頻

2. 應用語料庫的字頻

3. 部首、部件

4. 漢字累計頻率值(覆蓋率)

5. 篇章分布率

6. 構詞率

7. 字表涵蓋數

8. 國內、外字表對照

Page 121: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

116

四、綜合上述,本計畫之Pre-A1 – 200字、A1 – 300字、A2 – 300

字之分級內容,詳如「應用語料庫漢字庫」,請提供建議。

決議:

1. 根據本計畫「應用語料庫字庫」,Pre-A1、A1、A2的選

字原則,統計資料排序為「『初級累計頻率值』→『全

級累計頻率值』→『初級字頻』→『全級字頻』」,作

為本研究選擇Pre-A1、A1、A2之依據。

2. Pre-A1級欲訂出約200個漢字,經上述「應用語料庫字

庫」統計資訊排序與專家調校後,內容說明如下:

(1) 根據「『初級累計頻率值』→『全級累計頻率值』

→『初級字頻』→『全級字頻』」排序方式,由前

300字選出前200個高頻使用漢字。接著,根據專家

檢視與調校,排除「員」、「偉」、「芸」、

「芳」、「欣」、「各」、「李」、「牠」、

「念」、「林」、「建」、「亮」、「活」共13

個,其為Pre-A1不常使用字。

(2) 再者,從「應用語料庫字庫」201至300排序區間選

出「問」、「晚」、「這」、「都」、「喜」、

「喝」、「等」、「給」、「著」、「買」、

「嗎」、「塊」、「想」、「對」、「請」、

「學」、「機」、「謝」、「點」、「動」、

「常」、「期」、「歡」、「千」共24個構詞率、

使用頻率較高的漢字加入,依此訂定出Pre-A1級字

表211字。

3. 根據「初級累計頻率值」→「全級累計頻率值」→「初

級字頻→」「全級字頻」四個向度作為A1、A2級漢字排

序,其字數暫訂以350個漢字作為研擬範圍,供下次會議

討論。

4. 漢字部件拆解原則,將依黃沛榮教授訂定之部件原則為

本計畫之用,故需請黃沛榮教授提供部件資料的電子

檔。

參、臨時動議:無。

肆、散會:下午4時12分。

Page 122: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

117

(十六)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(漢字組)104年第三次會議

會議紀錄

時間:104年10月26日(星期一)下午2時

地點:本院臺北院區 6樓603會議室

主持人:黃沛榮教授

記錄:張玳維、陳鵬妃

出列席單位或人員:

共同主持人:蔡雅薰教授、陳柏熹教授

本院計畫參與人員:林慶隆主任、吳鑑城助理研究員、白明弘助理研究

員、陳鵬妃博士後研究人員、李詩敏專案助理、張

玳維專任助理

請假人員:蔡宜妮助理教授、陳立元老師、簡盈妮專案助理

壹、主席致詞:(略)。

貳、報告事項/簡報:資料及文獻報告

參、討論事項:

【案由】有關訂定A1與A2分級漢字內容,詳如說明,提請討論。

說明:

一、依據104年9月7日分級標準(漢字組)104年第二次會議之決

議,漢字組將初級漢字,包括Pre-A1、A1、A2,先依「教材

語料庫」之「初級累計頻率值」→「全級累計頻率值」→「初

級字頻」→「全級字頻」進行排序。

二、Pre-A1漢字內容已在104年9月7日會議完成研擬。

三、A1與A2漢字內容排序後的選字原則,參考「教材語料庫」之

「字表涵蓋數」、「華語八千詞」、「新HSK」、其他特殊情

形(例如動物、基礎部件、五官)等。

四、A1的選字原則(選字範圍301~750):符合下列表一的其中一

項,即收錄為此等級的漢字。

Page 123: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

118

表一 A1選字條

*:口、日、木、金、巴、目、石等。 **:狗、貓、馬、魚、雞等。 ***:耳、眼、鼻、嘴等

五、A2的選字原則(選字範圍751~1450):符合下列表二的其中

一項,即收錄為此等級的漢字。

表二 A2選字條件

*:獅、兔、熊

六、依據A1、A2選字原則,A1暫收錄350個漢字,A2暫收錄325

個漢字。

七、綜合上述,本計畫A1與A2漢字分級內容,詳如「應用語料庫

漢字庫」EXCEL檔,請提供建議。

決議:

1. 關於A1、A2級選字原則,對照比對「教材語料庫」中「字表涵蓋

數」、「華語八千詞」及「新HSK」三者交集情形。

2. A1級預計收錄漢字300個,對照「教材語料庫」中「字表涵蓋數-6

次以上」、「華語八千詞-A1」及「新HSK-1、2、3級」三者交

集,目前暫訂收錄交集兩次以上,共286字。另暫從交集一次中,

挑出漢字「灣」、「活」、「念」、「華」、「餐」、「湯」、

「食」、「戶」、「受」、「許」、「祝」、「指」、「汁」、

「痛」、「言」、「該」、「已」、「較」、「爺」、「嘴」、

「遊」、「鼻」、「周」、「具」、「功」25字放入A1級字表

中。

項次 華語八千詞 新 HSK 字表涵蓋率 基礎部件* 動物** 五官***

1 A1

2 1、2

3 3 6 以上

4 是

5 是

6 是

項次 華語八千詞 新 HSK 字表涵蓋率 動物*

1 A1、A2

2 1、2、3

3 B1 5 以上

4 4 5 以上

5 是

Page 124: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

119

3. A2級預計收錄漢字300個,對照「教材語料庫」中「字表涵蓋數-5

次以上」、「華語八千詞-A1、A2」及「新HSK-1、2、3、4級」

三者交集。

4. 另請5位華語教師審閱A1、A2交集一次的漢字,並提供本計畫

「能力指標」描述,作為漢字篩選依據。

5. Pre-A1字表須重新檢視及對照「新HSK」1、2級之字表,是否已

收錄此等級之漢字,另再收錄「姊」和「媽」兩個漢字。

6. 華語教師審核委員建議名單暫為「陳立元」、「孫懿芬」、「徐

東玲」。

肆、臨時動議:無

伍、散會:下午4時

Page 125: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

120

(十七)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(詞語組)104 年第二次會議

會議紀錄

時間:104年9月3日(星期四)上午9時30分

地點:本院臺北院區6樓605會議室

主持人:曹逢甫教授

記錄:簡盈妮、陳鵬妃

出列席單位或人員:

諮詢委員:信世昌教授、方麗娜教授、謝佳玲教授

共同主持人:張郁雯教授

本院計畫參與人員:吳鑑城助理研究員、陳鵬妃專案研究人員、李詩敏專

案助理、簡盈妮專案助理、張玳維專任助理

請假人員:林慶隆主任

壹、主席致詞:(略)

貳、報告事項/簡報:資料及文獻報告

參、討論事項:

【案由一】有關詞語情境主題分類,詳如說明,提請討論。

說明:

一、依據104年8月6日分級標準(漢字組、詞語組、語法組)104

年第一次會議之決議,詞語組將先進行情境主題分類。

二、情境主題分類以《華語教學基礎詞庫1.0版》之12項情境範疇

為主,包括個人資料、居住、職業、休閒及娛樂、交通及旅遊、

社交及人際、身體及醫療、教育及學習、購物及商店、餐飲及

烹飪、銀行及郵務、安全,以及其35個情境主題,及整理現行

華語教材之主題。

三、依據〈國民中小學九年一貫課程綱要語文學習領域〉,英語

科課程的教材內容取材涵蓋家庭、學校、食物、動植物、節慶

習俗、職業、旅遊、運動、休閒等40個主題。

四、綜合上述,本計畫詞語分級之主題分類需涵蓋幾項主題,請

提供建議。

決議:

一、文獻方面,除了〈國民中小學九年一貫課程綱要語文學習領

域(英文)〉所列之主題,需將已整理之資料(如:CEFR-

Page 126: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

121

Waystage, Threshold, Vantage 所列之情境主題一覽表)納入

本計畫主題架構,並增加其它關於主題(Themes/Topics)類

別的資料,如 EBCL A1-A2+ Can-do Statements for European

Symposium at Brussels。

二、作法方面,承前項決議,依據所蒐集關於主題之文獻,先盡

列情境次主題,暫稱之為「子題(topic)」,將學習者可能

面對的所有子題列出,爾後再討論並歸納出主題。另,本計

畫雖以《華語教學基礎詞庫1.0版》作為主題分類之基礎架

構,然其仍有待討論、增刪之處,需依實際分類情形進行調

整。

【案由二】有關訂定詞語分級,詳如說明,提請討論。

說明:

一、依據104年8月6日分級標準(漢字組、詞語組、語法組)104

年第一次會議之決議,詞語組暫定為4級。

二、承上,漢字組將漢字暫定為8級,包括Pre-A1(200字)、A1

(500字)、A2(800字)、B1(1,300字)、B2(1,900字)、

C1(2,500字)、C2(3,100字)、C2+(4,000字)。

三、TOCFL訂定入門級(500個)、基礎級(998個)、進階級(2,501

個)、高階級(4,997個)、流利級(7,989個)。

四、新HSK訂定一級(150個)、二級(300個)、三級(600個)、

四級(1,200個)、五級(2,500個)、六級(5,000個)。

五、綜合上述,各級之詞語量規劃,請提供建議。

決議:

一、詞語分級暫定為4級;然而,為考量學習者個人能力發展與

語言系統結構並不完全相符、不可全然對應,故暫不訂定各

級詞語量及總詞語量。

二、詞語進行分級前,需考量許多條件及前提,舉例如下:

1. 詞族(word family):詞語量牽涉到詞語認定及詞族區

分,需明確列出標準。如”can” 、”could” 二詞,後者不僅

是前者的過去式,已幾乎是個別獨立的用法;兒化詞

「花」、「花兒」二者皆指植物的一部分,但「門」、

「門兒」二詞則並非皆指實體的門。

2. 斷詞依據:詞語分類及分級皆需考量斷詞原則及詞語意

義,如「吃飯」可廣義指涉為用餐,未必真指吃「飯」,

而「吃麵」、「吃藥」則是確實指涉吃「麵」及吃

「藥」。

3. 主題判定:部分詞語之主題類別可明確對應,如「郵

Page 127: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

122

局」、「寄信」屬郵務主題;而部分詞語則較難判定主題

類別,如「詢問」可屬餐飲(詢問菜單)、旅遊(詢問地

點)。因此,部分詞語具跨主題之特性。

4. 綜合上述考量,需先擬定出斷詞依據,可參考《國際華語

學習辭典》所制定之詞彙編制原則。

三、初學者之詞語規劃可先以《華語教學基礎詞庫1.0版》所列

具有主題分類之2,080個詞語為基礎,再行增刪或調整。

四、日籍學者古川裕教授將於明(105)年1月訪臺,屆時可視計

畫需要邀請其參與詞語相關會議。

肆、臨時動議:(無)

伍、散會:12時40分

Page 128: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

123

(十八)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(詞語組)104年第三次會議

會議紀錄

時間:104年10月1日(星期四)上午9時30分

地點:本院臺北院區 6樓603會議室

主持人:曹逢甫教授

記錄:李詩敏、陳鵬妃

出列席單位或人員:

諮詢委員:信世昌教授、方麗娜教授、謝佳玲教授

共同主持人:張郁雯教授

本院計畫參與人員:林慶隆主任、吳鑑城助理研究員、白明弘助理研究

員、陳鵬妃博士後研究人員、李詩敏專案助理、張

玳維專任助理

請假人員:簡盈妮專案助理

壹、主席致詞:(略)

貳、報告事項/簡報:資料及文獻報告

參、討論事項:

【案由一】有關詞語情境子題分類,詳如說明,提請討論。

說明:

一、依據104年9月3日分級標準(詞語組)104年第二次會議決議,

詞語組將依相關主題之文獻,先盡列情境子題,將學習者可能

面對的所有子題列出,再歸納主題。

二、情境子題分類以《華語教學基礎詞庫1.0版》之情境次主題為

主,包括姓名、生日、年齡、出生地、國籍、家鄉等131個子

題。

三、依據《華語教學基礎詞庫1.0版》的131個子題,整理比對〈國

民中小學九年一貫課程綱要語文學習領域〉的英語科課程的

教材內容取材涵蓋40個子題,CEFR-Waystage, Threshold,

Vantage所列子題約86個,以及The European Benchmarking

Chinese Language Project Team Presents * Can-do at Levels A1-

A2+ 所列子題約112個,比對結果如子題對照表Excel檔。

四、綜合上述,本計畫詞語分級之子題分類需涵蓋幾項子題,請

Page 129: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

124

提供建議。

決議:繼續整合《華語教學基礎詞庫1.0版》、〈國民中小學九年一

貫課程綱要語文學習領域〉英語科課程、CEFR-Waystage、

Threshold、Vantage,及 EBCL (The European Benchmarking

Chinese Language Project Team Presents * Can-do at Levels A1-

A2+) 各文獻所列之情境子題,並取其情境子題聯集,作為下

次會議討論。

【案由二】有關訂定詞語初級內容,詳如說明,提請討論。

說明:

一、依據104年9月8日曹逢甫教授建議初等詞表先比對四個詞表,

包括:

1. 《華語教學基礎詞庫1.0版》2,080詞。

2. 〈國民中小學九年一貫課程綱要語文學習領域〉的英語科

課程常用2,000詞。

3. 《新版實用視聽華語》一、二冊各課之詞語與其衍生詞。

4. 〈華語八千詞〉之前2,000詞。

二、承上,分析結果如詞語比對Excel檔。

三、綜合上述,本計畫初級詞語內容研擬,請提供建議。

決議:

一、將《新版實用視聽華語》第三冊詞語及其衍生詞加入比較詞

表。

二、同一個詞彙,倘有不同的詞類標記,如:「運動」具動詞及

名詞標記,兩種詞類均應納入詞表比較。各詞表詞彙收錄,均

依此原則處理。

三、〈華語八千詞〉八大詞類(名詞、動作動詞、狀態動詞、副

詞、連接詞、介詞、量詞、其他類)加入定詞、助詞,共十類,

作為本案詞類標記。

四、再次比對《華語教學基礎詞庫1.0版》、〈國民中小學九年一

貫課程綱要語文學習領域〉英語科課程、《新版實用視聽華語》

一、二、三冊,以及〈華語八千詞〉前2,000詞,取上述詞表

之詞語聯集及交集。

肆、臨時動議:無

伍、散會:中午12時40分

Page 130: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

125

(十九)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(詞語組)104年第四次會議

會議紀錄

時間:104年11月5日(星期四)上午9時30分

地點:本院臺北院區 6樓603會議室

主持人:曹逢甫教授

記錄:李詩敏、陳鵬妃

出列席單位或人員:

諮詢委員:信世昌教授、謝佳玲教授

共同主持人:張郁雯教授

本院計畫參與人員:林慶隆主任、吳鑑城助理研究員、白明弘助理研究

員、陳鵬妃博士後研究人員、李詩敏專案助理、張

玳維專任助理

請假人員:方麗娜教授、簡盈妮專案助理

壹、主席致詞:(略)

貳、報告事項/簡報:文獻及資料報告。

參、討論事項:

【案由一】有關詞語情境子題分類,詳如說明,提請討論。

說明:

一、依據104年10月1日分級標準(詞語組)104年第三次會議決議,

詞語組業依相關主題之文獻,持續整理比對:

1. 《華語教學基礎詞庫1.0版》的131個子題

2. 〈國民中小學九年一貫課程綱要語文學習領域〉的英語科

課程的教材內容取材涵蓋的40個子題

3. CEFR-Waystage, Threshold, Vantage所列子題約80個

4. The European Benchmarking Chinese Language Project

Team Presents * Can-do at Levels A1-A2+ 所列子題約110

個。

二、經整合比對各文獻所列之情境子題,並取其聯集,比對結果

如子題對照表Excel檔。

三、綜合上述,本計畫詞語分級之子題分類需涵蓋幾項子題,請

提供建議。

決議:

一、初階詞語分級不宜涵蓋過多子題,建議約50至60個子題為原

Page 131: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

126

則。

二、以〈國民中小學九年一貫課程綱要語文學習領域〉英語科課

程的40個子題為基礎,選各文獻子題聯集數為3以上之子題納

入詞語分級之考量。並逐一檢視聯集數低於3之子題,討論其

納入之必要性。

【案由二】有關訂定詞語初級內容,詳如說明,提請討論。

說明:

一、依據104年10月1日會議決議,將詞性納入詞表比對,故詞類

標記依《華語八千詞》八大詞類,包括名詞、動作動詞、狀態

動詞、副詞、連接詞、介詞、量詞、其他類,另加入定詞、助

詞,共十類,暫作為本案詞類標記。

二、下列為比對詞表來源,取其詞表之詞語聯集及交集:

1. 《華語教學基礎詞庫1.0版》2,080詞

2. 〈國民中小學九年一貫課程綱要語文學習領域〉的英語科

課程常用2,000詞

3. 《新版實用視聽華語》一、二、三冊各課之詞語與其衍生

4. 〈華語八千詞〉入門級、基礎級、進階級2,494詞

三、綜合上述,分析結果如「詞語比對」Excel檔,本計畫初級詞

語內容研擬,請提供建議。

決議:

一、10月16日語料庫組語料標注第一次會議決議之「八大詞類」

(名詞、動詞、副詞、連詞、介詞、量詞、助詞、限定詞),

惟本案詞語之詞類標注暫以「九大詞類」(「八大詞類」加「其

他類」)標注,《新版實用視聽華語》部分詞語,例如,定式

或短語「對不起」或「再見」,無法以八大詞類標注者,暫標

注為「其他類」。已詞彙化之定式及短語,是否列為詞語,仍

待討論。

二、承上,詞語篩選整併仍應考量構詞;例如:「電視機」、「收

音機」此類由「機」組成之詞語,或「桌」、「桌子」,是否

都應收錄,需待本組整併原則訂定後,再行刪減詞語數量。

三、分析本計畫應用語料庫之詞彙涵蓋率可覆蓋其他資料(包括:

全級教材、國語日報(99~103年)、中國時報(88~103年))

之百分比,並統計全級教材之詞彙涵蓋率可覆蓋其他資料(包

括:應用語料庫、國語日報(99~103年)、中國時報(88~103

年))之百分比;以上統計分析數據可作為未來詞語分級參考

之依據。

Page 132: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

127

肆、臨時動議:有關104年詞語組工作目標,詳如說明,提請討論。

說明:

一、詞語組相關之104年KPI為:建置各級詞彙8,000個。

二、建議執行草案如下:以華測會於104年10月6日公布於官方網

站之7,979個詞語為基礎,參考本計畫之應用語料庫(包含華

語文教材資料)詞語頻率及覆蓋率,以增刪華測會詞語,並參

酌情境子題之主題聯想詞語進行調校。

決議:

一、若以詞頻統計排序詞語,則將會忽視詞語構詞成分之影響性,

亦容易造成同一情境之詞語或相關詞語分布在不同等級中,

導致學習主題分散,故本組詞語分級不應以詞頻統計為單一

分級依據。

二、承上,考量以詞頻統計為詞語分級有其缺失,故應先行整理

詞語收錄原則之相關文獻(例如:大學入學考試中心《高中英

文參考詞彙表》之編輯方法及原則),考量詞首、詞尾構詞及

複合詞成分,訂定本計畫詞語整併原則。

三、暫選用本計畫之應用語料庫詞彙涵蓋率百分之九十,共計

16,077個詞語為基礎,爾後根據詞語整併原則縮減詞語,並參

考情境調整詞語之排序,進行人工調校,依此訂出本計畫之觀

念詞彙。

伍、散會:13時30分

Page 133: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

128

(二十)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(語法組)104年第二次會議

會議紀錄

時間:104年9月21日(星期一)上午10時

地點:本院臺北院區 6樓603會議室

主持人:柯院長華葳

記錄:張玳維、陳鵬妃

出列席單位或人員:

諮詢委員:鄧教授守信、蘇教授以文

本院計畫參與人員:林主任慶隆、吳助理研究員鑑城、陳博士後研究人員

鵬妃、李專案助理詩敏、張專任助理玳維

請假人員:戴教授浩一、張副研究員莉萍、簡專案助理盈妮

壹、主席致詞:略

貳、討論事項:

【案由一】有關華語文教材語法統整方式,詳如說明,提請討論。

說明:

一、依據104年8月6日分級標準(漢字組、詞語組、語法組)104

年第一次會議決議,初步決定統整《新實用視聽華語》、《遠

東生活華語》、《當代中文課程》、《中文聽說讀寫》等教材

涵蓋之語法,將其建置為電子檔案。

二、本計畫目前完成建檔之華語文教材語法,包括《新實用視聽

華語》5冊、《遠東生活華語》3冊、《當代中文課程》1冊、

《中文聽說讀寫》2冊、《新實用漢語課本》5冊,共5套16冊

教材,語法點總計1,468點,內容如下:

1. 《新實用視聽華語》5冊,共510點。

2. 《遠東生活華語》3冊,共309點。

3. 《當代中文課程》1冊,共79點。

4. 《中文聽說讀寫》2冊,共261點。

5. 《新實用漢語課本》5冊,共309點。

三、綜合上述,本計畫華語文教材語法統整內容,詳如「華語文

教材語法庫」,請提供建議。

決議:

一、在「華語文教材語法庫」建置方面,暫選用以中文為母語區

Page 134: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

129

之華語文教材,臺灣為《新實用視聽華語》及《當代中文課

程》;大陸則為《新實用漢語課本》及《漢語教程》。

二、在語法點整理方面,以鄧守信《對外漢語教學語法》中「結

構(語型類、功能類、語序類、句型類、特定類)」、「語義

(同類詞、近義詞、反義詞)」、「話義(語氣詞、副詞、定

式)」三個方面共十一個分類作為初步語法點分類依據。

【案由二】有關訂定語法分級,詳如說明,提請討論。

說明:

一、依據104年8月6日分級標準(漢字組、詞語組、語法組)104

年第一次會議決議,漢字組將漢字暫定為8級,包括Pre-A1、

A1、A2、B1、B2、C1、C2、C2+,詞語組暫定4級,語法組尚

未決定分級之級數。

二、《漢語水平等級標準和語法等級大綱》訂定甲、乙、丙、丁

4級的語法分級,共252項、916點。甲級(129項)、乙級(123

項)、丙級(400點)、丁級(516點)。

三、綜合上述,本計畫語法分級之級數訂定,請提供建議。

決議:暫不分級,待分類草擬後再行討論。

參、臨時動議:無。

肆、散會:12時00分。

Page 135: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

130

(二十一)華語文八年計畫「建置應用語料庫及標準體系」

分級標準(語法組)104年第三次會議

會議紀錄

時間:104年11月2日(星期一)上午10時

地點:本院臺北院區 6樓605會議室

主持人:柯院長華葳

記錄:張玳維、陳鵬妃

出列席單位或人員:

諮詢委員:鄧教授守信、戴教授浩一、張副研究員莉萍

本院計畫參與人員:林主任慶隆、吳助理研究員鑑城、白助理研究員明

弘、陳博士後研究人員鵬妃、李專案助理詩敏、張專

任助理玳維

請假人員:蘇教授以文、簡專案助理盈妮

壹、主席致詞:略

貳、討論事項:

【案由一】有關語法點分類,詳如說明,提請討論。

說明:

一、依據104年9月21日分級標準(語法組)104年第二次會議決議,

語法點分類以鄧守信《對外漢語教學語法》中「結構(語型類、

功能類、語序類、句型類、特定類)」、「語義(同類詞、近

義詞、反義詞)」、「話義(語氣詞、副詞、定式)」三個方

面共十一個分類作為初步語法點分類依據。

二、另暫選用《新實用視聽華語》、《當代中文課程》、《新實

用漢語課本》、《漢語教程》為本計畫華語文教材語法點分類

之用。目前暫完成《當代中文課程 1》語法點分類。

三、依據104年10月16日語料庫組語料標注第一次會議決議,詞

性標注暫分為八大詞類,包括名詞、動詞、副詞、連詞、介詞、

量詞、助詞、限定詞。

四、綜合上述,本計畫語法點分類內容,請提供建議。

決議:

1. 將「華語文教材語法庫」改成「華語文教材語法資料」。

2. 關於上述說明第三點,加入出處來源《當代中文課程》,改

為「詞性標注依據《當代中文課程》,暫分為八大詞類,包

Page 136: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

131

括名詞、動詞、副詞、連詞、介詞、量詞、助詞、限定

詞。」

3. 關於語法點分類內容,目前以鄧守信《對外漢語教學語法》

「結構(語型類、功能類、語序類、句型類、特定類)」、

「語義(同類詞、近義詞、反義詞)」、「話義(語氣詞、

副詞、定式)」作為本計畫語法點分類方式,關於語法點次

類及描述問題將先召開讀書會研討,爾後再另行討論。

4. 關於「讀書會」推薦書單,暫列如下:

(1) 趙元任(1967),《A Grammar of Spoken Chinese》,

美國:加州大學出版社(絕版)。

(2) Li & Thompson(1981),《Mandarin Chinese:A

Functional Reference Grammar》,臺北:文鶴出版有限

公司。

(3) Randolph Quirk and Sidney Greenbaum(1985),《A

Comprehensive Grammar of the English

Language》, New York : Longman。

(4) 張斌(2010),《現代漢語描寫語法》,北京:商務印

書館。

【案由二】有關語法分級於105年計畫工作目標,詳如說明,提請討

論。

說明:

一、依據本計畫104年計畫工作目標之關鍵績效指標(KPI),語

法分級標準須完成語法點分級之依據及範例之建置。目前已

完成語法點分類之依據。

二、依據本計畫於105年計畫工作目標規劃在標準體系方面:

1. 運用「應用語料庫」和「華語文教材資料庫」完成華語文

教材中篇章、語法、詞彙、漢字之分級標準,並進行專家

人工調整,進行問卷施測,完成分級檢索系統及內部測試。

2. 確認華語文聽、說、讀、寫、譯各級能力指標內涵能否搭

配分級標準組華語文教材中篇章、語法、詞彙、漢字之分

級標準。

三、綜合上述,本計畫105年語法分級標準工作目標,請提供建議。

決議:待華語文八年計畫團隊先行草擬後,再寄陳各位師長檢閱。

參、臨時動議:無。

肆、散會:12時00分。

Page 137: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

132

附錄五 「2015 華語文語料庫應用工作坊」議程表

日期:104 年 9 月 25 日(星期五)

地點:國家教育研究院臺北院區

時間 地點 議 程 內 容

08:30-09:00

10 樓

國際會議廳

10 樓

國際會議廳

與會人員報到

09:00-10:30

開幕式

主持人:曾世杰副院長(國家教育研究院)

Keynote Speech

題 目:Can Natural Language Processing Become

Natural Language Coaching ?

主持人:國立清華大學資訊工程學系 張俊盛教授

演講人:美國柏克萊加州大學 Marti Hearst 教授

10:30-10:50 茶 敘(地點:11 樓大禮堂)

10:50-11:40

華語文八年計畫「建置華語文語料庫及標準體系」計畫介紹

林慶隆主任、高照明副教授、陳浩然教授、張俊盛教授

(依姓氏筆劃排序)

11:40-12:30

專題演講

題 目:LIVAC 泛華語區共時語料庫:構建和應用

主持人:國立清華大學語言學所榮譽退休教授 曹逢甫教授

演講人:香港城市大學終身榮休講座教授 鄒嘉彥教授

12:30-13:30 11 樓大禮堂 午 餐

13:30-14:20

10 樓

國際會議廳

專題演講

題 目:政治大學國語口語語料庫:發展與應用

主持人:國立臺灣師範大學英語系 陳浩然教授

演講人:國立政治大學英國語文學系 徐嘉慧教授

14:20-15:30

專題演講

題 目:

1.華語為母語及第二語之口語語料之轉寫與應用

2.學習者語料庫的偏誤標記與應用

3.學習者寫作語料庫之應用:中文句法錯誤辨識規則的自動產

主持人:國立臺灣大學外國語文學系 高照明副教授

Page 138: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

133

10 樓

國際會議廳

演講人:1.國立高雄師範大學華語文教學研究所 王萸芳教授

2.國立臺灣師範大學國語教學中心 張莉萍副主任

3.國立高雄應用科技大學資訊工程系 張道行助理教授

(依姓氏筆劃排序)

15:30-15:45 休 息

15:45-17:00

論壇:『華語文語料庫於研究與實務應用論壇』

主持人:國家教育研究院編譯發展中心 林慶隆主任

與談人:

IQ Chinese 華語課程推廣 李亭主任

陸鋒科技有限公司 曾銍淅總經理

五南圖書出版有限公司 黃文瓊副總編輯

國立臺灣大學外國語文學系 高照明副教授

國立臺灣師範大學英語系 陳浩然教授

國立清華大學資訊工程學系 張俊盛教授

(依姓氏筆劃排序)

閉幕式

主持人:柯華葳院長(國家教育研究院)

Page 139: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

134

附錄六 運用華語文語料庫計算「漢字」統計參數範本

Page 140: 104 年工作淉畫【期末報告】 - naer.edu.t · 料12 瑭字;5) 完成中文猛系統 API(Application Programming Interface, 禑用 犼式面); 6) 完成建置口癨檢漲系統笒形;7)

135

附錄七 運用華語文語料庫計算「詞語」統計參數範本