23
R95944030 吳吳吳 吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳吳

《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

  • Upload
    shiro

  • View
    81

  • Download
    2

Embed Size (px)

DESCRIPTION

《 漢語文本短語結構的人工標注 》 語料庫的加工與應用. R95944030 吳育奇. Outline. 前言 語料的加工 分詞與詞性標注 短語標注 語料的應用 結論. 前言. 研究定位:從計算機自動詞法分析走向自動句法分析的過渡點 自動詞法  自動句法 利用詞法成果 提供自動句法基礎 如何實現語言的計算機自動理解 漢語自動理解:分詞、詞性標注、短語標注、句法分析、語義理解等. 前言. 遇到的問題 錯誤率:分析系統缺少足夠的知識庫 把人對自然語言句法分析用型式符號標注 對 100 萬字的語料庫進行加工 : 分詞及詞性標注 - PowerPoint PPT Presentation

Citation preview

Page 1: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

R95944030吳育奇

《漢語文本短語結構的人工標注》語料庫的加工與應用

Page 2: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

Outline 前言語料的加工

分詞與詞性標注短語標注

語料的應用結論

Page 3: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

前言研究定位:從計算機自動詞法分析走向自動句法分

析的過渡點自動詞法 自動句法 利用詞法成果 提供自動句

法基礎如何實現語言的計算機自動理解漢語自動理解:分詞、詞性標注、短語標注、句法

分析、語義理解等

Page 4: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

前言遇到的問題

錯誤率:分析系統缺少足夠的知識庫把人對自然語言句法分析用型式符號標注 對 100 萬字的語料庫進行加工:

分詞及詞性標注用已有的做些加工及修改

標注短語結構人工標注

Page 5: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工分詞及詞性標注

對純文本語料進行分詞及詞性標注切分單位

詞定義有些模糊不清的地方偏正結構 ( 雞蛋、鴨蛋 )動賓結構 ( 打球、理髮、出丑 )動補結構 ( 證明、看見、放大 )

基本上參考採用“北大加工規範”

Page 6: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工詞性標記

現有詞性標注集27 大類有些分類細有些分類粗

Page 7: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工自定標注集

標注細一點,因 沒詞典做支撐適當吸收現代漢 語研究結果來做 分類

Page 8: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工23 個大類,用英文字母表示,有 11 個大類下面

有小類,有一個小類下面有小小類 ex ︰ n 名詞 nr 人名 nrx 姓 nrm 名可以查得粗,也可查得細,視研究的需要, ex ︰

配合《現代漢語語法信息詞典》來做模糊找查一共有 86 個標記符號

Page 9: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工 與”北大加工規範”不同之處︰

1. 時間詞 (nt) 、處所詞 (ns) 放在名詞大類下面,如果要單一查某類,可用小類標記符號查尋

2. 區別詞 (ab) 放在形容詞大類中3. 五種語素標記法,顛倒字母次序,方便找查 Ng Vg Ag Dg Tg gN gV gA gD gT 4. 去掉名動詞 vn 、名形詞 an 、副動詞 vd 、副形

詞 ad5. 在 10 個大類中設立了 10 個其他的小類,記做

~g

Page 10: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工切分標注具體說明加標注符號 : “ / ”對”北大加工規範” 及”分詞規範”做些調整分詞規範

加名詞性分詞單位應為分單位:非金屬、超聲波非 超 為區別詞 非 /ab 金屬 /ng 超 /ab 聲波 /ng

漢語數位詞分別為分詞單位五千三百零二 五 /mx 千 /mw 三 /mx 百 /mw 零 /um

二 /mx 經常使用副詞作用的詞組為分詞單位

不得不 不 /dn 得 /vu 不 /dn

Page 11: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工對”北大加工規範”做的介紹及調整

人名: nr 姓與名都分開 nrx nrm不易或不知道姓與名就記作 nr王 /nr 建民 /nr 王 /nrx 建民 /nrm大衛‧歐提茲 /nr 大衛 /nrm‧/w 歐提茲 /nrx

地名: nd 長的國名要考慮切割中華人民共和國 /nd ﹛ 中華 /ab 人民 /ng

共和國 /ng﹜nd只有在行政區名稱是單音節且前面成分也是單音節為一切分

單位: { 台北 /nd 市 /n}nd 台州 /nd 長江 /nd etc

Page 12: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工對”北大加工規範”做的介紹及調整

團體組織 : nj “外交部” “國務院”為普通名詞外交部 /ng [美國 /nd 國務院 /ng ] nj

其他專有名詞 : nz 只有當前面是單音節且兩者緊密結合才不切 滿人 /nz 漢人 /nz

數詞量詞 : 1 阿拉伯數字不切分 123.4/m 2 基數序數應切分 3 零不是一般係數詞 有點像助詞 : um 4 ”左右“”成千”為概數詞 ma 5 ” 一些”應該需再切分 否則會被誤

Page 13: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工對”北大加工規範”做的介紹及調整

動詞加動詞或動詞加形容詞構成的述補結構“ v + 得 /不 + x” 應統一加以切分 : 來不及 /v 來 /v

不 /d 及 /v有些成語或慣用語結構不那麼緊密也應有切分 AAB重疊型 : 為一切分單位

雙音節離合動詞的 AAB洗洗澡 /v 揮揮手 /v

單音節動詞的重疊式加“看”試試看 /v 唸唸看 /v

Page 14: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工短語標注前人的短語標注與樹庫建立

Lancaster-LeedsPenn

英語樹庫加工目的提供一些具體服務 (翻譯 檢索 索引等 )

方法及特點人機互助 ( 人注 -機注 -人校 ) 朝機器自動化發展

Page 15: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工現有漢語短語句法標

記集描述兼顧了準短語組合、

句子及句子類型包含了詞短語句子句群之間絕大多數單位

Page 16: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工漢語短語結構三個要解決的問題

現代漢語短語的界定問題結構層次和結構關係的識別問題排歧問題

漢語詞組基本結構類型 主謂結構 : 樹枝黃了述賓結構 : 喝了三杯酒定中結構 : 大紅燈籠狀中結構 : 快跑 明天見等等等

Page 17: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工標注出短語的結構層

次、關係、功能短語標記 (樹庫加工第一階段 ):

EX:主謂短語 結構標記 :zw

功能標記 :jp[zw 紅軍 /ng [ db 撤出 /vs 台北 /nd ]

vp ] jp

Page 18: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工句子標記 (樹庫加工第二階段 ):

Ex: 單句 功能標記 :dj[zv [zw 他 [db 是 學生 ] vp ] jp 嗎 ? ] dj

一般句子不用 只有再遇到一些複雜的句子才使用

Page 19: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的加工特殊標記 :

易位成分標記 : 先對易位成分做短語標記 “ {i}” ,”{} i”他終於來了 , 匆匆地[zv [zw 他 [zz 終於 [zz {i} [sb 來了 ] vp ] vp ] vp ] jp,{ [zc 匆匆地

] dp } i.] dj省略成分標記 : “{o}” “{ } o”稀不稀奇 [lh 稀 {o} [zz 不 稀 { 奇 } o ] ap ]ap強調成分標記 : “q” “{ } q”我是昨天到的台北[zv [zw 我 { 是 }q [zz 昨天 [db 到 { 的 } q 台北 ] vp ] vp ] jp . ] dj

Page 20: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的應用短語定界研究“ 名詞 + 動詞”

從上海來到了北京 : 上海來到[zz [jc 從 /pf 上海 /nd ] pp [db 來到 /vz 了 /ut 北京 /nd ]

vp ] vp 。 /w慘無人道的精神折磨 : 精神折磨[dz 慘無人道 /i 的 /us [dz 精神 /ng 折磨 /vs] np ] np因為”上海來到”中間有“ ]pp” 和“ [ db ”顯然不同一個結

構中“精神折磨”中間沒這樣的標記 所以為同一結構

Page 21: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的應用句法結構關係研究

我的主意已經拿定[dz [zc 我 /rp 的 /us ] np 主意 /ng ] np [ zz 已經 /dt 拿

定 /vs ] vp 。 /w可集中精力某些關鍵的結構關係 如上例是 定中 + 狀中

句法結構功能研究跟上例一樣可做結構功能的分析研究找出某特定結構功能句子

Page 22: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

語料的應用可用數據庫的方式讓研究更方便紀錄結構關係 功能類型 及前後項等[ fw [ zw 消息 /ng 發布 /vs ]jp 後 /f ] tp

Page 23: 《 漢語文本短語結構的人工標注 》 語料庫的加工與應用

結論《漢語文本短語結構的人工標注》語料庫的加

工是進行信息處理奠定基礎的工作語料庫本身需要對漢語知識有較全面的把握所以才有研究加工的工作,加工完成後才能進入更全面深入的研究