210
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN MAI VŨ NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2018

Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN

VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2018

Page 2: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN

VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin

Mã số: 62.48.05.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS.TS. Hà Quang Thụy

2. PGS.TS. Nguyễn Lê Minh

Hà Nội – 2018

Page 3: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được

viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi

đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được

công bố trong các công trình nào khác.

Tác giả

Trần Mai Vũ

1

Page 4: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

LỜI CẢM ƠN

Luận án được thực hiện tại Bộ môn Hệ thống thông tin - Khoa Công nghệ

thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, dưới sự hướng

dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Nguyễn Lê Minh.

Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS. Hà Quang

Thụy và PGS.TS. Nguyễn Lê Minh, những người đã đưa tôi đến với lĩnh vực

nghiên cứu này. Các thầy đã tận tình giảng dạy, hướng dẫn giúp tôi tiếp cận và đạt

được thành công trong công việc nghiên cứu của mình. Các thầy đã luôn tận tâm

động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành được bản luận án này.

Tôi xin bày tỏ lòng biết ơn tới các Thầy Cô thuộc Khoa Công nghệ thông tin

và cán bộ Phòng Đào tạo - Trường Đại học Công nghệ, đã tạo mọi điều kiện thuận

lợi giúp đỡ tôi trong quá trình học tập và nghiên cứu tại trường.

Tôi xin cảm ơn PGS. TS. Nigel Collier và cộng sự đã đóng góp ý kiến quý báu

giúp tôi hoàn thiện bản luận án.

Sự động viên, cổ vũ của bạn bè là nguồn động lực quan trọng để tôi hoàn

thành luận án. Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, vợ và các con tôi đã

tạo điểm tựa vững chắc cho tôi có được thành công như ngày hôm nay.

Tác giả

Trần Mai Vũ

2

Page 5: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT 7

DANH MỤC CÁC BẢNG 8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10

MỞ ĐẦU 11

Lý do chọn đề tài 11

Mục tiêu cụ thể và phạm vi nghiên cứu của luận án 12

Cấu trúc của luận án 15

Chương 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ 17

1.1. Một số khái niệm cơ bản 17

1.1.1. Định nghĩa bài toán nhận dạng thực thể 17

1.1.2. Thách thức 19

1.1.3. Độ đo đánh giá 19

1.1.4. Ứng dụng của nhận dạng thực thể 21

1.2. Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toán 22

1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu

liên quan 24

1.3.1. Những thách thức đối với xử lý dữ liệu tiếng Việt 24

1.3.2. Động cơ nghiên cứu 26

1.3.3. Các nghiên cứu liên quan 26

1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số

nghiên cứu liên quan 28

1.4.1. Những thách thức đối với xử lý dữ liệu y sinh 28

1.4.2. Động cơ nghiên cứu 29

1.4.3. Các nghiên cứu liên quan 30

3

Page 6: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

1.5. Tổng kết chương 34

Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN

DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN

TIẾNG VIỆT 35

2.1. Giới thiệu 35

2.2. Các nghiên cứu liên quan 37

2.2.1. Các nghiên cứu liên quan trên thế giới 37

2.2.2. Các nghiên cứu liên quan ở Việt Nam 38

2.3. Một mô hình giải quyết bài toán nhận dạng thực thể tên người kết hợp với

nhận dạng thuộc tính thực thể 39

2.3.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS) 39

2.3.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF) 40

2.3.3. Mô hình đề xuất 41

2.3.4. Tập đặc trưng 45

2.4. Thực nghiệm, kết quả và đánh giá 46

2.4.1. Công cụ và dữ liệu đánh giá 46

2.4.2. Kết quả thực nghiệm đánh giá trên toàn hệ thống 47

2.4.3. Kết quả thực nghiệm đánh giá trên từng nhãn 49

2.5. Mô hình áp dụng vào hệ thống hỏi đáp tên người tiếng Việt 51

2.5.1. Khái quát bài toán 51

2.5.2. Đặc trưng câu hỏi liên quan đến thực thể tên người trong tiếng Việt 52

2.5.3. Mô hình đề xuất 54

2.5.4. Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động 59

2.5.6. Thực nghiệm và đánh giá 60

2.6. Tổng kết chương 62

Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH

TIẾNG ANH 64

3.1. Giới thiệu 64

3.1.1. Động cơ và khái quát bài toán nhận dạng thực thể biểu hiện 64

4

Page 7: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

3.1.2. Một số khái niệm cơ bản liên quan đến thực thể biểu hiện và một số

thực thể liên quan 67

3.1.3. Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh 71

3.2. Mô hình nhận dạng thực thể biểu hiện và một số thực thể liên quan 73

3.2.1. Cơ sở lý thuyết 73

3.2.2. Dữ liệu đánh giá và tài nguyên hỗ trợ 75

3.2.3. Mô hình đề xuất 80

3.2.4. Tập đặc trưng và đánh giá đặc trưng 81

3.2.5. Phương pháp đánh giá 85

3.3. Thực nghiệm 86

3.3.1. Thực nghiệm 1: đánh giá hiệu quả của mô hình đề xuất với các kỹ

thuật học máy khác nhau 86

3.3.2. Thực nghiệm 2: so sánh kết quả của mô hình đề xuất với một số

nghiên cứu liên quan 87

3.3.3. Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết

quả nhận diện thực thể 90

3.3.4. Thực nghiệm 4: ứng dụng mô hình đề xuất để nhận dạng thực thể y

sinh trong cuộc thi BioCreAtIvE V CDR Task 92

3.4. Thích nghi miền dữ liệu trong nhận dạng thực thể y sinh 94

3.4.1. Thực nghiệm 94

3.4.2. Kết quả và đánh giá 96

3.5. Tổng kết chương 98

Chương 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ

Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG

100

4.1. Mô hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên quan

100

4.2. Các phương pháp lai ghép được đề xuất 102

4.2.1 Phương pháp lai ghép sử dụng luật 102

5

Page 8: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi 105

4.2.3 Phương pháp lai ghép sử dụng học xếp hạng 106

4.3. Thực nghiệm và đánh giá kết quả 108

4.3.1. Phương pháp đánh giá 108

4.3.2 Thực nghiệm đánh giá hiệu quả của từng phương pháp lai ghép 109

4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của

các tài nguyên 111

4.3.4 Thảo luận và phân tích lỗi 112

4.4. Kết luận chương 115

KẾT LUẬN 116

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN

LUẬN ÁN 118

TÀI LIỆU THAM KHẢO 119

6

Page 9: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT

Kí hiệu Tiếng Anh Tiếng Việt

NER Named Entity Recognition Nhận dạng thực thể định danh

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

BioNLP Biomedical Natural Language Processing

Xử lý ngôn ngữ tự nhiên cho dữ liệu y sinh

IE Information Extraction Trích xuất thông tin

CRF Conditional Random Fields Trường ngẫu nhiên có điều kiện

SVM Support Vector Machine Máy véctơ hỗ trợ

SVM-LTR SVM-Learn to rank Học xếp hạng máy véctơ hỗ trợ

ME Model, Maxent Model

Maximum Entropy Model Mô hình Entropy cực đại

MEM+BS Maximum Entropy Model with Beam Search

Mô hình Entropy cực đại với giải mã tìm kiếm chùm

7

Page 10: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

DANH MỤC CÁC BẢNG

Bảng 2.1. Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan 36

Bảng 2.2. Các nhãn được sử dụng trong mô hình 42

Bảng 2.3. Tập đặc trưng được sử dụng 45

Bảng 2.4. Thống kê thực thể trong tập dữ liệu được gán nhãn 46

Bảng 2.5. Kết quả đánh giá toàn hệ thống trên hai mô hình với hai phương pháp

MEM+BS và CRF 48

Bảng 2.6. Kết quả thực nghiệm đối với từng nhãn 49

Bảng 2.7. Ví dụ về một số thành phần câu hỏi 55

Bảng 2.8. Các thành phần xuất hiện trong câu hỏi về thực thể tên người 55

Bảng 2.9. Ví dụ gán nhãn tổng quát cho câu hỏi về thực thể tên người tiếng Việt 56

Bảng 2.10. Thống kê trên tập dữ liệu câu hỏi đánh giá 59

Bảng 2.11. Kết quả đánh giá thành phần phân tích câu hỏi 60

Bảng 2.12. Kết quả đánh giá của hệ thống trả lời tự động 62

Bảng 3.1. Danh sách các bệnh tự miễn dịch được sử dụng để xây dựng dữ liệu

Phenominer A 76

Bảng 3.2. Các đặc điểm của dữ liệu Phenominer A về bệnh tự miễn dịch và

Phenominer B về bệnh tim mạch 78

Bảng 3.3. Các đặc trưng sử dụng trong thực nghiệm 82

Bảng 3.4. Thực nghiệm so sánh các phương pháp học máy khác nhau 87

Bảng 3.5. Thực nghiệm so sánh mô hình đề xuất và các hệ thống khác 89

Bảng 3.6. Kết quả đánh giá tài nguyên của mô hình nhận dạng thực thể 91

Bảng 3.7. Thống kê trên ba tập dữ liệu của nhiệm vụ CDR [WPL15] 93

Bảng 3.8. Kết quả mô hình nhận dạng trên tập dữ liệu kiểm thử 93

Bảng 3.9. Kết quả F1 của hệ thống NER sử dụng phương pháp thực nghiệm 1-6. 96

Bảng 4.1. Các đặc trưng được MEM + BS sử dụng để quyết định kết quả 106

Bảng 4.2. Kết quả của mô hình trên tập dữ liệu Phenominer A khi sử dụng các

phương pháp khác nhau để lai ghép kết quả 109

8

Page 11: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Bảng 4.3. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng

xấp xỉ ngẫu nhiên đối với các thực nghiệm loại bỏ lần lượt từng tài

nguyên. 110

Bảng 4.4. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng

xấp xỉ ngẫu nhiên đối với các thực nghiệm 111

Bảng 4.5. Các lỗi của mô đun quyết định kết quả sử dụng danh sách ưu tiên (PL) và

học xếp hạng sử dụng SVM (LTR) 113

9

Page 12: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 0.1. Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity

recognition” trên Springer từ 2002 - tháng 11/2017 11

Hình 0.2. Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương ứng

với các chương của luận án 16

Hình 1.1. Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1 20

Hình 1.2. Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y sinh trong giai

đoạn 2002-2014 [HL15] 31

Hình 2.1. Đồ thị vô hướng mô tả CRF 40

Hình 2.2. Một ví dụ về câu được gán nhãn 43

Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên người 44

Hình 3.1. Biểu diễn của biểu hiện trong văn bản tường thuật và các thuật ngữ trước

và sau biên soạn. 65

Hình 3.2. Ví dụ chứa các thực thể biểu hiện, gen, bệnh và mối quan hệ giữa chúng

66

Hình 3.3. Lược đồ ngữ nghĩa của các loại thực thể nhận dạng trong luận án 71

Hình 3.4. Mô hình nhận dạng thực thể biểu hiện của Khordad và cộng sự [KMR11]

74

Hình 3.5. Mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan 79

Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh 100

Hình 4.2. Một ví dụ gán nhãn các đặc trưng dựa trên tài nguyên trong câu 102

Hình 4.3. Mô hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả 104

Hình 4.4. Nhập nhằng và không nhập nhằng 104

Hình 4.5. Mô hình hệ thống sử dụng MEM + BS để quyết định kết quả 105

Hình 4.6. Mô hình hệ thống sử dụng SVM-LTR để quyết định kết quả 107

10

Page 13: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

MỞ ĐẦU

Lý do chọn đề tài

Nhận dạng thực thể có tên (Named entity recognition: NER; còn được gọi là “nhận dạng thực thể định danh”) là một bài toán chính thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá dữ liệu văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa. Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet, bài toán này cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây.

2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 20170

50100150200250300350400450

24 3061

136160 145

182 187217

243268

340 356382 382

357

Named Entity Recognition

Năm

Số c

ông

trìn

h xu

ất b

ản

Hình 0.1. Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity

recognition” trên Springer từ 2002 - tháng 11/2017

Kết quả trả lời của trang web tìm kiếm của Springer với truy vấn “Named entity recognition” theo cách chính xác cụm từ (“with the exact phrase”) 1 cho thấy từ năm 2002 đến nay có trên 3500 công trình liên quan, với trên 1800 công trình công bố trong 5 năm gần đây từ 2013 đến 2017 (khoảng 350 công trình/năm) như chỉ ra ở Hình 0.1. Không chỉ nhiều về số lượng, các nghiên cứu về NER cũng xuất hiện thường xuyên tại các hội nghị thường niên hàng đầu về NLP như ACL, EMNLP, NAACL,… hay các tạp chí danh tiếng có chỉ số IF (impact factor) cao như PLOS ONE, Bioinformatics, TKDE, TACL,…1 https://link.springer.com/search?query=%22%E2%80%9CNamed+entity+recognition%E2%80%9D%22&date-facet-mode=between&facet-start-year=1998&showAll=true#

11

Page 14: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thông thường trong văn bản tiếng Anh tuy nhiên những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định nghĩa hình thức về kiểu thực thể cần nhận dạng… Luận án này tiếp nối những nghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần tiếp theo.

Mục tiêu cụ thể và phạm vi nghiên cứu của luận án

Như đã nêu trong lý do chọn đề tài, luận án tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh.

Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên.

Nhìn chung, bài toán nhận dạng thực thể đã được quan tâm nghiên cứu và đạt được một số kết quả nhất định, tuy nhiên các kết quả này hầu hết chỉ xử lý cho các thực thể thông thường trong văn bản tiếng Anh. Trong khi đấy, nhận dạng thực thể với miền dữ liệu văn bản thông thường tiếng Việt và văn bản y sinh vẫn còn nhiều vấn đề lớn đặt ra như không có một tập dữ liệu chuẩn cùng những mô tả rõ ràng về khái niệm liên quan đến các thực thể hay các tài nguyên công cụ phục vụ cho việc nhận dang. Nhìn nhận được các hạn chế này, luận án tập trung vào giải quyết hai bài toán nói trên trong phạm vi dữ liệu có tính chất đặc thù hơn, cụ thể là:

Giải quyết bài toán nhận dạng thực thể cho dữ liệu văn bản tiếng Việt .

Nghiên cứu sinh đi sâu vào việc tìm hiểu những thành quả nghiên cứu tiên

tiến về nhận dạng thực thể với mong muốn áp dụng và đề xuất các cải tiến

mới nhằm áp dụng và cải thiện hiệu quả cho quá trình nhận dạng thực thể

trong văn bản tiếng Việt. Bên cạnh đấy, luận án tìm hiểu một trong những

hướng ứng dụng điển hình của các mô hình nhận dạng thực thể tiếng Việt, cụ

thể ở đây là bài toán hỏi đáp tự động cho tiếng Việt.

12

Page 15: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Giải quyết bài toán nhận dạng thực thể cho dữ liệu y sinh (tiếng Anh).

Số lượng dữ liệu y sinh dưới dạng điện tử đang tăng với tốc độ cao tạo nên

tiềm năng lớn phục vụ cho một loạt các ứng dụng xã hội, đặc biệt là y tế

cộng đồng. Với tiềm năng nói trên và tính chất phức tạp từ đặc thù chuyên

ngành, khai phá dữ liệu y sinh đang là một thách thức lớn đối với các nhà

khoa học trên toàn thế giới. Nắm bắt được xu hướng nghiên cứu này, luận án

khảo sát và đề xuất phương án giải quyết bài toán nhận dạng thực thể trong

văn bản y sinh kết hợp nhiều nguồn tài nguyên tri thức cũng như các kỹ thuật

học máy thống kê. Luận án tập trung vào bài toán nhận dạng thực thể biểu

hiện (phenotype) và các thực thể liên quan như: gene, bệnh, bộ phận cơ thể,

….

Trên cơ sở phân tích công phu các giải pháp tiên tiến trên thế giới, luận án được định hướng vào việc nghiên cứu phát triển các giải pháp hiệu quả tương thích với miền dữ liệu có nhiều đặc trưng đặc biệt và xây dựng thực nghiệm đánh giá. Cụ thể, luận án giải đáp các vấn đề nghiên cứu sau đây:

Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ

liệu tiếng Việt và dữ liệu y sinh tiếng Anh.

Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu tiên tiến trước

đó và tiếp cận giải quyết được những đặc điểm riêng biệt của miền dữ liệu

đang xem xét.

Xây dựng bộ dữ liệu phục vụ cho thực nghiệm.

Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã đề

xuất.

Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan.

Định hướng phát triển nâng cấp nghiên cứu.

Ở Việt Nam, đã có một số luận án tiến sĩ nghiên cứu về các bài toán nhận dạng thực thể trong tiếng Việt. Luận án tiến sĩ của Sam Chanrathany (2013) [SC13] làm về trích xuất thực thể và một số mối quan hệ hai ngôi giữa các thực thể trong tiếng Việt sử dụng phương pháp học bán giám sát. Luận án tiến sĩ của Nguyễn Thanh Hiên (2011) [NTH11] giải quyết vấn đề phân biệt nhập nhằng giữa các thực thể dựa

13

Page 16: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

trên nguồn tri thức từ các ontology miền đóng và miền mở. Cả hai luận án này đã đưa ra được một số cách giải quyết nhận dạng thực thể cùng xử lý nhập nhằng thông qua các thuộc tính có quan hệ đến thực thể. Tuy nhiên tập dữ liệu đánh giá là tương đối nhỏ (1200 câu) chưa thể hiện rõ được hiệu quả mà các phương pháp đem lại.

Luận án khảo sát một số luận án Tiến sỹ trên thế giới liên quan đến chủ đề nhận dạng thực thể gene và thực thể biểu hiện, điển hình là [VA10, KM14]. Vlachos (2010) [VA10] tập trung giải quyết hai bài toán là nhận dạng thực thể các thực thể gene và trích xuất sự kiện tại hội thảo BioNLP, các phương pháp được áp dụng hầu hết dựa trên kỹ thuật nhận dạng bằng luật và một ít kỹ thuật học máy nên các mô hình chưa cho kết quả cao. Khordad (2014) [KM14] đi sâu vào bài toán nhận dạng thực thể biểu hiện và thực thể gene, sau đó dựa vào kết quả nhận dạng để phát hiện các mỗi quan hệ giữa biểu hiện – gene. Luận án này mặc dù đã đề cập đến thực thể biểu hiện tuy nhiên chưa nêu được một định nghĩa rõ ràng về thực thể biểu hiện nên bỏ sót khả nhiều kết quả trong quá trình nhận dạng, bên cạnh đấy, luận án này cũng chỉ quan tâm đến mối quan hệ giữa biểu hiện – gene mà chưa quan tâm đến mối quan hệ giữa biểu hiện và các loại thực thể khác như bệnh, hóa chất, bộ phận cơ thể v.v..

Đối sánh nội dung các công trình nghiên cứu trong và ngoài nước, trong đó có luận án Tiến sỹ, luận án của nghiên cứu sinh có những điểm khác biệt về khía cạnh phương pháp tiếp cận cũng như về khía cạnh dữ liệu. Cụ thể là:

- Đối với bài toán nhận dạng thực thể trong văn bản tiếng Việt, luận án tập

trung vào hai vấn đề đó là kết hợp cùng lúc cả nhận dạng thực thể và nhận

dạng thuộc tính thực thể trong cùng một mô hình và kiểm chứng trên tập

dữ liệu đủ tin cậy (10.000 câu gán nhãn). Hơn nữa, nghiên cứu sinh cũng

áp dụng mô hình đề xuất vào bài toán hỏi đáp tự động để kiểm định hiệu

quả thực tế của mô hình.

- Đối với bài toán nhận dạng thực thể y sinh trong văn bản tiếng Anh, luận

án đưa ra những định nghĩa cụ thể hơn về các khái niệm liên quan đến các

thực thể biểu hiện, xây dựng hai tập dữ liệu đánh giá tin cậy (900 câu gán

nhãn mỗi tập) cũng như các thử nghiệm khách quan với các độ đo chuẩn

cho nhận dạng thực thể y sinh.

14

Page 17: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Luận án là kết quả của việc kết hợp nghiên cứu lý thuyết với nghiên cứu thực

nghiệm, thông qua một quá trình lô-gic từ khảo sát bài toán, nghiên cứu lý thuyết

nền tảng, tiến tới đề xuất giải pháp đối với bài toán, xây dựng thực nghiệm đánh giá

giải pháp được đề xuất, rút ra kết luận và công bố kết quả nghiên cứu.

Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán. Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các hệ thống chạy thực tế.

Luận án trình bày một cách hệ thống các vấn đề liên quan đến bài toán nhận diện thực thể biểu hiện và các thực thể liên quan như: định nghĩa cụ thể về khái niệm thực thể biểu hiện, cách thức gán nhãn dữ liệu, phương pháp đánh giá và kiểm thử hiệu quả hay vấn đề thích nghi miền (domain adaptation) trong miền dữ liệu thực thể biểu hiện. Hơn nữa, luận án cũng đưa ra được một số khung làm việc (framework) cho việc trích xuất sự kiện cho tiếng Việt cũng như sự kiện trong văn bản y sinh tiếng Anh.

Các kết quả nghiên cứu lý thuyết của luận án được công bố trong các ấn phẩm khoa học chuyên ngành có uy tín [CTLA1, CTLA2, CTLA4 - CTLA7] là minh chứng cho ý nghĩa khoa học của luận án.

Về triển khai ứng dụng, luận án đã đề xuất thực thi mô hình hỏi đáp tự động tiếng Việt dựa trên nhận dạng thực thể [CTLA5]. Xây dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ http://phenominer.mml.cam.ac.uk/).

Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nói trên cho thấy luận án có ý nghĩa thực tiễn.

Cấu trúc của luận án

Tiếp nối phần mở đầu này, nội dung chính của luận án được bố cục thành bốn chương và phần kết luận. Chương 1 của luận án trình bày hệ thống các lý thuyết cơ bản về nhận dạng thực thể cũng như khảo sát lịch sử nghiên cứu và điểm lại một số nghiên cứu tiêu biểu. Các chương tiếp theo đi sâu vào những bài toán con được luận án tập trung giải quyết. Chương 2 trình bày về bài toán nhận dạng thực thể và ứng

15

Page 18: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

dụng nhận dạng thực thể vào bài toán hỏi đáp tự động trong văn bản tiếng Việt. Tiếp theo đó, chương 3 trình bày một mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan cũng như vấn đề thích nghi miền giữa các tập dữ liệu y sinh. Chương 4, luận án giới thiệu một kỹ thuật nâng cấp hiệu quả của mô hình đề xuất trong chương 3 bằng kỹ thuật lai ghép các mô hình (ensemble models) dựa trên tri thức và dựa trên học máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh. Phần kết luận tổng hợp các kết quả đạt được cũng như nêu lên một số hạn chế của luận án và trình bày một số định hướng nghiên cứu trong tương lai.

Dưới đây là danh sách các công trình đã công bố của nghiên cứu sinh liên quan được sử dụng trong các chương của luận án.

Hình 0.2. Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương

ứng với các chương của luận án

16

Page 19: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Chương 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ

Chương 1 của luận án hệ thống hóa các lý thuyết cơ bản về nhận dạng thực

thể. Chương này được cấu trúc thành bốn phần nội dung chính. Phần 1 trình bày và

phân tích các khái niệm cơ bản và các thuật ngữ cần quan tâm trong lĩnh vực nghiên

cứu, ngoài các định nghĩa, phần này cũng khái quát hóa các độ đo thường được sử

dụng trong nhận dạng thực thể. Phần 2 nêu ra một số hướng tiếp cận giải quyết

chính cũng như một số hướng tiếp cận mới trong nghiên cứu về nhận dạng thực thể.

Các hướng tiếp cận này sẽ được nêu ra trong hai phần, tương ứng với từng loại dữ

liệu là dữ liệu văn bản tiếng Anh và dữ liệu văn bản tiếng Việt. Phần 3 trình bày cụ

thể một số kỹ thuật học máy tiêu biểu thường được sử dụng trong nhận dạng thực

thể cũng như trong các nghiên cứu của luận án. Cuối cùng, phần 4 nêu ra tiềm năng

nghiên cứu và điểm qua một vài ứng dụng nổi bật của nhận dạng thực thể.

1.1. Một số khái niệm cơ bản

1.1.1. Định nghĩa bài toán nhận dạng thực thể

Bài toán nhận dạng thực thể (hay còn gọi là bài toán nhận dạng thực thể định

danh; Named Entity Recognition; NER) là bài toán xác định (phát hiện) các biểu

diễn trong văn bản và phân lớp chúng vào các kiểu thực thể định danh được định

nghĩa trước như Người, Địa danh, Thời gian, Số, tiền tệ, v.v.. Bài toán này có thể

bao gồm cả việc nhận dạng các thông tin hay thuộc tính mô tả về thực thể. Ví dụ,

trong trường hợp của thực thể tên người, hệ thống NER có thể trích xuất cả các

thông tin về Chức danh, Quốc tịch, Địa chỉ, Giới tính, v.v..

Một thực thể định danh là một chuỗi các từ chỉ đến một thực thể trong thế giới

thực, ví dụ như "California", “Hà Nội”, “Võ Nguyên Giáp”, "Steve Jobs" và

"Apple". Một thực thể định danh có thể được xếp vào một loại thực thể nào đó, như

Người, Địa điểm, Tổ chức, Thời gian, v.v.. Như vậy, các thực thể chính là những

đối tượng cơ bản nhất trong một văn bản dù ở bất kì ngôn ngữ nào.

17

Page 20: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Luận án sử dụng định nghĩa bài toán nhận dạng thực thể do Aggarwal và Zhai

phát biểu [AZ12]:

“Bài toán nhận dạng thực thể (Named entity recognition, NER) là bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa trước như người, tổ chức và địa điểm.”

Các kiểu thực thể định danh không chỉ bao gồm một số kiểu thông dụng như

tên người, địa danh, tên tổ chức mà còn có rất nhiều kiểu khác phụ thuộc vào đặc

trưng của loại dữ liệu, miền dữ liệu hay mục đích của hệ thống ứng dụng nhận dạng

thực thể. Có thể kể đến một số kiểu thực thể được nêu ra tại các nhiệm vụ xử lý

ngôn ngữ tự nhiên (task/shared task) như sau:

- Những kiểu thực thể định danh thông dụng nhất được tập trung nghiên cứu là

người, tổ chức và địa điểm, chúng được định nghĩa lần đầu tại Message

Understanding Conference-6 (MUC-6). Những kiểu thực thể này là phổ biến đủ để

có thể trở nên hữu ích trong nhiều miền ứng dụng. Việc trích xuất các biểu diễn

ngày tháng, giờ, tiền tệ và tỷ lệ phần trăm, cũng được MUC-6 giới thiệu, thường

cũng được xử lý trong NER, mặc dù nói đúng ra thì các biểu diễn này không phải là

thực thể định danh.

- Nhiệm vụ tại chương trình Automatic Content Extraction (ACE) đưa ra thêm

nhiều loại thực thể mới, các loại thực thể được tổ chức dưới dạng cây phân cấp, chi

tiết hơn MUC6. Ví dụ như kiểu thực thể tên tổ chức (organisation) có các loại con

như tên tổ chức chính phủ, tổ chức giáo dục hay tổ chức thương mại [DMP04].

- Bên cạnh các kiểu thực thể thông thường trong văn bản tin tức, các loại thực

thể liên quan đến y sinh cũng nhận được nhiều sự quan tâm. Hội thảo

BioNLP/JNLPBA 2004 có nhiệm vụ yêu cầu nhận diện thực thể y sinh gene và

protein [KOT04] hay nhiệm vụ Track3-CDR tại hội thảo BioCreative V (2015) yêu

cầu phát hiện thực thể bệnh và thuốc [WPL15].

18

Page 21: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

1.1.2. Thách thức

Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ít

thách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ. Thông

thường thì bài toán này không thể được thực hiện một cách đơn giản nếu chỉ sử

dụng đối sánh chuỗi với các từ điển đã được xây dựng trước vì các thực thể định

danh của một kiểu thực thể thường không phải là một một tập đóng, do đó bất kỳ từ

điển nào cũng sẽ là không đầy đủ. Một lý do khác là loại thực thể định danh có thể

phụ thuộc vào ngữ cảnh. Ví dụ, "JFK" có thể chỉ tới người "John F. Kennedy”, địa

điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó.

Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh

Nghệ An hay tên một đội bóng “Sông Lam Nghệ An”. Để xác định loại cho thực thể

"JFK" hay“Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem

xét đến ngữ cảnh chứa nó.

Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngôn ngữ

cũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn. Một số ngôn ngữ

như tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên còn phải

thực hiện một số bài toán con như tách từ trước khi nhận dạng thực thể, tỷ lệ lỗi của

các bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực thể. Ngoài

ra, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hưởng đến hiệu

quả của mô hình nhận dạng. Ví dụ thực thể tên tổ chức “Ủy ban nhân dân Thành

phố Hà Nội” có chứa thực thể tên địa danh “Thành phố Hà Nội”.

1.1.3. Độ đo đánh giá

Để đánh giá các mô hình nhận dạng thực thể cần phải tạo ra tập các tài liệu

được gán nhãn bằng tay. Đối với việc đánh giá trên từng miền cụ thể, các tài liệu

được lựa chọn gán nhãn phải liên quan đến dữ liệu miền mục tiêu. Ví dụ, để đánh

giá việc trích xuất các thực thể gen và protein, ta phải sử dụng các tài liệu y sinh

như các tóm tắt từ kho dữ liệu PubMed. Nhưng nếu mục đích là để đánh giá so sánh

giữa các kỹ thuật nhận diện thực thể nói chung, cần phải sử dụng một tập dữ liệu

19

Page 22: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

tiêu chuẩn đã được cộng đồng nghiên cứu chấp nhận [AZ12]. Các tập dữ liệu

thường được dùng để đánh giá chung cho các loại thực thể định danh thông thường

có thể kể đến là tập dữ liệu của hội nghị MUC, CoNLL-2003 và ACE 2004, còn để

đánh giá cho các loại thực thể trong y sinh có thể sử dụng tập dữ liệu GENIA

[KOT03], CHEMDNER [KLR15].

Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chính

xác (precision - P), độ hồi tưởng (recall - R) và độ đo F1 (F1-measure). Độ chính

xác được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dương

của hệ thống. Độ hồi tưởng là phần trăm các trường hợp được gán nhãn đúng trong

tất cả các mẫu dương có trong dữ liệu. Độ đo F1 là trung bình điều hòa của độ chính

xác và độ hồi tưởng. Hình 1.1. mô tả một cách trực quan các độ đo này.

Hình 1.1. Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1

Trong nhận dạng thực thể, nói một cách chính xác thì một thực thể định danh

được nhận dạng cần phải thỏa mãn hai tiêu chí: Một là xác định đúng biên thực thể

và hai là xác định đúng kiểu thực thể. Hầu hết các đánh giá đòi hỏi việc ánh xạ

chính xác biên thực thể. Tuy nhiên, đôi khi trong một số trường hợp thì việc ánh xạ

một phần cũng được chấp nhận, ví dụ khi mục tiêu chỉ là xác định liệu thực thể nào

đó có được nhắc đến trong văn bản hay câu hay không [TWC06].

20

Page 23: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

1.1.4. Ứng dụng của nhận dạng thực thể

Nhận dạng thực thể là một bài toán quan trọng, thường được sử dụng như là

một bước tiền xử lý trong các hệ thống trích xuất thông hay trích chọn thông tin

phức tạp. Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng

sau:

Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai

thực thể hay giữa một thực thể và một khái niệm [GLR06], ví dụ như mối

quan hệ người-nơi làm việc (Ronaldo, Real Madrid) hay quan hệ nơi sinh

(Hồ Chí Minh, Nghệ An). Trong bài toán này, bài toán nhận diện thực thể là

vấn đề đầu tiên cần được giải quyết trước khi trích xuất quan hệ.

Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là

một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đã

làm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách nào và tại sao. Các sự kiện có

thể là một sự kiện trong thế giới thực như sự kiện khủng bố, sự kiện tài

chính,… hay cũng có thể là một sự kiện xảy ra của một quá trình tự nhiên

như các sự kiện y sinh liên quan đến biến đổi gene hay gene gây bệnh.

Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng

thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các

thành phần cấu thành nên sự kiện. Nhiều hệ thống về trích xuất sự kiện đã áp

dụng thành công NER trong các thành phần xử lý như hệ thống BioCaster.

Hệ thống hỏi đáp tự động đang là một lĩnh vực nhận được sự quan tâm lớn

trong thời điểm lượng thông tin và tri thức bùng nổ. Khá nhiều các hệ thống

hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như là

một yếu tố làm tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong

hệ thống [HWY05]. Có thể kể đến một số nghiên cứu sử dụng nhận dạng

thực thể cho hệ thống hỏi đáp như nghiên cứu của Yao và Van Durme (2014)

[YD14] sử dụng NER trong pha phân tích câu hỏi để xác định chủ đề hỏi hay

hệ hỏi đáp của West và cộng sự (2014) [WGM14] áp dụng NER cho việc

21

Page 24: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

phát hiện các mối quan hệ có trong log được trả về từ máy tìm kiếm hỗ trợ

cho thành phần trả lời câu hỏi.

1.2. Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toán

Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 1990 [RA91],

nhưng chỉ được chính thức giới thiệu vào năm 1995 tại hội nghị MUC-6 với tư cách

là một bài toán con của trích xuất thông tin. Kể từ đó, NER đã thu hút nhiều sự chú

ý của cộng đồng nghiên cứu. Đã có khá nhiều hệ thống và chương trình được xây

dựng thực thi bài toán này, có thể kể đến Automatic Content Extraction2, các công

bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language

Learning (CoNLL) năm 2002 và 2003, và chuỗi nhiệm vụ nhận dạng thực thể y sinh

tại hội thảo BioCreative3 (Critical Assessment of Information Extraction Systems in

Biology).

Các giải pháp ban đầu cho nhận dạng thực thể dựa vào các mẫu được tạo một

cách thủ công [AHB93]. Sau đó các nghiên cứu đầu nhưng năm 2000 về nhận dạng

thực thể đã đạt được rất nhiều kết quả khả quan bằng việc sử dụng các phương pháp

học máy thống kê. Một loạt các mô hình học máy khác nhau đã được đề xuất để giải

quyết bài toán nhận dạng thực thể như mô hình Entropy cực đại (Maximum Entropy

Model, MaxEnt Model) [BPP96], mô hình trường ngẫu nhiên điều kiện

(Conditional Random Field; CRF) [LMP01]. Bên cạnh sử dụng từng phương pháp

riêng biệt để giải quyết bài toán, các phương pháp kết hợp hoặc lai ghép các mô

hình học máy (ensemble models method) để đưa ra kết quả tốt hơn cũng là một

hướng đi đạt được hiệu quả cao, điển hình là nghiên cứu của Florian và cộng sự

(2003) đã đạt được hiệu quả tốt nhất (88,76) tại nhiệm vụ CONLL-2003 [FIJ03].

Sau khi các phương pháp học máy đạt được nhiều hiệu quả khả quan đối với nhận dạng thực thể trong văn bản tiếng Anh thông thường, các nghiên cứu gần đây đi theo hai hướng chính [AZ12]:

2 Automatic content extraction (ACE) evaluation. http://www.itl.nist.gov/iad/mig/tests/ace/

3 http://www.biocreative.org/

22

Page 25: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Hướng tiếp tục nâng cấp hiệu quả của phương pháp nhận dạng thực thể bằng

cách đưa thêm các thông tin được sinh ra từ một lượng lớn dữ liệu không có

nhãn, điển hình của hướng đi này là việc áp dụng các kỹ thuật học máy bán

giám sát (semi-supervised) và học máy sâu (deep learning). Ando và Zhang

áp dụng học máy bán giám sát sử dụng 27 triệu từ chưa gán nhãn để nâng

cấp chất lượng nhận dạng [AZ05], Ratinov và Roth cũng sử dụng bán giám

sát với dữ liệu từ Wikipedia kết hợp với các cụm từ vựng (word clusters)

được sinh ra bằng phương pháp gom cụm Brown [RR09]. Kết quả của hai

nhóm đều đạt cao hơn mô hình của Florian và cộng sự (2003) với các độ đo

F1 tương ứng là 90,8 và 89,31. Collobert và cộng sự (2011) đưa ra một cách

giải quyết khác bằng việc sử dụng kỹ thuật học sâu với việc áp dụng mạng

nơron nhiều tầng để huấn luyện mô hình nhận dạng thực thể kết hợp với các

thông tin hỗ trợ từ 852 triệu từ chưa được gán nhãn, kết quả trên độ đo F1 đạt

được là 89,59 cũng cao hơn mô hình cơ sở của Florian và cộng sự. Mặc dù

kết quả tăng chưa cao so với mô hình chuẩn tuy nhiên các nghiên cứu này

tạo được sự quan tâm lớn của cộng đồng nghiên cứu khi đưa ra một hướng đi

mới cho việc tăng cường ngữ nghĩa thông qua lượng dữ liệu lớn chưa có

nhãn.

Một hướng đi khác của cộng đồng nghiên cứu là áp dụng các kỹ thuật học

máy đã có vào các dạng thực thể khó hơn trong các miền dữ liệu khác như

dữ liệu y sinh, địa lý, mạng xã hội,… hay một loại ngôn ngữ khác không

nhiều tài nguyên như tiếng Anh. Bên cạnh đấy việc nghiên cứu các kỹ thuật

thích nghi miền (domain adaptation) cũng được đặt ra khi các nhà nghiên

cứu cố gắng áp dụng những mô hình nhận dạng thực thể đã tốt cho một miền

dữ liệu mới chưa có dữ liệu gán nhãn. Một số nghiên cứu có thể kể đến như

nghiên cứu của Daume (2007) đánh giá việc thích nghi miền giữa một số tập

dữ liệu nhận dạng thực thể [DA07] hay nghiên cứu của Wang và cộng sự

(2009) đánh giá thích nghi miền trong nhận diện các thực thể protein

[WKS09].

23

Page 26: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số

nghiên cứu liên quan

Bắt nhịp với tình hình phát triển chung trên toàn thế giới, các văn bản tiếng

Việt cũng ngày càng xuất hiện nhiều dưới dạng văn bản điện tử, và cùng với đó

chính là nguyên nhân phát sinh nhu cầu khai thác thông tin có giá trị từ các văn bản

này. Nhận dạng thực thể đóng một vai trò chủ chốt trong khai phá văn bản, chính vì

thế nó cũng nhanh chóng trở thành một lĩnh vực nghiên cứu được nhiều nhà khoa

học trong nước quan tâm.

Áp dụng được NER cho dữ liệu tiếng Việt đồng nghĩa với việc đặt một nền

tảng quan trọng trong việc xây dựng được các hệ thống ứng dụng cho nhiều lĩnh

vực khác như tài chính, kinh tế, xã hội, y sinh, v.v.. phù hợp với tình hình trong

nước.

Trong mục này, luận án tóm tắt về một số thách thức cần giải quyết khi xử lý

văn bản tiếng Việt, động cơ nghiên cứu và tầm quan trọng của bài toán bài toán

nhận dạng thực thể tiếng Việt, điểm qua một số tài nguyên hữu ích cũng như tình

hình nghiên cứu hiện tại.

1.3.1. Những thách thức đối với xử lý dữ liệu tiếng Việt

Có thể nêu ra một số đặc điểm của tiếng Việt khiến cho nó trở nên khác biệt và khó xử lý như sau, một số các đặc điểm dưới đây được tham khảo từ tài liệu [DH96] và một số khác dựa trên quan điểm của nghiên cứu sinh về tiếng Việt:

Khác với tiếng Anh, Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một

tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ

viết. Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật,

hiện tượng v.v.., chủ yếu nhờ phương thức ghép và phương thức láy, ví dụ:

“con người”, “khoa học”, “công nghệ thông tin”, “đu đủ”, “thừa thãi”,

v.v.. Các từ này được viết rời theo từng âm tiết chứ không theo từng từ.

Chính điều này khiến cho việc xác định biên của một từ trong tiếng Việt trở

nên khó khăn hơn.

24

Page 27: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã

tạo điều kiện thuận lợi cho sự phát triển vốn từ nhưng đồng thời cũng gây

khó khăn trong việc bao quát các thể hiện của ngôn ngữ. Ví dụ, bên cạnh các

yếu tố cấu tạo từ thuần Việt, tiếng Việt có vay mượn từ các ngôn ngữ khác

để tạo ra các từ mới, như “ghi đông”, “karaoke”, “siêu liên kết”, v.v.. Các

từ địa phương xuất hiện trong văn bản cũng là một yếu tố khiến tiếng Việt

trở nên phức tạp hơn.

Hiện tượng đồng âm khác nghĩa trong tiếng Việt là khá phổ biến, Ví dụ:

“lợi” (có ích lợi – tương ứng với “benefit” trong tiếng Anh) và “lợi” (“lợi”

thuộc về răng hàm mặt – “alveolar”).

Ngược lại, cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng lại

có thể có nhiều từ ngữ khác nhau biểu thị. Hiện tượng các từ gần nghĩa, đồng

nghĩa nhưng cách dùng khác nhau và không thể thay cho nhau trong mọi ngữ

cảnh cũng khá phổ biến, ví dụ: “hội đàm”, “hội nghị”, “hội thảo”, “toạ

đàm” hay “tìm” và “kiếm”.

Ngữ pháp Việt Nam là ngữ pháp cực kỳ phức tạp. Đối với hầu hết người Việt

Nam, câu nói “phong ba bão táp không bằng ngữ pháp Việt Nam” chắc chắn

không phải là xa lạ. Ngữ pháp Việt Nam phức tạp không phải bởi vì nó có bộ

luật cồng kềnh và chặt chẽ như nhiều ngôn ngữ khác, mà ngược lại, vì nó

quá linh động với vô số biến thể và trường hợp ngoại lệ. Sự phức tạp của ngữ

pháp Việt Nam được thể hiện ở nhiều khía cạnh, nó có thể bởi cách tư duy

khác nhau của người Việt (ví dụ “áo ấm” và “áo lạnh” là hai từ đồng nghĩa

trong khi “lạnh” và “ấm” là hai từ trái nghĩa), do thói quen sử dụng từ (ví

dụ, về mặt lý thuyết thì “con” được dùng trước danh từ chỉ động vật, nhưng

trong thực tế “con” lại kết hợp được với một số từ chỉ bất động vật như “con

mắt”, “con đường”, “con dao”, v.v..), hay do bản thân các cấu trúc trật tự từ

(ví dụ, Trong câu hỏi về tương lai, các từ bao giờ, khi nào, bao nhiêu thường

được đặt ở đầu câu, trong khi đó nếu để hỏi về quá khứ thì chúng thường

được đặt ở cuối câu).

25

Page 28: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Một vấn đề khác mang tính kỹ thuật hơn. Đó là vì sự phát triển còn non trẻ của lĩnh

vực xử lý ngôn ngữ tự nhiên cũng như khai phá văn bản trong nước, các tài nguyên

ngôn ngữ và công cụ hỗ trợ được xây dựng cho tiếng Việt còn rất ít và có nhiều hạn

chế. Cộng đồng nghiên cứu tiếng Việt cũng chưa có sự liên kết chặt chẽ, dẫn tới

mỗi nghiên cứu lại có tính cá nhân mà chưa tận dụng được hết những kết quả của

các nghiên cứu trước đó.

1.3.2. Động cơ nghiên cứu

Như đã được trình bày, tiếng Việt có những đặc điểm khác biệt so với các

ngôn ngữ khác (ví dụ như tiếng Anh), vì vậy, nhiều phương pháp nhận dạng thực

thể đã được áp dụng thành công cho tiếng Anh song không đảm bảo đem lại kết quả

tương ứng khi sử dụng cho dữ liệu tiếng Việt. Vì vậy việc đề xuất một phương pháp

hiệu quả đối với dữ liệu tiếng Việt là nhiệm vụ bức thiết của chính những nhà

nghiên cứu trong nước, trong đó có nghiên cứu sinh.

Nắm bắt được nhu cầu thực tế và với mong muốn được cống hiến công sức

của mình để nghiên cứu tiếng mẹ đẻ từ đó góp phần đem lại thêm những tri thức có

giá trị đến với cộng đồng khoa học trong nước, nghiên cứu sinh coi việc tập trung

nghiên cứu bài toán nhận dạng thực thể trong văn bản tiếng Việt là một trong hai

mục tiêu nghiên cứu chính của luận án.

1.3.3. Các nghiên cứu liên quan

Nhận dạng thực thể trong tiếng Việt đang nhận được nhiều sự quan tâm của

cộng đồng nghiên cứu trong nước cũng như các nhà nghiên cứu đang sống và làm

việc tại nước ngoài. Nhiều công trình nghiên cứu về trích xuất thông tin tiếng Việt

đã được đăng và xuất bản tại các hội nghị uy tín như: EACL, IJNLP, PAKDD,…

hay các tạp chí có chỉ số cao như TALIP, TKDE,… bên cạnh đấy một số hội nghị

cũng đã có những phiên làm việc tập trung về lĩnh vực này cho tiếng Việt như KSE,

RIVF, SoICT,…

Phần lớn các nghiên cứu về nhận dạng thực thể tiếng Việt cũng đi theo xu

hướng của các nghiên cứu trên thế giới là dựa vào các phương pháp học máy, bên

26

Page 29: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

cạnh đấy, một số nghiên cứu áp dụng một số luật để nhận dạng như luật ripple-

down-rule [NP12, NHP10] hay luật ngữ pháp [LN10, LDN13] cũng được sử dụng.

Các phương pháp nói trên cho hiệu quả khá tốt với độ đo F nằm trong khoảng 80-

90% đối với một số loại thực thể phổ biến như người, địa danh, tổ chức, thời gian.

Các phương pháp học máy được sử dụng để giải quyết bài toán nhận dạng

thực thể tiếng Việt chủ yếu là giám sát và bán giám sát. Đối với học máy giám sát,

Nguyen Cam Tu và cộng sự [TOH05] áp dụng phương pháp trường ngẫu nhiên có

điều kiện (CRF) trên tập dữ liệu huấn luyện tự xây dựng gồm 8 loại thực thể (tên

người, địa danh, tổ chức, tiền tệ, thời gian, số, phần trăm, một số loại khác) kết quả

đạt 85,51% với độ đo F. Cũng sử dụng phương pháp CRF, tuy nhiên, Le và cộng sự

[LV13] và Nguyen và cộng sự [NC12] đã đưa thêm một số đặc trưng liên quan đến

ontology và kỹ thuật lựa chọn đặc trưng dựa trên giải thuật di truyền nhằm nâng cao

chất lượng nhận dạng. Tran và cộng sự [TTQ07] huấn luyện mô hình nhận dạng

thực thể tiếng Việt dựa trên phương pháp máy vector hỗ trợ (SVM) bằng công cụ

Yamcha4, mô hình cho kết quả tương đối khả quan khi so sánh với phương pháp

CRF trên độ đo F, đạt 87,75% so với 86,48%. Thao và cộng sự [TTD07] đã cải tiến

kết quả của Tran và cộng sự bằng việc tổ hợp kết quả đã có với nhiều kết quả của

các phương pháp học khác nhau (ensemble learning) thông qua kỹ thuật bình chọn

(voting), phương pháp này làm tăng hiệu quả của mô hình nhận dạng từ 87,75% lên

88,02%.

Bên cạnh các phương pháp học giám sát, các phương pháp học bán giám sát

(semi-supervised learning) cũng được áp dụng trong nhiều nghiên cứu. Trong

[SLT11a], Sam và cộng sự sử dụng phương pháp học bán giám sát lan truyền nhãn

dựa trên đồ thị tương tự. Với ưu điểm của các phương pháp học máy bán giám sát là

tận dụng các nguồn dữ liệu lớn chưa được gán nhãn để hỗ trợ thông tin cho mô hình

học, phương pháp này đã đạt được những kết quả khả quan trong nhận diện ba thực

thể phổ biến là người, địa danh, tổ chức. Một hướng tiếp cận khác của học bán giám

sát là học dựa trên các mẫu (pattern-based), Le Trung và cộng sự [LLL14] đã áp

4 http://chasen.org/~taku/software/yamcha/

27

Page 30: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

dụng phương pháp mồi dữ liệu (bootstrapping) để tự động sinh ra các mẫu nhận

dạng thực thể từ một số lượng nhỏ các thực thể hạt giống (seed), phương pháp này

cho hiệu quả tốt nếu tập dữ liệu huấn luyện nhỏ, tuy nhiên việc quản lý nhập nhằng

giữa các mẫu ngữ pháp của các thực thể khác nhau là một thách thức không nhỏ khi

vòng lặp sinh mẫu lớn hay số loại thực thể nhiều.

Bên cạnh các nghiên cứu về nhận dạng thực thể, một số các nghiên cứu ứng

dụng nhận dạng thực thể cũng được các nhà nghiên cứu trong nước nêu ra như trích

xuất quan hệ và sự kiện tiếng Việt. Sam và cộng sự (2011) [SLT11b] đã áp dụng

phương pháp học bán giám sát mồi dữ liệu (bootstrapping) để sinh ra các mẫu ngôn

ngữ nhận biết các cặp thực thể có quan hệ với nhau, bên cạnh đấy nghiên cứu cũng

áp dụng phương pháp SVM để xác định loại quan hệ cũng như làm tốt hơn kết quả

trích xuất các mẫu ngôn ngữ. Trong nghiên cứu về trích xuất sự kiện của mình,

Nguyen và cộng sự [NN13] đã thực hiện việc trích xuất các sự kiện liên quan đến

dịch bệnh trong miền dữ liệu văn bản tiếng Việt, các sự kiện dịch bệnh sẽ là một tổ

hợp các thực thể liên quan đến dịch bệnh xuất hiện trong văn bản được xét và được

nhận dạng dựa trên mô hình nhận dạng thực thể. Việc xem xét các mối quan hệ giữa

sự kiện và thực thể hay giữa các thực thể và thực thể được thực hiện dựa vào một số

luật đơn giản, chính vì thế hiệu quả của mô hình trích xuất sự kiện chưa đạt kết quả

cao như các phương pháp sử dụng các kỹ thuật phân tích ngữ nghĩa sâu trong xử lý

ngôn ngữ tiếng Anh.

1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số

nghiên cứu liên quan

1.4.1. Những thách thức đối với xử lý dữ liệu y sinh

Khai phá văn bản y sinh nói chung và nhận dạng thực thể y sinh nói riêng có

nhiều điểm khác biệt so với lĩnh vực nghiên cứu này cho dữ liệu thông thường.

Nhận xét này thể hiện ở hai điểm: Thứ nhất, do mục tiêu cụ thể của các hệ thống

khai phá văn bản y sinh, bên cạnh những đối tượng kinh điển như người, tổ chức,

địa điểm, v.v.. hệ thống khai phá văn bản y sinh thường hướng tới một số đối tượng

28

Page 31: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

khác biệt hơn so với dữ liệu thông thường đòi hỏi phải có những mô hình nhận dạng

thực thể chuyên biệt cho từng hệ thống, ví dụ như hệ thống liên quan đến các bệnh

di truyền đòi hỏi nhận diện các loại thực thể liên quan đến gene, protein, bệnh di

truyền, thuốc, triệu chứng…, trong khi các hệ thống giám sát bệnh truyền nhiệm lại

yêu cầu nhận dạng các loại thực thể như bệnh di truyền, số bệnh nhân, nguyên

nhân... Thứ hai, là ở tính đặc thù của các từ chuyên ngành trong lĩnh vực y sinh, các

từ chuyên ngành này thường không tuân theo những quy luật từ vựng và ngữ nghĩa

thông thường. Các khảo sát gần đây [ZDY07, ZD09] trong lĩnh vực này cho thấy

các công cụ để khai phá văn bản và dữ liệu mở thông thường không phù hợp cho

miền dữ liệu y sinh chính bởi tính chuyên ngành cao của nó. Chính vì lý do này, các

nghiên cứu trong lĩnh vực y sinh thường đòi hỏi sự hỗ trợ mang tính kinh nghiệm

của các chuyên gia (các nhà sinh vật học và bác sĩ) trong việc xác định và hỗ trợ

giải quyết các nhiệm vụ. Cohen và Hunter [CH08] cho rằng phương pháp tiếp cận

hiệu quả nhất đối với khai phá văn bản y sinh là sự kết hợp giữa các tri thức từ

chuyên gia và các kỹ thuật tính toán.

Phần dưới đây tóm tắt một số khó khăn chung của nhận dạng thực thể trong

lĩnh vực y sinh được Lin và cộng sự (2004) nêu ra [LTC04].

Nhiều thực thể chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu (như dấu

gạch nối), v.v.. Cho đến nay chưa có một bộ danh pháp hay tiêu chuẩn đặt

tên chính thức nào cho thực thể biểu hiện.

Rất khó xác định chính xác biên của thực thể biểu hiện, một thực thể biểu

hiện không những có thể rất dài mà còn có thể chứa cả liên từ, từ phủ định,

bổ từ, v.v..

Vì thực thể biểu hiện có thể chứa thực thể khác trong nó, vì vậy tồn tại nhiều

nhập nhằng giữa thực thể biểu hiện và các thực thể khác (như bệnh, gene và

sản phẩm của gene, bộ phận cơ thể).

1.4.2. Động cơ nghiên cứu

Hiện nay, số lượng các văn bản y tế và sinh học dưới dạng điện tử trên Internet

cũng như được lưu trữ trong các hệ thống y tế đang tăng với tốc độ chóng mặt. Việc

29

Page 32: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

khai thác hiệu quả nguồn tài nguyên này có thể đưa tới nguồn tri thức hữu ích cho

người dùng như phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa

bệnh, nghiên cứu các cơ chế di truyền, tuyên truyền và nâng cao sức khỏe cộng

đồng, v.v.. Vấn đề này càng cần phải được quan tâm thích đáng khi con người đang

phải đối mặt với nhiều dịch bệnh truyền nhiễm mới đang phát triển và có chiều

hướng gia tăng trong thời gian gần đây như cúm A H1N1, H5N1, Ebola, MERS-

CoV v.v.. Những nghiên cứu liên quan đến xử lý ngôn ngữ tự nhiên cho văn bản y

sinh (Biomedical Natural Language Processing; BioNLP) đã mang đến nhiều lợi ích

cho việc khai thác nguồn dữ liệu y sinh, có thể kể đến những cơ sở dữ liệu hay

ontology y sinh được xây dựng tự động hỗ trợ cho những nhà nghiên cứu sinh, bác

sĩ hay những hệ thống theo dõi thông tin về diễn biến dịch bệnh truyền nhiễm đang

phát triển trên thế giới.

Trong những hệ thống đấy, nhận dạng thực thể y sinh là một thành phần quan

trọng trong quá trình phân tích và tổng hợp thông tin từ văn bản y sinh. Đây là một

bài toán khó vì mỗi một loại thực thể y sinh lại bao hàm nhiều tính chất đặc thù

khác nhau về ngôn ngữ và y sinh đòi hỏi người nghiên cứu cần phải có sự kết hợp

kiến thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh mới có thể đưa ra một

phương pháp hay mô hình nhận dạng thực thể hiệu quả.

1.4.3. Các nghiên cứu liên quan

Các hướng nghiên cứu đối với nhận dạng thực thể y sinh thay vì tập trung vào

việc đề xuất các phương pháp mới có hiệu quả tốt hơn thì tập trung vào việc giải

quyết nhận dạng các loại thực thể y sinh khác nhau với các đặc trưng riêng cho từng

miền dữ liệu riêng biệt. Hầu hết các nghiên cứu về nhận dạng thực thể y sinh đều

tập trung vào một số loại thực thể được đưa ra thông qua một số nhiệm vụ cộng

đồng được công bố tại chuỗi hội nghị hay hội thảo lớn về xử lý ngôn ngữ tự nhiên

cho văn bản y sinh (chẳng hạn, BioNLP). Theo thống kê dựa trên kết quả nghiên

cứu của Huang và Lu (2015) [HL15] có khoảng 14 nhiệm vụ cộng đồng về nhận

dạng thực thể y sinh trong giai đoạn 2002-2014 thuộc các chuỗi hội nghị, hội thảo

30

Page 33: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

lớn về BioNLP như BioCreAtivE [WAC12], BioNLP [NBK13], i2b2 [USS10],

JNLPBA [KOT04], và LLL [NE05],… (xem Hình 1.2).

Hình 1.2. Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y sinh

trong giai đoạn 2002-2014 [HL15]

Các nhiệm vụ này tập trung vào bốn nhóm thực thể chính là gene, hóa chất,

thuốc và bệnh, trong từng nhóm lại có các loại thực thể khác ở mức độ cụ thể hơn

như nhóm gene có thêm protein, tế bào, gene, nhóm bệnh có thể chia nhỏ theo các

loại bệnh (ung thư, bệnh liên quan đến tim, bệnh tự miễn dịch),… Bên cạnh các

thực thể phổ biến được nêu ra tại các nhiệm vụ, một số loại thực thể cũng nhận

được nhiều sự quan tâm và đưa vào bài toán nhận dạng thực thể như thực thể biểu

hiện, dấu hiệu và triệu chứng (sign and symptom), sinh vật (organism, species),…

Về mặt phương pháp, các nghiên cứu nhận dạng thực thể y sinh cũng sử dụng

các phương pháp nhận dạng thực thể truyền thống và kết hợp thêm các đặc trưng

hay tri thức liên quan đến miền dữ liệu y sinh. Có thể chia các hướng tiếp cận về

nhận dạng thực thể y sinh theo 3 nhóm: nhóm phương pháp sử dụng luật và mẫu

ngữ nghĩa cấu thành thực thể y sinh, nhóm phương pháp sử dụng học máy thống kê,

nhóm phương pháp kết hợp các mô hình nhận dạng (ensemble models methods).

31

Page 34: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

a. Phương pháp sử dụng các luật và mẫu ngữ nghĩa cấu thành thực thể y

sinh

Các phương pháp trong nhóm này thường dựa trên các đặc điểm chính tả và từ

vựng để nhận diện thực thể, các loại thực thể có thể nhận dạng tốt là protein

[FTT98] và tên hóa chất [NRV03]. Những phương pháp đơn giản này có thể được

cải tiến bằng cách bổ sung thông tin ngữ cảnh đang xem xét [HC03] và kết quả của

phân tích cú pháp để xác định biên thực thể [FEO02]. Một số hướng nghiên cứu

mới hơn sử dụng các ontology để sinh các mẫu tổng quát cho một loại thực thể, như

các nghiên cứu sử dụng mô hình EQ (Entity-Quality model) để nhận dạng thực thể

biểu hiện của Collier và cộng sự (2013) [COG13] hay Groza và cộng sự (2013)

[GHZ13]. Tuy nhiên, trong khi phương pháp tiếp cận dựa trên luật thường đạt được

hiệu suất tốt hơn so với phương pháp tiếp cận dựa trên từ điển, thì việc tạo ra các

luật một cách thủ công là quá trình tốn nhiều thời gian, bên cạnh đấy việc sinh các

luật luôn rất cụ thể nhằm mục đích đạt được độ chính xác cao nên chúng rất khó

được sử dụng để mở rộng đến các lớp thực thể khác.

b. Phương pháp sử dụng kỹ thuật học máy thống kê

Theo xu hướng chung của các nghiên cứu về nhận dạng thực thể, các phương

pháp học máy là nhóm được sử dụng phổ biến và đạt hiệu quả tốt trên nhiều loại

thực thể y sinh khác nhau. Hầu hết các phương pháp học máy thống kê được sử

dụng thuộc về dạng học có giám sát tuy nhiên cũng có một số nghiên cứu sử dụng

một số kỹ thuật như bootstrapping hay các kỹ thuật bán giám sát khác [MHC04,

UCO11]. Các phương pháp học giám sát được sử dụng cho NER có thể được phân

thành hai nhóm: phương pháp tiếp cận dựa trên phân lớp và phương pháp tiếp cận

dựa trên chuỗi.

Cách tiếp cận dựa trên phân lớp chuyển đổi nhiệm vụ NER thành một vấn đề

phân lớp, có thể được áp dụng cho các từ riêng lẻ hoặc nhóm từ. Các bộ phân lớp

thường được sử dụng cho NER y sinh bao gồm bộ phân lớp sử dụng Naive Bayes

[NCT99] và bộ phân lớp sử dụng máy vector hỗ trợ (Support Vector Machine,

32

Page 35: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

SVM) [MFM05, TC05]. Một cách tiếp cận phổ biến để phân lớp các cụm là tuân

theo lược đồ gán nhãn BIO [RM95], trong đó một từ vựng (token) riêng lẻ được

phân lớp thành bắt đầu (B) một thực thể, nằm trong biên (I) một thực thể hay nằm

ngoài (O) biên của thực thể. Hiệu suất của cách tiếp cận dựa trên phân lớp phụ

thuộc rất nhiều vào sự lựa chọn các đặc trưng được sử dụng để huấn luyện, và nhiều

tác giả đã nghiên cứu các cách kết hợp đặc trưng khác nhau. Ví dụ, nhóm nghiên

cứu của Mitsumori [MFM05], xem xét các đặc tính hình thái-cú pháp của các thực

thể định danh, Takeuchi và Collier [TC05] xem xét các đặc trưng chính tả và các

danh từ chính.

Không giống như các phương pháp tiếp cận dựa trên phân lớp, hệ thống NER

dựa trên gán nhãn chuỗi xem xét việc gán một chuỗi các từ hoàn chỉnh thay vì

từng từ riêng hoặc cụm từ lẻ. Chúng được huấn luyện với các tập dữ liệu được gán

nhãn nhằm mục đích dự đoán chuỗi các nhãn có khả năng nhất cho một chuỗi quan

sát. Những kỹ thuật thường được sử dụng cho NER y sinh là mô hình Markov ẩn

(Hidden Markov Model, HMM) [KCO05], phương pháp dựa trên mô hình Markov

entropy cực đại (Maximum Entropy Markov Model, MEMM) [SSM09] hay trường

ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) [OMT06]. Cũng giống

như các phương pháp thống kê khác, phương pháp tiếp cận dựa trên chuỗi có thể

được huấn luyện dựa rên một loạt các đặc trưng bao gồm các đặc trưng chính tả,

thông tin tiền tố và hậu tố, và từ loại [KCO05].

c. Phương pháp lai ghép các mô hình (ensemble models methods)

Nhóm phương pháp lai ghép các mô hình nhận dạng với cách tiếp cận không

chỉ sử dụng một phương pháp duy nhất để thực hiện NER y sinh mà thay vào đó là

dựa vào nhiều kỹ thuật và các nguồn tài nguyên khác nhau. Những cách tiếp cận kết

hợp thường khá thành công trong việc ghép các phương pháp tiếp cận dựa trên từ

điển hoặc dựa trên luật với các phương pháp học máy thống kê. Một bằng chứng về

những ưu điểm của phương pháp tiếp cận lai là nghiên cứu của Abacha và cộng sự

[AZ11b] so sánh hiệu quả của các phương pháp tiếp cận dựa trên luật và thống kê

phổ biến cho NER y tế và kết luận rằng phương pháp kết hợp sử dụng học máy và

33

Page 36: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

tri thức miền có kết quả tốt hơn. Có rất nhiều hệ thống NER y sinh lai. Ví dụ, Sasaki

và cộng sự [STM08] sử dụng một phương pháp tiếp cận dựa trên từ điển để xác

định tên protein song song với gán nhãn từ loại. Sau đó, họ sử dụng một phương

pháp tiếp cận dựa trên CRF để giảm các kết quả sai, thiếu trong chuỗi kết quả được

dán nhãn. Một phương pháp khác tạo ra một bộ siêu học máy (metalearners) từ

nhiều phương pháp thống kê. Ví dụ, Zhou và cộng sự [ZSZ05] xây dựng bộ nhận

dạng thực thể từ việc lai ghép hai mô hình HMMs được đào tạo với các dữ liệu khác

nhau và đầu ra của chúng được kết hợp sử dụng SVM để nhận dạng protein và gen.

Tương tự như vậy, Mika và Rost [MR04] tạo một bộ đa học máy để nhận dạng tên

protein từ ba mô hình SVM huấn luyện trên các tập dữ liệu và đặc trưng khác nhau,

đầu ra của chúng được kết hợp bằng mô hình SVM thứ tư. Cuối cùng Cai và Cheng

[CC09] trình bày một cách tiếp cận cho NER y sinh sử dụng ba bộ phân lớp khác

nhau để nâng cao khả năng tổng quát của hệ thống.

1.5. Tổng kết chương

Trong chương này, phần đầu tiên luận án đã trình bày khái quát một số khái

niệm cơ bản của vấn đề nhận dạng thực thể bao gồm định nghĩa về bài toán nhận

dạng thực thể, một số thách thức, độ đo đánh giá và ứng dụng của nhận dạng thực

thể trong các bài toán khác nhau. Phần tiếp theo, luận án nêu lên một số nét nổi bật

trong lịch sử nghiên cứu của bài toán nhận dạng thực thể, bên cạnh đấy một số

hướng tiếp cận giải quyết và các công trình nghiên cứu tiêu biểu cũng được đưa ra

một cách khái quát. Trong hai mục 1.3 và 1.4, luận án tổng kết một số vấn đề cần

lưu ý bao gồm động cơ nghiên cứu, tài nguyên hỗ trợ, tình hình nghiên cứu đối với

hai miền dữ liệu sẽ giải quyết trong luận án là miền dữ liệu văn bản tiếng Việt và

miền dữ liệu văn bản y sinh tiếng Anh. Các chương tiếp theo sẽ mô tả chi tiết về

từng bài toán đã được luận án giải quyết trong hai miền dữ liệu trên.

34

Page 37: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI

NHẬN DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN

TIẾNG VIỆT

Chương 2 tập trung giải quyết một số vấn đề về nhận dạng thực thể trong văn

bản tiếng Việt như đã được nêu trong Chương 1. Luận án không đi theo hướng giải

quyết bài toán NER theo góc nhìn thông thường mà xử lý nó theo một góc nhìn

khác (1) tích hợp NER với bài toán bước sau – trích chọn thuộc tính của thực thể;

(2) áp dụng NER vào hệ thống hỏi đáp tự động. Hai khung nhìn này được thể hiện

trong hai nghiên cứu của chương này.

2.1. Giới thiệu

Tên người và những thông tin liên quan đến người là một trong những từ khóa

được tìm kiếm thường xuyên nhất trên các công cụ tìm kiếm web, tuy nhiên, các kết

quả tìm kiếm và thông tin trả về đôi khi còn rất mơ hồ. Vì vậy, nhu cầu về một hệ

thống đầy đủ thông tin, chính xác và tập trung vào thực thể tên người là rất lớn.

Thực thể tên người luôn gắn liền với một số các thuộc tính [SJ09, JAJ10], đó là các

đặc trưng hoặc tính chất của một thực thể và trích chọn thuộc tính là trích chọn các

đặc trưng hoặc tính chất tương ứng với một thực thể từ dữ liệu văn bản [GR08].

Trong bài toán trích chọn thuộc tính của thực thể tên người, một tập cố định các loại

thuộc tính cần được xác định trước, nhiệm vụ đặt ra là trích xuất giá trị của các

thuộc tính đó tương ứng với một thực thể tên người nhất định từ dữ liệu văn bản.

Việc trích chọn thuộc tính cho một thực thể tên người cụ thể là rất quan trọng để

xác định tính duy nhất của người đó trên Internet. Do đó, trích chọn thuộc tính đóng

một vai trò chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngoài ra, việc

trích chọn thực thể tên người cùng với các thuộc tính của chúng cũng góp một phần

quan trọng để mở rộng các cơ sở dữ liệu và ontology.

Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan được

đưa ra trong bảng 2.1.

35

Page 38: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Câu ví dụ: “Hoàng Cầm tên thật là Bùi Tằng Việt, (sinh 22 tháng 2 năm 1922,

tại xã Phúc Tằng, huyện Việt Yên, tỉnh Bắc Giang – mất 6 tháng 5 năm 2010 tại Hà

Nội), là một nhà thơ Việt Nam”.

Bảng 2.1. Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan

ST

T

Thực thể

chính

Loại thuộc

tínhGiá trị thuộc tính

1 Hoàng Cầm Tên gọi khác Bùi Tằng Việt

2 Hoàng Cầm Ngày sinh 22 tháng 2 năm 1922

3 Hoàng Cầm Nơi sinh Xã Phúc Tằng, huyện Việt Yên, tỉnh Bắc Giang

4 Hoàng Cầm Ngày mất 6 tháng 5 năm 2010

5 Hoàng Cầm Nơi mất Hà Nội

6 Hoàng Cầm Nghề nghiệp Nhà thơ

7 Hoàng Cầm Quốc tịch Việt Nam

Như vậy, một hệ thống trích xuất thực thể tên người và các thuộc tính liên

quan phải giải quyết được một loạt các bài toán con, cụ thể là: NER, xử lý nhập

nhằng, v.v.. Trong đó NER là bài toán tiền đề bắt buộc, hơn nữa hệ thống NER

không chỉ cần nhận dạng các thực thể tên người mà còn phải trích chọn được các

thực thể về địa danh, ngày tháng, tổ chức, v.v.. Xử lý hai bài toán NER tên người và

trích chọn thuộc tính liên quan theo một cấu trúc thực hiện lần lượt (đường ống,

pipeline) có hai nhược điểm chủ yếu: (1) lãng phí tài nguyên và chi phí thực hiện, vì

hai vấn đề này có nhiều đặc trưng tương tự, việc thực hiện chúng lần lượt có thể lặp

lại một số bước hai lần; (2) việc liên kết các thực thể khác về đúng thuộc tính của

thực thể chính cũng là một bài toán phức tạp. Trong phần này, luận án đề xuất một

phương pháp tích hợp trích chọn thực thể tên người và các thuộc tính liên quan sử

dụng CRF và một tập đặc trưng phong phú nhằm giải quyết các nhược điểm nói

trên, đồng thời đem lại kết quả khả quan hơn.

36

Page 39: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

2.2. Các nghiên cứu liên quan

2.2.1. Các nghiên cứu liên quan trên thế giới

Chủ đề nghiên cứu nhận dạng thực thể và thuộc tính của thực thể đã nhận

được khá nhiều sự quan tâm của cộng đồng xử lý ngôn ngữ tự nhiên trên thế giới.

Từ năm 2007 đến năm 2010, chuỗi hội nghị Web People Search Campaigns

(WePS) [SJ09, JAJ10] được tổ chức tập trung vào bài toán tìm kiếm tên người trên

web, chuỗi hội nghị này đã đóng góp rất nhiều nghiên cứu quan trọng về bài toán

nhận dạng thực thể cũng như trích chọn thuộc tính của thực thể. Hội nghị WePS đầu

tiên giới thiệu nhiệm vụ xử lý nhập nhằng tên người và chỉ ra rằng các thuộc tính

như ngày sinh, quốc tịch, giới tính, nghề nghiệp, v.v.. là các đặc trưng đặc biệt quan

trọng trong việc giải quyết những trường hợp trùng tên [SJ09]. Do đó, trong hội

nghị WePS thứ hai, nhiệm vụ về trích chọn thuộc tính đã được đưa ra [SJ09] và nó

tiếp tục được giải quyết trong WePS thứ ba [JAJ10]. Nhiệm vụ này trong WePS 2 là

trích chọn 18 giá trị thuộc tính của các cá nhân có tên xuất hiện trong từng trang

web được cung cấp. Để giải quyết nhiệm vụ này, rất nhiều kỹ thuật đã được các nhà

nghiên cứu sử dụng: NER, phân lớp, khai phá text, đối sánh mẫu, khai phá quan hệ,

trích chọn thông tin, v.v.. Tuy nhiên, kết quả thực nghiệm trên tập đánh giá với

2.883 văn bản là khá thấp, giá trị F cao nhất đạt được bởi hệ thống PolyUHK là

12,2% [SJ09]. Nhiệm vụ trích chọn thuộc tính trong WePS 3 tương đối khác so với

nhiệm vụ này trong WePS-2, các hệ thống tham dự được yêu cầu phải liên hệ từng

thuộc tính với một người (phân cụm văn bản). Hệ thống có kết quả tốt nhất đạt F là

18%, độ chính xác P 22% và độ hồi tưởng R là 24% [JAJ10] trên tập dữ liệu được

hội nghị cung cấp. WePS 2 cũng đưa ra kết luận rằng một số thuộc tính có tần số

xuất hiện cao hơn các thuộc tính khác, ví dụ như nghề nghiệp, tổ chức, ngày sinh,

v.v.. [SJ09]. Dựa vào những thuộc tính có tần số xuất hiện cao nhất do WePS 2 đưa

ra, luận án sử dụng 10 loại thuộc tính trong quá trình thực nghiệm, bao gồm: tên

khác, ngày sinh, ngày mất, nơi sinh, nơi mất, giới tính, nghề nghiệp, quốc tịch, nơi

làm việc và thân nhân.

37

Page 40: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Năm 2008, Banko và Etzioni đề xuất mô hình O-CRF [MO08] nhận dạng

đồng thời thực thể và các mối quan hệ thuộc tính liên quan đến thực thể dựa trên kỹ

thuật gán nhãn chuỗi CRF và các đặc trưng chung giữa thực thể và thuộc tính.Mô

hình này đạt độ chính xác và độ hồi tưởng tốt nhất lần lượt là 88,3% và 45,2% khi

áp dụng thêm một số kỹ thuật lai ghép (ensemble models) giữa mô hình CRF sử

dụng đặc trưng từ vựng truyền thống với mô hình CRF sử dụng đặc trưng liên quan

đến quan hệ. Năm 2014, nghiên cứu của Miwa và Sasaki [MY14] cũng thực hiện

việc nhận dạng đồng thời thực thể và mối quan hệ thuộc tính bằng kỹ thuật suy luận

gộp (joint inference). Kỹ thuật này kết hợp trọng số đầu ra của hai mô hình học trên

hai nhóm đặc trưng khác nhau vào cùng một bộ giải mã (decode) sử dụng giải thuật

Beam Search phục vụ cho việc nhận diện đồng thời cả thực thể và mối quan hệ

thuộc tính. Hiệu quả của việc kết hợp nhiều mô hình học giúp nhận diện đồng thời

cả thực thể và thuộc tính chính là một trong những lý do để nghiên cứu sinh sử dụng

kỹ thuật này vào trong việc nhận dạng thực thể và thuộc tính tiếng Việt.

2.2.2. Các nghiên cứu liên quan ở Việt Nam

Như đã trình bày ở phần 1.3.3, có không ít các nghiên cứu liên quan đến nhận

diện thực thể tại Việt Nam trong những năm gần đây. Các nghiên cứu đều cho thấy

hiệu quả của các mô hình nhận dạng với các kết quả khá khả quan, hầu hết từ 80-

90% với độ đo F. Tuy nhiên, bài toán trích chọn thuộc tính của thực thể lại chưa

được tập trung nghiên cứu. Nghiên cứu của Rathany Chan Sam và cộng sự năm

2010 [RHT10] xây dựng một hệ thống trích chọn quan hệ cho thực thể tên người và

các thực thể khác trong văn bản tiếng Việt dựa trên CRF, kết quả trung bình của độ

đo F là 82,1% cho quan hệ người – tổ chức, 86,91% cho quan hệ người – chức vụ

và 87,71% cho quan hệ người - địa điểm.

Vấn đề tích hợp hai bài toán gần nhau để xử lý đồng thời không phải là một

hướng đi hoàn toàn mới. Trong các nghiên cứu về xử lý ngôn ngữ tự nhiên tiếng

Việt, năm 2010, Tran Thi Oanh và cộng sự đã thực nghiệm tích hợp bài toán tách từ

và gán nhãn từ loại, kết quả thực nghiệm chỉ ra rằng phương pháp tích hợp không

chỉ tiết kiệm chi phí mà còn cải tiến được kết quả [TLH10]. Ngoài ra, trong số các

38

Page 41: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

nghiên cứu đã được công bố về xử lý ngôn ngữ tự nhiên tiếng Việt, phương pháp

học máy CRF luôn chứng minh được tiềm năng của mình trong việc xử lý bài toán

gãn nhãn chuỗi bằng kết quả tương đối khả quan: đạt F trung bình 94,05% cho tách

từ [CTX06], và độ chính xác trung bình là 90,17% cho gán nhãn từ loại [OCQ09].

2.3. Một mô hình giải quyết bài toán nhận dạng thực thể tên người kết

hợp với nhận dạng thuộc tính thực thể

Trong phần này, luận án trình bày mô hình đề xuất kết hợp nhận dạng thực thể

và thuộc tính của thực thể của luận án. Đầu tiên, luận án khái quát về hai phương

pháp học máy thống kê là phương pháp mô hình Entropy cực đại giải mã bằng tìm

kiếm chùm và phương pháp trường ngẫu nhiên có điều kiện (CRF), đây chính là hai

phương pháp nổi tiếng hỗ trợ cho bài toán gán nhãn chuỗi nói chung và bài toán

nhận dạng thực thể nói riêng. Tiếp theo, luận án giới thiệu về mô hình kết hợp nhận

dạng thực thể và thuộc tính của thực thể, các đặc trưng để huấn luyện mô hình cũng

sẽ được nêu rõ trong phần 2.3.4.

2.3.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS)

Mô hình Entropy cực đại (Maximum Entropy Model, Maxent Model) [BPP96]

là một thuật toán học máy thông dụng dựa trên xác suất có điều kiện được sử dụng

trong nhiều nghiên cứu về nhận dạng thực thể y sinh [CC03, LTC04]. Trong đó,

entropy là độ đo về tính đồng đều hay tính không chắc chắn của một phân phối xác

suất, một phân phối xác suất có Entropy càng cao thì phân phối của nó càng đều.

Ước lượng entropy cực đại là ước lượng ít lệch nhất có thể cho dữ liệu cho trước, tư

tưởng chủ đạo của nguyên lý này là xác định một phân phối mô hình sao cho phân

phối đó thỏa mãn các ràng buộc quan sát từ thực nghiệm và phải gần nhất với phân

phối đều, hay nói cách khác là làm entropy một phân phối cực đại dưới những ràng

buộc nhất định.

Maxent áp dụng cho bài toán gán nhãn chuỗi (sequence labeling) nguyên gốc

sử dụng thuật toán quy hoạch động Viterbi để giải mã [RA96]. Trong nghiên cứu

này, để giải quyết bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan,

39

Page 42: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

luận án áp dụng một phương pháp tìm kiếm xấp xỉ để giải mã là tìm kiếm chùm

(beam search, BS) thay vì Viterbi. Tìm kiếm chùm là một biến thể của tìm kiếm

theo chiều rộng sử dụng một tham số k để giảm thiểu không gian tìm kiếm (mô hình

mà luận án đề xuất thiết lập k = 3). Ưu điểm của việc sử dụng tìm kiếm chùm là

việc cho phép sử dụng một cách có kiểm soát entropy cực đại cho từng quyết định

gán nhãn nhưng bỏ qua khả năng tìm kiếm chuỗi nhãn tối ưu sử dụng các kỹ thuật

quy hoạch động, chính việc này đã nâng cao được tốc độ tính toán.

2.3.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF)

Trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) là một mô

hình rời rạc dựa trên ý tưởng gốc từ mô hình Markov ẩn (Hidden Markov Model,

HMM) [RA89] và được cải thiện để khắc phục các nhược điểm của HMM cũng như

của mô hình markov entropy cực đại (Maximum Entropy Markov Model, MEMM)

[MFP00]. CRF được Lafferty và cộng sự giới thiệu cho bài toán trích xuất thông tin

[LMP01].

Hình 2.1. Đồ thị vô hướng mô tả CRF

Kí hiệu X là biến ngẫu nhiên nhận giá trị là chuỗi dữ liệu cần phải gán nhãn và

Y là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng. Mỗi thành phần yi của Y

là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S. Trong bài

toán nhận dạng thực thể định danh, X có thể nhận giá trị là các câu trong văn bản, Y

là một chuỗi ngẫu nhiên các tên thực thể tương ứng với các câu này và mỗi một

thành phần yi của Y có miền giá trị là tập tất cả các nhãn tên thực thể (I_PER,

B_PER, …). Cho một đồ thị vô hướng không có chu trình G = (V, E), ở đây V là tập

40

Page 43: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

các đỉnh của đồ thị và E là tập các cạnh vô hướng nối các đỉnh đồ thị. Các đỉnh V

biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một-một giữa

một đỉnh và một thành phần của yv của Y. Ta nói (Y|X) là một trường ngẫu nhiên có

điều kiện khi với điều kiện X, các biến ngẫu nhiên yv tuân theo tính chất Markov đối

với đồ thị G:

(2.1)

ở đây, N(v) là tập tất cả các đỉnh kề với v. Như vậy, một CRF là một trường ngẫu

nhiên phụ thuộc toàn cục vào X. Kí hiệu X=(x1, x2,…, xn), Y=(y1, y2, ..., yn). Mô hình

đồ thị cho CRF có dạng như trong hình 2.1.

Tính ưu việt của CRF so với HMM thể hiện ở việc nó ước lượng các phân

phối xác suất có điều kiện theo trình tự gán nhãn, tính ưu việt này đã được chứng

minh qua nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn đang là một

trong những phương pháp học máy được ứng dụng nhiều trong lĩnh vực NLP.

2.3.3. Mô hình đề xuất

Trong phần này, nghiên cứu sinh đề xuất một mô hình tích hợp xử lý đồng

thời hai bài toan: bài toán nhận dạng thực thể và bài toán trích chọn các thuộc tính

liên quan của thực thể tên người. Nghiên cứu này dựa trên ba lý do chính: thứ nhất,

mô hình xử lý lần lượt thông thường có nhiều hạn chế khó có thể khắc phục, thứ

hai, cả hai bài toán nhận dạng thực thể và trích chọn thuộc tính của thực thể đều có

thể xử lý như một bài toán gán nhãn chuỗi với nhiều đặc trưng tương tự, thứ ba, sau

khi khảo sát dữ liệu, nghiên cứu sinh nhận thấy các nhãn của thực thể tên người,

loại thuộc tính và giá trị thuộc tính không có quá nhiều nhập nhằng, vì vậy chúng có

thể sử dụng cùng một tập nhãn.

Phạm vi của nghiên cứu hiện tại nằm ở mức câu, tức là thực thể tên người

chính và các thuộc tính của nó phải được nhắc đến trong cùng một câu.

Như đã nhắc đến ở phần trên, dựa vào những thuộc tính có tần số xuất hiện

cao nhất do WePS2 cung cấp [SJ09], luận án chọn sử dụng 10 loại thuộc tính trong

quá trình thực nghiệm. Rõ ràng rằng một số thuộc tính trong số này có thể là thuộc

về một loại thực thể nào đó (tên người, ngày tháng, địa điểm, v.v..), không giống

41

Page 44: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

với bài toán NER thông thường, luận án đề xuất sử dụng một tập nhãn hợp lý để xác

định một thực thể có thuộc về loại thuộc tính nào đó không, tập nhãn này phân biệt

giữa kiểu thuộc tính (tên khác, ngày sinh, ngày mất, nơi sinh, nơi mất, giới tính,

nghề nghiệp, quốc tịch, nơi làm việc và thân nhân) và giá trị cụ thể của thuộc tính.

Như vậy, ngoài thực thể chính, có thêm 20 nhãn tương ứng với các thuộc tính, các

nhãn này được liệt kê trong bảng 2.2. Tuân theo danh pháp BIO, có tất cả 43 thẻ

được sử dụng để gán nhãn tập huấn luyện, hình 2.2. là một ví dụ về câu được gán

nhãn.

Bảng 2.2. Các nhãn được sử dụng trong mô hình

STT Tên nhãn Ý nghĩa STT Tên nhãn Ý nghĩa

1 Oper Thực thể tên người

chính

2 Rper Thực thể tên người có

quan hệ nhân thân với

người chính

12 R_Relationship Quan hệ nhân thân

3 NickPer Tên gọi khác 13 R_OtherName Quan hệ tên gọi

khác

4 VBornLoc Nơi sinh, quê quán 14 R_WhereBorn Quan hệ nơi sinh,

quê quán

5 VDeadLoc Nơi mất 15 R_WhereDead Quan hệ nơi mất

6 VHomeLoc Quốc tịch 16 R_Nationality Quan hệ quốc tịch

7 VJobOrg Nơi làm việc 17 R_WhereJob Quan hệ nơi làm

việc

8 Vjob Nghề nghiệp 18 R_Job Quan hệ nghề

nghiệp

9 Vsex Giới tính 19 R_Sex Quan hệ giới tính

10 VBornTime Ngày tháng năm sinh 20 R_WhenBorn Quan hệ ngày

42

Page 45: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

tháng năm sinh

11 VDeadTime Ngày tháng năm mất 21 R_WhenDead Quan hệ ngày

tháng năm mất

Câu: “Hoàng Cầm tên thật là Bùi Tằng Việt, (sinh 22 tháng 2 năm 1922, tại xã Phúc Tằng, huyện Việt Yên, tỉnh Bắc Giang – mất 6 tháng 5 năm 2010 tại Hà Nội), là một nhà thơ Việt Nam”.

Hoàng Cầm:{OPer:B} tên:{R_OtherName:B} thật:{R_OtherName:I} là:{R_OtherName:I} Bùi Tằng Việt:{NickPer:B} ,:{} (:{} sinh:{R_WhenBorn:B} 22:{VBornTime:B} tháng:{VBornTime:I} 2:{VBornTime:I} năm:{VBornTime:I} 1922:{VBornTime:I} ,:{} tại:{R_WhereBorn:B} xã:{VBornLoc:B} Phúc Tằng:{VBornLoc:I} ,:{VBornLoc:I} huyện:{VBornLoc:I} Việt Yên:{VBornLoc:I} ,:{VBornLoc:I} tỉnh:{VBornLoc:I} Bắc Giang:{VBornLoc:I} –:{} mất:{R_WhenDead:B} 6:{VDeadTime:B} tháng:{VDeadTime:I} 5:{VDeadTime:I} năm:{VDeadTime:I} 2010:{VDeadTime:I} tại:{R_WhereDead:B} Hà Nội:{VDeadLoc:B} ):{} ,:{} là:{} một:{} nhà thơ:{VJob:B} Việt Nam:{VHomeLoc:B} .:{}

Hình 2.2. Một ví dụ về câu được gán nhãn

Mô hình được đề xuất gồm có ba pha chính, được mô hình hóa trong hình 2.3.

Đầu vào của mô hình là từng câu trong văn bản và đầu ra là các câu đã được gán

nhãn dựa trên mô hình nhận dạng.

Pha 1: Huấn luyện mô hình

Tập dữ liệu huấn luyện đã được gán nhãn sẽ được đưa qua công cụ vTools để

tiến hành tách từ, gán nhãn từ loại, đây là một công cụ được nghiên cứu sinh phát

triển nhằm mục đích hỗ trợ cho các bài toán xử lý ngôn ngữ tự nhiên tiếng Việt

[CTLA3]. Sau khi tiền xử lý, hệ thống trích chọn và biểu diễn dữ liệu đầu vào dưới

dạng một vector đặc trưng. Các đặc trưng được trích xuất dựa trên nhiều nguồn tri

thức và từ điển, các đặc trưng này sẽ được mô tả kỹ hơn trong mục 2.3.4. Các

vector đặc trưng sẽ được huấn luyện thành mô hình nhận dạng bằng các kỹ thuật

học máy thống kê như CRF hoặc MEM+BS.

Pha 2: Gán nhãn dữ liệu dựa trên mô hình nhận dạng thực thể và thuộc

tính

43

Page 46: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Trong pha này, dữ liệu kiểm thử hoặc dữ liệu chưa có nhãn được đưa qua mô

hình nhận dạng thực thể và thuộc tính đã được huấn luyện trong pha 1 để nhận dạng

các nhãn thực thể cũng như các nhãn thuộc tính. Trước khi đưa qua bước nhận

dạng, các dữ liệu cũng được đưa qua thành phần tiền xử lý dữ liệu bằng công cụ

vTools [CTLA3] để tiến hành tách từ, gán nhãn từ loại, sau đấy được trích xuất đặc

trưng như ở pha trên. Kết quả đầu ra của pha này sẽ là các câu đã được gán các

nhãn thực thể và nhãn thuộc tính như mô tả trong bảng 2.1.

Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên người

Pha 3 - Lọc câu lọc dữ liệu đã được gán nhãn thu được ở pha 2 và chỉ giữ

lại các câu có nhãn phù hợp.

Pha 3 dựa trên lập luận rằng một mối quan hệ giữa thuộc tính và thực thể phải

bao gồm 3 thành phần: thực thể chính (là một thực thể tên người), kiểu thuộc tính

và giá trị thuộc tính. Trong đó, kiểu thuộc tính có thể được thể hiện bằng từ vựng

44

Page 47: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

hoặc ẩn đi, nhưng hai thành phần còn lại bắt buộc phải xuất hiện trong câu. Như

vậy, trong pha này, tất cả các câu khuyết thiếu một trong hai thành phần thực thể

chính và giá trị thuộc tính đều bị loại bỏ. Các câu còn lại được coi là kết quả cuối

cùng của hệ thống.

2.3.4. Tập đặc trưng

Việc sử dụng nhiều nguồn tri thức có thể hỗ trợ cho việc cải thiện hiệu năng

của các hệ thống NLP. Trong nghiên cứu này, một tập đặc trưng phong phú (bảng

2.3) được xây dựng dựa trên nhiều nguồn tri thức.

Bảng 2.3. Tập đặc trưng được sử dụng

ST

TĐặc trưng Ký hiệu

1 Từ đang xét W0

2 Nhãn từ loại của từ đang xét (POS) POS (W0)

3Từ đang xét là chữ thường, viết hoa đầu

từ hay viết hoa toàn bộ?

Is_Lower(0,0)

Is_Initial_Cap (0,0)

Is_All_Cap (0,0)

4 Ngữ cảnh Wi (i = -2,-1,1,2))

5 Liên kết từ vựng Syllable_Conj (-2,2))

6 Biểu thức chính quy Regex(0,0)

7 Nhận dạng tiếng Việt Is_Valid_Vietnamese_Syllable(0,0)

8 Từ điểndict:name, dict:first_name,

dict:vname, dict:vfirst_name

9 Tiền tố prefix:per, prefix:loc, prefix:org

- Các đặc trưng của từ đang xét và ngữ cảnh: đây là các đặc trưng thông

thường được sử dụng trong nhiều nghiên cứu NLP [CTX06, OCQ09,

TLH10].

45

Page 48: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

- Cấu trúc hình thái chung của tiếng Việt được tổng kết trong nghiên cứu của

Cam Tu Nguyen và cộng sự [CTX06] (bao gồm cấu trúc âm tiết, từ vựng

tiếng Việt và các từ mới). Dựa trên nghiên cứu này, một số loại mẫu ngữ

cảnh vị ngữ (context predicate templates) được đề xuất cùng với đó là các

đặc trưng tương ứng. Cụ thể, các đặc trưng hình thái từ vựng, liên kết từ

vựng, biểu thức chính quy và đặc trưng từ có phải từ tiếng Việt hay không.

- Từ điển tên người tiếng Anh được trích xuất từ dữ liệu Freebase (1.397.865

từ).

- Ba từ điển hỗ trợ nhận dạng thực thể tiếng Việt được nghiên cứu sinh tự xây

dựng dựa trên việc thống kê trên các bài báo tiếng Việt:

o Từ điển tên người tiếng Việt (20.669 từ).

o Từ điển địa danh tiếng Việt (18.331 từ).

o Từ điển tiền tố (790 từ), bao gồm tiền tố cho tên người (ngài, PGS, v.v..),

tiền tố địa danh (quận, thành phố, v.v..) và tiền tố của tổ chức (trường đại

học, công ty, v.v..).

2.4. Thực nghiệm, kết quả và đánh giá

2.4.1. Công cụ và dữ liệu đánh giá

a. Dữ liệu huấn luyện và đánh giá

Thực nghiệm được tiến hành trên 10.000 câu được thu thập từ Wikipedia5

tiếng Việt, các câu được tiến hành gán nhãn thủ công các thực thể và các thuộc tính

thực thể. Thống kê dữ liệu trong tập thử nghiệm được trình bày chi tiết tại bảng 2.4.

Tập dữ liệu này sẽ phục vụ cho quá trình huấn luyện và kiểm thử. Việc đánh

giá dựa trên các độ đo chính xác (P), độ đo hồi tưởng (R) và độ đo F với phương

pháp kiểm thử chéo 10 lần.

Bảng 2.4. Thống kê thực thể trong tập dữ liệu được gán nhãn

5 http://vi.wikipedia.org/

46

Page 49: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

STT Nhãn Số lượng

thực thể

STT Nhãn Số lượng

thực thể

1 Oper 9869 12 R_OtherName 1528

2 NickPer 1873 13 R_Relationship 168

3 RPer 141 14 R_WhereBorn 1937

4 VBornLoc 2135 15 R_WhereDead 219

5 VDeadLoc 258 16 R_WhenDead 296

6 VHomeLoc 4986 17 R_Job 93

7 VJobOrg 2853 18 R_WhereJob 514

8 VJob 9611 19 R_Sex 72

9 VSex 1017 20 R_WhenBorn 4088

10 VBornTime 7440 21 R_WhenDead 293

11 VDeadTime 3216

b. Công cụ xử lý dữ liệu tiếng Việt Vtools

Bộ công cụ xử lý tiếng Việt Vtools [CTLA3] được nghiên cứu sinh xây dựng

dựa kỹ thuật Maxent kết hợp giải mã Beam search trên bộ dữ liệu trong cuộc thi

tách từ, gán nhãn từ loại và cụm từ tại hội thảo VLSP 20136. Tại cuộc thi này Vtools

có kết quả nhận dạng đạt giải nhì với độ đo F1 là 97,4 trong tách từ tiếng Việt,

90,73 trong việc nhận dạng từ loại và 83,17 trong nhận dạng cụm từ.

2.4.2. Kết quả thực nghiệm đánh giá trên toàn hệ thống

Để đánh giá hiệu quả, mô hình nhận diện đồng thời cả thực thể và quan hệ

được luận án đề xuất được so sánh với mô hình nhận dạng lần lượt thực thể và

thuộc tính tiếng Việt. Kết quả được xem xét ở cả mức tổng thể và cho từng thuộc

tính.

Trong thực nghiệm này, hai mô hình nhận dạng sẽ được so sánh:

6 http://vlsp.org.vn/vlsp2013/eval/ws-pos

47

Page 50: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

CM: Mô hình nhận dạng lần lượt thực thể và thuộc tính.

JM: Mô hình nhận dạng đồng thời thực thể và thuộc tính.

Với hai phương pháp học máy thống kê khác nhau là phương pháp CRF và

phương pháp MEM+BS. Phương pháp CRF được cài đặt dựa trên bộ công cụ mã

nguồn mở Mallet7 với các tham số được thiết lập để huấn luyện mô hình như sau:

- Huấn luyện CRF bằng giải thuật L-BFGS.

- Số lượng vòng lặp 100.

- Ngưỡng loại bỏ đặc trưng là 0, tức là không có đặc trưng nào bị loại bỏ khi

huấn luyện mô hình (cutoff=0).

Phương pháp MEM+BS được cài đặt dựa trên bộ công cụ mã nguồn mở

OpenNLP8 với các tham số sau:

- Sử dụng mô hình huấn luyện MEM bằng giải thuật L-BFGS.

- Số lượng vòng lặp 100.

- Ngưỡng loại bỏ đặc trưng là 0 (cutoff=0)

- Giải mã bằng Beam search với kích thước 3.

Các kết quả đánh giá mô hình được trình bày trong bảng 2.5.

Bảng 2.5. Kết quả đánh giá toàn hệ thống trên hai mô hình với hai phương pháp MEM+BS và CRF

P R F

CMMEM + BS (beam=3) 72,92 73,30 73,11

CRF 73,69 74,12 73,91

JMMEM + BS (beam=3) 83,72 82,54 83,13

CRF 84,0 82,56 83,39

Kết quả cho thấy mô hình kết hợp (JM) đạt hiểu quả tốt hơn nhiều kết quả của

mô hình nhận dạng lần lượt thực thể và quan hệ (CM) với độ đo F tại giải thuật

CRF là 83,39 so với 73,91. Nghiên cứu sinh đã phân tích kết quả đầu ra của hai mô

7 http://mallet.cs.umass.edu/

8 https://opennlp.apache.org/

48

Page 51: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

hình và nhận thấy mô hình nhận dạng lần lượt (CM) các nhóm thực thể tương tự

nhau bị nhầm lẫn khá nhiều do không có thông tin về thuộc tính của thực thể, cụ

thể:

Nhóm thực thể người: Oper, NickPer, Rper

Nhóm thực thể địa danh: VBornLoc, VDeadLoc, VHomeLoc

Nhóm thực thể thời gian: VBornTime, VdeadTime

Trong khi đấy các nhãn thuộc tính kết quả không thay đổi nhiều so với mô

hình nhận dạng đồng thời (JM). Kết quả chi tiết của từng loại thực thể và quan hệ sẽ

được trình bày cụ thể trong thực nghiệm đánh giá trên từng nhãn với phương pháp

CRF tại phần dưới.

2.4.3. Kết quả thực nghiệm đánh giá trên từng nhãn

Bảng 2.6 trình bày kết quả đánh giá bằng phương pháp CRF, là phương pháp

đạt hiệu quả tốt hơn như thể hiện tại Bảng 2.5. Nhìn chung, đây là một kết quả khá

khả quan (F nằm trong khoảng 80-90% cho hầu hết các nhãn giá trị thuộc tính và

70-80% đối với hầu hết nhãn kiểu thuộc tính). Kết quả của các nhãn giá trị thuộc

tính thường tốt hơn so với nhãn loại thuộc tính, đó là vì loại thuộc tính đôi khi là ẩn

(không được thể hiện thông qua các từ trong câu) và chịu ảnh hưởng của độ phức

tạp ngôn ngữ hơn các nhãn khác. Ngoài ra, trong số các nhãn giá trị thuộc tính hoặc

trong số các nhãn loại thuộc tính, kết quả đạt được cũng là không đồng đều, đó là vì

một số nhãn thường xuất hiện trong các cấu trúc phức tạp hơn các nhãn khác (ví dụ

như RPer, R_Sex...) hay một số nhãn khác lại được nhận dạng dưới sự hỗ trợ của từ

điển (ví dụ Oper, NickPer hay VhomeLoc...).

Bảng 2.6. Kết quả thực nghiệm đối với từng nhãn

ST

T

Nhãn Mô hình JM Mô hình CM

P R F P R F

1 OPer 91,35 90,33 90,84 66,51 73,78 69,96

2 NickPer 89,88 90,44 90,16 60,12 76,94 67,5

49

Page 52: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

3 RPer 80,46 78,65 79,54 69,25 63,55 66,28

4 VBornLoc 83,45 87,91 85,62 53,49 62,21 57,52

5 VDeadLoc 80,35 80,09 80,22 57,92 53,15 55,43

6 VHomeLoc 93,39 91,77 92,57 51,19 57,22 54,04

7 VJobOrg 78,25 83,69 80,88 73,39 79,46 76,3

8 VJob 81,49 78,22 79,82 80,17 79,23 79,7

9 VSex 90,45 87,56 88,98 91,32 88,71 90

10 VBornTime 83,77 90,39 86,95 67,79 61,25 64,35

11 VDeadTime 80,40 87,28 83,70 70,24 68,43 69,32

12 R_OtherName 91,67 85,19 88,31 89,34 87,04 88,18

13 R_Relationship 81,98 83,30 82,63 82,77 83,6 83,18

14 R_WhereBorn 80,89 81,74 81,31 80,42 77,23 78,79

15 R_WhereDead 80,23 85,36 82,72 78,52 84,92 81,59

16 R_WhenDead 85,65 85,99 85,82 88,64 86,19 87,4

17 R_Job 77,35 75,64 76,49 78,9 76,02 77,43

18 R_WhereJob 75,92 73,21 74,54 77,23 75,91 76,56

19 R_Sex 73,29 65,30 69,06 73,17 64,87 68,77

20 R_WhenBorn 85,75 83,22 84,47 83,52 82,61 83,06

21 R_WhenDead 76,10 72,77 74,40 73,59 74,28 73,93

Do các nghiên cứu liên quan không sử dụng bộ dữ liệu tương tự nên không thể

so sánh trực tiếp kết quả của luận án với các nghiên cứu khác. Ví dụ, mặc dù mục

tiêu của nghiên cứu này và nhiệm vụ trích chọn thuộc tính của WePS2 [SJ09] đều là

trích chọn thuộc tính của thực thể tên người, tuy nhiên giữa chúng có sự khác biệt

về cả dữ liệu, số lượng thuộc tính và ở mức độ phức tạp (WePS xử lý ở mức văn

bản, nghiên cứu trong luận án xử lý ở mức câu). Tuy nhiên, nhìn chung, đây là một

50

Page 53: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

kết quả khá khả quan và còn nhiều tiềm năng để tiếp tục cải thiện, giải quyết tốt vấn

đề ở mức câu sẽ là một tiền đề quan trọng để tiếp tục nâng cấp hệ thống xử lý ở

mức văn bản. Các kết quả cũng chỉ ra rằng phương pháp CRF đạt hiệu quả tốt hơn

là 83,39 với độ đo F cao hơn MEM+BS là 0,26. Bên cạnh đấy, mô hình kết hợp

chứng minh được việc giải quyết nhập nhằng tốt với các trường hợp các loại thực

thể nằm cùng một nhóm như nhóm thực thể người (Oper, NickPer, Rper), nhóm

thực thể địa danh (VBornLoc, VDeadLoc, VHomeLoc) và nhóm thực thể thời gian

(VBornTime, VdeadTime)

2.5. Mô hình áp dụng vào hệ thống hỏi đáp tên người tiếng Việt

2.5.1. Khái quát bài toán

Bài toán tìm kiếm tên người đã và đang nhận được sự quan tâm của cộng đồng

nghiên cứu và là chủ đề của nhiều hội thảo khoa học như WePS, ACL, v.v.. Nhiều

hệ thống tìm kiếm thực thể tên người đã và đang được phát triển để phục vụ cho

nhu cầu tìm kiếm này như Piple.com9, Spokeo.com10, v.v.. Cùng với đó, bài toán hỏi

đáp tự động tập trung vào thực thể tên người cũng là một hướng nghiên cứu đầy

tiềm năng và thách thức. Nắm bắt được nhu cầu thực tế nói trên, luận án đề xuất

một mô hình hỏi đáp thực thể tên người tiếng Việt áp dụng kết quả nhận dạng thực

thể được nêu ra ở phần trên. Hệ thống này sẽ nhận đầu vào là một câu hỏi đơn giản

về người ở dạng ngôn ngữ tự nhiên tiếng Việt và trả về kết quả đầu ra là tên thực

thể tên người tương ứng. Việc phân tích câu hỏi cũng như trả lời cho câu hỏi là bài

toán dựa nhiều vào việc phân tích và xử lý ngôn ngữ tự nhiên. Mấu chốt ở đây là

bản chất phức tạp của ngôn ngữ tự nhiên, đặc biệt là sự đa nghĩa và nhập nhằng ngữ

nghĩa của ngôn ngữ. Không những vậy, giữa câu hỏi và câu trả lời còn tồn tại các

quan hệ “ngầm” hay phụ thuộc vào ngữ cảnh hoặc từ ngữ tương đồng.

9 http://pipl.com/

10 http://www.spokeo.com/

51

Page 54: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Giả sử, trong dữ liệu có chứa câu “Nhà văn Nguyễn Du viết Truyện Kiều sau

khi đi sứ Trung Quốc từ năm 1814 đến năm 1820.”, câu này có thể là tài nguyên để

trả lời một số câu hỏi sau đây:

Câu hỏi 1: Truyện Kiều do ai sáng tác?

Câu hỏi 2: Ai là tác giả của truyện Kiều?

Trả lời: Nguyễn Du

Trong tiếng Việt, câu hỏi về người thường chứa các từ để hỏi như: là ai, ai là,

của ai, do ai, vì ai, người nào… Hệ thống QA được xây dựng trong luận án yêu cầu

đầu vào là các câu hỏi đơn giản (factoid question) tiếng Việt với kết quả trả lời là

tên người. Có thể xem các câu hỏi đầu vào của hệ thống là dạng các câu hỏi

WHO/WHOM/WHOSE trong tiếng Anh. Các khái niệm liên quan đến câu hỏi đơn

giản và đặc trưng của câu hỏi trong tiếng Việt sẽ được giới thiệu trong phần tiếp

theo.

2.5.2. Đặc trưng câu hỏi liên quan đến thực thể tên người trong tiếng Việt

Để đưa ra một khái niệm rõ ràng về các câu hỏi được giải quyết trong hệ thống

hỏi đáp, nghiên cứu sinh đã tìm hiểu theo hai hướng: hướng nghiên cứu về định

nghĩa câu hỏi trong hệ thống hỏi đáp tiếng Anh và hướng nghiên cứu các đặc trưng

trong câu hỏi tiếng Việt. Từ hai hướng nghiên cứu này nghiên cứu sinh đã đưa ra

một số khái niệm cụ thể về loại câu hỏi tiếng Việt liên quan về thực thể tên người áp

dụng trong hệ thống hỏi đáp.

Đối với hướng nghiên cứu về định nghĩa câu hỏi trong hệ thống hỏi đáp

tiếng Anh, hầu như các nghiên cứu về hệ thống hỏi đáp hiện nay phần lớn tập trung

vào việc giải quyết ba loại câu hỏi do hội thảo TREC đưa ra là câu hỏi đơn giản

(factoid question), câu hỏi danh sách (list question), câu hỏi định nghĩa (definition

question) [Vo03]. Nghiên cứu của Giampiccolo và cộng sự (2008) chỉ ra rằng các

loại câu hỏi với câu trả lời là chỉ có một tên người (thực thể tên người) được xếp

vào loại câu hỏi đơn giản (factoid question) [GFH08]. Theo định nghĩa từ hội thảo

TREC, câu hỏi đơn giản (factoid question) là những câu hỏi về các sự vật, sự kiện

đơn lẻ,.. có câu trả lời là những đoạn văn bản ngắn nằm sẵn trong tài liệu [Vo03].

52

Page 55: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Đối với các nghiên cứu về đặc trưng câu hỏi trong tiếng Việt, Phan và cộng sự

(2010) đã đưa ra một số phân tích về các dạng câu hỏi trong tiếng Việt, nghiên cứu

cũng chỉ ra một số thành phần đặc trưng chính của câu hỏi như chủ thể, hành động,

tân ngữ trực tiếp, tân ngữ gián tiếp [PNH10]. Từ nghiên cứu này, có thể thấy các

câu hỏi về người nằm ở hai dạng chính: dạng hai lớp tân ngữ và dạng ba lớp tân

ngữ, ở đây chủ thể cũng được xem như là một tân ngữ của câu hỏi.

Dạng hai lớp tân ngữ có các cấu trúc sau:- Chủ thể + Hành động + Tân ngữ trực tiếp

Ví dụ: Ai là người viết cuốn sách Harry Potter?- Tân ngữ trực tiếp + Chủ thể + Hành động

Ví dụ: Cuốn sách Harry Potter được ai viết?- Tân ngữ trực tiếp + Hành động + Chủ thể

Ví dụ: Cuốn sách Harry Potter được viết bởi ai?Ở đây, Tác giả (chủ thể hỏi) và sách (Harry Potter) là hai lớp tân ngữ, viết là

hành động.

Dạng ba lớp tân ngữ có các cấu trúc sau:

- Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp + Tân ngữ gián tiếp

Ví dụ: Ai là nhà văn viết cuốn Harry Potter xuất bản năm 2004?

- Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp

Ví dụ: Ai là nhà văn của cuốn Harry Potter xuất bản năm 2004?

Ở đây, Tác giả (nhà văn), sách (Harry Potter), năm (năm 2004) là ba lớp

tân ngữ, viết là hành động.

Từ hai hướng nghiên cứu trên cũng như thông qua việc khảo sát các câu hỏi về

người trong tiếng Việt, nghiên cứu sinh đưa ra khái niệm về dạng câu hỏi đơn giản

liên quan đến thực thể tên người như trong định nghĩa 2.1.

Định nghĩa 2.1: Câu hỏi đơn giản về thực thể tên người tiếng Việt (gọi tắt là

câu hỏi đơn giản hỏi người) là một câu hỏi gồm một thành phần chủ-vị, ngoài ra

còn có thể có thêm thành phần bổ ngữ và chỉ duy nhất hỏi về một ý và có câu trả lời

là thực thể chỉ người. Xét về đặc trưng, câu hỏi dạng này gồm có các đặc trưng sau:

loại câu hỏi, tân ngữ, cụm danh từ tác động lên tân ngữ, cụm động từ tác động lên

53

Page 56: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

tân ngữ, cụm tính từ tác động lên tân ngữ, bổ nghĩa về mặt chức vụ/nghề nghiệp, bổ

nghĩa về mặt thời gian, địa điểm.

Ví dụ câu hỏi đơn giản hỏi về người: “Ai là người viết Tuyên ngôn Độc lập?”

Ví dụ câu hỏi không phải là câu hỏi đơn giản hỏi người: “Ai là người đọc và

viết Tuyên ngôn Độc lập?” (Câu này chứa hai ý hỏi: “ai là người đọc Tuyên ngôn

Độc lập” và “ai là người viết Tuyên ngôn Độc lập”).

2.5.3. Mô hình đề xuất

Mô hình hỏi đáp thực thể tên người cho tiếng Việt được đề xuất và đặt tên là

VPQA. Mô hình sử dụng phương pháp phân tích câu hỏi bằng kỹ thuật học máy

CRF cùng với chiến lược trả lời tự động dựa trên thông tin được truy vấn từ máy

tìm kiếm. Mô hình tổng quát của hệ thống được nêu ra trong hình 2.4.

Mô hình hỏi đáp bao gồm 3 thành phần chính: thành phần phân tích câu hỏi,

thành phần xử lý dữ liệu trả lời và thành phần trả lời câu hỏi.

54

Page 57: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Hình 2.4. Mô hình hệ thống hỏi đáp thực thể tên người tiếng Việt

a. Thành phần phân tích câu hỏi

Hệ thống sẽ tiến hành phân tích câu hỏi dựa trên kỹ thuật gãn nhãn các thành

phần câu hỏi như thành các từ/cụm từ/ngữ tương ứng với các thành phần đặc trưng

(ví dụ đặc trưng về loại câu hỏi, đặc trưng về nghề nghiệp, chức vụ, thời gian, cụm

động từ/danh từ/tính từ, v.v..). Bảng 2.7 đưa ra một ví dụ về các thành phần câu hỏi.

Bảng 2.7. Ví dụ về một số thành phần câu hỏi

55

Page 58: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Câu hỏi: Chiếc máy ảnh đầu tiên do ai phát minh ra?

Chiếc máy ảnh Tân ngữ trực tiếp

đầu tiên Cụm từ bổ nghĩa thời gian cho tân ngữ

do ai Loại câu hỏi

phát minh ra Cụm động từ tác động lên đối tượng

Dựa trên các nghiên cứu đặc trưng câu hỏi trong tiếng Anh và tiếng Việt đã

được nêu ra trong phần 2.5.2, nghiên cứu sinh đã xây dựng một tập nhãn các thành

phần câu hỏi thực thể tên người tổng quát như trình bày ở Bảng 2.8.

Bảng 2.8. Các thành phần xuất hiện trong câu hỏi về thực thể tên người

Ký hiệu Ý nghĩa

WH Nhãn đặc trưng về loại câu hỏi

D_Attr Nhãn đặc trưng về nghề nghiệp, chức vụ

D_Time Nhãn đặc trưng về thời gian

D_Loc Nhãn đặc trưng về địa điểm, nơi chốn

D_Other Các đặc trưng khác

A_W Nhãn đặc trưng về cụm tính từ tác động lên tân ngữ

V_W Nhãn đặc trưng về cụm động từ tác động lên tân ngữ

N_W Nhãn đặc trưng về cụm danh từ tác động lên tân ngữ

Obj Nhãn tân ngữ trực tiếp của câu hỏi

O Nhãn khác

Ở đây các tân ngữ gián tiếp đã được phân tích thành các cụm từ bổ nghĩa cho

tân ngữ trực tiếp như bổ nghĩa về chức vụ, thời gian, địa điểm. Câu ví dụ tại bảng

2.7 sẽ được gán lại với các nhãn tổng quát như thể hiện tại Bảng 2.9.

Các câu hỏi được đưa vào thành phần phân tích câu hỏi sẽ được gán nhãn tự

động dựa trên mô hình gán nhãn được sinh ra bằng phương pháp học máy CRF

(phương pháp trường ngẫu nhiên có điều kiện đã được trình bày tại phần 2.3.2). Mô

hình gán nhãn này được huấn luyện trên tập dữ liệu các câu hỏi tiếng Việt đã được

56

Page 59: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

gán các nhãn tổng quát. Trước khi được gán nhãn, các câu hỏi sẽ được đưa qua

công cụ vTools [CTLA3] để tiến hành các bước tiền xử lý như tách từ và gán nhãn

từ loại.

Bảng 2.9. Ví dụ gán nhãn tổng quát cho câu hỏi về thực thể tên người tiếng Việt

Cụm từ Nhãn

Chiếc máy ảnh Obj

đầu tiên D_Time

do ai WH

phát minh ra V_W

Tập đặc trưng được sử dụng trong mô hình huấn luyện gán nhãn thành phần

câu hỏi cũng được sử dụng như tập đặc trưng được nêu ra trong phần 2.3.4 gồm các

đặc trưng về từ vựng, đặc trưng về nhãn từ vựng, đặc trưng từ điển, đặc trưng tiền tố

từ. Đối với đặc trưng về từ điển, các danh sách từ chỉ nghề nghiệp, chức vụ cũng

như địa danh sẽ được sử dụng để tăng cường thông tin cho mô hình học.

Sau khi các câu hỏi đã gán nhãn, một số thành phần của câu hỏi sẽ được đưa

qua bước mở rộng để tìm các từ đồng nghĩa liên quan nhằm đưa thêm các thông tin

hữu ích về câu hỏi phục vụ cho quá trình trả lời. Ví dụ, thành phần cụm động từ tác

động lên tân ngữ của câu hỏi trong bảng 2.9 (“phát minh ra”) sẽ được mở rộng thêm

các từ đồng nghĩa như “tìm ra” hay “nghiên cứu ra”. Để phục vụ cho bước mở rộng

câu hỏi, một từ điển đồng nghĩa tiếng Việt đã được sử dụng nhằm hỗ trợ cho việc

tìm thêm các thành phần bổ sung.

b. Thành phần xử lý dữ liệu trả lời

Để phục vụ cho quá trình trả lời câu hỏi, các thông tin liên quan đến miền dữ

liệu về thực thể tên người đã được thu thập và xử lý. Dữ liệu này đòi hỏi phải đủ lớn

để bao quát được miền dữ liệu hỏi cũng như đủ tin cậy để đảm bảo tính đúng đắn

của kết quả trả lời. Trong các nhiệm vụ về hệ thống hỏi đáp tự động như TREC

2004, TREC 2006, TREC 2007 hay các nghiên cứu của Yang và cộng sự [YYW15]

57

Page 60: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

cũng như nghiên cứu của Kaiser [Kai08] đã chỉ ra rằng dữ liệu từ Wikipedia được

xem là nguồn dữ liệu tốt khi đảm bảo được số lượng dữ liệu lớn và mở cũng như

đảm bảo được chất lượng thông tin về miền tri thức.

Dữ liệu tiếng Việt từ Wikipedia được cập nhập thường xuyên và cung cấp tại

trang web Wikipedia Downloads11, dữ liệu gồm khoảng 500.000 bài viết tiếng Việt

(thống kê tại thời điểm tháng 09/2012) . Dữ liệu Wikipedia sau khi được tải về được

đưa qua công cụ vTools để tiến hành tách câu, tách từ và gán nhãn từ loại, dữ liệu

cũng được gán nhãn thực thể sử dụng mô hình nhận dạng thực thể và thuộc tính

thực thể đã được trình bày tại mục 2.3.3. Sau khi tiền xử lý dữ liệu, một lượng lớn

các câu không chứa thực thể tên người sẽ được loại bỏ, những câu có chứa thực thể

tên người sẽ được đưa vào lưu trữ. Để dễ dàng tìm kiếm và thu thập kết quả trả lời,

các câu trên sẽ được đánh chỉ mục và lưu trữ bằng công cụ Apache Lucene 12. Hơn

40 triệu câu tiếng Việt có chứa thực thể tên người đã được hệ thống lưu trữ và đánh

chỉ mục.

c. Thành phần trả lời câu hỏi

Đối với phương pháp trả lời dựa vào nguồn tri thức tự thu thập, khả năng trả

lời phụ thuộc vào độ rộng của kho tri thức. Số lượng dữ liệu của kho tri thức càng

nhiều thì khả năng trả lời càng cao và ngược lại. Phương pháp được áp dụng trong

thành phần trả lời câu hỏi được cải tiến từ phương pháp AskMSR [BBD02], tuy

nhiên thay vì chỉ sử dụng thống kê n-gram của từ/cụm từ trong các phần tóm tắt trả

về từ máy tìm kiếm, hệ thống tiến hành thống kê theo các thực thể thu được từ quá

trình NER các văn bản tóm tắt này. Việc sử dụng nhận dạng thực thể hứa hẹn sẽ

đem lại kết quả tốt hơn. Các bước được thực hiện để tìm kiếm câu trả lời cho câu

hỏi về người như sau:

Bước 1: Từ các thành phần của câu hỏi đã được gán nhãn tổng quát lựa chọn

một số thành phần chính để xây dựng câu truy vấn cho hệ thống lưu trữ. Các

nhãn đặc trưng về thuộc tính (D_Attr, D_Time, D_Loc, D_Other), nhãn đặc

11 https://dumps.wikimedia.org/

12 https://lucene.apache.org

58

Page 61: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

trưng cụm từ (A_W, V_W, N_W) và nhãn tân ngữ (Obj) sẽ được sử dụng để

xây dựng câu truy vấn. Ví dụ: câu hỏi “Chiếc máy ảnh đầu tiên do ai phát minh

ra?” chuyển thành câu truy vấn đã được mở rộng như sau: “chiếc máy ảnh” +

“đầu tiên” + “phát minh ra” OR “nghiên cứu ra”. Một số toán từ hỗ trợ cho

việc tìm kiếm trong cộng cụ Lucene được sử dụng để xây dựng câu truy vấn

dữ liệu hữu hiệu.

Bước 2: Câu truy vấn sẽ được đưa vào hệ thống lưu trữ và đánh chỉ mục để

tìm kiếm các câu có chứa thực thể tên người có liên quan. Hệ thống sử dụng

độ đo cosine để tính sự tương quan giữa câu truy vấn và các câu có trong hệ

thống lưu trữ. Công thức cosine được diễn đạt như sau:

cosine (q , s )= V⃗ (q)∙ V⃗ (s)|V⃗ (q)||⃗V (s)|

Với q là câu truy vấn, s là câu chứa thực thể có trong hệ thống lưu trữ, V⃗ (q) là

vector biểu diễn câu truy vấn q, V⃗ (s) là vector biểu diễn câu trong hệ thống lưu trữ.

Ở đây danh sách k câu có trọng số cao nhất sẽ được trả về từ hệ thống lưu trữ,

bên cạnh đấy các câu có giá trị được tính bằng cosine nhỏ hơn ngưỡng t cho trước

sẽ được loại bỏ. Một số câu hỏi không có kết quả trả về nào được xem như là không

trả lời được. Sau quá trình nghiên cứu thử nghiệm, nghiên cứu sinh chọn k = 20 và t

= 0,3.

Tìm kiếm dựa trên máy tìm kiếm: Bên cạnh việc sử dụng các dữ liệu

Wikipedia tiếng Việt đã được đánh chỉ mục hệ thống cũng sử dụng thêm nguồn dữ

liệu từ các máy tìm kiếm lớn như Google. Cách thức áp dụng dữ liệu từ máy tìm

kiếm cũng tương tự như trên hệ thống tự lưu trữ và đánh chỉ mục. Câu truy vấn từ

bước 1 sẽ được đưa vào máy tìm kiếm Google và lấy ra k tài liệu liên quan, các tài

liệu sẽ được tách câu, nhận dạng thực thể để trích xuất các câu có chứa thực thể tên

người liên quan đến câu hỏi, các câu này sau đấy cũng được tính trọng số cosine

như cách thức đã được mô tả ở trên.

Bước 3: Thực thể tên người có trong các câu được trả về từ hệ thống lưu trữ

hay máy tìm kiếm sẽ được thống kê theo tần số xuất hiện. Thực thể có tần số

59

Page 62: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

xuất hiện lớn nhất được xem là câu trả lời cho câu hỏi đầu vào của hệ thống

hỏi đáp tự động. Nếu có nhiều thực thể có cùng tần số xuất hiện, hệ thống sẽ

tự động chọn thực thể xuất hiện trong các câu có trọng số cosine lớn nhất.

2.5.4. Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động

Có nhiều phương pháp để đánh giá kết quả của hệ thống hỏi đáp tự động, ở

đây nghiên cứu sinh chọn phương pháp đánh giá phổ biến nhất là nhóm ba độ đo

gồm độ đo chính xác, độ đo hồi tưởng và độ đo F, đây cũng là độ đo được sử dụng

tại chuỗi nhiệm vụ TREC [Vo03]. Tập dữ liệu đánh giá bao gồm 1000 câu hỏi được

xây dựng và gán nhãn thủ công. Các câu hỏi là dạng câu hỏi đơn giản hỏi về thực

thể tên người và được gán các nhãn thành phần như đã mô tả trong bảng 2.8. Các

thông tin thống kê về tập dữ liệu câu hỏi được mô tả trong bảng 2.10.

Bảng 2.10. Thống kê trên tập dữ liệu câu hỏi đánh giá

Thống kê Số lượng

Số lượng câu hỏi 1000

Số lượng từ vựng 8739

Số lượng nhãn đặc trưng chỉ thuộc tính của thực thể tên người

(Nhãn D_Attr, D_Time, D_Loc, D_Other)1874

Số lượng nhãn đặc trưng cụm từ tác động lên tân ngữ

(Nhãn A_W, V_W, N_W)954

Số lượng nhãn tân ngữ 2570

Hệ thống sử dụng tập dữ liệu từ điển đồng nghĩa với 40.788 cụm từ đồng

nghĩa được cung cấp bởi dự án Wordnet tiếng Việt13.

2.5.6. Thực nghiệm và đánh giá

Để đánh giá hiệu quả của mô hình hệ thống hỏi đáp được đề xuất, luận án trình

bày hai thực nghiệm: thực nghiệm đánh giá hiệu quả của thành phần phân tích câu

13 http://viet.wordnet.vn/wnms/

60

Page 63: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

hỏi sử dụng phương pháp học máy CRF và thực nghiệm đánh giá hiệu quả trả lời

của hệ thống trả lời tự động.

a. Thực nghiệm đánh giá hiệu quả của thành phần phân tích câu hỏi

Bộ dữ liệu 1000 câu hỏi đã gán nhãn sẽ được sử dụng để đánh giá hiệu quả

của thành phần phân tích câu hỏi áp dụng phương pháp học máy CRF với các tham

số tương tự như trong mục 2.4.2. Kỹ thuật kiểm thử chéo 10 phần (10 folds cross

validation) được sử dụng để đánh giá hiệu quả trên ba độ đo: độ chính xác (P), độ

hồi tưởng (R) và độ đo F. Kết quả từng phần được thể hiện trong bảng 2.11.

Bảng 2.11. Kết quả đánh giá thành phần phân tích câu hỏi

Độ chính

xác

Độ hồi

tưởngĐộ đo F

Độ chính

xác

Độ hồi

tưởngĐộ đo F

Fold 1 89,7 90,2 89,95 Fold 6 92,43 93,45 92,93

Fold 2 94,1 95,05 94,57 Fold 7 91,3 92,67 91,98

Fold 3 96,4 96,83 96,61 Fold 8 88,35 89,45 88,89

Fold 4 93,07 94,23 93,64 Fold 9 91,5 92,11 91,80

Fold 5 94,58 96,11 95,33 Fold 10 93,32 95,01 94,15

Trung bình 92,47 93,51 92,99

Độ chính xác đạt được của thành phần phân tích câu hỏi dựa trên mô hình

CRF là khá khả quan dao động từ 88,89 đến 96,61 với độ đo F. Tại một số fold kết

quả đánh giá còn chưa đạt được như ý muốn tuy nhiên việc này có thể khắc phục

bằng việc tăng cường thêm dữ liệu huấn luyện và một số đặc trưng liên quan đến từ

điển.

b. Thực nghiệm đánh giá hiệu quả trả lời tự động của mô hình hỏi đáp

Trong thực nghiệm này, mô hình hệ thống hỏi đáp tự động sẽ đưa ra kết quả

trả lời đối với 1000 câu hỏi trong tập đánh giá, hiệu quả của mô hình được thể hiện

và đánh giá thông qua bốn độ đo: độ đo chính xác (P), độ đo hồi tưởng (R), độ đo F

và trung bình thời gian trả về câu hỏi. Thời gian trung bình trả về câu hỏi sẽ được

61

Page 64: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

tính trên trung bình thời gian trả lời 1000 câu hỏi trong tập dữ liệu đánh giá. Việc

đánh giá sẽ được tiến hành trên bốn chiến lược trả lời tự động:

Chiến lược Baseline: chiến lược này sử dụng phương pháp AskMSR

[BBD02] để trả lời tự động. Trong phương pháp này việc trả lời tự động sẽ

được thống kê dựa trên tần suất của các cụm n-gram xuất hiện trong các câu

trả về từ máy tìm kiếm. Để nâng cấp kết quả của AskMSR, nghiên cứu sinh

chỉ thống kê trên các cụm danh từ riêng và không sử dụng thông tin từ bước

nhận dạng thực thể và thuộc tính thực thể.

Chiến lược KLB: trả lời dựa trên dữ liệu Wikipedia tự lưu trữ và đánh chỉ

mục (KLB).

Chiến lược SEB: trả lời sử dụng máy tìm kiếm Google (đã được trình bày

trong mục (c) phần 2.5.3)

Chiến lược KLB+SEB: kết hợp hai ở trên chiến lược trên theo cách nếu hệ

thống không trả lời được bằng KLB thì đưa qua SEB để giải quyết.

Kết quả được tính theo 3 mức: top 1 (hệ thống trả về câu trả lời là một thực thể

duy nhất), top 3 (trả về 3 thực thể tên người có trọng số cao nhất) và top 5 (trả về 5

thực thể tên người có trọng số cao nhất). Kết quả đúng sẽ được tính nếu câu trả lời

nằm trong danh sách các kết quả trả về. Bảng 2.12 trình bày các kết quả đánh giá

theo các độ đo khác nhau.

Bảng 2.12. Kết quả đánh giá của hệ thống trả lời tự động

62

Page 65: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Top 1 Top 3 Top 5

T

(ms)

P R F P R F P R F

Baseline 62 54,3

6

42,1

3

47,4

7

60,1

9

45,5

9

51,8

8

62,7

8

50,1

2

55,7

4

KLB 58 79,6

8

55,6 65,5

0

89,3

9

60,3 72,0

2

90,0

3

60,2 72,1

5

SEB 2

8.059

71,4

4

90 79,6

5

72,1

8

91,3 80,6

2

73,1

7

91,7 81,3

9

KLB+SE

B

1

1.630

74,6

3

87,9 80,7

2

79,6

2

89,3 84,1

8

80,0

2

91,1 85,2

0

Các kết quả đánh giá chỉ ra rằng các chiến lược trả lời sử dụng kết quả từ pha

nhận dạng thực thể và thuộc tính cho kết quả tốt hơn nhiều so với không sử dụng

(chiến lược Baseline), cụ thể là 65,50, 79,65, 80,72 so với 47,47 (đánh giá trên top

1). Bên cạnh đấy, có thể thấy chiến lược trả lời dựa trên hệ thống tìm kiếm cho kết

quả với độ chính xác khá tốt 79,65 trên độ đo F, trong khi trả lời dựa trên kho tri

thức tự lưu trữ chỉ đạt 65,50 mặc dù độ chính xác cao hơn 79,68 so với 71,44. Điều

này có thể dễ dàng giải thích là do tri thức miền của các máy tìm kiếm như Google

có độ phủ rộng hơn, tuy nhiên tốc độ trả lời từ các máy tìm kiếm là rất chậm

(28.059ms so với 58ms) do phụ thuộc khá nhiều vào tốc độ tải dữ liệu từ mạng

Internet và thời gian tiền xử lý như tách câu, tách từ, nhận dạng thực thể đối với các

dữ liệu trả về. Việc đề xuất kết hợp KLB và SEB giúp khắc phục những nhược điểm

của cả chiến lược khi đạt hiệu quả cao nhất 80,72 với độ đo F và tốc độ trả lời giảm

hơn một nửa so với chiến lược SEB. Các kết quả đánh giá đã thể hiện được tính

đúng đắn của mô hình đề xuất cũng như tiềm năng ứng dụng trong thực tế.

63

Page 66: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

2.6. Tổng kết chương

Trong chương 2, luận án đã giới thiệu một mô hình nhận dạng thực thể kết

hợp với việc nhận dạng các thuộc tính liên quan đến thực thể trong tiếng Việt. Thực

nghiệm đã đạt hiệu quả khả quan trên tập dữ liệu kiểm thử cho thấy tính đúng đắn

của mô hình đề xuất. Các bên quả cũng thể hiện rõ được việc đưa ra một mô hình

kết hợp đạt kết quả tốt hơn việc nhận dạng lần lượt thực thể và thuộc tính thực thể

trong miền dữ liệu các thực thể tiếng Việt.

Luận án cũng trình bày một mô hình áp dụng nhận dạng thực thể vào bài toán

hỏi đáp tự động tiếng Việt cho miền dữ liệu các câu hỏi về người. Mô hình nhận

dạng kết hợp nhiều nguồn tri thức từ Wikipedia và máy tìm kiếm Google cho phép

trả lời chính xác được nhiều câu hỏi hơn trong khoảng thời gian cho phép.

Các nghiên cứu được nêu trong chương này đã được tổng hợp và công bố

trong các công trình [CTLA5, CTLA6] tại các hội nghị quốc tế có phản biện.

64

Page 67: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN

Y SINH TIẾNG ANH

Chương 3 giới thiệu cụ thể bài toán nhận dạng thực thể (NER) trong văn bản y

sinh. Luận án tập trung nhận dạng thực thể biểu hiện cùng với một số thực thể y

sinh phổ biến khác có liên quan. Phần 1 của chương giới thiệu về một số khái niệm

liên quan đến bài toán nhận dạng thực thể biểu hiện và vấn đề hiệu quả của mô hình

nhận dạng khi chuyển đổi giữa các miền dữ liệu. Phần 2 đi sâu vào bài toán nhận

dạng thực thể biểu hiện, từ cơ sở lý thuyết đến xây dựng dữ liệu, đề xuất mô hình

giải quyết. Phần tiếp theo sẽ nêu ra các thực nghiệm nhằm chứng minh tính đúng

đắn của mô hình nhận dạng được đề xuất cũng như các thực nghiệm nhằm đánh giá

phân tích quá trình thích nghi miền. Phần cuối cùng của chương là phần tổng kết,

trong phần này, bên cạnh việc tổng kết các đóng góp chính của chương, các công bố

khoa học liên quan đến từng đóng góp cũng được chỉ rõ.

3.1. Giới thiệu

Đầu tiên, luận án nêu lên động cơ nghiên cứu và khái niệm về bài toán NER

trong dữ liệu y sinh, sau đó giới thiệu các khái niệm cơ bản có liên quan, sau đó,

luận án nêu lên một vài thách thức cơ bản cần giải quyết đối với bài toán NER và

vấn đề hiệu quả của hệ thống NER khi thích nghi sang một miền dữ liệu y sinh

khác.

3.1.1. Động cơ và khái quát bài toán nhận dạng thực thể biểu hiện

Như đã được phân tích ở chương 1, nhận dạng thực thể y sinh chính là một

bước nền tảng trong việc xây dựng các hệ thống thuộc lĩnh vực này. Dưới đây là

một định nghĩa về nhận dạng thực thể y sinh [CTLA4].

“Nhận dạng thực thể y sinh (Biomedical NER) là một (nhóm) kỹ thuật tính toán được dùng để nhận dạng và phân lớp các chuỗi văn bản về các khái niệm quan trọng trong văn bản y sinh.”

65

Page 68: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Trong giai đoạn đầu những năm 2000, các nghiên cứu về y sinh tập trung

nhiều vào việc phân tích các bệnh thông qua mối quan hệ giữa bệnh và gene. Chính

vì thế các thực thể liên quan đến gene như gene, tế bào, DNA... được quan tâm chủ

yếu trong nhận dạng thực thể y sinh. Tuy nhiên kể từ sau khi cộng đồng nghiên cứu

y sinh phát hiện và xác nhận mối quan hệ giữa bộ gen, môi trường (environment) và

biểu hiện, các dữ liệu biểu hiện đã được sử dụng trong nhiều vấn đề liên quan đến

bệnh như nghiên cứu mối quan hệ giữa bệnh và gen [HSG11, SOK13], thay đổi

mục đích thuốc (drug repurposing) [HHH12] hay trong một số nghiên cứu về sự

tiến hóa [MAC07]. Một số tài nguyên đã được phát triển cho các mối quan hệ giữa

kiểu gen và biểu hiện như cơ sở dữ liệu Mouse Genome Informatics database

(MGD) [BSS03], cơ sở dữ liệu Online Mendelian Inheritance of Man (OMIM)

[MC07] hay ontology Mammalian Phenotype (MP), các cơ sở dữ liệu và ontology

này hỗ trợ những nhà nghiên cứu phân tích được các mỗi quan hệ giữa gen và bệnh

cũng như các khung nhìn đa chiều biểu diễn cho các khái niệm cần quan tâm.

Hình 3.1. Biểu diễn của biểu hiện trong văn bản tường thuật và các thuật ngữ trước

và sau biên soạn.

Hình 3.1, thể hiện một quá trình phân giải một thuật ngữ y sinh liên quan đến

chuột thông qua các khái niệm trong các ontology. Dựa trên các khái niệm trong các

66

Page 69: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

ontology y sinh xuất hiện cùng nhau, những nhà nghiên cứu y sinh có thể hiểu rõ

hơn về bản chất của các thuật ngữ cần phân tích.

Hình 3.2. Ví dụ chứa các thực thể biểu hiện, gen, bệnh và mối quan hệ giữa chúng

Sự phân giải các thực thể biểu hiện ở mức độ ontology đã được các nhà khoa

học chứng minh rằng có khả năng hỗ trợ cho việc dự đoán các mối liên kết giữa gen

- bệnh hoặc các liên kết thuốc - bệnh mới [HHH12]. Theo Hoehndorf và cộng sự

[HOR10], biểu hiện đóng vai trò rất quan trọng khi phân tích cơ chế phân tử của

bệnh, nó cũng được dự kiến là sẽ đóng vai trò chủ chốt trong việc suy luận vai trò

của gen trong các bệnh di truyền phức tạp. Bất kỳ sự tiến bộ nào trong việc nhận

dạng biểu hiện sẽ góp phần thúc đẩy sự phát triển của các nghiên cứu nêu trên. Hình

3.2 đưa ra một ví dụ có chứa các thực thể biểu hiện, gen và bệnh, ở đây có chứa mối

liên kết tiềm ẩn giữa bệnh “systemic lupus erythematosus” và biểu hiện “IgG1

disorder” cũng như giữa chúng và ba thực thể gen và sản phẩm của gen (gene and

gene product - GGP).

67

Page 70: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Cho đến nay, đã có nhiều nghiên cứu về gán nhãn tự động các gen, protein và

bệnh trong tài liệu khoa học y sinh, nhưng các nghiên cứu về nhận dạng và chuẩn

hóa biểu hiện thì vẫn còn rất nhiều hạn chế. Điều này một phần là do sự phức tạp

của các đoạn văn bản mô tả biểu hiện, nhưng cũng có thể là do tính chất không hoàn

thiện của các dữ liệu biểu hiện [HBK12] và việc thiếu các nguồn tài nguyên ngữ

nghĩa toàn diện hỗ trợ cho việc phân tích.

Nhìn nhận được tiềm năng và nắm bắt động cơ nghiên cứu, luận án đề xuất

một mô hình để nhận dạng các thực thể biểu hiện tiềm năng có dạng phức tạp bằng

các kỹ thuật học máy thống kê. Đóng góp chủ yếu của nghiên cứu này trong luận án

nằm ở ba điểm: Thứ nhất, phân tích và hệ thống hóa khái niệm biểu hiện trong dữ

liệu y sinh. Thứ hai, xây dựng bộ dữ liệu gán nhãn phục vụ cho bài toán nhận dạng

thực thể biểu hiện và các bài toán sau đó, đáp ứng bổ sung phần nào nhu cầu của

cộng đồng nghiên cứu về một bộ dữ liệu gán nhãn thực thể đầy đủ cho văn bản y

sinh, trong đó bao gồm cả biểu hiện. Và cuối cùng, luận án đề xuất mô hình nhận

dạng thực thể biểu hiện và các thực thể liên quan, mô hình được lựa chọn kỹ lưỡng

các đặc trưng cũng như được đánh giá thông qua các độ đo tin cậy.

Cùng với việc đưa ra một mô hình tối ưu cho nhận dạng thực thể biểu hiện,

luận án cũng trình bày các nghiên cứu liên quan đến vấn đề thích nghi miền dữ liệu

(domain adaptation) trong miền thực thể biểu hiện. Đây là một vấn đề đặt ra khi các

tập dữ liệu huấn luyện cho mô hình học thường được xây dựng với chi phí tốn kèm,

khó bao phủ được hết toàn bộ miền dữ liệu cũng như các tri thức miền hỗ trợ như

ontology và các luật chưa đầy đủ, thì việc xây dựng mô hình nhận dạng cần có khả

năng “thích nghi” tốt trên nhiều miền dữ liệu.

3.1.2. Một số khái niệm cơ bản liên quan đến thực thể biểu hiện và một số thực

thể liên quan

Không như các gen hay cấu trúc giải phẫu cơ thể (anatomy), biểu hiện và các

đặc điểm của nó là những khái niệm phức tạp, và không tạo thành một lớp đồng

nhất các đối tượng (như một thực thể thông thường trong thế giới thực). Cụ thể, các

đặc điểm y sinh như “eye colour” (màu mắt), “blood group” (nhóm máu),

68

Page 71: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

“hemoglobin concentration” (nồng độ hemoglobin) là các cụm từ mô tả về cấu trúc

hình thái, quá trình sinh lý và hành vi của một sinh vật. Khi những mô tả chỉ về chất

hay lượng của các đặc điểm này được sử dụng để nói về một sinh vật cụ thể nào đó,

chúng ta có cái gọi là “biểu hiện”, ví dụ “blue eyes” (mắt xanh), “blood group AB”

(nhóm máu AB), “not having between 13 and 18 gm/dl hemoglobin concentration”

(không có nồng độ hemoglobin nằm trong khoảng 13-18 gm/dl”.

Chính vì tính chất phức tạp của biểu hiện, cho đến nay, trong hiểu biết của

nghiên cứu sinh, mới có rất ít nghiên cứu cung cấp các tiêu chuẩn tích hợp dữ liệu

cho biểu hiện. Điều đó có nghĩa là các mô tả về biểu hiện có xu hướng gói gọn

trong phạm vi của một hoặc một vài nghiên cứu thuộc về một nhóm tác giả nào đó,

và các biểu hiện của biểu hiện có thể không được xem xét đến nếu nó nằm ngoài

miền dữ liệu mà tác giả đang quan tâm tại thời điểm công bố nghiên cứu [BR04].

Trong một số nghiên cứu, biểu hiện chỉ được gọi một cách đơn giản là "thông tin về

biểu hiện" (phenotypic information) thay vì một định nghĩa cụ thể [HOR10]. Trong

hệ thống CSI-OMIM [CGE11], biểu hiện được coi là “các thuật ngữ sinh học bao

gồm các dấu hiệu và triệu chứng lâm sàng”. Freimer và Sabatti (2003) [FS03] mô

tả biểu hiện là "bất kỳ hình thái, đặc điểm sinh hóa, sinh lý hay hành vi của một sinh

vật (...) Tất cả các đặc điểm biểu hiện đều là thể hiện của sự kết hợp giữa biểu hiện

của một kiểu gen và ảnh hưởng của một môi trường cụ thể". Khordad, Mercer và

Rogan (2011) [KMR11] định nghĩa biểu hiện là "các đặc tính di truyền xác định

quan sát được của một tế bào hay sinh vật, bao gồm các kết quả của bất kỳ kiểm tra

nào ngoại trừ các kiểm tra của kiểu gen (...) Một biểu hiện của sinh vật được xác

định thông qua sự tương tác giữa cơ chế di truyền của nó và môi trường."

Định nghĩa của thực thể biểu hiện sử dụng trong luận án này dựa trên các phân

tích trong nghiên cứu của Scheuermann và cộng sự (2009) [SCW09] và BioTop

(2008) [BSS08].

“Thực thể biểu hiện (phenotype, viết tắt là PH) là một đề cập dưới dạng văn

bản mô tả một đặc tính quan sát được hoặc đo lường được của một sinh vật một

69

Page 72: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

cách cụ thể hoặc trừu tượng. Thực thể biểu hiện có thể được tiếp tục chia thành

thực thể bị tác động và mô tả cho thực thể đó.”

Ví dụ: “lack of kidney” (thiếu thận), “abnormal cell migration” (bất thường

trong việc chuyển đổi tế bào), “absent ankle reflexes” (không có phản xạ mắt cá

chân), “susceptibility to ulcerative colitis” (nhạy cảm với viêm loét đại tràng), v.v..

Có ba điểm cần làm rõ với định nghĩa nói trên.

Thứ nhất, vì sự đa dạng của biểu hiện trên sinh vật nên luận án quyết định

chỉ tập trung vào định nghĩa biểu hiện trên chuột (với vai trò là sinh vật mẫu)

và con người (với vai trò là loài quan trọng nhất).

Thứ hai, biểu hiện có thể được phân chia thành nhiều loại. Ở đây luận án

chia biểu hiện thành bốn loại cơ bản: các thuộc tính cấu trúc (xác định sự có

hay vắng mặt của bất kỳ thành phần nào trong cơ thể sinh vật), các thuộc tính

chất/lượng, các thuộc tính chức năng (liên quan đến sự hoạt động của các

chức năng của bộ phận cơ thể sinh vật) và các thuộc tính quá trình (biểu diễn

đặc tính của quá trình sinh lý, sinh hóa trong cơ thể). Những trường hợp trên

là những trường hợp phổ biến nhất của biểu hiện, trong thực tế có nhiều biểu

hiện biểu hiện khác mà không thể liệt kê hết hoặc nhóm chúng vào các lớp

chung như trên. Ví dụ, những đặc tính không thể đo đạc hay quan sát được

bởi người khác mà thể hiện qua kinh nghiệm hay cảm nhận của bản thân sinh

vật, như "pain" (đau), "stress" (căng thẳng) hay "itchiness" (ngứa). Trong

phạm vi nghiên cứu của luận án này, chúng cũng được coi là các biểu hiện.

Tuy nhiên do các thuộc tính quá trình là thuộc tính mô tả thực thể trừu tượng

quá trình sinh học, việc định nghĩa và nhận dạng các thực thể chưa thể đáp

ứng được nhu cầu xây dựng hệ thống ở thời điểm hiện tại. Vì vậy, nghiên

cứu nhận dạng thực thể biểu hiện trong luận án bỏ qua thực thể biểu hiện về

thuộc tính quá trình.

Ngoài thực thể biểu hiện, trong nghiên cứu này, hệ thống mà luận án xây dựng

còn nhận dạng thêm năm loại thực thể điển hình khác trong lĩnh vực y sinh, lần lượt

là: sinh vật, bộ phận cơ thể, gen và các sản phẩm của gen, bệnh và thuốc và hóa

70

Page 73: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

chất. Các định nghĩa luận án nêu ra dưới đây dựa trên nghiên cứu của Scheuermann

và cộng sự (2009) [SCW09] và BioTop (2008) [BSS08].

Thực thể sinh vật (organism, viết tắt là OR) là đề cập đến một kiểu hệ thống

sinh học có sự sống, có chức năng như một tổng thể ổn định.

Định nghĩa này bao gồm cả sinh vật đa bào và đơn bào. Đặc biệt, khác với

thực thể sinh vật trong dữ liệu thông thường, do tính chất đặc thù của dữ liệu y sinh,

trong miền này thực thể sinh vật chấp nhận cả các đề cập đến tên chung của loài,

nhóm sinh vật hay một cá thể.

Ví dụ: "Hepatitis type B virus", "food sanitation inspectors", "cholera

cases", "hypergammaglobulinaemic patients", "45-year-old male", "asthmatics",

"Mary Jane", "mouse", v.v..

Thực thể bộ phận cơ thể (anatomy, viết tắt là AN) là một đề cập đến cấu

trúc giải phẫu hay các thành phần vật lý khác trong hay trên bề mặt cơ thể người

hoặc chuột, bao gồm các cơ quan, tế bào, các phần khác của cơ thể máu, dịch cơ

thể, các mô và sự kết hợp của chúng.

Ví dụ: “endothelial cells”, “liver”, “nervous system”, “HeLa cells”, “left

collar bone”, “both kidneys”, v.v..

Thực thể gen và các sản phẩm của gen (gene and gene product, viết tắt là

GG) là một trong ba thành phần phân tử vĩ mô chính: DNA, RNA hoặc protein.

DNA và RNA là các chuỗi axit nucleic chứa các chỉ dẫn di truyền được sử dụng

trong quá trình phát triển các chức năng của một sinh vật. Protein là chuỗi

polypeptide, hoặc các bộ phận của chuỗi polypeptide, tạo thành những cấu trúc

thuận lợi cho các chức năng sinh học của cơ thể…

Ví dụ: “cryoglobulins”, “anticariolipin antibodies”, “AFM044xg3”,

“chromosome 17q”, “CC16 protein”, v.v..

Thực thể bệnh (disease, viết tắt là DS) được đề cập đến như là một sự bất

thường trải qua trong một quá trình bệnh lý của cơ thể sinh vật do nguyên nhân một

hoặc nhiều rối loạn trong cơ thể đó.

71

Page 74: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Ví dụ: "Felty’s syndrome", "rheumatoid arthritis", "heterozygous C2

deficiency", [SARS], v.v..

Thực thể thuốc và hóa chất (chemical and drug, viết tắt là CD) là các thành

phần hay họ hóa học khác với DNA, RNA và protein (GG).

Ví dụ: “Panadol”, “antibiotic”, “calcium”, “3-ethyl-2-methylhexane”,

“C6H12O6”, v.v..

Hình 3.3 đưa ra một mô tả trực quan về các loại của thực thể biểu hiện cũng

như liên kết ngữ nghĩa giữa biểu hiện và các thực thể y sinh khác.

Hình 3.3. Lược đồ ngữ nghĩa của các loại thực thể nhận dạng trong luận án

(Các thực thể như Hóa chất & thuốc, Gene và sản phẩm của Gene, Bộ phận cơ thể, Sinh vật, Bệnh và Biểu hiện là các thực thể mà luận án xét đến)

3.1.3. Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh

Một thách thức lớn nữa đối với bài toán NER trong dữ liệu y sinh là vấn đề

thích nghi miền dữ liệu (domain adaptation). Các nghiên cứu NER y sinh thường sử

dụng một tập nhỏ các dữ liệu được gán nhãn để nghiên cứu và thực nghiệm. Các

72

Page 75: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

nhà khoa học sử dụng một giả định ngầm rằng dữ liệu trong tương lai sẽ được trích

ra từ một phân phối tương tự với các dữ liệu đã được gán nhãn và do đó việc giảm

thiểu các lỗi dự đoán trong dữ liệu thực nghiệm sẽ dẫn đến việc giảm thiểu các lỗi

tương tự trong dữ liệu thực tế. Vì việc gán nhãn dữ liệu do các chuyên gia tiến hành

thủ công rất tốn thời gian và chi phí, các dữ liệu gán nhãn này thường rất nhỏ

[KOT03, PGH07, KMR11], nhiều nhất không vượt quá vài nghìn văn bản tóm tắt

Medline. Nhưng rõ ràng việc sử dụng những tập dữ liệu gán nhãn nhỏ như thế để dự

đoán cho một nhóm dữ liệu khác trong một kho dữ liệu khổng lồ như Medline với

22 triệu tóm tắt là một công việc hết sức "nguy hiểm". Vì tính chất phong phú và

hướng chuyên ngành của dữ liệu y sinh, một bộ dữ liệu thường sẽ chỉ hướng về một

chủ đề hay có cùng tính chất nào đó. Hệ thống được xây dựng phù hợp cho dữ liệu

thuộc về chủ đề này chưa chắc có thể hoạt động hiệu quả khi chuyển sang tập dữ

liệu thuộc chủ đề khác hay các tập dữ liệu trộn lẫn của nhiều chủ đề khác nhau, mặc

dù chúng đều là dữ liệu y sinh và có nhiều điểm tương đồng.

Cho đến nay, chưa có một nghiên cứu nào làm sáng tỏ được vấn đề chuyển

dịch trong các miền gần cho bài toán nhận dạng thực thể y sinh theo một cách đơn

giản. Nghiên cứu tiếp cận gần nhất với khảo sát của nghiên cứu sinh trong phần này

là nghiên cứu của Wang và cộng sự (2009) trong miền dữ liệu y sinh [WKS09]. Các

tác giả khảo sát các tài nguyên tiềm năng của sự không tương thích giữa các tập dữ

liệu nhận dạng thực thể y sinh quan trọng với các lược đồ chú thích khác nhau:

GENIA (2,000 tóm tắt Medline), GENETAG (khoảng 20,000 câu Medline) và

AlMed (255 tóm tắt Medline). Nghiên cứu này tập trung vào nhận dạng Protein và

quan sát thấy sự tụt giảm về hiệu suất khoảng 12% của độ đo F1 khi kết hợp dữ liệu

từ các tập dữ liệu khác nhau. Nhiều lý do đã được đưa ra như sự khác nhau về ranh

giới thực thể, phạm vi của định nghĩa về thực thể, phân phối các thuộc tính của lớp

thực thể và độ trùng lặp giữa các tập dữ liệu.

Năm 2006, Tsai và cộng sự công bố một nghiên cứu về sự khác biệt của giản

đồ gán nhãn giữa dữ liệu JNLPBA (2,000 tóm tắt Medline) và dữ liệu BioCreative

(15,000 câu Medline) [TWC06] và cố gắng hòa hợp các tiêu chí ánh xạ. Họ chứng

73

Page 76: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

minh rằng nới lỏng các tiêu chí ánh xạ biên sẽ có tác dụng tối đa hóa hiệu suất thực

nghiệm chéo miền (cross domain).

Wagholikar và cộng sự [WTJ13] nghiên cứu tác dụng của việc làm hòa hợp

các quy tắc gán nhãn dữ liệu trong tập dữ liệu i2b2 2010 và các hồ sơ bệnh án điện

tử Mayo Clinic Rochester (MCR). Họ kết luận rằng hiệu quả của tổng hợp (pooling)

- tức là trộn các tập dữ liệu bằng cách đảm bảo một định dạng chung và hài hòa về

mặt ngữ nghĩa - phụ thuộc vào nhiều yếu tố, bao gồm khả năng tương thích giữa các

giản đồ chú thích và sự khác biệt về kích cỡ. Các tác giả cũng nhận thấy rằng cách

tổng hợp đơn giản có hiệu suất (tính theo F1) giảm 12% đối với MRC và 4% đối

với i2b2. Các tác giả cũng nhận định rằng sự không cân bằng này có thể là do bị ảnh

hưởng bởi kích thước của tập dữ liệu, tức là do MCR có kích thước nhỏ hơn nên nó

phải chịu mất mát nhiều hơn vì bộ phân lớp sẽ có xu hướng “thiên vị” đối với i2b2.

Trong phạm vi nghiên cứu của luận án, nghiên cứu sinh cố gắng làm sáng tỏ

mức độ tụt giảm hiệu quả theo các chiến lược kết hợp dữ liệu khác nhau trong bài

toán thích nghi miền về dữ liệu nhận dạng thực thể biểu hiện.

3.2. Mô hình nhận dạng thực thể biểu hiện và một số thực thể liên quan

Quá trình nghiên cứu của nghiên cứu sinh cho bài toán này được thể hiện

trong bốn công bố mà nghiên cứu sinh là đồng tác giả [CTLA4] (2012) và [CTLA1]

(2014), [CTLA7] (2015). Phần này của luận án sẽ trình bày hệ thống cũng như kết

quả thực nghiệm mới nhất đã được công bố của nghiên cứu sinh theo thứ tự như

sau: Mục cơ sở lý thuyết sẽ điểm qua một số nghiên cứu liên quan đến nhận dạng

thực thể biểu hiện. Tiếp theo đó, luận án đề xuất một mô hình nhận dạng thực thể

biểu hiện áp dụng kỹ thuật học máy thống kê với các đặc trưng được lựa chọn và

kết hợp từ nhiều nguồn tri thức khác nhau. Để kiểm định mô hình này, hai tập dữ

liệu gán nhãn được xây dựng dựa trên các tóm tắt từ Pubmed.

3.2.1. Cơ sở lý thuyết

So với các thực thể y sinh khác, tính đến nay, có rất ít nghiên cứu tập trung

vào việc nhận dạng các thực thể biểu hiện [CF04, KMR11, GHZ12]. Chen và

74

Page 77: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Friedman [CF04] xây dựng hệ thống BioMedLEE dựa trên các luật được biểu diễn

bằng các quy tắc ngữ pháp (grammar rule) và sử dụng tập từ vựng từ hệ thống

Unified Medical Language System và Mammalian Ontology [SGE04]. Năm 2011,

Khordad và cộng sự [KMR11] xây dựng một hệ thống nhận dạng thực thể biểu hiện

dựa trên MetaMap, UMLS Metathesaurus và Human Phenotype Ontology cùng

năm luật được xây dựng thủ công nhằm nắm bắt các đặc điểm ngôn ngữ và hình

thái của biểu hiện trong miền dữ liệu thực nghiệm. Hình 3.4 mô tả mô hình của hệ

thống này. Một đóng góp khác trong nghiên cứu [KMR11] là bộ dữ liệu gán nhãn

thủ công được xây dựng trong nghiên cứu, mặc dù là một bộ dữ liệu nhỏ, nhưng

cũng có giá trị cho mục đích so sánh; mô tả kỹ hơn về dữ liệu này sẽ được nêu trong

phần tài nguyên ở mục (c) thuộc phần 3.2.2.

Hình 3.4. Mô hình nhận dạng thực thể biểu hiện của Khordad và cộng sự [KMR11]

Gần đây hơn, Groza và cộng sự [GZH12] đưa ra mô hình thực thể-chất lượng

(Entity-Quality; EQ), đây là một cách tiếp cận khác bằng cách cố gắng nghiên cứu

chi tiết mô hình cấu trúc nội bộ của từ dựa trên những giá trị chất/lượng và bộ phận

cơ thể gắn với thực thể đó. Điều này nhằm mục đích giảm các cụm từ nhiễu không

liên quan nhiều đến nội dung của thực thể, như trong câu "irregular flared

metaphyses ... with streaky sclerosis" được chuẩn hóa thành "irregular flared

streaky sclerosis metaphyses". Các tác giả kiểm thử kỹ thuật của họ bằng một bộ dữ

75

Page 78: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

liệu các thuật ngữ được trích ra từ nhánh “Abnormality of the skeletal system”

(HP:000924) thuộc Human Phenotype Ontology.

Từ việc khảo sát những nghiên cứu nói trên đem lại một số kết luận sau đây:

(1) Cảm nhận về thực thể biểu hiện là rất khác nhau giữa các chuyên gia, vì vậy cần

thiết phải có một hướng dẫn chú thích đầy đủ và thống nhất [CF04]. (2) Các cách

tiếp cận dựa trên hệ luật, ontology và các công cụ như UMLS, HPO và MetaMap

đều đem lại kết quả có giá trị [CF04, KMR11], tuy nhiên sự kết hợp của phương

pháp này với các phương pháp dựa trên học máy có thể giúp cải thiện kết quả. (3)

Hiệu suất của mô hình nhận dạng thực thể biểu hiện phụ thuộc khá nhiều vào việc

thực thể có bao gồm cả đối tượng và các quá trình của cơ thể hay không [CF04]. (4)

Sự nhập nhằng về mặt từ vựng giữa thực thể biểu hiện và các thực thể liên quan là

một vấn đề quan trọng [GHZ12].

3.2.2. Dữ liệu đánh giá và tài nguyên hỗ trợ

Hiện nay, một trong những vấn đề lớn của nhận dạng thực thể biểu hiện chính

là vấn đề thiếu một tập dữ liệu có thể được sử dụng cho huấn luyện và kiểm thử mô

hình. Một số các dữ liệu có liên quan đến biểu hiện thì lại không tuân theo các định

dạng gán nhãn phù hợp cho thực thể biểu hiện (như tập dữ liệu OMIM [MC07])

hoặc quá nhỏ và mang tính địa phương, không phù hợp để đánh giá một hệ thống

phức tạp (KMR [KMR11]). Việc xây dựng một bộ dữ liệu được gán nhãn đòi hỏi

tốn thời gian và chi phí lớn, tuy nhiên bộ dữ liệu như thế sẽ đóng vai trò chủ chốt

trong việc xử lý bài toán, đặc biệt là cung cấp những minh chứng trong ngữ cảnh cụ

thể cho những nhận định lý thuyết về biểu hiện mà luận án đưa ra. Trong nghiên

cứu này, hai bộ dữ liệu phục vụ cho bài toán nhận dạng thực thể biểu hiện và đánh

giá hiệu quả của thích nghi miền dữ liệu được xây dựng.

a. Tập dữ liệu Phenominer A về các bệnh tự miễn dịch di truyền

(autoimmune diseases)

Tập dữ liệu Phenominer A được thu thập dựa trên hai tiêu chí sau:

76

Page 79: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Thứ nhất, các tóm tắt PubMed Central (PMC) nói về 19 bệnh tự miễn dịch di

truyền đã được xác định trước. Bệnh tự miễn dịch là bệnh phát sinh từ các

phản ứng miễn dịch không phù hợp của cơ thể chống lại các chất và các mô

bình thường hiện diện trong cơ thể, 19 bệnh này được xác định thông qua

OMIM [MC07], chúng được liệt kê trong Bảng 3.1.

Thứ hai, để đảm bảo các tóm tắt này có một liên kết nhất định với biểu hiện,

các tóm tắt phải đảm bảo có chứa ít nhất một cụm từ chỉ biểu hiện đến từ các

nguồn sau: (1) trường mô tả tóm tắt dấu hiệu lâm sàng (clinical synopsis) của

tài liệu OMIM tương ứng, (2) Human Phenotype Ontology (HPO) và (3)

Mammalian Phenotype Ontology [SE09].

Bảng 3.1. Danh sách các bệnh tự miễn dịch được sử dụng để xây dựng dữ liệu Phenominer A

STT Tên bệnh Đối tượng

1 Auto immune thyroid disease Người

2 Auto immune skin diseases Người

3 Immune-mediated diseases Người

4 Immuno-mediated gastrointestinal Người

5 Celiac's disease/ Celiac disease Người

6 Graves's disease/ Grave disease Người

7 Hashimoto's disease/ Hashimoto disease Người

8 Crohn's disease/ Crohn disease Người

9 Addison's disease/ Addison disease Người

10 Type 1 diabetes Người

11 Rheumatoid arthritis Người

12 Multiple sclerosis Người

77

Page 80: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

13 Systemic lupus erythematosus Người

14 Asthma Người

15 Familial psoriasis Người

16 Auto immune encephalomyeliti Chuột

17 Inflammatory arthritis Chuột

18 Histamine sensitization Chuột

19 Mouse lupus Chuột

Dữ liệu Phenominer A về các bệnh tự miễn dịch chứa 110 tóm tắt PMC. Việc

gán nhãn được các chuyên gia có kinh nghiệm trong lĩnh vực y sinh thực hiện đã

gán nhãn dữ liệu GENIA và BioNLP, sử dụng công cụ gán nhãn BRAT14 của nhóm

NLPLab. Không có sự giao nhau nào về mặt câu giữa dữ liệu Phenominer A,

Phenominer B và dữ liệu KMR [KMR11] (đây là dữ liệu dùng để đối sánh kết quả

trong một số thực nghiệm bên dưới, mô tả về dữ liệu KMR sẽ được nêu trong mục

(c) của phần 3.2.2 dưới đây).

b. Tập dữ liệu Phenominer B về các bệnh tim mạch di truyền

(cardiovascular diseases)

Một yêu cầu tiên quyết để nghiên cứu về thích nghi miền dữ liệu là các tập dữ

liệu phải có chung nguyên tắc gán nhãn, nói cách khác, các dữ liệu phải được chuẩn

hóa về cùng một dạng. Đây không phải là một việc thuận lợi trong bối cảnh nghiên

cứu hiện nay, vì vậy luận án xây dựng một bộ dữ liệu khác để phục vụ cho nghiên

cứu này: Dữ liệu Phenominer B được xây dựng tương tự với tập dữ liệu Phenominer

A với trọng tâm xoay xung quanh một nhóm bệnh khác được lựa chọn từ cơ sở dữ

liệu kinh điển về các bệnh di truyền OMIM. Các bệnh được lựa chọn là bệnh tim

mạch (cardiovascular diseases), 60 bệnh cụ thể được sử dụng để thu thập dữ liệu

14 Brat rapid annotation tool. http://brat.nlplab.org

78

Page 81: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

như bệnh cơ tim (cardiomyopathy), tăng huyết áp (hypertension), xơ vữa động

mạch (atherosclerosis), . Dữ liệu Phenominer B cũng dựa trên các nguyên tắc gán

nhãn và do cùng một chuyên gia gán nhãn như với Phenominer A. Bảng 3.2 đưa ra

so sánh giữa Phenominer A và Phenominer B trên một số tiêu chí về thống kê.

Bảng 3.2. Các đặc điểm của dữ liệu Phenominer A về bệnh tự miễn dịch và Phenominer B về bệnh tim mạch

Phenominer A Phenominer B P1 P2 P3 P4

SLTT 110 80 ─ ─ ─ ─

SLHV 27.421 26.578 ─ ─ ─ ─

SLC 842 888

DTBC 32,57 29,93 ─ ─ ─ ─

AN 194 (138) 195 (133) 0,33 0,26 0,07 0,08

CD 44 (33) 147 (75) 0,08 0,07 0,05 0,01

DS 892 (282) 955 (442) 0,39 0,27 0,11 0,09

GG 1.663 (928) 754 (511) 0,41 0,45 0,15 0,16

OR 799 (429) 770 (323) 0,56 0,67 0,36 0,54

PH 507 (423) 1.430 (1.113) 0,52 0,33 0,04 0,02

Trong bảng 3.2:

- SLTT: Số văn bản tóm tắt cấu thành dữ liệu

- SLHV: Số từ vựng (token) có trong dữ liệu

- SCL: Số lượng câu

- DTBC: Độ dài trung bình câu, AN, CD, DS, GG, OR, PH là số lượng tương

ứng với mỗi loại thực thể. Số trong dấu ngoặc đơn chỉ số lượng sau khi đã loại bỏ

trùng lặp.

- P1: Xác suất một từ nằm trong thực thể lớp X ở Phenominer A cũng nằm

trong thực thể lớp X ở Phenominer B. P2: Xác suất một từ nằm trong thực thể lớp X

79

Page 82: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

ở Phenominer B cũng nằm trong thực thể lớp X ở Phenominer A. P3: Xác suất một

thực thể lớp X ở Phenominer A cũng là một thực thể lớp X ở Phenominer B. P5:

Xác suất một thực thể lớp X ở Phenominer B cũng là một thực thể lớp X ở

Phenominer A

a.

b.

c. Tập dữ liệu KMR

Tập dữ liệu KMR được gán nhãn thủ công trong nghiên cứu của Khordad và

cộng sự (2011) [KMR11] chứa 120 câu (3.784 từ vựng) xây dựng từ 4 bài báo của

PubMed năm 2009 trong lĩnh vực di truyền của con người, dữ liệu này được gán

nhãn với 110 thực thể biểu hiện. Các thực thể biểu hiện được gán nhãn dựa trên tập

danh sách các thuật ngữ xuất hiện trong ontology HPO – ontology về các thuật ngữ

biểu hiện của người và chuột.

80

Page 83: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Hình 3.5. Mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan

3.2.3. Mô hình đề xuất

Dựa trên những kiến thức thu nhận được từ các công trình nghiên cứu liên

quan, luận án trình bày một mô hình nhận dạng thực thể biểu hiện và các thực thể

liên quan sử dụng kỹ thuật học máy gán nhãn chuỗi với các đặc trưng phong phú về

tri thức miền. So với các nghiên cứu trước đó của Khordad và cộng sự [KMR11] và

Groza và cộng sự [GZH12] nhận dạng thực thể thông qua các luật biểu diễn thực

thể biểu hiện, mô hình đề xuất sử dụng mô hình học máy thống kê để học các đặc

trưng của thực thể biểu hiện và các thực thể liên quan. Phương pháp học máy cho

phép mô hình có thể linh hoạt hơn trong việc nhận dạng, không quá phụ thuộc vào

kiến thức chuyên gia và có thể tìm ra các biểu diễn khác của thực thể biểu hiện. Bên

81

Page 84: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

cạnh đấy, mô hình đề xuất cố gắng đưa thêm hầu hết các tri thức miền về thực thể

biểu hiện và các thực thể liên quan nhằm giúp mô hình học máy có thể tăng tính

ngữ nghĩa, khả năng suy luận đối với các thực thể liên quan tri thức miền.

Mô hình gồm 4 phần chính (Hình 3.5):

Tiền xử lý: Đầu tiên, hệ thống thu thập dữ liệu là các tóm tắt khoa học từ

nguồn cung cấp (PubMed), tách chúng thành các câu và từ vựng (token) sử

dụng thư viện OpenNLP với mô hình Maxent. Hệ thống tiếp tục nhận dạng

các từ viết tắt bằng công cụ BioText15, tức là tạo một danh sách các từ viết tắt

địa phương (thường được chú thích trong lần sử dụng đầu tiên) sau đó thay

thế tất cả các từ viết tắt bằng dạng đầy đủ của nó trong toàn bộ văn bản.

Trích chọn đặc trưng là pha xử lý cần phải có trước khi huấn luyện hay gán

nhãn dữ liệu. Nhiệm vụ của pha này là trích xuất ra các đặc trưng đã xác định

trước của từng từ vựng trong câu. Các đặc trưng này sẽ được mô tả cụ thể

trong phần 3.2.4.

Thành phần học máy gán nhãn chuỗi là thành phần sử dụng các kỹ thuật

học máy như CRF hay Entropy cực đại để huấn luyện các vector đặc trưng

đã được sinh ra từ bước 2. Trong phần thực nghiệm luận án sẽ chỉ ra hiệu

quả của từng phương pháp cụ thể qua đấy lựa chọn ra một phương pháp học

máy tốt nhất cho hệ thống thực tế.

Thành phần giải mã và gán nhãn cho câu đầu vào là thành phần được sử

dụng trong quá trình kiểm thử hay nhận dạng dữ liệu thực tế. Trong thành

phần này hệ thống sẽ sử dụng mô hình được huấn luyện ở bước 3 cùng một

số phương pháp giải mã như Viterbi hay tìm kiếm chùm (Beam search) để

tìm ra được các nhãn tối ưu cho các từ vựng (token).

3.2.4. Tập đặc trưng và đánh giá đặc trưng

Tập đặc trưng (Bảng 3.3) được sử dụng trong mô hình nhận dạng thực thể

gồm hai nhóm chính:

15 http://biotext.berkeley.edu/software.html

82

Page 85: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

- Nhóm đặc trưng cơ bản gồm các đặc trưng thường sử dụng trong các bài toán

nhận dạng thực thể thông thường như từ đang xét, từ gốc (dạng chuẩn trong

tiếng Anh sau khi đã loại bỏ số nhiều, thì, loại từ…), từ loại, cụm từ (phrase),

hình thái từ (viết hoa, viết thường, dấu, số…), đặc trưng ngữ cảnh xung

quanh.

- Nhóm đặc trưng liên quan tri thức miền gồm các đặc trưng được sinh ra nếu

từ vựng đang xét thuộc một từ điển hay ontology liên quan đến một loại thực

thể đang được xem xét trong mô hình. Ở đây mô hình nhận dạng thực thể

biểu hiện và các thực thể liên quan sử dụng 9 từ điển, ontology và cơ sở dữ

liệu về các thuật ngữ y sinh, cụ thể:

o Các tài nguyên về thực thể biểu hiện của người và chuột Human

phenotype ontology (HPO)16 bao gồm 9.500 thuật ngữ gốc (tương ứng

với hơn 15.800 từ đồng nghĩa) mô tả các đặc trưng biểu hiện của con

người (thống kê năm 2012), Mammalian phenotype ontology (MP)

[SGE04] có 9.162 thuật ngữ gốc (tương ứng 23.712 từ đồng nghĩa) về

các mô tả bất thường trong biểu hiện của chuột (thống kê năm 2013).

Bảng 3.3. Các đặc trưng sử dụng trong thực nghiệm

ST

T

Đặc trưng IG(A; Fi) GR(A; Fi) IG(B; Fi) GR(B; Fi)

1 Từ 1,17 0,13 1,20 0,13

2 Từ gốc 1,15 0,13 1,18 0,13

3 Đặc trưng ngữ cảnh 1,05 0,12 1,11 0,11

4 Nhãn từ loại 0,36 0,09 1,18 0,13

5 Nhãn cụm từ 0,22 0,12 0,26 0,10

16 Human Phenotype Ontology http://www.human-phenotype-ontology.org

83

Page 86: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

6 Hình thái từ 0,15 0,08 0,16 0,08

7 Tiền tố miền 0,11 0,11 0,11 0,10

8 Hậu tố miền 0,08 0,11 0,08 0,11

9 Độ dài từ 0,13 0,05 0,16 0,06

10 Dấu ngoặc 0,04 0,20 0,04 0,23

11 Viết tắt 0,08 0,22 0,06 0,24

12 HPO 0,07 0,41 0,09 0,33

13 MP 0,03 0,33 0,06 0,33

14 PATO 0,01 0,03 0,02 0,04

15 BTO 0,03 0,32 0,03 0,29

16 FMA 0,05 0,28 0,05 0,23

17 JOCHEM 0,01 0,15 0,01 0,14

18 GD 0,02 0,18 0,02 0,19

19 UMLS 0,48 0,12 0,52 0,11

20 Lineaus 0,50 0,10 0,47 0,10

o Các tài nguyên hỗ trợ trong việc phân tích cấu trúc nội tại của thực thể

biểu hiện gồm có Phenotypic Quality Ontology (PATO)17 là một

ontology về các thuộc tính chất/lượng của biểu hiện (theo thống kê

năm 2012 gồm 1.400 từ với 2.200 từ đồng nghĩa) và một danh sách

gồm 85 bổ ngữ có tần số xuất hiện cao trong các thực thể biểu hiện

của HPO được xây dựng trong luận án.

o Các tài nguyên về bộ phận cơ thể con người như Foundational Model

of Anatomy ontology (FMA)18 chứa khoảng 120.000 từ trong 75.000 17 Phenotypic Quality Ontology. http://bioportal.bioontology.org/ontologies/PATO

18 Foundational Model of Anatomy ontology. http://sig.biostr.washington.edu/projects/fm/

84

Page 87: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

lớp về các bộ phận cơ thể (phiên bản năm 2012), Brenda tissue

ontology (BTO) [GCS11] chứa 5.500 từ, liên kết đến 9.600 từ đồng

nghĩa và 4.500 định nghĩa (thống kê tháng 8/2013).

o Các tài nguyên liên quan đến GG gồm có Gene dictionary do NCBI

(GD)19 cung cấp gồm khoảng hơn 9 triệu gen (số liệu năm 2013) và

bộ gán nhãn gen Genia tagger [TTK05] được Tsuruoka và cộng sự

xây dựng.

o Công cụ Lineaus [GNB10] nhận dạng các tên loài sinh vật.

o Từ điển the joint chemical dictionary (Jochem) về hóa chất và thuốc

[HSS09] chứa khoảng 320.000 từ (số liệu cập nhật năm 2012).

o Unified medical language system (UMLS) là một tập hợp các dữ liệu

và phần mềm trong lĩnh vực y sinh và sức khỏe. Trong luận án,

UMLS được sử dụng bằng hai cách. Thứ nhất, công cụ MetaMap của

UMLS được sử dụng để gán nhãn dữ liệu về 133 nhóm ngữ nghĩa

UMLS, các nhãn này sẽ được sử dụng như một đặc trưng trong các bộ

gán nhãn học máy. Thứ hai, các từ vựng thuộc về 6 nhóm ngữ nghĩa

sau đây của UMLS được thu thập và xây dựng thành một từ điển các

bệnh (tương ứng với thực thể bệnh): Disease or Syndrome, Neoplastic

Process, Congenital Abnormality, Mental or Behavioral Dysfunction,

Experimental Model of Disease và Acquired Abnormality, danh sách

này bao gồm 275.000 từ.

Để mô tả sự đóng góp của mỗi đặc trưng, luận án cung cấp một độ đo sự

tương tự giữa đặc trưng và phân bố xác suất nhãn lớp. Ở đây sử dụng Gain Ratio

(GR) để ước lượng hiệu suất dự đoán lớp nội dữ liệu bởi từng kiểu đặc trưng. GR đã

được sử dụng như một hàm tách trong thuật toán C4.5 [QU93] và được định nghĩa

theo công thức (3.2).

GR (C , F )= IG (C , F )H ( F )

(3.2)

19 NCBI Gene dictionary. http://www.ncbi.nlm.nih.gov/gene

85

Page 88: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

trong đó C biểu diễn nhãn lớp và F biểu diễn kiểu đặc trưng. IG là viết tắt của

Information Gain (độ lợi thông tin), định nghĩa theo công thức (3.3).

IG (C , F )=H (C )−H (C|X )(3.3)

H là entropy và được định nghĩa cho kiểu đặc trưng theo:

H ( F )=−∑i=1

n

p (f i ) log2 ( p ( f i ))(3.4 )

với n là số đặc trưng f i∈F

GR được sử dụng trong C4.5 thay thế cho IG bởi khả năng chuẩn hóa cho sự

lệch trong IG. Nói chung kết quả theo GR có độ chính xác dự đoán lớn hơn IR vì nó

tính đến số lượng các giá trị đặc trưng. Lưu ý rằng GR là không xác định nếu mẫu

số bằng 0.

Có một số điểm đáng chú ý khi quan sát giá trị GR và IG trong Bảng 3.3:

Phenominer A (tự miễn dịch) và Phenominer B (tim mạch) gần như có IG

đóng góp của các đặc trưng là như nhau tuy nhiên IG của đặc trưng ngữ cảnh

tại Phenominer B dường như có đóng góp tốt hơn so với Phenominer A.

Các nhãn từ loại dường như đem đến GR trong Phenominer B cao hơn một

chút so với trong Phenominer B.

Tuy có kích thước lớn, nhưng UMLS lại có GR nhỏ hơn trên cả hai tập dữ

liệu so sánh với một số tài nguyên khác như HPO, GD (mặc dù giá trị IG của

nó là cao).

3.2.5. Phương pháp đánh giá

Để đảm bảo tính khách quan của kết quả, kiểm thử chéo 10 phần (10 folds

cross validation) được sử dụng, tức là dữ liệu được chia làm 10 phần để tiến hành

10 lần thực nghiệm; trong mỗi lần thực nghiệm, 9 phần được sử dụng để huấn luyện

và phần còn lại được sử dụng để kiểm thử. Kết quả cuối cùng được tính bằng trung

bình cộng kết quả của các lần thực hiện.

Việc đánh giá thực nghiệm hầu hết dựa trên đối sánh một phần (partial

matching) giữa kết quả của hệ thống và thực thể được chuyên gia gán sẵn trong tập

dữ liệu kiểm thử. Một kết quả sẽ được tính là chính xác nếu đoạn văn bản mà nó

86

Page 89: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

xác định có phần giao nhau với thực thể được các chuyên gia gán nhãn và nhãn mà

nó đưa ra là chính xác. Ví dụ, hệ thống gán nhãn [median cleft lip]PH/palate sẽ được

tính là một kết quả đúng khi so sánh với gán nhãn tiêu chuẩn của chuyên gia

media[cleft lip/palate]PH. Trong một số trường hợp, luận án đưa ra kết quả theo cả

hai cách đối sánh một phần và đối sánh chặt (strict matching) để so sánh.

Thực nghiệm được đánh giá dựa trên các độ đo: độ chính xác (P), độ hồi

tưởng (R) và F1, giải thích cụ thể về ý nghĩa và cách tính các độ đo này đã được nêu

trong chương 1, mục 1.1.4. Độ đo F1 của toàn hệ thống có thể được tính toán bằng

hai cách khác nhau: trung bình vi mô (micro average) và trung bình vĩ mô (macro

average) [OOG05]. Đối với, Micro average F1, chúng ta tính P và R cho toàn bộ hệ

thống theo công thức tính P, R và sau đó sử dụng chúng để tính F1. Có thể thấy

micro average F1 sẽ bị ảnh hưởng bởi số lượng các cụm từ thuộc về từng loại thực

thể, vì vậy nó có xu hướng bị hiệu suất của hệ thống đối với các loại thực thể xuất

hiện nhiều hơn trong dữ liệu chi phối. Macro average F1 được tính cục bộ đối với

từng loại thực thể trước và sau đó F1 của toàn hệ thống được tính bằng trung bình

của các giá trị F1 cục bộ này. Tức là, macro average F1 đánh giá trọng số bằng nhau

đối với mọi thực thể, không quan tâm đến số lượng của chúng trong dữ liệu. Như

vậy, trong các trường hợp dữ liệu mất cân bằng giữa các lớp thực thể thì macro

average F1 sẽ thiếu tính khách quan hơn micro average F1. Trong hầu hết các thực

nghiệm, kết quả được đưa ra là micro average F1.

3.3. Thực nghiệm

Thực nghiệm trong luận án bao gồm 3 nhóm chính được xây dựng và thiết kế

khác nhau, nhằm làm rõ các vấn đề khác nhau của bài toán.

3.3.1. Thực nghiệm 1: đánh giá hiệu quả của mô hình đề xuất với các kỹ thuật

học máy khác nhau

Trong thực nghiệm này, mô hình nhận dạng thực thể biểu hiện và các thực thể

liên quan sẽ được lần lượt thử nghiệm với các phương pháp học máy gán nhãn

chuỗi khác nhau. Nghiên cứu sinh lựa chọn hai phương pháp có hiệu quả cao hiện

87

Page 90: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

nay là CRF và entropy cực đại kết hợp với giải mã bằng tìm kiếm chùm (Maximum

Entropy with Beam Search). Cả hai phương pháp đều sử dụng tập đặc trưng được

nêu ra trong mục 3.2.4 và được đánh giá bằng kỹ thuật kiểm thử chéo 10 phần (10

folds cross validation) với các độ đo chính xác (Precision – ký hiệu P), hồi tưởng

(Recall – Ký hiệu R) và độ F được tính chi tiết trên từng loại thực thể bằng phép so

sánh một phần. Kết quả chung của toàn hệ thống cũng sẽ được tính bằng độ đo

trung bình vi mô (micro average F) và trung bình vĩ mô (macro average F) của độ

đo F. Tham số huấn luyện hai thuật toán được sử dụng kế thừa từ nghiên cứu đối

với dữ liệu tiếng Việt trong mục 2.4.2. Kết quả của thực nghiệm được thể hiện ở

bảng 3.4.

Kết quả thực nghiệm đánh giá trên toàn bộ hệ thống (nhãn ALL) cho thấy cả

hai phương pháp đều cho kết quả tương đối như nhau tuy nhiên phương pháp

MEM+BS đạt hiệu quả tốt hơn CRF khoảng 1% đối với cả 2 độ đo vi mô và vĩ mô

F. Phương pháp CRF cho hiệu quả tốt với các thực thể OR và DS trên cả 2 tập dữ

liệu trong khi phương pháp MEM+BS đạt hiệu quả tốt với các thực thể PH, CD.

Hiệu quả của hai phương pháp học máy trên tập Phenominer A tốt hơn trên tập

Phenominer B 2% mặc dù vậy kết quả trên một số thực thể như PH, OR, CD của

thực thể Phenominer B tốt hơn trên tập Phenominer A. Có thể lý giải hiệu quả trên

tập Phenominer B kém hơn tập còn lại là do hiệu quả trên thực thể GG kém hơn 2%

và DS kém hơn 3-4%, trong khi tổng số lượng thực thể GG và DS chiếm 40% trên

tổng số thực thể (1.709/4.251).

Trong các thực nghiệm tiếp theo luận án sử dụng kết quả tốt nhất tại độ đo vi

mô F của phương pháp MEM+BS làm kết quả mặc định của mô hình nhận dạng

thực thể biểu hiện và thực thể liên quan (78,41 trên tập dữ liệu Phenominer A và

78,35 trên tập dữ liệu Phenominer B).

Bảng 3.4. Thực nghiệm so sánh các phương pháp học máy khác nhau

PHENOMINER A PHENOMINER BPHƯƠNG PHÁP THỰC THỂ P R F P R F

CRFPH 71,16 75,24 73,14 72,19 78,03 75,00GG 80,68 83,07 81,86 79,68 79,54 79,61

88

Page 91: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

OR 72,54 79,13 75,69 81,13 77,08 79,05CD 77,58 80,65 79,09 78,42 82,34 80,33AN 74,22 81,94 77,89 72,65 78,69 75,55DS 76,85 72,41 74,56 72,31 70,13 71,20

ALL (MICRO AVG-F1)

78,16 77,96

ALL (MACRO AVG-F1)

77,04 76,79

MEM+BS

PH 73,72 76,06 74,87 74,68 78,13 76,37GG 82,49 81,47 81,98 80,63 78,52 79,56OR 72,80 78,14 75,38 80,17 75,13 77,57CD 79,59 81,25 80,41 78,55 82,97 80,70AN 72,43 82,45 77,11 73,45 79,69 76,44DS 75,77 72,91 74,32 72,16 69,84 70,98

ALL (MICRO AVG-F1)

78,41 77,35

ALL (macro avg-F1) 77,34 76,94

3.3.2. Thực nghiệm 2: so sánh kết quả của mô hình đề xuất với một số nghiên

cứu liên quan

Để thu được một đánh giá khách quan phương pháp được đề xuất, luận án

thiết kế một số thực nghiệm để so sánh kết quả giữa hệ thống mà luận án xây dựng

với một số nghiên cứu liên quan khác.

Mục tiêu của bài toán là tập trung vào nhận dạng thực thể biểu hiện, mặc dù có

khá nhiều nghiên cứu liên quan đến nhận dang thực thể biểu hiện như nghiên cứu

của Khordad và cộng sự [KMR11], Groza và cộng sự [GZH12], Groza và cộng sự

[GKD15], Collier và cộng sự [COG15], tuy nhiên hầu hết các nghiên cứu đều tập

trung vào việc sử dụng các tập luật nhận dạng được xây dựng từ các tri thức miền

có sẵn như HPO, MP. Các phương án sử dụng tập luật thường phụ thuộc nhiều vào

các tri thức miền có sẵn và yếu trong các tính huống phát hiện thực thể mới không

liên quan. Bên cạnh đấy việc so sánh với các phương pháp phụ thuộc tập luật dựa

trên tri thức miền thường khá hẹp không phủ đầy đủ toàn bộ miền dữ liệu thực thể

biểu hiện cần xem xét như hình 3.3.

Luận án hướng tới việc sử dụng kỹ thuật học máy để khắc phục các hạn chế

của phương pháp dựa trên luật, chính vì vậy nghiên cứu của Khordad và cộng sự

89

Page 92: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[KMR11] được sử dụng để làm phương pháp so sánh với mô hình được đề xuất.

Đây là nghiên cứu đầu tiên thực hiện bài toán nhận dạng thực thể biểu hiện trong

văn bản y sinh học bằng kỹ thuật nhận dạng chuỗi tự động. Đối với nghiên cứu này,

hai yếu tố được quan tâm là phương pháp và dữ liệu. Do mã nguồn của nghiên cứu

này không được công khai, nghiên cứu sinh đã lập trình lại hệ thống theo mô tả

trong [KMR11] và cho kết quả kiểm thử trên tập dữ liệu KMR không sai lệch nhiều

so với kết quả mà Khordad và cộng sự đã công bố. Các thực nghiệm sẽ được tiến

hành lần lượt bằng hai phương pháp trên dữ liệu KMR và Phenominer A để đánh

giá kết quả.

Ngoài ra, để kiểm định chất lượng của hệ thống đối với các thực thể khác (cụ

thể ở đây luận án lựa chọn thực thể y sinh phổ biến nhất và có liên quan chặt chẽ tới

biểu hiện là GG), công cụ GENIA Tagger [TTK05] được lựa chọn để gán nhãn thực

thể GG trong hai tập dữ liệu Phenominer. GENIA tagger là một công cụ nhận dạng

thực thể GG tiên tiến được đánh giá tương đối tốt trong cộng đồng nghiên cứu, nó

được huấn luyện sử dụng bộ dữ liệu JNLPBA 2004 với hiệu quả cho 5 loại thực thể

Protein, DNA, RNA, Cell line và Cell type là 71,37. Do chỉ so sánh trong việc nhận

dạng thực thể GG nên nghiên cứu sinh ghép 3 kết quả của thực thể Protein, DNA và

RNA từ Genia Tagger thành nhãn thực thể GG để so sánh. Cùng với GENIA

Tagger, công cụ Lineaus [GNB10] cũng được sử dụng để so sánh kết quả nhận dạng

thực thể về loài (OR).

Bên cạnh các nghiên cứu trên, luận án cũng đưa ra các kết quả so sánh nhận

dạng thực thể bằng kỹ thuật đối sánh từ điển sử dụng tri thức miền từ các ontology

liên quan với các thực thể. Kỹ thuật đối sánh từ điển được sử dụng trong trường hợp

này là đối sánh dài nhất (longest matching), đây là phương pháp thường được sử

dụng trong việc nhận dạng thực thể bằng từ điển. Có 5 bộ nhận dạng bằng từ điển

sử dụng các tài nguyên trong mục 3.2.4 được mô tả như sau:

- Bộ nhận dạng GG sử dụng từ điển về Gene do NCBI cung cấp.

- Bộ nhận dạng PH sử dụng danh sách thuật ngữ từ ontology HPO và MP.

- Bộ nhận dạng CD sử dụng danh sách thuật ngữ từ ontology Jochem.

90

Page 93: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

- Bộ nhận dạng AN sử dụng danh sách thuật ngữ từ ontology FMA.

- Bộ nhận dạng DS sử dụng danh sách thuật ngữ từ cơ sở dữ liệu UMLS.

Kết quả so sánh được mô tả trong bảng 3.5 dưới đây:

Bảng 3.5. Thực nghiệm so sánh mô hình đề xuất và các hệ thống khác

Phenominer A Phenominer B Tập KMRPhương

pháp Thực thể P R F P R F P R F

Khordad et al. PH 65,89

57,44

61,38

64,28

60,34

62,25

90,74

88,44

89,58

Genia Tagger GG 71,36

75,58

73,41

71,13

72,57

71,84

Lineaus OR 56,81

57,28

57,04

54,81

55,39

55,10

Từ điển PH 51,24

50,91

51,07

57,31

52,71

54,91

87,26

82,35

84,73

Từ điển GG 87,29

60,44

71,42

79,24

62,17

69,67

Từ điển CD 91,49

56,07

69,53

87,24

55,43

67,79

Từ điển AN 83,46

50,13

62,64

84,57

48,77

61,86

Từ điển DS 57,82

34,27

43,03

51,25

31,04

38,66

MEM + BS

PH 73,72

76,06

74,87

74,68

78,13

76,37

86,37

84,19

85,27

GG 82,49

81,47

81,98

80,63

78,52

79,56

OR 72,80

78,14

75,38

80,17

75,13

77,57

CD 79,59

81,25

80,41

78,55

82,97

80,70

AN 72,43

82,45

77,11

73,45

79,69

76,44

DS 75,77

72,91

74,32

72,16

69,84

70,98

ALL (micro avg-F1)

78,41

78,35

ALL (macro avg-

F1)

77,34

76,94

Có thể thấy mô hình mà luận án đề xuất đem lại kết quả tốt hơn so với bộ gán

nhãn GENIA Tagger trên dữ liệu Phenominer. Cụ thể, độ F của mô hình đề xuất cao

hơn khá nhiều so với GENIA tagger (khoảng 8,0 trên cả hai tập dữ liệu

91

Page 94: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Phenominer). Kết quả vượt trội này cũng được thể hiện khi so sánh với công cụ

Lineaus trên cả hai tập với 18,34 trên tập Phenominer A và 22,47 trên tập

Phenominer B.

Đối với dữ liệu KMR, không ngạc nhiên khi kết quả của mô hình thấp hơn so

với kết quả của phương pháp được Khordad và cộng sự đề xuất năm 2011 [KMR11]

vì bản thân phương pháp tham chiếu này đã xây dựng và sử dụng một số luật tương

đối chặt dựa trên quá trình khảo sát trực tiếp dữ liệu KMR. Tuy nhiên, kết quả F1

đạt 85,27% đối với một tập dữ liệu hoàn toàn mới của phương pháp lai ghép đã là

một kết quả tương đối khả quan.

Đối với dữ liệu Phenominer A và B, phương pháp của Khordad đem lại kết

quả không được tốt với F1 là 61,38 (Phenominer A) và 62,25 (Phenominer B), kém

hơn nhiều so với kết quả của mô hình đề xuất (74,87 trên Phenominer A và 76,37

Phenominer B). Một trong những lý do là vì dữ liệu Phenominer A và B phức tạp

hơn tập ngữ liệu KMR về cả mặt cấu trúc biểu hiện và ngữ cảnh chứa chúng (độ dài

trung bình của thực thể PH trong tập ngữ liệu KMR là 1,7 từ vựng với biểu hiện dài

nhất chứa 5 từ vựng, trong khi đó độ dài trung bình của thực thể PH trong

Phenominer A là 2,9 từ vựng và Phenominer B là 3,2, PH dài nhất chứa đến 16 từ

vựng).

So sánh hiệu quả của mô hình nhận dạng dựa trên từ điển với mô hình đề xuất

đều không cho kết quả khả quan do giá trị độ đo hồi tưởng thấp mặc dù độ đo chính

xác là tương đối tốt trên các thực thể GG, AN, CD (đều đạt trên 80%). Những kết

quả trên cho thấy tính đúng đắn của các kỹ thuật được lựa chọn trong mô hình đề

xuất.

3.3.3. Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết quả

nhận diện thực thể

Để đưa ra một cái nhìn khách quan và tổng thể về sự đóng góp của các tài

nguyên đối với hiệu quả của hệ thống nhận dạng thực thể, nghiên cứu sinh thực hiện

việc đánh giá từng tài nguyên bằng chiến thuật loại bỏ các đặc trưng liên quan đến

từng loại từ điển để xem hiệu quả thay đổi thế nào. Kết quả tính toán sẽ được thể

92

Page 95: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

hiện dựa trên cả hai loại đối sánh mẫu kết quả là: đối sánh một phần và đối sánh

chặt. Trong các thực nghiệm này, phương pháp MEM+BS, tập dữ liệu Phenominer

A và độ đo trung bình vi mô F1 (micro average F1) sẽ được sử dụng để quyết định

kết quả. Các kết quả được trình bày trong Bảng 3.6, trong đó mỗi hàng ngang biểu

diễn kết quả khi loại bỏ một tài nguyên khỏi hệ thống (được ký hiệu bằng dấu “─”

tại ô tương ứng).

Bảng 3.6. Kết quả đánh giá tài nguyên của mô hình nhận dạng thực thể

(Các kết quả dựa trên đối sánh một phần).

J U H M G L F P C B PH O

R

A

N

G

G

C

D

DS AL

L

─ + + + + + + + + + 73,

7

75,

6

76,

2

63

,8

78,

9

74,

2

6

7,8

+ ─ + + + + + + + + 68,

3

72,

1

76,

8

79,

4

78,

7

61,

4

69

,9

+ + ─ + + + + + + + 61,

8

74,

0

77,

1

8

0,9

80,

4

73,

6

69

,8

+ + + ─ + + + + + + 54,

4

75,

2

75,

6

81,

6

80,

4

73,

2

70

+ + + + ─ + + + + + 74,

6

75,

4

77,

1

79,

7

80,

4

74,

3

7

6,5

+ + + + + ─ + + + + 73,

2

49,

9

76,

7

82 79,

3

73,

8

7

5,4

+ + + + + + ─ + + + 74,

9

75,

4

59,

0

82 80,

4

74,

3

75

+ + + + + + + ─ + + 74,

7

75,

4

77,

1

82 80,

4

74,

3

76,

1

+ + + + + + + + ─ + 74,

9

75,

4

77,

1

82 41,

6

74,

3

7

3,2

93

Page 96: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

+ + + + + + + + + ─ 74,

9

75,

4

76,

0

82 80,

4

74,

3

7

6,3

+ + + + + + + + + + 74,

9

75,

4

77,

1

82 80,

4

74,

3

7

7,3

Các tài nguyên được viết tắt bằng ký hiệu như sau J: JNLPBA và Genia

tagger, U: UMLS và MetaMap, H: Human Phenotype Ontology, M: Mammalian

Phenotype Ontology, G: Gene Dictionary của NCBI, L: Linnaeus, F: Foundation

Model of Anatomy, P: Phenotypic Trait Ontology, C: từ điển Jochem, B: Brenda

Tissue Ontology.

Cột ALL đưa ra kết quả của toàn hệ thống sử dụng micro average F1

Kết quả thu được cho thấy rằng tất cả các tài nguyên đều có tác dụng nâng cao

kết quả của hệ thống, tuy nhiên sự đóng góp của chúng là khác nhau. Một số tài

nguyên giúp cải thiện kết quả rất nhiều, một số lại chỉ góp một phần rất nhỏ; một

vài tài nguyên chỉ có ảnh hưởng đến một loại thực thể duy nhất, nhưng lại có những

tài nguyên mà sự xuất hiện của nó nâng cao kết quả khi nhận dạng một loạt thực

thể. Một số thay đổi rõ rệt về mặt kết quả được in đậm trong Bảng 3.6, ví dụ dữ liệu

JNLPBA đem lại kết quả tốt hơn nhiều cho GG (82,0 so sánh với 63,8), HPO và

MP giúp tăng kết quả nhận dạng PH lần lượt từ 61,8 và 54,4 lên 74,9.

3.3.4. Thực nghiệm 4: ứng dụng mô hình đề xuất để nhận dạng thực thể y sinh

trong cuộc thi BioCreAtIvE V CDR Task

Bên cạnh việc đánh giá trên hai tập dữ liệu Phenominer A và B, mô hình đề

xuất cũng được áp dụng trong việc nhận dạng thực thể bệnh (disease) và hóa chất

(chemical) tại cuộc thi phát hiện mối quan hệ hóa chất gây ra bệnh (chemical-

induced disease) tại hội thảo BioCreAtIvE V CDR Task20. Tập dữ liệu tại cuộc thi

này gồm 1500 bài báo y sinh học được lấy từ Pubmed, dữ liệu được chia thành 3 tập

dữ liệu bằng nhau, mỗi tập 500 bài viết gồm: tập huấn luyện (Training set), tập phát

triển (Development set) và tập kiểm thử (Testing set).

20 BioCreative V Track 3- CDR http://www.biocreative.org/tasks/biocreative-v/track-3-cdr/

94

Page 97: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Trong quá trình thi, tập kiểm thử không được công bố, các đội thi sử dụng tập

huấn luyện và tập phát triển để xây dựng mô hình học và tối ưu tham số mô hình.

Mô hình huấn luyện của các đội thi sẽ được đánh giá trên tập kiểm thử thông qua

việc kết nối với hệ thống máy chủ của ban tổ chức tại thời điểm cuối của cuộc thi để

đảm bảo tính công bằng giữa các đội. Các đội thi cần thực hiện hai nhiệm vụ chính

là nhận dạng các thực thể bệnh, hóa chất và sử dụng các thực thể đã nhận dạng được

để trích xuất các mối quan hệ giữa hóa chất gây ra bệnh. Mặc dù việc nhận dạng

thực thể được thực hiện trên cả hai loại thực thể là bệnh và hóa chất tuy nhiên việc

đánh giá ở mức nhận dạng thực thể chỉ được đánh giá trên thực thể bệnh.

Bảng 3.7. Thống kê trên ba tập dữ liệu của nhiệm vụ CDR [WPL15]

Tập dữ liệu Số lượng bài báo Thực thể hóa chất Thực thể bệnh

Huấn luyện 500 5203 4182

Phát triển 500 5347 4244

Kiểm thử 500 5385 4424

Nghiên cứu sinh sử dụng mô hình được đề xuất ở mục 3.2.3 để xây dựng mô

hình nhận dạng thực thể trên tập dữ liệu CDR. Mô hình được xây dựng dựa trên

việc học trên tập huấn luyện và tối ưu tham số bằng tập phát triển. Kết quả của mô

hình đề xuất được so sánh với các kết quả do ban tổ chức BioCreAtIvE V CDR

Task cung cấp [WPL15], bao gồm:

- Dictionary: Nhận dạng dựa trên đối sánh từ điển (Dictionary look-up)

- DNorm: Công cụ nhận dạng thực thể bệnh DNorm21

- Average: Kết quả trung bình của các đội thi

- Best: Kết quả của đội thi đạt kết quả cao nhất

Bảng 3.8. Kết quả mô hình nhận dạng trên tập dữ liệu kiểm thử

Phương pháp P R F

Dictionary 42,71 67,46 52,30

21 https://www.ncbi.nlm.nih.gov/research/bionlp/Tools/dnorm/

95

Page 98: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

DNorm 81,15 80,13 80,64

Average 78,99 74,81 76,03

Best 89,63 83,50 86,47

Mô hình đề xuất 79,90 85,16 82,44

Kết quả của mô hình nhận dạng thực thể đề xuất đứng thứ 10 trên 16 đội tham

gia và đứng thứ 4 trên 16 đội đối với bài toán trích xuất quan hệ hóa chất gây ra

bệnh.

3.4. Thích nghi miền dữ liệu trong nhận dạng thực thể y sinh

Mô hình nhận dạng thực thể được nêu ở trên được thực nghiệm trên các tập dữ

liệu mẫu Phenominer A, Phenominer B và KMR, đây là các tập có kích thước nhỏ

so với con số vài chục triệu văn bản y sinh tương ứng trong kho dữ liệu Pubmed.

Mặc dù kết quả thu được đã thể hiện hiệu suất tương đối tốt của hệ thống khi kiểm

thử trong miền dữ liệu (in-domain) (huấn luyện và kiểm thử đều thực hiện với cùng

tập dữ liệu Phenominer A hoặc Phenominer B). Tuy nhiên, một vấn đề đặt ra cho hệ

thống là liệu có thể giữ được hiệu suất như thế khi xử lý cho tập dữ liệu hoàn toàn

mới hay không? Việc kết hợp các mô hình học máy và tài nguyên tri thức dẫn đến

chất lượng gán nhãn phụ thuộc khá nhiều vào nguồn tri thức được cung cấp, nhưng

trong nhiều trường hợp, các tài nguyên tri thức không hỗ trợ đủ cho việc nhận dạng

trong tất cả các miền dữ liệu, đặc biệt là các dữ liệu lớn hoặc hướng vào chuyên

ngành nhỏ. Vì vậy trong phần này, luận án sẽ tập trung vào việc đưa ra các thực

nghiệm nhằm trả lời các câu hỏi liên quan đến hiệu quả của mô hình nhận dạng khi

chuyển đổi sang miền dữ liệu khác. Khái niệm miền dữ liệu khác ở đây được hiểu là

các tập dữ liệu có kích thước và chủ đề khác nhưng vẫn nằm trong lĩnh vực văn bản

y sinh. Trong các thực nghiệm được mô tả phần 3.4.1 dữ liệu giữa miền nguồn và

miền đích trong vấn đề thích nghi miền sẽ được thể hiện thông qua hai tập dữ liệu

Phenominer A (miền dữ liệu liên quan đến các bệnh tự miễn dịch) và Phenominer B

(miền dữ liệu liên quan đến các bệnh tim mạch).

96

Page 99: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

3.4.1. Thực nghiệm

Các thực nghiệm được thiết kế trong nghiên cứu này được đánh số từ M1 đến M6 và mô tả chi tiết dưới đây. Tất cả các phương pháp đều sử dụng kiểm thử chéo 10 lần với độ đo trung bình vi mô F cùng đối sánh chặt (strict matching). Phương pháp huấn luyện được sử dụng ở đây là MEM+BS với tập đặc trưng tương tự như các thực nghiệm ở phần 3.2.4 (được mô tả ở bảng 3.3).

M1: IN DOMAIN - Kiểm thử trong miền

Trong thực nghiệm này, mô hình chỉ được huấn luyện và kiểm thử trên cùng

miền dữ liệu nguồn. Kết quả trong thực nghiệm này chỉ sử dụng làm cơ sở kiểm

chứng sự thay đổi với các thực nghiệm khác.

M2: OUT DOMAIN - Kiểm thử ngoài miền

Mô hình được huấn luyện trên miền dữ liệu nguồn và kiểm thử trên miền dữ

liệu đích. Phương pháp này cho thấy sự tụt giảm của việc thích nghi miền dữ liệu,

thông tin từ kết quả sẽ đưa ra cái nhìn về sự khác nhau giữa hai miền nguồn và đích.

M3: MIX-IN - Trộn lẫn dữ liệu để huấn luyện

Mô hình được huấn luyện trên 100% miền dữ liệu nguồn kết hợp với 90% miền dữ liệu đích, 10% còn lại của miền dữ liệu đích được sử dụng cho kiểm thử. Phương pháp này phản ảnh kỹ thuật tổng hợp (pooling) thường được sử dụng để xây dựng dữ liệu cho NER y sinh.

M4: STACK - Xếp chồng dữ liệu huấn luyện

Mô hình được huấn luyện với 100% miền dữ liệu nguồn được xếp chồng lên bởi 90% miền dữ liệu đích. Xếp chồng sử dụng một bộ phân lớp kết hợp và nó là phương pháp phổ biến để xây dựng quần thể hiệu suất cao của các bộ phân lớp [ES13]. Cơ chế của phương pháp này như sau: (1) huấn luyện mô hình bằng 100% miền dữ liệu gốc, (2) thu thập các nhãn do mô hình nói trên gán cho các câu trong dữ liệu đích và (3) sử dụng những nhãn thu được trong bước 2 như các đặc trưng để huấn luyện mô hình bằng 90% miền dữ liệu đích.

M5: BINARY CLASS - Lớp nhị phân

Lớp thực thể phức tạp biểu hiện (PH) được gán nhãn lại thành PH-A trong tập

Phenominer A và PH-B trong tập Phenominer B, sử dụng M3 để đánh giá. Sau đó

PH-A và PH-B sẽ được kết hợp lại thành lớp thực thể PH. Thực nghiệm này cho

97

Page 100: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

thấy hiệu quả mô hình khi giữ nguyên các đặc trưng theo miền của từng loại thực

thể.

M6: FRUSTRATINGLY SIMPLE - Sử dụng cách tiếp cận điều chỉnh đặc

trưng của H. Daume III đề xuất năm 2007 [DA07]

Phương pháp này cung cấp một cách có hiệu quả một mô hình chung trên

Phenominer A và Phenominer B bằng cách chia mỗi đặc trưng thành ba phần: một

cho giá trị chia sẻ miền chéo và hai thành phần còn lại cho mỗi giá trị theo miền cụ

thể. Phương pháp này được đánh giá sử dụng chế độ tương tự như M3.

3.4.2. Kết quả và đánh giá

Bảng 3.9 đưa ra kết quả theo F1 trong các miền dữ liệu y sinh gần (Phenominer A về bệnh tự miễn dịch di truyền và Phenominer B về bệnh tim mạch di truyền) với 6 chiến lược đã đề ra. Những kết quả được in đậm là kết quả tốt nhất đối với từng lớp, những kết quả được in nghiêng là những kết quả tốt hơn kết quả cơ sở M1.

Kết quả thực nghiệm trong miền (M1) trên cả dữ liệu Phenominer A và B cho

thấy hiệu suất tương đối cao của hệ thống. Các lớp thực thể có nhiều thể hiện hơn

có xu hướng có kết quả tốt hơn.

Bảng 3.9. Kết quả F1 của hệ thống NER sử dụng phương pháp thực nghiệm 1-6.

MH DL AN CD DS GG PH OR ALLM1 A 57,1 29,5 80,4 74 46 68,4 69,9M2 A 34,3 26,9 57,7 55,6 26,9 64 50,8M3 A 50,8 20 77,9 71,7 39,7 72,2 67,3M4 A 56,3 17,4 79 74,1 44,1 70,8 69,8M5 A 56,7 29,6 77,3 72,7 41,5 72,8 68,3M6 A 57,1 27,7 79 73,4 44,9 69,9 69,5M1 B 37,2 31,3 72,9 57,2 46,5 73,2 58,5M2 B 21,2 20,2 57 52,3 24,4 68,5 46,6M3 B 36,8 38,7 72,3 61,1 44 77,4 59,7M4 B 34,8 34,4 72,5 57,5 45,9 74,7 58,5M5 B 34,1 41,6 73,6 58,9 43,2 78,5 59,6M6 B 39,9 35 73,3 56,4 46,6 75 59,1

MH: Mô hình (M1-M6 tương ứng với các mô hình 1-6)

98

Page 101: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

DL: Dữ liệu (A: Phenominer A về bệnh tự miễn dịch và B: Phenominer B về bệnh tim mạch)

Các cột AN, CD, DS, GG, PH, OR và kết quả tương ứng với từng loại thực thể. Trong đó số ở hàng trên là F1.

Cột ALL đưa ra kết quả của toàn hệ thống, F1 là micro average F1Trong thực nghiệm M2, kiểm thử ngoài miền, có một sự tụt giảm nghiêm

trọng về hiệu suất hệ thống trên hầu hết các lớp thực thể. Huấn luyện trên

Phenominer B và kiểm thử trên Phenominer A khiến kết quả giảm đi 19,1% (F1 từ

69,9 xuống 50,8), huấn luyện trên Phenominer A và kiểm thử trên Phenominer B

khiến kết quả giảm 11,9% (F1 từ 58,5 còn 46,6). Các kết quả này phù hợp với nhận

định của Wang và cộng sự [WKS09].

Khi so sánh kết quả của phương pháp tổng hợp M3 với M1, lớp thực thể duy

nhất có hiệu suất tăng lên tại OR với cả hai trường hợp (F1 tăng từ 68,4 lên 72,2 và

F1 tăng từ 73,2 lên 77,4). Ngoài ra, có thể thấy yếu tố số lượng các thể hiện của một

loại thực thể trong dữ liệu không có ảnh hưởng rõ ràng đến kết quả. Lấy ví dụ bằng

hai loại thực thể có số lượng thể hiện không cân bằng trong Phenominer A và B là

CD và GG: (1) Thêm 147 thể hiện của CD từ Phenominer B vào với 44 thể hiện của

CD trong Phenominer A, hiệu suất giảm từ M1: 29,5 xuống M3: 20,0 khi kiểm thử

trên Phenominer A; (2) Tuy nhiên, thêm 1663 thể hiện của GG từ Phenominer A

vào với 754 thể hiện của GG trong Phenominer B lại khiến hiệu suất tăng từ M1:

57,2 lên M3: 61,1 khi kiểm thử với Phenominer B. Rõ ràng rằng việc tổng hợp

nhiều thực thể chưa chắc đã có tác dụng trong việc nâng cao hiệu suất. Sự tụt giảm

hiệu suất tổng hợp chung cho tất cả các lớp đối với M3 là vào khoảng 3% (trừ thực

thể CD lên đến 9,5%) theo cả hai hướng (Phenominer A là nguồn và Phenominer B

là nguồn), kết quả này phù hợp với kết quả được công bố trong nghiên cứu

[WTJ13].

Trái ngược với sự mong đợi, mô hình xếp chồng M4 đem lại lợi ích rất ít và

nó được pha trộn giữa các loại thực thể. M4 kiểm thử trên Phenominer B không cho

thấy sự cải thiện nói chung nào nhưng có một vài tiến bộ trong CD và OR. M4 kiểm

99

Page 102: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

thử trên Phenominer A cũng chỉ có tác dụng với OR, càng ủng hộ giả thiết nói trên

về khả năng tương thích cao hơn của thực thể OR trên các miền dữ liệu.

Mô hình M5 tách các nhãn PH trong hai tập dữ liệu có cải tiến đáng chú ý khi

kiểm thử trên Phenominer A nhưng rất tiếc lại không duy trì được điều đó khi kiểm

thử trên Phenominer B.

Cuối cùng, mô hình M6 sử dụng cách tiếp cận điều chỉnh đặc trưng của

[DA07] chỉ mới đảm bảo được hiệu suất tương đương với M1 khi kiểm thử trên

Phenominer A và vượt lên một chút khi kiểm thử trên Phenominer B. Một cách giải

thích là do các tập dữ liệu là quá nhỏ, do đó tập đặc trưng phong phú hơn chỉ có tác

dụng cận biên lên hiệu suất. Bảng 3.3. đã chỉ ra rằng rất nhiều đặc trưng có khả

năng dự đoán thấp (tức là GR < 0,1) trong nội dữ liệu, tuy nhiên không phải là tất

cả, ví dụ HPO có GR cao hơn so với các tài nguyên khác.

Tóm lại, khi tính trung bình F1 trên các mô hình cho Phenominer A và B, sử dụng M1 làm cơ sở tham chiếu, dễ thấy M2 phải chịu sự tụt giảm lớn nhất về hiệu suất, đối với các phương pháp khắc phục, chiến lược của M4 và M6 có vẻ vượt hơn so với M3 và M5.

3.5. Tổng kết chương

Trong chương này, luận án đã trình bày phương thức hệ thống bài toán nhận

dạng thực thể y sinh và đặc biệt là bài toán nhận dạng thực thể biểu hiện và các thực

thể liên quan. Các công trình nghiên cứu liên quan, tài nguyên về miền dữ liệu cũng

như các công cụ hỗ trợ cũng được trình bày cụ thể. Bên cạnh những khái niệm lý

thuyết, luận án cũng đưa ra một mô hình đề xuất phục vụ nhận dạng thực thể biểu

hiện và các thực thể liên quan. Mô hình này được đánh giá chi tiết bằng các thực

nghiệm trên miền dữ liệu các bệnh tự miễn dịch (auto-immune) và bệnh tim mạch

(cardiovascular), kết quả đạt được tốt nhất là 78,41 đối với độ đo trung bình vi mô

F1 (micro-avarage F1) trên tập Phenominer A và 77,35 trên tập Phenominer B. Các

kết quả đã chứng minh được tính hiệu quả của các mô hình nhận dạng được đề xuất,

việc sử dụng các giải thuật nhận dạng chuỗi như CRF và MEM+BS cho kết quả

100

Page 103: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

tương đương nhau, tuy nhiên trong nhiều thực nghiệm MEM+BS vẫn đạt hiệu quả

tốt hơn.

Bên cạnh mô hình đề xuất về nhận dạng thực thể biểu hiện, luận án cũng trình

bày vấn đề thích nghi miền trong chính bài toán này. Đối với vấn đề thích nghi miền

gần trong dữ liệu y sinh, luận án đã chứng minh rằng việc thích nghi miền dữ liệu

trong dữ liệu y sinh phải gánh chịu những tổn thất nghiêm trọng về mặt hiệu suất,

ngay cả khi những miền dữ liệu này ở phạm vi gần, tuy nhiên những sự tụt giảm

này là không đồng đều trên các lớp thực thể. Luận án đã so sánh bốn chiến lược kết

hợp dữ liệu để giảm thiểu tác động của việc thích nghi miền dữ liệu ở phạm vi gần

và đánh giá hiệu suất của chúng so với cơ sở là hiệu suất của hệ thống khi chạy

trong miền dữ liệu. Các chiến lược sử dụng dữ liệu đa miền như học xếp chồng, mở

rộng tập đặc trưng có thể giúp giảm thiểu sự tụt giảm độ chính xác, nhưng không

nhất thiết có thể giúp đem lại hiệu suất cao hơn, ngoại trừ một số thực thể có sự

thống nhất rộng rãi về thuật ngữ (như OR - thực thể sinh vật). Nghiên cứu sinh cũng

nhận thấy các phương pháp tổng hợp dữ liệu đơn giản từ nhiều miền dữ liệu không

có tác dụng nhiều, đặc biệt là với các lớp phức tạp như biểu hiện.

Các nghiên cứu được nêu trong chương này đã được tổng hợp và công bố

trong các công trình [CTLA1, CTLA4, CTLA7]. Trong đó các công bố [CTLA4]

tập trung vào bài toán nhận dạng thực thể biểu hiện, [CTLA1] nghiên cứu về vấn đề

thích nghi miền dữ liệu còn nghiên cứu [CTLA7] áp dụng mô hình nhận dạng thực

thể được đề xuất vào các loại thực thể y sinh khác.

101

Page 104: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Chương 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG

THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC

XẾP HẠNG

Chương 4 trình bày một mô hình sử dụng kỹ thuật lai ghép kết quả của các

phương pháp nhận dạng thực thể khác nhau nhằm tăng cường hiệu quả của đầu ra

hệ thống nhận dạng thực thể y sinh. Phần đầu của chương sẽ giới thiệu một mô hình

được nghiên cứu sinh đề xuất nhằm tăng cường hiệu quả nhận dạng thực thể biểu

hiện và các thực thể liên quan. Hai phần tiếp theo của chương sẽ giới thiệu các thực

nghiệm cũng như kết quả đánh giá hiệu quả của mô hình được đề xuất.

4.1. Mô hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên

quan

Mô hình mà luận án đề xuất để nâng cấp kết quả thực nghiệm trong chương 3,

là tiếp cận sử dụng phương pháp lai ghép các mô hình học máy và các nguồn tài

nguyên tri thức theo nhiều cách khác nhau. Mô hình hệ thống NER này được mô tả

trực quan trong Hình 4.1.

102

Page 105: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh

Hệ thống được chia làm bốn pha chính như sau:(1) Tiền xử lý: Pha này được thực hiện tương tự như pha tiền xử lý được mô tả

trong phần 3.2.3 tại chương 3.

(2) Trích chọn đặc trưng là pha xử lý cần phải có trước khi huấn luyện hay gán

nhãn dữ liệu. Nhiệm vụ của pha này là trích xuất ra các đặc trưng đã xác định

trước của từng từ vựng trong câu. Các đặc trưng tương ứng với từng bộ nhận

dạng sẽ được mô tả trong bước sau.

(3) Gán nhãn dữ liệu theo từng câu: Các bộ gán nhãn sẽ sử dụng những đặc

trưng đã được trích chọn ở bước trên để gán nhãn cho từng câu trong dữ liệu.

Ở đây có 7 bộ gán nhãn thuộc về ba loại hoạt động tách biệt (1 bộ gán nhãn

dựa trên luật, 5 bộ gán nhãn dựa trên từ điển, 1 bộ gán nhãn dựa trên học

máy) và đưa ra 7 kết quả đầu ra tương ứng. Ba loại bộ gán nhãn này gồm có:

Bộ gán nhãn dựa trên luật sẽ đối sánh dữ liệu với các luật đã được định

nghĩa trước để gán nhãn những dữ liệu phù hợp với luật. Các tài nguyên

và công cụ sử dụng trong bộ gán nhãn này gồm có MetaMap, ontology

PATO cùng danh sách bổ ngữ, ontology về các bộ phận cơ thể (FMA), và

từ điển Gene của NCBI (GG). Dưới đây là một ví dụ về luật được xây

dựng và sử dụng. Trong luật này, vế trái là một mẫu phù hợp với bất kỳ

chuỗi nào có chứa một từ nằm trong PATO và theo sau đó là một từ nằm

trong FMA, vế phải là hành động nếu chuỗi từ vựng phù hợp với điều

kiện ở vế trái thì nó phải được gán nhãn PH (thực thể biểu hiện).

(sequence = [term in PATO] + [term in FMA]) → PHCác bộ gán nhãn dựa trên từ điển, sử dụng kỹ thuật đối sánh dài nhất

(longest matching) để nhận dạng các thực thể có xuất hiện trong một

ontology nào đó không. Có 5 nhóm ontology thuộc về 5 loại thực thể

(FMA và BTO cho thực thể AN, Jochem cho thực thể CD, GD cho thực

thể GG, HPO và MP cho thực thể PH và UMLS cho thực thể DS). Tương

ứng với đó, có 5 bộ gán nhãn dựa trên từ điển đem lại 5 kết quả đầu ra

103

Page 106: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

khác nhau. Hình 5.1 dưới đây đưa ra ví dụ gán nhãn các đặc trưng trong

câu “one has required dioxin for heart failure” sử dụng các tài nguyên

nói trên bằng cách chỉ ra vị trí (ID) của từ vựng trong tài nguyên đó.

Hình 4.2. Một ví dụ gán nhãn các đặc trưng dựa trên tài nguyên trong câu

(4) Quyết định kết quả: Như vậy, trong pha gán nhãn dữ liệu nói trên, hệ thống

sử dụng 7 bộ gán nhãn (thuộc về 3 loại), tương ứng với đó là 7 kết quả đầu ra

khác nhau, và trong nhiều trường hợp sẽ có sự xung đột giữa các kết quả này.

Việc lựa chọn một kết quả duy nhất cho hệ thống không phải là điều đơn

giản, nó quyết định trực tiếp đến chất lượng của hệ thống. Pha quyết định kết

quả của hệ thống sử dụng một trong ba phương pháp sau để lựa chọn ra một

kết quả cuối cùng: học xếp hạng sử dụng SVM, học máy MEM+BS hoặc sử

dụng danh sách ưu tiên được xây dựng dựa trên kinh nghiệm. Các mô tả chi

tiết về những phương pháp này sẽ được nêu trong phần thực nghiệm.

4.2. Các phương pháp lai ghép được đề xuất

4.2.1 Phương pháp lai ghép sử dụng luật

Phương pháp lai ghép được nêu ra đầu tiên là kỹ thuật sử dụng luật heuristic,

trong đó, việc quyết định kết quả được thực hiện bằng cách sử dụng danh sách ưu

tiên theo thứ tự sau đây DS>PH>GG>CD>AN>OR>O. Theo Jimeno và cộng sự

[JJL08], việc kết hợp nhãn đòi hỏi thu thập bất kỳ kết quả nhãn thực thể nào được

đề xuất bằng ít nhất một trong các phương pháp, vì vậy nhãn O (không phải thực

104

Page 107: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

thể) là nhãn có độ ưu tiên thấp nhất. Phần còn lại của danh sách có được dựa trên

việc phân tích các ontology của các thực thể để đưa ra một số quan sát như thực thể

nào thường chứa thực thể nào. Ví dụ, thực thể biểu hiện (PH) thường chứa bộ phận

cơ thể (AN) hay gen và các sản phẩm của gen (GG) (“pannus formation”, “elevated

serum levels of cartilage oliomeric matrix protein”), trong khi đó đôi khi gen (GG)

lại chứa tên loài sinh vật (OR) (“mouse H19 gene”, “mouse ABcg2/Breast cancer

resistance protein (BCRP) gene”). Tuy nhiên, tên sinh vật (OR) không bao giờ chứa

thực thể GG hay AN trong nó.

Nếu có sự xung đột về ranh giới từ, các thực thể “láng giềng” có sự chia sẻ

một chuỗi từ vựng nào đó được hợp nhất thành một thực thể duy nhất và chọn cho

nó nhãn có độ ưu tiên cao nhất. Ví dụ, nếu ta có cụm từ “abnormalities in gene

AFM044xg3” được gán nhãn bằng hai bộ gán nhãn tương ứng là [abnormalities in

gene]PH và [gene AFM044xg3]GG, ta sẽ hợp nhất chúng thành một cụm từ duy nhất

và gán cho nó nhãn PH [abnormalities in gene AFM044xg3]PH.

Mô hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả được thể

hiện trong lưu đồ Hình 4.3. Cơ chế hoạt động của nó như sau: Dữ liệu được gán

nhãn bằng bảy bộ gán nhãn trong hệ thống, các kết quả đầu ra của các bộ gán nhãn

này sẽ được duyệt qua một mô-đun xác định trường hợp nhập nhằng. Nếu có sự

xung đột về nhãn, tức là có nhập nhằng, hệ thống sẽ sử dụng danh sách ưu tiên để

lựa chọn ra nhãn thích hợp nhất. Ngược lại, kết quả sẽ được đưa ngay thành kết quả

cuối cùng. Hình 4.4 tiếp theo minh họa một số kịch bản cho các trường hợp nhập

nhằng và không nhập nhằng, trong đó các bộ gán nhãn đưa ra các kết quả khác nhau

cho cùng một chuỗi từ vựng. Trong trường hợp không nhập nhằng, hai nhãn được

đề xuất cho cùng một chuỗi là PH cho cụm “XY” và GG cho cụm “WZ”, tuy nhiên

không xảy ra xung đột nhãn, vì vậy kết quả nhãn cuối cùng cho chuỗi này theo ký

pháp BIO sẽ là B-PH I-PH O B-GG I-GG. Trong trường hợp nhập nhằng, có nhiều

xung đột nhãn xảy ra, ví dụ đối với từ vựng “A”, các bộ gán nhãn đưa ra các quyết

định khác nhau là PH, GG, O và AN, trong trường hợp này sẽ cần dùng đến danh

sách ưu tiên để đưa ra quyết định.

105

Page 108: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Hình 4.3. Mô hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả

Hình 4.4. Nhập nhằng và không nhập nhằng

(BNG: Bộ gán nhãn, X, Y, A-F là các từ vựng)

Có thể thấy rằng danh sách ưu tiên được sử dụng để quyết định kết quả có một

ưu điểm lớn về tính đơn giản và có vẻ nó bao phủ được khá nhiều các trường hợp

thông dụng. Tuy nhiên, danh sách ưu tiên có một nhược điểm lớn ở tính kinh

106

Page 109: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

nghiệm và thiếu tính mềm dẻo của nó, hơn nữa, do sự phức tạp của ngôn ngữ, trong

dữ liệu thực tế không thể tránh khỏi những trường hợp vượt ra khỏi phạm vi của

danh sách này. Trong các kỹ thuật lai ghép tiếp theo, luận án đề xuất sử dụng hai

phương pháp khác áp dụng học máy thống kê để đưa ra được tập nhãn tối ưu khi kết

hợp giữa các mô hình là phương pháp lai ghép sử dụng kỹ thuật học máy gán

nhãn chuỗi và kỹ thuật học xếp hạng.

4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi

Phương pháp sử dụng kỹ thuật học máy vào giải quyết nhập nhằng trong quá

trình lai ghép được đề xuất trong luận án là sử dụng giải thuật gán nhãn chuỗi

MEM+BS (Mô hình Entropy cực đại và giải mã bằng tìm kiếm chùm). Phương

pháp này được mô tả như trong hình 4.5 dưới đây.

Hình 4.5. Mô hình hệ thống sử dụng MEM + BS để quyết định kết quả

107

Page 110: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Một ưu điểm của phương pháp này là sử dụng lại cài đặt MEM + BS đã được

dùng trong bộ gán nhãn học máy, vì vậy tái sử dụng nó sẽ hạn chế tính cồng kềnh

của hệ thống. Trong phương án cải tiến này, kết quả của 7 bộ gán nhãn sẽ được sử

dụng như các đặc trưng mới để huấn luyện và giải mã mô hình, tập đặc trưng đầy đủ

được miêu tả trong Bảng 4.1. Tuy nhiên, phương pháp này lại có nhược điểm do

MEM + BS xử lý dữ liệu dưới dạng gán nhãn chuỗi một lần nữa nên nó không xem

xét có xảy ra trường hợp nhập nhằng hay không, tức là dù có hay không xảy ra xung

đột nhãn, mô-đun quyết định kết quả bằng MEM + BS vẫn tiến hành gán lại toàn bộ

chuỗi.

Bảng 4.1. Các đặc trưng được MEM + BS sử dụng để quyết định kết quả

ST

T

Đặc trưng Ví dụ

1 Từ đang xét wi

2 Ngữ cảnh wi-2, wi-1, wi+1, wi+2, wi-2.wi-1

3 MEM+BS mli : B-GG, mli-1 : B-PH, mli+1 : I-PH, mli+2 : O

4 Đối sánh luật rulei : B-PH, rulei-1 : I-PH, rulei+1 : O

5 Đối sánh từ điển PH dm1i : B-PH, dm1

i-1 : I-PH, dm1i+1 : O

6 Đối sánh từ điển DS dm2i : B-DS, dm2

i-1 : I-DS, dm2i+1 : O

7 Đối sánh từ điển CD dm3i : B-CD, dm3

i-1 : I-CD, dm3i+1 : O

8 Đối sánh từ điển AN dm4i : B-AN, dm4

i-1 : I-AN, dm4i+1 : O

9 Đối sánh từ điển GG dm5i : B-GG, dm5

i-1 : I-GG, dm5i+1 : O

(Các đặc trưng 3-9 là nhãn đưa ra của bộ gán nhãn tương ứng)

4.2.3 Phương pháp lai ghép sử dụng học xếp hạng

Mô hình hệ thống lai ghép sử dụng học xếp hạng để quyết định kết quả được

mô tả trong Hình 4.6. Bước đầu tiên của học xếp hạng tương tự như phương pháp

danh sách ưu tiên, các kết quả đầu ra từ các bộ gán nhãn cũng được duyệt qua mô-

108

Page 111: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

đun xác định trường hợp nhập nhằng, nếu không xảy ra xung đột, kết quả sẽ được

đưa ngay thành kết quả cuối cùng. Để xử lý các trường hợp nhập nhằng, một mô

hình giải quyết nhập nhằng bằng học xếp hạng được sử dụng để lựa chọn ra nhãn có

trọng số lớn nhất làm nhãn cuối cùng trong kết quả đầu ra.

Hình 4.6. Mô hình hệ thống sử dụng SVM-LTR để quyết định kết quả

Để sinh ra tập huấn luyện cho mô hình học xếp hạng, ba luật được sử dụng để

tạo ra các danh sách xếp hạng (ranked lists) từ tập dữ liệu huấn luyện, thông qua

bước trích chọn đặc trưng, các danh sách xếp hạng nói trên được sử dụng để huấn

109

Page 112: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

luyện mô hình học xếp hạng. Ba luật được dùng để sinh tập dữ liệu huấn luyện cho

học xếp hạng được mô tả như sau:

(1) Ứng viên (candidate) có cùng một nhãn với nhãn trong tập huấn luyện

nhận được xếp hạng (rank) cao nhất. Trong số này, các ứng viên trùng khớp

với nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên

trùng khớp hơn về phía bên phải. Điều này là do chúng ta xử lý chuỗi theo

thứ tự từ trái sang phải.

(2) Các ứng viên có một sự trùng lặp một phần với chuỗi trong tập huấn

luyện nhận được xếp hạng thứ hai. Trong số đó, các ứng viên trùng khớp với

nhãn càng gần về phía bên tay trái càng có hạng cao hơn các ứng viên trùng

khớp hơn về phía bên phải.

(3) Các ứng viên không có sự trùng lặp nào với chuỗi trong tập huấn luyện sẽ

nhận xếp hạng thấp nhất.

Luận án sử dụng phần mềm SVMrank22 của tác giả Thorsten Joachims để cài

đặt giải thuật học xếp hạng SVM-LTR (SVM Learn to rank).

4.3. Thực nghiệm và đánh giá kết quả

4.3.1. Phương pháp đánh giá

Các thực nghiệm đánh giá kết quả so sánh giữa các kỹ thuật lai ghép đều sử

dụng độ đo chính xác (P), độ hồi tưởng, độ đo F1 và độ đo trung vi mô F1 với

phương pháp kiểm thử chéo 10 lần. Tuy nhiên trong trường hợp kết quả giữa các

phương pháp có sự khác biệt nhỏ, việc kiểm định tính tin cậy của việc so sánh giữa

các phương pháp là một vấn đề quan trọng. Ở đây luận án đánh giá tính tin cậy dựa

trên đô đo p-value.

Kiểm định độ tin cậy (significant test) của kết quả dựa trên p-value. Dựa trên

[USC10, DCX12], luận án so sánh hiệu năng giữa các hệ thống khác nhau sử dụng

một cách tiếp cận xấp xỉ ngẫu nhiên để đánh giá độ tin cậy của chúng (significance

22 SVMrank: http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html

110

Page 113: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

test). Để tính toán độ tin cậy của hai hệ thống khác nhau (hệ thống A và hệ thống B)

trên tập dữ liệu Phenominer A (với i câu), luận án thực hiện các bước sau:

(1) Tính độ đo F1 theo micro-average sử dụng kiểm thử chéo 10 lần đối với mỗi

hệ thống và ghi lại sự khác biệt trong hiệu năng f = fA - fB;

(2) Tạo một tập S (với 2i câu) bằng cách lấy các kết quả đầu ra từ 10 lần kiểm

thử chép trên hai hệ thống;

(3) Sử dụng i câu lựa chọn ngẫu nhiên từ tập S để tạo tập Aj, phần còn lại của S

là tập Bj (Aj được sử dụng cho hệ thống A và Bj được sử dụng cho hệ thống

B);

(4) Tính f i=f A j−f B j (trong đó f A j và f B j là các độ đo F1 micro-average sử dụng

kiểm thử chéo 10 lần cho tập Aj và Bj tương ứng).

Các bước từ 2 đến 4 được lặp lại n lần (thực nghiệm trong luận án thiết lập n =

1000 dựa trên [USC10]). Số lần mà fi - f ≤ 0 trong n vòng lặp chia cho n là giá trị p-

value giữa hệ thống A và hệ thống B.

4.3.2 Thực nghiệm đánh giá hiệu quả của từng phương pháp lai ghép

Thực nghiệm này sẽ so sánh kết quả của ba phương pháp lai ghép mô hình với

kết quả của mô hình được đề xuất trong chương 3. Kết quả của thực nghiệm được

đánh giá trên tập dữ liệu Phenominer A sẽ được thể hiện rõ ràng trên từng loại thực

thể và trên toàn bộ mô hình.

Bảng 4.2. Kết quả của mô hình trên tập dữ liệu Phenominer A khi sử dụng các phương pháp khác nhau để lai ghép kết quả

Đơn mô hìnhMEM + BS

Danh sách ưu tiên

Ghép nốiMEM + BS

Học xếp hạng SVM-LTR

P R F P R F P R F P R FPH 73,7 76,1 74,9 74,1 76,0 75,0 73,3 68,2 70,7 74,3 76,4 75,3OR 72,8 78,1 75,4 79,1 80,5 79,8 82,4 80,6 81,5 80,2 82 81,1AN 72,4 82,5 77,1 72,8 78,1 75,4 62,1 65,9 63,9 70,2 77,2 73,5GG 82,5 81,5 82,0 82,6 81,7 82,1 79,3 75,4 77,3 82,5 81,9 82,2CD 79,6 81,3 80,4 72,4 82,5 77,1 69,4 71,6 70,5 79,6 80,8 80,2DS 75,8 72,9 74,3 75,9 73,0 74,4 71,9 70,4 71,1 75,7 73,2 74,4

ALL − − 78,4 − − 79,2 − − 74,9 − − 79,9Hàng ALL đưa ra kết quả của toàn hệ thống sử dụng micro average F1

111

Page 114: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Kết quả khi sử dụng MEM+BS để quyết định kết quả là thấp nhất (F1 đạt

74,9%), sử dụng danh sách ưu tiên có F1 là 79,2% và sử dụng SVM-LTR đem lại

kết quả tốt nhất (F1=79,9%). Như vậy việc sử dụng SVM-LTR đem lại kết quả

chung tốt nhất của hệ thống, đồng thời, phương pháp này cũng thể hiện ưu điểm của

nó với hầu hết các lớp thực thể nói riêng (PH, OR, GG và CD).

Bảng 4.3. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng xấp xỉ ngẫu nhiên đối với các thực nghiệm loại bỏ lần lượt từng tài nguyên.

(Nội dung trong một ô biểu diễn hai hệ thống có sự chênh lệch tin cậy (significantly

diferent) về F1. AR: tất cả tài nguyên, J: JNLPBA và Genia tagger, U: UMLS và

MetaMap, H: Human Phenotype Ontology, M: Mammalian Phenotype Ontology,

G: Gene Dictionary của NCBI, L: Linnaeus, F: Foundation Model of Anatomy, P:

Phenotypic Trait Ontology, C: từ điển Jochem, B: Brenda Tissue Ontology., −:

không có sự khác biệt đáng tin cậy).

J U H M G L F P C B

AR GGPH,GG,

DSPH PH,GG GG OR AN − CD −

JPH,GG,

AN, DSPH,GG PH,GG GG GG,OR AN,GG GG GG,CD GG

U PH, DSPH,OR,

GG,DS

PH,OR,

DS

PH,OR,

DSPH,AN PH PH PH

H PH PH,GG PH, ORPH,OR,

ANPH PH,CD −

M PH,GG PH,OR PH,AN PH PH PH

G OR,GG AN,GG − CDGG

L OR,AN OR OR OR

F AN AN,CDAN

112

Page 115: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

P CD −

C −

4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của các

tài nguyên

Luận án sử dụng cách tiếp cận ngẫu nhiên xấp xỉ để tính toán độ tin cậy cho

các kết quả. Độ tin cậy được trình bày trong bảng 4.3 chỉ ra sự đóng góp của từng

tài nguyên trong hệ thống. Các ký hiệu ở hàng và cột chỉ ra tài nguyên đó không

được sử dụng trong hệ thống (ví dụ, J có nghĩa là hệ thống không sử dụng JNLPBA

để huấn luyện mô hình MEM+BS), AR nghĩa là toàn bộ các tài nguyên đều được sử

dụng. Nội dung trong một ô là các thực thể mà có giá trị độ tin cậy (significance

test) cho sự chênh lệch hiệu năng giữa hai hệ thống với p ≤ 0,05. Ví dụ, ô tương ứng

với hàng AR và cột H được đánh dấu PH, có nghĩa là có một giá trị độ tin cậy của

thực thể PH cho sự chênh lệch hiệu năng khi so sánh hệ thống không sử dụng HPO

(H) với hệ thống sử dụng toàn bộ tài nguyên (AR) với p ≤ 0,05. Dấu gạch ngang (-)

viết tắt cho "không có độ tin cậy khác nhau", nghĩa là không có thực thể nào có giá

trị độ tin cậy với p ≤ 0,05. Các kết quả đánh giá độ tin cậy chỉ ra sự đóng góp của

UMLS với ba lớp (PH, GG và DS), MP với PH và GG, v.v.. cũng như sự thiếu hiệu

quả của PATO và BTO đối với hệ thống.

Tiếp theo đó, Bảng 4.4 đưa ra kết quả kiểm thử độ tin cậy dựa trên thống kê so

sánh giữa các mô hình khác nhau sử dụng phương pháp kiểm định độ tin cậy với

người quyết định là p≤0,05.

Bảng 4.4. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng xấp xỉ ngẫu nhiên đối với các thực nghiệm

(Nội dung trong một ô biểu diễn hai hệ thống có sự khác biệt tin cậy (significantly

diferent) về F1. CD không có sự chênh lệch tin cậy trong mọi thực nghiệm. Độ tin

cậy được quyết định tại ngưỡng p ≤ 0,05)

113

Page 116: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Danh sách ưu tiên MEM+BS

SVM-LTR GG, OR, ALL PH, GG, OR, AN, DS,ALL

Danh sách ưu

tiên

PH, GG, OR, AN, DS,ALL

4.3.4 Thảo luận và phân tích lỗi

Thực nghiệm được tiến hành trong luận án đã xây dựng thành công hệ thống

NER y sinh dựa trên phương pháp lai ghép kết hợp nhiều nguồn tài nguyên và gán

nhãn học máy. Các thực nghiệm loại bỏ học máy hoặc từng loại tài nguyên chứng

minh rằng sự kết hợp của nhiều phương pháp sẽ đem lại kết quả tốt nhất cho hệ

thống. Điều này hoàn toàn có thể được giải thích bởi mỗi phương pháp sẽ có ưu

điểm riêng của mình, nhưng đồng thời cũng có nhược điểm cần sử dụng phương

pháp khác để bù vào. Phương pháp học máy giúp hệ thống tận dụng được các đặc

trưng của ngữ cảnh, vì vậy nó có tác dụng tốt với các thực thể có cấu trúc nội tại

phức tạp hoặc có thể được nhận dạng dựa vào ngữ cảnh chứa nó, ví dụ, áp dụng học

máy giúp tăng kết quả nhận dạng thực thể PH lên đến 13.8%. Tương tự như vậy,

từng tài nguyên đều có vị trí hợp lý để phát huy thế mạnh của mình, ví dụ thực thể

sinh vật OR trong y sinh chấp nhận gán nhãn rất nhiều danh từ chung (như "family",

"case", "cohort", v.v.. ) các danh từ này gần như không thể được trích xuất bằng bộ

gán nhãn học máy, nhưng sử dụng Linnaeus lại khiến việc này trở nên tương đối dễ

dàng, chính vì thế mà áp dụng Linnaeus khiến kết quả nhận dạng thực thể OR tăng

lên đến 25.5%. Đôi khi hiệu quả đóng góp của một tài nguyên đối với hệ thống

không hoàn toàn là do tính chất phù hợp của nó về mặt phương pháp luận, mà còn

vì kích thước đồ sộ và độ phủ của chúng, ví dụ như từ điển Jochems là một nguồn

tài nguyên toàn diện kết hợp thông tin từ UMLS, MeSH, Chebi, DrugBank, KEGG,

HMDB, và ChemIDplus, nên việc sử dụng nó để nhận dạng thực thể CD cải thiện

kết quả lên đến 38.8%.

114

Page 117: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Tuy nhiên, việc sử dụng các tài nguyên tri thức vào mô hình vẫn còn nhiều

hạn chế, đặc biệt là với phương pháp đối sánh chuỗi như đang sử dụng. Nhận định

này đặc biệt quan trọng khi xử lý những thực thể có cấu trúc phức tạp, ví dụ như

thực thể biểu hiện PH. Cụ thể, giả sử ta có thực thể "serum total immunoglobin"

trong dữ liệu, theo lý thuyết thì nó phải được ánh xạ vào thuật ngữ "abnormal

serum level of immunoglobin/increased serum level of immunoglobin G" của HPO.

Tuy nhiên kỹ thuật đối sánh chuỗi thông thường không thể làm được việc này mà

đòi hỏi một vài phân tích sâu hơn về mặt ngữ nghĩa.

Bảng 4.5. Các lỗi của mô đun quyết định kết quả sử dụng danh sách ưu tiên (PL) và học xếp hạng sử dụng SVM (LTR)

(NC: Gán nhãn chuẩn của dữ liệu, HM: Bộ gán nhãn học máy, RU: bộ gán nhãn dựa trên luật, TD: Bộ gán nhãn dựa trên từ điển, QD: Quyết định kết quả. DS: Danh sách ưu tiên, LTR: SVM-LTR. Tài nguyên được sử dụng trong bộ gán nhãn dựa trên từ điển tương ứng như sau: aUMLS C0004364, bHP 0002099, cUMLS C0004096, dMP 0002492 và HP 0003212, eNCBI Gene dictionary)

Thực thể NC HM RUTD QD

PH GG DS CD AN PL LTR

1

susceptibilities

to auto immune

disease

PH PH ─ ─ ─ DSa ─ ─ DS PH

2

asthma and

atopy

phenotypes

PH PH ─ PHb ─ DSc ─ ─ DS PH

3 IgE levels PH GG ─ PHd ─ ─ ─ ─ PH GG

4

Toll-like

receptor IL-1R

pathways

PH GG ─ ─ GGe ─ ─ ─ GG GG

5 MyD88- PH GG ─ ─ ─ ─ ─ ─ GG GG

115

Page 118: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

deficiency

6

allergen-

induced

bronchial

inflammation

PH DS ─ ─ ─ ─ ─ ─ DS DS

Việc sử dụng nhiều phương pháp có ưu điểm tận dụng nhiều nguồn tài

nguyên, và các đặc trưng quý giá từ dữ liệu, tuy nhiên việc lựa chọn một kết quả

cuối cùng lại đem đến một thách thức không dễ giải quyết. Các thực nghiệm chỉ ra

rằng học xếp hạng sử dụng máy vector hỗ trợ để lựa chọn nhãn cuối cùng đem lại

kết quả tốt nhất. Tuy nhiên, kết quả khi sử dụng SVM-LTR không vượt trội nhiều

so với danh sách ưu tiên (0,7%). Bảng 4.5 chỉ ra một số ví dụ về các lỗi của danh

sách ưu tiên cũng như SVM-LTR. Trong bảng này các ví dụ hàng 1 và 2 là khi danh

sách ưu tiên đưa ra kết quả sai trong khi SVM-LTR đưa ra lựa chọn đúng. Ngược

lại, ví dụ hàng 3 là một trường hợp khi danh sách ưu tiên trả về kết quả chính xác

nhưng SVM-LTR lại sai. Các ví dụ hàng 4-5 là trường hợp khi cả hai phương pháp

đều trả về kết quả sai.

Sử dụng danh sách ưu tiên là một phương pháp dựa trên luật mang tính kinh

nghiệm quá chặt chẽ, vì vậy trong các trường hợp hay xảy ra nhập nhằng, phương

pháp này có thể sẽ đưa ra lựa chọn sai. Các trường hợp nhập nhằng về mặt ngữ

nghĩa bao gồm nhập nhằng giữa DS và PH, OR và DS, PH và OR, v.v.. Ví dụ, trong

danh sách ưu tiên, DS có độ ưu tiên cao hơn PH. Luật này đúng trong trường hợp

các tên bệnh nhưng lại được đưa vào trong HPO, dẫn đến việc bộ gán nhãn dựa trên

HPO sẽ gán nhãn nhầm, ví dụ như “asthma”, “allergy”. Tuy nhiên luật này lại sai

trong trường hợp thực thể có ý nghĩa là biểu hiện của bệnh, tức là thực thể này phải

được gán nhãn PH, ví dụ “asthma-related phenotypes”, “pathogenesis of early-

onset persistent asthma”. Đối với những trường hợp nhập nhằng này, học xếp hạng

sử dụng thể hiện ưu điểm ở tính mềm dẻo của nó so với danh sách ưu tiên, hệ thống

sẽ chọn nhãn hợp lý nhất dựa vào nhiều yếu tố khác nhau.

116

Page 119: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Tuy nhiên, trong nhiều trường hợp danh sách ưu tiên vẫn là một sự lựa chọn

tốt để quyết định kết quả. Cụ thể, dựa trên phân tích bản thể học của PH và GG,

thường có nhiều trường hợp mà GG là một phần tạo thành PH, trường hợp ngược

lại có vẻ là rất hiếm. Như vậy, luật ưu tiên PH hơn so với GG sẽ đem lại kết quả

chính xác trong đa số trường hợp, sử dụng học xếp hạng một cách linh hoạt là

không cần thiết.

4.4. Kết luận chương

Luận án trình bày một nghiên cứu có tính hệ thống về việc làm thế nào để kết

hợp các nguồn tài nguyên tri thức và phương pháp khác nhau để nhận dạng thực thể

biểu hiện và một số thực thể liên quan. Nghiên cứu sinh tin rằng đây là nghiên cứu

đầu tiên đưa ra một đánh giá toàn diện, sử dụng các tài nguyên, phương pháp cũng

như tập đặc trưng phong phú nhằm giải quyết các thách thức do cấu trúc phức tạp

của thực thể biểu hiện. Hệ thống xây dựng dựa trên phương pháp mà luận án đề

xuất đạt được kết quả tốt nhất cho cả sáu loại thực thể với độ đo trung bình vi mô

F1 = 78,41 và cho thực thể biểu hiện là F1 = 74,87 trên tập dữ liệu Phenominer A,

tương ứng trên tập Phenominer B là 76,37 và 78,35.

Luận án cũng đã chứng minh ý nghĩa của việc sử dụng kết hợp nhiều nguồn tài

nguyên tri thức cũng như phương pháp để đem lại kết quả tốt nhất. Đối với thực thể

biểu hiện, do tính chất phức tạp của nó, áp dụng các phương pháp học máy để nhận

dạng thực thể này là hoàn toàn phù hợp. Ngoài ra, các tài nguyên UMLS, HPO và

MP cũng được đánh giá là có đóng góp quan trọng vào kết quả nhận dạng biểu hiện

của hệ thống. Tuy nhiên, việc sử dụng các tài nguyên còn nhiều hạn chế, hứa hẹn

một tiềm năng nghiên cứu lớn, ví dụ như phân tích sâu hơn về mặt ngữ nghĩa để

nâng cao hiệu suất sử dụng các tài nguyên này.

Để lựa chọn ra kết quả cuối cùng từ kết quả của nhiều bộ gán nhãn, luận án đã

so sánh một số phương pháp, bao gồm phương pháp thủ công (danh sách ưu tiên),

phương pháp học máy sử dụng mô hình Entropy cực đại và phương pháp học xếp

hạng dựa trên SVM. Học xếp hạng dựa trên SVM là một phương pháp kết hợp sử

117

Page 120: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

dụng một vài luật khởi tạo dựa trên kinh nghiệm để xây dựng bộ học xếp hạng,

phương pháp này đã được chứng minh bằng thực nghiệm rằng nó đem lại kết quả

cao nhất. Tuy nhiên, cả học xếp hạng sử dụng SVM và sử dụng danh sách ưu tiên

đều có những ưu điểm và đối tượng xử lý tốt, vì vậy có thể tiếp tục nghiên cứu để

đưa ra một phương án kết hợp hai phương pháp quyết định kết quả này. Các kết quả

nghiên cứu đã được tổng hợp và công bố trong các bài báo [CTLA2] năm 2013.

118

Page 121: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

KẾT LUẬN

Các kết quả chính của luận án

Luận án đã trình bày một nghiên cứu có tính hệ thống về vấn đề nhận dạng

thực thể, một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên. Luận án

tập trung nghiên cứu, phát triển cả về lý thuyết và ứng dụng đối với bài toàn nhận

dạng thực thể, đề xuất một số mô hình và giải pháp nhằm nâng cao hiệu quả nhận

dạng thực thể cũng như đưa ra một số khung làm việc phục vụ cho quá trình nhận

dạng thực thể. Kết quả nghiên cứu của luận án có thể được tóm tắt như sau:

1. Đề xuất mô hình kết hợp nhận dạng đồng thời thực thể và các thuộc tính

liên quan đến thực thể, mô hình cho phép sử dụng nhiều loại đặc trưng khác nhau

nhằm tăng cường tính ngữ nghĩa và hiệu quả của quá trình nhận dạng. Một tập dữ

liệu với gần 10.000 câu đã được gán nhãn thực thể và thuộc tính cũng được xây

dựng phục vụ cho việc huấn luyện và đánh giá. Kết quả của mô hình nhận dạng đạt

83,39 với độ đo F1.

2. Xây dựng một hệ thống hỏi đáp tự động ứng dụng mô hình nhận dạng thực

thể và thuộc tính đã được đề xuất. Các bước phân tích câu hỏi và trả lời câu hỏi đều

cho thấy tầm quan trọng của mô hình nhận dạng thực thể đối với mô hình hỏi đáp.

Kết quả của mô hình tương đối khả quan với độ đo F1 đạt 65,5.

3. Góp phần mở rộng khung cấu trúc thực thể y sinh, thống nhất và tổng quát

lại các định nghĩa về các thực thể y sinh có liên quan đến nhau như bệnh, hóa chất,

gene, sinh vật, biểu hiện và bộ phân cơ thể. Đề xuất mô hình giải quyết bài toán

nhận dạng thực thể biểu hiện và các thực thể liên quan, đây là loại thực thể mới

trong y sinh với các tính chất phức tạp về mặt ngữ nghĩa. Mô hình giải quyết đạt kết

quả khả quan với tất các thực thể có trong lược đồ nhận dạng.

4. Đưa ra các so sánh, nhận định về vấn đề thích nghi miền dữ liệu đối với

việc nhận dạng thực thể y sinh, các kết quả cho phép những nghiên cứu sau này về

nhận dạng thực thể biểu hiện có một khung nhìn tổng quát trong quá trình chọn lựa

dữ liệu huấn luyện và đánh giá.

119

Page 122: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

5. Nâng cao chất lượng nhận dạng thực thể biểu hiện và thực thể y sinh liên

quan bằng kỹ thuật lai ghép, kết hợp nhiều mô hình nhận dạng khác nhau. Luận án

đề xuất 3 phương pháp lai ghép, kết hợp và đưa ra các đánh giá, nhận xét về các

phương pháp này. Các kết quả đã chỉ ra được tính hiệu quả của các phương pháp lai

ghép so với mô hình đã có trong chương 3 khi làm tăng kết quả lên 1,5% với độ đo

F.

Hướng nghiên cứu trong tương lai

Từ những kết quả đạt được trong luận án, các vấn đề đặt ra cần được nghiên

cứu trong thời gian tới:

1. Mô hình nhận dạng thực thể tiếng Việt vẫn còn một số lớp nhận dạng có kết

quả chưa cao do vấn đề mất cân bằng dữ liệu trong tập huấn luyện. Để giải quyết

vấn đề này có thể áp dụng một số kỹ thuật làm giảm sự ảnh hưởng giữa các lớp có

số lượng dữ liệu lớn đến các lớp có số lượng dữ liệu nhỏ hơn hay áp dụng một số kỹ

thuật lựa chọn đặc trưng.

2. Áp dụng bài toán nhận dạng thực thể biểu hiện và các thực thể liên quan

cho dữ liệu văn bản y sinh thực tế, bên cạnh đấy ứng dụng các phương pháp trích

xuất quan hệ nhằm làm rõ sự tương tác giữa các thực thể với nhau.

3. Thử nghiệm phương pháp thích nghi miền với nhiều miền dữ liệu hơn để

cho thấy sự tác động về mặt hiệu quả giữa các miền dữ liệu qua đấy đề xuất một mô

hình cho phép nhận dạng được thực thể biểu hiện cho tất cả các loại bệnh di truyền.

120

Page 123: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN

QUAN ĐẾN LUẬN ÁN

1. [CTLA1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL 2014, Sweden, 2014.

2. [CTLA2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Quang-Thuy Ha, Anika Oellrich, Dietrich Rebholz-Schuhmann (2013). Learning to Recognize Phenotype Candidates in the Auto-Immune Literature Using SVM Re-Ranking. PLoS ONE 8(10): e72965, October 2013.

3. [CTLA3] Mai-Vu Tran, Duc-Trong Le (2013). vTools: Chunker and Part-of-Speech tools, RIVF-VLSP 2013 Workshop.

4. [CTLA4] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le, Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich Rebholz-Schuhmann (2012). A Hybrid Approach to Finding Phenotype Candidates in Genetic Texts, COLING 2012: 647-662.

5. [CTLA5] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and Tien-Tung Nguyen (2012). A Model of Vietnamese Person Named Entity Question Answering System, PACLIC 2012, Bali, Indonesia, October 2012.

6. [CTLA6] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, Quang-Thuy Ha (2011). An Integrated Approach Using Conditional Random Fields for Named Entity Recognition and Person Property Extraction in Vietnamese Text. IALP 2011:115-118.

7. [CTLA7] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang, Nigel Collier (2015). The UET-CAM System in the BioCreAtIvE V CDR Task. In Proceedings of the fifth BioCreative challenge evaluation workshop, Sevilla, Spain, 2015.

121

Page 124: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

TÀI LIỆU THAM KHẢO

Tiếng Việt[DH96] Diệp Quang Ban (chủ biên), Hoàng Văn Thung (1996), Ngữ pháp

tiếng Việt T1, T2 - NXB Giáo dục- HN.

[NTH11] Nguyễn Thanh Hiên (2011). Phân giải nhập nhằng thực thể có tên

dựa trên các ontology đóng và mở. Luận án tiến sỹ. Trường Đại học Bách Khoa,

Đại học Quốc Gia TP.HCM.

[SC13] Sam Chanrathany (2013). Trích rút thực thể có tên và quan hệ thực thể

trong văn bản tiếng Việt. Luận án tiến sỹ. Trường Đại học Bách Khoa Hà Nội

Tiếng Anh[AHB93] Appelt, D. E., Hobbs, J. R., Bear, J., Israel, D., & Tyson, M. (1993,

August). FASTUS: A finite-state processor for information extraction from real-

world text. In IJCAI (Vol. 93, pp. 1172-1178).

[AZ05] Ando, R. K., & Zhang, T. (2005). A framework for learning predictive

structures from multiple tasks and unlabeled data. The Journal of Machine Learning

Research, 6, 1817-1853.

[AZ11b] A. B. Abacha and P. Zweigenbaum. Medical entity recognition: A

comparison of semantic and statistical methods. In Proceedings of BioNLP 2011

Workshop, pages 56–64, 2011.

[AZ12] Aggarwal, C. C., & Zhai, C. (2012). Mining text data. Springer

Science & Business Media.

[BBD02] Banko, M., Brill, E., Dumais, S., & Lin, J. (2002, March). AskMSR:

Question answering using the worldwide Web. In Proceedings of 2002 AAAI

Spring Symposium on Mining Answers from Texts and Knowledge Bases (pp. 7-9).

[BPP96] Berger, A. L., Pietra, V. J. D., & Pietra, S. A. D. (1996). A maximum

entropy approach to natural language processing. Computational linguistics, 22(1),

39-71.

122

Page 125: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[BR04] Bard, J. B., & Rhee, S. Y. (2004). Ontologies in biology: design,

applications and future challenges. Nature Reviews Genetics, 5(3), 213-222.

[BSS03] Blake, A., Sinclair, M. T., & Sugiyarto, G. (2003). Quantifying the

impact of foot and mouth disease on tourism and the UK economy. Tourism

Economics,9(4), 449-465.

[BSS08] Beisswanger, E., Schulz, S., Stenzhorn, H., & Hahn, U. (2008).

BioTop: An upper domain ontology for the life sciencesA description of its current

structure, contents and interfaces to OBO ontologies. Applied Ontology, 3(4), 205-

212.

[CC03] Curran, J. R., & Clark, S. (2003, May). Language independent NER

using a maximum entropy tagger. In Proceedings of the seventh conference on

Natural language learning at HLT-NAACL 2003-Volume 4 (pp. 164-167).

Association for Computational Linguistics.

[CC09] Cai, Y., & Cheng, X. (2009, October). Biomedical named entity

recognition with tri-training learning. In Biomedical Engineering and Informatics,

2009. BMEI'09. 2nd International Conference on (pp. 1-5). IEEE.

[COG15] Collier, N., Oellrich, A., & Groza, T. (2015). Concept selection for

phenotypes and diseases using learn to rank. Journal of biomedical semantics, 6(1),

24.

[CF04] Chen, L., & Friedman, C. (2004). Extracting phenotypic information

from the literature via natural language processing. Medinfo, 11(Pt 2), 758-62.

[CGE11] Cohen, R., Gefen, A., Elhadad, M., & Birk, O. S. (2011). CSI-

OMIM-Clinical Synopsis Search in OMIM. BMC bioinformatics, 12(1), 65.

[COG13] Collier, N., Oellrich, A., & Groza, T. (2013). Toward knowledge

support for analysis and interpretation of complex traits. Genome biology, 14(9),

214.

[CTX06] Cam-Tu Nguyen, Trung Kien Nguyen, Xuan Hieu Phan, Le Minh

Nguyen, and Quang Thuy Ha: Vietnamese Word Segmentation with CRFs and

123

Page 126: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

SVMs: An Investigation, The 20th Pacific Asia Conference on Language,

Information, and Computation (PACLIC), 1st-3rd November, 2006, Wuhan, China.

[CH08] Cohen, K. B., & Hunter, L. (2008). Getting started in text mining.

PLoS computational biology, 4(1), e20.

[DA07] H. Daume III. 2007. Frustratingly easy domain adaptation. In Annual

meeting of the Association for Computational Linguistics (ACL 2007), pages 256–

263.

[DCX12] Doan, S., Collier, N., Xu, H., Duy, P. H., & Phuong, T. M. (2012).

Recognition of medication information from discharge summaries using ensembles

of classifiers. BMC medical informatics and decision making, 12(1), 36.

[DDS09] Nguyen, D. Q., Nguyen, D. Q., & Pham, S. B. (2009, October). A

vietnamese question answering system. In Knowledge and Systems Engineering,

2009. KSE'09. International Conference on (pp. 26-32). IEEE.

[DMP04] Doddington, G. R., Mitchell, A., Przybocki, M. A., Ramshaw, L. A.,

Strassel, S., & Weischedel, R. M. (2004, May). The Automatic Content Extraction

(ACE) Program-Tasks, Data, and Evaluation. In LREC.

[ES13] Ekbal, A., & Saha, S. (2013). Stacked ensemble coupled with feature

selection for biomedical entity extraction. Knowledge-Based Systems, 46, 22-32.

[EUL01] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y. The Use of External

Knowledge in Factoid QA. Paper presented at the Tenth Text REtrieval Conference

(TREC 10), Gaithersburg, MD, 2001, November 13-16.

[FEO02] K. Franzén, G. Eriksson, F. Olsson, L. Asker, P. Lid´en, and J.

Coster. Protein names and how to find them. International Journal of Medical

Informatics, 67(1-3):49–61, 2002.

[FIJ03] Florian, R., Ittycheriah, A., Jing, H. and Zhang, T. (2003) Named

Entity Recognition through Classifier Combination. Proceedings of CoNLL-2003.

Edmonton, Canada.

[FPS96] Fayyad, Piatetsky-Shapiro, Smyth. From Data Mining to Knowledge

Discovery: An Overiew. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy,

124

Page 127: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Advances in Knowledge Discovery and Data Mining, AAAI Press/The MIT Press,

Menlo Park, 1996, 1-34.

[FS03] Freimer, N., & Sabatti, C. (2003). The human phenome project. Nature

genetics, 34(1), 15-21.

[FTT98] Fukuda, K. I., Tsunoda, T., Tamura, A., & Takagi, T. (1998,

January). Toward information extraction: identifying protein names from biological

papers. In Pac Symp Biocomput (Vol. 707, No. 18, pp. 707-718).

[GCS11] Gremse, M., Chang, A., Schomburg, I., Grote, A., Scheer, M.,

Ebeling, C., & Schomburg, D. (2011). The BRENDA Tissue Ontology (BTO): the

first all-integrating ontology of all organisms for enzyme sources. Nucleic acids

research, 39(suppl 1), D507-D513.

[GFH08] Danilo Giampiccolo, Pamela Forner, Jesús Herrera, Anselmo Peñas,

Christelle Ayache, Corina Forascu, Valentin Jijkoun, Petya Osenova, Paulo Rocha,

Bogdan Sacaleanu, Richard F. E. Sutcliffe (2008). Overview of the clef 2007

multilingual question answering track. In Advances in Multilingual and Multimodal

Information Retrieval (pp. 200-236). Springer Berlin Heidelberg.

[GKD15] Groza, T., Köhler, S., Doelken, S., Collier, N., Oellrich, A.,

Smedley, D., ... & Robinson, P. N. (2015). Automatic concept recognition using the

Human Phenotype Ontology reference and test suite corpora. Database, 2015.

[GHZ12] Groza, T., Hunter, J., & Zankl, A. (2012). Supervised segmentation

of phenotype descriptions for the human skeletal phenome using hybrid

methods.BMC bioinformatics, 13(1), 265.

[GHZ13] Groza, T., Hunter, J., & Zankl, A. (2013). Decomposing phenotype

descriptions for the human skeletal phenome. Biomedical informatics insights, 6, 1.

[GLR06] Giuliano, C., Lavelli, A., & Romano, L. (2006, April). Exploiting

shallow linguistic information for relation extraction from biomedical literature. In

EACL (Vol. 18, pp. 401-408).

125

Page 128: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[GNB10] Gerner, M., Nenadic, G., & Bergman, C. M. (2010). LINNAEUS: a

species name identification system for biomedical literature. BMC bioinformatics,

11(1), 85.

[GR08] Girju R. Semantic relation extraction and its applications. ESSLLI

2008 Course Material, Hamburg, Germany, 4-15 August 2008.

[GZH12] Groza, T., Zankl, A., & Hunter, J. (2012). Experiences with

modeling composite phenotypes in the SKELETOME project. In The Semantic

Web–ISWC 2012 (pp. 82-97). Springer Berlin Heidelberg.

[HBK12] Hirschman, L., Burns, G. A. C., Krallinger, M., Arighi, C., Cohen,

K. B., Valencia, A., ... & Winter, A. G. (2012). Text mining for the biocuration

workflow. Database, 2012, bas020.

[HC03] W.-J. Hou and H.-H. Chen. Enhancing performance of protein name

recognizers using collocation. In Proceedings of the ACL 2003 Workshop on

Natural Language Processing in Biomedicine Volume 13, pages 25–32, 2003.

[HEG00] Hovy, Eduard and Gerber, Laurie and Hermjakob, Ulf and Junk,

Michael and Lin, Chin-yew (2000). Question answering in webclopedia. In

Proceedings of the Ninth Text REtrieval Conference (TREC-9).

[HHH12] Hoehndorf, R., Harris, M. A., Herre, H., Rustici, G., & Gkoutos, G.

V. (2012). Semantic integration of physiology phenotypes with an application to the

Cellular Phenotype Ontology. Bioinformatics, 28(13), 1783-1789.

[HL15] Huang, C. C., & Lu, Z. (2015). Community challenges in biomedical

text mining over 10 years: success, failure and the future. Briefings in

bioinformatics, bbv024.

[HOR10] Hoehndorf, R., Oellrich, A., & Rebholz-Schuhmann, D. (2010).

Interoperability between phenotype and anatomy ontologies. Bioinformatics,

26(24), 3112-3118.

[HSG11] Hoehndorf, R., Schofield, P. N., & Gkoutos, G. V. (2011).

PhenomeNET: a whole-phenome approach to disease gene discovery. Nucleic acids

research,39(18), e119-e119.

126

Page 129: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[HSS09] Hettne, K. M., Stierum, R. H., Schuemie, M. J., Hendriksen, P. J.,

Schijvenaars, B. J., Van Mulligen, E. M., ... & Kors, J. A. (2009). A dictionary to

identify small molecules and drugs in free text. Bioinformatics, 25(22), 2983-2991.

[HWY05] Huang, J., Wang, C., Yang, C., Chiu, M. and Yee, G. 2005.

Applying Word Sense Disambiguation to Question Answering System for E-

Learning. In Proceedings of the 19th International Conference on Advanced

Information Networking and Applications. Taipei, Taiwan, pp.157-62.

[JAJ10] Javier Artiles, Andrew Borthwick, Julio Gonzalo, Satoshi Sekine, and

Enrique Amigó. WePS-3 Evaluation Campaign: Overview of the Web People

Search Clustering and Attribute Extraction Tasks. in the 3rd Web People Search

Evaluation Workshop (WePS 2010).

[Kai08] Kaisser, M. (2008, June). The QuALiM question answering demo:

Supplementing answers with paragraphs drawn from Wikipedia. In Proceedings of

the 46th Annual Meeting of the Association for Computational Linguistics on

Human Language Technologies: Demo Session (pp. 32-35). Association for

Computational Linguistics.

[KCO05] S. Kinoshita, K. B. Cohen, P. Ogren, and L. Hunter. BioCreAtIvE

task 1A: Entity identification with a stochastic tagger. BMC Bioinformatics,

6(Suppl 1):S4, 2005.

[KLR15] Krallinger, M., Leitner, F., Rabal, O., Vazquez, M., Oyarzabal, J., &

Valencia, A. (2015). CHEMDNER: The drugs and chemical names extraction

challenge. J Cheminform, 7(Suppl 1), S1.

[KM14] Khordad, Maryam (2014). Investigating Genotype-Phenotype

relationship extraction from biomedical text . Doctoral dissertation. University of

Western Ontario

[KMR11] Khordad, M., Mercer, R. E., & Rogan, P. (2011). Improving

phenotype name recognition. In Advances in Artificial Intelligence (pp. 246-257).

Springer Berlin Heidelberg.

127

Page 130: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[KOT03] Kim, J. D., Ohta, T., Tateisi, Y., & Tsujii, J. I. (2003). GENIA

corpus—a semantically annotated corpus for bio-textmining. Bioinformatics,

19(suppl 1), i180-i182.

[KOT04] Kim, J. D., Ohta, T., Tsuruoka, Y., Tateisi, Y., & Collier, N. (2004,

August). Introduction to the bio-entity recognition task at JNLPBA. In Proceedings

of the international joint workshop on natural language processing in biomedicine

and its applications (pp. 70-75). Association for Computational Linguistics.

[LDN13] Le, N. M., Do, B. N., Nguyen, V. D., & Nguyen, T. D. (2013,

December). VNLP: an open source framework for Vietnamese natural language

processing. InProceedings of the Fourth Symposium on Information and

Communication Technology (pp. 88-93). ACM.

[LLL14] Le Trung, H., Le Anh, V., & Le Trung, K. (2014). Bootstrapping and

Rule-Based Model for Recognizing Vietnamese Named Entity. In Intelligent

Information and Database Systems (pp. 167-176). Springer International Publishing.

[LMP01] Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional

random fields: Probabilistic models for segmenting and labeling sequence data.

[LN10] Le, H. T., & Nguyen, T. H. (2010, August). Name entity recognition

using inductive logic programming. In Proceedings of the 2010 Symposium on

Information and Communication Technology (pp. 71-77). ACM.

[LTC04] Lin, Y. F., Tsai, T. H., Chou, W. C., Wu, K. P., Sung, T. Y., & Hsu,

W. L. (2004, August). A maximum entropy approach to biomedical named entity

recognition. In BIOKDD (pp. 56-61).

[LV13] Le, H. T., & Van Tran, L. (2013, December). Automatic feature

selection for named entity recognition using genetic algorithm. In Proceedings of

the Fourth Symposium on Information and Communication Technology (pp. 81-

87). ACM.

[MAC07] Mabee, P. M., Ashburner, M., Cronk, Q., Gkoutos, G. V., Haendel,

M., Segerdell, E., ... & Westerfield, M. (2007). Phenotype ontologies: the bridge

between genomics and evolution. Trends in ecology & evolution, 22(7), 345-350.

128

Page 131: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[MC07] McKusick, V. A. (2007). Mendelian Inheritance in Man and its online

version, OMIM. American journal of human genetics, 80(4), 588.

[MFM05] Mitsumori, T., Fation, S., Murata, M., Doi, K., & Doi, H. (2005).

Gene/protein name recognition based on support vector machine using dictionary as

features. BMC bioinformatics, 6(Suppl 1), S8.

[MFP00] McCallum, A., Freitag, D., & Pereira, F. C. (2000, June). Maximum

Entropy Markov Models for Information Extraction and Segmentation. In ICML

(pp. 591-598).

[MHC04] A. A. Morgan, L. Hirschman, M. Colosimo, A. S. Yeh, and J. B.

Colombe. Gene name identification and normalization using a model organism

database. Journal of Biomedical Informatics, 37(6):396–410, 2004.

[ML03] McCallum, A., & Li, W. (2003, May). Early results for named entity

recognition with conditional random fields, feature induction and web-enhanced

lexicons. InProceedings of the seventh conference on Natural language learning at

HLT-NAACL 2003-Volume 4 (pp. 188-191). Association for Computational

Linguistics.

[MO08] Michele Banko, Oren Etzioni. “The Tradeoffs Between Open and

Traditional Relation Extraction. ACL 2008: 28-36

[MPH03] Moldovan, D., Paşca, M., Harabagiu, S., & Surdeanu, M. (2003).

Performance issues and error analysis in an open-domain question answering

system. ACM Transactions on Information Systems (TOIS), 21(2), 133-154.

[MR04] Mika, S., & Rost, B. (2004). Protein names precisely peeled off free

text. Bioinformatics, 20(suppl 1), i241-i247.

[MY14] Miwa, Makoto, and Yutaka Sasaki. "Modeling Joint Entity and

Relation Extraction with Table Representation." EMNLP. 2014.

[NBK13] Nédellec, C., Bossy, R., Kim, J. D., Kim, J. J., Ohta, T., Pyysalo, S.,

& Zweigenbaum, P. (2013, August). Overview of BioNLP shared task 2013. In

Proceedings of the BioNLP Shared Task 2013 Workshop (pp. 1-7).

129

Page 132: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[NC12] Nguyen, T. T., & Cao, T. H. (2012, February). Linguistically

Motivated and Ontological Features for Vietnamese Named Entity Recognition.

In Computing and Communication Technologies, Research, Innovation, and Vision

for the Future (RIVF), 2012 IEEE RIVF International Conference on (pp. 1-6).

IEEE.

[NCT99] C. Nobata, N. Collier, and J.-i. Tsujii. Automatic term identification

and classification in biology texts. In Proceedings of the Natural Language Pacific

Rim Symposium, pages 369–374, 1999.

[NE05] Nédellec, C. (2005, August). Learning language in logic-genic

interaction extraction challenge. In Proceedings of the 4th Learning Language in

Logic Workshop (LLL05) (Vol. 7).

[NN13] Nguyen, M. T., & Nguyen, T. T. (2013, December). Extraction of

disease events for a real-time monitoring system. In Proceedings of the Fourth

Symposium on Information and Communication Technology (pp. 139-147). ACM.

[NP12] Nguyen, D. B., & Pham, S. B. (2012). Ripple down rules for

vietnamese named entity recognition. In Computational Collective Intelligence.

Technologies and Applications (pp. 354-363). Springer Berlin Heidelberg.

[NRV03] M. Narayanaswamy, K. E. Ravikumar, and K. Vijay-Shanker. A

biological named entity recognizer. In Pacific Symposium on Biocomputing, pages

427–438, 2003.

[NHP10] Nguyen, D. B., Hoang, S. H., Pham, S. B., & Nguyen, T. P. (2010).

Named entity recognition for Vietnamese. In Intelligent Information and Database

Systems (pp. 205-214). Springer Berlin Heidelberg.

[OCQ09] Oanh Thi Tran, Cuong Anh Le Quang-Thuy Ha and Quynh Hoang

Le. An Experimental Study on Vietnamese POS tagging", International Conference

on Asian Language Processing (IALP 2009):23-27, Dec 7-9, 2009, Singapore

[OMT06] D. Okanohara, Y. Miyao, Y. Tsuruoka, and J. Tsujii. Improving the

scalability of semi-Markov conditional random fields for named entity recognition.

In Proceedings of the 21st International Conference on Computational Linguistics

130

Page 133: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

and the 44th Annual Meeting of the Association for Computational Linguistics,

pages 465–472, 2006.

[OOG05] Özgür, A., Özgür, L., & Güngör, T. (2005). Text categorization with

class-based and corpus-based keyword selection. In Computer and Information

Sciences-ISCIS 2005 (pp. 606-615). Springer Berlin Heidelberg.

[PGH07] Pyysalo, S., Ginter, F., Heimonen, J., Björne, J., Boberg, J.,

Järvinen, J., & Salakoski, T. (2007). BioInfer: a corpus for information extraction in

the biomedical domain. BMC bioinformatics, 8(1), 50.

[PNH10] Phan, T. T., Nguyen, T. C., & Huynh, T. N. (2010). Question

semantic analysis in Vietnamese QA system. In Advances in Intelligent Information

and Database Systems (pp. 29-40). Springer Berlin Heidelberg.

[PY10] Pan, S. J., & Yang, Q. (2010). A survey on transfer learning.

Knowledge and Data Engineering, IEEE Transactions on, 22(10), 1345-1359.

[QU93] Quinlan, J. R. (1993). C4. 5: programs for machine learning (Vol. 1).

Morgan kaufmann.

[RA89] Rabiner, L. (1989). A tutorial on hidden Markov models and selected

applications in speech recognition. Proceedings of the IEEE, 77(2), 257-286.

[RA91] Rau, L. F. (1991, February). Extracting company names from text. In

Artificial Intelligence Applications, 1991. Proceedings., Seventh IEEE Conference

on(Vol. 1, pp. 29-32). IEEE.

[RA96] Ratnaparkhi, A. (1996, May). A maximum entropy model for part-of-

speech tagging. In Proceedings of the conference on empirical methods in natural

language processing (Vol. 1, pp. 133-142).

[RHT10] Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, The

Minh Trinh. Relation Extraction in Vietnamese Text Using Conditional Random

Fields. AAIRS 2010: 330-339

[RM95] L. A. Ramshaw and M. P. Marcus. Text chunking using

transformation-based learning. In 3rd ACL SIGDAT Workshop on Very Large

Corpora, pages 82–94, 1995.

131

Page 134: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[RR09] Ratinov, L., & Roth, D. (2009). Design challenges and misconceptions

in named entity recognition. In Proceedings of the Thirteenth Conference on

Computational Natural Language Learning (pp. 147-155). Association for

Computational Linguistics.

[SCW09] Scheuermann, R. H., Ceusters, W., & Smith, B. (2009). Toward an

ontological treatment of disease and diagnosis. Summit on translational

bioinformatics,2009, 116.

[SE04] Settles, B. (2004, August). Biomedical named entity recognition using

conditional random fields and rich feature sets. In Proceedings of the International

Joint Workshop on Natural Language Processing in Biomedicine and its

Applications (pp. 104-107). Association for Computational Linguistics.

[SE09] Smith, C. L., & Eppig, J. T. (2009). The mammalian phenotype

ontology: enabling robust annotation and comparative analysis. Wiley

Interdisciplinary Reviews: Systems Biology and Medicine, 1(3), 390-399.

[SGE04] Smith, C. L., Goldsmith, C. A. W., & Eppig, J. T. (2004). The

Mammalian Phenotype Ontology as a tool for annotating, analyzing and comparing

phenotypic information. Genome biology, 6(1), R7.

[SJ09] Satoshi Sekine and Javier Artiles. WePS2 Attribute Extraction Task. in

the 2nd Web People Search Evaluation Workshop (WePS 2, 2009).

[SLT11a] Sam, R. C., Le, H. T., Nguyen, T. T., & Nguyen, T. H. (2011).

Combining proper name-coreference with conditional random fields for semi-

supervised named entity recognition in Vietnamese text. In Advances in Knowledge

Discovery and Data Mining (pp. 512-524). Springer Berlin Heidelberg.

[SLT11b] Sam, R. C., Le, H. T., Nguyen, T. T., Le, D. A., & Nguyen, N. M.

T. (2011, October). Semi-supervised learning for relation extraction in Vietnamese

text. In Proceedings of the Second Symposium on Information and Communication

Technology (pp. 100-105). ACM.

[SMY15] Sun, H., Ma, H., Yih, W. T., Tsai, C. T., Liu, J., & Chang, M. W.

(2015, May). Open Domain Question Answering via Semantic Enrichment. In

132

Page 135: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

Proceedings of the 24th International Conference on World Wide Web (pp. 1045-

1055). International World Wide Web Conferences Steering Committee.

[SOK13] Smedley, D., Oellrich, A., Köhler, S., Ruef, B., Westerfield, M.,

Robinson, P., ... & Mungall, C. (2013). PhenoDigm: analyzing curated annotations

to associate animal models with human diseases. Database, 2013, bat025.

[SSM09] S. K. Saha, S. Sarkar, and P. Mitra. Feature selection techniques for

maximum entropy based biomedical named entity recognition. Journal of

Biomedical Informatics, vol. 42, no. 5, pp. 905–911, 2009.

[STM08] Y. Sasaki, Y. Tsuruoka, J. McNaught, and S. Ananiadou. How to

make the most of NE dictionaries in statistical NER. BMC Bioinformatics, 9(Suppl

11):S5, 2008.

[TC05] K. Takeuchi and N. Collier. Bio-medical entity extraction using

support vector machines. Artificial Intelligence in Medicine, 33(2):125–137, 2005.

[TLH10] Tran Thi Oanh, Le Cuong Anh, Ha Thuy Quang, Improving

Vietnamese Word Segmentation and POS Tagging using MEM with Various Kinds

of Resources. Journal of Natural Language Processing 17(3): 41-60 (2010)

[TOH05] Tu, N. C., Oanh, T. T., Hieu, P. X., & Thuy, H. Q. (2005). Named

entity recognition in vietnamese free-text and web documents using conditional

random fields. In The 8th Conference on Some selection problems of Information

Technology and Telecommunication.

[TTD07] Thao, P. T. X., Tri, T. Q., Dien, D., & Collier, N. (2007). Named

entity recognition in Vietnamese using classifier voting. ACM Transactions on

Asian Language Information Processing (TALIP), 6(4), 3.

[TTK05] Tsuruoka, Y., Tateishi, Y., Kim, J. D., Ohta, T., McNaught, J.,

Ananiadou, S., & Tsujii, J. I. (2005). Developing a robust part-of-speech tagger for

biomedical text. In Advances in informatics (pp. 382-392). Springer Berlin

Heidelberg.

133

Page 136: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[TTQ07] Tran, Q. T., Pham, T. T., Ngo, Q. H., Dinh, D., & Collier, N. (2007).

Named entity recognition in Vietnamese documents. Progress in Informatics

Journal,5, 14-17.

[TWC06] Tzong-Han Tsai, Richard; Wu S.-H.; Chou, W.-C.; Lin, Y.-C.; He,

D.; Hsiang, J.; Sung, T.-Y.; Hsu, W.-L. 2006. Various Criteria in the Evaluation of

Biomedical Named Entity Recognition. BMC Bioinformatics 7:92, BioMed Central.

[UCO11] Y. Usami, H.-C. Cho, N. Okazaki, and J. Tsujii. Automatic

acquisition of huge training data for bio-medical named entity recognition. In

Proceedings of BioNLP 2011 Workshop, pages 65–73, 2011.

[USC10] Uzuner, Ö., Solti, I., & Cadag, E. (2010). Extracting medication

information from clinical text. Journal of the American Medical Informatics

Association,17(5), 514-518.

[USS10] Uzuner, Ö., South, B. R., Shen, S., & DuVall, S. L. (2011). 2010

i2b2/VA challenge on concepts, assertions, and relations in clinical text. Journal of

the American Medical Informatics Association.

[VA10] Vlachos, A. (2010). Semi-supervised learning for biomedical

information extraction. Doctoral dissertation. Computer Laboratory, University of

Cambridge.

[VED01] Voorhees, Ellen M., and Donna Harman. Overview of TREC 2001.

Trec. 2001.

[Vo03] E.M. Voorhees. Overview of the TREC 2003 Question Answering

Track. TREC 2003: 54-68

[VVO09] Vu Mai Tran, Vinh Duc Nguyen, Oanh Thi Tran, Uyen Thu Thi

Pham, Thuy Quang Ha. An Experimental Study of Vietnamese Question Answering

System. In Proceedings of IALP'2009. pp.152~155

[WAC12] Wu, C. H., Arighi, C. N., Cohen, K. B., Hirschman, L., Krallinger,

M., Lu, Z., ... & Wilbur, W. J. (2012). BioCreative-2012 Virtual Issue. Database:

The Journal of Biological Databases and Curation, 2012.

134

Page 137: Nhan dang thuc thelib.uet.vnu.edu.vn/bitstream/123456789/978/1/LUAN AN.d…  · Web view2019. 2. 20. · Ando và Zhang áp dụng học máy bán giám sát sử dụng 27 triệu

[WGM14] West, R., Gabrilovich, E., Murphy, K., Sun, S., Gupta, R., & Lin,

D. (2014, April). Knowledge base completion via search-based question answering.

In Proceedings of the 23rd international conference on World wide web (pp. 515-

526). ACM.

[WKS09] Wang, Y., Kim, J. D., Sætre, R., Pyysalo, S., & Tsujii, J. I. (2009).

Investigating heterogeneous protein annotations toward cross-corpora utilization.

BMC bioinformatics, 10(1), 403.

[WPL15] Wei, C. H., Peng, Y., Leaman, R., Davis, A. P., Mattingly, C. J., Li,

J., ... & Lu, Z. (2015). Overview of the BioCreative V chemical disease relation

(CDR) task. In Proceedings of the fifth BioCreative challenge evaluation workshop,

Sevilla, Spain.

[WTJ13] Wagholikar, K. B., Torii, M., Jonnalagadda, S., & Liu, H. (2013).

Pooling annotated corpora for clinical concept extraction. J. Biomedical Semantics,

4, 3.

[YD14] Yao, X., & Van Durme, B. (2014). Information extraction over

structured data: Question answering with freebase. In Proceedings of ACL.

[YYW15] Yang, Y., Yih, W. T., & Meek, C. (2015). WIKIQA: A Challenge

Dataset for Open-Domain Question Answering. In Proceedings of the Conference

on Empirical Methods in Natural Language Processing.

[ZD09] Zweigenbaum, P., & Demner-Fushman, D. (2009). Advanced

literature-mining tools. In Bioinformatics (pp. 347-380). Springer New York.

[ZDY07] Zweigenbaum, P., Demner-Fushman, D., Yu, H., & Cohen, K. B.

(2007). Frontiers of biomedical text mining: current progress. Briefings in

bioinformatics, 8(5), 358-375.

[ZSZ05] G. Zhou, D. Shen, J. Zhang, J. Su, and S. Tan. Recognition of

protein/gene names from text using an ensemble of classifiers. BMC

Bioinformatics, 6(Suppl 1):S7, 2005.

135