13
1 ĐẠI HỌC BÁCH KHOA TP.HỒ CHÍ MINH MÔN PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC NÂNG CAO BÀI TẬP 8 – ĐỀ CƯƠNG NGHIÊN CỨU ĐỀ TÀI Ứng dụng mô hình Markov ẩn kết hợp với mạng thần kinh nhân tạo vào việc nhận dạng chữ viết tay tiếng Việt Nhóm 4 (RG04): Cao Văn Kiên – 13151137 Huỳnh Quang Hiếu –13181103 Phan Thị Bảo Trân – 51301437 Châu Trí Vũ – 12070559

Bai tap 8 - nhom

Embed Size (px)

Citation preview

Page 1: Bai tap 8 - nhom

1

ĐẠI HỌC BÁCH KHOA TP.HỒ CHÍ MINH

MÔN PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC NÂNG CAO

BÀI TẬP 8 – ĐỀ CƯƠNG NGHIÊN CỨU

ĐỀ TÀI

Ứng dụng mô hình Markov ẩn kết hợp với mạng thần kinh nhân tạo vào việc nhận dạng chữ viết tay tiếng ViệtNhóm 4 (RG04):

Cao Văn Kiên – 13151137

Huỳnh Quang Hiếu –13181103

Phan Thị Bảo Trân – 51301437

Châu Trí Vũ – 12070559

Page 2: Bai tap 8 - nhom

2

MỤC LỤC

I. Giới thiệu xung quanh vấn đề cần nghiên cứu (research problem), còn gọi là đề tài nghiên cứu hay giả thuyết nghiên cứu.....................................................................................................................................2

II. Tổng quan tình hình nghiên cứu (liên quan đến vấn đề ở mục 1) (The studies that have addressed the problem).........................................................................................................................................................3

III. Những thiếu xót trong nghiên cứu hoặc những điều chưa được nghiên cứu (liên quan đến vấn đề ở mục 1) (The deficiencies in the studies)........................................................................................................5

IV. Tính cấp thiết của đề tài nghiên cứu (đề tài của nhóm mình, liên quan đến vấn đề ở mục 1) (The importance of the study)................................................................................................................................6

V. Mục tiêu nghiên cứu (purpose statement) hoặc phạm vi nghiên cứu....................................................6

VI. Các phương pháp nghiên cứu (method): thử nghiệm, mô phỏng, làm NC trên những biến số nào,… 6

VII. Kế hoạch nghiên cứu (planning)........................................................................................................6

VIII. Tài liệu tham khảo.............................................................................................................................6

Page 3: Bai tap 8 - nhom

3

I. Giới thiệu xung quanh vấn đề cần nghiên cứu (research problem), còn gọi là đề tài nghiên cứu hay giả thuyết nghiên cứu.

Nhận dạng ký tự viết tay là chủ đề đang được nghiên cứu rộng rãi hiện nay. Nhiều giải pháp được áp dụng cho ký tự tiếng Anh và mang lại hiệu quả cao. Tuy nhiên, bài toán tiếng Việt đang đối mặt với nhiều thách thức, phần lớn vấn đề đến từ dấu mũ và dấu thanh (gọi chung là dấu). Bài báo này đề xuất một giải pháp nhận dạng dấu, kể cả trong trường hợp mũ và thanh trong ký tự dính liền nhau – một vấn đề rất phổ biến và ảnh hưởng đáng kể đến kết quả nhận dạng. Chúng tôi bắt đầu với việc tách riêng dấu và chữ cái bằng kĩ thuật gán nhãn vùng liên thông. Tiếp theo, dấu được phân vào hai lớp: dấu đơn (một dấu mũ hoặc dấu thanh) hoặc dấu kép (mũ và thanh dính liền nhau). Dấu kép (nếu có) tiếp tục được tách ra thành các dấu đơn để chuẩn bị cho bước xử lý cuối cùng. Quá trình nhận dạng được thực hiện bằng phương pháp mô hình Markov ẩn. Giải pháp đề xuất đã được thử nghiệm và thu được kết quả khả quan.

Nhận dạng chữ là một lĩnh vực đã được quan tâm nghiên cứu và ứng dụng từ nhiều năm nay theo hai hướng chính:

- Nhận dạng chữ in: phục vụ cho công việc tự động hóa đọc tài liệu, tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp từcác nguồn tài liệu. •

- Nhận dạng chữ viết tay: với những mức độr àng buộc khác nhau về cách viết, kiểu chữ, phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo viết tay. Nhận dạng chữ viết tay được tách thành hai hướng phá triển: Nhận dạng chữ viết tay trực tuyến (on-line) và nhận dạng chữ viết tay ngoại tuyến (off-line).

Đến thời điểm này, bài toán nhận dạng chữ in đã được giải quyết gần như trọn vẹn, như sản phẩm FineReader 9.0 của hãng ABBYY có thể nhận dạng chữ in theo 20 ngôn ngữ khác nhau, phần mềm nhận dạng chữViệt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu chứa hình ảnh, bảng và văn bản tiếng Việt với độchính xác trên 98%. Tuy nhiên trên thế giới cũng như ở Việt Nam, bài toán nhận dạng chữ viết tay vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu. Bài toàn này chưa thể giải quyết trọn vẹn vì nó phụ thuộc quá nhiều vào người viết và sự biến đổi quá đa dạng trong cách viết và trạng thái tinh thần của từng người viết. Đặc biệt đối với việc nghiên cứu nhận dạng chữ viết tay tiếng Việt lại càng gặp nhiều khó khăn hơn do bộ ký tự tiếng Việt có thêm phần dấu, rất dễ nhầm lẫm với các nhiễu. Vì vậy, đến thời điểm này có rất ít công trình công bố chính thức về các kết quả nghiên cứu nhận dạng chữ viết tay tiếng Việt. Điều này chính là động lực thúc đẩy chúng tôi cố gắng nghiên cứu để đề xuất các giải pháp hữu hiệu cho bài toán nhận dạng chữ viết tay tiếng Việt.

Page 4: Bai tap 8 - nhom

4

II. Tổng quan tình hình nghiên cứu (liên quan đến vấn đề ở mục 1) (The studies that have addressed the problem)

Quá trình nhận dạng chữ viết tay nói chung là đi theo một mô hình tổng quát. Sau đây, chúng tôi giới thiệu mô hình tổng quát của một hệ thống nhận dạng chữ viết tay cùng với các nghiên cứu hay các phương pháp giải quyết đi kèm, xem như là phần tổng quan tình hình nghiên cứu về vấn đề nhận dạng chữ viết tay.

1 Mô hình tổng quát của một hệ nhận dạng chữ viết tayMô hình nhận dạng chữ viết tay bao gồm 5 giai đoạn:

Giai đoạn tiền xử lý

Giai đoạn tách chữ

Giai đoạn trích chọn đặt trưng

Giai đoạn huấn luyện và nhận dạng

Giai đoạn hậu xử lý

1.1 Giai đoạn tiền xử lý Giai đoạn tiền xử lý bao gồm: 1.1.1 Nhị phân hóa ảnh: chuyển ảnh đa cấp xám sang ảnh nhị phân. Nhị phân hóa phân chia ảnh thành 2 phần là phần nền và phần chữ.

1.1.2 Lọc nhiễu: nhiễu là một tập các điểm sáng thừa trên ảnh. Nhiễu có nhiều loại như nhiễu đốm, nhiễu vệt, nhiễu đứt nét,…1.1.3 Chuẩn hóa kích thước ảnh1.1.4 Làm trơn biên chữ: đôi khi chất lượng ảnh quét quá xấu, các đường biên chữ không trơn tru mà bị răng cưa. Trong trường hợp này, phải dùng các thuật toán làm trơn để khắc phục [1].1.1.5 Làm đầy chữ: chức năng này được áp dụng với các ký tự bị đứt nét một cách ngẫu nhiên.1.1.6 Làm mãnh chữ: chức năng này rất quan trọng nhằm phát hiện khung xương của ký tự bằng cách loại bỏ các điểm biên ngoài của các nét. Hiện nay có nhiều phương pháp làm mãnh chữ, các giải thuật làm mãnh chữ được giới thiệu trong [1].

1.1.7 Điều chỉnh độ nghiêng của văn bản: có nhiều kỹ thuật để điều chỉnh độ nghiêng của văn bản. Kỹ thuật phổ biến nhất hiện nay dựa trên cơ sở biểu đồ chiếu (projection profile) của ảnh tài liệu. Một số kỹ thuật dựa trên cơ sở các phép biến đổi Hough và

Page 5: Bai tap 8 - nhom

5

Fourier. Một số kỹ thuật hiệu chỉnh độ nghiêng khác có thể tham khảo trong [1].

1.2 Khối tách chữ:

Khối này có nhiệm vụ tách từng ký tự ra khỏi văn bản. Một số phương pháp tách chữ thông dụng:

1.2.1 Tách chữ theo chiều nằm ngang và thẳng đứng1.2.2 Tách chữ dùng lược đồ sáng

1.3 Trích chọn đặc trưngTrích chọn đặc trưng đóng vai trò vô cùng quan trọng trong một hệ thống nhận dạng. Một số phương pháp trích chọn đặc trưng đối với việc nhận dạng chữ viết tay có thể tham khảo trong [1][3].Có rất nhiều phương pháp trích chọn đặc trưng các ảnh văn bản, có thể được phân thành 3 nhóm chính như sau:

1.3.1 Biến đổi toàn cục và khai triển chuỗi: Một số phương pháp biến đổi và khai triển chuỗi thường được áp dụng trong lĩnh vực nhận dạng chữ là:

1.3.1.1 Biến đổi Fourier [8][9]1.3.1.2 Biến đổi Wavelet [5][6]1.3.1.3 Phương pháp mô-men [2]1.3.1.4 Khai triển Karhunent-Loeve [7]

1.3.2 Đặc trưng thống kêCác đặc trưng thống kê của ảnh văn bản bảo toàn các kiểu biến đổi đa dạng về hình dáng của chữ. Mặc dù các kiểu đặc trưng này không thể xây dựng lại ảnh gốc nhưng nó được sử dụng để thu nhỏ số chiều của tập đặc trưng nhằm tăng tốc độ và giảm thiểu độ phức tạp tính toán. Một số đặc trưng thống kê thường dùng để biểu diễn ảnh ký tự là:

1.3.2.1 Phân vùng (tài liệu 22, 23, 24)1.3.2.2 Các giao điểm và khoảng cách1.3.2.3 Các phép chiếu1.3.2.4 Đặc trưng hướng

1.3.3 Đặc trưng hình học và hình thái1.3.3.1 Trích chọn và đếm các cấu trúc hình thái1.3.3.2 Đo và xấp xỉ các tính chất hình học1.3.3.3 Đồ thị và cây

1.4 Huấn luyện và nhận dạngĐây là giai đoạn quan trọng nhất, quyết định độ chính xác của hệ thống nhận dạng. Có nhiều phương pháp phân lớp khác nhau được áp dụng cho các hệ thống nhận dạng chữ viết tay .

1.5 Hậu xử lýĐây là giai đoạn cuối cùng của quá trình nhận dạng. Hậu xử lý là bước ghép nối các ký tự đã nhận dạng thành các từ, các câu, các đoạn văn bản nhằm tái hiện lại văn bản.Mô hình ngôn ngữ thống kê N-Grams đã được áp dụng khá thành công trong việc kiểm tra chính tả ở công đoạn hậu xử lý của các hệ thống nhận dạng chữ viết và các hệ thống nhận dạng tiếng nói (tài liệu 48, 19).

Page 6: Bai tap 8 - nhom

6

2 Các phương pháp nhận dạng chữ viết tayCó nhiều phương pháp nhận dạng mẫu khác nhau được áp dụng rộng rãi trong các hệ thống nhận dạng chữ viết tay. Các phương pháp này được tích hợp trong các cách tiếp cận để nhận dạng chữ viết tay như sau:

Phương pháp tiếp cận đối sánh mẫu,

Phương pháp tiếp cận thống kê,

Phương pháp tiếp cận cấu trúc,

Phương pháp tiếp cận dùng mạng thần kinh nhân tạo (ANN)

Phương pháp tiếp cận dùng mô hình Markov ẩn (hidden Markov model - HMM)

Phương pháp tiếp cận SVM.

III. Những thiếu xót trong nghiên cứu hoặc những điều chưa được nghiên cứu (liên quan đến vấn đề ở mục 1) (The deficiencies in the studies)

Trong các cách tiếp cận để nhận dạng chữ viết tay được nêu trên, phương pháp tiếp cận bằng cách dùng HMM tỏ ra hiệu quả. Đặc biệt là trong công trình [4], Salvador và các công sự đã kết hợp mô hình Markov ẩn (HMM) và ANN để gia tăng hiệu quả cho hệ thống nhận dạng ký tự viết tay. Trong hệ thống của Salvador, họ vẫn dùng mô hình nhận dạng chữ viết vẫn theo HMM, và dùng ANN để tính toán “emission probabilities”. Cụ thể hơn, trong giai đoạn tiền xử lý ảnh, họ dùng Multiplayer Perceptrons để điều chỉnh độ slope và dùng ANN để loại bỏ độ slant không theo chuẩn. Kết quả thực nghiệm cho thấy, hệ thống có kết hợp HMM và ANN cho kết quả nhận dạng chữ viết tay tốt hơn hệ thống nhận dạng dùng kỹ thuật HMM thuần túy. Tuy nhiên, hệ thống này chỉ mới được chứng tỏ hiệu quả với chữ viết tay không có dấu, chưa được ứng dụng và đánh giá hiệu quả đối với chữ viết tay tiếng Việt – có dấu. Đây là động lực để chúng tôi chọn đề tài nghiên cứu là ứng dụng mô hình Markov ẩn kết hợp với mạng thần kinh nhân tạo vào việc nhận dạng chữ viết tay tiếng Việt nhằm nâng cao hiệu quả nhận dạng chữ viết tay tiếng Việt.

Page 7: Bai tap 8 - nhom

7

IV. Tính cấp thiết của đề tài nghiên cứu (đề tài của nhóm mình, liên quan đến vấn đề ở mục 1) (The importance of the study)

ý nghĩa cuộc sống: Trong quá trình phát triển lịch sử, những chữ viết tay trên những văn bản giấy có chất lượng xấu là những thông tin hữu ích cần được số hóa và lưu giữ. Đặc biệt việc nhận dạng chữ viết tay tiếng Việt là một đề tài tiềm năng vì nó khá tương đồng với những đề tài nhận dạng tiếng Anh có sẵn.ý nghĩa khoa học: Hiện tại các phương pháp nhận dạng chữ viết tay tiếng Việt còn chưa chính xác khi nhận dạng những chữ viết có chất lượng xấu. Đề tài nghiên cứu viớ mục tiêu cải thiện độ chính xác các phương pháp đã có (độ chính xác cao nhất 97%).

V. Mục tiêu nghiên cứu (purpose statement) hoặc phạm vi nghiên cứu

Đối tượng nghiên cứu: Nhận dạng chữ viết tay tiếng Việt của các văn bản.Phương pháp nghiên cứu: Kết hợp mạng nơ ron với mô hình Markov.

VI. Các phương pháp nghiên cứu (method): thử nghiệm, mô phỏng, làm NC trên những biến số nào,…

Các giai đoạn của nghiên cứu

Các phương pháp thử nghiệm: Dựa trên tập dữ liệu nhận dạng chữ viết tay tiếng Việt có sẵn. Ưu điểm là dễ so sánh và đối chiếu kết quả với các công trình nghiên cứu khác.Các biến số trong tiền xử lý: độ đậm nhạt, độ nghiên chữ, biên chữ.Các biến số trong tách chuỗi: chiều chữ (ngang, dọc, nghiên).

Page 8: Bai tap 8 - nhom

8

Các biến số trong rút đặc trưng: cấu trúc hình thái, cấu trúc hình học (đồ thị, cây)Các biến số trong huấn luyện: hệ số học, số tầng ẩn, phương pháp học.Mô hình: Sử dụng mạng nơ ron để mô hình quá trình nhận dạng.Mô phỏng: Sử dụng phần mềm Weka để thực hiện mô phỏng dữ liệu và tính toán dữ liệu.

VII. Kế hoạch nghiên cứu (planning)

Kế hoạch nghiên cứu được thực hiện trong thời gian 6 tháng từ 20/6/2014 tới 20/11/2014 với các nội dung như sau:

STT

Nội dung thực hiện Chi tiết Thời gian dự kiến

1 Thực hiện tiền xử lý

Đề xuất phương pháp, tiến hành thí nghiệm, đánh giá và báo cáo kết quả.

1 tháng

2 Tách chữ

Đề xuất phương pháp, tiến hành thí nghiệm, đánh giá và báo cáo kết quả.

1 tháng

3 Rút trích đặc trưng

Đề xuất phương pháp, tiến hành thí nghiệm, đánh giá và báo cáo kết quả.

1 tháng

4 Huấn luyện và nhận dạng

Đề xuất phương pháp, tiến hành thí nghiệm, đánh giá và báo cáo kết quả.

1 tháng

5 Thực hiện hậu xử lý

Đề xuất phương pháp, tiến hành thí nghiệm, đánh giá và báo cáo kết quả.

1 tháng

Page 9: Bai tap 8 - nhom

9

6 Kiểm tra luận vănDuyệt luận văn lần cuối

1 tháng

VIII. Tài liệu tham khảo

[1] Mohamed Cheriet, Nawwaf Kharma, Cheng-Lin Liu and Ching Y.Suen, “Character Recognition Systems: A Guide for Student and Practioners”, N.Y.: John Wiley & Sons, 2007.

[2] Y. C. Chim, A. A. Kassim, Y. Ibrahim, “Character Recognition Using Statistical Moments”, Image and Vision Computing, vol.17, pp.299-307, 1999.

[3] Robert A. Dunne, “A Statistical Approach to Neural Networks for Pattern”, N.Y.: John Wiley & Sons, 2007.

[4] Salvador Espana-Boquera, Maria Jose Castro-Bleda, Jorge Gorbe-Moya, Francisco Zamora-Martinez, Improving Offline Handwritten Text Recognition with Hybrid HMM/ANN Models, IEEE transactions on pattern analysis and machine intelligence, vol.33, no.4, 2011.

[5] S. W. Lee, Y. J. Kim, “Multiresolutional Recognition of Handwritten Numerals with Wavelet Transform and Multilayer Cluster Neural Network”, in Proc. 3rd Int. Conf. Document Analysis and Recognition, pp.1010-1014, Montreal, Canada, 1995.

[6] T. Shioyama, H. Y. Wu, T. Nojima, “Recognition Algorithm Based On Wavelet Transform For Handprinted Chinese Characters”, in Proc. 14th Int. Conf. Pattern Recognition, vol.1, pp.229-232, 1998.

[7] D. Trier, A. K. Jain, T. Taxt, “Feature Extraction Method for Character Recognition – A Survey”, Pattern Recoginition, vol.29, no.4, pp.641-662, 1996.

[8] S. S. Wang, P. C. Chen, W. G. Lin, “Invariant Pattern Recognition by Moment Fourier Descriptor”, Pattern Recognition, vol.27, pp.1735-1742, 1994.

[9] X. Zhu, Y.Shi, S. Wang, “A New Alogrithm of Connected Character Image Based on Fourier Transform”, in Proc. 5th Int. Conf. Document Analysis and Recogintion, pp. 788-791, Bangalore, India, 1999.