152
1 LI CM N u tiên, chúng em xin gi li cm n n Thy, Cô khoa Công ngh Thông tin trng i hc Khoa hc T nhiên ã tn tình dy d, dìu dt chúng em sut bn nm i hc. Chúng em cm n Cô Phm Th Bch Hu, ngi tn tình hng dn, giúp , ng viên chúng em hoàn thành lun vn này. Cui cùng, chúng con cm n Ba, M và nhng ngi thân ã khích l, h tr, ng viên chúng con trong thi gian hc tp, nghiên cu c thành qu nh ngày nay. Tháng 7 nm 2005 Sinh viên Phm Th M Phng – T Th Ngc Thanh

Tim kiem ngu_nghia_tren_e_doc

Embed Size (px)

Citation preview

Page 1: Tim kiem ngu_nghia_tren_e_doc

1

L�I C�M �N

��u tiên, chúng em xin g�i l�i c�m �n ��n Th�y, Cô khoa Công ngh Thông tin

tr�ng ��i h�c Khoa h�c T nhiên �ã t�n tình d�y d�, dìu d�t chúng em su�t b�n n�m

��i h�c.

Chúng em c�m �n Cô Ph�m Th� B�ch Hu, ng�i t�n tình h�ng d�n, giúp ��,

��ng viên chúng em hoàn thành lu�n v�n này.

Cu�i cùng, chúng con c�m �n Ba, M� và nh�ng ng�i thân �ã khích l, h� tr�,

��ng viên chúng con trong th�i gian h�c t�p, nghiên c�u �� có ��c thành qu� nh

ngày nay.

Tháng 7 n�m 2005

Sinh viên

Ph�m Th� M� Ph�ng – T� Th� Ng�c Thanh

Page 2: Tim kiem ngu_nghia_tren_e_doc

2

NH�N XÉT C�A GIÁO VIÊN H��NG D�N

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

…………………………………………………………………………………....

……………………………………………………………………………………

Ngày…… tháng……n�m 2005

Ký tên

Page 3: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 3 - 0112398 – T� Th� Ng�c Thanh

NH�N XÉT C�A GIÁO VIÊN PH�N BIN

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

…………………………………………….………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………………………………………………………………

……………………………

Ngày…… tháng……n�m 2005

Ký tên

Page 4: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 4 - 0112398 – T� Th� Ng�c Thanh

MC LC

M� � U.................................................................................................................................10 Ch��ng 1 : T�NG QUAN.....................................................................................................11

1.1. �"t v#n �� ................................................................................................................ 11 1.2. Bài toán gi�i quy�t ................................................................................................... 13 1.3. H�ng ti�p c�n......................................................................................................... 14

Ch��ng 2 : C� S� LÝ THUY�T ........................................................................................17 2.1. Chi�n l�c tìm ki�m thông tin c$a các b� tìm ki�m (Search Engine) ..................... 17

2.1.1. M�t s� search engine thông d!ng: ................................................................... 17 2.1.2. Chi�n l�c tìm ki�m ........................................................................................ 32 Nguyên lý ho�t ��ng........................................................................................................ 34

2.2. Semantic Web .......................................................................................................... 34 2.2.1. Khái nim......................................................................................................... 34 2.2.2. Ki�n trúc .......................................................................................................... 36 2.2.3. Các thách th�c �"t ra cho Semantic web ......................................................... 37 2.2.4. So sánh web và web ng� ngh a........................................................................ 41 2.2.5. Các khái nim liên quan................................................................................... 42 2.2.6. Ontology .......................................................................................................... 44 2.2.7. Rdf ................................................................................................................... 46

2.3. eDoc ......................................................................................................................... 55 2.3.1. Tìm hi�u eLearning.......................................................................................... 55 2.3.2. Tìm hi�u eLib................................................................................................... 61 2.3.3. Tìm hi�u eDoc ................................................................................................. 68

2.4. M�t s� v#n �� trong x% lí ngôn ng� t nhiên: ......................................................... 71 2.4.1. V#n �� trong vic x% lí v�n b�n:...................................................................... 72 2.4.2. V#n �� x% lí ng� ngh a: ................................................................................... 72 2.4.3. Phân lo�i v�n b�n (Text Classification)........................................................... 82

Ch��ng 3 : MÔ HÌNH VÀ GI�I THU�T ..........................................................................84 3.1. Công ngh tìm ki�m ng� ngh a trên th� gi�i hin nay: ........................................... 84 3.2. Các b�c xây d ng m�t �ng d!ng semantic search engine:.................................... 91

3.3.1. Xây d ng ki�n trúc Web ng� ngh a:................................................................ 92 3.3.2. L�p ch& m!c ng� ngh a ti�m tàng: ................................................................... 93

3.3. Mô hình �� ngh� cho �ng d!ng tìm ki�m ng� ngh a trên l nh v c eDoc................. 96 3.4. Các gi�i thu�t s% d!ng ........................................................................................... 100

3.4.1. Gi�i thu�t x% lý tài liu: ................................................................................. 100 3.4.2. Gi�i thu�t rút trích siêu d� liu: ..................................................................... 102 3.4.3. Gi�i thu�t phân lo�i l nh v c cho tài liu:...................................................... 104 3.4.4. Gi�i thu�t x% lí câu truy v#n: ......................................................................... 104

Ch��ng 4 : CH��NG TRÌNH �NG DNG....................................................................105 4.1. Gi�i thiu ch�ng trình �ng d!ng: ........................................................................ 105 4.2. Ki�n trúc c$a �ng d!ng:......................................................................................... 105 4.3. Mô t� ph�m vi �ng d!ng........................................................................................ 107

4.3.1. Mô t� bài toán: ............................................................................................... 107

Page 5: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 5 - 0112398 – T� Th� Ng�c Thanh

4.3.2. Xác ��nh yêu c�u: .......................................................................................... 107 4.4. Xây d ng �ng d!ng: .............................................................................................. 108

4.4.1. Thi�t k� d� liu: ............................................................................................. 108 4.4.2. Thi�t k� x% lý:................................................................................................ 110

4.5. K�t qu� ch�ng trình ............................................................................................. 112 4.6. Th c nghim ch�ng trình .................................................................................... 114

Ch��ng 5 : K�T LU�N ......................................................................................................118 5.1. �ánh giá k�t qu� nghiên c�u ................................................................................. 118

5.1.1. 'u �i�m ......................................................................................................... 118 5.1.2. Khuy�t �i�m:.................................................................................................. 119

5.2. H�ng phát tri�n .................................................................................................... 119 TÀI LIU THAM KH�O...................................................................................................120

I. Lu�n v�n, lu�n án:...................................................................................................... 120 II. Sách, eBooks:............................................................................................................. 120 III. Website: ................................................................................................................. 122

PH LC..............................................................................................................................124 1. Cú pháp RDF: ............................................................................................................ 124 2. RDF Gateway: ........................................................................................................... 129

2.1. Ki�n trúc c$a RDF Gateway:............................................................................. 130 2.2. Tính n�ng (Features).......................................................................................... 132

3. H th�ng nhãn ng� ngh a:.......................................................................................... 138 3.1. Nhãn ng� ngh a c� b�n cho danh t�: ................................................................. 139 3.2. Nhãn ng� ngh a c� b�n cho ��ng t�: ................................................................. 141 3.3. Nhãn ng� ngh a c� b�n cho tính t�:................................................................... 142 3.4. H th�ng nhãn ng� ngh a LDOCE .................................................................... 142

4. H c� s� tri th�c ng� ngh a t� v ng WordNet .......................................................... 144 4.1. H th�ng nhãn ng� ngh a c$a danh t�: .............................................................. 144 4.2. H th�ng nhãn ng� ngh a c$a ��ng t�: .............................................................. 149

Page 6: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 6 - 0112398 – T� Th� Ng�c Thanh

DANH MC CÁC B�NG

B�ng 1 : B�ng h��ng d�n nhanh v� cách s� d�ng m�t s� search engine ph� bi�n ......... 28 B�ng 2: S� l��c v� các ��c tr�ng c a m�t s� search engine thông d�ng trên Internet .. 32 B�ng 3 : Các l�p trong RDF ............................................................................................ 54 B�ng 4:Các thu�c tính c a RDF........................................................................................... 55 B�ng 5: Danh sách các ngh!a và ràng bu�c c a các t" th#c trong câu............................. 77 B�ng 6 Mô t� c� s$ d% li&u cho 'ng d�ng.......................................................................... 110 B�ng 7 Các module c a ch��ng trình................................................................................ 110 B�ng 8 Module eDocSearch ................................................................................................ 111 B�ng 9 Module eDocSearch ................................................................................................ 111 B�ng 10 Các câu truy v(n th� nghi&m............................................................................... 115 B�ng 11 Th�ng kê l!nh v#c khoa h)c máy tính................................................................. 116 B�ng 12 Th�ng kê l!nh v#c ngh& thu*t. ............................................................................. 116 B�ng 13: Nhãn ng% ngh!a c� b�n cho danh t".................................................................. 140 B�ng 14: Nhãn ng% ngh!a c� b�n cho ��ng t" .................................................................. 142 B�ng 15 : Nhãn ng% ngh!a c� b�n cho tính t"................................................................... 142 B�ng 16: H& th�ng nhãn ng% ngh!a LDOCE .................................................................... 144 B�ng 17:S# phân l�p danh t" trong WordNet.................................................................. 148

Page 7: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 7 - 0112398 – T� Th� Ng�c Thanh

DANH MC CÁC HÌNH

Hình 1: Giao di&n c a Google............................................................................................... 18 Hình 2: Giao di&n c a Yahoo................................................................................................ 19 Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20 Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21 Hình 5: Giao di&n c a Teoma ............................................................................................... 22 Hình 6: Giao di&n HotBot ..................................................................................................... 23 Hình 7: Giao di&n c a Altavista............................................................................................ 24 Hình 8: Giao di&n c a Lycos................................................................................................. 25 Hình 9: Ki�n trúc t+ng c a Semantic web........................................................................... 36 Hình 10: M�t Ontology ��n gi�n......................................................................................... 46 Hình 11: Mô hình d% li&u RDF............................................................................................. 51 Hình 12 : Tiêu chu,n �ánh giá tính b�o m*t c a eDoc ...................................................... 71 Hình 13 Các quan h& cú pháp và ràng bu�c ng% ngh!a ..................................................... 76 Hình 14 Cây quy�t �-nh trong vi&c ch)n ngh!a phù h�p. .................................................. 78 Hình 15: Dòng c� s$ tìm ki�m Web ................................................................................... 91 Hình 16: Mô hình �� ngh- cho 'ng d�ng tìm ki�m ng% ngh!a trên l!nh v#c eDoc .......... 97 Hình 17: Qui trình x� lý c a t+ng search engine ................................................................ 99 Hình 18: Gi�i thu*t x� lý tài li&u: ...................................................................................... 100 Hình 19: Gi�i thu*t rút trích siêu d% li&u.......................................................................... 103 Hình 20: S� �. d% li&u quan h& c a 'ng d�ng.................................................................. 108 Hình 21: Giao di&n chính c a 'ng d�ng............................................................................ 112 Hình 22: Giao di&n k�t qu� tìm ki�m c a 'ng d�ng......................................................... 113 Hình 23: Giao di&n qu�n lí tài nguyên ............................................................................... 113 Hình 24: Ki�n trúc c a RDF Gateway............................................................................... 130 Hình 25: Giao di&n c a RQF Query Analyzer. ................................................................. 136

Page 8: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 8 - 0112398 – T� Th� Ng�c Thanh

DANH MC CÁC T/ VI�T T0T

eDoc Electronic document

eLib Electronic library

eLearning Electronic learning

www World Wide Web

URI Uniform Resource Identifier

URL Uniform Resource Locator

HTTP Hypertext Transfer Protocol

RDF Resources Descriprion Framework

OIL Ontology Inference Language

OWL Ontology Web Language

XML eXtensible Markup Language

Page 9: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 9 - 0112398 – T� Th� Ng�c Thanh

DANH MC CÁC THU�T NG1

Class L�p

Property Thu�c tính

Metadata Siêu d� liu

Subject Ch$ ��, ch$ ng�

Title Tiêu ��

Namespace Không gian tên

Predicate V� ng�

Triple B� ba (subject, predicate, object)

Page 10: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 10 - 0112398 – T� Th� Ng�c Thanh

M( �)U

Hin nay, h�u h�t các h th�ng tìm ki�m trên Internet ��u �i theo h�ng truy�n

th�ng �ó là tìm ki�m theo t� khoá ( key word ). Theo cách tìm ki�m này, khi ta gõ vào

t� c�n tìm, các h th�ng tìm ki�m s* hi�n th� các tài liu mà trong nó có ch�a t� khoá

c�n tìm. Do �ó, k�t qu� tr� ra là m�t danh sách r#t nhi�u các tài liu, mà có th� các tài

liu này không liên quan gì ��n n�i dung ta c�n tìm. Và �ôi khi các h th�ng này

không �a ra h�t các tài liu c�n thi�t, t�c là th�a tài liu không c�n thi�t nhng l�i

thi�u h+n nh�ng tài liu quan tr�ng khác.

V#n �� �"t ra là ta ph�i xây d ng m�t h th�ng tìm ki�m nh th� nào �� kh�c

ph!c hin tr�ng nêu trên ?

�� gi�i quy�t v#n �� này, ta c�n xây d ng h th�ng tìm ki�m sao cho �áp �ng

��y �$ thông tin mà ng�i dùng mong mu�n, ngh a là ph�i xây d ng h th�ng tìm

ki�m theo ng� ngh a d a trên thông tin ng�i dùng �a vào.

T� nh�n th�c trên chúng em quy�t ��nh ch�n �� tài: Tìm ki�m ng% ngh!a 'ng

d�ng trên l!nh v#c eDoc (nh�ng tài liu �in t% ti�ng Anh) v�i m!c �ích tìm hi�u và

xây d ng m�t công c! tìm ki�m theo ng� ngh a �� có th� tìm ki�m thông tin chính xác

và ��y �$, �� có th� h�n ch� ��c ph�n nào v#n �� tìm ki�m theo t� khoá c$a các

search engine hin t�i.

Các ��i t�ng nghiên c�u liên quan ��n �� tài: eDoc, Semantic Web, RDF,

OWL, Metadata,….

Trong ph�m vi �� tài, vì th�i gian th c hin ng�n, nên chúng em ch& th% nghim

ch�ng trình tìm ki�m trong m�t s� l nh v c: Khoa h�c máy tính (Computer Science),

Ngh thu�t (Art). Hai l nh v c này có v, nh không liên h v�i nhau nhng th c t�

v�n có nh�ng tr�ng h�p c�n ph�i phân bit, ví d! nh tài liu v� “ngh thu�t l�p

trình” (“Art of programming”) thì ph�i phân tài liu v� l nh v c khoa h�c máy tính

ch� không ph�i ngh thu�t …. Tóm l�i, �ng d!ng mà chúng em xây d ng ch& tìm ki�m

thông tin trong các l nh v c nêu trên. Tuy nhiên, �ng d!ng có th� d- dàng m� r�ng ra

nhi�u l nh v c còn l�i.

Page 11: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 11 - 0112398 – T� Th� Ng�c Thanh

Ch��ng 1 : T�NG QUAN

1.1. ��t v(n ��

Nhu c�u tìm ki�m, n�m b�t thông tin là m�t nhu c�u không th� thi�u trong ��i

s�ng c$a m�i ng�i. Khi vic s% d!ng World Wide Web �ã tr� nên ph. bi�n r�ng

kh�p, thì công vic c$a các search engine c/ng tr� thành m�t ph�n s�ng còn và có l�i

ích cho Web. Các công c! tìm ki�m tr� thành nh�ng công c! công c�ng cho m�i

ng�i dùng c$a Internet; Google và Yahoo, c/ng tr� thành nh�ng cái tên quen thu�c.

Các công c! tìm ki�m hin nay d a trên m�t trong hai d�ng c$a công ngh tìm

ki�m Web: tìm ki�m do con ng�i t ch& ��ng d�n và tìm ki�m t ��ng.

Công c! tìm ki�m do con ng�i ch& ��ng d�n s% d!ng m�t c� s� d� liu c$a

các t� khoá, các khái nim, và các tham chi�u. Nh�ng công c! tìm ki�m theo t� khoá

tr� v� m�t dãy các trang, nhng ph�ng pháp ��n gi�n này th�ng d�n ��n hàng lo�t

các k�t qu� không liên quan và không xác th c. Ho�t ��ng c$a m�t công c! tìm ki�m

d a trên n�i dung là: s* ��m s� l�ng các t� truy v#n ( các t� khoá) so v�i các t� hin

din trong m�i trang ��c ch�a trong ch& m!c c$a nó. Sau �ó, công c! tìm ki�m này s*

s�p x�p các trang. Ti�p c�n ph�c t�p h�n b0ng cách �a các v� trí c$a t� khoá vào m�t

m�c �� quan tr�ng c! th�. Ví d!, các t� khoá xu#t hin trong th, title c$a trang web thì

quan tr�ng h�n trong ph�n body. Các ki�u khác c$a công c! tìm ki�m do ng�i dùng

ch& ��ng d�n, nh Yahoo, s% d!ng các l�c �1 ch$ �� �� giúp ch& h�ng tìm ki�m và

tr� v� các k�t qu� có liên quan h�n. Nh�ng l�c �1 ch$ �� này do con ng�i t�o ra.

B�i lí do này, chúng ta ph�i t�n chi phí t�o ra và duy trì trong các t� mang “ý ngh a

th�i gian” (thay �.i theo th�i gian), và r1i thì không ��c c�p nh�t th�ng xuyên nh

các h th�ng t ��ng.

Cách ti�p c�n tìm theo t� khoá v�n còn m�t s� h�n ch�, �i�u này �ã làm gi�m

�i tính �úng ��n c$a các search engine. Ví d! nh các t� �1ng âm khác ngh a (ch+ng

h�n: bank (ngân hàng), bank (b� sông), …) ho"c các t� có các bi�n th� khác nhau do

có các ti�n t� và h�u t� nh student và students; small, smaller, smallest; …. Ngoài ra,

các search engine không tr� v� các tài liu có các t� �1ng ngh a v�i các t� trong câu

Page 12: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 12 - 0112398 – T� Th� Ng�c Thanh

truy v#n mà ng�i dùng nh�p vào. Key word không �$ �� bi�u di-n chính xác nhu

c�u c$a ng�i dùng c/ng nh n�i dung các trang web, h�n ch� này làm cho các search

engine tr� v� nh�ng tài liu không liên quan ��n v#n �� mà ng�i dùng quan tâm. B�i

vì t*p h�p các t" khóa là d�ng bi�u di-n s� l�c nh#t c$a n�i dung, và do �ó, cách

bi�u di-n này là m�t d�ng góc nhìn lu�n lý (logical view) c$a n�i dung mang m'c ��

thông tin th(p nh(t, �ó chính là lý do c� b�n khi�n cho các Search Engine hin nay

có t2 l& s� trang web h%u ích trên t�ng s� trang web tr� v� th(p.

Google v�i 400 triu tài liu thu v� m�i ngày và trên 8 t& trang web ��c l�p ch&

m!c, và là công c! tìm ki�m thông d!ng nh#t ��c s% d!ng ngày nay, nhng th�m chí

v�i Google v�n còn có nhi�u v#n ��. Ví d!, b0ng cách nào b�n tìm ki�m ch& v�i m�t

l�ng ít d� liu mà b�n c�n trong m�t bi�n k�t qu� không liên quan ��c �a ra?

Khi công ngh trí tu nhân t�o (Artificial Intelligence_AI) phát tri�n m�nh, thì

v#n �� �"t ra là làm th� nào �� �a ra nh�ng ph�ng pháp tìm ki�m t�t h�n mà có th�

th c s tin c�y vào nh�ng k�t qu� tìm ki�m �ó. �ó là xu h�ng c$a nh�ng công c! tìm

ki�m d a vào ng� ngh a và các agent tìm ki�m theo ng� ngh a. M�t công c! tìm ki�m

ng� ngh a tìm ki�m các tài liu có ngh a t�ng t nhau ch� không ch& nh�ng t� ng�

t�ng t nhau. �� Web tr� thành m�t m�ng ng� ngh a, ph�i cung c#p nhi�u siêu d�

liu v� n�i dung c$a nó, thông qua vic s% d!ng các th, RDF (Resource Description

Framework) và OWL (Ontology Web Language), các th, này s* giúp th c hin �a

Web vào trong m�ng ng� ngh a. Trong m�ng ng� ngh a, ý ngh a c$a n�i dung ��c

th� hin t�t h�n, và nh�ng liên k�t logic ��c th c hin gi�a nh�ng thông tin liên quan

nhau.

Công c! tìm ki�m ng� ngh a, chúng ta �� c�p � �ây, có hai u �i�m l�n so v�i

các công c! tìm ki�m truy�n th�ng:

1. Nó ch#p nh�n các truy v#n ��c phát bi�u � ngôn ng� t nhiên.

2. K�t qu� là tìm ki�m m�t m�u thông tin; không ph�i là m�t danh sách các tài

liu có th� (ho"c không) ch�a thông tin yêu c�u.

Th�t v�y công c! tìm ki�m ng� ngh a b�t ��u v�i l�ng thông tin quá t�i. Nó

ti�p nh�n m�t s� các tác v! không ��c ai a thích trong vic tìm ki�m thông tin hin

Page 13: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 13 - 0112398 – T� Th� Ng�c Thanh

nay: m� ra m�i tài liu c$a danh sách k�t qu� và quét nó m�t cách th$ công �� l#y

thông tin. Theo cách �ó, các công c! tìm ki�m ng� ngh a có kh� n�ng cách m�ng hoá,

h�ng ��n vic tìm ki�m thông tin �in t% m�t cách t ��ng: nó thay �.i mô hình tìm

ki�m t� vi�c thu h�i tài li�u ��n vi�c tr� l�i câu h�i.

1.2. Bài toán gi�i quy�t

Theo th�ng kê trong n�m 2001: “Các nhân viên t�n trung bình 8 gi� m�t tu�n,

hay 16% gi� công hàng tu�n c$a h�, �� tìm ki�m và s% d!ng n�i dung thông tin bên

ngoài. Chi phí l�ng ch& riêng cho công ty c$a M� là 107 t& �ôla m�t n�m. Vic tìm

ki�m ng� ngh a là m�t c� h�i ��y ý ngh a cho các công ty giúp cho nhân viên c$a h�

có kh� n�ng h�n và hiu qu� h�n trong vic �"t thông tin bên ngoài vào công vic c$a

h�.” Không c�n nói nhi�u thêm n�a. S quá t�i thông tin là m�t v#n �� l�n trong xã

h�i thông tin.

Nh�ng khám phá t�ng t c/ng ��c tìm th#y trong nhi�u nghiên c�u, làm n.i

b�t v#n ��: ph�i �a ra gi�i pháp trong vic c�i ti�n x% lí tìm ki�m thông tin. Ngo�i tr�

nh�ng ích l�i to l�n mà các công c! tìm ki�m mang l�i cho chúng ta nh�ng n�m g�n

�ây b0ng vic làm cho có th� truy c�p ��n hàng triu các tài liu, b#t ch#p v� trí v�t lí

và ngôn ng�, thì chúng v�n có m�t s� h�n ch� c� b�n. Ví d!, chúng không “hi�u” các

t� con ng�i gõ vào và do �ó ��t t�i m�t s� l�ng kh.ng l1 c$a các k�t qu� sai. H�n

n�a, chúng ho�t ��ng hiu qu� khi h2i v� nh�ng s kin, ch+ng h�n nh “Kerry” và

“vua c$a Tây Ban Nha”. Tuy nhiên, chúng th c hin nhi�u k�t qu� không t�t n�u câu

truy v#n nói v� s� liên h� gi�a các khái nim ch+ng h�n nh “Nh�ng qu�c gia nào �ã

tham gia trong chi�n tranh Iraq?” và “t.ng th�ng n�c Pháp theo chính ��ng nào?”

Có ba v#n �� c�n ��c c�i ti�n �� c�i thin các k�t qu� c$a công c! tìm ki�m là:

(i) Công c! tìm ki�m c�n cho phép nh�ng truy v#n ph�c t�p h�n (ví

d! trong ngôn ng� t nhiên),

(ii) Công c! tìm ki�m c�n “hi�u” nh�ng gì con ng�i h2i, và

(iii) Công c! tìm ki�m ph�i cung c#p câu tr� l�i cho truy v#n (có th�

sao lu l�i nh�ng liên k�t ��n các tài liu mà cho ra câu tr� l�i).

Page 14: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 14 - 0112398 – T� Th� Ng�c Thanh

1.3. H��ng ti�p c*n

Có hai ti�p c�n �� c�i thin các k�t qu� tìm ki�m thông qua ph�ng pháp ng�

ngh a:

1. Ki�n trúc c$a Semantic Web.

2. L�p ch& m!c cho ng� ngh a ti�m tàng (Latent Semantic Indexing).

Tuy nhiên, h�u h�t các công c! tìm ki�m d a trên ng� ngh a ph�i ch�u nh�ng

v#n �� th c thi b�i qui mô c$a m�ng ng� ngh a r#t l�n. Nh0m m!c �ích làm cho tìm

ki�m ng� ngh a tr� nên hiu qu� trong vic tìm ki�m các k�t qu� mong mu�n, m�ng

này ph�i ch�a m�t l�ng l�n các thông tin liên quan. Cùng lúc �ó, m�t m�ng r�ng l�n

t�o ra nh�ng khó kh�n trong vic x% lí nhi�u ��ng d�n có th� có cho m�t gi�i pháp

liên quan.

Chúng ta s% d!ng khía c�nh s�c bén c$a công ngh Web ng� ngh a – k�t h�p

ch"t ch* s ph�i h�p c$a các công ngh tiên ti�n – làm cho mô hình có th� chuy�n

nhanh trong vic tìm ki�m thông tin.

• Công ngh& x� lí ngôn ng% t# nhiên cho phép ng�i dùng h2i nh�ng

câu h2i mà h� mu�n, h�n là ph�i nêu lên nh�ng t� khoá có liên quan

trong câu h2i c$a h�.

• Các Ontology �-nh ngh!a l!nh v#c quan tâm. Chúng ��c xem nh là

“b� não” c$a công c! tìm ki�m, b�i vì nó c� g�ng hi�u nh�ng câu truy

v#n c$a ng�i dùng trong các t� c$a ontology này. Theo cách này chú ý

r0ng công c! tìm ki�m ng� ngh a c$a chúng ta không ph�i là có m!c

�ích thông th�ng nh Google, mà nó có ý ��nh áp d!ng ��i v�i m�t

l nh v c hay khu v c c! th� (ví d! v� l nh v c pháp lí, v�n hoá, th� thao

v.v…).

• Phân tích tri th'c. Công ngh này chuy�n d� liu không có c#u trúc

sang thông tin có c#u trúc. Nó rút trích thông tin t� các v�n b�n t do,

Page 15: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 15 - 0112398 – T� Th� Ng�c Thanh

các v�n b�n bán c#u trúc và c#u trúc �� phát sinh ra ontology v�i tri th�c

th�t s .

• Truy c*p tri th'c thông minh. Các câu tr� l�i cho các truy v#n ��t

��c do vic truy v#n ontology ��c �a ra t ��ng, và ��c bi�u di-n

trong nh�ng d�ng khác nhau:

o “D� li�u” c$a th c th� chính ��c h2i ��n (ví d! trong l nh v c

xã h�i, d� liu c$a m�t ngh s ).

o ��nh h��ng ng� ngh�a. Nh�ng t� c$a các câu tr� l�i ��c t

��ng siêu liên k�t ��n các khái nim ontology con, cho phép ��nh

h�ng b0ng “ý ngh a”.

o Các th� thông minh và liên kt thông minh. Các câu tr� l�i luôn

��c sao lu b�i các ngu1n và các tài liu chúng d a vào. Khi

nh�ng tài liu �ó ��c tra c�u, thì ph�n m�m gán th, và liên k�t

s* t ��ng nh�n ra các t� ch�a ý ngh a l nh v c và liên k�t chúng

��n ontology, hay thêm vào các th, thông minh v�i nh�ng ho�t

��ng ��c ��nh ngh a trong ontology.

o S “t��ng t��ng” thông minh. Thông th�ng, các câu tr� l�i

phát sinh ra nhi�u các khái nim liên quan và các m�i quan h.

Ph�m m�m “t�ng t�ng” thông minh cho phép m�t khái nim �i

xuyên qua tri th�c này.

Có m�t v#n �� mà công c! tìm ki�m ng� ngh a ��c ��nh ngh a � �ây v�n cha

th� hoàn t#t so v�i nh�ng công c! tìm ki�m v�i m!c �ích thông th�ng (không có ng�

ngh a) nh Google �ó là: ph�m vi. Trong Google b�n có th� tìm ki�m v�i b#t k3 t�

khoá nào trong b#t k3 l nh v c nào. N�u các t� khoá xu#t hin trong m�t s� tài liu

trên Web, Google s* tìm th#y nó. M�t công c! tìm ki�m ng� ngh a c�n m�t s� tri th�c

nâng cao: nó c�n bi�t ý ngh a, ��c bi�u di-n trong m�t ontology. Th c t� là các

ontology – trong tr�ng thái thi hành hin t�i – v�n còn làm b0ng th$ công, h�n ch�

chúng trong nh�ng m!c �ích thông th�ng. Do �ó, các công c! tìm ki�m ng� ngh a là

nh�ng công c! quan tr�ng cho nh�ng l nh v c c! th�. Trong tr�ng h�p này, m!c �ích

Page 16: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 16 - 0112398 – T� Th� Ng�c Thanh

c$a các công c! tìm ki�m ng� ngh a là b. sung cho các công c! tìm ki�m thông

th�ng, h�n là c�nh tranh nh nh�ng ��i th$ .

Page 17: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 17 - 0112398 – T� Th� Ng�c Thanh

Ch��ng 2 : C� S� LÝ THUY�T

2.1. Chi�n l��c tìm ki�m thông tin c a các b� tìm ki�m (Search Engine)

2.1.1. M�t s� search engine thông d�ng:

Sau �ây là danh sách m�t s� search engine. T�i sao chúng ��c xem là nh�ng

search engine “l�n”? �ó là b�i vì chúng ��c bi�t ��n nhi�u và s% d!ng t�t. ��i v�i

các chuyên gia web, các công c! tìm ki�m l�n là danh sách nh�ng n�i quan tr�ng nh#t

b�i chúng phát sinh ra m�t l�ng r#t l�n các trang web ti�m tàng. ��i v�i nh�ng

ng�i tìm ki�m, các công c! tìm ki�m ph. bi�n th�ng tr� ra các k�t qu� �áng tin c�y

h�n. Nh�ng search engine này r#t có th� ��c duy trì t�t và nâng c#p khi c�n thi�t, ��

gi� th� cân b0ng v�i t�c �� phát tri�n c$a web.

Nh�ng search engine sau là t#t c� nh�ng l a ch�n t�t nh#t �� b�t ��u khi tìm ki�m

thông tin:

Page 18: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 18 - 0112398 – T� Th� Ng�c Thanh

2.1.1.1. Google: http://www.google.com/

Hình 1: Giao di&n c a Google

Nguyên thu4, Google là m�t �� án c$a tr�ng ��i h�c Stanford ��c th c hin

b�i hai sinh viên Larry Page và Sergey Brin g�i là BackRub. ��n n�m 1998, thì �.i

tên thành Google, và �1 án này �ã tr� thành công ty riêng Google �"t t�i khuôn viên

tr�ng ��i h�c. Nó v�n còn ��c lu gi� cho ��n ngày nay.

Google là công c! tìm ki�m n.i ti�ng, t�t nh#t trong các l a ch�n �� tìm ki�m

thông tin trên web. D�ch v! d a vào crawler, spider cung c#p trang web v�i thông tin

�a ra toàn din cùng v�i m�c �� liên quan t�t. �ây là công c! t�t nh#t hin nay trong

vic tìm ki�m b#t c� th� gì b�n mu�n.

Tuy nhiên, Google cung c#p ch�n l a �� tìm ki�m ch$ y�u v� các trang web.

S% d!ng h�p tìm ki�m trên trang ch$ Google, b�n có th� d- dàng ��nh v� các �nh qua

Page 19: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 19 - 0112398 – T� Th� Ng�c Thanh

web, nh�ng �� ngh� ��c �"t trong các nhóm th�o lu�n Usenet, ��nh v� thông tin tin

t�c hay th c hin tìm ki�m s�n ph5m.

2.1.1.2. Yahoo: http://www.yahoo.com/

Hình 2: Giao di&n c a Yahoo

�a ra n�m 1994, Yahoo là “th m!c” c/ nh#t c$a web, m�t n�i mà các nhà

biên t�p t. ch�c các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 n�m

2002, Yahoo chuy�n sang l�p danh sách d a vào crawler cho nh�ng k�t qu� chính c$a

nó. Công c! này s% d!ng công ngh t� Google cho ��n tháng 2 n�m 2004. Hin nay,

Yahoo s% d!ng công ngh tìm ki�m riêng c$a mình.

Yahoo Directory v�n t1n t�i. B�n s* ch& ra các liên k�t “danh m!c” phía d�i

m�t s� các trang web lit kê trong k�t qu� tr� v� c$a m�t tìm ki�m t� khoá. Khi ��c

Page 20: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 20 - 0112398 – T� Th� Ng�c Thanh

�� xu#t, nh�ng trang web này d�n b�n ��n m�t danh sách các trang web �ã ��c xem

xét và phê chu5n b�i m�t nhà biên t�p.

Công ngh AltaVista và AllTheWeb ��c ph�i h�p v�i k� thu�t Inktomi, m�t

công c! tìm ki�m d a trên crawler, �� t�o nên m�t Yahoo crawler hin nay.

2.1.1.3. Ask Jeeves: http://www.askjeeves.com/

Hình 3: Giao di&n c a Ask Jeeves

Ask Jeeves b�t ��u n.i ti�ng t� n�m 1998 và 1999, ��c bi�t nh là m�t công

c! tìm ki�m “ngôn ng� t nhiên” cho phép ta tìm ki�m b0ng cách h2i nh�ng câu h2i

và tr� v� k�t qu� v�i nh�ng gì có v là tr� l�i �úng v� m�i th�.

Th c s , công ngh không ph�i là nh�ng gì làm cho Ask Jeeves th c thi t�t.

Bên c�nh các b�i c�nh, công c! này t�i m�t th�i �i�m có kho�ng 100 trình so�n th�o

Page 21: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 21 - 0112398 – T� Th� Ng�c Thanh

giám sát các log tìm ki�m. Sau �ó chúng vào trong web và ��nh v� nh�ng site mà

chúng cho là t�t nh#t t�ng x�ng v�i các truy v#n ph. bi�n nh#t.

2.1.1.4. AllTheWeb: http://www.alltheweb.com/

Hình 4: Giao di&n c a AllTheWeb

��c Yahoo cung c#p ngu1n, có th� th#y AllTheWeb là m�t “tìm ki�m thu�n

tuý” (“pure search”) nh� nhàng h�n, tu3 bi�n h�n và d- ch�u h�n là khi th c hin �

Yahoo. Tiêu �i�m là trong tìm ki�m web, ngo�i tr� tin t�c, tìm ki�m hình �nh, video,

MP3 và FPT c/ng ��c �a ra.

Page 22: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 22 - 0112398 – T� Th� Ng�c Thanh

2.1.1.5. Teoma: http://www.teoma.com/

Hình 5: Giao di&n c a Teoma

Teoma là m�t công c! tìm ki�m d a trên crawler ��c s� h�u b�i Ask Jeeves.

Nó có s� l�ng trang web ��c ch& m!c nh2 h�n Google và Yahoo. N�m 2000,

Teoma ra ��i cùng v�i thành công c$a mình: �a ra ��c nh�ng th� liên quan. Tính

n�ng “Refine” c$a công c! này �� xu#t ra nh�ng ch$ �� �� kh�o sát sau khi b�n th c

hin m�t tìm ki�m.

Teoma ��c Ask Jeeves mua vào tháng 9 n�m 2001 và c/ng cung c#p m�t s�

k�t qu� cho web site này.

Page 23: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 23 - 0112398 – T� Th� Ng�c Thanh

2.1.1.6. HotBot: http://www.hotbot.com/

Hình 6: Giao di&n HotBot

HotBot h� tr� truy c�p d- dàng ��n 3 trang web search engine d a vào crawler

l�n: Yahoo, Google, và Teoma. Không nh m�t meta search engine, nó không th� pha

tr�n các k�t qu� t� t#t c� các crawler này v�i nhau. Do �ó, nó là m�t cách nhanh, d-

dàng �� l#y các “ý ki�n” tìm ki�m web khác nhau trong m�t n�i.

Page 24: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 24 - 0112398 – T� Th� Ng�c Thanh

2.1.1.7. AltaVista: http://www.altavista.com/

Hình 7: Giao di&n c a Altavista

AltaVista ��c �a ra vào tháng 9 n�m 1995 và ��c xem nh là “Google”

trong m�t vài n�m, nó cung c#p nh�ng k�t qu� liên quan và �ã có m�t nhóm ng�i

dùng yêu thích công c! tìm ki�m này. Nhng t� sau n�m 1998, ng�i ta không còn a

chu�ng AltaVista n�a, b�i vì s m�i m, c$a các danh sách AltaVista và tin t�c ��c

�a ra c$a crawler trong trang web này không ��c c�p nh�t th�ng xuyên.

Ngày nay, AltaVista m�t l�n n�a t�p trung vào tìm ki�m. Các k�t qu� ��n t�

Yahoo, và cho phép ��n các trang web �� tìm hình �nh, MP3/Audio, Video, các danh

sách danh m!c con ng�i và các k�t qu� tin t�c. N�u mu�n m�t c�m giác nh� nhàng

h�n Yahoo nhng v�n có các k�t qu� c$a Yahoo, AltaVista là m�t ch�n l a t�t.

Page 25: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 25 - 0112398 – T� Th� Ng�c Thanh

2.1.1.8. Lycos: http://www.lycos.com/

Hình 8: Giao di&n c a Lycos

Lycos là m�t trong nh�ng công c! tìm ki�m c/ nh#t trên web, ��c �a ra n�m

1994. ��c mô t� nh là nh�ng c.ng truy c�p web ( web portal ) hay nh�ng trung tâm

truy c�p, là n�i mà ng�i dùng �i vào �� l#y thông tin cho m�i l nh v c, k� c� tán g�u,

g�i th �in t%,…

Page 26: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 26 - 0112398 – T� Th� Ng�c Thanh

Search

Engine

Google AlltheWeb AltaVista Teoma

Database google.com alltheweb.com altavista.com teoma.com

Kích th�c(#

trang )

Kho�ng 8 t& (1

t& không �ánh

ch& m!c trên

toàn v�n b�n)

Kho�ng 3 t&,

ch& m!c trên

toàn v�n b�n.

Kho�ng 1 t& Kho�ng 1 t&

�a ph�ng

tin

(multimedia)

H� tr� H� tr� H� tr� Không h� tr�

Toán t%

M"c ��nh AND AND AND AND

Lo�i tr� - - - -

C!m t� Dùng d#u “ “ Dùng d#u “ ” Dùng d#u “ ” Dùng d#u “ “

Rút g�n Không h� tr�

Dùng ký t *

�� thay th�

cho các ký t

trong d#u “ “

Không h� tr� Dùng ký t * Không h� tr�

Boolean OR (ch& dùng

cho danh t�

riêng )

AND, OR,

ANDNOT,

RANK, ()

AND, OR,

ANDNOT,

NEAR, ()

OR (ch& dùng cho tên

riêng)

Page 27: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 27 - 0112398 – T� Th� Ng�c Thanh

Stop words Thông th�ng

b2 qua các t�

thông d!ng

+ n�u mu�n

tìm và ph�i �"t

trong c"p d#u

“ “

Dùng d#u “ “

trong search

c� b�n

B2 qua trong

search nâng

cao

Thông th�ng b2 qua

các t� thông d!ng

+ n�u mu�n tìm

Danh t�

riêng

Không h� tr� Không h� tr� H� tr� Không h� tr�

Gi�i h�n

field c�n tìm

intitle:

inurl:

allintitle:

Allinurl:

filetype:

Link:site:

Trong search

nâng cao :

cache:info:

Normal.title:

url.all:

Link.all:

Link.extension

:

Title:

domain:

Link:

image:

Text:

url:

host:

Anchor:

applet:

intitle:

inurl:

site:

geoloc:

lang:

last:

afterfate:

Các �"c tính

�"c bit

~ tìm t� �1ng

ngh a

Gi�i h�n b�i

ngôn ng�

Nhi�u ki�u file

: pdf, doc,…

Caches : trang

web khi �ánh

ch& m!c

Duyt qua các

URL

Trong tìm

nâng cao :

gi�i h�n b�i

ngày, domain,

��a ch& iP

Gi�i h�n b�i

ngày, v� trí,

ngôn ng�

Trong tìm

nâng cao : s%

d!ng sortby ��

l�c và s�p x�p

k�t qu�.

Dùng refine �� t�i u

k�t qu�.

Resource �� có ��c

các trang và liên k�t

t�p trung trên ch$ ��

c�n tìm.

Page 28: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 28 - 0112398 – T� Th� Ng�c Thanh

'u �i�m

'u �i�m

chính

R#t t�t v�i

nh�ng trang

có �� ph. bi�n

cao.

Các trang tin

t�c g�n �ây

T�t nh

Google.

Không có

stopword.

Dùng nhi�u

toán t%

Boolean trong

tìm ki�m.

Trong tìm

nâng cao h�

tr� hi�n th� k�t

qu� theo ��

ph. bi�n c$a

t�.

Tính �� ph. bi�n t�t,

d a vào s� l�ng

trang web cùng ch$

�� v�i các trang �ang

xét. Th�ng ��t k�t

qu� �áng khích l.

Search

Engine

Google AlltheWeb AltaVista Teoma

B�ng 1 : B�ng h��ng d�n nhanh v� cách s� d�ng m�t s� search engine ph� bi�n

Search

engine

C� s$ d% li&u Toán t� L#a ch)n tìm

ki�m

Linh tinh

Google

http://www.g

oogle.com

H� tr� tìm

ki�m nâng

cao

H th�ng th

m!c ch$ ��

(Subject

Toàn v�n b�n

c$a các trang

web, .pdf,

.doc, .xls, .ps,

.wpd

(4.3B, + 1B

m�t ph�n c$a

ch& m!c

URLs)

AND (m"c

��nh)

OR (danh t�

riêng)

+ cho các stop

word thông

d!ng, cho các

URL ho"c các

trang c! th� (ví

Dùng * �� rút

g�n.

Dùng “” tìm c!m

t�.

Fields : intitle:,

inurl:, link:, site:

Tìm trên h

th�ng danh m!c

các ch$ �� trong

Ki�m l�i chính

t�.

Lu tr� các trang

�ã l�p ch& m!c.

T�t cho tìm các

trang hay b� l�i

404.

Phiên d�ch ��n 5

ngôn ng�.

Page 29: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 29 - 0112398 – T� Th� Ng�c Thanh

Directory)

H th�ng th

m!c m�

(Open

Directory)

Tin t�c : c�p

nh�t th�ng

xuyên (4500

ngu1n ).

Các d�ng file

�nh

Nhóm :

Usenet t�

1981 ��n nay

d! +edu)

- lo�i tr�

th m!c web.

Tìm các trang

web t�ng t .

~ tìm t� �1ng

ngh a.

AlltheWeb

http://allthew

eb.com

H� tr� tìm

ki�m nâng

cao

Toàn b� v�n

b�n các trang

web, .pdf,

Flash,

(3.1B toàn b�

ch& m!c

URLs)

Tin t�c : c�p

nh�t th�ng

xuyên (3000

ngu1n)

Tranh �nh

Video

Audio

FPT

AND (m"c

��nh)

OR, ph�i �"t

các t� trong

d#u “ “.

ANDNOT,

RANK

- �� lo�i b2

Không rút g�n.

Dùng d#u “ “ cho

c!m t�.

Field intitle:inurl:

link:site:

Trong tìm nâng

cao :

gi�i h�n theo

ngày, ngôn ng�,

domain, file

format, ��a ch&

iP.

Ki�m l�i chính

t�.

Tìm nâng cao :

tranh �nh, video.

H� tr� s% d!ng

k� thu�t

“clusters” �� t�i

u câu truy v#n.

AltaVista

http://altavist

a.com

Toàn b� v�n

b�n các trang

web (kho�ng

AND (m"c

��nh)

Trong tìm nâng

D#u * �� rút g�n.

D#u “” cho c!m

t�.

Ki�m l�i chính

t�.

Phiên d�ch : 8

Page 30: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 30 - 0112398 – T� Th� Ng�c Thanh

H� tr� tìm

ki�m nâng

cao

H th�ng th

m!c ch$ ��

(Subject

Directory )

H th�ng th

m!c m�

(Open

Directory)

1B) và file

.pdf.

Tin t�c (3000

ngu1n), �nh,

MP3/Audio,

Video.

cao ho"c danh

t� riêng trong

tìm c� b�n :

AND, OR,

ANDNOT,

NEAR, d#u ()

l1ng nhau.

- cho lo�i tr�.

Tìm nâng cao :

gi�i h�n ngày,

ngôn ng�.

ngôn ng� c$a

Châu Âu & các

ngôn ng� c$a

Châu Á.

AltaVistaPrima :

t�i u câu h2i.

Teoma

http://teoma.c

om

H� tr� tìm

ki�m nâng

cao

Toàn b� v�n

b�n trang web

(kho�ng 1B)

AND (m"c

��nh)

OR (danh t�

riêng)

+ ho"c “” cho

stopword

- �� lo�i b2

Không rút g�n.

Dùng d#u “ “ cho

c!m t�.

Field intitle:inurl:

site:geoloc:lang:l

ast:

afterdate:befored

ate:

betweendate:

Trong tìm nâng

cao :

gi�i h�n theo

ngày, ngôn ng�,

domain, file

format, ��a ch&

iP.

Ki�m l�i chính

t�.

Gom nhóm k�t

qu� Refine �� t�i

u câu h2i.

Resource �� có

các trang ho"c

liên k�t t�p trung

vào ch$ ��.

Page 31: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 31 - 0112398 – T� Th� Ng�c Thanh

AskJeeves

www.ask.co

m

Nh�n k�t qu�

t� CSDL c$a

Teoma.

Tìm s�n ph5m

:

PriceGrabber.

com,

Tìm tranh �nh

:

Picsearch.co

m

Tìm tin t�c :

Moreover.co

m.

Gi�ng Teoma.

��i v�i nh�ng

câu h2i ��n

gi�n, xu#t hin

c%a s. ��i

tho�i.

Gi�ng Teoma.

Click vào

Remove Frame

�� th#y URLs

c$a các trang.

Ki�m l�i chính

t�.

AskJeeves for

Kids

www.ajkids.c

om

Tr� l�i t�t các

câu h2i ��n

gi�n.

Games cho

tr, em,

Tin t�c theo

t�ng nhóm

tu.i.

H2i b0ng ngôn

ng� t nhiên.

Không s% d!ng

các toán t%

Boolean.

Click vào No

frames �� th#y

URL c$a trang

k�t qu�.

D�n ��n các

trang ph!c v!

h�c t�p : t �i�n,

v�t lý, khoa h�c,

b�n �1, l�ch

s%,…

Yahoo

http://dir.yaho

o.com

Xem xét các

trang web

(kho�ng 13K)

AND (m"c

��nh)

OR

C!m t� : “”

Rút g�n : *

Fields t: title,

u:URL

Nhi�u d�ch v!

trong Yahoo:

Tin t�c : t�ng

gi�.

Th� thao :t& s�,..

B�n �1, th�i ti�t,

Page 32: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 32 - 0112398 – T� Th� Ng�c Thanh

mua s�m.

B�ng 2: S� l��c v� các ��c tr�ng c a m�t s� search engine thông d�ng trên Internet

2.1.2. Chi�n l��c tìm ki�m

T� “search engine” th�ng ��c s% d!ng r�ng rãi �� mô t� các công c! tìm

ki�m d a trên crawler và các th m!c do con ng�i cung c#p. �ây là hai lo�i c$a các

search engine t�p h�p các danh sách c$a chúng trong nh�ng cách khác nhau hoàn

toàn.

Search engine d a vào crawler g1m 3 ph�n:

� B� thu th*p thông tin – Robot

Robot là m�t ch�ng trình t ��ng duyt qua các c#u trúc siêu liên k�t �� thu

th�p tài liu và m�t cách � quy nó nh�n v� t#t c� các tài liu có liên k�t v�i tài liu

này.

Robot ��c bi�t ��n d�i nhi�u tên g�i khác nhau : spider, web wanderer ho"c

web worm, crawler… Nh�ng tên g�i này �ôi khi gây nh�m l�n, nh t� ‘ spider ’, ‘

wanderer ’ làm ng�i ta ngh r0ng robot t nó di chuy�n và t� ‘ worm ’ làm ng�i ta

liên t�ng ��n virus. V� b�n ch#t robot ch& là m�t ch�ng trình duyt và thu th�p

thông tin t� các site theo �úng giao th�c web. Nh�ng trình duyt thông th�ng không

��c xem là robot do thi�u tính ch$ ��ng, chúng ch& duyt web khi có s tác ��ng c$a

con ng�i.

� B� l*p ch3 m�c – Index

H th�ng l�p ch& m!c hay còn g�i là h th�ng phân tích và x% lý d� liu, th c

hin vic phân tích, trích ch�n nh�ng thông tin c�n thi�t (th�ng là các t� ��n , t�

ghép , c!m t� quan tr�ng) t� nh�ng d� liu mà robot thu th�p ��c và t. ch�c thành

Page 33: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 33 - 0112398 – T� Th� Ng�c Thanh

c� s� d� liu riêng �� có th� tìm ki�m trên �ó m�t cách nhanh chóng, hiu qu�. H

th�ng ch& m!c là danh sách các t� khoá, ch& rõ các t� khoá nào xu#t hin � trang nào,

��a ch& nào.

� B� tìm ki�m thông tin – Search Engine

Search engine là c!m t� dùng �� ch& toàn b� h th�ng bao g1m b� thu th�p

thông tin, b� l�p ch& m!c và b� tìm ki�m thông tin. Các b� này ho�t ��ng liên t!c t�

lúc kh�i ��ng h th�ng, chúng ph! thu�c l�n nhau v� m"t d� liu nhng ��c l�p v�i

nhau v� m"t ho�t ��ng.

Search engine t�ng tác v�i user thông qua giao din web, có nhim v! ti�p

nh�n và tr� v� nh�ng tài liu tho� yêu c�u c$a user.

Nói nôm na, tìm ki�m t� là tìm ki�m các trang mà nh�ng t� trong câu truy v#n

(query) xu#t hin nhi�u nh#t, ngo�i tr� stopword (các t� quá thông d!ng nh m�o t� a,

an, the,…). M�t t� trong câu truy v#n càng xu#t hin nhi�u trong m�t trang thì trang

�ó càng ��c ch�n �� tr� v� cho ng�i dùng. Và m�t trang ch�a t#t c� các t� trong câu

truy v#n thì t�t h�n là m�t trang không ch�a m�t ho"c m�t s� t�. Ngày nay, h�u h�t

các search engine ��u h� tr� ch�c n�ng tìm c� b�n và nâng cao, tìm t� ��n, t� ghép,

c!m t�, danh t� riêng, hay gi�i h�n ph�m vi tìm ki�m nh trên �� m!c, tiêu ��, �o�n

v�n b�n gi�i thiu v� trang web,…..

Ngoài chi�n l�c tìm chính xác theo t� khoá, các search engine còn c� g�ng

‘hi�u’ ý ngh a th c s c$a câu h2i thông qua nh�ng câu ch� do ng�i dùng cung c#p.

�i�u này ��c th� hin qua ch�c n�ng s%a l�i chính t�, tìm c� nh�ng hình th�c bi�n

�.i khác nhau c$a m�t t�. Ví d! : search engine s* tìm nh�ng t� nh speaker,

speaking, spoke khi ng�i dùng nh�p vào t� speak.

Page 34: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 34 - 0112398 – T� Th� Ng�c Thanh

Nguyên lý ho4t ��ng

Search engine �i�u khi�n robot �i thu th�p thông tin trên m�ng thông qua các

siêu liên k�t ( hyperlink ). Khi robot phát hin ra m�t site m�i, nó g�i tài liu (web

page) v� cho server chính �� t�o c� s� d� liu ch& m!c ph!c v! cho nhu c�u tìm ki�m

thông tin.

B�i vì thông tin trên m�ng luôn thay �.i nên robot ph�i liên t!c c�p nh�t các

site c/. M�t �� c�p nh�t ph! thu�c vào t�ng h th�ng search engine. Khi search engine

nh�n câu truy v#n t� user, nó s* ti�n hành phân tích, tìm trong c� s� d� liu ch& m!c

và tr� v� nh�ng tài liu tho� yêu c�u.

2.2. Semantic Web

2.2.1. Khái ni&m

“Web ng� ngh a” là m�t d�ng m� r�ng c$a web hin nay, mà cho phép ta truy

tìm, chia s,, ph�i h�p, s% d!ng l�i và rút trích thông tin m�t cách chính xác, d- dàng.”(

Tim – Berners Lee, XML – 2000 ).

Web ng� ngh a là m�t m�ng l�i thông tin ��c liên k�t theo cách mà máy tính

có th� d- dàng x% lý ��c trên quy mô toàn c�u. Chúng ta có th� xem web ng� ngh a

nh là m�t c� s� d� liu toàn c�u ��c liên k�t v�i nhau.

Web ng� ngh a ��c phát tri�n b�i Tim – Berners Lee, nhà phát minh c$a

WWW, URIs, HTTP, và HTML. Hin nay có m�t nhóm nghiên c�u t�i t�p �oàn

WWW �ang c�i ti�n, m� r�ng và tiêu chu5n hoá h th�ng ng� ngh a.

D� liu trong t�p tin HTML th�ng h�u ích trong m�t s� tr�ng h�p. Ph�n l�n

d� liu trên web là d�ng HTML nên khó s% d!ng trên quy mô l�n, b�i vì nó không có

m�t h th�ng toàn c�u �� xu#t b�n d� liu.

Do �ó, Web ng� ngh a ��c xem nh là m�t gi�i pháp k� thu�t.

Web ng� ngh a ��c xây d ng ch$ y�u trên cú pháp s% d!ng URIs �� bi�u di-n

d� liu, th�ng th#y là c#u trúc d a trên b� ba (subject, predicate, object), ví d!: nhi�u

b� ba c$a d� liu URI có th� ��c c#t gi� trong c� s� d� liu, ho"c thay th� l�n nhau

Page 35: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 35 - 0112398 – T� Th� Ng�c Thanh

trên word wide web b0ng cách s% d!ng m�t t�p các cú pháp �"c bit ��c pháp tri�n

chuyên bit ph!c v! cho nhim v! �ó. Cú pháp này ��c g�i là cú pháp RDF.

Web ng� ngh a yêu c�u d� liu không nh�ng máy có th� ��c ��c mà còn

mong mu�n máy có th� hi�u ��c. Trích d�n câu nói c$a Tim – Berners Lee:

“The semantic web goal is to be a unifying system which will (like the web for

human communication) be as un-restraining as possible so that the complexity of

reality can be described”.

T�m d�ch là: “M!c �ích c$a web ng� ngh a là �� m�t h th�ng h�p nh#t (gi�ng

nh web dành cho s giao ti�p c$a ng�i) càng không b� c�n tr� càng t�t �� mà ��

ph�c t�p c$a th c t� có th� ��c mô t�”.

V�i web ng� ngh a, nó s* d- dàng nh�n bi�t toàn b� ph�m vi c$a các công c!

và �ng d!ng khó gi�i quy�t trong khuôn kh. c$a web hin t�i.

Hai công ngh quan tr�ng cho vic phát tri�n semantic web là: eXtensible

Markup Language (XML) và Resource Description Frameword (RDF). XML cho

phép m�i ng�i có th� t�o ra các tag (th, ) c$a riêng mình. Còn RDF thì trình bày ng�

ngh a, RDF s% d!ng t�p các triple �� mô t� các khái nim c� s�.

URI ( Uniform Resource Identifier):

M�t URI ��n gi�n dùng �� nh�n bi�t m�t trang web: gi�ng nh các chu�i b�t

��u v�i “http” hay “ftp” mà b�n th�ng th#y trên word wide web. B#t k3 ai c/ng có

th� t�o ra m�t URI và quy�n s� h�u chúng ��c u4 quy�n m�t cách rõ ràng, chính vì

v�y chúng t�o nên c� s� quan nim �� xây d ng web toàn c�u. Th c ra, word wide

web có th� xem nh là: b#t k3 th� gì mà có URI ��c coi nh là “on the web”.

Các URIs là các chu�i ký t có th� nh�n bi�t các tài nguyên trên web. Thông

qua vic s% d!ng URIs, chúng ta có th� s% d!ng cùng cách �"t tên ��n gi�n �� tham

chi�u ��n các tài nguyên d�i các nghi th�c (protocol) khác nhau nh là: HTTP, FTP,

GOPHER, EMAIL, ….

URLs ( Uniform Resource Locator): là m�t d�ng ��c s% d!ng r�ng rãi c$a

URIs, ��c s% d!ng r#t ph. bi�n trên web, là các ��a ch& c$a các tài nguyên. M"c dù

th�ng ��c bi�t ��n nh là các URLs, nhng URIs c/ng có th� ��c tham chi�u ��n

Page 36: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 36 - 0112398 – T� Th� Ng�c Thanh

các khái nim trong semantic web. Ví d!, gi� s% b�n có m�t quy�n sách có tên là

“Machine Learning”, thì URI c$a nó s* nh sau:

http://www.cs.bris.ac.uk/home/pw2538/book/title#machinelearning

Lu ý là m�i th� trên web ��u có m�t URI duy nh#t.

2.2.2. Ki�n trúc

Web ng� ngh a ��c xây d ng theo mô hình ki�n trúc phân t�ng g1m có 7

t�ng, các t�ng nh sau:

Hình 9: Ki�n trúc t+ng c a Semantic web.

T�ng Unicode + URI:

Nh0m b�o ��m vic s% d!ng t�p ký t qu�c t� và cung c#p ph�ng tin �� ��nh

danh các ��i t�ng trong Web ng� ngh a.

T�ng XML + NS + L�c �1 XML:

Cùng v�i các ��nh ngh a v� namespace và schema b�o ��m r0ng ta có th� tích

h�p các ��nh ngh a web ng� ngh a v�i các chu5n d a trên XML khác.

T�ng RDF + L�c �1 RDF:

Dùng siêu d� liu mô t� tài liu trên Web �� máy có th� hi�u ��c chúng.

Page 37: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 37 - 0112398 – T� Th� Ng�c Thanh

T�ng Ontology:

L�c �1 RDF cung c#p các công c! �� ��nh ngh a nh�ng t� v ng, c#u trúc và

các ràng bu�c trong vic mô t� cho siêu d� liu v� các tài nguyên Web. Nhng l�c

�1 RDF cha th�t s ��y �$ cho vic mô hình hoá và h� tr� suy lu�n trên Semantic

Web. Ngôn ng� Ontology OIL ��c �� ra là m�t d�ng m� r�ng c$a l�c �1 RDF. Nó

cho phép th� hin ng� ngh a hình th�c, giúp h� tr� suy di-n t ��ng.

T�ng Logic:

T�ng logic ��c xem nh là m�t c� s� lu�t trên Semantic Web. B�n ch#t c$a c�

s� lu�t này có d�ng nh m�t h chuyên gia. T�ng này s* h� tr� các d�ch v! nh : phân

lo�i v�n b�n, rút trích d� liu.

T�ng Proof:

Trong khi t�ng logic giúp h� tr� suy lu�n d a vào c� s� lu�t thì t�ng Proof ��c

dùng �� ch�ng minh các suy di-n c$a h th�ng b0ng cách liên k�t các d� kin.

T�ng Trust:

Trong Web ng� ngh a các thông tin ��c s% d!ng chung nh m�t c� s� d� liu

toàn c�u, nên c�n ph�i có m�t cái gì �ó �� b�o m�t. �ó là nguyên nhân c$a s ra ��i

c$a ch� ký �in t%, nó giúp cho thông tin trên Web �áng tin c�y h�n. Trust engine là

m�t h th�ng �ang ��c xây d ng d a trên n�n t�ng c$a ch� ký �in t%. Các k� thu�t

�� xây d ng chúng còn �ang trong giai �o�n nghiên c�u và th% nghim.

2.2.3. Các thách th'c ��t ra cho Semantic web

2.2.3.1. Thách th'c 1: Tính s5n có c a n�i dung (The availability

of content)

N�i dung c$a web ng� ngh a là n�i dung web ��c chú thích theo các ontology

�"c bit, các ontology này ��nh ngh a ng� ngh a c$a các t� ho"c các khái nim xu#t

hin trong cùng m�t n�i dung. M�t s m� r�ng ��n gi�n ��i v�i HTML là ��c dùng

�� chú thích các trang web v�i thông tin v� ontology. Vic t�o n�i dung semantic web

là m�t thách th�c l�n, b�i vì “c� s� h� t�ng” c$a semantic web v�n còn �ang ��c xây

Page 38: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 38 - 0112398 – T� Th� Ng�c Thanh

d ng (cha hoàn ch&nh – RDF, OIL, DAML+OIL,…), hin t�i có r#t ít n�i dung web

ng� ngh a có s6n.

2.2.3.2. Thách th'c 2: Các ontology s5n có, phát tri6n và ti�n hoá

Các ontology là chìa khóa ��i v�i semantic web b�i vì chúng là nh�ng b�

chuyên ch� ng� ngh a ��c ch�a trong semantic web, có ngh a là chúng cung c#p m�t

t�p t� v ng và ng� ngh a chú thích. Có 3 v#n �� chính c�n ��c gi�i quy�t ��i v�i

thách th�c này, hai v#n �� ��u có liên quan ��n các v#n �� v� vic phát tri�n các

ontology truy�n th�ng mà cho ��n t�n bây gi� các v#n �� này v�n cha ��c gi�i

quy�t, và v#n �� th� ba còn l�i có liên quan nhi�u ��n khung c�nh m�i c$a semantic

web:

V#n �� th� nh#t là vic xây d ng các ontology h�t nhân (kernel) �� ��c s%

d!ng b�i t#t c� các domain. Nh�ng kh�i ��u t1n t�i ��i v�i vic xây d ng m�t s�

kernel ontology này là chúng ph�i ��c �ng d!ng trong nh�ng domain khác nhau.

V#n �� th� hai là cung c#p s h� tr� mang tính ch#t gi�i pháp và công ngh ��i

v�i h�u h�t các ho�t ��ng c$a ti�n trình phát trin ontology, bao g1m:

a. S thu th�p tri th�c, mô hình khái nim và mã hoá ontology trong các

ngôn ng� semantic web (RDFS, OIL, DAML+OIL), và các ngôn ng�

m�i – các ngôn ng� m�i này có th� s* ��c �a ra trong nh�ng n�m s�p

t�i [Maedche, Staab – 2001] .

b. S s�p x�p và ánh x� ontology, s tích h�p ontology, các công c!

chuy�n �.i ontology, và các công c! xây d ng ontology, n�u các

ontology t1n t�i s�p ��c s% d!ng l�i [Fensel et al, 2001], [Noy, Musen

2000].

c. Các công c! ki�m tra tính b�n v�ng cho các ontology ��c s% d!ng l�i

[Gomez-Perez 1996].

V#n �� th� ba là s ti�n hoá c$a các ontology và m�i quan h c$a chúng ��i v�i

các d� liu �ã ��c chú thích. Các công c! qu�n lý c#u hình là c�n thi�t cho s �i�u

khi�n các phiên b�n c$a m�i ontology c/ng nh s ph! thu�c l�n nhau gi�a chúng và

Page 39: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 39 - 0112398 – T� Th� Ng�c Thanh

các chú thích. T#t c� các v#n �� này có th� là không quan tr�ng l�m, nhng c�n thi�t

ph�i gi�i quy�t tr�c khi m�t semantic web th c s ra ��i.

2.2.3.3. Thách th'c 3: Scalability of semantic web content

M�t khi chúng ta �ã có n�i dung c$a semantic web, chúng ta s* ph�i quan tâm

��n vic ph�i qu�n lý nó nh th� nào, có ngh a là cách t. ch�c nó nh th� nào, n�i lu

tr� nó và cách �� tìm ��c n�i dung �úng ��n. Có 2 v#n �� chính trong thách th�c

này:

a. V#n �� th� nh#t có liên quan ��n vic lu tr� và t. ch�c c$a các trang

web ng� ngh a (semantic web pages). Semantic web “c� s�” bao g1m

các trang ��c chú thích d a trên ontology, c#u trúc liên k�t c$a các

trang này ph�n ánh c#u trúc c$a WWW, có ngh a là các trang liên k�t

v�i nh�ng trang khác thông qua các hyperlink. Theo cách liên k�t này

(hyperlink) thì không khai thác ��c ��y �$ ng� ngh a c$a các trang

web ng� ngh a. Chi�n l�c semantic indexes ��c �� xu#t �� gom

nhóm n�i dung c$a semantic web d a trên các ch$ �� c! th�. Semantic

indexes s* ��c phát sinh t ��ng b0ng cách s% d!ng thông tin c$a

ontology và các tài liu �ã ��c chú thích.

b. V#n �� th� hai có liên quan ��n vic d- dàng tìm ki�m thông tin trên

semantic web, nói cách khác là có liên quan ��n vic ph�i h�p gi�a các

semantic indexes.

2.2.3.4. Thách th'c 4: �a ngôn ng%

Vic h�c d a trên s phân tán c$a ngôn ng� thông qua n�i dung c$a WWW ch&

ra r0ng th�m chí n�u ti�ng Anh là ngôn ng� u th� h�n ��i v�i các tài liu, m�t s� tài

nguyên ��c vi�t b0ng ngôn ng� khác c/ng r#t quan tr�ng: Ti�ng Anh 68,4%; Ti�ng

Nh�t 5,9%; Ti�ng ��c 5,8%; Ti�ng Trung Qu�c 3,9%; Ti�ng Pháp 3,0%; Ti�ng Tây

Ban Nha 2,4%; Ti�ng Nga 1,9%; Ti�ng Italia 1,6%; Ti�ng B1 �ào Nha 1,4%; Ti�ng

Hàn 1,3%; Các ngôn ng� khác 4,6% [www.vilaweb.com]. Tính �a d�ng c$a ngôn ng�

còn quan tr�ng h�n nhi�u ��i v�i các tài nguyên WWW. �a ngôn ng� �óng vai trò

Page 40: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 40 - 0112398 – T� Th� Ng�c Thanh

ngày càng l�n ��i v�i các c#p �� sau: � c#p �� ontology, � c#p �� chú thích, và � c#p

�� giao din ng�i dùng.

( c#p �� ontology, nh�ng ng�i thi�t k� ontology có th� mu�n s% d!ng ngôn

ng� ��a ph�ng c$a mình cho vic phát tri�n ontology mà trong �ó các chú thích s*

��c g�n vào. B�i vì không ph�i t#t c� ng�i s% d!ng ��u là nh�ng ng�i xây d ng

ontology, nên c#p �� này có �� u tiên th#p nh#t. S t1n t�i cu� �a ngôn ng� và các tài

nguyên ngôn ng� h�c, nh là WordNet [wordnet], EuroWordnet [eurowordnet],…có

th� ��c xem xét t& m& �� h� tr� v#n �� �a ngôn ng� � c#p �� này.

( c#p �� chú thích (annotation), chú thích c$a n�i dung có th� ��c th c hin

trong nhi�u ngôn ng� khác nhau. B�i vì nhi�u ng�i dùng (�"c bit là các nhà cung

c#p n�i dung) s* thích chú thích n�i dung h�n là phát tri�n các ontology, s h� tr� phù

h�p là c�n thi�t ph�i �� cho các nhà cung c#p ( n�i dung ) chú thích n�i dung b0ng

ngôn ng� ��a ph�ng c$a h�. �� có th� phát sinh n�i dung web ng� ngh a b0ng t#t c�

kh� n�ng, chúng ta không th� yêu c�u chú thích n�i dung t� ti�ng Pháp sang ti�ng ��c

��c và ng�c l�i.

Cu�i cùng � c#p �� giao din ng�i dùng, hàng t& ng�i mu�n truy xu#t vào n�i

dung thích h�p b0ng ngôn ng� ��a ph�ng c$a h� b#t ch#p ngôn ng� ngu1n – ngôn

ng� mà trong �ó các chú thích ��c trình bày. M"c dù hin t�i, �a s� n�i dung ��u

��c vi�t b0ng ti�ng Anh, chúng ta hy v�ng r0ng s* có nhi�u n�i dung h�n ��c vi�t

b0ng nhi�u ngôn ng� khác. B#t k3 h�ng ti�p c�n nào c$a semantic web c/ng nên bao

g1m các tin ích truy xu#t thông tin trong nhi�u ngôn ng�. Các công ngh qu�c t� hoá

và ��a ph�ng hoá nên ��c xem xét c5n th�n ��i v�i vic truy xu#t thông tin cá nhân

d a trên ngôn ng� ��a ph�ng c$a ng�i dùng.

2.2.3.5. Thách th'c 5: Visualization – s# m�7ng t��ng

V�i s gia t�ng thông tin v�t b�c, s m�ng t�ng (hình dung) c$a tr c giác

v� thông tin s* tr� nên r#t quan tr�ng, b�i vì ng�i dùng s* yêu c�u s d- dàng ��

nh�n bi�t s phù h�p c$a n�i dung cho m!c �ích c$a h� ngày càng gia t�ng. Thêm vào

�ó vic s% d!ng semantic indexes và các routers cho vic lu tr�, t. ch�c và tìm ki�m

Page 41: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 41 - 0112398 – T� Th� Ng�c Thanh

thông tin, v� sau này s* yêu c�u m�t b�c quan tr�ng trong s m�ng t�ng. Các

công ngh nên cho phép ��i v�i các công ngh 3 chi�u và s m�ng t�ng m�i ��

m�ng t�ng ra n�i dung c$a semantic web trong b#t k3 m�t ngôn ng� web hin t�i

nào (RDFS, OIL, DAML + OIL). Thông qua công ngh hi�n th� �1 ho� th�i gian th c

3D tho� �áng và vic khai thác các m�i quan h ng� ngh a, m�t giao din ba chi�u

m�i có th� ��c phát sinh m�t cách t ��ng. Theo cách này, nhi�u thông tin h�n có

th� ��c trình bày trong m�t không gian nh2 h�n, và ng�i dùng có th� t�ng tác v�i

các site m�t cách th c t� và tin l�i [Van Harmelen et al 2001].

2.2.3.6. Thách th'c 6: S# chu,n hoá các ngôn ng% semantic web

Semantic web là m�t l nh v c �ang n.i b�t và WWW Consortium s* �a ra các

gi�i thiu v� các ngôn ng� và công ngh s* ��c s% d!ng. �� v�n lên ��n m�c ngh

thu�t trong semantic web, và các công c! ph�n l�n ph! thu�c vào ngôn ng� semantic

web mà chúng ��c h� tr�, thì nhu c�u chu5n hoá ngôn ng� semantic web là m�t �òi

h2i c�n thi�t.

2.2.4. So sánh web và web ng% ngh!a

�i�m gi�ng nhau gi�a Web và Web ng� ngh a: c� 2 ��u dùng nh�ng liên k�t

(link) URI, nhng Web ng� ngh a s% d!ng các link này r#t nhi�u, vic s% d!ng link

làm gia t�ng tính chính xác c$a thông tin.

S khác nhau c� b�n gi�a Web và Web ng� ngh a:

Web ng% ngh!a Web

Web ng� ngh a là m�t không gian

thông tin trong �ó thông tin ��c bi�u

di-n thông qua m�t ngôn ng� mà máy

và ng�i ��u có th� hi�u ��c.

Web là m�t không gian thông tin ch�a

� ng thông tin ch& h�ng vào vic bi�u

di-n trong m�t ngôn ng� t nhiên mà

ch& có ng�i m�i hi�u ��c.

Web ng� ngh a là m�t d� liu liên k�t

v�i nhau m�t cách ng� ngh a và hình

th�c.

Web là m�t t�p h�p thông tin liên k�t

v�i nhau m�t cách không hình th�c.

Page 42: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 42 - 0112398 – T� Th� Ng�c Thanh

2.2.5. Các khái ni&m liên quan

2.2.5.1. Metadata

Metadata là thông tin có c#u trúc mô t�, gi�i thích, ��nh v� ho"c m"t khác

làm cho d- dàng truy v#n, s% d!ng, qu�n lý m�t tài nguyên thông tin. Metadata th�ng

��c g�i là d� liu v� d� liu (t� �i�n d� liu), ho"c là thông tin v� thông tin.

Metadata là thông tin v� thông tin, metadata ��c s% d!ng r�ng rãi trong

th� gi�i th c cho m!c �ích tìm ki�m. Ví d!, b�n mu�n m�n m�t vài quy�n sách �

m�t th vin nào �ó thông qua máy tính. Th�ng thì th vin s* cung c#p m�t h

th�ng tra c�u, h th�ng này cho phép b�n lit kê sách theo tên tác gi� (author), theo

t a sách (title), theo ch$ �� (subject), v.v…. Danh sách lit kê này ch�a nhi�u thông

tin quan tr�ng nh: tên tác gi�, t a sách, ISBN, và thông tin quan tr�ng nh#t là n�i c#t

gi� sách. B�n c�n vài thông tin (trong tr�ng h�p này là n�i c#t gi� sách) mà b�n

mu�n bi�t và b�n s% d!ng metadata (trong tr�ng h�p này là: tên tác gi�, t a sách, và

ch$ ��) �� l#y ��c sách.

Có 3 ki�u metadata:

a. Descriptive metadata: mô t� m�t tài nguyên cho nh�ng m!c �ích nh là

khám phá ho"c là nh�n din. Nó có th� bao g1m các ph�n t% nh là:

titles, astract, author, và keywords.

b. Structural metadata: ví d!: cho bi�t các ��i t�ng ph�c h�p liên k�t v�i

nhau nh th� nào, các trang (pages) ��c s�p x�p thành các ch�ng nh

th� nào.

c. Administrative metadata: cung c#p thông tin giúp cho vic qu�n lý m�t

tài nguyên, nh là nó ��c t�o ra khi nào và nh th� nào, ki�u file, và

các thông tin k� thu�t khác, và nh�ng ai có th� truy c�p ��n nó.

2.2.5.2. Namespace

Chúng ta có th� m� r�ng t�p t� v ng c$a chúng ta thông qua các

namespace – là các nhóm c$a tên các ph�n t% và tên các thu�c tính. Gi� s%, n�u b�n

mu�n g�p (include) m�t ký hiu (symbol) ��c mã hoá trong m�t ngôn ng� �ánh d#u

Page 43: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 43 - 0112398 – T� Th� Ng�c Thanh

nào �ó trong m�t tài liu XML, thì b�n có th� khai báo m�t namespace ( không gian

tên) mà symbol �ó thu�c v�. Thêm vào �ó, chúng ta có th� tránh ��c tình hu�ng hai

��i t�ng XML trong các không gian tên khác nhau v�i cùng m�t tên mà có ý ngh a

khác nhau thông qua các �"c trng c$a các namespace. Gi�i pháp là gán m�t ti�n t�

nh�n bi�t namespace mà m�i ph�n t% ho"c các thu�c tính thu�c v�. Cú pháp c$a

namespace nh sau:

ns-prefix:local-name

Trong �ó ns-prefix là tên c$a namespace, và local-name là tên c$a ph�n

t% ho"c thu�c tính.

Ví d! v� namespace:

Tài liu XML d�i �ây là m�t th vin sách. Chúng ta b�t ��u b0ng ph�n

t% g�c có tên th, là <libarary>, bên trong th, g�c ch�a các ph�n t% sách <book> và t a

sách <title> nh sau:

<library>

<book>

<title>

Earthquakes for lunch

</title>

</book>

</library>

Không gian tên c�c b� (local namespace):

Chúng ta có th� �"t thu�c tính xmlns � ph�n t% g�c hay � b#t k3 th, nào khác.

Khi thu�c tính này không n0m trong th, g�c thì ta g�i �ó là không gian tên c!c b�.

Ví d!: Xem �o�n xml d�i �ây:

<minhkhai: library

xmlns: minhkhai= http://www.minhkhai.com.vn/spec>

Page 44: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 44 - 0112398 – T� Th� Ng�c Thanh

<minhkhai:book>

<minhkhai:title>

Earthquakes for lunch.

</minhkhai:title>

</minhkhai:book>

<amazon:book

xmlns:amazon=http://www.amazon.com.lib>

<amazon:title>

Earthquakes for lunch.

</amazon:title>

</amazon:book>

Trong ví d! này thì namespace: xmlns:amazon=http://www.amazon.com.lib

��c g�i là không gian tên c!c b�.

2.2.6. Ontology

Thu�t ng� “ontology” ��c vay m�n t� tri�t h�c. Ý ngh a ��u tiên c$a nó là

“the branch of metaphysics that deals with the nature of being” [The American

Heritage® Dictionary of the English Language: Fourth Edition (2000)].

Ontology là m�t công ngh quan tr�ng mang tính ch#t x�ng s�ng, vì nó cung

c#p m�t �"c tính quan tr�ng: ontology giao ti�p ��c gi�a ng� ngh a hình th�c mà

máy tính có th� hi�u ��c v�i ng� ngh a c$a th� gi�i th c mà con ng�i có th� hi�u

��c.

Nh�ng Ontology ��c phát tri�n trong trí tu nhân t�o �� tri th�c d- dàng chia

s, và s% d!ng l�i. K� t� ��u th�p niên 90 c$a th� k4 XX, Ontology �ã tr� thành m�t ��

tài nghiên c�u ph. bi�n ��i v�i các t. ch�c nghiên c�u trí tu nhân t�o, bao g1m

nh�ng k� s v� tri th�c (Knowledge), x% lý ngôn ng� t nhiên và trình bày tri th�c.

Ontology không ch& làm cho tri th�c có th� s% d!ng l�i d- dàng h�n, nó còn là

n�n t�ng c$a vic t�o ra các chu5n b�i vì nó làm rõ các khái nim bên c�nh m�t thu�t

ng� ho"c m�t mô hình. Yêu c�u trên th c t� không ph�i ch& dành cho m�t khái nim

Page 45: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 45 - 0112398 – T� Th� Ng�c Thanh

duy nh#t, mà là ��i v�i m�t s t�ng tác m� h1 gi�a các khái nim ph�c t�p và chi ti�t

( có th� ��c trình bày trong nhi�u ngôn ng� khác nhau).

G�n �ây, khái nim Ontology �ã tr� nên ph. bi�n h�n nhi�u trong các l nh v c

nh s tích h�p thông minh, nh�ng h th�ng thông tin h�p tác, ph!c h1i thông tin,

giao d�ch th�ng m�i �in t%, và qu�n lý tri th�c. M!c �ích c$a Ontology là h�ng

��n tri th�c mi�n, nên s phát tri�n c$a nó th�ng là m�t quá trình x% lý kéo theo

nhi�u y�u t� khác.

T� lúc ra ��i ��n nay, Ontology �ã có r#t nhi�u ��nh ngh a. Tuy nhiên, �"c

�i�m c�t l�i c$a Ontology v�n là: “M�t ontology là m�t s ch& ��nh t��ng minh, hình

th�c và chia s v� m�t khái ni�m dùng chung”. Trong �ó:

� M�t khái ni�m tham chi�u ��n m�t mô hình tr�u t�ng c$a m�t

vài hin t�ng nào �ó trong th� gi�i th c mà xác ��nh nh�ng khái

nim có liên quan v� hin t�ng �ó.

� T��ng minh là nh�ng khái nim và nh�ng ràng bu�c trên nó ��c

s% d!ng m�t cách rõ ràng.

� Hình th�c tham chi�u ��n công vic mà ontology ph�i th c hin

�� máy tính có th� hi�u ��c.

� Chia s ph�n ánh r0ng m�t ontology gi� tri th�c �1ng nh#t, ngh a

là nó không b� h�n ch� b�i m�t cá nhân hay m�t nhóm riêng l,

nào.

Hin nay có nhi�u ontology l�n nh: CYC, WordNet, ….

Ví d! v� ontology:

Page 46: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 46 - 0112398 – T� Th� Ng�c Thanh

Hình 10: M�t Ontology ��n gi�n

2.2.7. Rdf

2.2.7.1 Khái ni&m :

RDF là t� vi�t t�t c$a Resource Description Framework. RDF ��c �� c% b�i

W3C cho m�t mô hình và ngôn ng� siêu d� liu (metadata) chu5n. RDF là m�t b�

khung cho vic mô t� các tài nguyên trên web.

RDF cung c#p mô hình d� liu và cú pháp �� các ph�n ��c l�p nhau có th�

chuy�n �.i cho nhau và s% d!ng ��c RDF.

2.2.7.2 C(u trúc :

RDF là khung s�n (framework) cho vic x% lý metadata, và nó mô t� các m�i

quan h gi�a các tài nguyên thông qua các thu�c tính và các giá tr�. RDF ��c xây

d ng d a trên các lu�t nh sau:

Page 47: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 47 - 0112398 – T� Th� Ng�c Thanh

Resource: M�i th� ��c mô t� b0ng bi�u th�c RDF ��c g�i là m�t

resource ( tài nguyên). M�i tài nguyên có m�t URI và nó có th� là toàn b� trang web

ho"c là m�t ph�n c$a trang web.

Property: “Property là m�t khía c�nh, �"c trng, thu�c tính ho"c quan h

riêng bit ��c dùng �� mô t� m�t tài nguyên” – trích trong W3C, Resource

Description Framework (RDF) Model and Syntax Specification. Chú ý là m�t

property c/ng có th� là m�t resource b�i vì nó có nh�ng tính ch#t riêng c$a nó.

Statements: M�t statements ��c dùng �� k�t h�p m�t resource, m�t

property và m�t value c$a nó. Ba ph�n riêng bit này ��c bi�t nh là “subject”,

“predicate”, và “object”. Ví d!, “The Author of

http://www.cs.bris.ac.uk/home/pw2538/index.html is Peng Wang” là m�t statement.

Chú ý r0ng value c$a câu này có th� là m�t chu�i ký t mà c/ng có th� là m�t

resource.

Ví d� v� RDF:

M�t statement ( phát bi�u ) có th� ��c xem nh là m�t �1 th� trong RDF.

Phát bi�u nh sau:

“The Author of http://www.cs.bris.ac.uk/home/pw2538/index.html is

Peng Wang”

Câu trên ��c phân tích thành 3 ph�n:

Subject ( Resource ) http://www.cs.bris.ac.uk/home/pw2538/index.html

Predicate (Property) Author

Object (Literal) Peng Wang

��c bi�u di-n d�i d�ng �1 th� nh sau:

Page 48: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 48 - 0112398 – T� Th� Ng�c Thanh

Chi�u c$a m/i tên luôn h�ng t� subject ��n object c$a phát bi�u ( statement).

Và �1 th� có th� ��c theo cách sau: “<subject> HAS <predicate> <object>”, ví d!:

“http://www.cs.bris.ac.uk/home/pw2538/index.html has author Peng Wang”.

N�u chúng ta gán m�t URI cho thu�c tính author, thì s* có :

http://www.cs.bris.ac.uk/home/pw2538/terms/author

�� trình bày ng�n g�n, chúng ta �a ra m�t s� ti�n t� ( prefix) �� tránh ph�i

vi�t l�i toàn b� ��a ch& URI tham chi�u ��n. Có m�t s� ti�n t� g�n li�n v�i các URI

��c s% d!ng r�ng rãi sau:

Ti�n t� rdf: là không gian tên cho URI:

http://www.w3.org/1999/02/22-rdf-syntax-ns#

Ti�n t� rdfs: là không gian tên cho URI:

http://www.w3.org/2000/01/rdf-schema#

Ti�n t� daml: là không gian tên cho URI:

http://www.daml.org/2001/03/daml+oil#

Ti�n t� xsd: là không gian tên cho URI:

http://www.w3.org/2001/XMLSchema#

Trong ví d! này, chúng ta dùng không gian tên là pwterms �� ��i din cho ��a

ch& URI mà ta tham chi�u ��n: http://www.cs.bris.ac.uk/home/pw2538/terms

Khi �ó cú pháp RDF cho câu phát bi�u: “The Author of

http://www.cs.bris.ac.uk/home/pw2538/index.html is Peng Wang” là:

1

2

3

4

5

6

7

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:pwterms=" http://www.cs.bris.ac.uk/home/pw2538/terms">

<rdf:Description

rdf:about="http://www.cs.bris.ac.uk/home/pw2538/index.html">

<pwterms:author>Peng Wang</pwterms:author>

</rdf:Description>

</rdf:RDF>

Page 49: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 49 - 0112398 – T� Th� Ng�c Thanh

M�t câu phát bi�u khác: “M�t ng�i có mã s� sinh viên là pw2538 có tên là

Peng Wang và có ��a ch& email là [email protected] . Ng�i này là tác gi� c$a tài

nguyên http://www.cs.bris.ac.uk/home/pw2538/index.html”

Có �1 th� nh sau:

Có cú pháp RDF:

Page 50: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 50 - 0112398 – T� Th� Ng�c Thanh

Mô hình d% li&u RDF (RDF Data Model):

RDF cung c#p m�t mô hình cho vic mô t� các tài nguyên. Tài nguyên có các

tính ch#t (property) – thu�c tính ho"c là �"c trng. RDF ��nh ngh a tài nguyên nh là

m�t ��i t�ng b#t k3 có th� nh�n bi�t duy nh#t b0ng m�t URI. Các property ��c k�t

h�p v�i các tài nguyên ��c nh�n bi�t b�i các property – types, và các property –

types này có các values t�ng �ng. Property – types mô t� m�i quan h c$a các values

��c k�t h�p v�i các tài nguyên. Trong RDF, các values có th� ��c xem nh là

nguyên t% trong t nhiên ( chu�i text, s�, v.v…) ho"c là các lo�i tài nguyên khác.

B�n ch#t c�t lõi c$a RDF là m�t mô hình ��c l�p cú pháp cho vic trình bày các

tài nguyên và s mô t� t�ng �ng c$a chúng.

Page 51: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 51 - 0112398 – T� Th� Ng�c Thanh

Hình 11: Mô hình d% li&u RDF

Mô hình d� liu RDF là m�t �1 th� có gán nhãn ��nh h�ng, trong �ó các nút là các tài

nguyên (nh�ng th c th� v�i URI) ho"c nh�ng ký t , và các c�nh là nh�ng thu�c tính. Nh �ã

gi�i thiu, m�t phát bi�u RDF là m�t b� ba (Ch$ ng�, V� ng�, B. ng�). Trong �ó, tài nguyên

là Ch$ ng� c$a m�t phát bi�u có thu�c tính mà giá tr� c$a nó là B. ng� c$a m�t phát bi�u.

M�t B. ng� có th� là tài nguyên ho"c có th� là m�t giá tr� ký t . M�t phát bi�u có th� ��c

��i din nh m�t �1 th�, b0ng cách v* m�t cung t� m�t nút (Ch$ ng�) ��n nút khác (B. ng�).

RDF là m�t cách thành l�p cho vic x% lý siêu d� liu, nó cung c#p

interoperability (thao tác gi a các ph�n) gi�a các �ng d!ng mà chuy�n �.i thông tin

máy có th� hi�u ��c trên web. RDF nh#n m�nh các tin ích �� có th� x% lý t ��ng

các tài nguyên web.

2.2.7.3 RDF Schema – m�t ngôn ng% mô t� t" v#ng

Ngôn ng� ��c ��nh ngh a trong �"c t� này (specification) g1m m�t t�p h�p

các tài nguyên mà có th� ��c s% d!ng �� mô t� các thu�c tính c$a các tài nguyên

RDF khác ( bao g1m c� các thu�c tính) – ��nh ngh a t�p t� v ng RDF c$a �ng d!ng

xác ��nh. T�p t� v ng này ch$ y�u ��c ��nh ngh a trong m�t không gian tên ��c

g�i là “rdfs”, và ��c nh�n bi�t b�i tham chi�u URI: http://www.w3.org/2000/01/rdf-

Page 52: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 52 - 0112398 – T� Th� Ng�c Thanh

schema#. �"c t� này c/ng s% d!ng ti�n t� “rdf” �� tham chi�u ��n không

gian tên RDF chính: http://www.w3.org/1999/02/22-rdf-syntax-ns#.

H th�ng class và property trong RDF Schema c/ng t�ng t nh các h th�ng

ki�u c$a các ngôn ng� h�ng ��i t�ng nh Java. Tuy nhiên, RDF khác v�i các h

th�ng khác � ch� thay vì ��nh ngh a m�t class trong quan h c$a các thu�c tính mà th�

hin c$a nó có th� có, RDF Schema s* ��nh ngh a các thu�c tính trong quan h c$a các

l�p c$a tài nguyên mà chúng �ng d!ng. �ây là nhim v! c$a rdfs:domain và

rdfs:range ��c mô t� trong �"c t� này. Ví d!, chúng ta có th� ��nh ngh a thu�c tính

eg:author, có mi�n là eg:Document và gi�i h�n là eg:Person, nhng trái l�i m�t h

th�ng h�ng ��i t�ng kinh �i�n có th� ��nh ngh a m�t cách �"c trng m�t class

eg:Book v�i m�t thu�c tính ��c g�i là eg:author c$a ki�u eg:Person.

T" v#ng Domain and Range

�"c t� này gi�i thiu t�p t� v ng RDF cho vic mô t� cách s% d!ng ��y �$ ng�

ngh a c$a các property và các class trong d� liu RDF. Ví d!, m�t l�c �1 RDF có th�

mô t� gi�i h�n trên các ki�u c$a các value thích h�p v�i m�t s� thu�c tính.

RDF Schema cung c#p c� ch� (k� thu�t) cho vic mô t� thông tin này, nhng không

th� nói trong tr�ng h�p nào thì �ng d!ng nên s% d!ng nó và s% d!ng nh th� nào.

Các �ng d!ng khác nhau s* s% d!ng thông tin này theo nhi�u cách khác nhau. Ví d!,

các công c! ki�m tra d� liu có th� s% d!ng thông tin này �� tìm ra các l�i trong

dataset, m�t trình so�n th�o giao ti�p gi�a ng�i và máy có th� �� ngh� nh�ng giá tr�

thích h�p, và m�t �ng d!ng suy lu�n có th� s% d!ng nó suy lu�n r1i �a ra thông tin

m�i t� d� liu ban ��u.

L�c �1 RDF (RDF Schema) có th� mô t� các m�i quan h gi�a các t� v ng t�

nhi�u l�c �1 ��c phát tri�n ��c l�p nhau. B�i vì tham chi�u URI ��c s% d!ng ��

nh�n bi�t các class và property trên web, nên nó có th� t�o ra các thu�c tính (property)

m�i có domain và range mà giá tr� c$a nó ��c ��nh ngh a trong m�t namespace khác.

�"c t� này không c� g�ng �� lit kê t#t c� các hình th�c có th� có c$a vic mô

t� t� v ng mà nó ��c s% d!ng �� trình bày ng� ngh a c$a các class và property c$a

Page 53: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 53 - 0112398 – T� Th� Ng�c Thanh

RDF. Thay vào �ó, chi�n l�c mô t� t� v ng RDF th�a nh�n r0ng có nhi�u k� thu�t

mà thông qua �ó ng� ngh a c$a các class và property ��c cho bi�t, và �� xu#t b�n

m�t s� quy �c cho vic s% d!ng RDF/XML �� mô t� các �"c trng c$a các class và

property cu� RDF.

L�c �1 t�t h�n ho"c là các ngôn ng� “ontology” nh là DAML+OIL, W3C,

các ngôn ng� suy lu�n d a trên lu�t, và các ch$ ngh a hình th�c khác, m�i lo�i s* góp

ph�n cho kh� n�ng c$a chúng ta n�m b�t ��c s t.ng h�p ��y �$ ng� ngh a v� d�

liu trên web. Các nhà thi�t k� t� v ng RDF có th� t�o và phát tri�n các �ng d!ng web

ng� ngh a b0ng cách s% d!ng tin ích The basic RDF Schema 1.0, trong khi trình bày

các ngôn ng� mô t� t� v ng t�t h�n – cách này c/ng s% d!ng h�ng ti�p c�n này.

S� l��c v� RDF Schema

B�ng này trình bày m�t cách t.ng quát v� t�p t� v ng c� s� c$a RDF

Tên l�p Ghi chú

rdfs:Resource The class resource, everything.

rdfs:Literal This represents the set of atomic values, eg.

textual strings.

rdfs:XMLLiteral The class of XML literals.

rdfs:Class The concept of Class

rdf:Property The concept of a property.

rdfs:Datatype The class of datatypes.

rdf:Statement The class of RDF statements.

rdf:Bag An unordered collection.

rdf:Seq An ordered collection.

rdf:Alt A collection of alternatives.

Page 54: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 54 - 0112398 – T� Th� Ng�c Thanh

rdfs:Container This represents the set Containers.

rdfs:ContainerMembershipProperty

The container membership properties, rdf:1,

rdf:2, ..., all of which are sub-properties of

'member'.

rdf:List The class of RDF Lists

B�ng 3 : Các l�p trong RDF

Property name comment domain range

rdf:type Indicates membership of a class rdfs:Resource rdfs:Class

rdfs:subClassOf Indicates membership of a class rdfs:Class rdfs:Class

rdfs:subPropertyOf Indicates specialization of

properties rdf:Property

rdf:Propert

y

rdfs:domain A domain class for a property type rdf:Property rdfs:Class

rdfs:range A range class for a property type rdf:Property rdfs:Class

rdfs:label Provides a human-readable

version of a resource name. rdfs:Resource rdfs:Literal

rdfs:comment Use this for descriptions rdfs:Resource rdfs:Literal

rdfs:member a member of a container rdfs:Container not

specified

rdf:first The first item in an RDF list. Also

often called the head. rdf:List

not

specified

rdf:rest

The rest of an RDF list after the

first item. Also often called the

tail.

rdf:List rdf:List

Page 55: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 55 - 0112398 – T� Th� Ng�c Thanh

rdfs:seeAlso

A resource that provides

information about the subject

resource

rdfs:Resource rdfs:Resour

ce

rdfs:isDefinedBy Indicates the namespace of a

resource rdfs:Resource

rdfs:Resour

ce

rdf:value

Identifies the principal value

(usually a string) of a property

when the property value is a

structured resource

rdfs:Resource not

specified

rdf:subject The subject of an RDF statement. rdf:Statement rdfs:Resour

ce

rdf:predicate the predicate of an RDF statement. rdf:Statement rdf:Propert

y

rdf:object The object of an RDF statement. rdf:Statement not

specified

B�ng 4:Các thu�c tính c$a RDF

(Mô t� các t� v ng c$a RDF ��c trình bày trong ph�n Ph! l!c [1].)

2.3. eDoc

2.3.1. Tìm hi6u eLearning

2.3.1.1. Khái ni&m

eLearning hay còn g�i là Online Learning, chu5n cho t#t c� các hình th�c c$a

vic h�c.

Page 56: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 56 - 0112398 – T� Th� Ng�c Thanh

Online learning liên quan ��n vic s% d!ng các công ngh m�ng ( nh là:

Internet hay là m�ng th�ng m�i – bussiness network) cho vic phân phát, h� tr�,

�ánh giá vic d�y h�c chính qui và không chính qui.

“H�c” x�y ra � �âu và nh th� nào? (: các tài nguyên và các tài liu tr c tuy�n,

các th vin �in t%, các tài liu; và các khoá h�c, các bu.i th�o lu�n, chats, email, h�i

ngh�, và các �ng d!ng chia s, tri th�c. M�t chú ý quan tr�ng là online learning không

nh#t thi�t ph�i di-n ra tr c tuy�n (online). S% d!ng công ngh cho vic h�c th�ng là

m�t y�u t� ph! ��i v�i l�p h�c và các c� h�i h�c tr c ti�p ( face – to – face ).

M�t s� nguyên nhân �� s% d!ng online learning:

a. Vic truy c�p ��c c�i thin và tính linh ��ng: M�i ng�i có th� ��ng

nh�p vào b#t k3 m�t máy tính nào, � t�i nhà ho"c � n�i làm vic, vào b#t

k3 lúc nào k� c� ngày l�n �êm, �� l#y bài h�c ho"c tham kh�o ��n các

tài liu h�c.

b. Phân ph�i nhanh h�n và ti�t kim chi phí: ��i v�i các t. ch�c c�n truy�n

��t thông tin quan tr�ng mà thông tin này nhanh chóng tr� nên l�i th�i (

ví d!, phiên b�n m�i nh#t c$a m�t s�n ph5m), thì hình th�c online h�u

nh là r, h�n và nhanh h�n nhi�u so v�i vic ng�i truy�n ��t ph�i bay

qua nhi�u qu�c gia �� g"p g� nh�ng h�c viên � l�p h�c v�i hàng ti�ng

�1ng h1.

c. C�i ti�n vic �i�u hành và chu5n hoá: Trong môi tr�ng th�ng m�i

qu�c t� ngày nay, nhi�u t. ch�c m� r�ng trên ph�m vi toàn c�u. S khác

nhau v� ki�n th�c và k� n�ng c$a các cá nhân d�y có th� s* làm cho ch#t

l�ng h�c c$a các h�c viên � nh�ng n�i khác nhau s* khác nhau: ví d!

nh�ng ng�i h�c � New Delphi s* có ch#t l�ng hu#n luyn khác v�i

nh�ng ng�i � New York. Online learning cung c#p thông tin nh#t quán,

ph. bi�n ��i v�i các ��i t�ng � kh�p n�i.

Làm n.i b�t thông tin truy�n ��t và s c�ng tác: Thông qua nh�ng ph�n m�m

nào �ó s* cho phép nh�ng ng�i h�c ��c giao ti�p v�i nhau, c�ng tác v�i nhau qua

các d án, và chia s, tài liu mà không c�n ph�i g"p m"t tr c ti�p.

Page 57: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 57 - 0112398 – T� Th� Ng�c Thanh

2.3.1.2. Các chu,n c a eLearning

Ngành công nghip eLearning ti�p t!c ��c m� r�ng m�i ngày, và các chu5n

c�n thi�t �� t�o n�i dung bài h�c ngày càng tr� nên ph�c t�p.

Tr�c khi m�t “qui �c” c$a eLearning tr� thành “standards” (chu5n), nó ��c

g�i là “specification” ( �"c t� ). Specification ��c duyt b�i m�t t. ch�c – t. ch�c

này ��c m�i ng�i công nh�n, nh là IEEE ch+ng h�n.

M�t s� chu5n c$a eLearning:

a. T p ph�n t� siêu d� li�u Dublin Core

T�p ph�n t% siêu d� liu Dublin Core ( The Dublin Core metada element

set) là chu5n cho s mô t� tài nguyên thông tin xuyên domain (b�ng qua nhi�u

domain). ( �ây, tài nguyên thông tin ��c ��nh ngh a là b#t k3 th� gì mà có th�

nh�n bi�t ��c. ��i v�i các �ng d!ng Dublin Core, m�t tài nguyên s* là m�t tài

liu �in t% (electronic document).

Siêu d� liu Dublin Core ��c dùng cho vic tìm ki�m và ch& m!c cho

các siêu d� liu d a trên Web. T�p siêu d� liu này cung c#p t� v ng ng� ngh a

nh: “Description”, “Creator” và “Date” cho vic mô t� nh�ng �"c trng thông

tin quan tr�ng c$a các tài nguyên Internet.

T�p siêu d� liu Dublin Core cung c#p 15 t� v ng:

• Title: Tên ��c gán cho tài nguyên.

• Creator: Th c th� có trách nhim t�o ra tài nguyên. Ví d! nh:

cá nhân, t. ch�c hay m�t d�ch v! nào �ó.

• Subject: Ch$ �� n�i dung c$a tài nguyên.

• Description: Mô t� n�i dung c$a tài nguyên.

• Publisher: Th c th� có nhim v! t�o ra tài nguyên.

• Contributor: Th c th� có �óng góp vào n�i dung c$a tài nguyên.

• Date: Ngày tài nguyên ��c t�o.

• Type: Th� lo�i n�i dung c$a tài nguyên.

• Format: D�ng lu tr� v�t lý c$a tài nguyên.

Page 58: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 58 - 0112398 – T� Th� Ng�c Thanh

• Identifier: M�t tham chi�u c! th� ��n tài nguyên trong m�t ng�

c�nh cho phép.

• Source: Tham chi�u ��n m�t tài nguyên mà tài nguyên ��c

d�n xu#t.

• Language: Ngôn ng� s% d!ng b�i n�i dung c$a tài nguyên.

• Relation: Tham chi�u ��n m�t tài nguyên liên quan

• Coverage: M� r�ng n�i dung c$a tài nguyên

• Right: Thông tin v� quy�n s� h�u tài nguyên.

b. LOM (Learning Object Metadata)

LOM là m�t chu5n v� eLearning hin t�i ��c phát tri�n b�i t. ch�c

IEEE. T. ch�c chu5n hoá công ngh h�c (Learning Technology Standards

Committee) c$a IEEE �ã phát tri�n chu5n LOM nh0m giúp cho vic s% d!ng và

s% d!ng l�i c$a các tài nguyên h�c ��c h� tr� công ngh nh là vic hu#n

luyn d a trên máy tính, và vic h�c t� xa.

Trong m�t h th�ng eLearning, ��i t�ng h�c là nh�ng gì có th� ��c s%

d!ng, k� th�a hay tham kh�o trong vic h� tr� công ngh h�c. Hin t�i m�t s�

��i t�ng �ang ��c ti�p t!c phát tri�n nh0m �áp �ng nhu c�u h�c thay �.i

nhanh chóng. Vic thi�u thông tin hay siêu d� liu v� ��i t�ng h�c t�o ra

nhi�u c�n tr�, h�n ch� cho kh� n�ng qu�n lý, khám phá và s% d!ng ��i t�ng

h�c.

LOM gi�i quy�t v#n �� trên b0ng cách ��nh ngh a m�t c#u trúc cho vic

mô t� m�t ��i t�ng h�c. LOM ch& ra cú pháp và ng� ngh a c$a các siêu d�

liu ��i t�ng h�c, ��nh ngh a các thu�c tính nh0m mô t� ��y �$ và tho� �áng

các ��i t�ng h�c.

M!c �ích c$a LOM:

� Cho phép ng�i h�c hay ng�i h�ng d�n tìm ki�m, �ánh giá ��i

t�ng h�c.

Page 59: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 59 - 0112398 – T� Th� Ng�c Thanh

� Cho phép chia s, và trao �.i các ��i t�ng h�c qua b#t k3 công ngh

có h� tr� h th�ng h�c.

� Cho phép phát tri�n các ��i t�ng h�c theo các ��n v� có kh� n�ng

k�t h�p hay phân rã theo m�t ph�ng pháp phù h�p.

� Cho phép các agent máy tính linh ��ng là t ��ng trong vic t. ch�c

các bài h�c cung c#p ��n ng�i h�c.

� Nó hoàn toàn d a trên chu5n và quan tâm ��n các ��i t�ng h�c

trong môi tr�ng m� và phân tán.

� Cho phép các công ngh m�i k�t h�p v�i các ��i t�ng h�c.

� Cung c#p cho các nhà nghiên c�u chu5n h� tr� và su t�p d� liu liên

quan ��n hiu qu� c$a các ��i t�ng h�c.

LOM ��nh ngh a m�t t�p t�i thi�u các thu�c tính (attributes) �� qu�n lý,

��nh v�, và �ánh giá các ��i t�ng h�c. Các thu�c tính ��c gom nhóm thành 8

ph�m trù:

• General: ch�a � ng thông tin v� toàn b� ��i t�ng.

• Lifecycle: ch�a � ng siêu d� liu v� s ti�n hoá c$a các ��i

t�ng.

• Technical: v�i s mô t� c$a các �"c trng và yêu c�u k� thu�t.

• Educational: ch�a � ng các thu�c tính v� giáo d!c ho"c s ph�m.

• Rights: mô t� quy�n s� h�u và các �i�u kin s% d!ng

• Relation: nh�n bi�t các ��i t�ng có liên quan v�i nhau.

• Annotation: ch�a � ng các chú thích và ngày, tác gi� c$a các chú

thích này.

• Classification: nh�n bi�t các b� nh�n din h th�ng phân lo�i

khác cho ��i t�ng.

Bên trong m�i ph�m trù là m�t t�p các ph�n t% d� liu có th� t , mà giá

tr� c$a chúng là các metadata. Ví d!: Các ph�n t% siêu d� liu liên quan ��n

vic h�c ��c tìm th#y trong ph�m trù Education là Typical Age Range,

Difficulty, Typical Learning Time, và Interactivity Level.

Page 60: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 60 - 0112398 – T� Th� Ng�c Thanh

c. vCard

vCard là chu5n ��c gi�i thiu và phát tri�n b�i IMC (Internet Mail

Consortium). Các thông tin cá nhân thông th�ng r#t ph�c t�p và có nhi�u lo�i

khác nhau. Hin t�i có m�t s� chu5n �� xu#t các c#u trúc cho vic trao �.i

thông tin cá nhân PDI (Personal Data Interchange). M!c �ích c$a chu5n này là

nh0m gi�i quy�t nhu c�u su t�p và trao �.i thông tin cá nhân qua nhi�u kênh

thông tin khác nhau nh �in tho�i, th �in t% hay ��i tho�i tr c ti�p.

Chu5n vCard phù h�p cho vic trao �.i d� liu cá nhân gi�a các �ng

d!ng và h th�ng. ��nh d�ng c$a vCard hoàn toàn ��c l�p v�i ph�ng pháp

dùng �� truy�n t�i nó. Vic truy�n t�i này có th� là trao �.i m�t h th�ng t�p

tin, m�ng chuy�n m�ch công c�ng, m�ng dây d�n hay m�ng không dây. vCard

nh�m ��n vic trao �.i thông tin cá nhân. Trong môi tr�ng th�ng m�i ngày

nay, thông tin này th�ng ��c trao �.i trên các th, th�ng m�i và vCard ��nh

ngh a nh�ng thông tin này d a trên các ��i t�ng th, th�ng m�i �in t%.

d. SCORM (Shareable Content Object Reference Model)

SCORM ��nh ngh a mô hình k�t h�p gi�a n�i dung và môi tr�ng th c

thi cho các ��i t�ng h�c. �ây là m�t mô hình tham chi�u ��n m�t t�p các k�

thu�t liên quan vic thi�t k� nh0m �áp �ng yêu c�u n�i dung h�c d a trên Web,

nh�ng yêu c�u này bao g1m kh� n�ng tái s% d!ng, truy xu#t, kh� n�ng t�ng

tác c$a các ��i t�ng h�c.

e. IMS ( Instructional Management Systems)

IMS �ang ��c phát tri�n và xúc ti�n tr� thành chu5n m� cho các ho�t

��ng eLearning nh s% d!ng, s�p x�p các n�i dung giáo d!c và m� r�ng các

khái nim t.ng quát nh: thi�t k� ng�i h�c, theo dõi và báo cáo quá trình

ng�i h�c nh0m th c hin vic trao �.i thông tin gi�a các h th�ng h�c khác

nhau.

Page 61: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 61 - 0112398 – T� Th� Ng�c Thanh

M!c �ích c$a IMS:

• ��nh ngh a các chu5n k� thu�t nh0m nâng cao kh� n�ng t�ng tác

gi�a �ng d!ng và d�ch v! trong môi tr�ng h�c phân tán hin nay.

• H� tr� vic sát nh�p �"c t� c$a IMS vào trong các s�n ph5m và d�ch

v! trên toàn th� gi�i. S ch#p nh�n �"c t� r�ng rãi s* cho phép phân

ph�i môi tr�ng và n�i dung h�c t� nhi�u tác gi� l�i v�i nhau.

2.3.2. Tìm hi6u eLib

Elib (electronic library hay cò g�i là digital library) là m�t th vin 5n. T�

‘electronic library’ ng! ý là m�t su t�p c$a các tài nguyên thông tin �in t% ��c n�i

m�ng cùng k� thu�t liên k�t và c� s� h� t�ng qu�n tr�. B�n có th� truy c�p nó t� b#t c�

máy PC hay laptop có n�i m�ng nào t� b#t c� n�i nào trên th� gi�i � b#t c� th�i �i�m

nào.

Elib lu tr� và ch& m!c hàng v�n sách, báo, t�p chí v� �$ các ch$ �� trên th�

gi�i, ch+ng h�n nh v�t lí, thiên v�n, sinh hoá, công ngh sinh h�c, hoá h�c và công

trình xây d ng hoá ch#t, các thi�t b� xây d ng, công trình xây d ng môi tr�ng, khoa

h�c th c ph5m, và an toàn s�c kho, và v sinh .v.v… c/ng nh các tài liu v� thông

tin ti�u s%, lí l�ch cá nhân, ngh� nghip, các t. ch�c, h�i liên hip, và du l�ch v.v….

Th vin �in t% này ��c s% d!ng ph. bi�n nh#t trong các tr�ng ��i h�c và nh�ng

trung tâm nghiên c�u khoa h�c. T#t nhiên, ��i t�ng s% d!ng nó chính là nh�ng sinh

viên, nghiên c�u sinh và các nhà khoa h�c.

Nh�ng ch�ng trình Electronic library ��c xây d ng d a trên nh�ng chu5n

th�ng nh#t do các h�i �1ng, t. ch�c l�n trên th� gi�i l�p ra. M�t s� t. ch�c ��nh chu5n

l�n trên gi�i nh W3C (World Wide Web Consortium), ISO (International

Organization for Standardization), NISO (National Information Standards

Organization ),… . Có nhi�u chu5n cho nhi�u khía c�nh khác nhau c$a vic lu tr� và

truy c�p thông tin �in t%, bao g1m các chu5n v� thu h1i thông tin (Information

Retrieval Standard), thao tác gi�a các ph�n (Interoperability), ��nh d�ng tài nguyên,

Page 62: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 62 - 0112398 – T� Th� Ng�c Thanh

nh�n d�ng tài nguyên, mô t� tài nguyên,… Sau �ây là m�t s� chu5n s% d!ng trong

eLib liên quan ��n v#n �� truy c�p thông tin �in t%:

� Chu,n v� thu h.i thông tin:

Ki�u chu5n này cho phép thông tin gi�a các h th�ng khác nhau, làm cho thu�n

tin trong vic khám phá và truy c�p thông tin �in t%. Ví d! nh chu5n thu h1i thông

tin ISO 23950 (t�ng ��ng v�i ANSI Z39.50) ��nh ngh a m�t h�ng chu5n cho hai

máy tính liên l�c và chia s, thông tin v�i nhau. Nó �ã ��c thi�t k� �� h� tr� khám

phá tài nguyên và thu h1i tài nguyên c$a nh�ng tài liu “full-text”, d� liu m!c l!c,

các hình �nh và multimedia. Chu5n này d a trên ki�n trúc client-server và ��c l�p v�i

các h th�ng c! th�, hoàn toàn �i�u hành trên Internet.

Z39.50:

Z39.50 là m�t trong m�t nhóm các chu5n ��c s�n xu#t �� làm cho d- dàng k�t

n�i các h th�ng máy tính. Chu5n này ch& ra các ��nh d�ng và th$ t!c chi ph�i vic

trao �.i các thông �ip gi�a client và server, cho phép ng�i dùng có th� tìm ki�m các

c� s� d� liu t� xa, nh�n din các dòng d� liu có ��nh rõ các chu5n, và thu h1i m�t

vài hay t#t c� các dòng ��c nh�n din và có liên quan, c! th� v�i vic tìm ki�m và

thu h1i thông tin trong c� s� d� liu. M�t trong nh�ng thu�n l�i l�n trong vic s% d!ng

Z39.50 là nó cho phép truy c�p nh nhau ��n m�t s� l�ng l�n ngu1n thông tin thay

�.i khác nhau.

Z39.50 th�a nh�n r0ng vic thu h1i thông tin g1m hai thành ph�n chính – ch�n

thông tin d a trên nh�ng tiêu chu5n và thu h1i thông tin �ó, và nó cung c#p m�t ngôn

ng� chung cho c� hai hành ��ng �ó. Z39.50 chu5n hoá cách x% s mà trong �ó client

và server thông tin v�i nhau và ho�t ��ng ngay khi có nh�ng khác bit gi�a các h

th�ng máy tính, các công c! tìm ki�m và các c� s� d� liu.

EDI (Electronic Data Interchange)

EDI ��c bi�t ��n nh m�t chu5n công ngh thông tin qu�c gia. ( EDI, d� liu

mà theo truy�n th�ng ��c chuy�n vào trong các tài liu gi#y thì ��c truy�n hay

��c thông tin m�t cách �in t% tùy vào các lu�t và các ��nh d�ng ��c thi�t l�p. D�

Page 63: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 63 - 0112398 – T� Th� Ng�c Thanh

liu liên ��i v�i m�i ki�u c$a tài liu ch�c n�ng, ví d! nh b�ng mua bán hay hoá ��n,

��c v�n chuy�n l�n nhau nh là m�t thông �ip �in t%. D� liu �ã ��nh d�ng có th�

��c v�n chuy�n t� ng�i t�o ra ��n ng�i nh�n thông qua thông tin liên l�c b0ng cáp

hay v�n chuy�n v�t lí vào trong thi�t b� lu tr� �in t%.

EDI �a ��n m�t chu�i các thông �ip gi�a hai n�i, ví d! ng�i mua và ng�i

bán, m�i ng�i có th� xem nh là ng�i t�o ra hay ng�i nh�n. Các thông �ip t�

ng�i mua ��n ng�i bán s* bao g1m, ví d! nh d� liu c�n thi�t cho yêu c�u ��i v�i

s trích d�n (request for quotation_ RFQ), các biên lai mua bán, các thông báo vic

v�n chuy�n tàu thuy�n, và các hoá ��n. Vic th c thi c$a EDI yêu c�u vin s% d!ng

c$a m�t h� các chu5n liên k�t v�i nhau. H� chu5n này ph�i bao g1m các chu5n cho

các ki�u thông �ip (c/ng ��c g�i là các “nhóm giao d�ch” _ “transaction set”), và

cho vic v�n chuy�n th, các y�u t� d� liu, và các chu�i c$a các y�u t� d� liu ��c

s�p x�p g�i là các segment d� liu. M�t chu5n thông �ip hay chu5n transaction set

��nh ngh a chu�i các segment d� liu mà t�o thành thông �ip và transaction set �ó.

Th m!c segment d� liu lit kê t#t c� các segment d� liu, và ��nh ngh a ��nh danh

và chu�i c$a các y�u t� d� liu t�o nên nó. T �i�n y�u t� d� liu cung c#p các chu5n

c$a t#t c� các y�u t� d� liu. Vic v�n chuy�n th cung c#p thông tin �i�u khi�n v� các

thông �ip thêm vào cho các h th�ng v�n chuy�n và ti�p nh�n. Vic chu5n hoá c$a

các ��nh d�ng thông �ip, và c$a các segment d� liu và y�u t� d� liu trong các thông

�ip �ó, làm cho có th� thu th�p, tháo r�i và x% lí các thông �ip b0ng máy tính v�i

các k�t qu� có th� có th� �oán tr�c.

ILL (Internet Loan Library)

Nghi th�c ILL (ISO 10160/1) ��c phát tri�n �� gi� nhi�u giao d�ch ��c liên

k�t bao g1m các ho�t ��ng yêu c�u tài liu g1m nhi�u ng�i tham gia. V� khái nim

thì nó t�ng ��ng v�i EDI và bao g1m vic cung c#p cho ��nh ngh a các data

element ��c yêu c�u, ��nh ngh a m�t nhóm các thông �ip và các m�i quan h c$a

nó, và m�t cú pháp cho vic l�p c#u trúc thông �ip.

Page 64: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 64 - 0112398 – T� Th� Ng�c Thanh

Nghi th�c ILL có v, nh có nhi�u �� cung c#p các d�ch v! yêu c�u, �"c bit khi

chúng tr� nên phân tán nhi�u h�n. S truy�n thông t� h th�ng này sang h th�ng khác

c$a các thông �ip có c#u trúc cho phép m�t ph�m vi r�ng l�n các thi hành ��c t

��ng, và các th$ t!c b0ng tay hay ph�i h�p cho vic theo v�t, g�i v�,… ��c t ��ng.

Công d!ng c$a nó trong các d�ch v! t�ng tác ��i v�i yêu c�u các tài liu c�n nghiên

c�u xa h�n n�a.

� Chu,n mã hoá tài nguyên:

Nh�ng chu5n này ��nh ngh a các ki�u hi�n th� khác nhau c$a thông tin �in t%.

Bao g1m các chu5n:

o ��nh d�ng mô t� trang (ví d! postscript, PDF)

o ��nh d�ng �1 h�a (ví d! TIFF, GIF, JPEG)

o Thông tin c#u trúc (SGML, HTML, XML)

o ��nh d�ng hình �nh ��ng và audio.

o Nén (ví d!: gzip, jar, tar, zip).

� Chu,n nh*n d4ng tài nguyên:

G1m m�t s� chu5n sau:

� DOI (Digital Object Identifier)

Digital Object Identifier là m�t h th�ng ��c phát tri�n b�i Bowker và CNRI

(Corporation for National Research Initiative) � US, theo m�t yêu c�u v� các �� xu#t

cho công ngh nh�n d�ng n�i dung k� thu�t s� ��c �a ra b�i Association of

American Publishers. H th�ng DOI có ba thành ph�n: ph�n ��nh danh, th m!c và c�

s� d� liu. H th�ng này cho phép các b� ��nh d�ng qui ��nh nh�ng m�c khác nhau,

và cho các h th�ng khác (ví d! SICI, ISSN) ��c thêm vào.

H th�ng DOI có th� ��c ��nh ngh a nh là “m�t b� nh�n d�ng duy nh#t có

th� gi�i quy�t ��c và nhi�u m�ng c$a d� liu tr�ng thái ki�u k�t h�p trong m�t c� s�

qu�n lí thông tin”. Di-n t� nh�ng ph�n c$a ��nh ngh a nh sau:

Page 65: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 65 - 0112398 – T� Th� Ng�c Thanh

a. M�t “b� nh�n d�ng duy nh#t”: nhim v! c$a DOI là duy nh#t ��i v�i

m�t m�ng c$a �"c tính tri th�c. ��nh ngh a c$a m�ng này ��c ch& rõ

b�i m�t s� m�ng chính c$a thông tin v� nó (siêu d� liu) mà thu�c vào

th� lo�i c! th�: dù th c th� là m�t bài báo hay m�t video clip, ví d! nh

v�y. ��nh danh này là m�t chu�i không rõ ràng; nó không ch�a b#t c� tri

th�c cú pháp v� th c th� này.

b. “có th� gi�i quy�t ��c”; v�i “d� liu tr�ng thái k�t h�p”: �i sâu vào

thông qua h th�ng Internet t� b� nh�n d�ng �ó ��n m�t hay nhi�u m�ng

c$a d� liu k�t h�p. Nh�ng m�ng này bi�u di-u tr�ng thái hin t�i (giá

tr�) c$a m�t s� ki�u d� liu (ví d! nh m�t URL). Nh�ng m�ng này c$a

d� liu có th� hi�n th�, hay d�n ��n, các d�ch v! s% d!ng DOI nh là m�t

�i�m th c th�.

c. “m�t c� s� qu�n lí thông tin”: m�t khi m�t m�ng d� liu thu ��c do s

phân tích, thì siêu d� liu v� th c th� ��c ��nh danh có th� thi hành v�i

siêu d� liu t� nh�ng ngu1n khác (ví d! v� ng� c�nh) �� xây d ng các

d�ch v! và các giao d�ch t ��ng. Kh� n�ng thi hành này ��c hoàn t#t

thông qua vic qu�n lí siêu d� liu trong m�t h�ng ��c �i�u khi�n,

phù h�p v�i m�t ki�n trúc thi hành mà làm cho DOI có th� �a ra nh�ng

�ng d!ng � m�t b� nh�n d�ng liên t!c ��n gi�n.

� SICI

Chu5n SICI là chu5n ANSI/NISO Z39.56-1996 ��nh ngh a nh�ng lu�t l v� mã

dùng nh�n d�ng duy nh#t chu�i các item (ví d! nh các s� báo) và m�i thành ph�n (ví

d! nh bài báo) ch�a trong m�t chu�i. SICI là t� vi�t t�t c$a Serial Item and

Contribution Identifier và ��c s% d!ng trong chu5n này �� ch& mã c$a chính nó.

Chu5n này ��c ��nh ngh a cho vic s% d!ng v�i chu�i các xu#t b�n trong t#t

c� các ��nh d�ng. ��i v�i m!c �ích c$a chu5n này, m�t chu�i ��c ��nh ngh a nh là

m�t xu#t b�n phát hành trong nh�ng ph�n liên t!c � nh�ng kho�ng tr�ng ��u �"n hay

Page 66: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 66 - 0112398 – T� Th� Ng�c Thanh

không ��u �"n, mang b�c s� và/ho"c th� t th�i gian (numerical and/or chronological

designation), và có xu h�ng ��c ti�p t!c vô h�n.

SICI có xu h�ng ��c t�o ra và s% d!ng b�i các thành viên c$a c�ng �1ng th

m!c tham gia vào nh�ng ch�c n�ng k�t h�p v�i vic qu�n lí c$a các chu�i và các ph�n

mà chúng ch�a � ng, các ch�c n�ng nh s�p th� t , b. sung vào th vin, yêu c�u,

thu ti�n nhu�n bút, qu�n lí quy�n, thu h1i tr c tuy�n, liên k�t c� s� d� liu, và phân

phát tài liu.

B� nh�n d�ng ��c xây d ng theo chu5n này ��c s% d!ng trong nh�ng �ng

d!ng: Electronic Data Interchange (EDI), mã v�ch Serial Industry Systems Advisory

Committee (SISAC), truy v#n Z39.50, Uniform Resource Names (URNs), th �in t%,

và b�n ghi c$a con ng�i trong in #n. Chu5n này không ��nh ngh a b#t c� h th�ng

v�n chuy�n nào rõ rt hay ý ngh a c$a vic th c thi.

SICI s% d!ng chu�i s� chu5n qu�c t� (International Standard Serial Number _

ISSN) �� ��nh nh�n din chu�i tiêu ��. Do �ó, �� s% d!ng chu5n này trong vic xây

d ng m�t item hay góp ph�n nh�n din v�t ch#t ��c phát sinh trong chu�i này, thì

chu�i này ph�i ��c gán vào trong m�t ISSN.

Chu5n SICI là m�t s k�t h�p c$a các segment ��c ��nh ngh a, t#t các chúng

��u ��c yêu c�u. Nh�ng segment này là:

a. Item Segment, các data element c�n mô t� chu�i item (ISSN, b�ng niên

��i, b�ng lit kê)

b. Contribution Segment, các data element c�n nh�n din các ph�n trong

m�t item (v� trí, mã tiêu ��, và nh�ng s�p x�p th� t theo s� trong m�t

tr�ng h�p c! th� c$a SICI).

c. Control Segment, các data element c�n ghi l�i nh�ng element qu�n tr� �ó

mà ��nh ngh a s �ánh giá, phiên b�n, và ��nh d�ng c$a bi�u di-n mã.

�ây là segment quan tr�ng nh#t c$a SICI. S phiên d�ch và x% lí ��c

��nh ngh a b�i segment �i�u khi�n này.

Ví d!:

Page 67: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 67 - 0112398 – T� Th� Ng�c Thanh

� Chu,n mô t� tài nguyên:

Chu5n này có th� làm cho d- dàng khám phá tài nguyên hiu qu�. Bao g1m:

� AACR2_ m�t t�p các mã ��c s% d!ng cho vic mô t� các tài liu th

vin

� Dublin Core_ m�t chu5n siêu d� liu mô t� ��c phát tri�n cho vic

mô t� tài nguyên trên Internet. (��c mô t� bên trên).

� MARC (Machine-Readable Cataloguing)_ m�t chu5n siêu d� liu mô

t� phát tri�n cho m!c �ích m!c l!c.

Chu5n MARC �ang ��c giám sát b�i h�i �1ng thông tin th m!c có th� ��c

b0ng máy (Machine-Readable Bibliographic Information Committee) k�t h�p v�i v�n

phòng phát tri�n m�ng và các chu5n MARC � th vin c$a c� quan l�p pháp Hoa Kì.

Các ��nh d�ng MARC là các chu5n cho vic bi�u di-n và truy�n thông c$a

thông tin th m!c và quan h trong vic thi hành có th� ��c b0ng máy “Dòng MARC

ch�a m�t ch& d�n ��n d� liu c$a nó, hay m�t ít các “bi�n ch& ��ng”(“signposts”),

tr�c m�i m�ng th m!c c$a thông tin. Có ba lo�i n�i dung MARC ch& rõ: các th,, các

b� mã lãnh v c con, và các ch& th�.

Thu�n l�i trong vic s% d!ng siêu d� liu MARC là chúng không ph�i phát

tri�n ph�ng pháp ch& rõ l nh v c c$a vic t. ch�c thông tin th m!c, thông tin này

lu công vic và cho phép d� liu danh m!c có th� c�ng tác và trao �.i v�i các th

vin khác. “S% d!ng chu5n MARC ng�n ch"n vic l"p l�i công vic và cho phép các

th vin chia s, t�t h�n các tài nguyên th m!c”. MARC là m�t chu5n công nghip

Page 68: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 68 - 0112398 – T� Th� Ng�c Thanh

din r�ng mà m!c �ích chính c$a nó là �a vic truy�n ��t c$a thông tin trong m�t

h�ng chu5n, b0ng cách �ó làm cho d- dàng truy c�p th�ng xuyên ��n các dòng d�

liu.

� EDA (Encoded Archival Description)_ ��c s% d!ng b�i các chuyên

viên lu tr� v�n th cho vic mã hoá nh�ng giúp �� tìm ki�m.

EAD là m�t chu5n ��c s% d!ng �� mã hoà nh�ng giúp �� trong vic tìm ki�m

s% d!ng SGML và/hay XML. M!c �ích c$a vic s% d!ng EAD là th c hin lu tr� tài

nguyên t� nhi�u c� s� có kh� n�ng truy c�p nhi�u h�n ��n ng�i dùng. EAD c/ng

khuy�n khích c�ng �1ng lu tr� v�n th tán thành các chu5n c#u trúc d� liu và làm

vic v�i nhau trong s hình thành c$a các h�i �1ng và các c� s� d� liu th�ng nh#t.

Hin t�i, th vin c$a v�n phòng chu5n MARC và phát tri�n m�ng c$a c� quan l�p

pháp Hoa K3 ho�t ��ng nh là c� quan b�o d�ng cho EAD và cung c#p tài liu chính

th�c cho trang web c$a nó. C�ng �1ng chuyên viên lu tr� v�n th c$a M� ho�t ��ng

nh ng�i ch$ c$a EAD, và bàn tròn SAA EAD có trách nhim ti�p t!c giám sát và

phát tri�n.

Giúp �� tìm ki�m là gì? Nh�ng giúp �� tìm ki�m là nh�ng h�ng d�n chi ti�t,

nó mô t� và sáng tác nh�ng su t�p c$a các tài liu gi#y cá nhân cha xu#t b�n, các h1

s� t. ch�c, và hình �nh. Chúng giúp ng�i nghiên c�u nh�n d�ng và ��nh v� các h�p

hay các th m!c quan tâm ��c yêu c�u cho công vic nghiên c�u. Chúng c/ng cung

c#p thông tin c� b�n v� t. ch�c, ng�i, hay gia �ình �ã t�o ra các tài liu hay hình �nh,

m�t t.ng quan c$a nh�ng su t�p và vic s�p x�p c$a chúng, và m�t danh sách lu tr�

chi ti�t. Giúp �� tìm ki�m là nh�ng công c! c$a vic mô t� lu tr�.

2.3.3. Tìm hi6u eDoc

2.3.3.1. Khái ni&m

Edoc là t� vi�t t�t c$a “electronic document” hay còn g�i là digital

document. �ây là m�t khái nim mang tính t.ng quát, ch& t#t c� nh�ng tài liu trên

web, ch+ng h�n nh các trang tin t�c, t�p chí �in t%, các tài liu chuyên ngành hay

Page 69: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 69 - 0112398 – T� Th� Ng�c Thanh

các sách �in t%. Edoc ��c xem là ngu1n tài nguyên chính cho các �� án eLib,

eLearning. Nh�ng �� án này t�p h�p, t. ch�c l�i m�t cách logic các eDoc xoay quanh

m�t ch$ �� c! th� nào �ó nh0m m!c �ích giúp cho ng�i dùng có th� d- dàng tìm

th#y các tài liu �in t% trong hàng v�n tài liu, ph!c v! cho nhu c�u nghiên c�u c$a

ng�i dùng.

2.3.3.2. Ph4m vi s� d�ng c a eDoc

eDoc ��c s% d!ng/ áp d!ng trong t#t c� các ho�t ��ng, n�i nào có

ph�n m�m và các thi�t b� công ngh ��c �ng d!ng �� t�o, lu tr�, chuy�n �.i và

nh�n thông tin thì � �ó c�n có eDoc.

2.3.3.3. Các yêu c+u ��i v�i eDocs

- eDoc ��c t�o, s% d!ng, chuy�n �.i và lu tr� v�i s h� tr� c$a các

thi�t b� công ngh và s h� tr� c$a các ph�n m�m.

- eDoc ph�i ��c bi�u di-n trong hình th�c ��y �$ ngh a nh#t

- eDoc ph�i có c#u trúc phù h�p, ph. d!ng ��c nhi�u ng�i s% d!ng,

và có các thu�c tính cho phép xác nh�n tính xác th c c$a nó.

2.3.3.4. C(u trúc c a eDoc

- Electronic document bao g1m 2 ph�n không th� tách r�i ��c :

general part và especial part.

- General part bao g1m thông tin th� hin n�i dung c$a tài liu. N�u

m�t tài liu ��c g�i ��n m�t ng�i xác ��nh, thông tin v� ng�i này

��c th� hin trong ph�n general part.

- Especial part g1m m�t ho"c nhi�u ch� ký �in t%.

2.3.3.5. B�o m*t trong eDoc

Khi m�t t. ch�c mu�n th c hin các giao d�ch th�ng m�i tr c tuy�n,

vic b�o ��m an toàn và bí m�t c$a thông tin ��c s% d!ng trong su�t các giao d�ch,

c/ng nh vic cung c#p xác th�t và toàn v�n thông tin là r#t c�n thi�t. B�i vì nhi�u

Page 70: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 70 - 0112398 – T� Th� Ng�c Thanh

giao d�ch t ��ng d a trên tài liu �in t%, lo�i tài liu này ch�a � ng thông tin r#t

nh�y c�m, các t. ch�c ph�i b�o ��m hoàn toàn nh�ng tài liu này. Nhi�u gi�i pháp b�o

m�t thông tin c� g�ng b�o v các tài liu �in t% ch& b�o ��m ��c � m�c lu tr� c!c

b� ho"c trong su�t quá trình chu4ên �.i. Tuy nhiên các gi�i pháp b�o m�t này không

cung c#p ch� �� b�o v cho toàn b� chu trình s�ng c$a m�t tài liu �in t%. Khi m�t tài

liu ��c chu4ên ��n cho ng�i nh�n thì ch� �� b�o v cho nó c/ng m#t �i, và tài liu

này có th� ��c chu4ên ��n ho"c ��c xem m�t cách c� ý hay vô tình b�i ng�i nh�n

mà không th� nào ch�ng th c ��c ng��i này có ��c quy�n chuy�n ti�p ho"c xem

hay không?

M�t gi�i pháp hiu qu� h�n nhi�u là b�o v tài liu b0ng cách gán các

thông s� b�o m�t mà ��c g�i kèm v�i nó. Sáu tiêu chu5n c�n ph�i có �� cung c#p ch�

�� b�o v hiu qu� h�n cho m�t tài liu �in t% trong su�t chu trình s�ng c$a nó:

1. Confidentiality

2. Authorization

3. Accountability

4. Integrity

5. Authenticity

6. Non-repudiation

Page 71: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 71 - 0112398 – T� Th� Ng�c Thanh

Hình 12 : Tiêu chu,n �ánh giá tính b�o m*t c a eDoc

2.3.3.6. �ánh giá

Cho ��n hin t�i eDoc v�n cha th�t s có m�t chu5n nào . Tài liu eDoc trên

Internet vô cùng phong phú, �a d�ng, ch�a � ng m�t l�ng thông tin kh.ng l1 trên

web. Tuy nhiên, c/ng vì nó quá phong phú, �a d�ng nên th�t s khó kh�n cho vic ��

xu#t ra m�t chu5n �� t#t c� các tài liu eDoc tuân theo.

Trong khi �ó, eLearning, eLib v�i s� l�ng tài liu khiêm t�n h�n nhng th c

s �ã tuân theo các chu5n riêng c$a mình và ��c m�i ng�i ch#p nh�n. V�i nh�ng

chu5n riêng c$a mình, tài liu eLearning, eLib d- dàng ti�n ��n v�i web ng� ngh a.

2.4. M�t s� v(n �� trong x� lí ngôn ng% t# nhiên:

X% lí ngôn ng� t nhiên (Natural Language Processing) là bài toán lí thú nh#t

và c/ng khó kh�n nh#t c$a ngành máy tính t� h�n 50 n�m qua. '�c m� dùng máy tính

�� x% lí ngôn ng�, mu�n máy tính hi�u ��c ngôn ng� t nhiên nh con ng�i, �ã g"p

ph�i tr� ng�i l�n nh#t t� phía ngôn ng�, �ó là tính nh�p nh0ng (ambiquity) v�n có c$a

ngôn ng� t nhiên. Tuy nhiên, t� h�n n%a th� k& qua, các nhà ngôn ng� h�c và các nhà

Page 72: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 72 - 0112398 – T� Th� Ng�c Thanh

tin h�c �ã cùng nhau t�ng b�c kh�c ph!c ��c �áng k� các tr� ng�i này và �ã ��t

nhi�u k�t qu� t�ng ��i kh� quan.

2.4.1. V�n �� trong vi�c x� lí v�n b�n:

V�n b�n ��u vào � d�ng text, ch+ng h�n nh các trang HTML, cha ��c x% lí.

C�n ph�i có thêm t�ng ti�n x% lí �� x% lí s� b� v�n b�n ��u vào, r1i phân tách nó thành

các ��n v� rõ ràng ( nh �o�n, câu, t�, …) �� cho h th�ng d- x% lí. Bài toán ti�n x% lí

v�n b�n bao g1m các công vic sau:

� X% lí s� b� v�n b�n ��u vào (làm s�ch v�n b�n) b0ng cách xoá b2 nh�ng kí

t , nh�ng mã �i�u khi�n, nh�ng ph�n không c�n thi�t trong bài toán.

� Trong m�i v�n b�n, kh�i ti�n x% lí s* nh�n ra các tiêu ��, các chú thích, các

thông tin thêm vào (tác gi�, ngày…)(n�u có), và n�i dung chính c$a v�n

b�n.

� Trong m�i �o�n v�n, kh�i ti�n x% lí s* phân rã nó thành các câu. �ây là giai

�o�n khó nh#t. Cao h�n n�a, kh�i này có th� phân tích câu thành nh�ng

mnh �� (phase) �� gi�m b�t gánh n"ng cho h �1ng th�i t�ng ch#t l�ng

c/ng nh t�c �� x% lí c$a h.

2.4.2. V(n �� x� lí ng% ngh!a:

Trong x% lý ngôn ng� t nhiên, bài toán gán nhãn ng� ngh a (sense tagger), hay

còn g�i là “kh% nh�p nh0ng ng� ngh a c$a t�” ( Word Sense Disambiguation, vi�t t�t

là WSD) là bài toán khó kh�n nh#t và c/ng là bài toán tr�ng tâm mà ��n nay th� gi�i

v�n cha th� gi�i quy�t .n tho� ��c. �� gi�i quy�t bài toán này, ��n nay trên th� gi�i

�ã có r#t nhi�u mô hình v�i nhi�u h�ng ti�p c�n khác nhau, ch$ y�u g1m các h�ng:

� D a trên trí tu nhân t�o (AI – based): �ây là cách ti�p c�n s�m nh#t

(1960) v�i nh�ng lý thuy�t r#t hay v� m�ng ng� ngh a, khung ng� ngh a và các ý

nim nguyên thu4 ( nh: THING, DO, CAUSE,…) và các quan h nh IS – A,

PART – OF, …. Tuy nhiên, do h�u h�t các tri th�c v� ng� ngh a trong cách ti�p

c�n này ��u ��c xây d ng b0ng tay ( không th� xây d ng ��c nhi�u tri th�c v�

th� gi�i th c ), vì v�y các mô hình này ��u d�ng l�i � m�c �� bi�u di-n trên m�t

Page 73: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 73 - 0112398 – T� Th� Ng�c Thanh

vài câu ( demonstration on “toy” program). V#n �� khó kh�n c$a cách ti�p c�n

này là tình tr�ng thi�u tri th�c.

� D a trên c� s� tri th�c (Knowledge – Based):

Vào ��u th�p niên 80, ng�i ta �ã chuy�n sang h�ng khai thác tri th�c t

��ng t� các t� �i�n �in t% (MRD: Machine – Readable Dictionaries) nh các t�

�i�n �1ng ngh a (thesaurus), LDOCE, LLOCE,… �� có th� ph�n nào kh�c ph!c

h�n ch� c$a h�ng ti�p c�n d a trên trí tu nhân t�o (tình tr�ng thi�u tri th�c).

K�t qu� c$a h�ng ti�p c�n này là s ra ��i c$a: m�ng WordNet – m�t c� s� tri

th�c kh.ng l1 v� ng� ngh a c$a t� v ng theo h�ng lit kê nét ngh a; h

CORELEX theo h�ng h th�ng nét ngh a; và FrameNet v� vai trò (case – roles)

c$a ��ng t�. Tuy nhiên, các c� s� tri th�c nói trên c/ng ch& là nh�ng ngu1n thông

tin �� h th�ng ch�n ngh a tham kh�o, còn ch�n thông tin nào trong s� nh�ng

thông tin có liên quan �ó thì ta ph�i t xác ��nh trong t�ng tr�ng h�p c! th�.

� D a trên ng� liu (Corpus – Based):

H�ng ti�p c�n này s* rút ra các qui lu�t x% lý ng� ngh a ( b0ng th�ng kê,

b0ng máy h�c,…) t� nh�ng kho ng� liu l�n �ã có s6n và áp d!ng các lu�t này

cho các tr�ng h�p m�i. Th c ra cách ti�p c�n này �ã ��c nêu ra r#t s�m

(1940), nhng do ngu1n ng� liu h�n ch�, thi�t b� x% lý cha hin ��i, nên không

có �i�u kin �� phát tri�n. Mãi ��n th�p niên 1990, khi mà công ngh phát tri�n

m�nh, �ã có th� v�t qua ��c nh�ng khó kh�n c$a mình, cách ti�p c�n này ��c

h1i sinh và phát tri�n ngày càng m�nh m* cho ��n ngày hôm nay.

Hin nay, cách ti�p c�n d a trên ng� liu k�t h�p v�i tri th�c có s6n là h�ng

ti�p c�n �ang ��c nhi�u nhà ngôn ng� h�c – máy tính quan tâm.

2.4.2.1. Khái ni&m v� nhãn ng% ngh!a t":

T� kh�o sát ý ngh a t� v ng c$a m�i t�, ta th#y m�i t� có th� mang nhi�u ngh a

khác nhau, nhng trong m�t ng� c�nh c! th�, thì nó ch& mang m�t ngh a nh#t ��nh

trong s� nh�ng ngh a �ó. �� d- phân bit các ngh a t� v ng khác nhau, các nhà ng�

Page 74: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 74 - 0112398 – T� Th� Ng�c Thanh

ngh a h�c, t� v ng h�c và tâm lý h�c – ngôn ng� �ã phân chia toàn b� các ý ngh a t�

v ng có th� có thành h th�ng các ý nim ( cây ý nim) và m�i ý nim nh v�y ��c

coi nh là m�t nhãn ng ngh�a c�a t�.

2.4.2.2. M�t s� h& th�ng nhãn ng% ngh!a:

Cho ��n nay, vic xây d ng m�t h th�ng nhãn ng� ngh a th�ng nh#t v�n cha

hoàn t#t và v�n �ang t1n t�i nhi�u h th�ng nhãn khác nhau (m"c dù h th�ng nhãn �

m�c t� pháp �ã ��c th�ng nh#t và xác ��nh rõ ràng t� lâu). V#n �� khó kh�n là có

nh�ng t� ta không bi�t nên phân vào ý nim nào (l#y ý ngh a nào) vì cách phân lo�i

còn tu3 thu�c vào m!c �ích và l nh v c s% d!ng.

Ngoài ra, n�u h th�ng nhãn ng� ngh a ��c phân quá m�n thì s� nhãn s* r#t

l�n (hàng ch!c/ tr�m ngàn nhãn) và không th� gán nhãn t ��ng ��c ( vì khi �ó, ta

c�n ng� liu hu#n luyn l�n hàng t& t�). Còn n�u h th�ng nhãn phân quá thô (quá ít

nhãn), thì nó s* không �áp �ng ��c m�t s� nhu c�u phân bit ngh a trong th c t�

(ch+ng h�n nhu c�u kh% m� h1 nh�ng tr�ng h�p cùng nhãn ng� ngh a nhng có ý

ngh a t� v ng khác nhau).

M�t s� h th�ng nhãn ng� ngh a thông d!ng hin nay bao g1m LLOCE (Longman

Lexicon Of Contemporary English), LDOCE (Longman Dictionary Of Contemporary

English), CORELEX, WordNet…. �� tài ch�n và s% d!ng kho ng� liu WordNet là ch$ y�u

trong giai �o�n x% lí ngôn ng� t nhiên.

H� th�ng nhãn ng� ngh�a WordNet

WordNet là m�t h c� s� tri th�c kh.ng l1 v� ng� ngh a c$a t� v ng ti�ng Anh

v�i h�n 100.000 ý nim khác nhau, ��c xây d ng b�i các nhà ngôn ng� h�c – máy

tính, ngôn ng� h�c – tâm lý và ngôn ng� h�c – tri nh�n � ��i h�c Princeton (M�) t�

��u th�p niên 1980. WordNet là m�t h tr c tuy�n (on – line) cho phép m�i ng�i �

kh�p m�i n�i ��c t do ( mi-n phí) khai thác hay s% d!ng cho các m!c �ích nghiên

c�u, h�c t�p.

WordNet là m�t kho tàng tri th�c ng� ngh a t� v ng kh.ng l1 ��c nhi�u nhà

ngôn ng� h�c và ngôn ng� h�c – máy tính khai thác, �ng d!ng thành công trong nhi�u

bài toán x% lý ng� ngh a. Hin nay, WordNet �ang ��c các nhà khoa h�c v� ngôn

Page 75: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 75 - 0112398 – T� Th� Ng�c Thanh

ng�, tâm lý, máy tính trên toàn th� gi�i ti�p t!c khai thác, �óng góp �� c�i ti�n ngày

càng hoàn thin h�n. WordNet có nhi�u u �i�m không th� ch�i cãi, �ó là: tính khoa

h�c, tính h th�ng, tính m� (open), tính d- s% d!ng, tính ph. thông, tính phát tri�n,…

Chính vì v�y, ��n nay, �ã có m�t s� công trình b�n ��a hoá (localization) WordNet

theo ngôn ng� c$a m�t s� n�c, nh: Pháp, Nh�t, Tây Ban Nha, Hàn, Nh�t,….và g�n

�ây là Vit Nam.

WordNet không ch& ��n thu�n là nhóm các t� �1ng ngh a hay các t� có quan h

ng� ngh a v�i nhau thành t�ng l�p nh m�t s� t� �i�n LDOCE, LLOCE,… mà

WordNet còn là m�t h th�ng các ý nim có quan h nhi�u m"t v�i nhau, t�o thành

m�t m�ng l�i ph�c t�p. M!c tiêu c� b�n c$a WordNet là ch�a các thông tin v� ng

ngh�a c�a t�. Chính vì v�y, ngay t� ��u, ta ph�i xác ��nh cách hi�u v� ��n v� t� trong

WordNet là nh th� nào, sau �ó ta tìm hi�u v� t�p �1ng ngh a (synset) – thành ph�n c�

b�n c$a WordNet �� áp d!ng vào vic b�n ��a hoá WordNet thành ngôn ng� c$a

chúng ta.

2.4.2.3. Các ngu.n tri th'c �6 x� lý ng% ngh!a:

�� x% lý ng� ngh a, ng�i ta ph�i k�t h�p nhi�u ngu1n tri th�c: t� các tri th�c

v� ngôn ng� (nh: hình thái, ng� pháp, ng� ngh a) cho ��n các tri th�c ngoài ngôn

ng� ( tri th�c v� th� gi�i th c). Các ngu1n tri th�c �ó th�ng bao g1m:

2.4.2.3.1. Tri th�c v� t� lo�i

Trong tr�ng h�p các t� �1ng t ( homograph) và có ngh a khác nhau v�i các

t� lo�i khác nhau và �ng v�i m�t t� lo�i ch& có m�t ngh a duy nh#t, thì nh� thông tin

t� lo�i, chúng ta s* xác ��nh ��c chính xác ngh a c$a chúng. Ví d!, t� “can” có ngh a

là “có th�” (tr� ��ng t�), “cái h�p” (danh t�), “�óng h�p” (��ng t�). Vì v�y, v�i các

tr�ng h�p này, n�u bi�t ��c chính xác t� lo�i, chúng ta hoàn toàn kh% ��c nh�p

nh0ng ngh a c$a chúng. Ví d!: “ IPRO canAUX canV aDET canNN” (Tôi có th �óng h�p

m�t cái h�p).

Theo th�ng kê trong t� �i�n LLOCE , có t�i 88% m!c t� thu�c d�ng nói trên,

ngoài ra có 7% tr�ng h�p mà m!c t� (t�p các t� �1ng t ) có nhi�u t� lo�i, m�i t� lo�i

Page 76: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 76 - 0112398 – T� Th� Ng�c Thanh

có th� có nhi�u ngh a khác nhau, nhng trong �ó có ít nh#t m�t t� lo�i có duy nh#t

m�t ngh a. ��i v�i tr�ng h�p này, ta có th� kh% nh�p nh0ng ngh a n�u t� lo�i c$a nó

( trong ng� c�nh) chính là t� lo�i mà ch& có m�t ngh a.

2.4.2.3.2. Tri th�c v� quan h� cú pháp và ràng bu�c ng� ngh�a:

Tr�ng h�p m�t t� trong m�t t� lo�i có nhi�u h�n m�t ngh a, thì thông tin t�

lo�i không �$ �� kh% nh�p nh0ng ngh a. Ví d!: t� “bank” (có 2 t� lo�i là ��ng t� và

danh t�), v�i t� lo�i danh t� có các ngh a: “ngân hàng”, “b� sông”, “dãy”,…. Trong

tr�ng h�p này, ta c�n s% d!ng thêm tri th�c v� th� gi�i th c thông qua các ràng bu�c

ng� ngh a ( selectional restriction) gi�a các thành ph�n cú pháp (S – V – O – M ) trong

câu. Ví d!, trong câu “I enter an old bank”, sau khi qua ph�n gán nhãn ng� pháp, ta

��c:

[IPRO]NP [enterV [anDET oldADJ bankN]NP]VP và cây cú pháp nh hình d�i �ây:

Hình 13 Các quan h& cú pháp và ràng bu�c ng% ngh!a

Page 77: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 77 - 0112398 – T� Th� Ng�c Thanh

Trên cây cú pháp này, ta xác ��nh ��c các quan h cú pháp nh: S – V (ch$

ng� – ��ng t�), V – O (��ng t� – ��i t�), A – N ( tính t� – danh t�), D – N ( ��nh t� –

danh t�). M�i t� th c (content words) trong câu trên, cho dù �ã xác ��nh ��c t� lo�i

chính xác, nhng ��u v�n gây nh�p nh0ng v� ng� ngh a. Ví d!, ��ng t� “enter” ( �i

vào / nh�p), danh t� “bank” (ngân hàng/ b� sông/ dãy), tính t� “old” (già/ c/ ). Vì v�y,

chúng ta ph�i s% d!ng ��n nh�ng ràng bu�c ng� ngh a nh sau:

T� Ràng bu�c /

nhãn ng� ngh a

Ràng bu�c

I (tôi) Type: Person

(Ng�i)

Enter1

(�i vào)

S:Human

(ng�i)

O:Closed – SPA

(không kín)

Enter2

(nh�p)

S:Human

(ng�i)

O: Data (d� liu)

Bank1

(ngân hàng)

Type: Hou (nhà c%a, không gian kín)

Bank2

(b� sông)

Type: Nat

(công trình thiên nhiên, không gian h�)

Old1

(già)

N: Ani

(có s s�ng)

Old2

(c/)

B�ng 5: Danh sách các ngh a và ràng bu�c c$a các t� th c trong câu.

Page 78: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 78 - 0112398 – T� Th� Ng�c Thanh

Hình 14 Cây quy�t �-nh trong vi&c ch)n ngh!a phù h�p.

Qua vic duyt cây t� trên xu�ng v�i g�c là ��ng t� (Enter), cu�i cùng ta ch�n

��c các ngh a phù h�p: enter1 (�i vào), bank1 ( ngân hàng), và old2 (c/). Trong vic

xét �i�u kin ràng bu�c v� ng� ngh a, chúng ta ph�i xét ��n tính c#p b�c (hierachical)

trong h th�ng nhãn ng� ngh a (ontology) mà trong �ó khái nim con s* k� th�a các

nét ngh a c$a khái nim cha và có thêm nét ngh a m�i riêng c$a chúng. Thông tin v�

�"c �i�m ng� ngh a (type) c$a t�ng m!c t� th c c/ng nh các ràng bu�c �ã ��c xác

��nh trong t� �i�n LDOCE và FrameNet.

2.4.2.3.3. Tri th�c v� ngôn t� ( Collocation)

Ràng bu�c v� ng� ngh a gi�a các thành ph�n cú pháp không ph�i lúc nào c/ng

gi�i quy�t ��c m�i nh�p nh0ng, vì có nh�ng quan h ti�m 5n v� logic, v� ng� ngh a

ho"c th�m chí do thói quen mà vic nh�n bi�t ph�i �òi h2i nh�ng tri th�c th� gi�i th c

mà ��n nay ng�i ta c/ng cha th� tích h�p h�t vào t� �i�n hay các c� s� tri th�c khác

trong máy tính.

Page 79: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 79 - 0112398 – T� Th� Ng�c Thanh

Ví d!, danh t� “bank” trong câu “I go to the bank…” có ngh a gì? Ta s* ch�n

ngh a nào trong s� các ngh a: “ngân hàng/ b� (sông) / dãy”; danh t� “way” là “��ng

(�i) / cách (th�c)”?; danh t� “letter” là “b�c th / ch� cái”?;…. N�u ta ch& xét các ràng

bu�c v� ng� ngh a ( không ph�i lúc nào các ràng bu�c này c/ng có m"t ��y �$ ) thì ta

khó mà có th� xác ��nh ��c chính xác ngh a c$a các t� nh�p nh0ng �ó.

Vì v�y, �� kh% nh�p nh0ng trong nh�ng tr�ng h�p này, ng�i ta th�ng xét

��n hình thái và ng� ngh a c$a các t� lân c�n hay còn g�i là ngôn t� (collocation).

Ch+ng h�n khi th#y “bank … river” → “b� sông”, “bank … account/money” → “ngân

hàng”; “way to” → “��ng (�i)”, “way of” → “cách th�c”; “write … letter … to” →

“b�c th”, “… letter A” → “ch� cái”, “… letters, digits, symbols …” → “ch� cái”,

“write … papers, letters, messages,…” → “b�c th”;….

Ph�m vi lân c�n c$a t� c�n kh% ng� ngh a có th� là bên trái 1, 2 hay n t� và bên

ph�i 1, 2 hay n t�. Vic ch�n l a lân c�n này ph! thu�c vào t�ng tr�ng h�p và cá

nhân c! th�.

2.4.2.3.4. Tri th�c v� ch� �� (subject)

Trong m�t s� tr�ng h�p nh�p nh0ng, chúng ta có th� xác ��nh ��c ngh a

�úng c$a t� n�u ta bi�t ��c ch$ �� c$a v�n b�n. Ch+ng h�n t� “bank”, n�u �ang nói

v� v#n �� “tài chính” thì nó th�ng có ngh a là “ngân hàng”; t� “driver” → “trình �i�u

khi�n” ( n�u ch$ �� là l nh v c “tin h�c”); “sentence” → “câu” (n�u ch$ �� là “ngôn

ng� / v�n ph�m”) ho"c “b�n án” ( n�u �ang nói v� “pháp lu�t”); “element” → “nguyên

t�” ( trong “hoá”) / “ph�n t%” (trong “toán / tin h�c”);….

�6 xác �-nh ���c ch �� c a v8n b�n �ang c�n d�ch, ta c+n xem xét s# xu(t

hi&n c a m�t s� t" chuyên môn trong l!nh v#c �ó. Ch+ng h�n, n�u trong v�n b�n ta

th#y xu#t hin các t� nh: “ellipsis” (t&nh l�c), “bilingual” (song ng�), “anaphora”

(th� ��i t�), “pharse” (ng�), … thì ta có th� �oán nh�n v�n b�n này �ang nói v� ch$ ��

“ngôn ng� h�c”; t�ng t cho các t� “computer”, “memory”, “peripherals”, “CPU”,…

→ �ang nói v� “tin h�c”, ….

Page 80: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 80 - 0112398 – T� Th� Ng�c Thanh

Chính vì v�y, trong t� �i�n LDOCE/ LLOCE ��u có mã s� ch$ �� cho các t�

chuyên môn này. Chúng ta có th� xác ��nh ��c ch$ �� m�t cách t ��ng b0ng cách

xem xét các t� chuyên môn lân c�n t� �ang c�n kh% nh�p nh0ng.

2.4.2.3.5. Tri th�c v� t�n su�t ngh�a c�a t�

M�t t� không ph�i lúc nào c/ng thu�c v� m�t ch$ �� nh#t ��nh ( trong t� �i�n

LDOCE, h�n 56% t� thu�c d�ng này), vì v�y tính thông d!ng c$a m�t ngh a nào �ó

còn ��c d a trên �� �o v� t�n su#t (frequency) xu#t hin c$a t� �ó ��i v�i ngh a c!

th� �ó. Ví d!, danh t� “pen”có ngh a thông d!ng nh#t là “bút/ vi�t” (bên c�nh các

ngh a ít thông d!ng h�n, nh: “chu1ng”, “l1ng chim”); “ball” th�ng có ngh a là “qu�

banh/ hòn bi” h�n là “bu.i khiêu v/”,…

�� �o t�n su#t xu#t hin c$a m�i ngh a c$a m�i t� ��c th�ng kê trên nh�ng

ng� liu r#t l�n thu�c nhi�u lo�i v�n b�n khác nhau. Chính vì v�y, trong WordNet và

trong LDOCE, các ngh a ��c s�p x�p theo th� t gi�m d�n (ngh a thông d!ng nh#t s*

��c lit kê ��u tiên).

2.4.2.3.6. Tri th�c trong ��nh ngh�a c�a ngh�a t� (definition):

Trong các t� �i�n LDOCE/ WordNet, m�i ngh a s* ��c ��nh ngh a và có ví d!

kèm theo. Ví d!, t� “bank” trong LDOCE s* có các ngh a kèm ��nh ngh a c$a nó nh:

- “land along the side of a river, lake, etc.” (�#t d�c bên sông / h1 )

- “a place where money is kept and paid ….” (n�i gi� ti�n và tr�

ti�n …)

- “a row, a line of …” (m�t hàng, m�t dãy …)

D a trên thông tin trong các ��nh ngh a này, và so sánh v�i thông tin c$a ng�

c�nh, ta có th� xác ��nh ��c ngh a phù h�p c$a t� trong ng� c�nh �ó. �� th c hin

�i�u này, Wilks et.al. �ã tính toán ph�n giao (overlap) c$a t#t c� các t. h�p ngh a c$a

các t� th c trong câu ti�ng Anh dùng �� ��nh ngh a m�i ngh a c$a t�.

Page 81: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 81 - 0112398 – T� Th� Ng�c Thanh

2.4.2.4. Gán nhãn ng% ngh!a

Kh% nh�p nh0ng ngh a c$a t� là bài toán �"c trng trong gán nhãn ng� ngh a.

T�c là ngh a c$a t� �a ngh a s* ��c xác ��nh ngay n�u bi�t nhãn ng� ngh a c$a nó, ví

d!: danh t� “bank” s* có ngh a là “ngân hàng” n�u ��c gán nhãn là “HOU”, và có

ngh a “b� (sông)” n�u gán nhãn “NAT”, ….

Trong các mô hình gán nhãn ng� ngh a theo cách ti�p c�n d a trên các ngu1n

tri th�c nói trên, ng�i ta th�ng s% d!ng b� nhãn có �� m�n (granularity) khác nhau.

B� nhãn càng m�n ( chi ti�t hàng tr�m ngàn nhãn nh WordNet) thì �� chính xác c$a

vic gán nhãn s* th#p h�n nhng kh� n�ng kh% nh�p nh0ng ngh a c$a nó s* cao h�n (

vì không có tr�ng h�p nào cùng nhãn mà khác ngh a). Ng�c l�i, n�u ch�n b� nhãn

càng thô ( ch& có 36 nhãn nh LLOCE), thì �� chính xác trong gán nhãn s* cao h�n và

t#t nhiên kh� n�ng kh% nh�p nh0ng ngh a s* th#p h�n ( s* có nhi�u tr�ng h�p cùng

nhãn nhng khác ngh a).

Ngoài ra, vic gán nhãn ng� ngh a còn ��c phân bit theo quy mô gán nhãn:

ho"c là gán cho m�t s� ít các t� �i�n hình ( nh Hwee Ng và Hian Lee cho m�t t�

interest, David Yarowsky cho 12 t�,…) ho"c là gán cho h�u h�t các t� th c (nh Mark

Stevenson và Yorick Wilks, Mona Diab và Philip Resnik).

Vic ch�n ngu1n tri th�c nào cho m�i tình hu�ng ��c h th�ng quy�t ��nh

b0ng ph�ng pháp h�c giám sát trên ng� liu �ã ��c gán nhãn ng� ngh a chính xác (

�ây chính là ng� liu hu#n luyn hay còn g�i là ng� liu vàng). Gi�i thu�t h�c có th�

là m�ng Neural, cây quy�t ��nh, MBL, TBL,… mà trong �ó các gi�i thu�t h�c d a trên

ký hiu (symbolic) t2 ra chính xác h�n.

2.4.2.5. Các m'c �� nh*p nh9ng trong x� lý ng% ngh!a:

2.4.2.5.1. Nh p nh�ng m�c t� vng:

Nh câu ví d! “I enter the bank” � trên, sau khi phân tích cú pháp, máy tính �ã

xác ��nh ��c m�i quan h gi�a ��ng t� “enter” (�i vào) và ��i t� c$a nó là “bank” (là

ngân hàng hay b� sông?) thì ph�i c�n phân tích ng� ngh a c$a ��ng t� “enter” và danh

t� “bank”. Trong tr�ng h�p này máy s* v�n d!ng các ý nim c$a ngôn ng� h�c tri

Page 82: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 82 - 0112398 – T� Th� Ng�c Thanh

nh�n �� bi�t r0ng “enter” là hành ��ng “�i vào không gian kín (close space)” và danh

t� “bank” v�i ngh a là “b� sông” có thu�c tính là “không gian h�” thì s* không tho�

thu�c tính này, ch& có “bank” v�i ngh a “ngân hàng” là s* tho� �i�u kin “không gian

kín” này, nên cu�i cùng máy tính s* ch�n ngh a “ngân hàng”.

2.4.2.5.2. Nh p nh�ng m�c c�u trúc:

Ví d! xét ng� “Old man and woman”, ta có 2 phân tích: “[Old man] and

[woman]” và “Old [man and woman]” và máy tính s* ch�n cách phân tích th� nhì (do

tính cân b0ng v�n có trong c#u trúc song song c$a liên t� “and”). Tuy nhiên, n�u xét

“Old man and child”, ta c/ng s* có 2 phân tích: “[Old man] and [child]” và “Old [man

and child]” và máy tính s* ch�n cách phân tích th� nh#t, vì máy th#y c#u trúc th� nhì

là vô lý (do có s ��i l�p gi�a thu�c tính “tr,” trong “child” và già trong “man”).

2.4.2.5.3. Nh p nh�ng m�c liên câu:

Ví d! xét câu “The monkey ate the banana because it was hungry” (con kh& �n

chu�i vì nó �ói). Trong m�t s� tr�ng h�p, máy tính hin nay có th� xác ��nh ��c ��i

t� “it” (nó) thay th� cho t� nào: “monkey” (kh&) hay “banana” (chu�i). �� gi�i quy�t

��c nh�p nh0ng này, máy tính ph�i xem l�i mnh �� tr�c và v�n d!ng tri th�c v� th�

gi�i th c có trong WordNet �� bi�t r0ng “ch& có kh& m�i có kh� n�ng �ói” nên s* ch�n

“it thay th� cho monkey”. Còn trong câu: “The monkey ate the banana because it was

ripe” (con kh� �n chu�i vì nó chín), thì máy tính s* bi�t r0ng “ch& có chu�i m�i có kh�

n�ng chín), nên s* ch�n “it thay th� cho banana”.

2.4.3. Phân lo4i v8n b�n (Text Classification)

Trong th�i ��i ngày này, th�i ��i c$a thông tin, l�ng v�n b�n ngày càng l�n và

ta c�n phân lo�i các v�n b�n thành các nhóm ch$ �� khác nhau, nh: theo chuyên

ngành (Toán, Lý, Hoá, V�n, S%, …), theo l nh v c (Khoa h�c, V�n hoá, Xã h�i, Chính

tr�, …), …. Do kh�i l�ng quá l�n, ta không th� phân lo�i th$ công b0ng tay ��c. Vì

v�y, m�t ch�ng trình máy tính phân lo�i t ��ng ��c yêu c�u. �� xây d ng ch�ng

trình này, ng�i ta �ã dùng nhi�u cách ti�p c�n khác nhau, nh: d a trên t� khoá, d a

Page 83: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 83 - 0112398 – T� Th� Ng�c Thanh

trên tr�ng ng� ngh a c$a các t� có t�n s� xu#t hin cao, mô hình Maximum Entropy,

d a trên lý thuy�t t�p thô, …

��i v�i ti�ng Anh, các k�t qu� trong l nh v c này r#t kh� quan. Còn ��i v�i

ti�ng Vit, g�n �ây �ã có m�t s� công trình nghiên c�u v� v#n �� này và �ã có m�t s�

k�t qu� ban ��u nhng còn h�n ch� do ph�n phân tích hình thái (tách t�) và t� �i�n ý

nim (phân lo�i ng� ngh a) cho ti�ng Vit cha hoàn thin. Bên c�nh vic phân lo�i

v�n b�n, ng�i ta c/ng quan tâm ��n các �ng d!ng gom c!m v�n b�n nh0m nhóm các

v�n b�n có n�i dung t�ng t nhau (theo các thông s� c$a v�n b�n) l�i v�i nhau.

Page 84: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 84 - 0112398 – T� Th� Ng�c Thanh

Ch��ng 3 : MÔ HÌNH VÀ GI�I THU�T

3.1. Công ngh& tìm ki�m ng% ngh!a trên th� gi�i hi&n nay:

H�u h�t các hiu qu� g�n �ây c$a các công c! tìm ki�m d a vào ng� ngh a là

ph! thu�c cao vào công ngh x% lí ngôn ng� t nhiên �� phân tích và hi�u câu truy

v#n. M�t trong nh�ng công c! tìm ki�m ��u tiên và thông d!ng nh#t này là Ask Jeeves

(http://www.askjeeves.com/). Nó liên k�t nh�ng �i�m m�nh c$a ph�n m�m phân tích

ngôn ng� t nhiên, x% lí khai khoáng d� liu, và t�o c� s� tri th�c v�i nh�ng phân tích

theo kinh nghim. Ng�i dùng có th� gõ các truy v#n b0ng ngôn ng� t nhiên và nh�n

��c nh�ng tr� l�i tho� �áng.

M�t ví d! d a trên ng� ngh a khác là Albert ( http://www.albert.com/). 'u

�i�m l�n nh#t c$a nó là cung c#p nhi�u ngôn ng� thêm vào cho ti�ng Anh, ví d! nh

ti�ng Pháp, Tây Ban Nha, ��c. Lo�i này c$a search engine c�n m�t s� �ông ng�i ��

xây d ng nên m�t m�ng ng� ngh a r#t l�n nh0m m!c �ích h�ng t�i vic th c thi h�p

lí.

M�t ki�u nâng cao khác c$a công c! tìm ki�m Internet là Cycorp

(http://www.cyc.com/). Cyc liên k�t c� s� tri th�c l�n nh#t trên th� gi�i v�i Internet.

Cyc (en-cyc-lopedia) là m�t c� s� tri th�c bao la và �a ng� c�nh. V�i Cyc Knowledge

Server, nó cho phép các site Internet thêm vào tri th�c ng� ngh a thông d!ng và phân

bit nh�ng ngh a khác nhau c$a các khái nim nh�p nh0ng.

3.1.1. Các hi&u qu� tìm ki�m ng% ngh!a hi&n nay

Khi công ngh Web trí tu nhân t�o tr� nên nâng cao h�n, s% d!ng các th, RDF

và OWL s* �a ra nh�ng c� h�i ng� ngh a cho tìm ki�m. Tuy nhiên, kích th�c c$a

m�ng �ang ��c tìm ki�m s* ph�i thi�t l�p m�t kho�ng tr�ng cho gi�i pháp ph�c t�p

và do �ó �nh h�ng m�nh ��n kh� n�ng xu#t hin c$a các k�t qu� thành công.

Nhi�u công ty l�n �ang th�t s h�ng ��n v#n �� c$a tìm ki�m ng� ngh a. S

phát tri�n c$a Microsoft v� Web có l* ph! thu�c vào kh� n�ng c$a nó �� hoàn thin

công c! tìm ki�m mà d�n ��u là Google. K�t qu� là Microsoft �ã �a ra m�t ch�ng

Page 85: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 85 - 0112398 – T� Th� Ng�c Thanh

trình tìm ki�m m�i g�i là MSNBot, nó l�t qua Web �� xây d ng m�t ch& m!c c$a các

liên k�t HTML và các tài liu. MSNBot ��c d ��nh nh là m�t công ngh mà k�t

h�p các �ng d!ng cho h �i�u hành Windows. Sau �ó Microsoft s* k�t n�i công c! tìm

ki�m c$a nó v�i c.ng MSN trong phiên b�n Windows k� ti�p c$a nó nh0m làm cho d-

dàng tìm ki�m e-mail, spreadsheets và các tài liu trên các PC (Personal Computer),

các m�ng h�p nh#t, c/ng nh Web.

3.1.2. Công ngh& tìm ki�m

Tìm ki�m ng� ngh a gi�i quy�t v�i các khái nim và các m�i quan h logic.

N�u xem xét các v#n �� th c t� c$a tìm ki�m ng� ngh a, chúng ta s* th#y r0ng cây tìm

ki�m ��ng tr�c tình tr�ng thi�u logic �a ��n v#n �� cha hoàn t#t (Incompleteness

Problem) hay v#n �� “ng�c ng�” (Halting Problem).

��u tiên hãy xem xét v(n �� ch�a hoàn t(t. K�t lu�n có th� ��c xem nh là

m�t s suy di-n c$a m�t dãy logic g�n l�i v�i nhau. ( m�i �i�m, có th� có nhi�u

h�ng khác nhau �� t�i m�t suy di-n m�i. Vì v�y, nh0m ��t hiu qu�, có m�t nhóm

các kh� n�ng phân nhánh �� b0ng cách nào �ó h�ng ��n m�t gi�i pháp �úng. Và

nhóm các phân nhánh �ó có th� tr�i ra trong các h�ng m�i l�.

Ví d!, b�n có th� mu�n c� g�ng ��nh ngh a “ai là ng�i mà Kevin Bacon bi�t”

d a trên thông tin v� m�i quan h gia �ình c$a anh ta, nh�ng phim c$a anh ta, hay

nh�ng ti�p xúc công vic c$a anh ta. Do �ó, có nhi�u h�n m�t h�ng �� �a ��n m�t

s� các k�t qu�. Các k�t qu� này n0m trong m�t nhóm phân nhánh các kh� n�ng có th�

có. Do v�y, k�t lu�n trong h th�ng c$a chúng ta là m�t lo�i c$a v#n �� tìm ki�m,

��c bi�u th� nh là m�t cây tìm ki�m.

Có th� b�t ��u � �&nh c$a cây, � g�c, hay t� các nhánh. �&nh c$a cây có th� là

câu truy v#n ��c h2i. M�i b�c l�n xu�ng các nút con trong cây này có th� ��c xem

nh m�t suy di-n logic ti�m tàng di chuy�n h�ng ��n vic c� g�ng xác nh�n câu truy

v#n nguyên th$y mà s% d!ng b�c suy di-n logic này. H�ng r* qu�t c$a các kh� n�ng

có th� ��c xem nh cây phân nhánh này, tr� nên r�m r�p h�n và sâu h�n. M�i ti�p

c�n này k�t thúc b0ng vic tr� thành m�t trong các b�c con, ��n m�t nút con.

Page 86: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 86 - 0112398 – T� Th� Ng�c Thanh

T�ng t�ng r0ng m�i nút trong cây này bi�u th� m�t vài h�ng �� xác nh�n.

M�i liên k�t t� m�t nút cha cao h�n ��n m�t nút con bi�u th� m�t câu lnh logic. Bây

gi� v#n �� này là chúng ta có m�t cây l�n c$a các kh� n�ng.

Trong m�t h th�ng logic ph�c t�p, có m�t s� l�ng l�n các ch�ng c� ti�m

tàng. M�t s� chúng dài và không rõ ràng n�u ch& có m�t ch�ng c�. ��c ch�ng minh

vào nh�ng n�m 1930, m�t s� h th�ng logic �$ ph�c t�p v�n �ã là không ��y �$

(không th� quy�t ��nh). Nói cách khác, có các câu lnh mà không th� ��c ch�ng

minh m�t cách logic. Lu�n c� c$a nó cho �i�u �ó liên quan ��n m�t v#n �� khác, v#n

�� “ng�c ng�” (Halting Problem).

V(n �� halting suy ra r0ng các thu�t gi�i hin nay s* không bao gi� k�t thúc

trong m�t câu tr� l�i. Khi nói v� Web, chúng ta nói v� hàng triu các s kin và hàng

ch!c ngàn lu�t mà có th� n�i k�t �an l�i v�i nhau trong nh�ng h�ng ph�c t�p, vì th�

không gian c$a các ch�ng c� ti�m tàng là vô t�n và cây này theo logic s* tr� nên vô

t�n. Theo �ó, chúng ta s* �i vào các v#n �� không hoàn t#t v�n có; ví d! nh chúng ta

không th� th#y m�i ch�ng c� có th� có và thu t#t c� các câu tr� l�i.

Chúng ta s* �i vào tình tr�ng không hoàn t#t b�i vì cây tìm ki�m quá l�n. Vì th�

h�ng ti�p c�n c$a chúng tôi là ch& ph�i tìm ki�m trên các ph�n c$a cây. Có m�t chi�n

l�c n.i ti�ng cho vic b0ng cách nào �� ch& ra các v#n �� tìm ki�m nh v�y. M�t

chi�n l�c là tìm ki�m cây theo “chi�u sâu” (depth-first).

Tìm ki�m chi�u sâu s* b�t ��u � �&nh cây và �i xu�ng sâu ��n m�c có th� m�t

s� ��ng d�n nào �ó, m� r�ng các nút khi chúng ta �i, cho ��n khi tìm th#y m�t k�t

thúc ch�t (dead end). M�t k�t thúc có th� là m�t �ích (thành công) hay m�t nút mà

chúng ta không th� t�o ra các con m�i. Vì v�y h th�ng không th� ch�ng minh b#t c�

th� gì ngoài �i�m này.

Hãy xem qua tìm ki�m theo chi�u sâu và xoay theo tr!c c$a cây. Chúng ta b�t

��u � nút �&nh và �i sâu nh#t có th�:

1) B�t ��u � nút cao nh#t.

2) �i xu�ng sâu nh#t có th� theo m�t h�ng.

Page 87: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 87 - 0112398 – T� Th� Ng�c Thanh

3) Khi chúng ta �i vào m�t k�t thúc, sao lu nút cu�i cùng mà t� �ó

chúng ta r�i kh2i. N�u có m�t ��ng d�n mà chúng ta cha �i, thì

hãy l�n theo nó. C� theo ch�n l a này cho ��n khi chúng ta th#y m�t

k�t thúc hay m�t �ích ��n.

4) ��ng d�n này d�n ��n m�t k�t thúc khác, vì th� �i tr� l�i m�t nút và

c� g�ng � nhánh khác.

5) ��ng d�n �a ��n m�t �i�m �ích. Nói cách khác, nút cu�i cùng này

là m�t k�t qu� kh� quan cho truy v#n. Vì th� chúng ta có m�t câu tr�

l�i. Hãy tìm ki�m nh�ng �áp án khác b0ng cách �i lên m�t vài node

và sau �ó �i xu�ng m�t ��ng d�n mà chúng ta cha �i th%.

6) Ti�p t!c cho ��n khi th#y nhi�u h�n nh�ng �i�m k�t thúc và s% d!ng

h�t nh�ng kh� n�ng tìm ki�m.

'u �i�m c$a tìm ki�m theo chi�u sâu là: �ây là m�t cách hiu qu� theo thu�t

toán �� tìm ki�m các cây trong m�t ��nh d�ng. Nó gi�i h�n s� l�ng không gian mà ta

có �� duy trì vic nh� nh�ng th� mà ta cha nhìn th#y. T#t c� nh�ng th� mà chúng ta

ph�i nh� là lu l�i ��ng d�n.

Khuy�t �i�m c$a tìm ki�m này là m�t khi chúng ta b�t ��u �i xu�ng m�t

h�ng, chúng ta s* �i ��n t#t các các con ��ng cho ��n cu�i cùng.

M�t chi�n l�c khác cho tìm ki�m là tìm ki�m theo chi�u ngang tr�c. ( �ây

chúng ta tìm ki�m t� l�p này sang l�p khác. ��u tiên chúng ta c� g�ng th c hin t#t c�

các ki�m ch�ng � b�c 0 và sau �ó chúng ta c� g�ng th c hin t#t c� các ki�m ch�ng

� b�c 1, v.v… 'u �i�m c$a tìm ki�m theo chi�u ngang là chúng ta ��c b�o ��m

nh�n các ki�m ch�ng ��n gi�n nh#t tr�c khi chúng ta ��n nh�ng cái ph�c t�p h�n.

�i�u này ��c �a ra do nh�ng l�i ích c$a Ockham’s Razor. N�u có m�t ki�m ch�ng

� b�c th� n, chúng ta s* tìm th#y nó tr�c khi chúng ta xem xét ��n b�c th� n+1.

Khuy�t �i�m c$a tìm ki�m theo chi�u ngang là chúng ta có nh�ng cây r#t sâu, chúng

ra c/ng có nh�ng cây r#t r�m r�p mà chúng ta có hàng ngàn hay hàng ch!c ngàn các

nút con. Khuy�t �i�m khác c$a tìm ki�m này là s� l�ng không gian chúng ta ph�i s%

Page 88: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 88 - 0112398 – T� Th� Ng�c Thanh

d!ng �� lu t#t c� các k�t qu� m�c th� 3 tr�c khi chúng ta kh�o sát nó. V�i tìm ki�m

theo chi�u r�ng, chúng ta càng �i vào cây càng sâu thì không gian yêu c�u càng l�n.

Vì th� chúng ta nh�n ra r0ng hai trong các thu�t gi�i c. �i�n cho tìm ki�m, theo

chi�u d�c và chi�u ngang, s* d�n ��n nh�ng v#n �� v� các h th�ng l�n.

Có hai l�p c� b�n c$a các gi�i thu�t tìm ki�m ��c s% d!ng �� c� g�ng gi�i

quy�t các gi�i h�n v� v#n �� không hoàn t#t và tình tr�ng ng�c ng� là: không có �$

thông tin và có �$ thông tin. Các tìm ki�m không �+y � thông tin, hay không nhìn

th#y, thì không có thông tin v� s� l�ng các b�c hay chi phí ��ng d�n t� tr�ng thái

hin t�i ��n �ích. Nh�ng tìm ki�m ki�u này bao g1m: tìm theo chi�u sâu (depth-first),

theo chi�u r�ng (breadth-first), chi phí không �.i (uniform-cost), gi�i h�n chi�u sâu

(depth-limiting) và tìm ki�m sâu thêm l"p �i l"p l�i (iterative deepening). Các tìm

ki�m �+y � thông tin, hay heuristic, có ��y �$ thông tin v� �ích ��n; thông tin này

th�ng là chi phí ��ng d�n �c l�ng cho nó hay là �c �oán s� l�ng các b�c

xu#t phát t� nó. Thông tin này ��c bi�t nh là heuristic search agent. Nó cho phép

các tìm ki�m có ��y �$ thông tin th c hin t�t h�n nh�ng tìm ki�m không �$ thông tin

và làm cho chúng hành x% trong m�t dáng v, hoàn toàn “lí trí”. Nh�ng tìm ki�m này

bao g1m: các tìm ki�m best-first, hill-climbing, beam, A*, và IDA* (iterative

deepening A*).

3.1.3. Các Web search agent

Trong khi các công c! tìm ki�m là m�nh và quan tr�ng cho t�ng lai c$a Web,

thì có m�t hình th�c ho�t ��ng khác c$a tìm ki�m c/ng �óng vai trò quy�t ��nh: các

tr�m tìm ki�m Web (Web search agent). M�t Web search agent s* không th c hin

nh m�t công c! tìm ki�m th�ng m�i. Các công c! tìm ki�m này s% d!ng c� s� d�

liu tra c�u t� m�t c� s� tri th�c (Knowledge Base).

Trong tr�ng h�p c$a Web search agent, t các trang Web ��c tìm ki�m và

máy tính cung c#p m�t giao din cho ng�i dùng. Các k�t qu� tri giác c$a agent là các

tài liu ��c k�t n�i thông qua Internet s% d!ng HTTP. Các ho�t ��ng c$a agent ��c

��nh ngh a n�u tìm th#y �ích ��n c$a vic tìm m�t trang Web ch�a m�t �i�m �ích

Page 89: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 89 - 0112398 – T� Th� Ng�c Thanh

��c ch& rõ (ví d! nh t� khoá hay c!m t�) và n�u không , thì tìm m�t v� trí khác ��

vi�ng th�m. Nó ho�t ��ng trong môi tr�ng s% d!ng các ph�ng pháp ��u ra �� c�p

nh�t ng�i dùng � tr�ng thái c$a tìm ki�m hay các k�t qu� k�t thúc.

Cái gì làm cho “trí tu” c$a agent có kh� n�ng ra quy�t ��nh có lí trí khi �a ra

m�t ch�n l a. Nói cách khác, �a ra m�t �ích ��n, chúng s* ra quy�t ��nh �i theo

nh�ng hành ��ng mà d�n ��n �ích trong m�t cách �úng lúc.

M�t agent th�ng có th� phát sinh ra t#t c� các k�t qu� có th� có c$a m�t s

kin, nhng sau �ó nó s* c�n tìm ki�m thông qua nh�ng k�t qu� �ó �� tìm ki�m m�t

�ích ��n mong mu�n và th c thi ��ng d�n (chu�i các b�c) b�t ��u � tr�ng thái ban

��u hay tr�ng thái hin t�i, �� ��n tr�ng thái c$a �ích ��n mong mu�n. Trong tr�ng

h�p c$a Web search agent thông minh, nó s* c�n s% d!ng m�t tìm ki�m �� ��nh h�ng

thông qua Web �� t�i �ích c$a nó.

Vic xây d ng m�t Web search agent thông minh c�n nh�ng k� thu�t cho tìm

ki�m nhi�u và k�t h�p t� khoá, ng�n ch�n “handling” và kh� n�ng t n�y m�m khi nó

s% d!ng h�t hoàn toàn m�t không gian tìm ki�m. �a ra m�t �i�m �ích, Web search

agent x% lí �� tìm ki�m thông qua m�t s� ��ng d�n c�n thi�t. Agent này s* d a vào

t� khoá. Ph�ng pháp ��c $ng h� này là �� b�t ��u t� m�t v� trí “h�t gi�ng” (do

ng�i dùng cung c#p) và tìm t#t c� nh�ng v� trí khác ��c liên k�t trong m�t d�ng cây

��n g�c (v� trí h�t gi�ng) ch�a �i�m �ích.

Search agent c�n bi�t �i�m �ích (ví d! t� khoá hay c!m t�), n�i mà b�t ��u, l"p

l�i bao nhiêu l�n �i�m �ích �� nh�n th#y s* xem bao lâu (ràng bu�c th�i gian), và

ph�ng pháp gì nên ��c ��nh ngh a tiêu chu5n cho vic ch�n ��ng d�n (các ph�ng

pháp tìm ki�m). Nh�ng v#n �� này ��c �a ra trong ph�n m�m.

Vic th c thi c�n m�t s� tri th�c c$a l�p trình, làm vic v�i sockets, HTTP,

HTML, s�p x�p, và tìm ki�m.

Có nhi�u ngôn ng� trong nh�ng thi hành trên Web, nh�ng giao din l�p trình

�ng d!ng (APIs) nâng cao, và kh� n�ng phân tách v�n b�n t�t h�n mà có th� s% d!ng

�� vi�t m�t Web agent.

Page 90: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 90 - 0112398 – T� Th� Ng�c Thanh

S% d!ng thu�t gi�i s�p x�p nâng cao và hiu qu� s* giúp c�i thin th c thi c$a

Web search agent.

Thi�t k� Web search agent g1m b�n giai �o�n: kh�i t�o, nh�n th�c, hành ��ng

và hiu qu�. Trong giai �o4n kh$i t4o, Web search agent nên t�o l�p t#t c� các bi�n,

c#u trúc và m�ng. C/ng nên l#y thông tin c� s� c�n cho vic ch& ��o s�n tìm �i�m

�ích, �ích ��n, m�t v� trí b�t ��u và ph�ng pháp tìm ki�m. Giai �o4n nh*n th'c,

��c t�p trung s% d!ng tri th�c ��c cung c#p �� ti�p xúc v�i m�t trang và thu h1i

thông tin t� v� trí �ó. Nó nên ��c nh�n din n�u hin din �i�m �ích và nên nh�n ra

các ��ng d�n ��n nh�ng v� trí URL khác. Giai �o4n hành ��ng l#y t#t c� nh�ng

thông tin mà h th�ng bi�t và ��nh ngh a n�u �ích ��n ��c tìm th#y (�i�m �ích ��c

tìm th#y và vic s�n tìm k�t thúc).

N�u vic s�n tìm v�n còn ho�t ��ng nó ph�i ra quy�t ��nh �i ��n n�i nào ti�p

theo. �ây là s thông minh c$a agent, và ph�ng pháp c$a tìm ki�m cho bi�t Web

agent s* “thông minh” bao nhiêu. N�u m�t liên k�t không tìm th#y, vic s�n tìm k�t

thúc, và nó cung c#p ��u ra cho user.

Web search agent di chuy�n t� giai �o�n kh�i t�o ��n m�t vòng l"p bao g1m

các giai �o�n nh�n th�c, ho�t ��ng và hiu qu� cho ��n khi ��t ��c �ích ��n hay

không.

Page 91: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 91 - 0112398 – T� Th� Ng�c Thanh

Hình 15: Dòng c� s$ tìm ki�m Web

3.2. Các b��c xây d#ng m�t 'ng d�ng semantic search engine:

M�t ví d! c$a công ngh tìm ki�m ng� ngh a là TAP. TAP là m�t �� án phân

tán g1m nh�ng nhà nghiên c�u t� Standford, IBM, và W3C. TAP t�o �òn b5y cho

công ngh t ��ng và bán t ��ng rút ra nh�ng c� s� tri th�c t� ph�n thân không có

Page 92: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 92 - 0112398 – T� Th� Ng�c Thanh

c#u trúc hay bán c#u trúc c$a v�n b�n. H th�ng này có th� s% d!ng thông tin v�a h�c

�� h�c thêm thông tin m�i, và có th� s% d!ng �� thu h1i thông tin.

Trong TAP, các tài liu s6n có ��c phân tích s% d!ng công ngh ng� ngh a và

chuy�n sang thành các tài liu Web ng� ngh a s% d!ng công ngh t ��ng hay th$

công v�i các gói tri th�c có c#u trúc ngày càng sâu h�n. Công ngh thu h1i thông tin

truy�n th�ng ��c nâng cao v�i tri th�c có c#u trúc sâu �� cung c#p các k�t qu� chính

xác h�n. C� hai phép phân tích t ��ng và ��c h�ng d�n s% d!ng các h th�ng và

các agent l�p lu�n thông minh.

Các gi�i pháp xây d ng nên m�t công ngh trung tâm ��c g�i là các Semantic

Web Template. Th c hin bi�u di-n tri th�c, s sáng t�o, s tiêu th! và duy trì c$a tri

th�c tr� nên trong su�t ��i v�i ng�i dùng. Mô hình d� liu RDF là c� s� c$a công

ngh bi�u di-n tri th�c Web ng� ngh a và TAP s% d!ng RDF Schema và OWL.

Khó kh�n c$a vic t t�o ra tri th�c yêu c�u m�t máy tri th�c có th� dùng ��

d�ch các tài liu sang nh�ng ngôn ng� t�ng trng và logic ��c yêu c�u. Các

ontology s% d!ng v�n t� v ng chính c$a tri th�c ��c yêu c�u �� ��nh ngh a các khái

nim và m�i quan h mà các tr�ng h�p c$a khái nim �ó n�m gi�.

3.3.1. Xây d#ng ki�n trúc Web ng% ngh!a:

Ki�n trúc Web ng� ngh a ��c phát tri�n d a trên ý t�ng c$a vic chú thích

các trang Web b0ng các th, RDF và OWL �� bi�u di-n chi ti�t các ontology ng�

ngh a. Tuy nhiên, gi�i h�n c$a các h th�ng này là chúng ch& x% lí các trang Web �ã

��c chú thích b0ng nh�ng th, ng� ngh a c! th�.

Ontology mô t� các khái nim và m�i quan h v�i m�t t�p t� v ng tiêu bi�u.

M!c �ích c$a vic xây d ng ontology là chia s, và s% d!ng l�i tri th�c. T� khi Web

ng� ngh a là m�t m�ng phân tán, có nh�ng ontology khác nhau mô t� nh�ng �i�u

t�ng ��ng m�t cách ng� ngh a. K�t qu� là, c�n thi�t �� l�p s� �1 các y�u t� c$a

nh�ng ontology này n�u chúng ta mu�n x% lí thông tin trên qui mô c$a Web. M�t ti�p

c�n cho tìm ki�m ng� ngh a có th� d a trên vic phân lo�i v�n b�n cho nh�ng ánh x�

ontology so sánh m�i y�u t� c$a m�t ontology này v�i m�i y�u t� c$a ontology khác,

Page 93: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 93 - 0112398 – T� Th� Ng�c Thanh

và sau �ó ��nh ngh a quan h t�ng ��ng trên m�i m�t c"p c� s�. Nh�ng item ��c

liên k�t có giá tr� t�ng ��ng c$a nó l�n h�n m�t ng�ng nào �ó.

3.3.2. L*p ch3 m�c ng% ngh!a ti�m tàng:

Bây gi� chúng ta �� c�p ��n vic th c thi Latent Semantic Indexing (LSI – l�p

ch& m!c ng� ngh a ti�m tàng) có th� c�i ti�n nh�ng kh� n�ng tìm ki�m ngày nay mà

không có nh�ng gi�i h�n nghiêm tr�ng c$a m�ng Web ng� ngh a r�ng l�n.

Vic d a vào tiêu chu5n c$a �� chính xác, ph5m ch#t và s thu h1i �òi h2i

nhi�u h�n “s�c m�nh c� b�p”. Gán các công c! mô t� và phân lo�i cho v�n b�n cung

c#p m�t thu�n l�i quan tr�ng, b0ng cách tr� v� các tài liu không c�n ch�a liên k�t

theo t�ng ch� m�t cho truy v#n tìm ki�m c$a chúng ta. Các b� d� liu ��c mô t� ��y

�$ có th� cung c#p m�t b�c tranh v� ph�m vi và s phân tán c$a b� su t�p tài liu nói

chung. �i�u này có th� ��c th c hin b�i vic nghiên c�u c#u trúc c$a các danh m!c

và các danh m!c con (��c g�i là s phân lo�i_ taxonomy).

M�t tr� ng�i nghiêm tr�ng cho s ti�p c�n ��n vic phân lo�i d� liu này là v#n

�� v�n có trong b#t c� ki�u c$a taxonomy – trên th� gi�i �ôi khi ch�ng l�i s phân

lo�i. Ví d!, cà chua là trái cây hay rau qu�?

Và �i�u gì x�y ra khi chúng ta k�t n�i hai t�p tài liu ��c ch& m!c trong nh�ng

h�ng khác nhau? Các gi�i pháp ��c g�i là các “ontology taxonomy” (phân lo�i

ontology).

Các tìm ki�m t� khoá thông th�ng ti�p c�n m�t t�p tài liu mà m�t tài liu

ch�a hay không ch�a m�t t� �a ra.

Ch& m!c ng� ngh a ti�m tàng (LSI) thêm m�t b�c quan tr�ng cho vic x% lí

ch& m!c tài liu. Thêm vào vic ghi nh�ng t� khoá mà m�t tài liu ch�a, ph�ng pháp

này kh�o sát toàn b� t�p d� liu, �� th#y nh�ng tài liu khác ch�a m�t s� t� t�ng

��ng v�i các t� �ó. LSI ��c phát tri�n ��u tiên � Bellcore trong cu�i nh�ng n�m 80.

LSI xem các tài liu có nhi�u t� thông d!ng là có ngh a, và xem nh�ng tài liu ít t�

thông d!ng là có ít ng� ngh a. M"c dù thu�t gi�i LSI không hi�u tí gì v� ngh a c$a các

t�, nó nh�n ra các khuôn m�u.

Page 94: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 94 - 0112398 – T� Th� Ng�c Thanh

Khi b�n tìm ki�m m�t c� s� d� liu ch& m!c LSI, công c! tìm ki�m này xem

xét nh�ng giá tr� t�ng t mà nó tính toán cho m�i t� c$a n�i dung, và tr� v� các tài

liu mà nó ngh là thích h�p nh#t v�i câu truy v#n. B�i vì hai tài liu có th� r#t g�n

ngh a v�i nhau th�m chí n�u chúng không cùng chung m�t t� khoá �"c bit, LSI

không yêu c�u m�t s phân tích l#y t�ng x�ng �� tr� v� các k�t qu� h�u d!ng. (

nh�ng v� trí mà m�t tìm ki�m theo t� khoá ��n gi�n s* không th c hin ��c n�u

không có phân tích l#y t�ng x�ng, thì LSI s* th�ng tr� v� nh�ng tài liu liên quan

mà không ch�a t#t c� nh�ng t� khoá �ó.

3.3.2.1. Tìm ki�m l(y n�i dung

Vic l�p ch& m!c ng� ngh a ti�m tàng xem xét các m�u t� trong m�t t�p tài liu.

Ngôn ng� t nhiên có nhi�u nh�ng t� không c�n thi�t, và không ph�i m�i t� xu#t hin

trong tài liu ��u ch�a ng� ngh a. Các t� ��c s% d!ng th�ng xuyên trong ti�n Anh

th�ng không ch�a n�i dung, ví d! nh các t� ch�c n�ng, liên t�, gi�i t�, và các ��ng

t� th�ng. B�c ��u tiên trong vic th c thi LSI là ch�n l�c nh�ng t� xa l� t� m�t tài

liu. �� thu ��c n�i dung ng� ngh a t� m�t tài liu:

1. T�o m�t danh sách hoàn ch&nh t#t c� các t� xu#t hin trong b� su t�p.

2. L�c b2 các m�o t�, các gi�i t�, và các liên t�

3. L�c b2 các ��ng t� thông d!ng (know, see, do, be…)

4. L�c b2 các ��i t�

5. L�c b2 các tính t� thông d!ng (big, late, high…)

6. L�c b2 các t� “frilly” (therefore, thus, however, albeit,…)

7. L�c b2 m�t s� t� xu#t hin trong m�i tài liu.

8. L�c b2 các t� xu#t hin ch& trong m�t tài liu.

3.3.2.2. Stemming (lemmatize)

Công c! tìm ki�m ng� ngh a là m�t gi�i pháp hiu qu� �áng chú ý. Nó có th�

phát hin ��c 2 tài liu t�ng t nhau th�m chí n�u chúng không có b#t k3 m�t t�

Page 95: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 95 - 0112398 – T� Th� Ng�c Thanh

nào chung và công c! tìm ki�m ng� ngh a này có th� lo�i b2 nh�ng tài liu ch& dùng

chung nh�ng t� quan tâm m�t cách ph. bi�n.

M�t s� công vic kh�i ��u c�n thi�t �� thu th�p tài liu s6n sàng cho vic l�p

ch& m!c thì r#t �"c trng ngôn ng�, ch+ng h�n nh stemming (lemmatize). ��i v�i

các tài liu ti�ng Anh, chúng ta s% d!ng thu�t toán ��c g�i là The Porter Stemmer

�� kh% các ph�n �uôi thông th�ng c$a t�, �� tr� v� d�ng g�c c$a nó. (Ví d!: writing

→ write, writes → write, …).

Vic ��u tiên là áp d!ng ��i v�i các tài liu riêng bit, và chúng ta gán cho nó

m�t tr�ng s� c!c b�. Các t� xu#t hin nhi�u l�n trong m�t tài liu thì có tr�ng s� l�n

h�n nh�ng t� ch& xu#t hin 1 l�n.

Chúng ta �a ra m�t gi�i thu�t t�o ra trang web c$a các tài liu và các t� – liên

k�t t#t c� các tài liu v�i các t�. Cho m�t mô hình các t� và các tài liu, m�t ng�i có

th� thi�t l�p các giá tr� d a trên s khác bit c$a tài liu so v�i các tài liu khác. ‘Giá

tr�’ c$a m�t tài liu b#t k3 so v�i các tài liu khác có th� ��c thi�t k� nh là m�t hàm

c$a s� l�ng các k�t n�i mà ph�i ��c thông qua �� thi�t l�p m�t k�t n�i gi�a các tài

liu. N�u 2 tài liu ��c liên k�t v�i nhau b�i nhi�u ��ng �i (��ng k�t n�i) thì hai

tài liu này có th� có cùng m�t m�c �� t�ng quan.

Tr�ng s� c$a t� là s# chu,n hoá c a 2 t" có ngh!a thông th�7ng:

- Các t� xu#t hin nhi�u l�n trong m�t tài liu thì có nhi�u ng� ngh a h�n t�

ch& xu#t hin m�t l�n.

- Nh�ng t� ��c s% d!ng th�ng xuyên thì có th� �áng quan tâm h�n nh�ng

t� bình th�ng.

Mô t� gi�i thu�t:

V�i m�i tài liu:

1. “Stem” (l�c b2 ti�n t� và h�u t�) t#t cá các t� và b2 �i nh�ng t� có

ngh a th�ng xuyên xu#t hin.

2. ��i v�i m�i t�:

a. �ánh d#u l�i m�i tài liu mà có m�i quan h tr c ti�p ��n t� này.

Page 96: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 96 - 0112398 – T� Th� Ng�c Thanh

b. Tính �i�m cho m�i tài liu d a trên hàm tính kho�ng cách t� tài

liu xu#t phát ��n các m�i quan h c$a t�.

3. V�i m�i tài liu có m�i quan h m�i cha ��c �ánh d#u thì ti�n hành

lu v�t.

L"p l�i các thao tác nh trên m�t cách � qui.

Gi�i thu�t tính tr�ng s� chi ti�t ��c s% d!ng nh sau:

1. ��i v�i m�i l�n t�ng kho�ng cách, chia �i�m s� cho 2.

2. �i�m s� cho m�i tài liu b0ng v�i giá tr� gi�i h�n chia cho c�n b�c hai

tính ph. bi�n c$a t�.

Toàn b� thu�t gi�i này �a ra m�t cái nhìn ng� ngh a th#p d a vào ��ng �i t�

m�t tài liu ��n s� �1 t�.

Chu5n ��c trình bày � �ây là tr�ng h�p ��n gi�n nh#t và nó có th� ��c c�i

ti�n theo nhi�u cách khác nhau. Có nhi�u gi�i thu�t tính �i�m khác có th� ��c s%

d!ng. Thêm vào �ó, m�t t� �i�n �1ng ngh a có th� ��c áp d!ng �� giúp kh�c ph!c

các v#n �� ng� ngh a.

M�t th% thách �áng quan tâm là làm cho gi�i thu�t làm vic �� mà khi các tài

liu m�i ��c thêm vào chúng s* l�p t�c t tính �i�m. M�t thách th�c khác là tìm ra

m�t cách mà có th� �a gi�i thu�t ��n nhi�u máy.

3.3. Mô hình �� ngh- cho 'ng d�ng tìm ki�m ng% ngh!a trên l!nh v#c

eDoc

T� nh�ng c� s� lí thuy�t �ã nghiên c�u trên, chúng em t.ng h�p l�i và �� ngh�

mô hình cho �ng d!ng tìm ki�m ng� ngh a trong l nh v c eDoc.

Page 97: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 97 - 0112398 – T� Th� Ng�c Thanh

Hình 16: Mô hình �� ngh- cho 'ng d�ng tìm ki�m ng% ngh!a trên l!nh v#c eDoc

� Web Browser:

�óng vai trò giao din giao ti�p v�i ng�i dùng. Nó th c hin vai trò ti�p nh�n

câu truy v#n c$a ng�i dùng và hi�n th� k�t qu� câu truy v#n.

� Search engine:

�ây là ph�n chính c$a ch�ng trình. Search engine th c hin t#t c� các thao tác

x% lí c�n có c$a h th�ng:

� �óng vai trò nh web robot, thu th�p tài liu �in t% trên m�ng.

Search engine

Web Browser

Corpora

Ontology

Metadata

eDoc

Page 98: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 98 - 0112398 – T� Th� Ng�c Thanh

� Th c hin nh b� l�c, search engine ti�n hành thu th�p, x% lí, rút trích siêu

d� liu cho các tài liu b0ng cách phân tách t�, l�c b2 nh�ng t� không c�n

thi�t ch& gi� l�i danh sách các danh t� và ��ng t�, sau �ó ti�n hành th�ng kê

t�n s� xu#t hin c$a các l nh v c trong tài liu và cu�i cùng lu tr� siêu d� liu

cho n�i dung c$a tài liu �ó, s% d!ng chu5n siêu d� liu Dublin Core.

� T. ch�c và lu tr� các Ontology cho m�i quan h ng� ngh a gi�a các ��i

t�ng trong th c t�. Hình th�c t. ch�c, lu tr� d�ng t�p tin RDF.

� T. ch�c và lu tr� các kho ng� liu (corpora). �ây c/ng ��c xem là m�t

Ontology, bi�u di-n m�i quan h thành ph�n_b� ph�n c$a ��i t�ng, �1ng th�i

kho ng� liu c/ng cho phép xác ��nh các t� �1ng ngh a v�i nhau d a vào khái

nim synset. (Chi ti�t v� các kho ng� liu ��c mô t� bên d�i). S% d!ng hình

th�c lu tr� b�ng trong SQL Server vì d� liu này có nhu c�u truy v#n cao.

� Thi�t k� siêu d� liu �� mô t� m�i quan h gi�a các tài nguyên (các tài liu

eDoc) v�i các ��i t�ng trong Ontology. C/ng s% d!ng hình th�c lu tr� d�ng

c� s� d� liu quan h.

� Th c hin phân tích câu truy v#n c$a ng�i dùng, l#y nh�ng t� quan tr�ng,

t� �ó phân tích ng� ngh a c$a câu truy v#n d a vào Word Net và các Ontology

�1ng th�i truy v#n các siêu d� liu �� tr� v� cho Web Browser các tài liu �úng

v�i ng� ngh a câu truy v#n c$a ng�i dùng.

� eDoc

Ch& t#t c� các tài liu �in t% trên m�ng, c! th� là các file d�ng HTML, PDF,

CHM, ASP, PHP…

Page 99: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 99 - 0112398 – T� Th� Ng�c Thanh

Qui trình x� lí c a t+ng search engine:

Hình 17: Qui trình x� lý c a t+ng search engine

Internet

Câu truy v#n Tài liu tr� v�

Tài liu eDoc

Thông tin tài liu

Metadata

Nh�n câu truy v#n

X% lí truy v#n

Hi�n th� k�t qu�

Thu th�p tài liu

X% lí tài liu

Lu vào c� s� d� liu

Ontology

Ontology

Page 100: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 100 - 0112398 – T� Th� Ng�c Thanh

3.4. Các gi�i thu*t s� d�ng

3.4.1. Gi�i thu*t x� lý tài li&u:

Tài liu sau khi ��c thu th�p v� s* ��c x% lí thông qua b� l�c. S� �1 gi�i

thu�t:

Hình 18: Gi�i thu*t x� lý tài li&u:

eDoc

Các key word và thông tin

tài li&u

Danh t" và ��ng t"

text

Danh t" và ��ng t" nguyên m�u

l��c b: nh%ng t" không quan tr)ng

chuy6n sang text

th�ng kê t+n s� xu(t hi&n c a t" và l!nh

v#c c a tài li&u

lemmatize Kho ng% li&u

Kho ng% li&u

Page 101: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 101 - 0112398 – T� Th� Ng�c Thanh

Gi�i thu*t cho b��c lemmatize:

Kho ng� liu s% d!ng cho vic stemming là WORDNET vì s� l�ng t�

trong kho ng� liu là khá l�n (v�i trên 100 000 danh t� và 11 000 ��ng t�), các

t� s% d!ng � d�ng nguyên m�u. Ngoài ra trong t �i�n c$a WORDNET có file

“noun.exc” và “verb.exc”, �ây là hai file �� chuy�n các danh t� d�ng s� nhi�u

b#t qui t�c sang s� ít và chuy�n các ��ng t� quá kh� và ti�p di-n d�ng b#t qui

t�c v� nguyên m�u.

Các b�c stemming ��n gi�n:

B1: Ki�m tra t�ng t�, n�u t� này có trong “noun.exc” hay “verb.exc” thì l#y

d�ng nguyên m�u c$a nó.

B2: N�u không có thì:

� N�u t� này k�t thúc b0ng “s” thì: ti�n hành b2 “s” theo lu�t.

• N�u t� k�t thúc b0ng “ss”, “chs”, “shs”, “xs”, “is”, “zs” thì

�ây không ph�i là s� nhi�u.

• N�u t� k�t thúc là “ ’s ” thì �ây là d�ng s� h�u cách nên b2 hai

kí t này.

• B2 kí t ‘s’ � cu�i t�.

• Ki�m tra trong kho ng� liu danh t� và ��ng t�, n�u có t� này

thì �ây là t� nguyên m�u.

• N�u không có (ngh a là t� này cha � d�ng nguyên m�u) thì:

o N�u t� k�t thúc b0ng “se”, ”che”, “she”, “xe”, “ze” thì b2

kí t ‘e’ sau cùng.

o n�u t� k�t thúc b0ng “ie” thì b2 “ie” thêm “y”.

� N�u t� này k�t th�c b0ng “ed” thì:

• B2 “ed”.

• Ki�m tra trong kho ng� liu ��ng t�, n�u có thì �ây là d�ng

nguyên m�u.

Page 102: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 102 - 0112398 – T� Th� Ng�c Thanh

• N�u không có thì:

o N�u t� có hai kí t cu�i gi�ng nhau thì b2 m�t kí t cu�i.

o N�u t� k�t thúc b0ng “i” thì thay b0ng “y”.

o Còn các tr�ng h�p còn l�i thì thêm vào cu�i kí t ‘e’.

� N�u t� này k�t th�c b0ng “ing” thì:

• B2 “ing”.

• Ki�m tra trong kho ng� liu ��ng t�, n�u có thì �ây là d�ng

nguyên m�u.

• N�u không có thì:

o N�u t� có hai kí t cu�i gi�ng nhau thì b2 m�t kí t cu�i.

o N�u t� k�t thúc b0ng “y” thì thay “y” b0ng “ie”.

o Còn các tr�ng h�p còn l�i thì thêm vào cu�i kí t ‘e’.

3.4.2. Gi�i thu*t rút trích siêu d% li&u:

Sau khi �ã x% lí tài liu �� l#y các thông tin v� tài liu, ch�ng trình xây d ng

metadata �� mô t� tài liu �ó. Metadata s% d!ng chu5n Dublin Core �� mô t� và �a

v� lu tr� d�ng RDF.

Page 103: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 103 - 0112398 – T� Th� Ng�c Thanh

Hình 19: Gi�i thu*t rút trích siêu d% li&u

S% d!ng các tag chính:

- title: mô t� tên tài liu

- identifier: mô t� URI c$a tài liu

- language: ngôn ng� tài liu

- description: mô t� thông tin tài liu

- subject: các t� khoá cho tài liu (m�t s� trang HTML có th,

meta này, k�t h�p v�i m�t s� t� th�ng kê ��c trong n�i dung

tài liu).

Các key word và thông tin

tài li&u

tiêu ��

Tác gi�

Key word

�-a ch3 tài li&u

DC: Title

DC: Creator

DC: Subject

DC: Description

DC: Language

File RDF

Ngôn ng%

Page 104: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 104 - 0112398 – T� Th� Ng�c Thanh

N�i dung c$a các tag này ch$ y�u ��c l#y trong ph�n HEAD c$a file

HTML. Tr� tag identifier và subject ��c thêm vào t� thông tin nh�n din tài

nguyên c$a robot và thông tin th�ng kê key word.

3.4.3. Gi�i thu*t phân lo4i l!nh v#c cho tài li&u:

M�t tài liu, sau khi ��c rút trích thông tin � ph�n header, s* ��c x% lí n�i

dung �� phân lo�i l nh v c cho nó. Các l nh v c ��c �a ra �� phân lo�i chính là

nh�ng l�p con (subclass) trong ontology. Và hình th�c phân lo�i là s% d!ng m�t t�p

các t� �ng v�i m�i l�p con bao g1m các t� �1ng ngh a và các t� chi ti�t h�n c$a l�p

con �ó, g�i là các t� chuyên ngành. Vic xây d ng t �i�n các t� này d a vào kho ng�

liu WordNet và Tropes (công c! phân lo�i v�n b�n).

Ví d!, trong l nh v c “khoa h�c máy tính” thì có nh�ng l�p con nh “máy tính”

(computer), “l�p trình” (programming)…. Và l�p con “máy tính” (computer) l�i ch�a

các t� riêng c$a nó nh: computing machine, hardware, CPU….

Các b�c phân lo�i l nh v c:

B1: D a vào danh sách các t� chuyên ngành, tìm trong tài liu và ��m s� l�n

xu#t hin c$a nó, con s� này ��c xem nh là tr�ng s� c$a t� trong tài liu.

B2: C�ng các tr�ng s� c$a t� trong t�ng l�p con �� tính tr�ng s� cho m�i l�p

con.

B3: L�p con nào có tr�ng s� cao nh#t thì ��c xem là l�p t�i u và tài liu s*

��c x�p vào l�p con �ó.

Và m�i quan h gi�a tài liu v�i các l�p con s* ��c lu tr� theo d�ng ch& m!c

Doc_Onto.

3.4.4. Gi�i thu*t x� lí câu truy v(n:

Các b�c phân tích l nh v c c$a câu truy v#n c/ng ��c th c hin t�ng t nh

gi�i thu�t phân lo�i l nh v c cho tài liu. T� vic phân tích �ó, nh�ng tài liu thu�c

l nh v c t�i u c$a câu truy v#n s* ��c �a ra và xem nh �ó là k�t qu� tr� v� cho

ng�i dùng.

Page 105: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 105 - 0112398 – T� Th� Ng�c Thanh

Ch��ng 4 : CH��NG TRÌNH �NG DNG

4.1. Gi�i thi&u ch��ng trình 'ng d�ng:

Trong ch�ng này, chúng em xây d ng m�t công c! tìm ki�m �� minh ho� cho

vic tìm ki�m Web trên Internet có k�t h�p v�i ng� ngh a. Mô hình xây d ng ��c

hin th c d a trên c� s� áp d!ng và phát tri�n các mô hình Web ng� ngh a mà chúng

em �ã trình bày trong các ch�ng tr�c.

Ch�ng trình �ng d!ng s* th c hin vic tìm ki�m ng� ngh a thông qua các

công ngh Web ng� ngh a hin có và các gi�i pháp mà chúng em �ã �� xu#t:

- Ch�ng trình có s% d!ng công c! RDF Gateway.

- Thi hành trên I.E5.

- Ch�ng trình có s% d!ng công c! RDF editor.

4.2. Ki�n trúc c a 'ng d�ng:

�� thi�t k� công c! tìm ki�m ng� ngh a �ng d!ng trên eDoc, chúng em �� xu#t

m�t ki�n trúc mô hình h� tr� vic tìm ki�m trên Internet và Intranet g1m các công

�o�n sau:

� Công �o4n 1: Thi�t k� ontology.

Các Ontology th�ng lu d�i d�ng t�p tin có �uôi: .rdf, .rdfs, .owl, .daml,

.xml, ….

Ontology mô t� m�i quan h gi�a các ��i t�ng trong th c t�. Ontology do các

chuyên gia v� các l nh v c �ã ��c t�o s6n, �� s6n trên Internet. �"c tính c$a các

Ontology này là cho phép m�i ng�i có th� chia s,, t�o, ��c và ghi trên nó. Do �ó,

chúng ta có th� phát tri�n Ontology theo ý mu�n.

Các Ontology c/ng ��c t�o t� nh�ng t�p tin c#u trúc d�ng: HTML, RDF,

Image, Excel, WinWord, SQL Server, Oracle, …. Các Ontology này s* ��c t�o ra

thông qua m�t công c! so�n th�o, sau �ó chúng s* ��c lu d�i d�ng t�p tin có �uôi:

.rdf, .rdfs, .owl, .daml, ….

Page 106: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 106 - 0112398 – T� Th� Ng�c Thanh

Các công c! có th� dùng �� so�n th�o Ontology là:

- S% d!ng HTML Parser.

- Protégé

- RDF Editor

- ….

� Công �o4n 2: Xây d#ng 'ng d�ng.

Các b�c chính trong quá trình xây d ng �ng d!ng:

o B�c 1: Dùng các ph�n m�m nh Crawlers, Spiders, … �óng vai

trò là các robot thu th�p thông tin trên internet, c/ng nh là �� thu th�p

các Ontology t� trên internet.

o B�c 2: Dùng tin ích RDF Query Analyzer trong ph�n m�m

RDF Gateway �� �a các file Ontology( thu ��c � B�c 1 ) vào c� s�

d� liu c$a RDF Gateway.

o B�c 3: Xây d ng �ng d!ng:

• Ti�n hành phân lo�i Ontology (�ã thu ��c) theo nh�ng

l nh v c c�n tìm.

• Tài liu sau khi �ã thu th�p (� B�c 1), ti�n hành rút trích

siêu d� liu v�i các thành ph�n quan tâm: title, author,

keyword, subject, description, …. R1i phân lo�i tài liu

theo l nh v c.

• Siêu d� liu rút trích ��c s* ��c �a xu�ng c� s� d�

liu SQL Server. �1ng th�i c/ng xây d ng m�i quan h

gi�a các ��i t�ng trong Ontology v�i siêu d� liu rút

trích.

• V�i truy v#n ng�i dùng nh�p vào, vào c� s� d� liu ti�n

hành truy v#n và tr� ra k�t qu� cho ng�i dùng.

Page 107: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 107 - 0112398 – T� Th� Ng�c Thanh

4.3. Mô t� ph4m vi 'ng d�ng

4.3.1. Mô t� bài toán:

Trong �ng d!ng này, chúng em tích h�p các Ontology (l#y t� internet) vào m�t

th m!c � máy c!c b� �� tin cho vic minh ho� �ng d!ng. Tuy nhiên, ta có c/ng có

th� l#y các ontology này tr c ti�p t� internet. Các ontology ��c lu vào localhost:

http://localhost/eDocSearch/Library/RDF/

( �ây ch& s% d!ng nh�ng ontology cho t�ng l nh v c nh#t ��nh, n�u m�t l nh

v c có nhi�u ontology ho"c m�t ontology �ng d!ng cho nhi�u l nh v c thì ta ph�i ti�n

hành phân lo�i ontology theo l nh v c ( �ây là h�ng m� r�ng c$a lu�n v�n).

7ng d!ng ��c xây d ng nh0m minh h�a cho vic tìm ki�m ng� ngh a trên

l nh v c edoc, ph�m vi �ng d!ng gi�i h�n trong l nh v c nh sau:

• Khoa h�c máy tính (computer scient).

• Ngh thu�t (art) .

4.3.2. Xác �-nh yêu c+u:

� Yêu c+u l�u tr%:

Lu thông tin ng� ngh a c�n tìm ( các ��i t�ng) t� các ontology vào

trong CSDL, thông tin mô t� các thu�t ng� t�ng ��ng h� tr� cho vic

tìm ki�m.

� Yêu c+u tra c'u:

Tìm ki�m các tài liu liên quan ��n thu�t ng� mà ng�i dùng gõ vào.

� Tính hi&u qu�:

K�t qu� tìm ki�m ph�i phù h�p, chính xác, nhanh chóng theo công ngh

Semantic Web.

� Tính ti�n hoá:

Các tài liu h� tr� nhi�u tài liu h�n, nhi�u l nh v c h�n, ….

� Tính t��ng thích:

Ng�i dùng ch& c�n m�t trình duyt web và k�t n�i ��c ��n server.

Page 108: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 108 - 0112398 – T� Th� Ng�c Thanh

� Tính ti&n d�ng:

Giao din thân thin, d- s% d!ng, ng�i dùng ch& c�n gõ vào m�t thu�t

ng� c�n tìm ki�m r1i nh#n vào nút Search.

� Tính b�o m*t:

Ng�i dùng ch& xem ��c k�t qu� tra c�u d�i d�ng t nh (htm/html).

� Tính d; b�o trì:

D- dàng phát tri�n hay thêm các ontology thu�n l�i.

4.4. Xây d#ng 'ng d�ng:

4.4.1. Thi�t k� d% li&u: D� liu ��c lu tr� trong SQL Server 2000. Bao g1m các b�ng:

Hình 20: S� �. d% li&u quan h& c a 'ng d�ng

Page 109: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 109 - 0112398 – T� Th� Ng�c Thanh

Tên b�ng

Các tr�7ng Mô t�

DOCUMENTS DocID varchar(12)

Title text

Descript text

URI varchar(200)

Author varchar(200)

Datacreate varchar(12)

Keywords text

Version varchar(50)

ScenID char(3)

B�ng lu tr� thông tin

c$a các tài liu cùng v�i

l nh v c mà tài liu �ó

thu�c v�.

ONTOLOGIES OntoID varchar(12)

Word varchar(50)

ScenID char(3)

B�ng lu tr� thông tin

các ��n t�ng c$a

ontology.

DOC_ONTO DocID varchar(12)

OntoID varchar(12)

M�i quan h gi�a tài

liu và các ��i t�ng

c$a ontology

WORDS WordID varchar(10)

Word varchar(50)

ScenID char(3)

Có th� xem �ây là danh

sách các t� có th� có

trong m�t l nh v c.

WORD_ONTO WordID varchar(10)

OntoID varchar(12)

Các t� tham chi�u ��n

m�t ��i t�ng c$a

Ontology

STATISTIC OntoID varchar(12)

NumWords int

ScenID char(3)

�ây là b�ng t�m dùng ��

lu tr� s� t� tìm th#y

trong tài liu �ng v�i

m�t ��i t�ng trong

Ontology. B�ng này s%

d!ng �� phân lo�i tài

Page 110: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 110 - 0112398 – T� Th� Ng�c Thanh

liu theo m�t l nh v c.

WORD_TEMP Word varchar(50)

Numwords int

�ây c/ng là m�t b�ng

t�m nh0m lu các t� có

trong tài liu �ng �� sau

này l#y các key word

cho tài liu.

B�ng 6 Mô t� c� s$ d% li&u cho 'ng d�ng

��c bi&t b�ng Ontology ��c xây d ng t� nh�ng tài liu RDF. S% d!ng RDF

gateway �� truy v#n và cache d� liu vào b�ng này giúp tìm ki�m nhanh chóng

và d- dàng h�n.

4.4.2. Thi�t k� x� lý:

Ch�ng trình s% d!ng ngôn ng� l�p trình C# k�t h�p v�i ASP.NET.

S% d!ng SQL Server 2000 �� lu tr� d� liu.

Ch�ng trình có 2 module:

STT Module Ý ngh!a

1 eDocSearch Th c hin giao ti�p v�i ng�i dùng, ti�p

nh�n câu truy v#n, x% lí câu truy v#n, và

hi�n th� k�t qu� cho ng�i dùng.

2 eDocSearchAdministrator Qu�n lí c� s� d� liu các t�, các

ontology, các tài liu.

Thu th�p tài liu t� Internet, và x% lí tài

liu.

B�ng 7 Các module c a ch��ng trình

Page 111: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 111 - 0112398 – T� Th� Ng�c Thanh

Các l�p ��i t�ng cho t�ng module:

� Module eDocSearch:

STT L�p ��i t��ng Ý ngh!a

1 UserQuery.cs Có trách nhim x% lí câu truy v#n c$a ng�i

dùng, và tr� ra k�t qu� cho câu truy v#n.

B�ng 8 Module eDocSearch

� Module eDocSearchAdministrator:

STT L�p ��i t��ng Ý ngh!a

1 Database.cs Th c hin k�t n�i c� s� d� liu SQL server và

RDF gateway.

2 Spider.cs Thu th�p tài liu t� Internet

3 DocumentProcess.cs Qu�n lí c� s� d� liu tài liu ( rút trích

metadata cho tài liu, phân lo�i l nh v c cho tài

liu).

4 TextProcess.cs Có trách nhim x% lí v�n b�n (l�c b2 các t�

không quan tr�ng, th c hin “lemmatize”)

5 Word_database.cs Qu�n lí c� s� d� liu các t� chuyên ngành cho

t�ng l nh v c.

5 ManageOntology.cs Qu�n lí c� s� d� liu Ontology

6 DatabaseProcess.cs X% lí Ontology, chuy�n t� d�ng lu tr� RDF

sang c� s� d� liu quan h SQL server.

B�ng 9 Module eDocSearch

Page 112: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 112 - 0112398 – T� Th� Ng�c Thanh

4.5. K�t qu� ch��ng trình

Tài liu cho vic tìm ki�m th% nghim ��c download v� và lu trong máy ch$

� th m!c http://localhost/eDocSearch/DataTest/. S� l�ng tài liu kho�ng 500 tài liu

cho c� hai l nh v c.

Môi tr�ng �ng d!ng: Máy Celeron, 256 MB RAM, 1.2 GB, hdh Windows XP.

� Th�i gian x% lý v�n b�n ~ 2s/tài liu

� Th�i gian x% lý truy v#n nhanh.

� Phân lo�i v�n b�n theo l nh v c: 91%

Ch�ng trình cho phép ng�i dùng truy v#n nh�ng v#n �� quan tâm b0ng ngôn

ng� t nhiên.

Giao din chính c$a ch�ng trình:

Hình 21: Giao di&n chính c a 'ng d�ng

Page 113: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 113 - 0112398 – T� Th� Ng�c Thanh

Hình 22: Giao di&n k�t qu� tìm ki�m c a 'ng d�ng

Giao din qu�n lí tài nguyên:

Hình 23: Giao di&n qu�n lí tài nguyên

Page 114: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 114 - 0112398 – T� Th� Ng�c Thanh

4.6. Th#c nghi&m ch��ng trình

� Danh sách các câu truy v(n th� nghi&m ch��ng trình:

STT T" truy v(n S� tài li&u

tr� v�

S� tài li&u không

�úng n�i dung

1 Programming 14 3

2 Oop 10 1

3 Asp 10 1

4 Assembly 9 2

5 Java 12 3

6 Visual basic 3 0

7 C# 10 1

8 Data 7 3

9 Database 76 33

10 Metadata 32 14

11 Register 0 0

12 Security 5 1

13 Computer science 63 25

14 Computing 47 17

15 Algorithm 45 9

16 Machine

translation

52 17

17 Computer vision 62 27

18 Internet 46 6

19 www 43 18

20 Site 43 18

21 Server 57 22

22 Computer 29 24

23 Hardware 11 7

Page 115: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 115 - 0112398 – T� Th� Ng�c Thanh

24 Information

processing

9 7

25 Natural language

processing

10 8

26 Sofrware 12 6

27 Freeware 7 2

28 Shareware 7 2

29 Virus 6 0

30 Norton antivirus 5 0

31 Graphic 5 3

32 Picture 9 7

33 Artwork 15 7

34 Art school 100 90

35 Artist 12 3

36 Gallery 19 17

37 Museum 19 8

38 Clip art 100 90

39 Painting 36 27

40 Landscape 11 6

41 Portrait 10 7

B�ng 10 Các câu truy v(n th� nghi&m

� K�t qu� th�ng kê truy v(n theo t"ng l!nh v#c:

Công th�c th�ng kê:

�� chính xác c$a l nh v c = trung bình c�ng(ph�n tr�m chính xác c$a t�ng t�

trong l nh v c �ó).

Page 116: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 116 - 0112398 – T� Th� Ng�c Thanh

� Computer & information science:

STT Tên l!nh v#c �� chính xác

1 Programming 87%

2 Data 57%

3 Security 93%

4 Computer science 65%

5 Internet 67%

6 Computer 26%

7 Information science 21%

8 Software 64%

9 Virus 100%

B�ng 11 Th�ng kê l!nh v#c khoa h)c máy tính

� Art:

STT Tên l!nh v#c �� chính xác

1 Art and artwork 10%

2 Artist 75%

3 Gallery 11%

4 Museum 58%

5 Art school 10%

6 Painting 25%

8 Music 70%

9 Music style 65%

B�ng 12 Th�ng kê l!nh v#c ngh& thu*t.

Page 117: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 117 - 0112398 – T� Th� Ng�c Thanh

� Nh*n xét:

- 7ng d!ng ch& xây d ng trên hai l nh v c là ngh thu�t và khoa h�c máy

tính nên m�i tài liu �a vào ��u ��c phân vào m�t trong hai l nh v c

này do �ó làm gi�m �i �� chính xác.

- S� tài liu tr� v� cho m�i t� trong cùng m�t l�p con trong ontology là

không b0ng nhau do ph�ng pháp x% lí câu truy v#n là: l#y nh�ng tài

liu trong cùng l�p con c$a ontology và �1ng th�i l#y nh�ng tài liu có

t� khoá có trong v�i t� khoá c$a câu truy v#n.

- �� chính xác trong vic phân lo�i tài liu theo t�ng l�p con cha cao do

các l�p con trong ontology thi�t k� cha ��y �$, cha bao hàm h�t các

khái nim trong m�t l nh v c và s� t� trong m�t l nh v c cha nhi�u và

��y �$.

- M"t khác, �� chính xác trong vic phân lo�i c$a tài liu còn b� �nh

h�ng do s� l�ng t� c$a n�i dung trong tài liu ít (tài liu ch& ch�a �a

s� là các hyperlink và các hình �nh).

- L nh v c ngh thu�t có �� chính xác th#p do các t� trong m�i l�p con

c$a ontology không ��c phân bit rõ ràng, m�t t� có th� n0m � nhi�u

l�p và s� l�ng t� ít.

Tóm l�i, ch�ng trình �ng d!ng ��t hiu qu� t�t trong vic phân lo�i tài liu

theo l nh v c l�n, còn ��i v�i t�ng l�p con trong m�i l nh v c thì hiu qu� cha cao.

Ng�i qu�n tr� có th� nâng cao hiu qu� c$a ch�ng trình b0ng cách xây d ng t#t c�

các l nh v c trong th c t�, b. sung các t� trong t�ng l�p con c$a m�i l nh v c theo xu

h�ng càng nhi�u t� �"c trng cho l�p càng t�t (m�c cô l�p gi�a các l�p càng cao).

Page 118: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 118 - 0112398 – T� Th� Ng�c Thanh

Ch��ng 5 : K�T LU�N

5.1. �ánh giá k�t qu� nghiên c'u

5.1.1. �u �i6m

V� c� b�n lu�n v�n �ã th c hin t�t các n�i dung �� ra và ��t ��c m�t s� k�t

qu� nh#t ��nh :

o Lu�n v�n �ã trình bày c� s� lý thuy�t v� nguyên lý v�n hành c/ng

nh u và khuy�t �i�m c$a m�t h th�ng search engine.

o Lu�n v�n trình bày rõ mô hình Web ng� ngh a cùng v�i các ��i

t�ng c$a nó nh RDF, OWL, …

o Trình bày các v#n �� v� ng� ngh a c/ng nh các h�ng gi�i quy�t

trong vic x% lí ngôn ng� t nhiên nh0m giúp máy tính “hi�u” ��c

câu h2i c$a ng�i dùng.

o T� nh�ng c� s� nghiên c�u lí thuy�t, lu�n v�n �ã �� ra mô hình cho

vic xây d ng công c! tìm ki�m ng� ngh a, và th c hin cài �"t m�t

công c! tìm ki�m các tài liu �in t% phù h�p v�i ng� ngh a c$a câu

truy v#n c$a ng�i dùng.

o Lu�n v�n có th� xác ��nh t�ng ��i chính xác l nh v c mà tài liu

thu�c v�. Và ph�n nào xác ��nh ��c l nh v c c$a câu truy v#n c$a

ng�i dùng.

���� Ý ngh a th c ti-n:

���� Tìm hi�u mô hình, n�m v�ng công ngh tìm ki�m ng� ngh a ��

áp d!ng chi ti�ng Vit.

���� Ý ngh a khoa h�c:

���� �ây là công c! ph!c v! cho nhu c�u phân lo�i v�n b�n, phân lo�i

tài liu h�c t�p.

Page 119: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 119 - 0112398 – T� Th� Ng�c Thanh

5.1.2. Khuy�t �i6m:

Tuy nhiên, do v#n �� v� ng� ngh a là m�t v#n �� ph�c t�p và r�ng l�n nên lu�n

v�n ch& �� ra m�t s� h�ng nghiên c�u hin nay � m�t s� l nh v c h�u h�n, không th�

bao hàm h�t ��c các khái nim c/ng nh ngôn ng� c$a con ng�i.

Nh�ng v#n �� ��c �� xu#t trong lu�n v�n nh0m m!c �ích �a ra m�t h�ng

gi�i quy�t mang tính ch#t tham kh�o nên có th� s* có nhi�u �i�m cha t�i u, c�n

��c hoàn thin h�n.

Trong ch�ng trình �ng d!ng, lu�n v�n s% d!ng c� s� d� liu các t� �"c trng

cho t� l nh v c, c� s� d� liu này ��c xây d ng ch$ y�u d a vào WordNet, song v�n

còn h�n ch� v� s� l�ng các t� riêng cho t�ng chuyên ngành. N�u câu truy v#n c$a

ng�i dùng h2i v� nh�ng t� không n0m trong c� s� d� liu thì có th� s* không tìm

th#y k�t qu�. Và vic phân lo�i các t� l nh v c mang tính ch$ quan nên có th� cha t�i

u.

Vic phân lo�i tài liu theo l nh v c t�ng ��i t�t do có s� l�ng t� khá nhi�u

nhng vic phân lo�i câu truy v#n c$a ng�i dùng, s% d!ng m�t l�ng t� r#t ít nên có

m�t s� câu truy v#n không có k�t qu� tr� v�.

Ngoài ra, lu�n v�n ch& s% d!ng c� s� d� liu các tài liu lu s6n v� trên máy ch$ nên

s� l�ng các tài liu cha l�n.

5.2. H��ng phát tri6n

Ch�ng trình �ng d!ng c$a lu�n v�n ��c xây d ng d a trên nh�ng v#n �� c�

b�n, song nó có th� phát tri�n �� ngày càng hoàn thin và t�i u h�n. Nh�ng h�ng

phát tri�n c$a lu�n v�n:

- M� r�ng tìm ki�m trong t#t c� các l nh v c.

- Tìm ki�m trên nhi�u ontology, phân lo�i ontology.

- Th c s tìm ki�m online.

- 7ng d!ng cho Ti�ng Vit.

Page 120: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 120 - 0112398 – T� Th� Ng�c Thanh

TÀI LIU THAM KH�O

I. Lu*n v8n, lu*n án:

[I.1] �"ng Th� Qu3nh Chi. Lu�n v�n th�c s tin h�c. Nghiên c'u v� mô hình,

khám phá và khai thác các m�i quan h& trên web ng% ngh!a, xây d#ng 'ng

d�ng. Ng�i h�ng d�n khoa h�c: Nguy-n Ti�n D/ng.

[I.2] Lê Thuý Ng�c, �� M� Nhung. Lu�n v�n c% nhân tin h�c. Tìm hi6u v�

Search Engine và xây d#ng 'ng d�ng minh ho4 cho Search Engine ti�ng

Vi&t. GVHD: Nguy-n Th� Di-m Tiên.

II. Sách, eBooks:

[II.1] Ying Ding, Dieter Fensel, Michel Klein, and Borys Omelayenko. The

Semantic Web: Yet another Hip?. Data and knowedgle engineering, 2002.

[II.2] Eero Hyvonen. Semantic web Kick – off in Finland vision, Technologies,

Research, and Applications; May 19, 2002 .

[II.3] �inh �i�n, Giáo trình X% Lý Ngôn Ng� T Nhiên, tháng 12/2004.

[II.4] Dr. V. Richard Benjamins, Jesús Contreras; Six challenges for the

semantic web; April 2002.

[II.5] Nicola Guarino; Some Ontological Principles for Designing Upper

Level Lexical Resources; 28 – 30 May 1998.

[II.6] Urvi Shah, Tim Finin, Anupam Joshi, R. Scott Cost, James Mayfield;

Information Retrieval on the Semantic Web*.

[II.7] Luke K. McDowell; Meaning for the Masses: Theory and Applications

for Semantic Web and Semantic Email Systems; 2004.

[II.8] Gareth Osler;The Semantic Web Through Semantic Data – A Four Tier

Architecture Model ; 4 Mar 2005.

Page 121: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 121 - 0112398 – T� Th� Ng�c Thanh

[II.9] Julius Stuller; Network of Excellence Semantic Web; 7 June 2002.

[II.10] Peter Dolog and Wolfgang Nejdl; Challenges and Benefits of the

Semantic Web for User Modelling.

[II.11] Pang Wang; A Search Engine Based on the Semantic Web; May, 2003.

[II.12] Karen Sparck Jones; What’s new about the Semantic Web? Some

questions; December 2004, 18 – 23.

[II.13] Mark Klein, Abraham Bernstein; Searching for Services on the

Semantic Web Using Process Ontology; July 30 – August 1, 2001.

[II.14] Michael Sintek, Stefan Decker; TRIPLE – A Query Language for the

Semantic Web; November 2 2001.

[II.15] Stefan Decker, Vipul Kashyap; The Semantic Web: Semantics for Data

on the Web; September 10 2003.

[II.16] Catherine C. Marshall; Taking a Stand on the Semantic Web; 2003.

[II.17] Eric Miller, Ralph Swick; Semantic Web Activity: Adcanced

Development; 07/09/2003.

[II.18] Tim Berners – Lee; Semantic Web Road map; 10/14/1998.

[II.19] Raul Corazzon; Ontology. A resource guide for philosophers;

06/01/2005.

[II.20] John F.Sowa; Guided Tour of Ontology; June 03 2005.

[II.21] John F. Sowa; Building, Sharing, and Merging Ontologies; June 03

2005.

[II.22] ISO; Information and documentation – The Dublin Core metadata

element set; 02/26/2003.

[II.23] IEEE; Draft Standard for Learning Object Metadata; 15 July 2002.

[II.24] Shigeo SUGIMOTO, Jun ADACHI, Stuart WEIBEL; 68th IFLA

Council and General Conference; August 24 2002.

[II.25] Stiching SURF; DARE use of Dublin Core, version 2.0; December

2004.

Page 122: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 122 - 0112398 – T� Th� Ng�c Thanh

[II.26] CEN/ISSS MII – DC (WI3) Report; Guidance for the Deployment of

Dublin Core Metadata in Corporate Environments; 8/20/2004 DRAFT.

[II.27] Kazuhiko Asou, Takako Nakahara, Takao Namiki; A report on Dublin

Core based research information service on mathematics; 10/26/2001.

[II.28] Western States Digital Standards Group, Metadata Working Group;

Western States Dublin Core Metadata Best Practices, Version 2.0; 01/12/2005.

[II.29] Jay Cross, CEO, Internet Time Group; eLearning; mid – 1999.

[II.30] ADOBE; A primer on electronic document security; 11/2004.

[II.31] Gerhard U. Bartsch; Introduction to Electronic Document Management

Whitepaper ; March 16 2003.

[II.32] Andreas Hotho; Using Ontologies to Improve the Text Custering and

Classification Task; January 14 2005.

[II.33] Norman Paskin; DOI: implementing a standard digital identifier as the

key to effective digital rights management; March 9 2000.

III. Website:

[III.1] W3C SemanticWeb Activity http://www.w3.org/2001/sw

[III.2] Semantic web server http://www.semanticwebserver.com

[III.3] RDF http://www.w3.org/RDF

[III.4] Tim Berners – Lee Notation3

http://www.w3.org/DesignIssues/Notation3.html

[III.5] http://www.cimtech.co.uk

[III.6] http://www.adobe.com/security

[III.7] RDQL: RDF Data Query Language

http://www.htl.hp.com/semweb/rdql.html

[III.8] RDF/XML Syntax Specification http://www.w3.org/TR/rdf-syntax-

grammar/

[III.9] DAML http://www.daml.org

[III.10] RDF Data http://www.rdfdata.org

Page 123: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 123 - 0112398 – T� Th� Ng�c Thanh

[III.11] National Information Standards Organization http://www.niso.org

[III.12] Intellidimension: Delivering a Platform for the Semantic Web

http://www.intellidimension.com/

[III.13] eLib http://purl.org/metadata/dublin_core.

Page 124: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 124 - 0112398 – T� Th� Ng�c Thanh

PH LC

1. Cú pháp RDF: rdfs:Resource

T#t c� m�i th� ��c mô t� b�i RDF ��c g�i là resources và là thành viên c$a class

rdfs:Resource

rdfs:Literal

L�p rdfs:Listeral ��i din cho m�t l�p các giá tr� ký t nh là strings và intergers. Ví

d!: thu�c tính giá tr�: chu�i text

rdfs:XMLLiteral

L�p rdfs:XMLLiteral ��i din cho l�p giá tr� chu�i c$a XML.

rdfs:Class

L�p này t�ng �ng v�i khái nim chung type ho"c là catalog c$a tài nguyên.

RDF class membership (quan h thành viên l�p RDF) ��c s% d!ng �� ��i din cho

types và catalog c$a tài nguyên. Hai l�p có th� có cùng thành viên.

rdf:Property

rdf:Property ��i din cho nh�ng tài nguyên có thu�c tính RDF.

rdfs:Datatype

rdfs:Datatype ��i din cho nh�ng tài nguyên có các ki�u d� liu RDF.

rdf:type

Thu�c tính rdf:type cho bi�t m�t tài nguyên là thành viên c$a class nào.

Khi m�t tài nguyên có m�t thu�c tính rdf:type mà giá tr� c$a thu�c tính này là m�t s�

class xác ��nh, thì chúng ta nói r0ng tài nguyên là m�t instance of c$a class xác ��nh

này.

Page 125: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 125 - 0112398 – T� Th� Ng�c Thanh

Giá tr� c$a thu�c tính rdf:type s* luôn là m�t tài nguyên – tài nguyên này là m�t th�

hin (instance) c$a rdfs:Class. Tài nguyên này ��c bi�t nh là rdfs:Class b�n thân nó

là m�t tài nguyên c$a m�t rdf:type rdfs:Class. (B�n thân nó c/ng là m�t ki�u – type

c$a m�t l�p).

rdfs:subClassOf

Thu�c tính rdfs:subClassOf ��i din cho m�i quan h chu5n hoá gi�a các class c$a

m�t tài nguyên. Thu�c tính rdfs:subClassOf là m�t transitive.

rdfs:subPropertyOf

Thu�c tính rdfs:subPropertyOf là m�t th� hin (instance) c$a rdf:Property, ��c s%

d!ng �� xác ��nh m�t thu�c tính là m�t chu5n c$a m�t cái khác.

H th�ng c#p b�c thu�c tính con có th� ��c s% d!ng �� trình bày h th�ng c#p b�c

c$a các ràng bu�c v� range và domain.

Chú ý: Thu�t ng� “super – property” �ôi khi ��c s% d!ng �� cho bi�t m�i quan h

gi�a m�t s� thu�c tính v�i nhi�u thu�c tính ph. bi�n khác, ví d! là m�i quan h

rdfs:subPropertyOf.

rdfs:range

M�t th� hin c$a rdf:Property ��c s% d!ng �� cho bi�t các class nào mà giá tr� c$a

m�t thu�c tính s* là thành viên c$a nó.

Giá tr� c$a m�t thu�c tính rdfs:range luôn luôn là m�t Class. Thu�c tính rdfs:range b�n

thân nó có th� ��c s% d!ng �� bi�u di-n �i�u này: The rdfs:range of rdfs:range is the

class rdfs:Class. �i�u này cho th#y r0ng b#t k3 m�t tài nguyên nào là giá tr� c$a thu�c

tính range s* là m�t class.

Thu�c tính rdfs:range ch& ��c áp d!ng ��i v�i các thu�c tính. �i�u này c/ng ��c

miêu t� trong RDF thông qua vic s% d!ng thu�c tính rdfs:domain. The rdfs:Domain

of rdfs:range is the class rdf:Property. �i�u này cho th#y r0ng thu�c tính range áp

d!ng ��i v�i các tài nguyên mà b�n thân nó c/ng là các thu�c tính (property).

rdfs:domain

M�t th� hin c$a rdf:Property ��c s% d!ng �� cho bi�t class nào s* có thành viên là

b#t k3 m�t tài nguyên nào sao cho thu�c tính c$a nó ��c ch& ��nh.

Page 126: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 126 - 0112398 – T� Th� Ng�c Thanh

The rdfs:domain of rdfs:domain is the class rdf:Property. �i�u này cho th#y r0ng

thu�c tính domain ��c s% d!ng trên các tài nguyên là các thu�c tính.

The rdfs:range of rdfs:domain is the class rdfs:Class. �i�u này cho th#y r0ng b#t k3

m�t tài nguyên nào mà là giá tr� c$a m�t thu�c tính domain s* là m�t class.

rdfs:label

Thu�c tính rdfs:label ��c s% d!ng �� cung c#p phiên b�n tên c$a tài nguyên mà con

ng�i có th� ��c ��c.

rdfs:comment

Thu�c tính rdfs:comment ��c s% d!ng �� cung c#p s mô t� tài nguyên mà con ng�i

có th� ��c ��c.

M�t dòng chú thích b0ng text (textual comment) giúp làm rõ ng� ngh a c$a các class

và các property c$a RDF.

Các l�p và các thu�c tính RDF Utility và Container

RDF ��nh ngh a thêm m�t s� class và property, bao g1m xây d ng cách bi�u di-n các

container và các phát bi�u RDF, và cách m� r�ng mô t� t� v ng RDF trên world wide

web.

Các l�p và các thu�c tính RDF Container

rdfs:Container

L�p rdfs:Container là m�t super – class c$a các l�p Container c$a RDF, ví d!:

rdf:Bag, rdf:Seq, rdf:Alt.

rdf:Bag

L�p rdf:Bag ��i din cho c#u trúc container ‘Bag’ c$a RDF, và là m�t l�p con c$a l�p

rdfs:Container.

Page 127: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 127 - 0112398 – T� Th� Ng�c Thanh

rdf:Seq

L�p rdf:Seq ��i din cho c#u trúc container ‘Sequence’ c$a RDF, và là m�t l�p con

c$a l�p rdfs:Container.

rdf:Alt

L�p rdf:Alt ��i din cho c#u trúc container ‘Alt’ c$a RDF, và là l�p con c$a l�p

rdfs:Container.

rdfs:ContainerMembershipProperty

L�p rdfs:ContainerMembershipProperty v�i t cách là thành viên c$a thu�c tính

rdfs:member và các thu�c tính _1, _2, _3, … có th� ��c s% d!ng �� cho bi�t quan h

thành viên c$a các container Baq, Seq, và Alt. rdfs:ContainerMembershipProperty là

m�t l�p con (subclass) c$a rdf:Property. M�i thu�c tính trong quan h thành viên c$a

container là m�t rdfs:subPropertyOf c$a thu�c tính rdfs:member.

rdfs:member

Thu�c tính rdfs:member là m�t siêu thu�c tính (super – property) c$a các thu�c tính

trong quan h thành viên c$a container.

rdf:List

L�p rdf:List ��i din cho l�p các danh sách lit kê (Lists) c$a RDF. Nó ��c s% d!ng

v�i các construct nh ‘first’, ‘rest’, và ‘nil’, và nó ��c h� tr� trong cú pháp

RDF/XML.

rdf:first

Thu�c tính rdf:first ��i din cho m�i quan h gi�a rdf:List và ph�n t% (item) ��u tiên

c$a nó.

rdf:rest

Page 128: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 128 - 0112398 – T� Th� Ng�c Thanh

Thu�c tính rdf:rest ��i din cho m�i quan h gi�a ph�n t% (item) rdf:List v�i các ph�n

t% còn l�i trong danh sách (list), ho"c v�i ph�n t% cu�i c$a nó (ví d!, rdf:nil).

rdf:nil

Tài nguyên rdf:nil ��i din cho m�t rdf:List r�ng (empty).

Các l�p và các thu�c tính RDF Utility

rdfs:seeAlso

Thu�c tính rdfs:seeAlso ��c s% d!ng �� cho bi�t m�t tài nguyên có th� cung c#p

thông tin RDF thêm vào v� tài nguyên ch$ �� (subject resource).

rdfs:isDefinedBy

Thu�c tính rdfs:isDefinedBy là m�t thu�c tính con c$a rdfs:seeAlso, và cho bi�t tài

nguyên nào �ang ��nh ngh a tài nguyên ch$ ��.

rdf:value

Thu�c tính rdf:value nh�n bi�t giá tr� ch$ y�u (th�ng là chu�i) c$a m�t thu�c tính khi

giá tr� thu�c tính là m�t tài nguyên có c#u trúc (structured resource).

rdf:Statement

L�p rdf:Statement ��i din cho các phát bi�u v� các thu�c tính c$a các tài nguyên.

rdf:Statement là domain (l nh v c) c$a các thu�c tính: rdf:predicate, rdf:subject và

rdf:object.

Các th� hin (instance) rdf:Statement ��c l�p khác có th� có cùng giá tr� cho các thu�c

tính predicate, subject và object c$a chúng.

rdf:subject

Ch$ �� c$a m�t phát bi�u (statement) RDF.

Thu�c tính rdf:subject cho bi�t m�t tài nguyên là ch$ �� c$a m�t s� phát bi�u RDF.

Page 129: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 129 - 0112398 – T� Th� Ng�c Thanh

The rdfs:domain of rdf:subject is rdf:Statement and the rdfs:range is rdfs:Resource.

Thu�c tính này có th� ��c s% d!ng �� xác ��nh tài nguyên nào ��c mô t� b�i m�t

phát bi�u RDF.

rdf:predicate

V� ng� (predicate) c$a m�t phát bi�u RDF.

The rdfs:domain of rdf:predicate is rdf:Statement and the rdfs:range is rdfs:Resource.

Thu�c tính này ��c s% d!ng �� xác ��nh v� ng� nào ��c s% d!ng trong m�t phát

bi�u RDF.

rdf:object

Túc t� (tân ng�) c$a m�t phát bi�u RDF.

The rdfs:domain of rdf:object is rdf:Statement. Thu�c tính range không ��c ��nh

ngh a cho thu�c tính này b�i vì các giá tr� c$a rdf:object có th� bao g1m c� Literals

và Resources. Thu�c tính này có th� ��c s% d!ng �� xác ��nh túc t� c$a m�t phát

bi�u RDF.

2. RDF Gateway:

Công ty Intellidimension, n0m t�i Windsor, Vermont (USA) �ã t�o ra m�t n�n

RDF th�ng m�i ��c g�i là RDF Gateway. �i�m m�nh c$a công c! này là tính d- s%

d!ng và mang chuy�n. RDF Gateway ch& gi�i h�n trên n�n Microsoft Windows, hin

nay v�n cha có m�t k� ho�ch nào cho s ra ��i c$a m�t phiên b�n cho Linux hay m�t

h �i�u hành khác.

S�n ph�m RDF Gateway ra ��i cùng lúc v�i s ra ��i c$a công ty

Intellidimension vào tháng 6 n�m 2000. Phiên b�n ki�m nghim beta c$a nó ��c ra

m�t vào n�m 2001. Nh�ng nhà l�p trình �ã �� xu#t và th�o lu�n các tính n�ng c$a h

th�ng trong di-n �àn th�o lu�n chung c$a W3C. Cu�i cùng thì phiên b�n th�ng m�i

1.0 ra ��i vào ngày 3 tháng 3 n�m 2003.

Page 130: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 130 - 0112398 – T� Th� Ng�c Thanh

B�i vì �ây là m�t ph�n m�m th�ng m�i, nên nó c/ng c�n có b�n quy�n. Tuy

nhiên v�n là mi-n phí ��i v�i các m!c �ích h�c t�p phát tri�n.

2.1. Ki�n trúc c a RDF Gateway:

RDF Gateway là m�t server nh� và nhanh, nó có th� liên k�t các tính n�ng c$a

m�t h qu�n tr� c� s� d� liu và web server. Nó ��c thi�t k� nh là m�t khung n�n

cho vic t�p h�p, truy v#n, chuy�n �.i và phân ph�i d� liu RDF.

Hình 24: Ki�n trúc c a RDF Gateway

o B� x� lý b�n mã RDFQL (RDFQL Script Processor)

RDFQL Script Processor là m�t máy �o u tiên (preemptive virtual

machine) có th� biên d�ch, lu tr�, và th c thi các �o�n script RDFQL. RDFQL là m�t

ngôn ng� scripting phía server d a trên ECMA Script (Java Script). RDFQL tích h�p

các m� r�ng truy v#n t a SQL �� d- dàng truy c�p ��n b� máy c� s� d� liu suy di-n

c$a RDF Gateway. RDFQL script processor cho phép các trang (pages) – có s k�t

Page 131: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 131 - 0112398 – T� Th� Ng�c Thanh

h�p c$a script và n�i dung t nh t�ng t nh Microsoft Active Server Pages (ASP).

Server ��c ��c k�t n�i ��n RDFQL thông qua m�t th vin c$a các ��i t�ng bên

trong (Server, Session, Request, Response, …).

o Database Engine

RDF Gateway có m�t b� máy c� s� d� liu suy di-n – ��c thi�t k� t�

n�n không h� tr� ho"c có h� tr� RDF. Nó th c hin �ánh giá truy v#n theo chi�n l�c

bottom – up, ��c t. ch�c liên �o�n theo t#t c� các tài nguyên d� liu xác ��nh. Kh�

n�ng suy lu�n logic c$a b� máy cung c#p s h� tr� cho cú pháp các lu�t khai báo c$a

RDFQL. B� máy c� s� d� liu không truy c�p ��n m�t h th�ng qu�n lý d� liu bên

ngoài.

o Data Service Interface: (Giao di&n d-ch v� d% li&u)

Giao din d�ch v! d� liu cho phép các tài nguyên d� liu t� bên ngoài

��c tích h�p v�i RDF Gateway. M�t nhà cung c#p d�ch v! d� liu là m�t mô – �un

th c thi giao din này và bi�u di-n các n�i dung c$a m�t ki�u xác ��nh c$a tài nguyên

d� liu nh là d� liu RDF. RDFQL cho phép t. ch�c liên �o�n các câu v#n tin ��c

thi hành thông qua nhi�u d�ch v! d� liu. Giao din m� này làm cho nó có th� s% d!ng

b#t k3 m�t nhà cung c#p d�ch v! d� liu s6n có hin t�i nào ho"c phát tri�n m�t nhà

cung c#p theo ý mình cho m�t ngu1n d� liu.

o Authentication/Security:

RDF Gateway có m�t mô hình b�o m�t d a trên quy�n và s cho phép

�i�u khi�n truy xu#t ��n server và các tài nguyên c� s� d� liu. RDF Gateway h� tr�

cho nh�ng user c$a nó và các role c/ng nh user và group c$a NT. M�t NT user luôn

�� ch�ng th c b0ng cách s% d!ng m�t s u4 nhim c$a NT cho tài kho�n. S h� tr�

c$a RDF Gateway cho ��i v�i các user và group c$a NT làm cho có th� qu�n tr� b�o

m�t t� bên ngoài.

o Network IO

Giao din m�ng h� tr� c� HTTP và TCP/IP d a trên giao th�c. T�ng

nh�p xu#t m�ng (network IO layer) h� tr� l�c �1 ch�ng th c m�ng b�o m�t nh là

Page 132: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 132 - 0112398 – T� Th� Ng�c Thanh

NT Challenge/ Response (NTLM). M�t client k�t n�i ��n server thông qua m�t

interface (giao din).

o Package Management

RDF Gateway cho phép th c thi các �ng d!ng �� ��c phát tri�n và

tri�n khai nh là các package. M�t package bao g1m các trang server RDF, các trang

HTML, các hình �nh ho"c b#t k3 m�t ki�u file nào khác.

o Component Management

RDFQL h� tr� COM trong script phía server c$a nó. �i�u này cho phép

tính n�ng c$a RDF Gateway có th� ��c m� r�ng ho"c ��i v�i các �ng d!ng ��c tích

h�p v�i RDF Gateway.

o Session Management

B� qu�n lý phiên làm vic cho phép lu l�i tr�ng thái c$a ng�i dùng

trên server.

2.2. Tính n8ng (Features)

o Bi6u di;n các b� ba RDF vào trong các b�ng d% li&u:

H bi�n hoá RDBMS ( RDBMS paradigm) c$a vic lu tr� d� liu trong

các b�ng ��c l�p vào �� lu tr� các b� ba RDF (triples). Mô hình d� liu c$a các

b�ng là m�t b� ba bao g1m: predicate, subject, và object. Các c�t c$a b�ng không có

tên nhng luôn ch�a 3 thành ph�n c$a b� ba này theo th� t . Lu ý là predicate là

thành ph�n ��u tiên. Có m�t c�t tu3 ch�n th� t cho lu tr� siêu d� liu v� triple (b�

ba), siêu d� liu này ��c g�i là “context” c$a b� ba. Tr�ng context có th� lu tr�

m�t ��nh danh tài nguyên mà ��nh danh này có th� ��c s% d!ng �� gi�i quy�t các v#n

�� b�o m�t ho"c nh�n din tài nguyên c$a b� ba ho"c b#t k3 m�t tính n�ng quen thu�c

nào.

o Other data sources: (Các ngu.n d% li&u khác)

Các ngu1n d� liu bên ngoài và các c� s� d� liu �ang ho�t ��ng ��c

truy xu#t t� server ��c bao quanh các ��i t�ng c$a ngu1n d� liu. M�t ��i t�ng

Page 133: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 133 - 0112398 – T� Th� Ng�c Thanh

ngu1n d� liu (datasource object) có c#u trúc gi�ng nh m�t table, ch�a � ng các b�

ba trong các dòng. Có s h� tr� cho các b�ng trong b� nh� và nó có th� t�o các trình

bao b�c cho d� liu bên ngoài.

o Databases

Vic lu tr� các b�ng ��c phân thành các ph�n trong c� s� d� liu.

M�t server có th� ch�a nhi�u c� s� d� liu khác nhau, m�t b�ng có th� ��c t�o trong

m�t c� s� d� liu. Format c$a c� s� d� liu là m�t ��nh d�ng file s� h�u, m�i c� s�

d� liu ��c lu trong m�t file.

o RDFQL script language:

Ngôn ng� scripting d a trên ECMA script, th�ng ��c bi�t ��n nh là

Javascript. Các khái nim sau ��c cung c#p:

� Functions (các hàm)

� Variables và Arrays ( các bi�n và các m�ng)

� Câu lnh loops và If

� Exception handling (b�t l�i)

� Import các file script khác.

� Comments (các chú thích)

� Các câu lnh (phát bi�u) trong RDF Gateway.

Các câu lnh cho RDF Gateway bao g1m m�i khía c�nh c$a server và

giúp ng�i l�p trình truy c�p ��n t#t c� các tính n�ng c$a nó. M�t ví d! là công c! c#u

hình server, công c! này là m�t trang web ��c vi�t b0ng RDFQL ��c thông d�ch

b�i m�t web server ��c tích h�p, và cho phép truy xu#t ��n t#t c� các ��i t�ng c$a

server nh là: các table, các database, user và package.

�� tìm ra ��c các dataset c$a b� ba RDF, m�t ��i t�ng RDF node

��c cung c#p, nó thu th�p t#t c� các predicate và subject c$a m�t ��i t�ng �ã cho và

làm cho nó có th� thay �.i giá tr� c$a các subject.

�� ch�y các câu truy v#n trên server, m�t t�p các câu lnh c� s� d� liu

c�n ph�i s6n sàng. Các câu lnh c� s� d� liu �óng gói trong RDFQL script, câu lnh

Page 134: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 134 - 0112398 – T� Th� Ng�c Thanh

này th�ng ��c bi�t t� các câu lnh SQL trong các file source C ��c tích h�p b�i

m�t trình biên d�ch tr�c.

Truy c�p ��n các ��i t�ng ActiveX và COM ��c h� tr� thông qua

ph�ng th�c kh�i gán (construct) c$a ngôn ng� ActiveXObject.

N�u �o�n script RDFQL ��c �ánh giá trong ng� c�nh c$a web server, thì các ��i

t�ng ch�a d� liu session, request và response ��c cung c#p.

o Adding and retrieving data (thêm và truy v(n d% li&u)

Các lnh thao tác d� liu thì t�ng t v�i cú pháp lnh trong SQL. Tính

n�ng ��c m� r�ng ��i v�i các nhu c�u xác ��nh c$a RDF. Có các câu lnh nh:

INSERT, SELECT và DELETE. Các câu lnh này s% d!ng các bi�n (variable) �� ràng

bu�c d� liu, t�ng t nh ngôn ng� RQL ��c s% d!ng b�i RDFSuite.

INSERT {

[http://www.artchive.com/]

[http://www.icom.com/schema.rdf#technique]

[http://www.artchive.com/rembrandt/abraham.jpg]

'Oil on canvas'

} INTO museum;

Ví d! này ch& ra cách nào �� insert m�t b� ba (triple) vào table

“museum”. B� ba ��c vi�t gi�a 2 d#u ngo"c nh�n (‘{‘ và ‘}’) và ch�a 4 giá tr�:

� Context

� Predicate

� Subject

� Object ho"c Literal

Thông tin ng� ngh a c$a b� ba này có ngh a là: b�c �nh “abraham.jpg”

thu�c v� l nh v c “Oil on Canvas” và thông tin này ��c l#y t� “www.artchive.com”.

SELECT ?a, ?b, ?c USING museum

WHERE {?a ?b ?c} AND ?c LIKE “Oil”;

Page 135: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 135 - 0112398 – T� Th� Ng�c Thanh

�� truy v#n các triple t� m�t table, thì câu lnh SELECT ��c s% d!ng.

Ví d! này truy xu#t t#t c� các triple mà có ch�a t� “oil” trong giá tr� ��i t�ng literal.

Chú ý là triple � gi�a 2 d#u ngo"c nh�n ch& ch�a 3 giá tr�, context ��c b2 �i.

D� liu có th� ��c l#y t� các ngu1n d� liu bên ngoài ho"c chuy�n �.i (tranfer) t�

m�t b�ng này ��n m�t b�ng khác.

var doc = new DataSource(

"inet?url=file://c:/Museum.xml&parsetype=rdf");

SELECT ?a, ?b, ?c USING #doc WHERE {?a ?b ?c};

INSERT {?p ?s ?o} INTO museum USING #doc

WHERE {?p ?s ?o};

Trong ví d! này, m�t d� liu RDF ��c l#y t� m�t file text và ��c

insert vào b�ng museum. Lu ý là trong RDFQL Javascript, code ��c tr�n v�i m�t

�o�n code gi�ng nh SQL – bi�n javascript “doc” ��c s% d!ng trong lnh c� s� d�

liu nh là “#doc”.

o Built – in Webserver (Webserver g<n li�n)

RDF Gateway có m�t Webserver g�n li�n.Giao din c#u hình và qu�nlý

��c xu#t b�n d�i d�ng web. Các nhà phát tri�n �ng d!ng có th� t�o các trang web

v�i web server này, b0ng cách s% d!ng ngôn ng� RDFQL script. Tính n�ng này có th�

��c s% d!ng trong vic debug và phát tri�n, nhng c/ng có th� s% d!ng �� xây d ng

toàn b� các �ng d!ng web b0ng cách s% d!ng RDF Gateway. ��i v�i v#n �� s% d!ng

các ��i t�ng ActiveX thông qua RDFQL, web server ��c xem là r#t m�nh.

o RDF Query Analyzer

Các câu lnh và các câu truy v#n RDFQL có th� ��c t�o ra b0ng cách

s% d!ng �ng d!ng �o này (RQF Query Analyzer).

Page 136: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 136 - 0112398 – T� Th� Ng�c Thanh

Hình 25: Giao di&n c a RQF Query Analyzer.

Query analyzer thì t�ng t nh các s�n ph5m l�ng gía truy v#n c$a

các SQL Server ph. bi�n. Các script ph�c t�p có th� ��c t�o ra � �ây và ��c s%

d!ng trong các trang web ho"c các �ng d!ng khác. Các câu truy v#n có th� ��c �ánh

giá l�i m�t l�n n�a � RDF Gateway c!c b� ho"c � xa, trình so�n th�o v�n v�n (text

editor) có cú pháp � d�ng ��c highlight và có th� lu và m� các câu v#n tin.

o Inference Engine (máy suy di;n)

B� máy c� s� d� liu RDF Gateway g1m m�t máy suy di-n. Các câu

lnh b� ba RDF m�i, có th� ��c phát sinh m�t cách t ��ng d a trên các lu�t suy

di-n và các b� ba �ã có s6n. Các hàm (function) có th� ��c ��nh ngh a, các hàm này

rút trích d� liu t� c� s� d� liu d a trên các lu�t. Các lu�t này ��c ��nh ngh a trong

ngôn ng� RDFQL script và có th� ��c s% d!ng trong các dòng lnh thao tác c� s� d�

liu.

RULEBASE schema

{

INFER {[rdf:type] ?s ?class} FROM

{[rdf:type] ?s ?subclass} AND

Page 137: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 137 - 0112398 – T� Th� Ng�c Thanh

{[rdfs:subClassOf] ?subclass ?class};

};

SELECT ?p ?s ?o USING #ds RULEBASE schema WHERE

{[rdf:type] ?s ?o} AND {?p ?s ?o};

Ví d! này ��nh ngh a m�t lu�t (rule) cho l�c �1 RDF (RDF Schema) v�

các subclass (l�p con): N�u môt subject là m�t ki�u (type) c$a X và X ��c ��nh

ngh a là subject c$a Y, thì subject c/ng là m�t ki�u c$a Y. R1i sau �ó lu�t này ��c s%

d!ng cho câu lnh SELECT �� truy v#n t#t c� các class và các class xu#t phát c$a t#t

c� các subject.

V�n RDF Schema không ��c h� tr� b�i RDF Gateway, nó ph�i ��c

mô t� theo các lu�t suy di-n.

o Client Libraries

RDF Gateway có các th, cài client (client drivers) cho Microsoft ADO

và Sun Microsystems JDBC. �i�u này cho phép RDF Gateway h� tr� r�ng kh�p nhi�u

client nh là các web browser, các �ng d!ng Windows, các �ng d!ng Java, XML ho"c

RDF d a trên clients.

o Security

Khi truy c�p vào RDF Gateway thông qua http, ADO ho"c các protocols

khác, ng�i dùng ph�i ��c nh�n bi�t b0ng cách s% d!ng username và password. M�t

tài kho�n ng�i dùng (user account) là “anonymous” ��c cung c#p cho vic truy xu#t

chung (m�i ng�i ��u có th� truy c�p vào v�i user account này).

H th�ng b�o m�t s% d!ng c� hai lo�i: c� s� d� liu b�o m�t c$a windows �� xác nh�n

các ng�i dùng windows và m�t c� s� d� liu ng�i dùng bên trong. C/ng nh

Internet Explore, NT Authentication (s ch�ng th c � m�c NT) có th� ��c s% d!ng

v�i http.

M�i thành ph�n (item) ��c qu�n lý b�i RDF Gateway có th� b� gi�i

h�n ��i v�i các user ��c ��nh ngh a, các thành ph�n này bao g1m: các package, các

Page 138: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 138 - 0112398 – T� Th� Ng�c Thanh

table, data source và các component. ( c#p �� table, d- dàng �� s%a �.i vic ��c, vi�t,

và xoá các quy�n cho các user riêng bit.

M�t khái nim b�o m�t d a trên dòng ��i v�i các lnh RDF trong các

table ��c d a trên c�t “context”, tr�ng thêm vào th� t này ��c add vào subject,

predicate, và object. M�t user có th� ��c cho phép �� ��c, vi�t, và xoá các quy�n

(rights) ��i v�i m�t context riêng bit.

Không h� có s h� tr� ��i v�i m�t nhóm ng�i s% d!gn (user group –

trong RDF Gateway không có khái nim này).

o Configuration and Management (c(u hình và qu�n lý)

Các s s�p �"t (setting) c#u hình chi ti�t ��c truy c�p thông qua giao

din web, giao din này ��c d�n vào nh� web server g�n li�n. Ng�i dùng ph�i ��ng

nh�p vào b0ng cách s% d!ng m�t account có vai trò là administrator c$a windows.

7ng d!ng web này ��c �"t tên là “RDF Gateway Management Utility” và cung c#p

truy c�p ��n các databases, tables, users, contexts, ActiveX Components, Data

Services, Roles, Packages, MimeTypes và Timers. ��i v�i h�u h�t các thành ph�n

này, thì các ch�n l a b�o m�t v� s cho phép có th� ��c �"t.

Tin ích qu�n lý ��c th c thi nh là RDF Gateway web package.

Trên �ây là nh�ng gi�i thiu bao quát v� RDF Gateway. Ngoài ra ta c/ng có th� xem

thêm v� cú pháp cu� RDF Gateway khá chi ti�t trong ph�n help c$a tin ích RDF

Query Analyzer.

3. H& th�ng nhãn ng% ngh!a: H th�ng nhãn ng� ngh a ��c gi�i thiu � �ây g1m 3 ti�u h th�ng nh2 �ng

v�i 3 t� lo�i: danh t�, ��ng t� và tính t�. Trong m�i ti�u h th�ng, l�i ��c phân thành

2 c#p: c#p c� b�n ch�a m�t s� ít các nhãn chung nh#t, s% d!ng nhi�u nh#t và là nh�ng

nhãn vi�t t�t (g�i nh�) d* nh�; và c#p chuyên sâu là nh�ng nhãn theo h th�ng

Page 139: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 139 - 0112398 – T� Th� Ng�c Thanh

LLOCE. Ngoài ra, trong ph�n này, c/ng còn lit kê m�t s� h th�ng nhãn ng� ngh a

khác nh WordNet, CoreLex.

3.1. Nhãn ng% ngh!a c� b�n cho danh t":

STT Nhãn Mô t� Ý ngh a

1 ABS Abstraction Nh�ng gì tr�u t�ng

2 ACT Act Hành ��ng

3 AGT Agent Tác nhân

4 ANM Animal Sinh v�t

5 ART Artifact Nhân t�o

6 ATR Attribute Thu�c tính

7 BDY Body C� th� con ng�i

8 CEL Cell T� bào

9 CHM Chemical Hoá ch#t

10 COM Communication Truy�n tin

11 CON Consequence H�u qu�

12 ENT Entity Th c th�

13 EVT Event Bi�n c�

14 FEL Feel S c�m nh�n

15 FEM Female Gi�ng cái/ n�

16 FOD Food Th�c �n

17 FRM Shape, form Hình d�ng

18 GAS Gas Th� khí

19 GRB Group biology Nhóm sinh h�c

20 GRP Group Nhóm nói chung

21 GRS Group social Nhóm xã h�i

22 HOU House Công trình xây d ng

23 HUM Human Con ng�i

Page 140: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 140 - 0112398 – T� Th� Ng�c Thanh

24 LFR Life form S s�ng

25 LIN Line ��ng, nét, d#u v�t

26 LIQ Liquid Th� l2ng

27 LME Linear measure �o l�ng

28 LOC Location V� trí

29 LOG Location geography Vùng ��a lý

30 MAL Male Gi�ng � c/ nam

31 MEA Measure ��i l�ng

32 MIC Microoragnism Vi sinh v�t

33 MOT Motion S chuy�n ��ng

34 NAT Natural object V�t th� thiên nhiên

35 PHM Phenomenon Hin t�ng

36 PHO Physical object V�t th� v�t lý

37 PLT Plant Th c v�t

38 POS Possession S s� h�u

39 PRO Process Quá trình

40 PRT Part, piece B� ph�n

41 PSY Psychological Thu�c tính tâm lý

42 QUD Definite quantity ��i l�ng h�u h�n

43 QUI Indefinite quantity ��i l�ng vô h�n

44 REL Relation Quan h

45 SOL Solid Th� r�n

46 SPC Space Không gian

47 STA State Tr�ng thái

48 SUB Substance Ch#t liu

49 TME Time Th�i gian

50 UNT Unit Thu�c ��n v�

B�ng 13: Nhãn ng� ngh a c� b�n cho danh t�

Page 141: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 141 - 0112398 – T� Th� Ng�c Thanh

3.2. Nhãn ng% ngh!a c� b�n cho ��ng t":

STT Nhãn Mô t� Ý ngh a

1 VBDY Body Các ��ng t� c$a c� th�: �n, m"c,

2 VCHG Change Các ��ng t� thu�c v� s thay �.i:

t�ng, �.i, …

3 VCOG Human Các ��ng t� tri nh�n: suy ngh , xét

�oán,…

4 VCOM Communication Các ��ng t� truy�n thông: k�, h2i,

ra lnh, …

5 VCMP Competition Các ��ng t� v� c�nh tranh: chi�n

�#u, thi �#u, …

6 VCSM Consumption Các ��ng t� v� tiêu th!: �n, u�ng,

7 VCON Contact Các ��ng t� v� ti�p xúc: �ánh, �ào,

8 VCRE Creation Các ��ng t� v� s t�o l�p: s�n,

khâu, thi hành, …

9 VEMO Emotion Các ��ng t� v� c�m giác: yêu,

ghét,…

10 VMOT Motion Các ��ng t� v� chuy�n ��ng: �i,

bay, b�i, …

11 VPER Perception Các ��ng t� v� giác quan: nghe,

th#y, c�m th#y, …

12 VPOS Possession Các ��ng t� v� s� h�u: mua, bán,

s� h�u, …

13 VSOC Social Các ��ng t� v� ho�t ��ng xã h�i:

b�u c%, t�i vì, …

Page 142: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 142 - 0112398 – T� Th� Ng�c Thanh

14 VSTA Stative Các ��ng t� v� tr�ng thái, quan h

không gian.

15 VWEA Weather Các ��ng t� v� th�i ti�t: ma,

tuy�t, s#m, …

B�ng 14: Nhãn ng� ngh a c� b�n cho ��ng t�

3.3. Nhãn ng% ngh!a c� b�n cho tính t":

STT Nhãn Mô t� Ý ngh a

1 ACOL Color Các tính t� v� màu s�c: �2, xanh, …

2 ASIZ Size Các tính t� v� kích th�c: tròn, d�t, …

3 ATME Time Các tính t� thu�c v� th�i gian: lâu, mau,

4 ASPC Space Các tính t� thu�c v� không gian: l�n,

nh2, dài, …

5 ASTR Strength Các tính t� v� s�c m�nh: m�nh, y�u, …

6 ADEG Degree Các tính t� v� m�c ��: nhi�u, ít, …

7 AFEA Feature Các tính t� v� �"c �i�m, n�i dung: khó,

hay, …

8 AREF Reference Các tính t� b. ngh a s� ch&: former

(president)

9 AREL Relation Các tính t� quan h: Vietnamese (war)

B�ng 15 : Nhãn ng� ngh a c� b�n cho tính t�

3.4. H& th�ng nhãn ng% ngh!a LDOCE

STT Mã ng� ngh a c� b�n Mã ng� ngh a phát sinh

1 A Con v�t

(animal)

E Ch#t r�n/ l2ng (S +

L)

2 B Con v�t cái K Ng�i/con v�t � c

Page 143: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 143 - 0112398 – T� Th� Ng�c Thanh

(female animal) (D +M)

3 C V�t c! th�

(concrete)

O Ng�i/ con v�t (A

+ H)

4 D Con v�t � c

(male animal)

R Ng�i/con v�t cái

(B + F)

5 F Ng�i n�

(female human)

U T�p h�p ng�i/con

v�t (Col. + O)

6 G Khí (gas) V Th c v�t/ con v�t

(P + A)

7 H Ng�i (human) W V�t tr�u t�ng/c!

th� (T + I)

8 I V�t c! th�

không có s s�ng

X V�t tr�u t�ng/

ng�i (T + H)

9 J V�t r�n di

chu4ên ��c

Y V�t tr�u t�ng/ có

s s�ng (T + Q)

10 L Ch#t l2ng

(liquid)

1 Ng�i /ch#t r�n (

H + S)

11 M Ng�i nam (

male human)

2 Tr�u t�ng/ ch#t

r�n ( T + S)

12 N V�t r�n không

di chuy�n ��c

6 Ch#t l2ng/ tr�u

t�ng (L + T)

13 P Th c v�t (

plant)

7 Ch#t khí/ ch#t l2ng

(G + L)

14 Q Có s s�ng

(animate)

15 S Ch#t r�n (solid)

16 T Tr�u t�ng

(abstract)

Page 144: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 144 - 0112398 – T� Th� Ng�c Thanh

17 Z Không �ánh d#u

(unmarked)

18 4 V�t th� tr�u

t�ng (abs physic)

19 5 Ch#t h�u c� (

organic material)

B�ng 16: H& th�ng nhãn ng% ngh!a LDOCE

4. H& c� s$ tri th'c ng% ngh!a t" v#ng WordNet

4.1. H& th�ng nhãn ng% ngh!a c a danh t":

Tr�c h�t, ta s* tìm hi�u nh�ng h�n ch� trong cách lu tr� thông tin v� ng�

ngh a c$a danh t� � t� �i�n thông th�ng, t� �ó, chúng ta m�i th#y nh�ng u th� c$a

WordNet trong cách lu tr�, truy xu#t, c�p nh�t các thông tin �ó.

4.1.1. T� ch'c c a danh t" trong t" �i6n thông th�7ng:

Khi ta tra m�t danh t� nào �ó trong các t� �i�n thông th�ng, ta s* nh�n ��c

nh�ng l�i gi�i thích có v, khá ��y �$. Ví d!, tra t� “tree” (cây), ta s* nh�n ��c ��nh

ngh a “tree is a plant that is large, woody, perennial and has a distinct trunk” ( cây là

m�t th�c v�t mà có thân, s�ng lâu n�m, có g�, kích th�c l�n). ��i v�i nh�ng ng�i

có ki�n th�c ph. thông, có th� ch#p nh�n ��nh ngh a này. Nhng n�u chúng ta mu�n

bi�t sâu h�n nh “cây có r-, có t� bào xen – lu – lô, là t. ch�c có s s�ng, …” thì ta

c�n ph�i tra ng� ngh a c$a t� “plant”, tuy nhiên khi tra t� “plant”, ta s* nh�n ��c hai

l�i gi�i thích hoàn toàn khác nhau: m�t dành cho ngh a “nhà máy” và m�t dành cho

ngh a “th c v�t”. Câu h2i �"t ra là, khi mu�n truy xu#t t ��ng, thì máy tính s* ch�n

ngh a nào? �ây là h�n ch� c$a các t� �i�n thông th�ng.

Các t� �i�n thông th�ng ch$ y�u thi�u thông tin mang tính c#u trúc

(structure), vì ��nh ngh a c$a nó ch& mang thông tin có tính d� kin (fact), và do cách

t. ch�c theo v�n abc, nên không th� ch�a � m�i t� m�i thông tin có liên quan trong

Page 145: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 145 - 0112398 – T� Th� Ng�c Thanh

��nh ngh a c$a nó ��c, vì làm nh v�y s* trùng l�p thông tin, kích th�c c$a t� �i�n

s* vô cùng l�n và không kinh t�.

Cu�i cùng, m�t khuy�t �i�m l�n nh#t mà h�u h�t các t� �i�n thông th�ng ��u g"p

ph�i, �ó là vic ��nh ngh a vòng tròn. Ngh a là: dùng t� Wa �� ��nh ngh a t� Wb, r1i

l�i có ch� l�i dùng t� Wb �� ��nh ngh a l�i t� Wa.

4.1.2. T� ch'c d% li&u danh t" trong WordNet

Th#y ��c các khuy�t �i�m c$a t� �i�n thông th�ng, WordNet lu tr� danh

t� thành m�t h th�ng phân c#p hình cây d a theo quan h h� danh (hyponymy) và

th�ng danh (hypernymy). Xu#t phát t� g�c là m�t ý nim cha r#t t.ng quát, d a theo

quan h th�ng danh (hypernymy), t� gi� phân (nhánh) thành các ý nim con c! th�

h�n, r1i c/ng t� chính các ý nim con này, l�i ti�p t!c phân nh2 n�a thành các ý nim

chi ti�t h�n, và c� nh th� ��n khi không còn c�n thi�t phân chia n�a (trung bình c�

ch!c c#p) và nút t�n cùng �ó (nút lá) chính là các danh t�.

Ví d!, “cây s1i” (oak) là m�t loài “cây” (tree), “cây” là m�t loài “th c v�t”

(plant), “th c v�t” là m�t loài “h�u c�” (organism). Trong WordNet s* di-n t� nh

sau: oak @ → tree @ → plant @ → organism, v�i ký hiu “@ →” �� tr2 ��n nút

cha, th� hin quan h h� danh (hyponymy), hay còn g�i là quan h ISA. ��i l�p v�i

quan h h� danh là quan h th�ng danh (hypernymy) và trong WordNet, quan h này

��c ký hiu là “~ →” �� tr2 ��n nút con, ví d!: organism ~ → plant ~ → tree ~ →

oak ( vì WordNet ��c lu tr� d�i d�ng �in t%, nên WordNet ch& c�n lu quan h

hyponymy m�t cách t�ng minh, còn quan h hypernymy s* ��c t ��ng suy ra t�

quan h hyponymy).

V�i cách t. ch�c phân c#p nh trên, WordNet không c�n lu m�i tính ch#t c$a

m�i ý nim (nút), mà ch& c�n lu �"c �i�m riêng c$a ý nim �ó mà thôi, còn các tính

ch#t khác ��c t ��ng suy di-n ra t� �"c tính chung ��c k� th�a t� ý nim cha cùng

v�i các �"c tính khác c$a các ý nim con. �i�u này giúp cho WordNet kh�c ph!c ��c

các khuy�t �i�m c$a t� �i�n thông th�ng (không lu trùng l�p thông tin mà v�n ch�a

��y �$ thông tin, ti�t kim không gian lu tr�).

Page 146: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 146 - 0112398 – T� Th� Ng�c Thanh

Ngoài ra, v�i các t. ch�c phân c#p có k� th�a nh trên, WordNet kh�c ph!c

��c hin t�ng ��nh ngh a vòng quanh, không bao gi� có hin t�ng t� Wa ��nh

ngh a t� Wb, r1i chính Wb l�i ��nh ngh a Wa. Vì theo t. ch�c hình cây, m�i lo�i quan

h ch& có m�t chi�u nh#t ��nh, ví d! quan h th�ng danh, ch& có chi�u t� trên xu�ng

d�i, �i t� t.ng th� ��n chi ti�t ( chuyên bit hoá), còn quan h h� danh thì ng�c l�i:

�i t� d�i lên trên, �i t� chi ti�t ��n t.ng th� (t.ng quát hoá).

Tuy nhiên, không ph�i m�i thông tin v� th� gi�i th c ��u ��c lu trong các ý

nim c$a WordNet, nên trên th c t�, ta c/ng không th� có ��c ��y �$ hoàn toàn các

tri th�c v� th� gi�i th c c$a “cây” nh tri th�c c$a ng�i ��c. Ví d!: WordNet

không lu nh�ng thông tin, nh: “cây” cho bóng mát, cây khô có th� làm c$i �un, ….

Hin nay, WordNet cha liên k�t “bác s ” v�i “bnh vin”, cha th� liên k�t “v�t”,

“banh”, “l�i”, … v�i “sân ch�i tennis”.

4.1.3. Các ý ni&m nguyên thu2 (primitive semantic)

Trong WordNet, ta có “gia ph�” c$a t� “oak” nh sau: {oak} @→ {tree}

@→ {plant, flora} @→ {organism, living thing} @→ {thing, entity}. Nh v�y, ý

nim {thing, entity} là m�t ý nim g�c, ý nim cao nh#t, t.ng quát nh#t, chính vì v�y

nó ch+ng mang m�t ý ngh a gì ( vì nó là cái gì �ó r#t chung chung) và m�i ý nim

trong WordNet ��u d�n t�i ý nim g�c �ó (��u là con cháu c$a nó). Tuy nhiên, n�u ta

t. ch�c cây ý nim danh t� v�i m�t g�c ý nim duy nh#t trên cây thì s* khi�n cho cây

có kích th�c r#t l�n, vic t. ch�c các nhãn cho các ý nim ph�i chi ti�t h�n �� tránh

trùng nhau. Ví d!: gi�a “plant” c$a ý nim “th c v�t” và “plant” c$a ý nim “nhà

máy”, WordNet ph�i dùng 2 nhãn (d�ng t�) khác nhau �� phân bit, h�n n�a, s gom

v� chung m�t g�c l�n nh v�y thì c/ng ch+ng có k� th�a ��c thông tin gì ( vì các ý

nim g�c là r#t chung chung, ít thông tin).

Chính vì v�y mà WordNet �ã phân thành 25 g�c chính nh b�ng d�i �ây mô

t�. Các g�c này ��c g�i là các ý nim nguyên thu4. M�i cây nh v�y ��c lu thành

m�t t�p tin riêng r*. Chính vì v�y, mà khi g"p nhãn “plant” (th c v�t) nh trên, thì

máy tính không nh0m l�n v�i “plant” có ngh a “nhà máy”, vì cây ý nim mà ch�a

“tree” là cây mà có ý nim nguyên thu4 là {plant} (th c v�t) ��c lu riêng bit v�i

Page 147: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 147 - 0112398 – T� Th� Ng�c Thanh

cây ý nim mà có ch�a “plant” v�i ngh a là “nhà máy” (ý nim này ��c lu trong cây

khác, cây mà có ý nim nguyên thu4 là {artifact}).

Quan sát 25 ý nim nguyên thu4 �ó, ta th#y có m�t s� ý nim có nh�ng nét

ngh a chung nhau (ví d!: {animal}, {person}, {plant} ��u là nh�ng v�t có s s�ng),

chính vì v�y mà trong WordNet, nh�ng ý nim có chung nét ngh a nh v�y s* ��c

nhóm v�i nhau �� t�o thành con c$a m�t ý nim cao h�n. Sau khi nhóm rút g�n l�i,

trong WordNet ch& còn 11 ý nim nguyên thu4 (nh�ng ý nim ��c in nghiêng trong

b�ng d�i �ây).

Animal (súc v�t)

Person (ng�i)

Organism

(v�t có s

s�ng) Plant (th c v�t)

Artifact (�1 nhân t�o)

Natural object (v�t th� t nhiên) Body (c� th�)

Entity

(th c th�

ti�p xúc

��c) Object (v�t

th� không

có s s�ng) Substance (ch#t) Food (th�c �n)

Attribute (thu�c tính)

Quantity (s� l�ng )

Relation (quan h)

Abstraction

( tr�u

t�ng)

Time (th�i gian)

Cognition (tri nh�n)

Feeling (c�m giác)

Psychology

feature (v�

tâm lý) Motivation (tình c�m)

Natural phenomenon (hin t�ng

t nhiên)

Process (quá

trình)

Activity (ho�t ��ng)

Event (bi�n c�)

Group (nhóm ng�i)

Location (v� trí )

Possession (s� h�u)

Page 148: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 148 - 0112398 – T� Th� Ng�c Thanh

Shape (hình d�ng)

State (tr�ng thái)

B�ng 17:S phân l�p danh t� trong WordNet

Các ý nim trong b�ng trên �ây ��c g�i là nh�ng ý nim nguyên thu4

(primitive semantic component). T� nh�ng ý nim nguyên thu4 này, WordNet �ã xây

d ng nên h th�ng cây phân l�p cho danh t� theo quan h h� danh (hyponymy) và

th�ng danh (hypermyny).

V�i cách s�p x�p nh trên, trong th c t� s% d!ng WordNet, tác gi� th#y �� sâu

c$a cây WordNet r#t c�n (c� 10 – 12 c#p) và g�n m�t n%a trong s� các ý nim ph�i �i

qua �ó, mang ý ngh a k� thu�t nhi�u h�n.

4.1.4. ��c �i6m riêng c a m=i ý ni&m trong h& phân c(p:

Theo cách t. ch�c c$a WordNet, các ý nim con cùng k� th�a m�t ý nim cha,

c�n ph�i có m�t s� �"c tính riêng nh0m phân bit v�i ý nim cha và các ý nim anh em

v�i nó. Các �"c tính phân bit này g1m 3 lo�i, ví d! v�i ý nim {robin} (chim c. �2),

nó có 3 lo�i �"c tính sau:

� Thu�c tính (attributes), (n�i v�i tính t�) [ màu = �2, kích th�c

= nh2]

� B� ph�n (parts) (n�i v�i dnh t�) [m2, lông,cánh]

� Ch�c n�ng (functions) (n�i v�i ��ng t�) = [hót, bay]

T�ng t , ý nim {canary} (chim vàng anh) c/ng là con c$a ý nim {bird}

(chim), có thu�c tính [ màu = vàng, kích th�c = nh2], có b� ph�n [ m2, lông, cánh],

có kh� n�ng [hót, bay, �, tr�ng]. V�y ta th#y gi�a {robin} và {canary} (��u cùng là

loài chim), có �i�m khác bit v� màu s�c. Nh v�y, thông tin c$a m�t ý nim chính là

thông tin k� th�a t� ý nim cha c�n thêm các �"c tính riêng c$a nó. V�y ta có th� nói

synset {A} là con c$a synset {B} n�u t#t c� các �"c tính c$a synset {B} ��u có trong

synset {A}. Vì v�y m�t t� thu�c synset con, có th� làm ti�n trí t (antecendent) thay

cho m�t t� thu�c synset cha, hay có th� thay cho m�t ��i t� c$a m�t ��ng t� v�i �i�u

kin ��i t� �ó thu�c synset cha. Ví d!:

Page 149: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 149 - 0112398 – T� Th� Ng�c Thanh

- Trong câu “Tôi �a anh #y m�t cu�n tiu thuy�t hay, nhng cu�n

sách �ó làm anh ta bu1n”. Ta có cu�n tiu thuy�t là ý nim con c$a ý

nim cu�n sách, nên có th� làm ti�n trí t cho t� cu�n sách.

- Trong câu “Tôi u�ng n�c”, có th� thay th� ��i t� “n�c” c$a ��ng

t� “u�ng” b0ng b#t k3 ��i t� nào mà thu�c ý nim con c$a nó, nh:

n��c ngot, n��c trà, n��c su�i, …

4.2. H& th�ng nhãn ng% ngh!a c a ��ng t":

��ng t� là t� lo�i quan tr�ng nh#t và là t� b�t bu�c ph�i có ��i v�i m�i câu

ti�ng Anh. D a trên �"c �i�m c$a ��ng t�, ta có th� xác ��nh c#u trúc c$a câu (A.S.

Hornby). D a trên ��ng t�, ta có th� xác ��nh các vai trong câu (Fillmore). S� l�ng

��ng t� trong ti�ng Anh ch& b0ng 1/3 s� l�ng danh t�, còn m�c �� m� h1 ngh a c$a

��ng t� thì l�i cao h�n (trung bình m�t ��ng t� có 2.11 ngh a, còn danh t� có 1.74

ngh a). Ngh a c$a ��ng t� r#t uy�n chuy�n, linh ��ng theo các danh t� có liên quan

��n nó. WordNet chia các ��ng t� thành 15 nhóm (� trên) �� ch& các bi�n c� (event),

hành ��ng (action) hay tr�ng thái (state) khác nhau d a theo s phân chia v� m"t ng�

ngh a, nh: nhóm ��ng t� ch� ch�c n�ng và vi�c ch�m sóc c� th, s� nh�n th�c, quan

h� xã h�i, ….

Vic xây d ng t�p �1ng ngh a (synset) cho ��ng t� c/ng g"p nhi�u khó kh�n

h�n so v�i danh t� vì khó xác ��nh t� �1ng ngh a. Ta th#y trong ti�ng Anh có m�t s�

��ng t� �1ng ngh a, nh: begin – commence (b�t ��u), end – terminate (k�t thúc), buy

– purchase (mua), hide – conceal (gi#u), … nhng th c ch#t vic dùng l�n l�n các

��ng t� �1ng ngh a này không ph�i lúc nào c/ng �úng. Ví d!: ng�i ta th�ng nói

“Where have you hidden Dad’s slippers?” (Anh gi#u dép c$a Dad � �âu?) ch� không

nói là “Where have you concealed Dad’s slippers?”.

Vic bi�u di-n ng� ngh a và t. ch�c ��ng t� là �i�u khó kh�n nh#t so v�i các t�

lo�i khác. Có r#t nhi�u cách ti�p c�n khác nhau �� bi�u di-n ng� ngh a c$a ��ng t�,

ch$ y�u là phân rã ng� ngh a ��ng t� thành d�ng này hay d�ng khác. Sau �ây là m�t

s� cách phân gi�i ng� ngh a ��ng t�.

Page 150: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 150 - 0112398 – T� Th� Ng�c Thanh

4.2.1. S# phân gi�i ng% ngh!a c a ��ng t":

H�u h�t các cách ti�p c�n ��i v�i ng� ngh a ��ng t� là c� g�ng phân gi�i ng�

ngh a ��ng t� thành m�t s� h�u h�n các thành ph�n ý nim – ng� ngh a ph. quát

(universal semantic – conceptial components), hay còn g�i là ý nim nguyên thu4,

nguyên t�, s� kh�i, v� t� nguyên t%, danh t� �ánh d#u (noun marker), ví d!: ��ng t�

“kill” (gi�t) = {CAUSE TO BECOME NOT ALIVE} (gây ra s d�n ��n không s�ng).

Cách ti�p c�n này �ã nh�n ��c nhi�u ý ki�n khác nhau, có ng�i �1ng tình (Katz,

Lakoff, Jackendoff, Schank, Miller) nhng c/ng có ng�i ph�n ��i cho là không thích

h�p (Chomsky và m�t s� ng�i khác).

S phân tích ng� ngh a quan h c$a ��ng t� khác v�i s phân gi�i ng� ngh a

c$a ��ng t�. S phân gi�i ng� ngh a ch$ y�u d a trên các ý nim c� s� (��n v� ng�

ngh a nh2 nh#t), còn s phân tích ng� ngh a quan h l�i d a vào các ý nim c�n b�n �ã

hình thành trong ��u óc c$a con ng�i. Ví d!: nh quan h CAUSE (nguyên nhân)

liên k�t các c"p ��ng t� teach (d�y) – learn (h�c), show (ch&) – see (th#y), d a trên

quan h này c/ng giúp ta phân bit m�t cách có h th�ng �âu là tha ��ng t� (transitive

verb) và �âu là t ��ng t� (intransitive verb).

4.2.2. Quan h& kéo theo c a ��ng t":

Trong WordNet, m�i t� lo�i ��c t. ch�c d a theo m�t quan h chính nào �ó,

ví d!: danh t� thì d a theo quan h h� danh (hyponymy), tính t� thì d a theo quan h

ph�n ngh a (antonymy), còn ��ng t� thì d a vào quan h kéo theo (entialment).

Gi�a quan h kéo theo có ph�n nào �ó gi�ng quan h b� ph�n (meronymy),

nhng không thích h�p cho ý ngh a V1 là b� ph�n c$a V2 gi�ng nh bên danh t�. Ví

d!: ta th% xét có ph�i “thinking” (s suy ngh ) là m�t b� ph�n c$a “planning” (vic

ho�ch ��nh) hay không? Nhng nhi�u ng�i cho r0ng ��ng t� không th� phân chia b�

ph�n gi�ng nh danh t� vì: các danh t� và các b� ph�n c$a danh t� ��u có s� ch& v�t

(referent) c! th�, phân bit trong khi �ó bên ��ng t� thì không ��c rõ ràng nh v�y.

Ngoài ra, quan h gi�a 2 ��ng t� còn ph! thu�c vào th�i gian th c hin, x�y ra hành

��ng, bi�n c� (bên danh t�: quan h b� ph�n không ph! thu�c vào th�i gian). M�t

Page 151: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 151 - 0112398 – T� Th� Ng�c Thanh

hành ��ng hay bi�n c� ��c g�i là m�t b� ph�n c$a m�t hành ��ng hay bi�n c� khác

ch& khi nó là m�t ph�n, m�t giai �o�n trong quá trình th c hin c$a hành ��ng kia.

Tóm l�i, qua quan sát các tr�ng trên, ta rút ra nh�n ��nh sau: n�u V1 kéo theo

V2 và n�u th�i gian di�n ra V1 n�m trong hay bao hàm th�i gian di�n ra V2 thì gi a

V1 và V2 có quan h� b� ph�n – toàn th (part – whole).

4.2.3. Quan h& cách th'c ��c bi&t c a ��ng t":

Trong WordNet, quan h h� danh (hyponymy) �óng vai trò chính trong vic t.

ch�c danh t�, ví d!: “canary” (chim vàng anh) là m�t lo�i (h� danh c$a) “bird” (chim),

nhng ��i v�i ��ng t�, ta th#y không thích h�p n�u nói “limp” (�i kh�p khi-ng) là m�t

lo�i c$a “walk” (�i b�). �i�u này là do: s khác bit ng� ngh a gi�a 2 ��ng t� thì khác

v�i nh�ng �"c trng phân bit gi�a 2 danh t� trong quan h h� danh.

Trong vic xem xét quan h “h� danh” c$a ��ng t�, ng�i ta nh�n th#y nó

không ��n gi�n nh danh t�, mà nó liên quan ��n s cân nh�c t& m& v� ng� ngh a trên

các tr�ng ngh a (semantic field) khác nhau. Ví d!: khi phân tích các ��ng t� chuy�n

��ng: “slide” (tr�t) và “pull” (kéo), ng�i ta nh�n th#y r0ng chúng là m�t s k�t h�p

khác nhau gi�a nét ngh a MOVE (chuy�n ��ng) v�i nét ngh a MANNER (cách th�c) .

Chính vì v�y, mà trong WordNet, �ã s% d!ng m�t quan h m�i, ��c g�i là quan h

cách th�c (troponymy) �� di-n t� “V1 là V2 v�i cách th�c �"c bit”, ví d!: “limp” (�i

kh�p khi-ng) có quan h cách th�c v�i �"c bit v�i “walk” (�i b�) vì “�i kh�p khi-ng

là m�t cách th�c �i b� �"c bit”. Cách th�c �"c bit ph�i ��c hi�u r�ng không ch& là

cách th�c �� hành ��ng, mà còn có th� là ý ��nh, ��ng c�, môi tr�ng, … �� hành

��ng, �� x�y ra bi�n c�, �� hình thành tr�ng thái.

Trong m�i quan h cách th�c �"c bit, gi�a ��ng t� V1 c$a m�t ��ng t� V2

t.ng quát h�n, bao gi� c/ng có quan h V1 c/ng kéo theo V2. Ví d! nh: khi di-n ra

hành ��ng “�i kh�p khi-ng” thì hi�n nhiên lúc �ó c/ng ph�i di-n �ang di-n ra hành

��ng “�i b�”.

Vì v�y, ta có th� nói: quan h� cách th�c ��c bi�t (troponymy) là m�t tr��ng

h�p ��c bi�t c�a quan h� kéo theo (entailment). M�t quan h kéo theo mà trong �ó

th�i gian di-n ra 2 hành ��ng c$a 2 ��ng t� là trùng nhau. Còn gi�a hai ��ng t� “buy/

Page 152: Tim kiem ngu_nghia_tren_e_doc

�� tài: Tìm ki�m ng� ngh a �ng d!ng trên l nh v c eDoc

0112274 – Ph�m Th� M� Ph�ng - 152 - 0112398 – T� Th� Ng�c Thanh

pay” hay “snore/ sleep” thì ch& là quan h kéo theo mà thôi ch� không có quan h cách

th�c �"c bit (vì th�i gian di-n ra c$a 2 hành ��ng không trùng nhau).