28
BÁO CÁO SINH VIÊN NGHIÊN CỨU KHOA HỌC AGC Group@HPCC-HUT Hệ thống tìm kiếm và so khớp tài liệu liên trường đại học Đề tài : GVHD: PGS. TS Nguyễn Thanh Thuỷ SVTH: Trọng Hiến, Nguyễn Hồng Thanh, Nguyễn Việt Phương, Nguyễn Duy Hoàng, SVNCKH 2010

BÁO CÁO SVNCKH - hto/resources/GOODAS-Slide.pdf · BÁO CÁO SINH VIÊN NGHIÊN CỨU ... sao chép trong học tập xuất hiện ngày một nhiều ... Thực nghiệm

Embed Size (px)

Citation preview

BÁO CÁO SINH VIÊN NGHIÊN CỨU

KHOA HỌC

AGC Group@HPCC-HUT

Hệ thống tìm kiếm và so khớp tài liệu liên trường đại học

Đề tài :

GVHD:

PGS. TS Nguyễn Thanh Thuỷ

SVTH:

Tô Trọng Hiến, Nguyễn Hồng Thanh,

Nguyễn Việt Phương, Nguyễn Duy Hoàng,

SVNCKH 2010

Nội dung trình bày

AGC Group@HPCC-HUT

Đóng góp và hướng phát triển

Dịch vụ tìm kiếm & so khớp

Mô hình đề xuất

Đặt vấn đề

2

SVNCKH 2010

Nhu cầu một hệ thống quản lý tài liệu, luận

văn liên trường đại học là rất lớn

Đặt vấn đề

AGC Group@HPCC-HUT

Các hiện tượng gian lận, sao chép trong học tập xuất hiện

ngày một nhiều

=> giảm chất lượng tài liệu, luận văn

3

Một hệ thống vừa cho phép quản lý vừa

có khả năng so khớp tài liệu liên trường

SVNCKH 2010

Những khó khăn

Chính sách với người dùng & quản lý truy cập là khác nhau

Các công nghệ phân tán hiện tại còn hạn chế: CORBA và

Enterprise Java

Các phương pháp so khớp cổ điển không đáp ứng được

4

0100200300400500

Số trường

Đại học

0

100

200

300Nghìn SV

Số SV tốt

nghiệp …

Số lượng tài liệu luận văn rất lớn, lưu trữ phân tán trên các

trường đại học

Nội dung trình bày

AGC Group@HPCC-HUT

Đóng góp và hướng phát triển

Dịch vụ tìm kiếm & so khớp

Mô hình đề xuất

Đặt vấn đề

5

SVNCKH 2010

Lưới dữ liệu liên trường đại học, trong

đó mỗi trường là một nút lưới

Mô hình đề xuất

IOCT

IOCT 2

DN HPCC

BK HPCC

6

Lưới

Tin cậy

Bảo mật

Mở rộng

Phân tán

Việc tìm kiếm & so khớp tài liệu được

thực hiện phân tán trên các nút

Cổng thông tin cho phép người dùng

dễ dàng tiếp cận hệ thống

MÔ HÌNH KIẾN TRÚC CÁC TẦNG

Mô hình kiến trúc hệ thống

Hệ thốnglưu trữ

Hạ tầngmạng

Hệ thống tính toán

Dịch vụ Bản sao

Dịch vụ so khớp

Dịch vụ tìm kiếm

Tầng tài nguyên

Tầng Middleware

Tầng dịch vụ

ứng dụng

Giám sát tài nguyên

Hạ tầng bảo mật lưới

Quản lýủy nhiệm

Grid PortalTầng trình diễn

VOMSPhát hiện tài nguyên

Dịch vụ dữ liệu

Dịch vụtruyền file

7

Mô hình triển khai8

Lưới dữ liệu

Kết nối dữ liệu phân tán từ các trường

Trong suốt với người dùng

SVNCKH 2010

9

p truy cập dữ liệu liên trường

Giao diện truy cập dữ liệu

CSDL file

Dịch vụ lưới dữ liệuSite A

Kho tài liệu

Giao diện truy cập dữ liệu

CSDL file

Dịch vụ lưới dữ liệuSite B

Kho tài liệu

Khả năng tạo lập bản sao

=>Tăng tính tin cậy và hiệu năng

AGC Group@HPCC-HUT

Nội dung trình bày

AGC Group@HPCC-HUT

Đóng góp và hướng phát triển

Dịch vụ tìm kiếm & so khớp

Mô hình đề xuất

Đặt vấn đề

10

SVNCKH 2010

Tìm kiếm tài liệu phân tán

-

n

AGC Group@HPCC-HUT

11

Ưu điểm:

Tốc độ tổng hợp dữ liệu nhanh

Lượng dữ liệu trao đổi trong quá

trình tổng hợp thấp

=> giảm băng thông hệ thống

p Cue-Validity Variance

SVNCKH 2010

Vấn đề so khớp tài liệu

PLSA (Probabilistic Latent Semantic

Analysis): phương pháp phân tích nội

dung tài liệu theo hướng tiếp cận ngữ

nghĩa

PLSA xuất phát từ mô hình Aspect

(Mô hình biến ẩn)

12

z wdN

M

Biểu diễn đồ thị của mô hình Aspect, N:

số từ trong tài liệu, M: số tài liệu

P(W=w|Z=z)P(Z=z|D=d)

Ưu điểm của PLSA

AGC Group@HPCC-HUT

13

SVNCKH 2010

PLSA

Đồng nghĩa

& Đa nghĩa

Độ phức tạp

O(mn)

Cập nhật

Số chủ đề càng lớn thì độ chính xác càng cao

Thực nghiệm

240 abstract của các bài báo khoa học trên ieee.org

Bộ kết quả chuẩn:

Chọn 10 tài liệu chuẩn để truy vấn.

Mỗi tài liệu chọn 20 tài liệu có nội dung liên quan đến nó nhất.

65

80

60

75

50

80

60

75 80

50

7090

6585 75 75

95 8570

50

0

20

40

60

80

100

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10

Độ chính

xác (%)

Tài liệu …

Biểu đồ độ chính xác

Không phân nhóm

Phân nhóm

14

Thực nghiệm

1000 abstract của các bài báo khoa học trên science direct theo nhiều chủ đề: IR, IR, Grid …

5.4 5.2

3.3

5.2

3.7

5.25.6

2.5

4.5

3.2

0.4 0.50.2 0.2 0.3 0.2

0.6 0.3 0.2 0.5

0

1

2

3

4

5

6

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10

Thời gian

(Giây)

Tài liệu

truy vấn

Biểu đồ thử nghiệm về tốc độ

Tập trung

Phân tán

15

=> Quá trình tìm kiếm và so khớp tài liệu phân tán cho tốc độ nhanh hơn nhiều so với lưu trữ dữ liệu tập trung

Nội dung trình bày

Đóng góp và hướng phát triển

Dịch vụ tìm kiếm & so khớp

Mô hình đề xuất

Đặt vấn đề

16

AGC Group@HPCC-HUTSVNCKH 2010

Những đóng góp của đồ án

Xây dựng hệ thống tìm kiếm và so khớp tài liệu liên

trường đại học

17

Những đóng góp của đồ án

Module VOMS quản lý người dùng đăng ký lưới

18

AGC Group@HPCC-HUTSVNCKH 2010

Hướng phát triển

Hoàn thiện hệ thống quản lý bản sao

Tiếp tục cải tiến giải thuật so khớp và tìm kiếm cả về mặt

tốc độ xử lý lẫn độ chính xác

AGC Group@HPCC-HUTSVNCKH 2010

19

Q&A

Chúng em xin chân thành cảm ơn!

AGC Group@HPCC-HUTSVNCKH 2010

20

Q&A

Chúng em xin chân thành cảm ơn!

AGC Group@HPCC-HUTSVNCKH 2010

21

Mô hình triển khai22

Lưới dữ liệu

Khả năng tạo lập bản sao

Tăng tính tin cậy và hiệu năng

SVNCKH 2010

23

GT4 GT4

CS

LFN

[LFN,PFN] [LFN,PFN2]

CS2LFN

1

2

3

4

6

5LFN LFN

Kịch bản nhân bản dữ liệu

Những đóng góp của đồ án

Phân loại tài liệu để tăng hiệu quả của giải thuật PLSA

24

Xử online

Tiền xử lý

Lấy dữ liệu theo nhóm

Xóa các stopwords

Tạo file tiền xử lý

RLI

RLC

RLI

RLC

www.hientt.com www.phuongnv.com

Files Files

lfn

CS(lfn,pfn)CS(lfn,pfn2)

CS2

lfn

VSM Index (CS)

CS(lfn, pfn)?

RLI

RLC

RLI

RLC

www.hientt.com www.phuongnv.com

Files Files

lfn

CS(lfn,pfn)CS(lfn,pfn2)

CS2

lfn

VSM Index (CS)

CS(lfn, pfn)?

RLI

RLC

RLI

RLC

www.hientt.com www.phuongnv.com

Files Files

lfn

CS(lfn,pfn)CS(lfn,pfn2)

CS2

lfn

VSM Index (CS)

CS(lfn, pfn)?

RLI

RLC

RLI

RLC

www.hientt.com www.phuongnv.com

Files Files

lfn

CS(lfn,pfn)CS(lfn,pfn2)

CS2

lfn

VSM Index (CS)

pfn2