Upload
vuongthu
View
212
Download
0
Embed Size (px)
Citation preview
BÁO CÁO SINH VIÊN NGHIÊN CỨU
KHOA HỌC
AGC Group@HPCC-HUT
Hệ thống tìm kiếm và so khớp tài liệu liên trường đại học
Đề tài :
GVHD:
PGS. TS Nguyễn Thanh Thuỷ
SVTH:
Tô Trọng Hiến, Nguyễn Hồng Thanh,
Nguyễn Việt Phương, Nguyễn Duy Hoàng,
SVNCKH 2010
Nội dung trình bày
AGC Group@HPCC-HUT
Đóng góp và hướng phát triển
Dịch vụ tìm kiếm & so khớp
Mô hình đề xuất
Đặt vấn đề
2
SVNCKH 2010
Nhu cầu một hệ thống quản lý tài liệu, luận
văn liên trường đại học là rất lớn
Đặt vấn đề
AGC Group@HPCC-HUT
Các hiện tượng gian lận, sao chép trong học tập xuất hiện
ngày một nhiều
=> giảm chất lượng tài liệu, luận văn
3
Một hệ thống vừa cho phép quản lý vừa
có khả năng so khớp tài liệu liên trường
SVNCKH 2010
Những khó khăn
Chính sách với người dùng & quản lý truy cập là khác nhau
Các công nghệ phân tán hiện tại còn hạn chế: CORBA và
Enterprise Java
Các phương pháp so khớp cổ điển không đáp ứng được
4
0100200300400500
Số trường
Đại học
0
100
200
300Nghìn SV
Số SV tốt
nghiệp …
Số lượng tài liệu luận văn rất lớn, lưu trữ phân tán trên các
trường đại học
Nội dung trình bày
AGC Group@HPCC-HUT
Đóng góp và hướng phát triển
Dịch vụ tìm kiếm & so khớp
Mô hình đề xuất
Đặt vấn đề
5
SVNCKH 2010
Lưới dữ liệu liên trường đại học, trong
đó mỗi trường là một nút lưới
Mô hình đề xuất
IOCT
IOCT 2
DN HPCC
BK HPCC
6
Lưới
Tin cậy
Bảo mật
Mở rộng
Phân tán
Việc tìm kiếm & so khớp tài liệu được
thực hiện phân tán trên các nút
Cổng thông tin cho phép người dùng
dễ dàng tiếp cận hệ thống
MÔ HÌNH KIẾN TRÚC CÁC TẦNG
Mô hình kiến trúc hệ thống
Hệ thốnglưu trữ
Hạ tầngmạng
Hệ thống tính toán
Dịch vụ Bản sao
Dịch vụ so khớp
Dịch vụ tìm kiếm
Tầng tài nguyên
Tầng Middleware
Tầng dịch vụ
ứng dụng
Giám sát tài nguyên
Hạ tầng bảo mật lưới
Quản lýủy nhiệm
Grid PortalTầng trình diễn
VOMSPhát hiện tài nguyên
Dịch vụ dữ liệu
Dịch vụtruyền file
7
Lưới dữ liệu
Kết nối dữ liệu phân tán từ các trường
Trong suốt với người dùng
SVNCKH 2010
9
p truy cập dữ liệu liên trường
Giao diện truy cập dữ liệu
CSDL file
Dịch vụ lưới dữ liệuSite A
Kho tài liệu
Giao diện truy cập dữ liệu
CSDL file
Dịch vụ lưới dữ liệuSite B
Kho tài liệu
Khả năng tạo lập bản sao
=>Tăng tính tin cậy và hiệu năng
AGC Group@HPCC-HUT
Nội dung trình bày
AGC Group@HPCC-HUT
Đóng góp và hướng phát triển
Dịch vụ tìm kiếm & so khớp
Mô hình đề xuất
Đặt vấn đề
10
SVNCKH 2010
Tìm kiếm tài liệu phân tán
-
n
AGC Group@HPCC-HUT
11
Ưu điểm:
Tốc độ tổng hợp dữ liệu nhanh
Lượng dữ liệu trao đổi trong quá
trình tổng hợp thấp
=> giảm băng thông hệ thống
p Cue-Validity Variance
SVNCKH 2010
Vấn đề so khớp tài liệu
PLSA (Probabilistic Latent Semantic
Analysis): phương pháp phân tích nội
dung tài liệu theo hướng tiếp cận ngữ
nghĩa
PLSA xuất phát từ mô hình Aspect
(Mô hình biến ẩn)
12
z wdN
M
Biểu diễn đồ thị của mô hình Aspect, N:
số từ trong tài liệu, M: số tài liệu
P(W=w|Z=z)P(Z=z|D=d)
Ưu điểm của PLSA
AGC Group@HPCC-HUT
13
SVNCKH 2010
PLSA
Đồng nghĩa
& Đa nghĩa
Độ phức tạp
O(mn)
Cập nhật
Số chủ đề càng lớn thì độ chính xác càng cao
Thực nghiệm
240 abstract của các bài báo khoa học trên ieee.org
Bộ kết quả chuẩn:
Chọn 10 tài liệu chuẩn để truy vấn.
Mỗi tài liệu chọn 20 tài liệu có nội dung liên quan đến nó nhất.
65
80
60
75
50
80
60
75 80
50
7090
6585 75 75
95 8570
50
0
20
40
60
80
100
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
Độ chính
xác (%)
Tài liệu …
Biểu đồ độ chính xác
Không phân nhóm
Phân nhóm
14
Thực nghiệm
1000 abstract của các bài báo khoa học trên science direct theo nhiều chủ đề: IR, IR, Grid …
5.4 5.2
3.3
5.2
3.7
5.25.6
2.5
4.5
3.2
0.4 0.50.2 0.2 0.3 0.2
0.6 0.3 0.2 0.5
0
1
2
3
4
5
6
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10
Thời gian
(Giây)
Tài liệu
truy vấn
Biểu đồ thử nghiệm về tốc độ
Tập trung
Phân tán
15
=> Quá trình tìm kiếm và so khớp tài liệu phân tán cho tốc độ nhanh hơn nhiều so với lưu trữ dữ liệu tập trung
Nội dung trình bày
Đóng góp và hướng phát triển
Dịch vụ tìm kiếm & so khớp
Mô hình đề xuất
Đặt vấn đề
16
AGC Group@HPCC-HUTSVNCKH 2010
Những đóng góp của đồ án
Module VOMS quản lý người dùng đăng ký lưới
18
AGC Group@HPCC-HUTSVNCKH 2010
Hướng phát triển
Hoàn thiện hệ thống quản lý bản sao
Tiếp tục cải tiến giải thuật so khớp và tìm kiếm cả về mặt
tốc độ xử lý lẫn độ chính xác
AGC Group@HPCC-HUTSVNCKH 2010
19
Lưới dữ liệu
Khả năng tạo lập bản sao
Tăng tính tin cậy và hiệu năng
SVNCKH 2010
23
GT4 GT4
CS
LFN
[LFN,PFN] [LFN,PFN2]
CS2LFN
1
2
3
4
6
5LFN LFN
Kịch bản nhân bản dữ liệu
Những đóng góp của đồ án
Phân loại tài liệu để tăng hiệu quả của giải thuật PLSA
24
Xử online
Tiền xử lý
Lấy dữ liệu theo nhóm
Xóa các stopwords
Tạo file tiền xử lý
RLI
RLC
RLI
RLC
www.hientt.com www.phuongnv.com
Files Files
lfn
CS(lfn,pfn)CS(lfn,pfn2)
CS2
lfn
VSM Index (CS)
CS(lfn, pfn)?
RLI
RLC
RLI
RLC
www.hientt.com www.phuongnv.com
Files Files
lfn
CS(lfn,pfn)CS(lfn,pfn2)
CS2
lfn
VSM Index (CS)
CS(lfn, pfn)?
RLI
RLC
RLI
RLC
www.hientt.com www.phuongnv.com
Files Files
lfn
CS(lfn,pfn)CS(lfn,pfn2)
CS2
lfn
VSM Index (CS)
CS(lfn, pfn)?