27
1 HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CNTT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc ĐỀ CƯƠNG CHI TIẾT HỌC PHẦN Khai phá dữ liệu & BTL 1. Thông tin về giáo viên TT Họ tên giáo viên Học hàm Học vị Đơn vị công tác (Bộ môn) 1 Hồ Nhật Quang GV ThS BM CNPM ... Thời gian, địa điểm làm việc: Bộ môn CNPM, Khoa CNTT Địa chỉ liên hệ: A2-214, Bộ môn CNPM, Khoa CNTT Điện thoại, email: 069.515.338, [email protected] Các hướng nghiên cứu chính: - Khai phá dữ liệu, tính toán mềm - CSDL - Các hệ thống thông tin 2. Thông tin chung về học phần - Tên học phần: Khai phá dữ liệu & BTL - Mã học phần: - Số tín chỉ: 3 - Học phần (bắt buộc hay lựa chọn): Bắt buộc - Các học phần tiên quyết: Lập trình cơ bản Nhập môn hệ quản trị CSDL Lập trình hướng đối tượng - Các yêu cầu đối với học phần (nếu có): - Giờ tín chỉ đối với các hoạt động: Nghe giảng lý thuyết: 30 Làm bài tập trên lớp: 15 Thảo luận: 15 Thực hành, thực tập (ở PTN, nhà máy, thực tập...): Hoạt động theo nhóm: 15 Tự học: 90 - Khoa/Bộ môn phụ trách học phần, địa chỉ: BM CNPM 3. Mục tiêu của học phần - Kiến thức: o Hiểu các bước trong quá trình khám phá tri thức o Mô tả các khái niệm cơ bản, công nghệ và ứng dụng của khai phá dữ liệu

HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

1

HỌC VIỆN KỸ THUẬT QUÂN SỰ KHOA CNTT

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự do – Hạnh phúc

ĐỀ CƯƠNG CHI TIẾT HỌC PHẦN

Khai phá dữ liệu & BTL 1. Thông tin về giáo viên TT Họ tên giáo viên Học

hàm Học vị Đơn vị công tác (Bộ môn)

1 Hồ Nhật Quang GV ThS BM CNPM

...

Thời gian, địa điểm làm việc: Bộ môn CNPM, Khoa CNTT Địa chỉ liên hệ: A2-214, Bộ môn CNPM, Khoa CNTT Điện thoại, email: 069.515.338, [email protected] Các hướng nghiên cứu chính: - Khai phá dữ liệu, tính toán mềm - CSDL - Các hệ thống thông tin

2. Thông tin chung về học phần - Tên học phần: Khai phá dữ liệu & BTL - Mã học phần: - Số tín chỉ: 3 - Học phần (bắt buộc hay lựa chọn): Bắt buộc - Các học phần tiên quyết:

Lập trình cơ bản Nhập môn hệ quản trị CSDL Lập trình hướng đối tượng

- Các yêu cầu đối với học phần (nếu có): - Giờ tín chỉ đối với các hoạt động:

Nghe giảng lý thuyết: 30 Làm bài tập trên lớp: 15 Thảo luận: 15 Thực hành, thực tập (ở PTN, nhà máy, thực tập...): Hoạt động theo nhóm: 15 Tự học: 90

- Khoa/Bộ môn phụ trách học phần, địa chỉ: BM CNPM 3. Mục tiêu của học phần

- Kiến thức: o Hiểu các bước trong quá trình khám phá tri thức o Mô tả các khái niệm cơ bản, công nghệ và ứng dụng của khai phá

dữ liệu

Page 2: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

2

o Mô hình và mẫu dữ liệu o Nắm được các vấn đề về dữ liệu trong giai đoạn tiền xử lý cho các

tác vụ khai phá dữ liệu o Dữ liệu và độ đo o Tìm hiểu các bài toán khai phá dữ liệu phổ biến như hồi qui, phân

loại, gom cụm, và khai phá luật kết hợp o Sử dụng các giải thuật và công cụ khai phá dữ liệu để phát triển

ứng dụng khai phá dữ liệu o Được chuẩn bị về kiến thức để có thể nghiên cứu trong lĩnh vực

khai phá dữ liệu. - Kỹ năng:

o Khả năng hiểu ý nghĩa và vai trò của khai phá dữ liệu trong giải quyết các bài toán thực tế trong tình hình kinh tế- xã hội-khoa học-kỹ thuật ngày nay

o Khả năng nhận dạng và hiểu các vấn đề liên quan đến dữ liệu sẽ được khai phá và quá trình khai phá dữ liệu

o Khả năng ứng dụng của khai phá dữ liệu vào các hoạt động cụ thể của các đơn vị, tổ chức

o Khả năng phân tích và xử lý dữ liệu cho quá trình khai phá dữ liệu o Khả năng phát triển các kỹ thuật khai phá dữ liệu o Khả năng phát triển ứng dụng khai phá dữ liệu o Khả năng vận dụng các tiện ích hỗ trợ khai phá dữ liệu được cung

cấp phổ biến ngày nay như Weka, MS SQL Server…. o Khả năng tham gia phân tích và xử lý dữ liệu cho quá trình khai

phá dữ liệu o Khả năng tham gia phát triển các kỹ thuật khai phá dữ liệu o Khả năng tham gia phát triển ứng dụng khai phá dữ liệu

- Thái độ, chuyên cần: o Rèn luyện khả năng tự đọc tài liệu o Học viên lên lớp đầy đủ

4. Tóm tắt nội dung học phần (khoảng 150 từ) Giới thiệu các kiến thức cơ bản về khai phá dữ liệu và quá trình khám phá

tri thức, các giai đoạn chính của quá trình khai phá dữ liệu và khám phá tri thức. Học phần cũng cung cấp cho người học các bài toán chính (task) trong KPDL như phân lớp, phân cụm, hồi quy, chuỗi thời gian, luật kết hợp…cũng như cách sử dụng các công cụ hỗ trợ xây dựng các ứng dụng KPDL. 5. Nội dung chi tiết học phần (tên các chương, mục, tiểu mục)

Số TT bài

STT đề

mục Nội dung Số

tiết

Giáo trình, TLTL

Ghi chú

Page 3: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

3

1 2 3 4 5 6

1

Chương 1. Tổng quan về KPDL

3

1.1 Khai phá dữ liệu 1.1.1 Tại sao phải khai phá dữ liệu? 1.1.2 Các định nghĩa về khai phá dữ liệu

1.1.3 Các bước chính trong khám phá tri thức và KPDL

1.1.4 Các dạng dữ liệu có thể KPDL 1.1.5 Các lĩnh vực liên quan đến KPDL 1.2 Các bài toán chính trong KPDL 1.2.1 Phân lớp (Classification) 1.2.2 Phân cụm (Clustering) 1.2.3 Luật kết hợp (Assoiation Rule) 1.2.4 Hồi quy và dự báo (Regression and Prediction) 1.2.5 Chuỗi thời gian (sequential/temporal patterns)

1.2.6 Mô tả khái niệm, tổng hợp (concept description & summarization)

1.3 Ứng dụng & phân loại 1.3.1 Các lĩnh vực ứng dụng chính 1.3.2 Phân loại các hệ KPDL Phân loại theo kiểu dữ liệu được khai phá Phân loại theo dạng tri thức được khám phá Phân loại dựa trên kỹ thuật được áp dụng Phân loại dựa trên lĩnh vực được áp dụng 1.4 Những thách thức trong KPDL 1.5 Những vấn đề được chú trọng trong KPDL 1.6 Một số công cụ dùng KPDL 1.6.1 Weka 1.6.2 Clementine 1.6.3 SQL Server 2008

2

Chương 2. Tiền xử lý dữ liệu

3

3.1 Tại sao phải tiền xử lý dữ liệu ? 3.2 Chuẩn bị dữ liệu 3.2.1 Phân tích dữ liệu 3.2.2 Chuẩn hoá dữ liệu 3.3 Trích chọn dữ liệu 3.3.1 Trích chọn đặc tính 3.3.2 Trích chọn giá trị

Page 4: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

4

3.4 Một số phương pháp trích chọn thuộc tính 3.4.1 Tiếp cận theo phương pháp Filter Thuật toán RELIEF Thuật toán FOCUS Thuật toán LVF Thuật toán EBR Thuật toán SCRAP Lựa chọn nhóm 3.4.2 Tiếp cận theo phương pháp Wrapper Thuật toán LVW Thuật toán NeuralNet 3.4.3 Một số tiếp cận khác Giải thuật di truyền Rời rạc hóa dữ liệu 3.5. Thực hành tiền xử lý dữ liệu

3.5.1 Trích chọn thuộc tính trong Analysis Services/MS SQL Server 2008

Shannon's entropy Bayesian with K2 Prior

Bayesian Dirichlet Equivalent with Uniform Prior

Interestingness score 3.5.2 Trích chọn thuộc tính trong Weka Xếp hạng các thuộc tính (Ranking attributes)

Đánh trọng số các thuộc tính sử dụng Cross Validation

Attribute Evaluator 3.5.3 Xây dựng ứng dụng tiền xử lý dữ liệu

Xử lý dữ liệu lỗi: mất giá trị, sai kiểu, có giá trị khác thường…

Xử lý chuyển đổi dữ liệu Thống kê miền giá trị và phân bố giá trị

3

Chương 3. Phân lớp

6

3.1 Phát biểu bài toán phân lớp 3.1.1 Mô hình bài toán 3.1.2 Một số ví dụ 3.1.3 Các bước giải bài toán 3.1.4 Một số tiếp cận chính giải quyết bài toán 3.1.5 Một số khó khăn khi giải BT

Page 5: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

5

3.2 Kỹ thuật phân lớp dựa trên khoảng cách 3.2.1 Ý tưởng 3.2.2 Thuật toán k Người láng giềng gần nhất 3.2.3 Đánh giá thuật toán 3.2.4 Ví dụ minh họa 3.3 Kỹ thuật phân lớp dựa trên cây quyết định 3.3.1 Giới thiệu về cây quyết định 3.3.2 Các thuật toán tạo cây quyết định Thuật toán ID3 Thuật toán C3.5 3.3.3 Một số vấn đề về cây quyết định Avoiding over-fitting the data Rule post-pruning Incorporating Continuous-Valued Attributes

Handling Training Examples with Missing Attribute Values

3.3.4 Đánh giá ưu nhược điểm của cây quyết định

3.3.5 Thực hành phân lớp dựa vào cây quyết định trên phần mềm CABRO

3.4 Kỹ thuật phân lớp dựa trên mạng neuron 3.3.1 Nhắc lại một số khái niệm về mạng neuron

3.3.2 Mạng neuron perceptron đa lớp và giải thuật học lan truyền ngược

3.3.3 Ứng dụng mạng neuron trong bài toán phân lớp 3.3.4 Đánh giá thuật toán 3.3.5 Ví dụ minh họa 3.5 Kỹ thuật phân lớp dựa trên thống kê xác xuất 3.5.1 Một số khái niệm về xác xuất 3.5.2 Lý thuyết xác xuất thống kê Bayets 3.5.3 Phân lớp dựa theo kỹ thuật thống kê xác xuất 3.5.4 Đánh giá thuật toán 3.5.5 Ví dụ minh hoạt 3.6 Thực hành phân lớp 3.6.1 Sử dụng Weka thực hành các bài tập phân lớp Cây quyết định Mạng neuron Bayets 3.6.2 Xây dựng ứng dụng phân lớp Nhận dạng chữ số viết tay

Page 6: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

6

Cài đặt thuật toán ID3 Cài đặt mạng neuron perceptron đa lớp Cài đặt thuật toán phân lớp Bayets

4

Chương 4. Phân cụm

6

4.1 Phát biểu bài toán phân cụm 4.1.1 Phát biểu bài toán 4.1.2 Ứng dụng của bài toán 4.1.3 Đánh giá kết quả phân cụm 4.1.4 Các yêu cầu khi thực hiện phân cụm 4.1.5 Các tiếp cận chính giải bài toán phân cụm 4.2 Kỹ thuật phân hoạch 4.2.1 Ý tưởng thuật toán 4.2.2 Thuật toán K-Mean 4.2.3 Đánh giá ưu nhược điểm của thuật toán 4.2.4 Ví dụ minh họa 4.2.5 Các cải tiến của K-Mean Thuật toán K-Medoid Thuật toán CLARANS Thuật toán DBSCAN Thuật toán DBRS 4.2.6 Thuật toán FCM Ý tưởng thuật toán Thuật toán FCM Đánh giá thuật toán Phân đoạn ảnh sử dụng FCM 4.3 Một số tiếp cận phân cụm khác 4.3.1 Các tiếp cận theo cấp bậc (cây) 4.3.2 Phân cụm dựa theo lưới (grid) 4.4 Thực hành xây dựng ứng dụng phân cụm Phân đoạn ảnh sử dụng FCM Phân cụm dữ liệu sử dụng K-Mean

5

Chương 5. Luật kết hợp

6

5.1 Phát biểu bài toán Các khái niệm Giao dịch Hạng mục Độ hỗ trợ (phổ biến-support) Độ tin cậy (confidence)

Page 7: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

7

Tập phổ biến Một số bổ đề trên tập phổ biến Luật kết hợp Ví dụ minh họa 5.2 Các giai đoạn của quá trình tìm luật kết hợp 5.3 Những hướng tiếp cận chính trong KPLKH

Luật kết hợp nhị phân (binary association rule hoặc boolean association rule)

Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorical association rule)

Luật kết hợp mờ (fuzzy association rule):

Luật kết hợp nhiều mức (multi-level association rules):

Luật kết hợp với thuộc tính được đánh trọng số (association rule with weighted items):

5.4 Thuật toán Apriori Ý tưởng thuật toán Các bước thực hiện của thuật toán Ví dụ minh họa Đánh giá thuật toán 5.5. Cải thiện thuật toán Apriori Các cải tiến tăng tốc độ thưc thi Apriori Song song hóa thuật toán Apriori Cấu trúc FP-Growth 5.6 Luật kết hợp có trọng số Ý nghĩa thực tế Một số giải thuật Đánh giá thuật toán Ví dụ minh họa Ứng dụng 5.7 Luật kết hợp và đảm bảo tính riêng tư Vấn đề đảm bảo tính riêng tư Các chiến lược "ẩn" luật nhạy cảm Đánh giá thuật toán 5.8 Thực hành khai phá luật kết hợp

5.8.1 Sử dụng thư viện MPI song song hóa thuật toán khai phá luật kết hợp

Page 8: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

8

Phân tích bài toán giỏ hàng Cài đặt thuật toán Apriori: tìm tập phổ biến Đánh giá kết quả thực nghiệm, so sánh

5.8.2 Cài đặt thuật toán Apriori cải tiến tìm luật kết hợp có trọng số trong CSDL giao dịch mua hàng

Cài đặt thuật toán Các lựa chọn tham số thực hiện Đánh giá kết quả 5.8.3 Sử dụng Weka khai phá luật kết hợp

6

Chủ đề 1. Text Mining

6

6.1 Tổng quan về Text Mining Ý nnghĩa Các bài toán trong Text Mining Mô hình biểu diễn văn bản

Sơ lược về tình hình nghiên cứu và ứng dụng Text Mining

6.2 Bài toán Tách từ Tiếng Việt 6.2.1 Vai trò của tách từ trong Text Mining 6.2.2 Nội dung bài toán tách từ 6.2.3 Một số khó khăn khi tách từ Tiếng Việt

6.2.4 Một số hướng chính giải bài toán tách từ Tiếng Việt

6.2.5 Tách từ dựa vào từ điển Thuật toán Longest Matching Thuật toán Maximal Matching 6.2.6 Tách từ dựa vào thống kê Phương pháp Ngram Phương pháp MaximumEntropi 6.2.7 Tách từ dựa trên phương pháp lai 6.2.8 Đánh giá thuật toán 6.2.9 Ví dụ minh họa 6.2.10 Xây dựng ứng dụng 6.3 Phân lớp văn bản 6.3.1 Quy trình giải bài toán phân lớp văn bản 6.3.2 Ứng dụng Thuật toán Bayest phân lớp văn bản 6.3.3 Đánh giá ưu nhược điểm của thuật toán 6.3.4 Ví dụ minh họa 6.4 Giới thiệu một số bài toán Text Mining khác

Page 9: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

9

6.4.1 Tóm tắt văn bản (Text Summarization) 6.4.2 Phân tích cú pháp (Grammar analysis) 6.4.3 Kiểm lỗi chính tả (Check spelling) 6.4.4 Phân tích hình thái (Morpholigical analysis) 6.5 Thực hành xây dựng ứng dụng Text Mining 6.5.1 Bài toán phân loại thư rác Giới thiệu bài toán Cấu trúc email Một số kỹ thuật phân loại thư rác Ứng dụng Bayet trong lọc thư rác Đánh giá Một số mã nguồn mở về lọc thư rác 6.5.2 Các thuật toán tách từ Tiếng Việt Cài đặt và thử nghiệm đánh giá

6.5.3 Cài đặt ứng dụng phân loại văn bản bằng thuật toán xác xuất Bayet

7

Chủ đề 2. Web Mining

6

7.1 Tổng quan về Web Mining Một số khái niệm về WebMining Các bài toán trong Web Mining Mô hình biểu diễn liên kết web

Sơ lược về tình hình nghiên cứu và ứng dụng Web Mining

7.2 Trích rút thông tin từ các URL 7.2.1 Biểu diễn liên kết web 7.2.2 Kỹ thuật trích rút tin từ URL 7.2.3 Bóc tách tin theo mẫu 7.3 Máy tìm kiếm 7.3.1 Giới thiệu chung 7.3.2 Cấu trúc chung của máy tìm kiếm 7.3.3 Nguyên tắc thực hiện của Robot

7.3.4 Hệ thống lập chỉ mục và các phương pháp đánh chỉ mục, tính trọng số

7.3.5 Máy tìm kiếm User Interface Query Engine WebRank, PageRank Một số vấn đề về nâng cao chất lượng tìm kiếm 7.4 Web Structure Mining

Page 10: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

10

7.4.1 Ý nghĩa thực tế 7.4.2 Một số tiếp cận thực hiện khai phá cấu trúc web 7.4.3 Giới thiệu một số công cụ hỗ trợ 7.4.4 Đánh giá, kết luận 7.5 Web Usage Mining 7.5.1 Ý nghĩa thực tế 7.5.2 Một số tiếp cận thực hiện khai phá log web 7.5.3 Giới thiệu một số công cụ hỗ trợ 7.5.4 Đánh giá, kết luận

7.6 Thực hành xây dựng ứng dụng về Web Mining

7.6.1 Xây dựng công cụ tự động thu thập tin từ các URL theo mẫu tin đã định trước

Định nghĩa, mô tả mẫu tin Cài đặt ứng dụng lọc tin Phân loại tin theo chủ đề Khử trùng lặp dữ liệu 7.6.2 Xây dựng ứng dụng báo điện tử 7.6.3 Ứng dụng phân tích Web Usage

Đánh giá xu hướng người dùng đối với các trang bán hàng, tin tức…

Cảnh báo về an ninh mạng

8

Chủ đề 3. Multimedia Mining

6

8.1 Giới thiệu chung về Multimedia Mining 8.1.1 Dữ liệu đa phương tiện 8.1.2 Các bài toán trong KPDL đa phương tiện

8.1.3 Những thách thức chính trong KPDL đa phương tiện

8.1.4 Sơ lược về tình hình nghiên cứu và ứng dụng Multimedia Mining

8.2 Tìm kiếm, phân loại ảnh theo ngữ nghĩa 8.2.1 Ý nghĩa bài toán 8.2.2 Mô hình bài toán phân loại ảnh 8.2.3 Đặc trưng ảnh Đặc trưng màu sắc Đặc trưng kết cấu Đặc trưng hình dáng Đặc trưng bất biến 8.2.4 Xác định độ đo tương tự

Page 11: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

11

8.2.5 Một số tiếp cận phát hiện đối tượng trên ảnh 8.2.6 Một số hệ thống tìm kiếm, phân loại ảnh 8.3 Khai phá dữ liệu trên CSDL video 8.3.1 Mô hình dữ liệu Video 8.3.2 Trích rút khung hình từ CSDL Video 8.3.3 Truy vấn dữ liệu Video 8.3.4 Một số hệ thống khai phá dữ liệu Video 8.4 Thực hành KPDL đa phương tiện 8.4.1 Phân loại ảnh dựa trên các độ đo tương tự Cài đặt một số thuật toán xử lý ảnh Trích rút đặc trưng ảnh tạo vecto đặc trưng Phân loại ảnh

8.4.2 Phát hiện xâm nhập trên video thu nhận từ camera

Thu nhận video từ Webcam, Camera

Sử dụng một số phương pháp phát hiện, cảnh báo có xâm nhập

9

Chủ đề 4. Một số bài toán khác

3

9.1 Hồi quy Mô hình bài toán hồi quy Hồi quy tuyến tính Ứng dụng của hồi quy 9.2 Chuỗi thời gian 9.2.1 Khái niệm chuỗi thời gian 9.2.2 Các thành phần của chuỗi thời gian 9.2.3 Các phương pháp làm trơn

9.2.4 Mô hình hóa việc dự báo giá trị của đại lượng X 9.2.5 Dự báo 9.2.6 Mô hình ARMA và đánh giá

9.2.7 Một số vấn đề mở rộng về khai phá dữ liệu trên chuỗi thời gian

9.3 Một số vấn đề về xu hướng và triển vọng của KPDL

6. Giáo trình, tài liệu tham khảo TT Tên giáo trình, tài liệu Tình trạng giáo trình, tài liệu

Có ở thư viện (web

Giáo viên hoặc khoa

Đề nghị mua mới

Đề nghị biên soạn

Page 12: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

12

site) có mới 1 Ho Tu Bao, Introduction to Knowledge Discovery and

Data Mining, National Center for Natural Science and

Technology, 2002

File

2 Morgan Kaufman, Data Mining: Concepts and

Techniques, Morgan Kaufmann Publishers, 2002

File

3 John Wang, Data Mining - Opportunities and

Challenges, Idea Group Publishing, 2003

File

4 Jiawei Han and Micheline Kamber, Data Mining

Concepts and Techniques, University of Illinois,

Morgan Kaufmann Publishers, 2002

File

5 Usama M. Fayyad, Gregory Piatetsky-Shapiro,

Padhraic Smyth, and Ramasamy Uthurusamy,

Advances in Knowledge Discovery and Data Mining,

AAAI Press/The MIT Press, 1996

File

7. Hình thức tổ chức dạy học 7.1. Lịch trình chung: (Ghi tổng số giờ cho mỗi cột)

Nội dung

Hình thức tổ chức dạy học học phần

Tổng Lên lớp Thực

hành, thí nghiệm,

thực tập...

Tự học, tự ng.cứu Lý

thuyết Bài tập

Thảo luận

Chương 1 6 6 Chương 2 3 3 3 Chương 3 6 3 9 Chương 4 6 3 9 Chương 5 6 3 9 Chương 6 6 3 9 Chương 7 3 3 6 Chương 8 3 3 6 Chương 9 3 3 7.2. Lịch trình tổ chức dạy học cụ thể

Bài giảng 1: Tổng quan về KPDL Chương I Mục 1.1 Tiết thứ: 1 - 3 Tuần thứ: 1

- Mục đích, yêu cầu: Nắm được các khái niệm về kho dữ liệu và khai phá dữ liệu;

Page 13: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

13

Quy trình khai phá dữ liệu; Các bước khai phá dữ liệu và đặc điểm;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

1.1 Khai phá dữ liệu 1.1.1 Tại sao phải khai phá dữ liệu? 1.1.2 Các định nghĩa về khai phá dữ liệu 1.1.3 Các bước chính trong khám phá tri thức và KPDL 1.1.4 Các dạng dữ liệu có thể KPDL 1.1.5 Các lĩnh vực liên quan đến KPDL

- Yêu cầu SV chuẩn bị: Đọc chương 1 các tài liệu [1], [2],[3],[4] [5] Bài tập về nhà:

Bài giảng 2: Tổng quan về KPDL (tiếp) Chương I Mục 1.2+1.3+1.4+1.5+1.6 Tiết thứ: 1 - 3 Tuần thứ: 2

- Mục đích, yêu cầu: Các bài toán chính của KPDL; Các thách thức với giải quyết bài toán KPDL Phân loại và ứng dụng KPDL

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 1.2 Các bài toán chính trong KPDL

1.2.1 Phân lớp (Classification) 1.2.2 Phân cụm (Clustering) 1.2.3 Luật kết hợp (Assoiation Rule) 1.2.4 Hồi quy và dự báo (Regression and Prediction) 1.2.5 Chuỗi thời gian (sequential/temporal patterns) 1.2.6 Mô tả khái niệm, tổng hợp (concept description & summarization)

1.3 Ứng dụng & phân loại 1.3.1 Các lĩnh vực ứng dụng chính 1.3.2 Phân loại các hệ KPDL Phân loại theo kiểu dữ liệu được khai phá Phân loại theo dạng tri thức được khám phá Phân loại dựa trên kỹ thuật được áp dụng Phân loại dựa trên lĩnh vực được áp dụng

Page 14: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

14

1.4 Những thách thức trong KPDL 1.5 Những vấn đề được chú trọng trong KPDL 1.6 Một số công cụ dùng KPDL 1.6.1 Weka 1.6.2 Clementine 1.6.3 SQL Server 2008

- Yêu cầu SV chuẩn bị: Đọc chương 1, 2 các tài liệu [1], [2], [5] Bài tập về nhà:

Bài giảng 3: Tiền xử lý dữ liệu Chương II Tiết thứ: 1 - 3 Tuần thứ: 3

- Mục đích, yêu cầu: Tại sao phải tiền xử lý dữ liệu, ý nghĩa; Một số kỹ thuật tiền xử lý: xử lý lỗi, chuyển kiểu, chuẩn hóa Một số thuật toán trích chọn thuộc tính

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 10t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

2.1 Tại sao phải tiền xử lý dữ liệu ? 2.2 Chuẩn bị dữ liệu 2.2.1 Phân tích dữ liệu 2.2.2 Chuẩn hoá dữ liệu 2.3 Trích chọn dữ liệu 2.3.1 Trích chọn đặc tính 2.3.2 Trích chọn giá trị 2.4 Một số phương pháp trích chọn thuộc tính 2.4.1 Tiếp cận theo phương pháp Filter Thuật toán RELIEF Thuật toán FOCUS Thuật toán LVF Thuật toán EBR Thuật toán SCRAP Lựa chọn nhóm 2.4.2 Tiếp cận theo phương pháp Wrapper Thuật toán LVW Thuật toán NeuralNet 2.4.3 Một số tiếp cận khác

Page 15: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

15

Giải thuật di truyền Rời rạc hóa dữ liệu

- Yêu cầu SV chuẩn bị: Đọc chương 2 các tài liệu [1], [2], [4] Bài tập về nhà:

Bài giảng 4. Tiền xử lý dữ liệu (Tiếp) Chương II. Thực hành tiền xử lý dữ liệu Tiết thứ: 1 - 3 Tuần thứ: 4

- Mục đích, yêu cầu: Nắm chắc các khái niệm về tiền xử lý dữ liệu; Cài đặt các thuật toán tiền xử lý dữ liệu.

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu. - Thời gian: Bài tập 3 tiết, Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

2.5. Thực hành tiền xử lý dữ liệu 2.5.1 Trích chọn thuộc tính trong Analysis Services/MS SQL Server 2008 Shannon's entropy Bayesian with K2 Prior Bayesian Dirichlet Equivalent with Uniform Prior Interestingness score 2.5.2 Trích chọn thuộc tính trong Weka Xếp hạng các thuộc tính (Ranking attributes) Đánh trọng số các thuộc tính sử dụng Cross Validation Attribute Evaluator 2.5.3 Xây dựng ứng dụng tiền xử lý dữ liệu Xử lý dữ liệu lỗi: mất giá trị, sai kiểu, có giá trị khác thường… Xử lý chuyển đổi dữ liệu Thống kê miền giá trị và phân bố giá trị

- Yêu cầu SV chuẩn bị: Bài tập về nhà: Cài đặt các thuật toán tiền xử lý dữ liệu

Bài giảng 5: Phân lớp Chương 3 Mục 3.1 + 3.2 + 3.3 Tiết thứ: 1 - 3 Tuần thứ: 5

- Mục đích, yêu cầu: Nắm được các khái niệm về bài toán phân lớp; Các kỹ thuật giải bài toán phân lớp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công.

Page 16: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

16

- Nội dung chính: 3.1 Phát biểu bài toán phân lớp 3.1.1 Mô hình bài toán 3.1.2 Một số ví dụ 3.1.3 Các bước giải bài toán 3.1.4 Một số tiếp cận chính giải quyết bài toán 3.1.5 Một số khó khăn khi giải BT 3.2 Kỹ thuật phân lớp dựa trên khoảng cách 3.2.1 Ý tưởng 3.2.2 Thuật toán k Người láng giềng gần nhất 3.2.3 Đánh giá thuật toán 3.2.4 Ví dụ minh họa 3.3 Kỹ thuật phân lớp dựa trên cây quyết định 3.3.1 Giới thiệu về cây quyết định 3.3.2 Các thuật toán tạo cây quyết định Thuật toán ID3 Thuật toán C3.5 3.3.3 Một số vấn đề về cây quyết định Avoiding over-fitting the data Rule post-pruning Incorporating Continuous-Valued Attributes Handling Training Examples with Missing Attribute Values 3.3.4 Đánh giá ưu nhược điểm của cây quyết định 3.3.5 Thực hành phân lớp dựa vào cây quyết định trên phần mềm CABRO

- Yêu cầu SV chuẩn bị: Đọc chương 4 các tài liệu [1], [2] Bài tập về nhà: bài tập tự làm chương 4,5 tài liệu [5]

Bài giảng 6: Phân lớp (Tiếp) Chương 3 Mục 3.4 + 3.5 + 3.6 Tiết thứ: 1 - 3 Tuần thứ: 5

- Mục đích, yêu cầu: Nắm được các khái niệm về bài toán phân lớp; Các kỹ thuật giải bài toán phân lớp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

3.4 Kỹ thuật phân lớp dựa trên mạng neuron 3.3.1 Nhắc lại một số khái niệm về mạng neuron 3.3.2 Mạng neuron perceptron đa lớp và giải thuật học lan truyền ngược

Page 17: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

17

3.3.3 Ứng dụng mạng neuron trong bài toán phân lớp 3.3.4 Đánh giá thuật toán 3.3.5 Ví dụ minh họa 3.5 Kỹ thuật phân lớp dựa trên thống kê xác xuất 3.5.1 Một số khái niệm về xác xuất 3.5.2 Lý thuyết xác xuất thống kê Bayets 3.5.3 Phân lớp dựa theo kỹ thuật thống kê xác xuất 3.5.4 Đánh giá thuật toán 3.5.5 Ví dụ minh hoạt 3.6. Một số các kỹ thuật phân lớp khác

- Yêu cầu SV chuẩn bị: Đọc chương 4 các tài liệu [1], [2] Bài tập về nhà: bài tập tự làm chương 4,5 tài liệu [5]

Bài giảng 7: Phân lớp (Tiếp) Chương 3 Bài tập thực hành Tiết thứ: 1 - 3 Tuần thứ: 7

- Mục đích, yêu cầu: Cài đặt một số thuật toán phân lớp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Bài tập 3 tiết, Tự học, tự nghiên cứu: 5t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

3.7 Thực hành phân lớp 3.7.1 Sử dụng Weka thực hành các bài tập phân lớp Cây quyết định Mạng neuron Bayets 3.7.2 Xây dựng ứng dụng phân lớp Nhận dạng chữ số viết tay Cài đặt thuật toán ID3 Cài đặt mạng neuron perceptron đa lớp

Cài đặt thuật toán phân lớp Bayets - Yêu cầu SV chuẩn bị:

Đọc chương 4 các tài liệu [1], [2] Bài tập về nhà: bài tập tự làm chương 4,5 tài liệu [5]

Bài giảng 8: Phân cụm Chương 4 Mục 4.1 + 4.2 Tiết thứ: 1 - 3 Tuần thứ: 8

- Mục đích, yêu cầu: Các kỹ thuật giải bài toán phân cụm

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu

Page 18: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

18

- Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

4.1 Phát biểu bài toán phân cụm 4.1.1 Phát biểu bài toán 4.1.2 Ứng dụng của bài toán 4.1.3 Đánh giá kết quả phân cụm 4.1.4 Các yêu cầu khi thực hiện phân cụm 4.1.5 Các tiếp cận chính giải bài toán phân cụm 4.2 Kỹ thuật phân hoạch 4.2.1 Ý tưởng thuật toán 4.2.2 Thuật toán K-Mean 4.2.3 Đánh giá ưu nhược điểm của thuật toán 4.2.4 Ví dụ minh họa 4.2.5 Các cải tiến của K-Mean Thuật toán K-Medoid Thuật toán CLARANS Thuật toán DBSCAN Thuật toán DBRS

- Yêu cầu SV chuẩn bị: Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4] Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 9: Phân cụm (Tiếp) Chương 4 Mục 4.2 + 4.3 Tiết thứ: 1 - 3 Tuần thứ: 9

- Mục đích, yêu cầu: Các kỹ thuật giải bài toán phân cụm

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

4.2.6 Thuật toán FCM Ý tưởng thuật toán Thuật toán FCM Đánh giá thuật toán Phân đoạn ảnh sử dụng FCM 4.3 Một số tiếp cận phân cụm khác 4.3.1 Các tiếp cận theo cấp bậc (cây) Ý tưởng thuật toán

Page 19: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

19

Nội dung thuật toán Đánh giá ưu nhược điểm Ví dụ minh họa 4.3.2 Phân cụm dựa theo lưới (grid) Ý tưởng thuật toán Nội dung thuật toán Đánh giá ưu nhược điểm Ví dụ minh họa

- Yêu cầu SV chuẩn bị: Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4] Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 10: Phân cụm (Tiếp) Chương 4 Bài tập thực hành Tiết thứ: 1 - 3 Tuần thứ: 9

- Mục đích, yêu cầu: Cài đặt các thuật toán phân cụm

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Bài tập 3 tiết - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: Thực hành xây dựng ứng dụng phân cụm Phân đoạn ảnh sử dụng FCM

o Sử dụng Matlap o Cài đặt trên NNLT

Phân cụm dữ liệu sử dụng K-Mean o Sử dụng Weka o Sử dụng các công cụ hỗ trợ khác o Cài đặt trên NNLT

Cài đặt các biến thể của K-mean - Yêu cầu SV chuẩn bị:

Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4] Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 11: Luật kết hợp Chương 5 Mục 5.1 + 5.2 + 5.3 Tiết thứ: 1 - 3 Tuần thứ: 9

- Mục đích, yêu cầu: Nắm được các khái niệm về luật kết hợp, luật kết hợp có trọng số Cách thức giải quyết bài toán tìm luật kết hợp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t - Địa điểm: Giảng đường do P2 phân công.

Page 20: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

20

- Nội dung chính: 5.1 Phát biểu bài toán Các khái niệm Giao dịch Hạng mục Độ hỗ trợ (phổ biến-support) Độ tin cậy (confidence) Tập phổ biến Một số bổ đề trên tập phổ biến Luật kết hợp Ví dụ minh họa 5.2 Các giai đoạn của quá trình tìm luật kết hợp 5.3 Những hướng tiếp cận chính trong KPLKH Luật kết hợp nhị phân (binary association rule hoặc boolean association rule) Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative and categorical association rule) Luật kết hợp mờ (fuzzy association rule): Luật kết hợp nhiều mức (multi-level association rules): Luật kết hợp với thuộc tính được đánh trọng số (association rule with weighted items): 5.4 Thuật toán Apriori Ý tưởng thuật toán Các bước thực hiện của thuật toán Ví dụ minh họa Đánh giá thuật toán

- Yêu cầu SV chuẩn bị: Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 12: Luật kết hợp Chương V 5.5 + 5.6 + 5.7 Tiết thứ: 1 - 3 Tuần thứ: 12

- Mục đích, yêu cầu: Một số tiếp cận giải bài toán luật kết hợp; Mỏ rộng thuật toán Apriori cho các bài toán tìm luật khác;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 1t; Bài tập 3 tiết, Tự học, tự nghiên cứu: 5t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 5.5. Cải thiện thuật toán Apriori Các cải tiến tăng tốc độ thưc thi Apriori Song song hóa thuật toán Apriori Cấu trúc FP-Growth

Page 21: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

21

5.6 Luật kết hợp có trọng số Ý nghĩa thực tế Một số giải thuật Đánh giá thuật toán Ví dụ minh họa Ứng dụng

5.7 Luật kết hợp và đảm bảo tính riêng tư Vấn đề đảm bảo tính riêng tư Các chiến lược "ẩn" luật nhạy cảm Đánh giá thuật toán - Yêu cầu SV chuẩn bị:

Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 13: Luật kết hợp (Tiếp) Chương 5 5.8.Bài tập thực hành Tiết thứ: 1 - 3 Tuần thứ: 13

- Mục đích, yêu cầu: Cài đặt các thuật toán tìm luật kết hợp

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Bài tập 3 tiết - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 5.8 Thực hành khai phá luật kết hợp

5.8.1 Sử dụng thư viện MPI song song hóa thuật toán khai phá luật kết hợp Phân tích bài toán giỏ hàng Cài đặt thuật toán Apriori: tìm tập phổ biến Đánh giá kết quả thực nghiệm, so sánh

5.8.2 Cài đặt thuật toán Apriori cải tiến tìm luật kết hợp có trọng số trong CSDL giao dịch mua hàng Cài đặt thuật toán Các lựa chọn tham số thực hiện Đánh giá kết quả

5.8.3 Sử dụng Weka khai phá luật kết hợp - Yêu cầu SV chuẩn bị:

Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4] Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 14: Text Mining Chương 6 Mục 6.1 + 6.2 Tiết thứ: 1 - 3 Tuần thứ: 14

- Mục đích, yêu cầu: Nắm được các khái niệm về các bài toán khai phá với dữ liệu văn bản

Page 22: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

22

Cách thức giải quyết bài toán tách từ: là bài toán điển hình khi giải bài toán KPDL với dữ liệu Text.

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 5t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 6.1 Tổng quan về Text Mining Ý nghĩa Các bài toán trong Text Mining Mô hình biểu diễn văn bản Sơ lược về tình hình nghiên cứu và ứng dụng Text Mining

6.2 Bài toán Tách từ Tiếng Việt 6.2.1 Vai trò của tách từ trong Text Mining 6.2.2 Nội dung bài toán tách từ 6.2.3 Một số khó khăn khi tách từ Tiếng Việt 6.2.4 Một số hướng chính giải bài toán tách từ Tiếng Việt 6.2.5 Tách từ dựa vào từ điển Thuật toán Longest Matching Thuật toán Maximal Matching 6.2.6 Tách từ dựa vào thống kê Phương pháp Ngram Phương pháp MaximumEntropi 6.2.7 Tách từ dựa trên phương pháp lai 6.2.8 Đánh giá thuật toán 6.2.9 Ví dụ minh họa 6.2.10 Xây dựng ứng dụng

- Yêu cầu SV chuẩn bị: Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 15: Text Mining Chương V 6.3 + 6.4 Tiết thứ: 1 - 3 Tuần thứ: 14

- Mục đích, yêu cầu: Nắm được các khái niệm về các bài toán khai phá với dữ liệu văn bản Bài toán phân lớp văn bản; Một số bài toán KPDL với dữ liệu văn bản khác.

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 1t; Bài tập 3 tiết, Tự học, tự nghiên cứu: 5t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 6.3 Phân lớp văn bản

6.3.1 Quy trình giải bài toán phân lớp văn bản 6.3.2 Ứng dụng Thuật toán Bayest phân lớp văn bản

Page 23: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

23

6.3.3 Đánh giá ưu nhược điểm của thuật toán 6.3.4 Ví dụ minh họa 6.4 Giới thiệu một số bài toán Text Mining khác 6.4.1 Tóm tắt văn bản (Text Summarization) 6.4.2 Phân tích cú pháp (Grammar analysis) 6.4.3 Kiểm lỗi chính tả (Check spelling) 6.4.4 Phân tích hình thái (Morpholigical analysis)

- Yêu cầu SV chuẩn bị: Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 16: Text Mining (Tiếp) Chương 6 6.5. Bài tập thực hành Tiết thứ: 1 - 3 Tuần thứ: 16

- Mục đích, yêu cầu: Cài đặt các thuật toán tách từ và phân lớp văn bản

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Bài tập 3 tiết - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

6.5 Thực hành xây dựng ứng dụng Text Mining 6.5.1 Bài toán phân loại thư rác Giới thiệu bài toán Cấu trúc email Một số kỹ thuật phân loại thư rác Ứng dụng Bayet trong lọc thư rác Đánh giá Một số mã nguồn mở về lọc thư rác 6.5.2 Các thuật toán tách từ Tiếng Việt Cài đặt và thử nghiệm đánh giá 6.5.3 Cài đặt ứng dụng phân loại văn bản bằng thuật toán xác xuất Bayet

- Yêu cầu SV chuẩn bị: Đọc chương 8 các tài liệu [1], [2], chương 7 tài liệu [4] Bài tập về nhà: bài tập tự làm chương 6 tài liệu [5]

Bài giảng 17: Web Mining Chương 7 7.1 - 7.5 Tiết thứ: 1 - 3 Tuần thứ: 16

- Mục đích, yêu cầu: Nắm được các khái niệm về các bài toán khai phá với dữ liệu web Bài toán phân lớp WEB, KPDL log WEB, KPDL cấu trúc WEB;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t

Page 24: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

24

- Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 7.1 Tổng quan về Web Mining Một số khái niệm về WebMining Các bài toán trong Web Mining Mô hình biểu diễn liên kết web Sơ lược về tình hình nghiên cứu và ứng dụng Web Mining

7.2 Trích rút thông tin từ các URL 7.2.1 Biểu diễn liên kết web 7.2.2 Kỹ thuật trích rút tin từ URL 7.2.3 Bóc tách tin theo mẫu 7.3 Máy tìm kiếm 7.3.1 Giới thiệu chung 7.3.2 Cấu trúc chung của máy tìm kiếm 7.3.3 Nguyên tắc thực hiện của Robot 7.3.4 Hệ thống lập chỉ mục và các phương pháp đánh chỉ mục, tính trọng số 7.3.5 Máy tìm kiếm User Interface Query Engine WebRank, PageRank Một số vấn đề về nâng cao chất lượng tìm kiếm 7.4 Web Structure Mining 7.4.1 Ý nghĩa thực tế 7.4.2 Một số tiếp cận thực hiện khai phá cấu trúc web 7.4.3 Giới thiệu một số công cụ hỗ trợ 7.4.4 Đánh giá, kết luận 7.5 Web Usage Mining 7.5.1 Ý nghĩa thực tế 7.5.2 Một số tiếp cận thực hiện khai phá log web 7.5.3 Giới thiệu một số công cụ hỗ trợ 7.5.4 Đánh giá, kết luận

- Yêu cầu SV chuẩn bị: Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 18: Web Mining (Tiếp) Chương 7 7.6. Bài tập thực hành Tiết thứ: 1 - 3 Tuần thứ: 17

- Mục đích, yêu cầu: Cài đặt một số thuật toán KPDL dạng WEB

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Bài tập 3 tiết - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

Page 25: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

25

7.6 Thực hành xây dựng ứng dụng về Web Mining 7.6.1 Xây dựng công cụ tự động thu thập tin từ các URL theo mẫu tin đã định trước Định nghĩa, mô tả mẫu tin Cài đặt ứng dụng lọc tin Phân loại tin theo chủ đề Khử trùng lặp dữ liệu 7.6.2 Xây dựng ứng dụng báo điện tử 7.6.3 Ứng dụng phân tích Web Usage Đánh giá xu hướng người dùng đối với các trang bán hàng, tin tức… Cảnh báo về an ninh mạng

- Yêu cầu SV chuẩn bị: Đọc chương 7 các tài liệu [1], [2], chương 7 tài liệu [4] Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 19: Multimedia Mining Chương 8 8.1 + 8.2 + 8.3 Tiết thứ: 1 - 3 Tuần thứ: 18

- Mục đích, yêu cầu: Nắm được các khái niệm về các bài toán khai phá với dữ liệu đa phương

tiện Một số thuật toán KPDL với CSDL đa phương tiện;

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

8.1 Giới thiệu chung về Multimedia Mining 8.1.1 Dữ liệu đa phương tiện 8.1.2 Các bài toán trong KPDL đa phương tiện 8.1.3 Những thách thức chính trong KPDL đa phương tiện 8.1.4 Sơ lược về tình hình nghiên cứu và ứng dụng Multimedia Mining 8.2 Tìm kiếm, phân loại ảnh theo ngữ nghĩa 8.2.1 Ý nghĩa bài toán 8.2.2 Mô hình bài toán phân loại ảnh 8.2.3 Đặc trưng ảnh Đặc trưng màu sắc Đặc trưng kết cấu Đặc trưng hình dáng Đặc trưng bất biến 8.2.4 Xác định độ đo tương tự 8.2.5 Một số tiếp cận phát hiện đối tượng trên ảnh 8.2.6 Một số hệ thống tìm kiếm, phân loại ảnh 8.3 Khai phá dữ liệu trên CSDL video

Page 26: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

26

8.3.1 Mô hình dữ liệu Video 8.3.2 Trích rút khung hình từ CSDL Video 8.3.3 Truy vấn dữ liệu Video 8.3.4 Một số hệ thống khai phá dữ liệu Video

- Yêu cầu SV chuẩn bị: Bài tập về nhà: bài tập tự làm chương 7 tài liệu [5]

Bài giảng 20: Multimedia Mining (Tiếp) Chương 8 8.4. Bài tập thực hành Tiết thứ: 1 - 3 Tuần thứ: 19

- Mục đích, yêu cầu: Cài đặt một số thuật toán KPDL với CSDL đa phương tiện

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Bài tập 3 tiết - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính:

8.4 Thực hành KPDL đa phương tiện 8.4.1 Phân loại ảnh dựa trên các độ đo tương tự Cài đặt một số thuật toán xử lý ảnh Trích rút đặc trưng ảnh tạo vecto đặc trưng Phân loại ảnh 8.4.2 Phát hiện xâm nhập trên video thu nhận từ camera Thu nhận video từ Webcam, Camera Sử dụng một số phương pháp phát hiện, cảnh báo có xâm nhập

- Yêu cầu SV chuẩn bị: Bài tập về nhà: bài tập tự làm chương 8 tài liệu [5]

Bài giảng 20: Một số bài toán khác Chương 9 Tiết thứ: 1 - 3 Tuần thứ: 20

- Mục đích, yêu cầu: Nắm được các khái niệm về các một số bài toán KPDL khác Xu hướng và triển vọng của KPDL.

- Hình thức tổ chức dạy học: Lý thuyết, thảo luận, tự học, tự nghiên cứu - Thời gian: Lý thuyết, thảo luận: 3t; Tự học, tự nghiên cứu: 6t - Địa điểm: Giảng đường do P2 phân công. - Nội dung chính: 9.1 Hồi quy Mô hình bài toán hồi quy Hồi quy tuyến tính Ứng dụng của hồi quy

9.2 Chuỗi thời gian 9.2.1 Khái niệm chuỗi thời gian 9.2.2 Các thành phần của chuỗi thời gian

Page 27: HỌC VIỆN KỸ THUẬT QUÂN SỰ CỘNG HÒA XÃ HỘI CHỦ NGHĨA …fit.lqdtu.edu.vn/files/FileMonHoc/DCHP_KPDL_HNQ.pdfquyết các bài toán thực tế trong tình hình

27

9.2.3 Các phương pháp làm trơn 9.2.4 Mô hình hóa việc dự báo giá trị của đại lượng X 9.2.5 Dự báo 9.2.6 Mô hình ARMA và đánh giá 9.2.7 Một số vấn đề mở rộng về khai phá dữ liệu trên chuỗi thời gian 9.3 Một số vấn đề về xu hướng và triển vọng của KPDL

- Yêu cầu SV chuẩn bị: Bài tập về nhà: bài tập tự làm chương 9 tài liệu [5]

8. Chính sách đối với học phần và các yêu cầu khác của giáo viên Sinh viên cần có mặt tại lớp đủ số tiết theo yêu cầu, tích cực tham gia thảo

luận, tham gia các hoạt động giáo viên tổ chức. Chuẩn bị bài tốt trước khi tới lớp học. Thực hiện tốt các bài tập giáo viên giao về nhà: nộp bài đúng hạn, chất

lượng từ trung bình trở lên. Tham gia bài thi hết môn. Phòng thực hành phải đảm bảo cấu hình máy và cài đặt phần mềm đầy đủ.

9. Phương pháp, hình thức kiểm tra - đánh giá kết quả học tập học phần 9.1. Kiểm tra – đánh giá thường xuyên:

Thường xuyên điểm danh vào thời điểm thích hợp

9.2. Kiểm tra - đánh giá định kì: - Tham gia học tập trên lớp (đi học đầy đủ, chuẩn bị bài tốt và tích cực thảo luận,…): hệ số 0.10. - Hoàn thành tốt Bài tập về nhà , Kiểm tra giữa kì : hệ số 0.2 - Thi kết thúc học phần tốt: hệ số 0.7 Chủ nhiệm Khoa

(Ký và ghi rõ họ tên)

Đào Thanh Tĩnh

Chủ nhiệm Bộ môn (Ký và ghi rõ họ tên)

Phan Nguyên Hải

Giảng viên biên soạn (Ký và ghi rõ họ tên)

Hồ Nhật Quang