MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC …gust.edu.vn/media/26/uftai-ve-tai-day26334.pdf · hiện lâu nay. Các phương pháp rút gọn thuộc tính theo

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

……..….***…………

NGUYỄN VĂN THIỆN

MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN

THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2018

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

……..….***…………

NGUYỄN VĂN THIỆN

MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT

GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CÔNG NGHỆ THÔNG TIN

Chuyên ngành : Hệ thống thông tin

Mã số: 9 48 01 04

Ngƣời hƣớng dẫn khoa học:

1. PGS.TS. Nguyễn Long Giang

2. TS. Nguyễn Nhƣ Sơn

Hà Nội – 2018

i

MỤC LỤC

MỤC LỤC ............................................................................................................................................................... i

Danh mục các thuật ngữ ..................................................................................................................................... iii

Bảng các ký hiệu, từ viết tắt ............................................................................................................................... iv

Danh sách bảng ..................................................................................................................................................... v

Danh sách hình vẽ ................................................................................................................................................ vi

MỞ ĐẦU ............................................................................................................................................................... 1

Chương 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ MỜ . 7

1.1. Một số khái niệm trong lý thuyết tập thô ...................................................................... 7

1.1.1. Hệ thông tin và bảng quyết định ........................................................................ 7

1.1.2. Quan hệ tương đương ........................................................................................ 7

1.1.3. Các tập xấp xỉ và tập thô .................................................................................... 8

1.2. Một số khái niệm trong lý thuyết tập thô mờ ............................................................... 9

1.2.1. Quan hệ tương đương mờ .................................................................................. 9

1.2.2. Ma trận tương đương mờ ................................................................................. 10

1.2.3. Phân hoạch mờ ................................................................................................. 12

1.2.4. Các tập xấp xỉ mờ và tập thô mờ ..................................................................... 15

1.3. Tổng quan về rút gọn thuộc tính .................................................................................. 16

1.3.1. Rút gọn thuộc tính ............................................................................................ 16

1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính ............................................. 17

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ ............ 19

1.4.1. Rút gọn thuộc tính trên bảng quyết định mờ theo tiếp cận tập thô mờ ............ 20

1.4.2. Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập thô mờ. .. 22

1.4.3. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo

tiếp cận tập thô mờ ....................................................................................................... 30

1.5. Tóm tắt các đóng góp của luận án ............................................................................... 35

1.6. Kết luận .......................................................................................................................... 35

Chương 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG ĐỘ

PHỤ THUỘC MỜ VÀ KHOẢNG CÁCH MỜ .................................................................. 36

2.1. Mở đầu ........................................................................................................................... 36

ii

2.2. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ ............................................................ 37

2.2.1. Rút gọn thuộc tính sử dụng độ phụ thuộc theo tiếp cận filter .......................... 37

2.2.2. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter.................... 39

2.2.3. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter-wrapper ..... 44

2.2.4. Thực nghiệm các thuật toán ............................................................................... 46

2.3. Rút gọn thuộc tính sử dụng khoảng cách mờ ................................................................. 53

2.3.1. Xây dựng khoảng cách mờ giữa hai tập mờ .................................................... 54

2.3.2. Xây dựng khoảng cách mờ giữa hai phân hoạch mờ ....................................... 57

2.3.3. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter .................... 60

2.3.4. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper ............. 64

2.3.5. Thực nghiệm các thuật toán ............................................................................... 67

2.4. Kết luận chương 2 ......................................................................................................... 71

Chương 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ

DỤNG KHOẢNG CÁCH MỜ ................................................................................................................. 73

3.1. Mở đầu ........................................................................................................................... 73

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ khi bổ sung tập đối tượng

75

3.2.1. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng .............. 75

3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối tượng 78

3.2.3. Thực nghiệm thuật toán ................................................................................... 82

3.3. Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng ........................ 89

3.3.1. Công thức cập nhật khoảng cách mờ khi loại bỏ tập đối tượng ...................... 89

3.3.2. Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng ................ 92

3.4. Kết luận chương 3 ......................................................................................................... 96

KẾT LUẬN ......................................................................................................................................................... 97

Danh mục các công trình của tác giả .............................................................................................................. 98

Tài liệu tham khảo .............................................................................................................................................. 99

iii

Danh mục các thuật ngữ

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Tập thô Rough Set

Tập thô mờ Fuzzy Rough Set

Hệ thông tin Information System

Bảng quyết định Decision Tables

Bảng quyết định mờ Fuzzy Decision Tables

Quan hệ tương đương Equivalence Relation

Quan hệ tương đương mờ Fuzzy Equivalence Relation

Phân hoạch mờ Fuzzy Partition

Ma trận tương đương mờ Fuzzy Equivalence Matrix

Lớp tương đương mờ Fuzzy equivalence Classes

Xấp xỉ dưới mờ Fuzzy Lower Approximation

Xấp xỉ trên mờ Fuzzy Upper Approximation

Miền dương mờ Fuzzy Positive Region

Độ phụ thuộc mờ của thuộc tính Fuzzy Dependency Degree

Rút gọn thuộc tính Attribute Reduction

Tập rút gọn Reduct

Phương pháp gia tăng Incremental Methods

Khoảng cách mờ Fuzzy Distance

Lọc Filter

Đóng gói Wrapper

iv

Bảng các ký hiệu, từ viết tắt

Ký hiệu, từ viết tắt Diễn giải

,IS U A Hệ thông tin

,DS U C D Bảng quyết định

U Số đối tượng

C Số thuộc tính điều kiện trong bảng quyết định

u a Giá trị của đối tượng u tại thuộc tính a

IND B Quan hệ tương đương trên B

/U P Phân hoạch của U trên P

B

u Lớp tương đương chứa u của phân hoạch /U P

R Quan hệ tương đương mờ R.

PR Quan hệ tương đương mờ R trên tập thuộc tính P

PM R Ma trận tương đương mờ của PR

PR Phân hoạch mờ trên PR

i Px Lớp tương đương mờ của ix

thuộc phân hoạch mờ

PR

i Px Lực lượng lớp tương đương mờ i P

x

PR X Tập xấp xỉ dưới mờ của X đối với PR

PR X Tập xấp xỉ trên mờ của X đối với PR

P

QR

POS R Miền dương mờ của QR đối với PR

PR

D Độ phụ thuộc mờ của P đối với D dựa trên quan hệ PR

,P QD R R Khoảng cách mờ giữa hai phân hoạch mờ PR và

QR

v

Danh sách bảng

Bảng 1.1. Bảng quyết định Ví dụ 1.1 ................................................................................... 14

ản ảng quyết định mờ ............................................................................................ 21


Bảng 2.2. Bộ dữ liệu thử nghiệm thuật toán F_FRSAR, FW_FRSAR ................................. 47

Bảng 2.3. Độ chính xác phân lớp của F_FRSAR và RSAR ................................................. 49

Bảng 2.4. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR .................... 50

Bảng 2.5. Độ chính xác phân lớp FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS ......... 52

Bảng 2.6. Thời gian thực hiện FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS .............. 53


Bảng 2.8. Bộ dữ liệu thử nghiệm thuật toán FW_FDAR ..................................................... 68

Bảng 2.9. Độ chính xác phân lớp FW_FDAR, FEBAR, FPDAR ........................................ 70

Bảng 2.10. Thời gian thực hiện FW_FDAR, FEBAR, FPDAR ........................................... 71

Bảng 3.1. Bộ dữ liệu thử nghiệm thuật toán IFW_FDAR_AdObj ....................................... 83

Bảng 3.2. Thời gian thực hiện IFW_FDAR_AdObj, FW_FDAR, FEBAR (s) ..................... 85

Bảng 3.3. Độ chính xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR ..................... 86

Bảng 3.4. Thời gian thực hiện IFW_FDAR_AdObj, IV-FS-FRS-2, IARM .......................... 87

Bảng 3.5. Độ chính xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM ..................... 88

vi

Danh sách hình vẽ

Hình 1.1. Quy trình rút gọn thuộc tính ............................................................................... 18

Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính .................................... 19

Hình 2.1. Độ chính xác phân lớp của F_FRSAR và RSAR ................................................ 49

Hình 2.2. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR .................. 51

1

MỞ ĐẦU

Với sự phát triển mạnh mẽ của công nghệ thông tin, các cơ sở dữ liệu ngày

càng gia tăng về dung lượng dữ liệu cũng như số lượng thuộc tính, gây rất nhiều

khó khăn cho việc thực thi các thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm

cách rút gọn số lượng thuộc tính mà không làm mất mát những thông tin cần thiết

phục vụ nhiệm vụ khai phá dữ liệu. Do đó, rút gọn thuộc tính (còn gọi là rút gọn

chiều hay rút gọn đặc trưng) là đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu

thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu.

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu với

mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính hiệu quả

của các thuật toán khai phá dữ liệu. Hiện nay có hai cách tiếp cận chính đối với bài

toán rút gọn thuộc tính [43, 44]: filter (lọc) và wrapper (đóng gói). Cách tiếp cận

filter thực hiện việc rút gọn thuộc tính độc lập với thuật khai phá dữ liệu sử dụng

sau này. Các thuộc tính được chọn chỉ dựa trên độ quan trọng của chúng trong việc

phân lớp dữ liệu. Trong khi đó, cách tiếp cận wrapper tiến hành việc lựa chọn bằng

cách áp dụng ngay thuật khai phá, độ chính xác của kết quả được lấy làm tiêu chuẩn

để lựa chọn các tập con thuộc tính.

Lý thuyết tập thô (Rough set) do Pawlak đề xuất [101] là công cụ hiệu quả giải

quyết bài toán rút gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực

hiện lâu nay. Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống

và tập thô dung sai được nghiên cứu khá đầy đủ trong các luận án tiến sĩ [4, 5, 6, 11,

13], bao gồm các phương pháp cơ bản như: phương pháp dựa trên miền dương,

phương pháp sử dụng ma trận không phân biệt được, phương pháp sử dụng entropy

thông tin, phương pháp sử dụng các độ đo trong tinh toán hạt, phương pháp sử dụng

metric (khoảng cách)... Gần đây, luận án tiến sĩ [7] nghiên cứu các phương pháp gia

tăng tìm tập rút gọn của bảng quyết định thay đổi theo tiếp cận tập thô truyền thống.

Tuy nhiên, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống,

tập thô dung sai trong các luận án tiến sĩ nêu trên và các nghiên cứu liên quan đều

2

theo hướng tiếp cận filter và thực hiện trên các bảng quyết định có miền giá trị rời

rạc (bảng quyết định sau khi thực hiện các phương pháp rời rạc hóa dữ liệu). Các

phương pháp rời rạc hóa dữ liệu không bảo toàn sự khác nhau ban đầu giữa các đối

tượng trong dữ liệu gốc. Do đó, các phương pháp rút gọn thuộc tính theo tiếp cận

tập thô, tập thô dung sai được trình bày ở trên giảm thiểu độ chính xác của mô hình

phân lớp trên dữ liệu gốc. Nhằm nâng cao độ chính xác của mô hình phân lớp, các

nhà nghiên cứu đề xuất các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ.

Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois và các cộng sự [22, 23] đề

xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ

dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác định

trên miền giá trị thuộc tính. Ban đầu, tập thô mờ là công cụ giải quyết bài toán rút

gọn thuộc tính trên bảng quyết định mờ [40, 41, 76, 77, 78, 79, 81]. Về sau, các nhà

nghiên cứu tập trung giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết

định gốc (bảng quyết định không qua bước rời rạc hóa dữ liệu) theo tiếp cận tập thô

mờ nhằm nâng cao độ chính xác của mô hình phân lớp. Các phương pháp rút gọn

thuộc tính trong bảng quyết định gốc theo tiếp cận tập thô mờ là các nghiên cứu mở

rộng của các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống đã

được nghiên cứu lâu nay. Đây là các phương pháp heuristic theo tiếp cận filter, bao

gồm các bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc

tính sử dụng độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm

tập rút gọn theo tiêu chuẩn là độ quan trọng của thuộc tính. Việc đánh giá độ chính

xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Cho đến nay,

các nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp trên bảng quyết định gốc

theo tiếp cận tập thô mờ tập trung vào các phương pháp chính như: phương pháp sử

dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ

[34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33,

55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] . Gần đây, một số nhà nghiên

cứu đề xuất các phương pháp mở rộng dựa trên các độ đo khác nhau được định

nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100]. Kết quả thử nghiệm trên

3

các bộ số liệu mẫu cho thấy, các phương pháp rút gọn thuộc tính theo tiếp cận tập

thô mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo

tiếp cận tập thô truyền thống. Tuy nhiên, các phương pháp đề xuất đều theo tiếp cận

filter, tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không bảo

đảm có độ chính xác phân lớp cao nhất, nghĩa là tập rút gọn của các phương pháp

filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp. Do đó,

luận án nghiên cứu các thuật toán theo hướng tiếp cận lai ghép filter-wrapper tìm

tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ

chính xác của mô hình phân lớp. Giai đoạn filter tìm các ứng viên cho tập rút gọn

dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính toán độ chính

xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ chính xác phân

lớp cao nhất.

Ngày nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập

nhật. Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống

và các mô hình tập thô mở rộng gặp nhiều thách thức. Trường hợp các bảng quyết

định bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định

sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể. Trường hợp

bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng

quyết định sẽ gặp khó khăn về thời gian thực hiện. Do đó, việc chia nhỏ bảng quyết

định để tìm tập rút gọn trên từng phần là giải pháp đặt ra. Tuy nhiên, việc tính toán

tập rút gọn dựa vào các tập rút gọn của từng phần là vấn đề cần giải quyết. Vì vậy,

các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Các

thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực

hiện trên các bảng quyết định kích thước lớn bằng giải pháp chia nhỏ bảng quyết

định. Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên

quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi

động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng [20, 36, 37, 38,

49, 56, 66, 86, 95, 96, 102], bổ sung và loại bỏ thuộc tính [31, 38, 49, 54, 86, 87, 88,

89]. Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây dựng các công

4

thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm

tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập

thuộc tính. Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật

toán gia tăng tìm tập rút gọn trên bảng quyết định theo tiếp cận tập thô mờ trong các

trường hợp: bổ sung và loại bỏ tập thuộc tính [15, 16], bổ sung tập đối tượng [97,

98, 99]. Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có

thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi

trên các bảng dữ liệu kích thước lớn. Tuy nhiên, các thuật toán nêu trên đều theo

hướng tiếp cận filter truyền thống. Tập rút gọn tìm được chưa tối ưu cả về số lượng

thuộc tính và độ chính xác phân lớp. Do đó với hướng nghiên cứu gia tăng, luận án

đề xuất các thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ theo tiếp cận

tập thô mờ nhằm giảm thiểu số thuộc tính của tập rút gọn và nâng cao độ chính xác

của mô hình phân lớp.

Mục tiêu của luận án tập trung nghiên cứu hai vấn đề chính.

1) Nghiên cứu các thuật toán filter-wrapper tìm tập rút gọn sử dụng độ đo

khoảng cách mờ cải tiến và các độ đo khác nhằm giảm thiểu số lượng thuộc tính

của tập rút gọn (từ đó giảm thiểu độ phức tạp của mô hình) và cải thiện độ chính

xác của mô hình phân lớp.

2) Nghiên cứu các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng

quyết định thay đổi sử dụng độ đo khoảng cách mờ nhằm giảm thiểu thời gian thực

hiện so với các thuật toán không gia tăng và giảm thiểu số lượng thuộc tính tập rút

gọn (từ đó giảm thiểu độ phức tạp của mô hình), cải thiện độ chính xác của mô hình

phân lớp.

Với mục tiêu đặt ra, luận án đạt được hai kết quả chính như sau:

1) Đề xuất hai thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định

theo tiếp cận tập thô mờ: Thuật toán sử dụng độ phụ thuộc mờ và thuật toán sử dụng

khoảng cách mờ. Độ đo khoảng cách mờ được xây dựng là mở rộng của độ đo

khoảng cách trong công trình [48]. Các đóng góp này được trình bày ở chương 2 của

luận án.

5

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng quyết

định trong trường hợp bổ sung tập đối tượng và loại bỏ tập đối tượng sử dụng độ đo

khoảng cách mờ được xây dựng trong chương 2. Các đóng góp này được trình bày ở

chương 3 của luận án.

Đối tượng nghiên cứu của luận án là các phương pháp rút gọn thuộc tính

theo tiếp cận tập thô mờ và các phương pháp gia tăng rút gọn thuộc tính theo tiếp

cận tập thô mờ.

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên cứu

thực nghiệm.

1) Nghiên cứu lý thuyết: Nghiên cứu các thuật toán rút gọn thuộc tính theo

tiếp cận tập thô mờ đã công bố, phân tích ưu điểm, nhược điểm và các vấn đề còn

tồn tại của các nghiên cứu liên quan. Trên cơ sở đó, đề xuất các độ đo cải tiến và

các thuật toán theo hướng tiếp cận lai ghép filter-wrapper. Các đề xuất, cải tiến

được chứng minh chặt chẽ về lý thuyết bởi các định lý, mệnh đề.

2) Nghiên cứu thực nghiệm: Các thuật toán đề xuất được cài đặt, chạy thử

nghiệm, so sánh, đánh giá với các thuật toán khác trên các bộ số liệu mẫu từ kho dữ

liệu UCI nhằm minh chứng về tính hiệu quả của các nghiên cứu về lý thuyết.

Bố cục của luận án gồm phần mở đầu và ba chương nội dung, phần kết luận

và danh mục các tài liệu tham khảo. Chương 1 trình bày các khái niệm cơ bản về lý

thuyết tập thô truyền thống, mô hình tập thô mờ và tổng quan về tiếp cận filter-

wrapper trong rút gọn thuộc tính. Chương 1 cũng trình bày các nghiên cứu liên quan

đến rút gọn thuộc tính theo tiếp cận tập thô mờ, các nghiên cứu liên quan đến phương

pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ trong mấy năm gần đây.

Trêm cơ sở đó, luận án phân tích các vấn đề còn tồn tại và nêu rõ các mục tiêu nghiên

cứu cùng với tóm tắt các kết quả đạt được.

Các đóng góp chính của luận án được trình bày trong chương 2, chương 3.

Chương 2 trình bày hai kết quả nghiên cứu: thứ nhất là đề xuất thuật toán filter-

wrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ; thứ hai là xây

6

dựng một độ đo khoảng cách mờ và đề xuất thuật toán filter-wrapper tìm tập rút gọn

sử dụng khoảng cách mờ được xây dựng theo tiếp cận tập thô mờ. Cả hai đề xuất đều

nhằm mục tiêu giảm thiểu số thuộc tính của tập rút gọn, từ đó giảm thiểu độ phức tạp

của mô hình so với các phương pháp filter trước đây.

Chương 3 đề xuất hai thuật toán gia tăng filter-wrapper; thuật toán gia tăng

filter-wrapper thứ nhất tìm tập rút gọn của bảng quyết định trong trường hợp bổ sung

tập thuộc tính; thuật toán gia tăng filter-wrapper thứ hai tìm tập rút gọn của bảng

quyết định trong trường hợp loại bỏ tập thuộc tính. Cả hai thuật toán đề xuất đều sử

dụng độ đo khoảng cách mờ đề xuất ở chương 2 và đều có mục tiêu là giảm thiểu thời

gian thực hiện so với thuật toán không gia tăng và giảm thiểu số thuộc tính tập rút

gọn, từ đó giảm thiểu độ phức tạp của mô hình so với các thuật toán gia tăng khác đã

công bố.

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển

và những vấn đề quan tâm của tác giả.

7

Chương 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TIẾP CẬN TẬP THÔ MỜ

1.1. Một số khái niệm trong lý thuyết tập thô

Lý thuyết tập thô truyền thống do Z.Pawlak [101] đề xuất là công cụ toán

học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn. Phương pháp

tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương đương (hay quan hệ

không phân biệt được) để xấp xỉ tập hợp. Khi đó, mọi tập đối tượng đều được xấp xỉ

bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó. Mỗi tập xấp xỉ được hợp thành

bởi một hoặc nhiều lớp tương đương, là cơ sở để xây dựng các thuật toán rút gọn

thuộc tính và khai phá tri thức từ dữ liệu. Trong phần này, luận án trình bày một số

khái niệm cơ bản trong lý thuyết tập thô truyền thống của Z.Pawlak [101], là cơ sở

nền tảng cho lý thuyết tập thô mờ được trình bày ở phần 1.2.

1.1.1. Hệ thông tin và bảng quyết định

Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm n

cột ứng với n thuộc tính và m hàng ứng với m đối tượng. Một cách hình thức, hệ

thông tin là một cặp ,IS U A trong đó U là tập hữu hạn, khác rỗng các đối

tượng, gọi là tập vũ trụ; A là tập hữu hạn, khác rỗng các thuộc tính.

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng

dụng là bảng quyết định. Bảng quyết định ,DS U C D là một dạng đặc biệt

của hệ thông tin, trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau:

Tập các thuộc tính điều kiện C và tập các thuộc tính quyết định D với C D .

1.1.2. Quan hệ tương đương

Xét hệ thông tin ,IS U A , mỗi tập con thuộc tính P A xác định một

quan hệ hai ngôi trên U, ký hiệu là IND P , xác định bởi

, ,IND P u v U U a P a u a v . (1.1)

8

Với a u là giá trị thuộc tính a tại đối tượng u. IND P gọi là quan hệ P-không

phân biệt được trên U. Dễ thấy rằng IND P là một quan hệ tương đương trên U. Nếu

,u v IND P thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P.

Quan hệ tương đương IND P xác định một phân hoạch trên U, ký hiệu là /U IND P

hay /U P , trong đó mỗi thành phần trong phân hoạch /U P là một lớp tương đương. Ký

hiệu lớp tương đương trong phân hoạch /U P chứa đối tượng u là P

u , khi đó

,P

u v U u v IND P . Ký hiệu phân hoạch sinh bởi thuộc tính a P là /U a ,

khi đó ta có:

/ : /U P a P U a

với : , ,A B X Y X A Y B X Y

1.1.3. Các tập xấp xỉ và tập thô

Cho hệ thông tin ,IS U A và tập đối tượng X U . Với một tập thuộc

tính P A cho trước, ta thu được các lớp tương đương sinh bởi phân hoạch /U P .

Trong lý thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương

của /U P , người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của

/U P . Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính P, được gọi là P-

xấp xỉ dưới và P-xấp xỉ trên của X, ký hiệu lần lượt là PX và PX , được xác định

như sau:

,P

PX u U u X PPX u U u X (1.2)

Tập PX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập

PX bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính P.

Từ hai tập xấp xỉ nêu trên, ta định nghĩa P-miền biên của X là tập

PPN X PX PX và P-miền ngoài của X là tập U PX . Dễ thấy, P-miền

biên của X là tập chứa các đối tượng có thể thuộc X, còn P-miền ngoài của X chứa

các đối tượng chắc chắn không thuộc X. Sử dụng các lớp của phân hoạch /U P ,

các xấp xỉ dưới và trên của X có thể viết lại

9

/PX Y U P Y X , /PX Y U P Y X (1.3)

Trong trường hợp PPN X thì X được gọi là tập rõ, ngược lại X được

gọi là tập thô.

Xét hệ thông tin ,IS U A với ,P Q A , ta gọi tập /

( )P

X U Q

POS Q PX

là P-miền dương của Q. Dễ thấy ( )PPOS Q là tập các đối tượng trong U được phân lớp

đúng vào các lớp của /U Q sử dụng tập thuộc tính P. Rõ ràng, ( )PPOS Q là tập tất cả

các đối tượng u sao cho với mọi v U mà u P v P ta đều có u Q v Q . Nói

một cách hình thức, ( )P QPPOS Q u U u u .

1.2. Một số khái niệm trong lý thuyết tập thô mờ

Lý thuyết tập thô truyền thống của Pawlak [101] sử dụng quan hệ tương đương

để xấp xỉ tập hợp. Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D.

Dubois và các cộng sự [22, 23] đề xuất sử dụng quan hệ tương đương mờ để xấp xỉ

tập mờ. Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ được xem là

công cụ hiệu quả giải quyết bài toán rút gọn thuộc tính và trích lọc luật trên bảng

quyết định. Cho đến nay, các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp

cận tập thô mờ tập trung vào hai hướng chính: thứ nhất là rút gọn thuộc tính trên các

bảng quyết định mờ (bảng quyết định với giá trị thuộc tính là các tập mờ); thứ hai là

rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (bảng quyết định không qua

bước rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác của mô hình phân lớp. Luận án

nghiên cứu hướng thứ hai, do đó trong phần này luận án trình bày một số khái niệm

cơ bản về mô hình tập thô mờ trên bảng quyết định. Các khái niệm này được sử dụng

trong các chương sau của luận án.

1.2.1. Quan hệ tương đương mờ

Định nghĩa 1.1. [32, 71] Cho bảng quyết định ,DS U C D , một quan hệ R

xác định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa

mãn các điều kiện sau với mọi , ,x y z U

10

1) Tính phản xạ (reflexive): , 1R x x ;

2) Tính đối xứng (symetric): , ,R x y R y x ;

3)Tính bắc cầu max-min (max-min transitive): , min , , ,R x z R x y R y z ;

với ,R x y là giá trị quan hệ giữa hai đối tương x và y.

Mệnh đề 1.1. [72] Cho bảng quyết định ,DS U C D và quan hệ tương đương

mờ R . Ký hiệu PR , QR tương ứng là quan hệ R xác định trên tập thuộc tính P, Q.

Khi đó, với mọi ,x y U ta có:

1) , ,P Q P QR R R x y R x y

2) , max , , ,P Q P Q P QR R R R x y R x y R x y

3) , min , , ,P Q P Q P QR R R R x y R x y R x y

4) , ,P Q P QR R R x y R x y

1.2.2. Ma trận tương đương mờ

Ma trận tương đương mờ là công cụ biểu diễn giá trị quan hệ tương đương

mờ giữa các đối tượng của bảng quyết định và được định nghĩa như sau:

Định nghĩa 1.2. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và

PR là quan hệ tương đương mờ xác định trên tập thuộc tính P C . Khi đó, ma

trận tương đương mờ biểu diễn PR , ký hiệu là ijPn n

M R p

, được định nghĩa

như sau:

11 12 1

21 22 2

1 2

...

...( )

... ... ... ...

...

n

nP

n n nn

p p p

p p pM R

p p p

11

với ,Pij i jp R x x là giá trị của quan hệ giữa hai đối tượng ix và jx trên tập thuộc

tính P, 0,1ijp , , ,1 ,i jx x U i j n .

Như vậy, giá trị các phần tử của ma trận tương đương mờ PM R phụ thuộc

vào quan hệ tương đương mờ PR được chọn. Mặt khác, ma trận tương đương mờ là

cơ sở để xây dựng các độ đo sử dụng để giải quyết bài toán rút gọn thuộc tính trong

bảng quyết định. Do đó, việc lựa chọn các quan hệ tương đương mờ ảnh hưởng đến kết

quả thực hiện các phương pháp rút gọn thuộc tính. Tiếp theo, luận án liệt kê một số

quan hệ tương đương mờ được sử dụng trong bài toán rút gọn thuộc tính

1) Trong các công trình [54, 68, 76], các tác giả sử dụng quan hệ tương đương

mờ theo công thức (1.4) trên thuộc tính a C có miền giá trị số

max min max min

1 4* 0.25,

0,

i j i j

a i j

a x a x a x a x, if

R x x a a a a

otherwise

(1.4)

với ia x là giá trị của thuộc tính a tại đối tượng ix , max min,a a tương ứng là giá trị

lớn nhất, nhỏ nhất của thuộc tính a C .

2) Trong các công trình [91], các tác giả sử dụng quan hệ tương đương mờ

theo công thức (1.5) trên thuộc tính a C có miền giá trị thực thuộc đoạn [0, 1].

, 1a i j i jR x x a x a x (1.5)

Trong trường hợp giá trị thuộc tính a không thuộc đoạn [0, 1], các tác giả sử dụng

một phương pháp tiền xử lý để ánh xạ miền giá trị thuộc tính a về đoạn [0, 1].

Ngoài ra, một số công trình [98] sử dụng quan hệ tương đương mờ

, min ,a i jR x x a x a y trên thuộc tính a C có miền giá trị số thuộc đoạn [0,

1].

12

Trên các thuộc tính a C có miền giá trị định danh (nominal) hoặc nhị phân

(binary), các tác giả sử dụng quan hệ tương đương. Quan hệ tương đương được xem

là quan hệ tương đương mờ theo công thức (1.6) như sau:

1,

0,

i j

a i j

i j

, if a x a xR x x

f a x a x

(1.6)

1.2.3. Phân hoạch mờ

Mệnh đề 1.2. Cho bảng quyết định ,DS U C D và ,P Q C . Giả sử

ijPn n

M R p

, ij( )Qn n

M R q

tương ứng là ma trận tương đương mờ của PR ,

QR , khi đó ma trận tương đương mờ trên tập thuộc tính S P Q là:

ij( )S P Qn n

M R M R s

với ij ij ijmin ,s p q (1.7)

Chứng minh.

Xét bảng quyết định ,DS U C D với ,P Q C . Theo Mệnh đề 1.1 ta

có P aa PR R và P Q P QR R R , nghĩa là với mọi ,x y U ,

, min , , ,P Q P QR x y R x y R x y . Từ đó ta có ijP Qn n

M R s

với

ij ij ijmin ,s p q .

Định nghĩa 1.3. Cho bảng quyết định ,DS U C D với P C , 1 2, ,..., nU x x x

và PR là quan hệ tương đương mờ trên P. Khi đó phân hoạch mờ trên U sinh bởi

PR , ký hiệu là PR , được xác định như sau

11/ ,...,

n

P P i nP P PiR U R x x x

(1.8)

với 1 1 2 2/ / ... /i i i in nPx p x p x p x là một tập mờ đóng vai trò là một lớp tương

đương mờ (fuzzy equivalent class) của đối tượng ix U .

13

Với lớp tương đương mờ i Px , hàm thuộc của các của các đối tượng

jx U

được xác định bởi , ,Pi P

Pj i j i j ijx Rx x x R x x p và lực lượng của lớp

đương đương mờ i Px được tính bởi

1

n

i ijPj

x p

.

Gọi là tập tất cả các phân hoạch mờ trên U xác định bởi các quan hệ tương

đương mờ trên các tập thuộc tính, khi đó được gọi là một không gian phân hoạch

mờ trên U. Như vậy, một không gian phân hoạch mờ được xác định bởi quan hệ

tương đương mờ định nghĩa trực tiếp trên miền giá trị thuộc tính. Mỗi tập thuộc tính

P A xác định một phân hoạch / PP U R .

Định nghĩa 1.4. Xét phân hoạch mờ 1 ,...,P P

P nR RR x x sinh bởi quan hệ

tương đương mờ PR với 1 1/ ... /

Pi i in nRx p x p x .

1) Nếu 0ijp với ,i j n thì 0Pi R

x và khi đó phân hoạch mờ PR

được gọi là mịn nhất, ký hiệu là . Khi đó 1 ,..., nx x

với

1

/ , , , 0n

i ij j ijjx x i j n

.

2) Nếu 1ijp với ,i j n thì Pi R

x U với i n và khi đó phân hoạch mờ

PR được gọi là thô nhất, ký hiệu là . Khi đó 1 ,..., nx x

với

1

/ , , , 1n

i ij j ijjx x i j n

.

Định nghĩa 1.5 [93]. Xét hai phân hoạch mờ ,P QR R , quan hệ thứ tự bộ

phận được định nghĩa như sau:

, , ,P Q

P Q i i ij ijR RR R x x i n p q i j n , viết tắt là P QR R . Dấu

đẳng thức , , ,P Q

P Q i i ij ijR RR R x x i n p q i j n , viết tắt là

P QR R . P Q P QR R R R và P QR R , viết tắt là P QR R .

14

Ví dụ 1.1. Xét bảng quyết định ,DS U C D cho ở Bảng 1.1 với

1 2 3 4, , ,U u u u u , 1 2 3 4, , ,C c c c c .

Bảng 1.1. Bảng quyết định Ví dụ 1.1

U 1c 2c 3c 4c D

1u 2.5045 5.4072 1.4741 5.9308 0

2u 1.9559 4.0554 7.6407 9.4846 1

3u 4.3517 9.5647 3.4221 4.7597 1

4u 2.7831 9.2830 4.8055 9.8475 1

Giả sử quan hệ tương đương mờ được sử dụng là công thức (1.12), theo Định

nghĩa 1.2, ma trận tương đương mờ của thuộc tính 1c là

1

1 0.0841 0 0.5349

0.0841 1 0 0

0 0 1 0

0.534

( )

9 0 0 1

cM R

Trên thuộc tính D, sử dụng quan hệ tương đương mờ theo công thức (1.13) (quan hệ

tương đương). Khi đó, ma trận tương đương mờ của thuộc tính quyết định D là

1 0 0 0

0 1 1 1

0 1 1 1( )

0 1 1 1

DM R

Theo Định nghĩa 1.3, lớp tương đương mờ của đối tượng 1x là

1

1 1 2 3 41/ 0.0841/ 0 / 0.5349 /c

x x x x x và lực lượng của 1

1 cx là

1

1 1 0.0841 0 0.5 4 1. 199 63Rc

x . Phân hoạch mờ của quan hệ 1cR được xác

định như sau:

1 11 1 1 1 1

4

1 2 3 41

/ , , ,c c i c c c c ci

R U R x x x x x

với các lớp tương đương mờ của 1cR là:

15

1

1 1 2 3 41/ 0.0841/ 0 / 0.5349 /Rc

x x x x x

1

2 1 2 3 40.0841/ 1/ 0 / 0 /Rc

x x x x x

1

3 1 2 3 40 / 0 / 1/ 0 /Rc

x x x x x

1

4 1 2 3 40.5349 / 0 / 0 / 1/Rc

x x x x x

1.2.4. Các tập xấp xỉ mờ và tập thô mờ

Cho bảng quyết định ,DS U C D . Giả sử PR là một quan hệ tương

đương mờ xác định trên tập thuộc tính P C . Theo Định nghĩa 1.3, i Px là một

tập mờ đóng vai trò là một lớp tương đương mờ của đối tượng ix U . Hàm thuộc của

các đối tượng jx U đối với i Px

xác định bởi

, ,Pi RP

Pj i j i j ijx Rx x x R x x p với ijP

n nM R p

là ma trận tương

đương mờ của PR .

Định nghĩa 1.6. [66, 70, 85, 87] Cho X là một tập mờ trên U và PR là một quan hệ

tương đương mờ trên tập thuộc tính P C . Khi đó, tập xấp xỉ dưới mờ PR X và

tập xấp xỉ trên mờ PR X của X là các tập mờ và hàm thuộc của các đối tượng x U

được xác định như sau:

/

sup ,inf 1 ,P

P

F F XR X y UF U R

x min x max y y

(1.9)

/

sup ,sup ,P

P

F F XR Xy UF U R

x min x min y y

(1.10)

với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F

là các lớp tương đương mờ của phân hoạch mờ / PU R .

Với các tập xấp xỉ dưới mờ và xấp xỉ trên mờ xác định bởi Định nghĩa 1.6, bộ

, PPR X R X được gọi là tập thô mờ. Dễ thấy rằng, với tập đối tượng bất kỳ X U ,

16

X được xem như là một tập mờ trên U với hàm thuộc của đối tượng y U được

định nghĩa: 1X y

với y X và 0X y

với y X . Do đó, mô hình tập

thô mờ là xấp xỉ các tập mờ (hoặc tập rõ) bằng các tập xấp xỉ dưới mờ và xấp xỉ

trên mờ.

Trong lý thuyết tập thô truyền thống, khái niệm miền dương được định nghĩa

là hợp của tất cả các tập xấp xỉ dưới. Trong lý thuyết tập thô mờ, miền dương mờ

được định nghĩa như sau.

Định nghĩa 1.7 [66] Cho bảng quyết định ,DS U C D và ,P QR R tương ứng là

hai quan hệ tương đương mờ xác định trên ,P Q C . Khi đó, miền dương mờ của

QR đối với PR , ký hiệu là P

QR

POS R , là một tập mờ mà hàm thuộc của x U

được xác định như sau:

/

supQ PRP Q

R XPOS RX U R

x x

(1.11)

1.3. Tổng quan về rút gọn thuộc tính

1.3.1. Rút gọn thuộc tính

Trong bối cảnh ngày nay, các cơ sở dữ liệu ngày càng gia tăng về dung lượng

dữ liệu cũng như số lượng thuộc tính, gây rất nhiều khó khăn cho việc thực thi các

thuật toán khai phá dữ liệu. Vấn đề đặt ra là phải tìm cách rút gọn số lượng thuộc

tính mà không làm mất mát những thông tin cần thiết phục vụ nhiệm vụ khai phá dữ

liệu. Do đó, rút gọn thuộc tính (hay còn gọi là rút gọn chiều - dimension reduction,

rút gọn đặc trưng - feature reduction) trở thành đề tài thu hút sự quan tâm của nhiều

nhà nghiên cứu thuộc các lĩnh vực nhận dạng thống kê, học máy, khai phá dữ liệu.

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý dữ liệu

với mục tiêu là loại bỏ các thuộc tính dư thừa, không liên quan nhằm tăng tính

hiệu quả của các thuật toán khai phá dữ liệu: Gia tăng tốc độ, cải thiện chất

lượng và tính dễ hiểu của các kết quả thu được. Các kỹ thuật rút gọn thuộc

tính thường được phân thành hai loại: Lựa chọn thuộc tính (Attribute

17

selection) và biến đổi thuộc tính (Attribute transformation). Lựa chọn thuộc

tính là chọn một tập con tối tiểu tốt nhất (theo một nghĩa nào đó) từ tập thuộc

tính ban đầu của tập dữ liệu. Trong khi đó, biến đổi thuộc tính là thực hiện

việc biến đổi các thuộc tính ban đầu thành thành một tập các thuộc tính mới

với số lượng ít hơn sao cho bảo tồn được thông tin nhiều nhất. Trong luận án

này, chúng tôi nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung là

rút gọn thuộc tính.

1.3.2. Tiếp cận filter, wrapper trong rút gọn thuộc tính

Rút gọn thuộc tính theo tiếp cận lựa chọn thuộc tính, gọi tắt là rút gọn

thuộc tính, là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm M

thuộc tính (P ≤ M) sao cho không gian thuộc tính được thu gọn lại một cách

tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một tập con thuộc tính tốt

nhất (làm mất đi ít nhất lượng thông tin cần thiết) thường khó thực hiện; nhiều

bài toán liên quan đến vấn đề này là những bài toán NP - khó. Nhìn chung,

một thuật toán lựa chọn thuộc tính thường bao gồm bốn khâu cơ bản:

(1) Tạo lập tập con,

(2) Đánh giá tập con,

(3) Kiểm tra điều kiện dừng,

(4) Kiểm chứng kết quả.

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các

tập con để đánh giá, lựa chọn. Giả sử có M thuộc tính trong tập dữ liệu ban

đầu, khi đó số tất cả các tập con từ M thuộc tính sẽ là 2 M . Với số ứng viên

này, việc tìm tập con tối ưu, ngay cả khi M không lớn lắm, cũng là một việc

không thể. Vì vậy, phương pháp chung để tìm tập con thuộc tính tối ưu là lần

lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được

đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất

18

trước đó. Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm

tập con thuộc tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra: (a)

đã thu được số thuộc tính quy định, (b) số bước lặp quy định cho quá trình lựa

chọn đã hết, (c) việc thêm vào hay loại bớt một thuộc tính nào đó không cho

một tập con tốt hơn, (d) đã thu được tập con tối ưu theo tiêu chuẩn đánh giá.

Tập con tốt nhất cuối cùng phải được kiểm chứng thông qua việc tiến hành

các phép kiểm định, so sánh các kết quả khai phá với tập thuộc tính “tốt nhất”

này và tập thuộc tính ban đầu trên các tập dữ liệu thực hoặc nhân tạo khác

nhau.

Phát sinh

tập conĐánh giá

Tập thuộc tính Tập con

Tiêu chuẩn dừng Hợp lý

Tập con

Thích hợp

DừngTiếp tục

Hình 1.1. Quy trình rút gọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán rút gọn thuộc tính

[43, 44]: filter (lọc) và wrapper (đóng gói). Mỗi cách tiếp cận có những mục

tiêu riêng về giảm thiểu số lượng thuộc tính hay nâng cao độ chính xác.

Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuật

khai phá dữ liệu sử dụng sau này. Các thuộc tính được chọn chỉ dựa trên độ

quan trọng của chúng trong việc mô tả dữ liệu, gọi là độ quan trọng của thuộc

tính. Cho đến nay, phần lớn các phương pháp rút gọn thuộc tính dựa trên lý

thuyết tập thô và các mở rộng đều theo hướng tiếp cận này.

19

Ngược lại với cách tiếp cận filter, cách tiếp cận wrapper tiến hành việc

lựa chọn bằng cách áp dụng ngay thuật khai phá, độ chính xác của kết quả

được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính.

Cách tiếp cận filter có ưu điểm là thời gian tính toán nhanh, nhược điểm

là không sử dụng sử dụng thông tin nhãn lớp của các bộ dữ liệu nên độ chính

xác không cao

Tập thuộc tínhTập con

được chọnThuật toán học

Filter

Tập thuộc tínhTạo lập

các tập conThuật toán học

WrapperCác thuộc

tính

Sự đánh

giá

Tập con được lựa chọn

Hình 1.2. Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Nhằm kết hợp các ưu điểm của cả hai cách tiếp cận filter và wrapper,

một số cách tiếp cận mới cũng đã được các tác giả đã đề xuất, chẳng hạn cách

tiếp cận lai ghép filter-wrapper [67, 91].

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp

cận tập thô mờ

Lý thuyết tập thô (Rough set) do Pawlak đề xuất [101] là công cụ hiệu quả giải

quyết bài toán rút gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực

hiện lâu nay. Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô được nghiên

20

cứu khá đầy đủ trong luận án tiến sĩ [6], bao gồm các phương pháp cơ bản như:

phương pháp dựa trên miền dương, phương pháp sử dụng ma trận không phân biệt

được, phương pháp sử dụng entropy thông tin, phương pháp sử dụng các độ đo

trong tinh toán hạt, phương pháp sử dụng metric (khoảng cách)...Với các bảng

quyết định không đầy đủ, Kryszkiewicz [62] đề xuất mô hình tập thô mở rộng dựa

trên quan hệ dung sai, gọi là mô hình tập thô sung sai. Dựa trên mô hình tập thô

dung sai, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô được nghiên cứu

mở rộng trong luận án tiến sĩ [13]. Luận án tiến sĩ [11] nghiên cứu các phương pháp

rút gọn thuộc tính trên bảng quyết định tập giá trị theo tiếp cận mô hình tập thô

dung sai. Gần đây, luận án tiến sĩ [7] nghiên cứu các phương pháp gia tăng tìm tập

rút gọn của bảng quyết định thay đổi theo tiếp cận tập thô truyền thống. Các phương

pháp rút gọn thuộc tính theo tiếp cận tập thô, tập thô dung sai trong các luận án tiến

sĩ [4, 5, 6, 7, 11, 13] và các nghiên cứu liên quan đều theo hướng tiếp cận filter và

thực hiện trên các bảng quyết định có miền giá trị rời rạc (bảng quyết định sau khi

thực hiện các phương pháp rời rạc hóa dữ liệu). Các phương pháp rời rạc hóa dữ

liệu không bảo toàn sự khác nhau ban đầu giữa các đối tượng trong dữ liệu gốc. Do

đó, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, tập thô dung sai được

trình bày ở trên giảm thiểu độ chính xác của mô hình phân lớp trên dữ liệu gốc.

Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois và các cộng sự [22, 23] đề

xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các tập mờ

dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác định

trên miền giá trị thuộc tính. Ban đầu, lý thuyết tập thô mờ là công cụ giải quyết bài

toán rút gọn thuộc tính trên bảng quyết định mờ. Về sau, các nhà nghiên cứu tập

trung giải quyết bài toán rút gọn thuộc tính theo tiếp cận tập thô mờ nhằm nâng cao

độ chính xác của mô hình phân lớp.

1.4.1. Rút gọn thuộc tính trên bảng quyết định mờ theo tiếp cận tập thô mờ

Bảng quyết định mờ là cấu trúc phổ biến trong lĩnh vực trích lọc hệ luật mờ

ứng dụng trong các hệ học mờ và điều khiển mờ. Bảng quyết định mờ được xem là

bảng quyết định mà giá trị thuộc tính là các tập mờ (fuzzy set). Bảng quyết định

21

,DS U C D với 1 9,...,U u u , C ={Thời tiết, Nhiệt độ, Độ ẩm}, D ={Quyết

định} cho ở Bảng 1.2 dưới đây là một ví dụ minh họa về bảng quyết định mờ [40]

ản ảng quyết định mờ

TT

Nhiệt độ Độ ẩm Sức gió Phân lớp

Nóng Trung

bình Lạnh Cao Thấp

Mạnh Yếu Âm Dương

1u 0.9 0.1 0 0.8 0.2 0.7 0.4 0.4 0.7

2u 0.8 0.2 0.1 0.9 0.2 0.1 0.8 0.3 0.7

3u 0.9 0.1 0.1 0.9 0.1 0.9 0.1 0.8 0.3

4u 0.1 0.9 0 0.6 0.5 0.8 0.3 0.6 0.5

5u 0 0.1 0.9 0 0.1 0.8 0.2 0.9 0.2

6u 0 0.2 0.9 0.1 0.9 0.1 0.9 0.3 0.8

Cho bảng quyết định mờ ,DS U C D , khi đó với mỗi a C , phân hoạch

mờ /U a là tập các giá trị (biến ngôn ngữ) của thuộc tính a . Ví dụ với thuộc tính

“Nhiệt độ” trong Bảng 1.2, phân hoạch mờ U / Nhiệt độ = {Nóng, Trung bình,

Lạnh}, trong đó “Nóng”, “Trung bình” hoặc “Lạnh” là các biến ngôn ngữ hay các

tập mờ. Giá trị của đối tượng trên các tập mờ chính là giá trị của hàm thuộc, ví dụ: μ

Nóng (u1) = 0.9. Phân hoạch mờ trên tập thuộc tính điều kiện P C được xác định

bởi công thức [77] / : /U P a P U a với

: , ,A B X Y X A Y B X Y

Ví dụ: P = “Nhiệt độ, Độ ẩm”, khi đó U / Nhiệt độ = {Nóng, Trung bình, Lạnh},

U / Độ ẩm = {Thấp, Cao} và U / P = {NóngThấp, NóngCao, Trung bìnhThấp,

22

Trung bìnhCao, LạnhThấp, LạnhCao}. Hàm thuộc của lớp tương đương mờ

được định nghĩa dựa trên lý thuyết tập mờ:

1 1 2... , ,...,

n nF F F F Fx min x x x

Như vậy, với bảng quyết định mờ cho trước ta hoàn toàn xác định được giá trị

hàm thuộc của các đối tượng thuộc lớp tương đương mờ của phân hoạch mờ sinh

bởi tập thuộc tính. Do đó, ta có thể xác định được giá trị hàm thuộc của các tập xấp

xỉ dưới mờ, xấp xỉ trên mờ và miền dương mờ dựa vào các toán tử xấp xỉ trong lý

thuyết tập thô mờ [22, 23]. Trên cơ sở đó, xây dựng các phương pháp rút gọn thuộc

tính trên bảng quyết định mờ.

Ban đầu, nhóm nghiên cứu của R. Jensen, Q. Shen và các cộng sự [76, 77, 78,

79] đề xuất thuật toán Fuzzy-Rough QUICKREDUCT tìm tập rút gọn của bảng

quyết định mờ. Rajen B. Bhatt và các công sự phân tích các nhược điểm về tính hội

tụ của các thuật toán của nhóm R. Jensen, Q. Shen trong [82] và cải tiến độ phức tạp

thuật toán QUICKREDUCT bằng giải pháp cải tiến công thức tính xấp xỉ dưới mờ

trong [81]. Xu và các cộng sự [40, 41] xây dựng entropy Shannon mờ dựa trên các

phân hoạch mờ, trên cơ sở đó xây dựng thuật toán tìm tập rút gọn dựa trên entropy

mờ. Các thuật toán này đều phải tính tất cả các phân hoạch mờ trên tập thuộc tính

điều kiện. Trong khi đó, độ phức tạp thời gian tính tất cả các phân hoạch mờ là hàm

mũ theo số thuộc tính điều kiện. Do đó, độ phức tạp của các thuật toán theo hướng

tiếp cận này, trong trường hợp tổng quát là hàm mũ. Vì vậy, hướng tiếp cận này

không thu hút sự quan tâm nghiên cứu trong mấy năm gần đây. Luận án không giải

quyết bài toán này.

1.4.2. Rút gọn thuộc tính trực tiếp trên bảng quyết định theo tiếp cận tập

thô mờ.

Rút gọn thuộc tính trực tiếp trên bảng quyết định gốc (không qua rời rạc hóa

dữ liệu) theo tiếp cận tập thô mờ là chủ đề nghiên cứu sôi động trong mấy năm gần

đây vì tính hiệu quả trong việc nâng cao độ chính xác của mô hình phân lớp. Đây

cũng là chủ đề nghiên cứu của luận án.

23

1.4.2.1. Các n hiên cứu liên quan

Các phương pháp rút gọn thuộc tính trong bảng quyết định gốc theo tiếp cận

tập thô mờ đều dựa trên các phương pháp rút gọn thuộc tính theo tiếp cận tập thô đã

được nghiên cứu lâu nay. Đây là các phương pháp heuristic theo tiếp cận filter, bao

gồm các bước xây dựng độ đo, định nghĩa tập rút gọn và độ quan trọng của thuộc

tính sử dụng độ đo được xây dựng, trên cơ sở đó xây dựng thuật toán heuristic tìm

tập rút gọn theo tiêu chuẩn là độ quan trọng của thuộc tính. Việc đánh giá độ chính

xác của mô hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Cho đến nay,

các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung

vào các phương pháp chính như: phương pháp sử dụng miền dương mờ, phương

pháp sử dụng ma trận phân biệt mờ, phương pháp sử dụng entropy mờ, phương

pháp sử dụng khoảng cách mờ và một số phương pháp mở rộng gần đây.

- Phương pháp sử dụng miền dương mờ:

Hu và các cộng sự [72] đề xuất các tập xấp xỉ dưới mờ, xấp xỉ trên mờ và

miền dương mờ ngưỡng k dựa vào một quan hệ tương đương mờ trên miền giá trị

thuộc tính. Trên cơ sở đó, các tác giả xây dựng độ phụ thuộc mờ ngưỡng k và xây

dựng thuật toán heuristic FAR-VPFRS tìm tập rút gọn của bảng quyết định lai

(bảng quyết định có miền giá trị số và phân loại) sử dụng độ phụ thuộc mờ ngưỡng

k. Jensen và các cộng sự [80] sử dụng quan hệ tương đương mờ trên miền giá trị

thuộc tính để tính toán các tập xấp xỉ dưới mờ, miền biên mờ, trên cơ sở đó xây

dựng các thuật toán heuristic tìm tập rút gọn, là cải tiến của Fuzzy-Rough

QUICKREDUCT sử dụng quan hệ tương đương mờ. Qian và các cộng sự [92] đề

xuất các phiên bản cải tiến của các tập xấp xỉ mờ (FA), trên cơ sở đó đề xuất thuật

toán FA_FPR tìm tập rút gọn dựa vào các tập xấp xỉ mờ nhằm giảm thiểu thời gian

thực hiện. Các tác giả trong [2] xây dựng thuật toán heuristic tìm tập rút gọn của

bảng quyết định miền giá trị số sử dụng miền dương mờ trong lý thuyết tập thô mờ

truyền thống, miền dương mờ được tính bởi một quan hệ mờ trên miền giá trị thuộc

tính.

24

- Phương pháp sử dụng ma trận phân biệt mờ:

Tsang và các cộng sự [42] đã mở rộng khái niệm ma trận phân biệt trong lý

thuyết tập thô truyền thống thành ma trận phân biệt mờ và xây dựng thuật toán tìm

tất cả các tập rút gọn của bảng quyết định. Chen và các cộng sự [29] đề xuất mô

hình tập thô mở rộng TL và xây dựng thuật toán tìm tất cả các tập rút gọn sử dụng

ma trận phân biệt mờ dựa trên mô hình tập thô mở rộng. Tsang và các cộng sự [34]

xây dựng hàm phân biệt mờ dựa trên ma trận phân biệt mờ và quan hệ tương đương

mờ. Dựa trên hàm phân biệt mờ, các tác giả xây dựng thuật toán tìm tất cả các tập

rút gọn của bảng quyết định. Chen và các cộng sự [30] đề xuất thuật toán heuristic

tìm một tập rút gọn cục bộ của bảng quyết định sử dụng ma trận phân biệt mờ trong

công trình [42]. He và các cộng sự [69] đề xuất thuật toán heuristic FRSTL tìm một

tập rút gọn của bảng quyết định sử dụng ma trận phân biệt mờ trong [42]. Chen và

các cộng sự [30] đề xuất thuật toán heuristic SPS tìm một tập rút gọn sử dụng cặp

đối tượng phân biệt. Cặp đối tượng phân biệt được xây dựng dựa trên ma trận phân

biệt mờ trong [42].

- Phương pháp sử dụng entropy mờ:

Entropy thông tin là độ đo được sử dụng khá phổ biến trong các phương pháp

rút gọn thuộc tính theo tiếp cận tập thô. Theo tiếp cận tập thô mờ, một số nhóm

nghiên cứu đã mở rộng entropy thành entropy mờ và xây dựng các thuật toán tìm

tập rút gọn. Hu và các cộng sự [70, 75] xây dựng entropy mờ sử dụng quan hệ

tương đương mờ trong tập thô mờ và khám phá một số tính chất của entropy mờ.

Hu và các cộng sự [71] định nghĩa tập rút gọn, độ quan trọng thuộc tính và xây

dựng thuật toán heuristic tìm tập rút gọn sử dụng entropy mờ trong [70]. Trong

công trình [74], Hu và các cộng sự chỉ ra hạn chế của entropy mờ trong [71] không

thỏa mãn tính chất phản đơn điệu đối với tập thuộc tính điều kiện (tập thuộc tính

càng nhỏ thì entropy mờ có điều kiện càng lớn). Do đó, độ quan trọng của thuộc

tính định nghĩa trong [71] không thỏa mãn luôn dương theo tiếp cận tập thô truyền

thống. Dai và các cộng sự [45] xây dựng độ đo lượng thông tin tăng thêm mờ

25

(Fuzzy Gain Ratio) dựa trên lượng thông tin tăng thêm (Gain Ratio) trong lý thuyết

thông tin. Sử dụng lượng thông tin tăng thêm, các tác giả xây dựng thuật toán

heuristic GAIN_RATION_AS_FRS tìm tập rút gọn của bảng quyết định gốc có

miền giá trị số. Zhang và các cộng sự [91] xây dựng độ đo entropy mờ mở rộng,

còn gọi là entropy mờ ngưỡng (hay -entropy mờ). Các tác giả đã chứng minh tập

rút gọn dựa trên -entropy mờ tương đương với tập rút gọn dựa trên miền dương

mờ. Hơn nữa, các tác giả đã chứng minh được tính phản đơn điệu của -entropy mờ

theo lực lượng tập thuộc tính nhằm khắc phục được nhược điểm của entropy mờ

truyền thống trong [70, 71]. Từ đó, các tác giả đã xây dựng công thức tính độ quan

trọng của thuộc tính và thuật toán heuristic tìm tập rút gọn xấp xỉ của bảng quyết

định. Mở rộng các phương pháp sử dụng độ đo lượng thông tin tương hỗ (mutual

information), Yu và các cộng sự [33] xây dựng độ đo thông tin tương hỗ mờ và đề

xuất thuật toán FMIL tìm tập rút gọn. Zhao và các cộng sự [55] xây dựng entropy

kết hợp mờ dựa trên entropy kết hợp trong lý thuyết tập thô, trên cơ sở đó đề xuất

thuật toán EMIC tìm tập rút gọn.

- Phương pháp sử dụng khoảng cách mờ:

Trong mấy năm gần đây, nhóm nghiên cứu của Nguyễn Long Giang và cộng

sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính trong

bảng quyết định theo tiếp cận tập thô truyền thống [9, 24, 57, 65] và bảng quyết

định không đầy đủ theo tiếp cận tập thô dung sai [9, 10, 12, 25, 58]. Theo tiếp cận

tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuất thành

các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đo khoảng

cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá

trị số. Trong công trình [8], các tác giả xây dựng độ đo khoảng cách Jaccard mờ

giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn và

chứng minh một số tính chất của nó. Trong công trình [3], các tác giả đã sử dụng

khoảng cách Jaccard mờ trong [8] để giải quyết bài toán rút gọn thuộc tính trực tiếp

trên bảng quyết định gốc có miền giá trị số, sử dụng một quan hệ tương đương mờ

26

định nghĩa trước trên miền giá trị thuộc tính. Trong công trình [18], các tác giả xây

dựng độ đo khoảng cách phân hoạch mờ và sử dụng khoảng cách phân hoạch mờ

giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số.

- Một số phương pháp khác

Gần đây, một số nhóm nghiên cứu đề xuất các mô hình tập thô mờ mở rộng và

các thuật toán tìm tập rút gọn nhằm cải tiến độ chính xác của mô hình phân lớp. Li

và các cộng sự [100] xây dựng mô hình tập thô mờ mở rộng dựa trên tỷ lệ các lớp

khác nhau. Dựa trên mô hình này, các tác giả đề xuất thuật toán heuristic SPS tìm

tập rút gọn của bảng quyết định sử dụng cặp đối tượng phân biệt được (được đề

xuất trong [30]). Dai và các cộng sự [46] xây dựng độ đo cặp đối tượng phân biệt

cực đại dựa vào ma trận phân biệt mờ. Sử dụng độ đo này, các tác giả đề xuất hai

thuật toán heuristic tìm tập rút gọn: thuật toán RMDPS và WRMDPS. Kết quả thử

nghiệm cho thấy, độ chính xác phân lớp của hai thuật toán đề xuất cao hơn thuật

toán SPS sử dụng cặp đối tượng phân biệt trong [30]. Dai và các cộng sự [47] đề

xuất mô hình tập thô mờ mở rộng trên hệ thông tin không đầy đủ khoảng giá trị.

Trên cơ sở đó, xây dựng độ đo entropy mờ và đề xuất thuật toán heuristic tìm tập

rút gọn sử dụng entropy mờ. Tiwari và các cộng sự [14] đề xuất mô hình tập thô mờ

trực giác dựa trên quan hệ trội. Dựa trên mô hình này, các tác giả xây dựng hàm

thuộc mới và đề xuất thuật toán tìm tập rút gọn sử dụng hàm thuộc mới. Sheeja và

các cộng sự [85] đề xuất mô hình tập thô mờ mở rộng dựa trên độ phân kỳ, trên cơ

sở đó đề xuất thuật toán tìm tập rút gọn sử dụng miền dương mờ nhằm giảm thiểu

số lượng thuộc tính tập rút gọn. Với hướng tiếp cận lựa chọn tập đối tượng đại diện

nhằm giảm thiểu không gian đối tượng, Zhang và các cộng sự [90] đề xuất thuật

toán filter-wrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong tập thô mờ nhằm

nâng cao độ chính xác phân lớp và giảm thời gian thực hiện. Wang và các cộng sự

[21] đề xuất mô hình tập thô mờ mở rộng dựa trên quan hệ mờ tham số , trên cơ sở

đó xây dựng thuật toán tìm tập rút gọn sử dụng độ phụ thuộc mờ. Độ chính xác của

mô hình phân lớp được cải thiện do điều chỉnh tham số . Arunkumar và các cộng

27

sự [19] đề xuất thuật toán heuristic tìm tập rút gọn sử dụng các độ đo tương tự như

lượng thông tin tăng thêm (information gain), hàm phân biệt. Trên cơ sở đó thử

nghiệm thuật toán trên dữ liệu biểu hiện gien của bệnh ung thư phổi. Tsang và các

cộng sự [35] đề xuất mô hình tập thô mờ dựa trên trọng số (weight) và xây dựng

thuật toán tìm tập rút gọn dựa trên trọng số của miền dương mờ. Maji và cộng sự

[68] đề xuất thuật toán heuristic fuzzy-rough MRMS tìm tập rút gọn theo tiếp cận

tập thô mờ dựa trên tiêu chuẩn lựa chọn thuộc tính là độ phụ thuộc, độ liên quan, độ

quan trọng lớn nhất và độ dư thừa nhỏ nhất. Wang và các cộng sự [59] cải tiến độ

đo thông tin tương hỗ mờ trong [33] và sử dụng độ đo cải tiến tích hợp vào thuật

toán fuzzy-rough MRMS trong [68] để xây dựng thuật toán tìm tập rút gọn.

1.4.2.2. Các điểm chung của các n hiên cứu liên quan

Từ các nghiên cứu liên quan được trình bày ở phần 1.4.2.1, chúng tôi tổng kết

các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có các điểm chung như

sau:

1) Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính

xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp cận tập thô

truyền thống. Điều này được thể hiện ở các kết quả thử nghiệm trên các tập dữ liệu

mẫu trong các công bố.

2) Mục tiêu chung của các phương pháp đề xuất là nâng cao độ chính xác

phân lớp, tối thiểu hóa số thuộc tính của tập rút gọn và thời gian thực hiện. Tuy

nhiên, các mục tiêu này khó thực hiện đồng thời. Do đó, với từng bài toán cụ thể mà

lựa chọn mục tiêu phù hợp. Nhìn chung, các phương pháp đã đề xuất đều cố gắng

nâng cao độ chính xác mô hình phân lớp so với các phương pháp trước đó.

3) Giống như các phương pháp rút gọn thuộc tính theo tiếp cận tập thô, các

phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ là các phương pháp

heuristic theo tiếp cận filter. Nghĩa là, độ chính xác phân lớp được đánh giá sau khi

tìm được tập rút gọn. Các phương pháp bao gồm 03 bước chính: (1) Xây dựng độ

đo, (2) xây dựng tập rút gọn và độ quan trọng của thuộc tính dựa trên độ đo và (3)

28

xây dựng thuật toán heuristic tìm một tập rút gọn theo tiêu chuẩn độ quan trọng của

thuộc tính.

4) Ý tưởng chung của các thuật toán heuristic là xuất phát từ tập rỗng, lần lượt

bổ sung vào tập rỗng các thuộc tính có độ quan trọng lớn nhất cho đến khi bảo toàn

độ đo. Cho bảng quyết định ,DS U C D , giả sử ký hiệu độ đo đánh giá quan hệ

giữa tập thuộc tính điều kiện C và C D là ,Measure C C D , BSIG a là độ quan

trọng của thuộc tính a đối với tập thuộc tính B . Khi đó, khuôn dạng chung của các

thuật toán heuristic tìm tập rút gọn đối với các công bố nêu trên được mô tả bởi

Thuật toán HARA như sau:

Thuật toán HARA (Heuristic Attribute Reduction Algorithm): Thuật toán heuristic

tìm tập rút gọn của bảng quyết định.

Đầu vào: Bảng quyết định ,DS U C D

Đầu ra: Một tập rút gọn R C

1. ước khởi tạo: R ;

2. Tính độ đo ban đầu ,Measure C C D ;

3. While , ,Measure R R D Measure C C D do

4. Begin

5. Với mỗi a C R tính

, ,BSIG a Measure R R D Measure R a R a D

1. Chọn ma C R sao cho B m Ba C R

SIG a Max SIG a

;

2.

mR R a ;

3. End;

Với các nghiên cứu liên quan trình bày ở mục A, ,Measure C C D là độ

quan trọng mờ của thuộc tính, miền dương mờ, entropy mờ, ma trận phân biệt mờ,

29

khoảng cách mờ...Độ phức tạp thời gian để tính độ đo là 2O C U với ,C U tương

ứng là số thuộc tính điều kiện và số đối tượng của bảng quyết định. Vòng lặp While

lựa chọn thuộc tính có độ quan trọng lớn nhất với độ phức tạp là 2 2O C U . Do đó,

độ phức tạp thời gian của các thuật toán trong các công bố ở phần A là 2 2O C U .

1.4.2.3. Các vấn đề còn tồn tại:

1) Tập rút gọn của các phương pháp theo hướng tiếp cận filter nêu trên chưa

tối ưu về số lượng thuộc tính và độ chính xác phân lớp.

Xét bảng quyết định ,DS U C D với 1 2, ,..., mC a a a . Đặt

,Measure C C D . Theo Thuật toán HARA, giả sử các thuộc tính 1 2, ,...i ia a

được thêm vào tập rỗng theo giá trị lớn nhất của độ quan trọng thuộc tính cho đến

khi tồn tại 1,2,...t m sao cho 1 2 1 2, ,..., , , ,...,

t ti i i i i iMeasure a a a a a a D . Kết

thúc thuật toán, ta thu được tập rút gọn 1 2, ,...,

ti i iR a a a , độ chính xác phân lớp trên

tập dữ liệu được tính bởi độ chính xác phân lớp trên R. Mặt khác, theo tính chất

phản đơn điệu của độ đo ta có:

1 1 1 2 1 2 1 1

, , , , ... ,..., , ,...,t ti i i i i i i i i iMeasure a a D Measure a a a a D Measure a a a a D

Với ngưỡng cho trước, đặt

1,...,

kk i iB a a thỏa mãn ,k kMeasure B B D và

1 1

,k kk i k iMeasure B a B a D

. Khi đó, kB được gọi là tập rút gọn xấp xỉ

ngưỡng . Nếu kB và 1,...,

k tk i iB a a

được sử dụng để xây dựng bộ phân lớp, công

bố [91] cho thấy, độ chính xác phân lớp trên 1,...,

k tk i iB a a

chưa chắc đã tốt hơn

trên kB . Nếu kB có độ chính xác phân lớp tốt hơn, khi đó số lượng thuộc tính của

kB sẽ ít hơn, khả năng khái quát hóa và hiệu năng thực hiện các thuật toán phân lớp

sẽ cao hơn. Do đó, tập rút gọn 1,...,

k tk i iB a a

của các phương pháp filter chưa tối

ưu về số lượng thuộc tính và độ chính xác phân lớp.

30

2) Các phương pháp rút gọn thuộc tính nêu trên đều xây dựng một độ đo và sử

dụng độ đo để tìm tập rút gọn. Việc lựa chọn độ đo không ảnh hưởng đến độ phức

tạp thời gian của thuật toán, tuy nhiên công thức tính toán độ đo sẽ ảnh hưởng đến

thời gian thực hiện của thuật toán. Do đó, việc lựa chọn độ đo có công thức tính

toán đơn giản nhằm giảm thiểu thời gian thực hiện là hướng nghiên cứu cải tiến có

thể thực hiện.

4 4 Các đề xuất của luận án

Từ hai vấn đề còn tồn tại nêu trên, luận án xây dựng hai độ đo: độ phụ thuộc

mờ trong tập thô mờ và khoảng cách mờ do tác giả xây dựng. Độ đo khoảng cách

mờ là cải tiến của các độ đo khoảng cách mờ đã công bố. Dựa trên hai độ đo được

xây dựng, luận án xây dựng thuật toán tìm tập rút gọn xấp xỉ của bảng quyết định

theo tiếp cận lai ghép filter-wrapper, là sự kết hợp của tiếp cận lọc (filter) và đóng

gói (wrapper). Với cách tiếp cận này, giai đoạn filter tìm ra các tập rút gọn xấp xỉ,

giai đoạn wrapper sử dụng các bộ phân lớp để tính độ chính xác của các tập rút gọn

xấp xỉ và tìm ra tập rút gọn xấp xỉ có độ chính xác phân lớp cao nhất.

1.4.3. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay

đổi theo tiếp cận tập thô mờ

Trong bối cảnh hiện nay, các bảng quyết định thường có kích thước lớn và

luôn thay đổi, cập nhật. Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập

thô truyền thống và các mô hình tập thô mở rộng gặp nhiều thách thức. Trường hợp

các bảng quyết định bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ

bảng quyết định sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể.

Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên

toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện. Do đó, việc chia

nhỏ bảng quyết định để tìm tập rút gọn trên từng phần là giải pháp đặt ra. Tuy nhiên,

việc tính toán tập rút gọn dựa vào các tập rút gọn của từng phần là vấn đề cần giải

quyết. Vì vậy, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập

rút gọn. Với trường hợp bảng quyết định bị thay đổi, thuật toán gia tăng không tính

lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút gọn đã có dựa

31

trên thành phần dữ liệu bị thay đổi. Với trường hợp bảng quyết định có kích thước

lớn, thuật toán gia tăng tìm tập rút gọn trên một thành phần bị chia nhỏ, sau đó thực

hiện cập nhật lại tập rút gọn khi bổ sung các thành phần còn lại. Về lý thuyết, thuật

toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện

trên các bảng quyết định kích thước lớn.

1.4.3.1. Các n hiên cứu liên quan đến phươn pháp ia tăn tìm tập rút ọn theo

tiếp cận tập thô truyền thốn và tập thô dun sai

Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên

quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi

động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng; bổ sung và loại

bỏ thuộc tính; cập nhật tập đối tượng.

Với trường hợp bổ sung một đối tượng, Guan [56] đề xuất thuật toán gia tăng

tìm tập rút gọn sử dụng ma trận phân biệt. Liu [102] đề xuất thuật toán gia tăng tìm

tập rút gọn tối thiểu của hệ thông tin. Hu và các cộng sự [36] đề xuất thuật toán gia

tăng tìm tập rút gọn sử dụng miền dương. Sau đó, Hu và các cộng sự [37] đề xuất

thuật toán gia tăng tìm tất cả các tập rút gọn sử dụng ma trận phân biệt mở rộng.

Yang và các cộng sự [96] đề xuất thuật toán gia tăng tìm tập rút gọn dựa trên việc

cập nhật ma trận phân biệt. Zhang và các cộng sự [20] đề xuất thuật toán gia tăng

tìm tập lõi sử dụng ma trận phân biệt. Chen và các cộng sự [28] đề xuất thuật toán

gia tăng tìm tập rút gọn dựa trên mô hình tập thô độ chính xác thay đổi sử dụng

chiến lược thêm, xóa tập thuộc tính. Li và các cộng sự [66] đề xuất phương pháp gia

tăng tìm tập rút gọn dựa trên mô hình tập thô láng giềng gần nhất.

Với trường hợp bổ sung tập đối tượng, Liang và cộng sự [49] xây dựng các

công thức gia tăng tính entropy Shannon, entropy Liang và Entropy kết hợp. Trên

cơ sở đó, các tác giả xây dựng các thuật toán gia tăng tìm tập rút gọn. Shu và các

cộng sự [86] xây dựng thuật toán gia tăng tìm tập rút gọn trong bảng quyết định

không đầy đủ dựa vào công thức gia tăng tính miền dương.

32

Với trường hợp bổ sung và loại bỏ tập đối tượng, Jing và các cộng sự [95] đề

xuất công thức tính toán gia tăng hạt thông tin, từ đó xây dựng các thuật toán gia

tăng tìm tập rút gọn.

Với trường hợp bổ sung tập thuộc tính, Wang và các cộng sự [38] phát triển

các thuật toán gia tăng tìm tập rút gọn dựa trên việc tính toán gia tăng các công thức

entropy Shannon, entropy Liang và Entropy kết hợp.

Với trường hợp bổ sung và loại bỏ tập thuộc tính, Liu và các cộng sự [31] xây

dựng các công thức tính toán gia tăng các tập xấp xỉ dưới, xấp xỉ trên trong mô hình

tập thô xác xuất. Shu và các cộng sự [87] đề xuất hai thuật toán gia tăng cập nhật

tập rút gọn dựa trên tính toán gia tăng miền dương trong bảng quyết định không đầy

đủ. Các tác giả trong [54, 83] đề xuất thuật toán gia tăng tìm các tập rút gọn xấp xỉ.

Với hợp cập nhật tập đối tượng, Wang và các cộng sự [39] xây dựng các công

thức tính toán gia tăng entropy Shannon, entropy Liang và Entropy kết hợp, trên cơ

sở đó đề xuất các thuật toán gia tăng tìm tập rút gọn. Shu và các cộng sự [86, 88]

phát triển thuật toán gia tăng tìm tập rút gọn dựa trên việc tính toán gia tăng lớp

dung sai và miền dương trong bảng quyết định không đầy đủ.

Mới đây, Wei và các cộng sự [89] đề xuất phương pháp gia tăng tính các ma

trận phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn dựa trên

ma trận phân biệt.

Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây dựng các công

thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm

tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập

thuộc tính. Trong các thuật toán gia tăng đã trình bày ở trên, các tác giả đều xây

dựng các công thức gia tăng tính toán độ đo. Sử dụng độ đo, các tác giả xây dựng

các thuật toán gia tăng tìm tập rút gọn theo tiếp cận heuristic. Các thuật toán này

không tính lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút gọn đã

có dựa trên thành phần dữ liệu bị thay đổi. Kết quả thực nghiệm cho thấy các thuật

toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không gia

tăng.

33

4 3 Các n hiên cứu liên quan đến phươn pháp ia tăn tìm tập rút ọn theo

tiếp cận tập thô mờ

Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán

gia tăng tìm tập rút gọn trên bảng quyết định thay đổi theo tiếp cận tập thô mờ.

Zeng và các cộng sự [15] giới thiệu mô hình tập thô mờ trên hệ thông tin hỗn hợp

(HIS), trong đó quan hệ mờ được xây dựng dựa trên hàm nhân Gaussian. Dựa trên

các công thức tính gia tăng quan hệ mờ, các tác giả xây dựng thuật toán gia tăng tìm

tập rút gọn sử dụng độ phụ thuộc mờ trong trường hợp bổ sung và loại bỏ một thuộc

tính (tương ứng là FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD). Thực nghiệm trên

các tập dữ liệu mẫu cho thấy, thời gian thực hiện của các thuật toán gia tăng nhỏ

hơn thuật toán không gia tăng (FRSA-NFS-HIS).

Với trường hợp tập thuộc tính thay đổi giá trị, Zeng và các cộng sự [15, 16]

xây dựng thuật toán gia tăng tính các tập xấp xỉ trên mờ, xấp xỉ dưới mờ của HIS

(IUAFRS-VCAV và IUAFRS-VDAV). Các thuật toán gia tăng này có thời gian

thực hiện nhỏ hơn thuật toán không gia tăng NIUAFRS trên các bộ số liệu thử

nghiệm.

Với trường hợp bổ sung tập đối tượng, Yang và các cộng sự [98] xây dựng

công thức tính toán gia tăng quan hệ phân biệt trong tập thô mờ, trên cơ sở đó xây

dựng thuật toán gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt. Thời

gian thực hiện của thuật toán gia tăng IARM giảm thiểu đáng kể so với thuật toán

không gia tăng RDRAR. Yang và các cộng sự [99] đề xuất hai phiên bản của thuật

toán gia tăng tìm tập rút gọn trong trường hợp bổ sung tập đối tượng: thuật toán V-

FS-FRS-1 và V-FS-FRS-2. Cả hai thuật toán đều sử dụng quan hệ phân biệt trong

tập thô mờ. Thử nghiệm trên một số bộ số liệu mẫu cho thấy, các thuật toán gia tăng

V-FS-FRS-1, V-FS-FRS-2 hiệu quả hơn một số thuật toán không gia tăng theo tiếp

cận tập thô mờ: thuật toán sử dụng quan hệ phân biệt, thuật toán sử dụng độ phụ

thuộc mờ, thuật toán sử dụng entropy mờ. Liu và các cộng sự [97] xây dựng công

thức tính gia tăng độ phụ thuộc mờ trong trường hợp bổ sung tập đối tượng, trên cơ

sở đó xây dựng thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ thuộc mờ FIAR.

34

Thuật toán gia tăng FIAR hiệu quả hơn thuật toán không gia tăng NonIAR về thời

gian thực hiện trên một số bộ dữ liệu thử nghiệm.

4 3 3 Các vấn đề còn tồn tại

1) Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có



hướng tiếp cận lọc truyền thống (filter). Trong đó, tập rút gọn tìm được là tập thuộc

tính tối thiểu bảo toàn độ đo được định nghĩa (độ phụ thuộc mờ, quan hệ phân

biệt…), việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập

rút gọn. Vì vậy, tập rút gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về

số lượng thuộc tính và độ chính xác phân lớp, nghĩa là tập rút gọn tìm được chưa

chắc có độ chính xác phân lớp tốt nhất.

2) Các nghiên cứu liên quan đến phương pháp gia tăng được trình bày ở mục

1.4.3.2 đã giải quyết bài toán rút gọn thuộc tính trong trường hợp bổ sung tập đối

tượng, bổ sung và loại bỏ tập thuộc tính, cập nhật tập thuộc tính, chưa giải quyết bài

toán xóa bỏ tập đối tượng.

4 4 Các đề xuất của luận án

Động lực nghiên cứu của luận án là xây dựng các công thức khoảng cách mờ

hiệu quả với công thức tính toán đơn giản và sử dụng khoảng cách mờ để giải quyết

bài toán rút gọn thuộc tính. Như trình bày ở mục 1.4.3.1, công bố [24, 65] cho thấy

khoảnh cách là độ đo hiệu quả sử dụng trong các phương pháp gia tăng tìm tập rút

gọn của bảng quyết định. Do đó, với hướng nghiên cứu này, luận án sử dụng độ đo

khoảng cách mờ để xây dựng các thuật toán gia tăng tìm tập rút gọn trong trường

hợp bổ sung, loại bỏ tập đối tượng. Các thuật toán đề xuất theo tiếp cập lai filter-

wrapper nhằm tìm tập rút gọn tối ưu cả về độ chính xác phân lớp và số lượng thuộc

tính, khắc phục các nhược điểm chung của các phương pháp gia tăng đã công bố.

35

1.5. Tóm tắt các đóng góp của luận án

Dựa trên lý thuyết tập thô mờ, luận án đề xuất các thuật toán cải tiến tìm tập rút

gọn theo tiếp cận lai ghép filter-wrapper nhằm giải quyết các vấn đề còn tồn tại được

trình bày ở mục 1.4.2 và 1.4.3 với hai đóng góp chính như sau:


theo tiếp cận tập thô mờ: Thuật toán sử dụng độ phụ thuộc mờ và thuật toán

sử dụng khoảng cách mờ. Độ đo khoảng cách mờ được xây dựng là mở

rộng của độ đo khoảng cách trong công trình [48]. Các đóng góp này được

trình bày ở chương 2 của luận án và được công bố trong các công trình 1, 2,

4, 5, 6, phần “Danh mục các công trình của tác giả”.

2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng

quyết định trong trường hợp bổ sung tập đối tượng và loại bỏ tập đối tượng

sử dụng độ đo khoảng cách mờ ở Chương 2. Các đóng góp này được trình

bày ở chương 3 của luận án và được công bố trong công trình 7, phần

“Danh mục các công trình của tác giả”.

1.6. Kết luận

Chương 1 trình bày một số khái niệm nền tảng về mô hình tập thô truyền

thống dựa trên quan hệ tương đương của Pawlak [88], mô hình tập thô mờ dựa trên

quan hệ tương đương mờ của D. Dubois và các cộng sự [22, 23], tổng quan về

hướng tiếp cận filter, wrapper trong rút gọn thuộc tính. Các kiến thức nền tảng ở

chương 1 sẽ được sử dụng trong các chương sau của luận án. Chương 1 cũng trình

bày các nghiên cứu liên quan đến hai định hướng nghiên cứu của luận án: (1) rút

gọn thuộc tính theo tiếp cận tập thô mờ; (2) phương pháp gia tăng rút gọn thuộc

tính trong bảng quyết định thay đổi. Trên cơ sở đó, chương 1 phân tích và đưa ra

các vấn đề nghiên cứu của luận án. Cuối cùng, chương 1 tóm tắt các kết quả đạt

được của luận án.

36

Chương 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH

SỬ DỤNG ĐỘ PHỤ THUỘC MỜ VÀ KHOẢNG CÁCH MỜ

2.1. Mở đầu

Trong mấy năm gần đây, các nhà nghiên cứu sử dụng công cụ tập thô mờ [22,

23] để giải quyết bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định gốc

(bảng quyết định không qua bước rời rạc hóa dữ liệu) nhằm nâng cao độ chính xác

của mô hình phân lớp. Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ

là mở rộng của các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền

thống. Đây là các phương pháp heuristic bao gồm các bước: xây dựng độ đo đặc

trưng cho chất lượng phân lớp của thuộc tính, định nghĩa tập rút gọn và độ quan

trọng của thuộc tính dựa trên độ đo, xây dựng thuật toán heuristic tìm tập rút gọn

theo tiêu chuẩn là độ quan trọng của thuộc tính. Cho đến nay, các nghiên cứu liên

quan đến rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô mờ tập

trung vào các phương pháp chính như: phương pháp sử dụng miền dương mờ [2, 72,

80, 92], phương pháp sử dụng ma trận phân biệt mờ [29, 30, 34, 42, 69], phương

pháp sử dụng entropy mờ [33, 45, 55, 70, 71, 74, 75, 91], phương pháp sử dụng

khoảng cách mờ [3, 8, 18] và một số phương pháp mở rộng được nghiêm cứu gần

đây [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100]. Kết quả thử nghiệm trên các

bộ số liệu mẫu cho thấy, các phương pháp rút gọn thuộc tính theo tiếp cận tập thô

mờ có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc tính theo tiếp

cận tập thô truyền thống. Tuy nhiên, phần lớn các phương pháp đề xuất đều theo

tiếp cận filter, tập rút gọn thu được chỉ thỏa mãn điều kiện bảo toàn độ đo mà không

bảo đảm có độ chính xác phân lớp cao nhất. Nghĩa là, tập rút gọn của các phương

pháp filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.

Trong chương này, luận án đề xuất hai thuật toán theo hướng tiếp cận lai ghép

filter-wrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn

và nâng cao độ chính xác của mô hình phân lớp. Giai đoạn filter tìm các ứng viên

cho tập rút gọn dựa vào độ đo (còn gọi là tập rút gọn xấp xỉ), giai đoạn wrapper tính

37

toán độ chính xác phân lớp của các ứng viên và lựa chọn tập rút gọn xấp xỉ có độ

chính xác phân lớp cao nhất.

(1) Thuật toán filter-wrapper tìm tập rút gọn sử dụng độ phụ thuộc mờ trong

tập thô mờ.

(2) Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ.

Khoảng cách mờ được xây dựng là mở rộng của khoảng cách phân hoạch trong

công trình [48] và khác các độ đo khoảng cách mờ trong các công trình [3, 8, 18].

Các kết quả trong chương này được công bố trong các công trình 1, 2, 4, 5, 6,

phần “Danh mục các công trình của tác giả”.

2.2. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ

2.2.1. Rút gọn thuộc tính sử dụng độ phụ thuộc theo tiếp cận filter

Trong mục này, chúng tôi trình bày phương pháp rút gọn thuộc tính sử dụng

độ phụ thuộc trong lý thuyết tập thô truyền thống theo tiếp cận filter [6].

Xét bảng quyết định ,DS U C D với B C , khi đó miền dương của tập

thuộc tính B đối với D trong lý thuyết tập thô, ký hiệu là BPOS D , được định

nghĩa như sau:

/

( )B

X U D

POS D BX

Khi đó, độ phụ thuộc của thuộc tính B vào thuộc tính D, gọi tắt là độ phụ

thuộc của tập thuộc tính B, ký hiệu là B D , được định nghĩa như sau:

B

B

POS DD

U

với U là số đối tượng của U. Độ phụ thuộc của B vào tập thuộc tính quyết định D

được sử dụng làm độ đo để xây dựng thuật toán heuristic tìm tập rút gọn của bảng

quyết định DS.

Tài liệu [6] đã xây dựng phương pháp rút gọn thuộc tính sử dụng độ phụ thuộc

trong lý thuyết tập thô truyền thống theo tiếp cận filter, bao gồm các bước: định

nghĩa tập rút gọn và độ quan trọng của thuộc tính dựa trên hàm thuộc, xây dựng

thuật toán heuristic tìm tập rút gọn sử dụng hàm thuộc.

38

Với B C , độ quan trọng của thuộc tính b C B đối với tập thuộc tính B

được định nghĩa như sau

B BB bSIG b D D

Tập thuộc tính R C được gọi là tập rút gọn của C nếu thỏa mãn hai điều

kiện: (1) ( ) ( )R CD D và (2) , ( ) ( )CR rr R D D

. Khi đó, thuật toán

heuristic tìm tập rút gọn như sau:

Thuật toán RSAR (Rough Set based Attribute Reduction). Thuật toán heuristic tìm

một tập rút gọn sử dụng độ phụ thuộc.

Đầu vào: Bảng quyết định ,DS U C D

Đầu ra: Một tập rút gọn R .

1. :R ;

// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất

2. While R CD D do

3. Begin

4. Với mỗi a C R tính R RR aSIG a D D

;

5. Chọn ma C R sao cho R m Ra C R

SIG a Max SIG a

;

6.

: mR R a ;

7. End;

// Loại bỏ các thuộc tính dư thừa trong R nếu có

8. Với mỗi a R

9. Begin

10. Tính R aD

;

11. If CR aD D

then :R R a ;

12. End;

13. Return R;

39

2.2.2. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter

Dựa trên tập thô mờ, nhóm nghiên cứu của R. Jensen, Q. Shen và các cộng sự

[76, 77, 78, 79] đề xuất thuật toán Fuzzy-Rough QUICKREDUCT tìm tập rút gọn

của bảng quyết định mờ sử dụng độ phụ thuộc mờ. Tuy nhiên, tập rút gọn của thuật

toán Fuzzy-Rough QUICKREDUCT chỉ thỏa mãn điều kiện không thay đổi giá trị

độ phụ thuộc mờ ở hai bước lặp liên tiếp, do đó thuật toán Fuzzy-Rough

QUICKREDUCT gặp vấn đề về sự hội tụ và tập rút gọn thu được của Fuzzy-Rough

QUICKREDUCT không tối ưu về số lượng thuộc tính. Nhược điểm này đã được

chỉ ra trong công bố [82] của Rajen B. Bhatt và các công sự. Trong mục này, luận

án trình bày phương pháp filter rút gọn thuộc tính sử dụng độ phụ thuộc mờ nhằm

khắc phục nhược điểm của thuật toán Fuzzy-Rough QUICKREDUCT. Thuật toán

đề xuất là mở rộng của thuật toán RSAR được trình bày ở mục 2.2.1.

Cho bảng quyết định ,DS U C D với 1,..., nU u u , 1,..., mC c c . Với

P C , giả sử PR là một quan hệ tương đương mờ xác định trên miền giá trị thuộc

tính P. Khi đó, khái niệm miền dương PPOS D trong lý thuyết tập thô truyền thống

được mở rộng thành khái niệm miền dương mờ dựa trên quan hệ PR , ký hiệu là

PR

POS D . PR

POS D là một tập mờ mà hàm thuộc của các đối tượng x U được

định nghĩa như sau [77, 78].

/

supPRP

POS D R XX U D

x x

với U / D là phân hoạch của U trên tập thuộc tính quyết định D.

Dựa trên khái niệm miền dương mờ, độ phụ thuộc mờ của P dựa trên quan hệ

PR được định nghĩa trong tập thô mờ như sau [77, 78]

RP RP

P

POS D POS Dx U

R

x xD

U U

Tương tự phương pháp rút gọn thuộc tính trong lý thuyết tập thô truyền thống,

phương pháp đề xuất bao gồm các bước: định nghĩa tập rút gọn dựa trên độ phụ

thuộc mờ, định nghĩa độ quan trọng của thuộc tính đặc trưng cho chất lượng phân

40

lớp của thuộc tính và xây dựng thuật toán heuristic tìm tập rút gọn dựa trên tiêu

chuẩn độ quan trọng của thuộc tính.

Định nghĩa 2.1. Cho bảng quyết định ,DS U C D và quan hệ tương đương mờ R

xác định trên miền giá trị của các thuộc tính điều kiện. Với B C , nếu

1) ( ) ( )B CR R

D D

2)

, ( ) ( )B a CR R

a B D D

thì B là một tập rút gọn của C dựa trên độ phụ thuộc mờ.

Từ Định nghĩa 2.1, dễ thấy rằng tập rút gọn dựa trên độ phụ thuộc mờ tương

đương với tập rút gọn dựa trên miền dương mờ, tập rút gọn dựa trên miền dương

mờ là mở rộng tập rút gọn dựa trên miền dương của Pawlak.

Định nghĩa 2.2. Cho bảng quyết định ,DS U C D và quan hệ tương đương mờ R

xác định trên miền giá trị của các thuộc tính điều kiện. Với B C , độ quan trọng của

thuộc tính a C B đối với B dựa trên độ phụ thuộc mờ được định nghĩa:

B a BB R RSIG a D D

Độ quan trọng của thuộc tính đặc trưng cho chất lượng phân lớp của thuộc

tính điều kiện vào thuộc tính quyết định và được sử dụng làm tiêu chuẩn lựa chọn

thuộc tính cho thuật toán heuristic tìm tập rút gọn sau đây.

Thuật toán F_FRSAR (Filter_Fuzzy Rough Set based Attribute Reduction). Thuật

toán heuristic tìm một tập rút gọn sử dụng độ phụ thuộc mờ theo tiếp cận filter.

Đầu vào: Bảng quyết định ,DS U C D , quan hệ tương đương mờ R xác định

trên miền giá trị của các thuộc tính điều kiện.

Đầu ra: Tập rút gọn B của DS

1. :B ; : 0D

;

2. Tính ma trận tương đương mờ CM R ;

3. Tính độ phụ thuộc mờ CR

D ;

// Thêm dần vào các thuộc tính có độ quan trọng lớn nhất

41

4. While B CR R

D D do

5. Begin

6. Với mỗi a C B tính

B a BB R RSIG a D D

;

7. Chọn ma C B sao cho B m Ba C B

SIG a Max SIG a

;

8.

mB B a ;

9. Tính BR

D ;

10. End;

// Loại bỏ các thuộc tính dư thừa trong B nếu có

11. Với mỗi a B

12. Begin

13. Tính

B aRD

;

14. If

B a CR RD D

then :B B a ;

15. End;

16. Return B;

Tiếp theo, luận án đánh giá độ phức tạp thời gian của thuật toán F_FRSAR,

gọi tắt là độ phức tạp. Giả sử D d và ký hiệu ,C U tương ứng là số thuộc tính

điều kiện và số đối tượng. Độ phức tạp tính ma trận tương đương mờ ( )CM R là

2O C U , do đó độ phức tạp tính độ phụ thuộc mờ trong câu lệnh 3 là 2

O C U .

Xét vòng lặp While từ câu lệnh 4 đến 10, để tính P

SIG a ta phải tính

B aRD

vì BR

D đã được tính ở bước trước. Độ phức tạp tính

B aRD

bằng độ phức

tạp tính ma trận tương đương mờ của thuộc tính a, nghĩa là 2O U . Do có hai vòng

lặp lồng nhau theo C nên độ phức tạp của vòng lặp While là 2 2O C U . Tương tự,

42

độ phức tạp của vòng lặp For từ dòng lệnh số 11 đến 15 là 2 2O C U . Do đó, độ

phức tạp của thuật toán F_FRSAR là 2 2O C U

Ví dụ 2.1. Xét bảng quyết định ,DS U C d cho ở Bảng 2.1 với

1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c .


1c 2c 3c 4c 5c 6c d

1u 0.8 0.2 0.6 0.4 1 0 No

2u 0.8 0.2 0 0.6 0.2 0.8 Yes

3u 0.6 0.4 0.8 0.2 0.6 0.4 No

4u 0 0.4 0.6 0.4 0 1 Yes

5u 0 0.6 0.6 0.4 0 1 Yes

6u 0 0.6 0 1 0 1 No

Chúng tôi sử dụng quan hệ tương đương mờ R xác định trên miền giá trị của

thuộc tính kc C như sau [54, 68, 76]

1 4* , 0.25

( , ) max( ) min( ) max( ) min( )

0,

k

k i k j k i k j

c i j k k k k

c u c u c u c u

R u u c c c c

otherwise

Với max , mink kc c tương ứng là giá trị lớn nhất và giá trị nhỏ nhất của

miền giá trị thuộc tính kc Áp dụng các bước của Thuật toán F_FRSAR tìm một tập

rút gọn của bảng quyết định. Trước hết, tính các ma trận quan hệ trên các thuộc tính

điều kiện 1cM R , 2cM R , 3cM R , 4cM R , 5cM R , 6cM R . Từ đó,

tính ma trận CM R :

43

1 0 0 0 0 0

0 1 0 0 0 0

0 0 1 0 0 0( )

0 0 0 1 0 0

0 0 0 0 1 0

0 0 0 0 0 1

CM R

Ta có 1 3 6 2 4 5/ , , , , ,U d u u u u u u . Xét 1 3 6, ,X u u u , xấp xỉ mờ dưới

CR X là tập mờ với hàm thuộc của x U tính bởi

1 3 61 3 6, ,, ,

inf max 1 ,C C

x u u uR u u u y Ux y y

Từ ma trận M C ta có 1

1 2 3 4 5 6

1 0 0 0 0 0C

uu u u u u u

Do đó 1 3 6

1, ,inf 1,1,1,1,1,1 1

CR u u uu , tương tự ta có

1 3 6

2, ,0

CR u u uu ,

1 3 6

3, ,1

CR u u uu ,

1 3 64, ,

0CR u u u

u , 1 3 6

5, ,0

CR u u uu ,

1 3 6

6, ,1

CR u u uu ,

2 4 51, ,

0CR u u u

u , 2 4 5

2, ,1

CR u u uu ,

2 4 53, ,

0CR u u u

u ,

2 4 5

4, ,1

CR u u uu ,

2 4 55, ,

1CR u u u

u ,

2 4 56, ,

0CR u u u

u .

Từ đó, hàm thuộc của các đối tượng đối với miền dương mờ CR

POS d là:

1 3 6 2 4 5

1 1 1, , , ,sup , 1

C CRCPOS d R u u u R u u u

u u u , 2 1RC

POS du ,

3 1RC

POS du , 4 1

RCPOS d

u , 5 1RC

POS du , 6 1

RCPOS d

u .

Từ đó: 1CR

d

Áp dụng các bước của Thuật toán F_FRSAR ta có 1

0.167cR

d ,

2

0cR

d , 3

0.167cR

d , 4

0.5cR

d , 5

0.467cR

d ,

6

0.467cR

d . Chọn thuộc tính 4c có độ quan trọng lớn nhất và 4P c . Thực

hiện vòng lặp While. Xét các thuộc tính 1c ta có:

44

,4 4 1 41 1 0.5 0.5

c c c cR R RSIG c d d . Tương tự

42 0.5

cRSIG c ,

43 0

cRSIG c ,

45 0.5

cRSIG c ,

46 0.5

cRSIG c . Không mất tính tổng quát, chọn

thuộc tính 1c có độ quan trọng lớn nhất và 1 4,P c c . Khi đó ta có

,1 4

1c c CR R

d d , do đó thuật toán dừng và 1 4,P c c là một tập rút gọn của

bảng quyết định DS.

2.2.3. Rút gọn thuộc tính sử dụng độ phụ thuộc mờ theo tiếp cận filter-

wrapper

Xét bảng quyết định ,DS U C D với 1 2, ,..., mC a a a và R là quan hệ

tương đương mờ xác định trên miền giá trị thuộc tính. Đặt CR

D . Theo thuật

toán F_FRSAR, giả sử các thuộc tính 1 2, ,...i ia a được thêm vào tập rỗng theo giá trị

lớn nhất của độ quan trọng thuộc tính cho đến khi tồn tại 1,2,...t m sao cho

, ,...,1 2

a a ai i itR

D . Kết thúc thuật toán filter F_FRSAR, ta thu được tập rút gọn

1 2, ,...,

ti i iB a a a và độ chính xác phân lớp trên tập dữ liệu được tính trên B.

Mặt khác, theo định nghĩa miền dương mờ trong lý thuyết tập thô mờ và [76,

77, 78, 79] ta có

, ,...,

1 1 2 1

...a a a a ai i i i it

R R RD D D . Với ngưỡng

cho

trước, đặt 1,...,

kk i iB a a thỏa mãn BkR

D và

1

B ak ikR

D

. Khi đó, kB được

gọi là tập rút gọn xấp xỉ ngưỡng . Nếu kB và 1,...,

k tk i iB a a

được sử dụng để

xây dựng bộ phân lớp, công bố [91] cho thấy, độ chính xác phân lớp trên

1,...,

k tk i iB a a

chưa chắc đã tốt hơn trên kB . Giả sử kB có độ chính xác phân lớp

tốt hơn 1,...,

k tk i iB a a

. Khi đó, nếu chọn kB là kết quả của thuật toán thì kB

có độ

chính xác phân lớp cao hơn, có số lượng thuộc tính ít hơn nên khả năng khái quát

hóa và hiệu năng thực hiện các thuật toán phân lớp sẽ cao hơn. Điều đó dẫn đến

hướng tiếp cận lai ghép tìm tập rút gọn xấp xỉ, là sự kết hợp giữa filter (lọc) và

wrapper (gói). Phương pháp filter tìm ra các tập rút gọn xấp xỉ, phương pháp

45

wrapper kiểm tra độ chính xác phân lớp của các tập rút gọn xấp xỉ để chọn tập rút

gọn có độ chính xác cao nhất. Với hướng tiếp cận này, độ chính xác phân lớp trên

tập rút gọn tìm được cao hơn so với các phương pháp lọc truyền thống. Tuy nhiên,

thời gian thực hiện sẽ lớn hơn vì phải thực hiện các bộ phân lớp.

Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng độ phụ thuộc mờ

được mô tả như sau:

Thuật toán FW_FRSAR (Filter-Wrapper Fuzzy Rough Set based Attribute

Reduction): Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng độ phụ thuộc

mờ.

Đầu vào: Bảng quyết định ,DS U C D với 1 2, ,..., nC a a a , quan hệ tương

đương mờ R xác định trên miền giá trị thuộc tính điều kiện.

Đầu ra: Tập rút gọn xấp xỉ xS có độ chính xác phân lớp tốt nhất.

// Khởi tạo

1. :B ; 0D

; :S ;

2. Tính độ phụ thuộc mờ CR

D ;

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất

3. While B CR R

D D do

4. Begin


B a BB R RSIG a D D


SIG a Max SIG a

;

7.

mB B a ; ;S S B

8. End;

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao nhất

9. Đặt t S //t là số phần tử của S, S chứa các chuỗi thuộc tính được

chọn tại mỗi bước lặp của vòng lặp While, nghĩa là

46

1 1 2 1 2

, , ,..., , ,...,ti i i i i iS a a a a a a ;

10. Đặt 1 1 2 1 21 2, , ,..., , ,...,

ti i i t i i iS a S a a S a a a

11. For j = 1 to t

12. Begin

13. Tính độ chính xác phân lớp trên jS bằng một bộ phân lớp sử dụng

phương pháp 10-fold;

14. End

15. x joS S với joS có độ chính xác phân lớp lớn nhất.

Return xS ;

Tiếp theo, chúng tôi đánh giá độ phức tạp thời gian của thuật toán filter-

wrapper FW_FRSAR, gọi tắt là độ phức tạp. Giả sử D d và ký hiệu ,C U tương

ứng là số thuộc tính điều kiện và số đối tượng của DS. Theo mục 2.2.2, độ phức tạp

của thuật toán filter F_FRSAR là 2 2*O C U , do đó độ phức tạp của giai đoạn filter

(từ câu lệnh 3 đến 8) là 2 2*O C U . Độ phức tạp của giai đoạn wrapper (từ câu lệnh

số 9 đến số 15) phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ

phức tạp của bộ phân lớp là O T , khi đó độ phức tạp của giai đoạn wrapper là

*O C T . Vì vậy, độ phức tạp của thuật toán FW_FRSAR là 2 2* *O C U O C T

2.2.4. Thực nghiệm các thuật toán

2.2.4.1. Bộ dữ liệu thử nghiệm và môi trường thử nghiệm

Chúng tôi chọn 8 bộ dữ liệu mẫu từ lấy từ kho dữ liệu UCI [103] cho ở Bảng

2.2 để tiến hành thử nghiệm. Môi trường thử nghiệm là máy tính PC với cấu hình

Intel(R) Core(TM) i7-3770CPU @3.40 GHz, sử dụng hệ điều hành Windows 7, 32

bit. Công cụ lập trình thực hiện các thuật toán là ngôn ngữ C# và công cụ phân tích

dữ liệu R.

47

Bảng 2.2. Bộ dữ liệu thử nghiệm thuật toán F_FRSAR, FW_FRSAR

STT Bộ dữ liệu Mô tả Số đối

tượng

Số thuộc tính điều kiện

Số lớp

quyết

định

Tất

cả

Thuộc

tính định

danh

(nominal)

Thuộc

tính

thực

(Real-

valued)

1 Ecoli Protein Localization

Sites

336 7 0 7 8

2 Ionosphere Johns Hopkins

University

Ionosphere database

351 34 0 34 2

3 WDBC Wisconsin

diagnostic breast

cancer

569 30 0 30 2

4 Wpbc Wisconsin

Prognostic Breast

Cancer

198 33 0 33 2

5 Wine Wine recognition

data

178 13 0 13 3

6 Glass Glass Identification

Database

214 9 0 9 7

7 Magic04 MAGIC gamma

telescope data 2004

19020 10 0 10 2

8 Page-

blocks

Blocks

Classification

5473 10 0 10 5

2.2.4.2. Đánh giá độ chính xác phân lớp của thuật toán F_FRSAR với các thuật

toán khác theo tiếp cận tập thô mờ và thuật toán RSAR theo tiếp cận tập thô truyền

thống

1) Đánh giá độ chính xác phân lớp của thuật toán F_FRSAR theo tiếp cận tập thô

mờ với thuật toán RSAR theo tiếp cận tập thô truyền thống

Trước hết, chúng tôi tiến hành thử nghiệm nhằm đánh giá độ chính xác phân

lớp của thuật toán F_FRSAR với thuật toán RSAR theo tiếp cận tập thô truyền

thống. Với thuật toán filter theo tiếp cận tập thô mờ F_FRSAR, chúng tôi dùng

48

quan hệ tương đương mờ R trên miền giá trị của thuộc tính kc C như sau [54, 68,

76]

1 4* , 0.25

( , ) max( ) min( ) max( ) min( )

0,

k

k i k j k i k j

c i j k k k k

c u c u c u c u

R u u c c c c

otherwise

Với max , mink kc c tương ứng là giá trị lớn nhất và giá trị nhỏ nhất của

miền giá trị thuộc tính kc . Trên thuộc tính quyết định d chúng tôi sử dụng quan

hệ tương đương d

R . Phân hoạch

/d d

U R x x U với

( , ) 1dd

x y U R x y là một lớp tương đương. Khi đó, lớp tương đương d

x

được xem là lớp đương đương mờ, ký hiệu là d

x , với hàm thuộc 1

dx

y nếu

d

y x và 0

dx

y nếu d

y x .

Để tiến hành thử nghiệm, chúng tôi thực hiện các công việc sau:

- Cài đặt, thực hiện thuật toán rời rạc hóa dữ liệu equal-width [64] và thuật

toán RSAR để tìm tập rút gọn theo tiếp cận tập thô.

- Cài đặt, thực hiện thuật toán F_FRSAR để tìm tập rút gọn trực tiếp từ bảng

quyết định ban đầu theo tiếp cận tập thô mờ.

- Chúng tôi sử dụng bộ phân lớp SVM và C4.5 trong công cụ R để tính độ

chính xác phân lớp trên tập rút gọn thu được bởi hai thuật toán . Chúng tôi sử dụng

phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được chia thành 10 phần

xấp xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu kiểm tra, 9 phần còn lại làm

dữ liệu huấn luyện. Quá trình được lặp lại 10 lần.

Bảng 2.3 là kết quả thử nghiệm trên 8 bộ số liệu được chọn với U là số đối

tượng, C là số thuộc tính điều kiện, R là số thuộc tính của tập rút gọn.

49

Bảng 2.3. Độ chính xác phân lớp của F_FRSAR và RSAR

ST

T

Bộ số

liệu U C

Rút gọn thuộc tính theo tiếp

cận tập thô (RSAR)

Rút gọn thuộc tính theo

tiếp cận tập thô mờ

(F_FRSAR)

R Độ chính

xác phân

lớp SVM

Độ chính

xác phân

lớp C4.5

R Độ chính

xác phân

lớp SVM

Độ chính

xác phân

lớp C4.5

1 Ecoli 336 7 5 0.851 0.819 7 0.865 0.855

2 Ionospher

e

351 34 10 0.814 0.802 15 0.937 0.915

3 Wdbc 569 30 8 0.795 0.784 19 0.980 0.975

4 Wpbc 198 33 7 0.718 0.704 19 0.825 0.818

5 Wine 178 13 4 0.814 0.802 10 0.955 0.920

6 Glass 214 9 5 0.815 0.795 7 0.891 0.882

7 Magic04 1902

0

10 4 0.745 0.715 6 0.782 0.765

8 Page-

blocks

5473 10 5 0.758 0.725 7 0.865 0.855

Hình 2.1. Độ chính xác phân lớp của F_FRSAR và RSAR

50

Từ Bảng 2.3 và Hình 2.1 ta thấy, trên tất cả các tập dữ liệu, tập rút gọn của

F_FRSAR nhiều thuộc tính hơn RSAR. Độ chính xác phân lớp trên tập rút gọn của

F_FRSAR cao hơn độ chính xác phân lớp trên tập rút gọn của RSAR.

2) Đánh giá độ chính xác phân lớp của thuật toán F_FRSAR với các thuật toán

khác theo tiếp cận tập thô mờ

Tiếp theo, chúng tôi tiến hành thử nghiệm để đánh giá thuật toán filter đề xuất

F_FRSAR với thuật toán filter tìm tập rút gọn theo tiếp cận tập thô mờ sử dụng

lượng thông tin tăng thêm (information gain) mờ dựa trên entropy Shannon mờ, gọi

là thuật toán GAIN_RATIO_AS_FRS trong công trình [45]. Sở dĩ chọn thuật toán

GAIN_RATIO_AS_FRS để so sánh với thuật toán đề xuất vì thuật toán

GAIN_RATIO_AS_FRS được chứng minh là hiệu quả hơn các thuật toán sử dụng

ma trận phân biệt mờ (công trình số 1, phần danh mục các công trình của tác giả).

Để tiến hành thử nghiệm, chúng tôi cài đặt thuật toán

GAIN_RATIO_AS_FRS trong [45] sử dụng cùng quan hệ tương đương mờ với

thuật toán F_FRSAR. Chúng tôi cũng sử dụng phương pháp 10-fold như mô tả ở

trên (mục 2.2.4.2) để đánh giá độ chính xác phân lớp với bộ phân lớp SVM và C4.5

trong công cụ R, vì bộ phân lớp SVM và C4.5 cũng được chọn trong thử nghiệm

của công bố số [45]. Kết quả thực hiện hai thuật toán được mô tả ở Bảng 2.4 như

sau:

Bảng 2.4. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR

STT Bộ số

liệu U C

Thuật toán

GAIN_RATIO_AS_FRS

[45]

Thuật toán F_FRSAR

R Độ chính

xác phân

lớp SVM

Độ chính

xác phân

lớp C4.5

R Độ chính

xác phân

lớp SVM

Độ chính

xác phân

lớp C4.5

1 Ecoli 336 7 6 0.814 0.802 7 0.865 0.855

2 Ionos

phere

351 34 13 0.916 0.904 15 0.937 0.915

3 Wdbc 569 30 17 0.925 0.917 19 0.980 0.975

4 Wpbc 198 33 17 0.815 0.804 19 0.825 0.818

5 Wine 178 13 9 0.910 0.902 10 0.955 0.920

51

6 Glass 214 9 7 0.891 0.882 7 0.891 0.882

7 Magic

04

1902

0 10 6 0.782 0.765 6 0.782 0.765

8 Page-

blocks 5473 10 6 0.852 0.848 7 0.865 0.855

Hình 2.2. Độ chính xác phân lớp của GAIN_RATIO_AS_FRS và F_FRSAR

Từ Bảng 2.4 và Hình 2.2 ta thấy, trên cùng một quan hệ tương đương mờ được

sử dụng, độ chính xác phân lớp sau khi thực hiện thuật toán đề xuất F_FRSAR cao

hơn độ chính xác phân lớp sau khi thực hiện thuật toán GAIN_RATIO_AS_FRS

trong [45]. Tập rút gọn của thuật toán đề xuất F_FRSAR bảo toàn miền dương mờ

và nhiều thuộc tính hơn so với thuật toán GAIN_RATIO_AS_FRS trong [45].

2.2.4.3. Đánh giá độ chính xác phân lớp của thuật toán filter-wrapper FW_FRSAR

với thuật toán filter F_FRSAR và các thuật toán filter khác theo tiếp cận tập thô mờ

Trong mục này, chúng tôi tiến hành thử nghiệm đánh giá thuật toán filter-

wrapper FW_FRSAR với thuật toán filter F_FRSAR và thuật toán filter

GAIN_RATIO_AS_FRS trong [45]. Việc đánh giá dựa trên hai tiêu chuẩn: độ

chính xác phân lớp và thời gian thực hiện của các thuật toán. Cả 3 thuật toán đề sử

dụng quan hệ tương đương mờ ở mục 2.2.4.2. Chúng tôi cũng sử dụng phương pháp

10-fold như mô tả ở mục 2.2.4.2 để đánh giá độ chính xác phân lớp với bộ phân lớp

C4.5 trong công cụ R.

52

1) So sánh độ chính xác phân lớp của FW_FRSAR, F_FRSAR và

GAIN_RATIO_AS_FRS

Kết quả so sánh độ chính xác phân lớp của 3 thuật toán được mô tả ở Bảng 2.5.

Trong đó, U là số đối tượng, C là số thuộc tính điều kiện, R là số thuộc tính của

tập rút gọn.

Bảng 2.5. Độ chính xác phân lớp FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS

STT Tập dữ

liệu

Tập dữ liệu

ban đầu

Thuật toán

FW_FRSAR

Thuật toán

F_FRSAR

Thuật toán

GAIN_RATIO

_AS_FRS [45]

U C R Độ chính

xác phân

lớp C4.5

R Độ chính

xác phân

lớp C4.5

R Độ chính

xác phân

lớp C4.5

1 Ecoli 336 7 5 0.901 7 0.855 6 0.802

2 Ionosphere 351 34 8 0.946 15 0.915 13 0.904

3 Wdbc 569 30 6 0.975 19 0.975 17 0.917

4 Wpbc 198 33 12 0.867 19 0.818 17 0.804

5 Wine 178 13 5 0.920 10 0.920 9 0.902

6 Glass 214 9 4 0.924 7 0.882 7 0.882

7 Magic04 19020 10 4 0.886 6 0.765 6 0.765

8 Page-

blocks 5473 10 5 0.906 7 0.855 6 0.848

Kết quả ở Bảng 2.5 cho thấy, số thuộc tính tập rút gọn của thuật toán filter-

wrapper FW_FRSAR nhỏ hơn nhiều, đặc biệt là đối với các bộ dữ liệu Wdbc,

Ionosphere. Hơn nữa, độ chính xác của FW_FRSAR cao hơn F_ FRSAR và

GAIN_RATIO_AS_FR, độ chính xác FW_FRSAR bằng F_FRSAR trên 2 bộ dữ

liệu Wdbc và Wine. Nguyên nhân là giai đoạn wrapper, thuật toán FW_FRSAR tính

độ chính xác phân lớp trên tất cả các ứng cử viên tập rút gọn sinh bởi F_FRSAR và

tìm ứng cử viên có độ chính xác phân lớp tốt nhất.

Như vậy, thuật toán đề xuất filter-wrapper FW_FRSAR đáp ứng mục tiêu đặt

ra là giảm thiểu số thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình

mà vẫn cố gắng bảo toàn độ chính xác phân lớp (độ chính xác phân lớp còn cao hơn

các phương pháp filter).

53

2) So sánh thời gian thực hiện của FW_FRSAR, F_FRSAR và

GAIN_RATIO_AS_FRS

Kết quả so sánh thời gian thực hiện của 3 thuật toán được mô tả ở Bảng 2.6.

Thời gian tính bằng giây (s), trong đó thời gian thực hiện thuật toán filter-wrapper

FW_FRSAR được tách thành hai giai đoạn: thời gian thực hiện thủ tục filter và

wrapper.

Bảng 2.6. Thời gian thực hiện FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS

STT Bộ dữ liệu U C

Thuật toán FW_FRSAR Thuật toán

F_FRSAR

Thuật toán

GAIN_RATIO

_AS_FRS

[45] Thủ tục

Filer

Thủ tục

Wrapper

Tổng

cộng

1 Ecoli 336 7 2.38 1.24 3.62 2.86 2.95

2 Ionosphere 351 34 12.64 6.92 19.56 14.87 15.04

3 Wdbc 569 30 22.15 8.74 30.89 24.12 26.08

4 Wpbc 198 33 8.56 6.28 14.84 9.12 9.88

5 Wine 178 13 0.58 1.22 1.80 0.62 0.74

6 Glass 214 9 0.82 0.66 1.48 0.88 1.02

7 Magic04 19020 10 894.26 124.49 1018.75 914.86 948.16

8 Page-

blocks 5473 10 98.64 22.16 120.80 112.76 126.28

Kết quả ở Bảng 2.6 cho thấy, thời gian thực hiện thuật toán FW_FRSAR cao

hơn hai thuật toán filter F_FRSAR và GAIN_RATIO_AS_FRS vì phải thực hiện

các bộ phân lớp trong giai đoạn wrapper. Chú ý rằng thời gian thực hiện thủ tục

filter trong thuật toán FW_FRSAR nhỏ hơn F_FRSAR và GAIN_RATIO_AS_FRS

vì thủ tục filter không phải kiểm tra lại tập rút gọn tìm được. Với 2 thuật toán filter,

thời gian thực hiện thuật toán đề xuất F_FRSAR nhỏ hơn một chút so với thuật toán

GAIN_RATIO_AS_FRS vì không phải tính toán các công thức entropy Shannon.

2.3. Rút gọn thuộc tính sử dụng khoảng cách mờ

Trong mấy năm gần đây, nhóm nghiên cứu của Nguyễn Long Giang và cộng

sự đã sử dụng các độ đo khoảng cách để giải quyết bài toán rút gọn thuộc tính trong

bảng quyết định theo tiếp cận tập thô truyền thống [9, 24, 57, 65] và bảng quyết

54

định không đầy đủ theo tiếp cận tập thô dung sai [9, 10, 12, 25, 58]. Theo tiếp cận

tập thô mờ, nhóm nghiên cứu đã mở rộng các độ đo khoảng cách đã đề xuất thành

các độ đo khoảng cách mờ và đã có một số kết quả trong việc sử dụng độ đo khoảng

cách mờ để giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá

trị số. Trong công trình [8], nhóm tác giả xây dựng độ đo khoảng cách Jaccard mờ

giữa hai tập thuộc tính dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn và

chứng minh một số tính chất của nó. Trong công trình [3], các tác giả đã sử dụng

khoảng cách Jaccard mờ trong [8] để giải quyết bài toán rút gọn thuộc tính trực tiếp

trên bảng quyết định gốc có miền giá trị số. Trong công trình [18], các tác giả xây

dựng độ đo khoảng cách phân hoạch mờ và sử dụng khoảng cách phân hoạch mờ

giải quyết bài toán rút gọn thuộc tính trên bảng quyết định có miền giá trị số.

Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm các độ đo khoảng cách

hiệu quả (có công thức tính toán đơn giản) giải quyết bài toán rút gọn thuộc tính,

giảm thiểu thời gian thực hiện, trong phần này chúng tôi xây dựng độ đo khoảng

cách mờ mới (sau đây gọi là khoảng cách mờ) dựa trên độ đo khoảng cách phân

hoạch trong công trình [48]. Sử dụng khoảng cách mờ được xây dựng, chúng tôi đề

xuất phương pháp filter-wrapper rút gọn thuộc tính trong bảng quyết định nhằm

nâng cao độ chính xác phân lớp và giảm thiểu số lượng thuộc tính tập rút gọn.

2.3.1. Xây dựng khoảng cách mờ giữa hai tập mờ

Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , ,P Q C và

i iPK P x x U , i iQ

K Q x x U là hai phân hoạch trên P và Q. Trong

công trình [48], Liang và các cộng sự đã chứng minh

1

1,

Ui iP Q

i

x xD K P K Q

U U

với i i i i i iP Q P Q P Qx x x x x x là khoảng cách phân hoạch giữa

K P và K Q . Dựa trên khoảng cách phân hoạch, trong mục này chúng tôi xây

dựng một độ đo khoảng cách giữa hai tập mờ, gọi là khoảng cách mờ.

55

Định nghĩa 2.3. [63] Cho U là tập hữu hạn, khác rỗng các đối tượng. Một độ đo

khoảng cách trên U là một ánh xạ : 0,d U U thỏa mãn các điều kiện sau với

mọi , ,x y z U

1P , 0d x y , , 0d x y khi và chỉ khi x y .

2P , ,d x y d y x .

3P , , ,d x y d y z d x z .

Điều kiện 3P được gọi là tiên đề bất đẳng thức tam giác.

Bổ đề 2.1. Cho ba số thực a, b, m với a b . Khi đó ta có min , min ,a b a m b m

Mệnh đề 2.1. Cho ba tập mờ , ,A B C trên cùng tập đối tượng U. Khi đó ta có các mệnh

đề sau:

1) Nếu A B thì B B C A A C .

2) Nếu A B thì C C A C C B .

3) A A B C C A C C B

Chứng minh.

1) Vì A B , với mọi ix U ta có i iB A

x x . Áp dụng Bổ đề 2.1 ta có:

min , min ,i i i i i iB B C CA Ax x x x x x

1 1 1 1

min , min ,

U U U U

i i i i i iB B C CA Ai i i i

x x x x x x

B A B C A C B B C A A C

2) Vì A B , với mọi ix U ta có i iB Ax x

min , min ,i i i iB C A Cx x x x

min , min ,i i i i i iC C C B CAx x x x x x

1 1 1 1

min , min ,

U U U U

i i i i i iC C C B CAi i i i

x x x x x x

C C A C C B .

56

3) Từ A C A , áp dụng tính chất 1) ta có A A B A C A C B (1)

Mặt khác, từ A B B , áp dụng tính chất 2) ta có C C A B C C B (2)

Từ (1) và (2) ta có: A A B C C A A C A C B C C A

C A B C C C B .

Mệnh đề 2.2. Cho hai tập mờ ,A B trên tập đối tượng U. Khi đó

,d A B A B A B là một khoảng cách mờ giữa A và B .

Chứng minh.

Rõ ràng A B A B nên , 0d A B . Hơn nữa, , ,d A B d B A . Để

,d A B là độ đo khoảng cách, ta cần chứng minh bất đẳng thức tam giác. Không mất

tính chất tổng quát ta chứng minh , , ,d A B d A C d B C . Áp dụng tính chất 3)

của Mệnh đề 2.1 ta có:

A A B C C A C C B (1)

A A C B B A B B C (2)

Cộng (1) với (2), vế với vế ta được:

2 2 2A B A B A C A C B C B C (3)

Mặt khác, với hai số thực bất kỳ a, b ta luôn có max , min ,a b a b a b . Từ

đó ta có với mọi ix U , max , min ,i i i i i iB B BA A Ax x x x x x ,

nghĩa là A B A B A B . Do đó, từ (3) thu được:

A B A B A C A C B C B C

Hay , , ,d A B d A C d B C . Từ đó, ,d A B là một khoảng cách giữa hai

tập mờ A và B , gọi là khoảng cách mờ. Dựa trên khoảng cách mờ này, mục tiếp theo

chúng tôi xây dựng khoảng cách phân hoạch mờ.

57

2.3.2. Xây dựng khoảng cách mờ giữa hai phân hoạch mờ

Mệnh đề 2.3. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và PR ,

QR là hai phân hoạch mờ sinh bởi hai quan hệ tương đương mờ PR , QR trên

,P Q C . Khi đó:

2

1

1,

n

P Q i i i iP Q P Qi

D R R x x x xn

là một khoảng cách mờ giữa PR và QR , gọi là khoảng cách phân hoạch mờ.

Chứng minh.

Rõ ràng , 0P QD R R và , ,P Q Q PD R R D R R . Ta

cần chứng minh bất đẳng thức tam giác. Không mất tính chất tổng quát, với mọi

, ,P Q SR R R ta chứng minh

, , ,P Q P S Q SD R R D R R D R R . Từ Mệnh đề 2.2, với mọi

ix U ta có: , , ,i i i i i iP Q P S Q Sd x x d x x d x x . Từ đó:

, ,P Q P SD R R D R R

2 21 1

1 1n n

i i i i i i i iP Q P Q P S P Si i

x x x x x x x xn n

2 2 21 1 1

1 1 1, , , ,

n n n

Q Si i i i i iP Q P S Q Si i i

d x x d x x d x x D R Rn n n

Dễ thấy rằng, ,P QD R R đạt giá trị nhỏ nhất là 0 khi và chỉ khi

P QR R và ,P QD R R đạt giá trị lớn nhất là 1 khi và chỉ khi

PR và QR (hoặc PR và QR Do đó,

0 , 1P QD R R .

58

Mệnh đề 2.4. Cho PR là một phân hoạch mờ trên , khi đó ta có:

, , 1P PD R D R

Chứng minh. Giả sử 1 2, ,...,P nP P PR x x x . Khi đó

21

1,

n

P i Pi

D R xn

, 21

1,

n

P i Pi

D R n xn

. Từ đó ta có

, , 1P PD R D R .

Mệnh đề 2.5. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là

quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi đó

khoảng cách mờ giữa hai tập thuộc tính C và C D được xác định như sau:

2

1

1,

n

C C D i i iC C Di

D R R x x xn

Chứng minh. Từ Mệnh đề 2.3 ta có:

21

1,

n

C C D i i i iC C D C C Di

D R R x x x xn

2 21 1

1 1n n

i i i i i i i iC C D C D C C Di i

x x x x x x x xn n

Dễ thấy rằng 10 , 1C C DD R R

n . , 0C C DD R R khi

CR D và 1, 1C C DD R R

n khi CR và i iD

x x với

1 i n .

Mệnh đề 2.6. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , B C và

R là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện.

Khi đó , ,B B D C C DD R R D R R

Chứng minh: Từ B C , theo [93] ta có C BR R , nghĩa là i iC Bx x với

1 i n , suy ra i iC Bx x với 1 i n . Xét đối tượng ix U ta có:

59

1 1

min ,i i iC C D

n n

i i i j j jx x xC C Dj j

x x x x x x

1 1

min ,i i iB B D

n n

i i i j j jx x xB B Dj j

x x x x x x

(1) Với j i Dx x ta có

1i D

jxx , do đó

0i i i i i iC C D B B Dx x x x x x

(2) Với j i Dx x ta có

0i D

jxx , do đó i i i i iC C D C B

x x x x x

i i iB B Dx x x .

Từ (1), (2) ta có:

i i i i i iB B D C C Dx x x x x x

2 21 1

1 1n n

i i i i i iB B D C C Di i

x x x x x xn n

, ,B B D C C DD R R D R R .

Dễ thấy rằng dấu đẳng thức , ,B B D C C DD R R D R R xảy ra

khi và chỉ khi i iB Cx x với mọi ix U .

Ví dụ 2.2. Cho 1 2,U x x , 1 2,PP P

R x x , 1 2,QQ Q

R x x ,

1 2,SS S

R x x với 1 1 20.1/ 0.2 /

Px x x , 2 1 20.2 / 0.3/

Px x x ,

1 1 20.2 / 0.3 /Q

x x x , 2 1 20.3/ 0.4 /Q

x x x , 1 1 20.3/ 0.4 /S

x x x ,

2 1 20.4 / 0.6 /S

x x x . Khi đó ta có 1 0.1 0.2 0.3P

x , 2 0.2 0.3 0.5P

x ,

1 0.2 0.3 0.5Q

x , 2 0.3 0.4 0.7Q

x , 1 0.3 0.4 0.7S

x ,

2 0.4 0.6 1S

x . Áp dụng công thức tính khoảng cách mờ ở Mệnh đề 2.3 ta có:

, 0.1P QD R R , , 0.125Q SD R R , , 0.225P SD R R .

Do đó ta có:

60

, , ,P Q Q S P SD R R D R R D R R

, , ,P Q P S Q SD R R D R R D R R

, , ,Q S P S P QD R R D R R D R R

Trong công trình [74], các tác giả đã chỉ ra entropy mờ không thỏa mãn tính

chất phản đơn điệu với các bảng quyết định mờ không nhất quán. Do đó, hướng tiếp

cận rút gọn thuộc tính sử dụng entropy mờ [33, 45, 55, 70, 71] gặp hạn chế khi sử

dụng entropy mờ để đánh giá tiêu chuẩn lựa chọn thuộc tính. Mệnh đề 2.6 cho thấy

khoảng cách phân hoạch mờ thỏa mãn tính phản đơn điệu với tập thuộc tính điều

kiện, nghĩa là tập thuộc tính điều kiện càng nhỏ thì khoảng cách càng lớn. Do đó,

khoảng cách phân hoạch mờ có thể được sử dụng làm tiêu chuẩn lựa chọn thuộc

tính trong thuật toán tìm tập rút gọn sử dụng khoảng cách mờ.

2.3.3. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter

Trong mục này, chúng tôi trình bày phương pháp rút gọn thuộc tính sử dụng

khoảng cách mờ theo tiếp cận filter. Giống các phương pháp filter khác theo tiếp

cận tập thô, phương pháp đề xuất bao gồm các bước: định nghĩa tập rút gọn dựa

trên khoảng cách mờ; định nghĩa độ quan trọng của thuộc tính dựa trên khoảng

cách mờ; xây dựng thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ. Độ

chính xác phân lớp được đánh giá sau khi tìm được tập rút gọn.

Định nghĩa 2.4. Cho bảng quyết định ,DS U C D với B C và R là một

quan hệ tương đương mờ xác định trên miền giá trị thuộc tính điều kiện. Nếu

1) , ,B B D C C DD R R D R R

2) , , ,B b B b D C C Db B D R R D R R

thì B là một tập rút gọn của C dựa trên khoảng cách mờ.

Định nghĩa 2.5. Cho bảng quyết định ,DS U C D với B C và b C B . Độ

quan trọng của thuộc tính b đối với B được định nghĩa bởi

61

, ,B B D B b B b DBSIG b D R R D R R

Từ Mệnh đề 2.6 ta có 0BSIG b . Độ quan trọng BSIG b đặc trưng cho chất

lượng phân lớp của thuộc tính b đối với thuộc tính quyết định D và được sử dụng

làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán filter F_FDAR tìm tập rút gọn.

Thuật toán F_FDAR (Filter - Fuzzy Distance based Attribute Reduction): Thuật

toán filter tìm tập rút gọn sử dụng khoảng cách mờ.

Đầu vào: Bảng quyết định ,DS U C D , quan hệ tương đương mờ R xác

định trên tập thuộc tính điều kiện.

Đầu ra: Một tập rút gọn B

1. B ; , 1B B DD R R ;

2. Tính khoảng cách phân hoạch mờ ,C C DD R R ;


3. While , ,B B D C C DD R R D R R do

4. Begin


, ,B B D B a B a DBSIG a D R R D R R


SIG a Max SIG a

;

7.

mB B a ;

8. End;

//Loại bỏ các thuộc tính dư thừa trong B nếu có

9. Với mỗi a B

10. Begin

11. Tính ,B a B a DD R R ;

12. If , ,B a B a D C C DD R R D R R then B B a ;

13. End;

62

Return B ;

Tiếp theo, chúng tôi đánh giá độ phức tạp thời gian của thuật toán F_FDAR,

gọi tắt là độ phức tạp. Giả sử D d và ký hiệu ,C U tương ứng là số thuộc tính

điều kiện và số đối tượng. Độ phức tạp tính ma trận tương đương mờ ( )CM R là

2O C U , do đó độ phức tạp tính khoảng cách phân hoạch mờ trong câu lệnh 2 là

2O C U . Xét vòng lặp While từ câu lệnh 3 đến 8, để tính BSIG a ta phải tính

,B a B a DD R R vì ,B B DD R R đã được tính ở bước trước. Độ phức tạp

tính ,B a B a DD R R bằng độ phức tạp tính ma trận tương đương mờ của

thuộc tính a, nghĩa là 2O U . Do có hai vòng lặp lồng nhau theo C nên độ phức tạp

của vòng lặp While là 2 2O C U . Tương tự, độ phức tạp của vòng lặp For từ dòng

lệnh số 9 đến 13 là 2 2O C U . Do đó, độ phức tạp của thuật toán F_FDAR là

2 2O C U

Ví dụ 2.3. Xét bảng quyết định ,DS U C d cho ở Bảng 1 với

1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , , , { }C c c c c c c D d . Với các thuộc tính điều

kiện, chúng tôi sử dụng quan hệ tương đương mờ aR trên thuộc tính a C trong

[91] như sau:

, 1a i j i jR u u a u a u

với ,i ju u U

Với thuộc tính quyết định D chúng tôi sử dụng quan hệ tương đương DR .

63


U 1c 2c

3c 4c

5c 6c D

1u 0.8 0.2 0.6 0.4 1 0 0

2u 0.8 0.2 0 0.6 0.2 0.8 1

3u 0.6 0.4 0.8 0.2 0.6 0.4 0

4u 0 0.4 0.6 0.4 0 1 1

5u 0 0.6 0.6 0.4 0 1 1

6u 0 0.6 0 1 0 1 0

Áp dụng các bước của thuật toán F_FDAR tìm tập rút gọn ta có:

Khởi tạo B ; , 1dD R R . Tính các ma trận tương đương mờ

1 2 3 4( ), ( ), ( ), ( ), ( )c c c c CM R M R M R M R M R

1

1 1 0.8 0.2 0.2 0.2

1 1 0.8 0.2 0.2 0.2

0.8 0.8 1 0.4 0.4 0.4( )

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

cM R

, 2

1 1

1 1 0.8 0.6 0.6

0.8 0.8 1 1 0.8 0.8

0.8 0.8 1 1 0.8 0.8

0.6 0.6 0.8 0.8 1 1

0.6 0.6 0.8 0.8

0.8 0.8 0.6 0.6

0.

( )

1

8

1

cRM

3

0.4 1 1

0.4 0.2 0.4 0.4 1

0.8( )

1 0.4 0.8 1 0.4

1 0.4 0.8 1 0.4

0.4 1

1 0.8 0.4

1

0.8 0.2 1 0.8 0.2

1

1

0.2 0. 0. 144

cRM

,

4

0.8 1 1

0.8 0.6 0.6

0.8 0.8( )

1 0.8 0.8 1 0.4

1 0.8 0.8 1 0.4

0.4 0.

1 0.8 0.4

1 0.8 0.8

0.6 1 0.8 0.

6 0.2 0.4

2

1

1

0.4 1

cRM

,

5

1 0 0

1

1 0.4

0.2 0.6 0

0.2 0.6 0.8 0.8 0.8

0.6 0.6 0.4 0.4( )

0.8 0.4 1 1

0.8 0.4 1

0 0.8 0.4 1

0 1

0 1 1

1 1

cRM

,

6

1 0 0 0

1 0.8

1 0.4 0.4

0 1

0.2 0.6

0.2 0.6 0.8 0.8

0.6 0.6 0.4( )

0.8 0.4 1

0 1 1

0 0.4

1

0.8 0.4 1

0. 18 11

cRM

64

0.2 0.6

0.2 0.2 0.2 0.2 0.2

0.6 0.4 0.4 0.2( )

0.4 0.8

0.2 0

1 0 0 0

1

0.2 1

0 0.2 1 0.4

0 0.4 0.8 1

0 0.2 0.2 0.4 1

.4

0.4

CRM

,

1 0 0

1

1

0 1 0

0 1

0 1 1

0 0 1 1 0

1 0 0 0 1( )

1 0 1

1 0 1 0

01 0 1 0 1

DRM

Từ đó ta có: , 4.4 / 36C C dD R R ; 1 1, 10.4 / 36c c dD R R ,

2 2, 14.8 / 36c c dD R R ; 3 3

, 12 / 36c c dD R R ,

4 4, 12.8 / 36c c dD R R ; 5 5

, 8,8 / 36c c dD R R ,

6 6, 8,8 / 36c c dD R R . Chọn 5SIG c có giá trị lớn nhất và 5B c . Do

5 5, ,c c d C C dD R R D R R nên tiếp tục vòng lặp While, ta có:

5

1 1.2 / 36c

SIG c , 5

2 0.8 / 36c

SIG c , 5

3 3.2 / 36c

SIG c , 5

4 2.8 / 36c

SIG c ,

5

6 0c

SIG c . Chọn 3c có độ quan trọng lớn nhất và 3 5,B c c . Tính

3 5 3 5, ,, 5.6 / 36 ,c c c c d C C dD R R D R R nên tiếp tục vòng lặp

While. Ta có 3 5

1,1.2 / 36

c cSIG c ,

3 52,

0.4 / 36c c

SIG c , 3 5

4,0.4 / 36

c cSIG c ,

3 5

6,0

c cSIG c . Chọn 1c có độ quan trọng lớn nhất và 1 3 5, ,B c c c . Do

1 3 5 1 3 5, , , ,, , 4.4 / 36c c c c c c d C C dD R R D R R nên thuật toán dừng

và 1 3 5, ,B c c c là tập rút gọn tìm được của thuật toán.

2.3.4. Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper

Xét bảng quyết định ,DS U C D với 1 2, ,..., mC a a a và R là quan hệ

tương đương mờ xác định trên miền giá trị thuộc tính điều kiện. Đặt

,C C DD R R . Theo thuật toán F_FDAR, giả sử các thuộc tính 1 2, ,...i ia a

được thêm vào tập rỗng theo giá trị lớn nhất của độ quan trọng thuộc tính cho đến

khi tồn tại 1,2,...t m sao cho 1 2 1 2, ,..., , ,...,,

i i i i i it ta a a a a a DD R R . Kết thúc

65

thuật toán, ta thu được tập rút gọn 1 2, ,...,

ti i iB a a a , độ chính xác phân lớp trên tập

dữ liệu được tính bởi độ chính xác phân lớp trên B.

Mặt khác, theo Mệnh đề 2.6 ta có

1 1 1 2 1 2 1 1, , ,..., ,...,, , ... ,

i i i i i i i i i it ta a D a a a a D a a a a DD R R D R R D R R

Với ngưỡng cho trước, đặt

1,...,

kk i iB a a thỏa mãn ,k kB B DD R R

và 1 1,

k i k ik kB a B a DD R R

. Khi đó, kB được gọi là tập rút gọn xấp xỉ

ngưỡng . Nếu kB và 1,...,

k tk i iB a a

được sử dụng để xây dựng bộ phân lớp,

công bố [91] cho thấy, độ chính xác phân lớp trên 1,...,

k tk i iB a a

chưa chắc đã tốt

hơn trên kB . Giả sử kB có độ chính xác phân lớp tốt hơn 1,...,

k tk i iB a a

. Khi đó,

nếu chọn kB là kết quả của thuật toán thì kB

có độ chính xác phân lớp cao hơn, có

số lượng thuộc tính ít hơn nên khả năng khái quát hóa và hiệu năng thực hiện các

thuật toán phân lớp sẽ cao hơn. Điều đó dẫn đến hướng tiếp cận lai ghép tìm tập rút

gọn xấp xỉ, là sự kết hợp giữa filter (lọc) và wrapper (gói). Phương pháp filter tìm ra

các tập rút gọn xấp xỉ, phương pháp wrapper kiểm tra độ chính xác phân lớp của

các tập rút gọn xấp xỉ để chọn tập rút gọn có độ chính xác cao nhất. Với hướng tiếp

cận này, độ chính xác phân lớp trên tập rút gọn tìm được cao hơn so với các phương

pháp filter truyền thống. Tuy nhiên, thời gian thực hiện sẽ lớn hơn vì phải thực hiện

các bộ phân lớp.

Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ được

mô tả như sau:

Thuật toán FW_FDAR (Filter-Wrapper Fuzzy Distance based Attribute

Reduction): Thuật toán filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách

mờ.

Đầu vào: Bảng quyết định ,DS U C D với 1 2, ,..., nC a a a , quan hệ tương

đương mờ R trên miền giá trị thuộc tính điều kiện.

Đầu ra: Tập rút gọn xấp xỉ xS có độ chính xác phân lớp tốt nhất.

66

// Khởi tạo

1. :B ; :S ; , : 1B B DD R R ;

2. Tính khoảng cách mờ ,C C DD R R ;



3. While , ,B B D C C DD R R D R R do

4. Begin


, ,B B D B a B a DBSIG a D R R D R R ;


SIG a Max SIG a

;

7.

: mB B a ; :S S B ;

8. End;


9. Đặt t S // t là số phần tử của S, S chứa các chuỗi thuộc tính được

chọn tại mỗi bước lặp của vòng lặp While, nghĩa là

1 1 2 1 2

, , ,..., , ,...,ti i i i i iS a a a a a a ;

10. Đặt 1 1 2 1 21 2, , ,..., , ,...,

ti i i t i i iS a S a a S a a a

11. For j = 1 to t

12. Begin

13. Tính độ chính xác phân lớp trên jS bằng một bộ phân lớp và sử dụng


14. End

15. x joS S với joS có độ chính xác phân lớp lớn nhất.

Return xS ;

67

Tiếp theo, chúng tôi đánh giá độ phức tạp thời gian của thuật toán filter-

wrapper FW_FDAR, gọi tắt là độ phức tạp. Giả sử D d và ký hiệu ,C U tương

ứng là số thuộc tính điều kiện và số đối tượng của DS. Theo mục 2.3.3, độ phức tạp

của thuật toán filter F_FDAR là 2 2*O C U , do đó độ phức tạp của giai đoạn filter

(từ câu lệnh 3 đến 8) là 2 2*O C U . Độ phức tạp của giai đoạn wrapper (từ câu lệnh

số 9 đến số 15) phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ

phức tạp của bộ phân lớp là O T , khi đó độ phức tạp của giai đoạn wrapper là

*O C T . Vì vậy, độ phức tạp của thuật toán FW_FDAR là 2 2* *O C U O C T

2.3.5. Thực nghiệm các thuật toán

2.3.5.1. Mục tiêu thực nghiệm

Theo hướng tiếp cận filter, các tác giả trong công trình [18] đã xây dựng một độ

đo khoảng cách phân hoạch mờ và xây dựng thuật toán filter tìm tập rút gọn sử

dụng khoảng cách phân hoạch mờ, gọi là thuật toán FPDAR (Fuzzy Partition

Distance based Attribute Reduction). Các tác giả trong [18] cũng chỉ ra bằng thực

nghiệm thuật toán FPDAR hiệu quả hơn các thuật toán sử dụng miền dương mờ và

entropy mờ về thời gian thực hiện và độ chính xác phân lớp. Hơn nữa, công thức

khoảng cách phân hoạch mờ trong [18] đơn giản hơn công thức khoảng cách

Jaccard mờ trong [3] nên thuật toán FPDAR hiệu quả hơn thuật toán trong [3] về

thời gian thực hiện.

Theo hướng tiếp cận filter-wrapper, gần đây Zhang và các cộng sự [91] đề xuất

thuật toán filter-wrapper FEBAR (Fuzzy Entropy Based Attribute Reduction) tìm

tập rút gọn xấp xỉ sử dụng độ đo -entropy mờ, là cải tiến của độ đo entropy mờ

trong [45, 70, 71]. Để tính -entropy mờ cần mất chi phí tính hệ số dựa vào miền

dương mờ. Do đó, chi phí thời gian của FEBAR sẽ tăng lên.

Mục tiêu của thực nghiệm là:

1) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter-

wrapper FEBAR trong [91] về thời gian thực hiện và độ chính xác phân lớp.

68

2) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter

FPDAR trong [18] về số thuộc tính tập rút gọn, thời gian thực hiện và độ chính xác

phân lớp.

2.3.5.2. Số liệu thực nghiệm và môi trường thực nghiệm

Việc thực nghiệm được thực hiện trên 8 bộ dữ liệu mẫu lấy từ kho dữ liệu UCI

[103] cho ở Bảng 2.8. Trên mỗi bộ dữ liệu, với mỗi thuộc tính a có miền giá trị thực,

chúng tôi chuẩn hóa về miền [0, 1] như sau với ix U

min

max min

i

i

a x aa x

a a

với max(a), min(a) là giá trị lớn nhất, nhỏ nhất trên miền giá trị thuộc tính a. Chúng

tôi sử dụng quan hệ tương đương mờ aR trên thuộc tính a trong [91] như sau

, 1a i j i jR x x a x a x

với ,i jx x U

Với các thuộc tính a có miền giá trị định danh (nominal) hoặc phân loại

(catergorized), chúng tôi sử dụng quan hệ tương đương aR , với ,i jx x U

1,

,0,

i j

a i j

a x a xR x x

otherwise

Bảng 2.8. Bộ dữ liệu thử nghiệm thuật toán FW_FDAR

STT Bộ dữ liệu Mô tả Số đối

tượng


Số lớp

quyết

định

Tất

cả

Thuộc

tính định

danh

(nominal)

Thuộc

tính thực

(Real-

valued)

1 Lympho Lymphography 148 18 18 0 2

2 Wine Wine 178 13 0 13 3

3 Libra Libras movement 360 90 0 90 15

4 WDBC Wisconsin

diagnostic breast

cancer

569 30 0 30 2

5 Horse Horse colic 368 22 15 7 2

6 Heart Statlog (heart) 270 13 7 6 2

7 Credit Credit approval 690 15 9 6 2

8 German German credit data 1000 20 13 7 2

69

9 Magic04 MAGIC gamma

telescope data

2004

19020 10 0 10 2

10 Page-

blocks

Blocks

Classification

5473 10 0 10 5

Với các thuật toán filter-wrapper FW_FDAR và FEBAR [91], chúng tôi sử

dụng bộ phân lớp CART (cây phân lớp, hồ quy) để tính độ chính xác phân lớp trong

giai đoạn wrapper. Với thuật toán filter FPDAR [18], chúng tôi cũng sử dụng bộ

phân lớp CART để tính độ chính xác phân lớp sau khi tìm được tập rút gọn. Chúng

tôi sử dụng phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được chia thành

10 phần xấp xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu kiểm tra, 9 phần

còn lại làm dữ liệu huấn luyện. Quá trình được lặp lại 10 lần. Độ chính xác phân lớp

được biểu diễn bởi v trong đó v là giá trị độ chính xác trung bình (mean) của

10 lần lặp và là sai số chuẩn (standard error).

Công cụ lập trình thực nghiệm là ngôn ngữ lập trình C# và công cụ phân tích

dữ liệu R. Môi trường thực nghiệm là máy tính PC với cấu hình Intel(R) Core(TM)

i7-3770CPU @3.40 GHz, sử dụng hệ điều hành Windows 7, 32 bit.

2.3.5.3. Kết quả so sánh độ chính xác phân lớp

Kết quả so sánh độ chính xác phân lớp của 3 thuật toán được mô tả ở Bảng 2.9.

Trong đó, ký hiệu C là số thuộc tính của bộ dữ liệu ban đầu, B là số thuộc tính

của tập rút gọn. Kết quả ở Bảng 2.9 cho thấy, so với thuật toán FPDAR sử dụng

khoảng cách phân hoạch mờ theo tiếp cận filter, số thuộc tính tập rút gọn của thuật

toán đề xuất FW_FDAR nhỏ hơn nhiều, đặc biệt là đối với các bộ dữ liệu Horse,

Heart, Credit, German. Độ chính xác của FW_FDAR cao hơn FPDAR trên tất cả

các bộ dữ liệu. Do đó, hiệu năng và tính khái quát hóa của tập luật phân lớp trên tập

rút gọn của FW_FDAR cao hơn nhiều so với FPDAR. Với thuật toán filter-wrapper

FEBAR [91] sử dụng -entropy mờ, số lượng thuộc tính tập rút gọn của FW_FDAR

xấp xỉ FEBAR, độ chính xác phân lớp của FW_FDAR xấp xỉ FEBAR.

70

Như vậy, thuật toán đề xuất filter-wrapper FW_FDAR đáp ứng mục tiêu đặt ra

là giảm thiểu số thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của mô hình

mà vẫn cố gắng bảo toàn độ chính xác phân lớp (độ chính xác phân lớp còn cao hơn

các phương pháp filter) so với các thuật toán filter khác.

Bảng 2.9. Độ chính xác phân lớp FW_FDAR, FEBAR, FPDAR

STT Bộ dữ liệu

Độ chính xác

ban đầu

Thuật toán

FW_FDAR

Thuật toán

FEBAR [91]

Thuật toán

FPDAR [18]

C Độ

chính

xác

B Độ

chính

xác

B Độ

chính

xác

B Độ

chính

xác

1 Lympho 18 0.776±

0.008

4 0.768 ±

0.085

4 0.768 ±

0.085

6 0.722 ±

0.062

2 Wine 13 0.910 ±

0.066

5 0.893 ±

0.072

5 0.893 ±

0.072

7 0.886 ±

0.058

3 Libra 90 0.566 ±

0.137

7 0.658 ±

0.077

8 0.605 ±

0.103

26 0.556 ±

0.205

4 WDBC 30 0.924 ±

0.037

4 0.968 ±

0.058

3 0.952 ±

0.027

6 0.925 ±

0.644

5 Horse 22 0.829 ±

0.085

5 0.816 ±

0.052

4 0.802 ±

0.066

12 0.798 ±

0.058

6 Heart 13 0.744 ±

0.072

3 0.803 ±

0.074

3 0.803 ±

0.074

12 0.752 ±

0.055

7 Credit 15 0.826 ±

0.052

3 0.865 ±

0.028

2 0.846 ±

0.048

14 0.820 ±

0.078

8 German 20 0.692 ±

0.030

6 0.716 ±

0.029

5 0.702 ±

0.043

11 0.684 ±

0.024

9 Magic04 10 0.754±

0.020

4 0.750 ±

0.018

4 0.752 ±

0.025

6 0.748 ±

0.026

10 Page-blocks 10 0.826±

0.015

4 0.834 ±

0.026

5 0.822 ±

0.018

7 0.818 ±

0.026

2.3.5.4. Kết quả so sánh thời gian thực hiện

Bảng 2.10 mô tả thời gian thực hiện của các thuật toán tính bằng giây (s).

71

Bảng 2.10. Thời gian thực hiện FW_FDAR, FEBAR, FPDAR

STT Bộ dữ liệu

Thuật toán FW_FDAR Thuật toán FEBAR [91] Thuật

toán

FPDAR

[18]

Thủ

tục

Filer

Thủ tục

Wrapper

Tổng

cộng

Thủ

tục

Filer

Thủ tục

Wrapper

Tổng

cộng

1 Lympho 0.32 0.50 0.82 0.38 0.52 0.90 0.34

2 Wine 0.46 1.21 1.67 0.51 1.18 1.69 0.48

3 Libra 46.28 86.18 132,46 55.12 88.26 143.38 48.48

4 WDBC 20.15 8.74 28.89 26.38 8.22 34.60 22.32

5 Horse 4.85 2.68 7.53 5.26 2.65 7.91 4.98

6 Heart 1.22 1.52 2.74 1.45 1.78 3.23 1.26

7 Credit 16.58 3.42 20.00 19.26 3.98 23.24 18.02

8 German 52.48 8.64 61.12 71.22 8.28 79.50 54.65

9 Magic04 892.16 130.59 1022.75 997,48 131.27 1128.75 902.16

10 Page-blocks 96.54 22.26 118.80 109,72 23.08 132.80 98.28

Kết quả so sánh về thời gian thực hiện ở Bảng 2.10 cho thấy, thuật toán

FW_FDAR có thời gian thực hiện nhỏ hơn đáng kể thuật toán FEBAR [91], chủ

yếu là ở thủ tục filter tìm tập rút gọn. Nguyên nhân là thuật toán FEBAR phải tính

miền dương mờ để xác định hệ số , hơn nữa thuật toán FEBAR phải tính toán các

công thức logarit phức tạp trong công thức entropy Shannon. Tuy nhiên, các thuật

toán theo tiếp cận filter-wrapper FW_FDAR và FEBAR [91] có thời gian thực hiện

lớn hơn thuật toán theo tiếp cận filter FPDAR [18] vì phải thực hiện bộ phân lớp để

tính độ chính xác của các tập rút gọn xấp xỉ trong giai đoạn wrapper.

2.4. Kết luận chương 2

Chương 2 trình bày kết quả nghiên cứu về hướng tiếp cận lai ghép filter-

wrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính của tập rút gọn và

nâng cao độ chính xác của mô hình phân lớp. Bao gồm hai kết quả chính như sau

1) Đề xuất thuật toán filter F_FRSAR tìm tập rút gọn sử dụng độ phụ thuộc

mờ trong tập thô mờ, trên cơ sở đó đề xuất thuật toán filter-wrapper FW_FRSAR

72

tìm tập rút gọn sử dụng độ phụ thuộc mờ. Kết quả này được công bố trong các công

trình 1, 3, 6, phần “Danh mục các công trình của tác giả”.

2) Xây dựng độ đo khoảng cách mờ mới dựa trên khoảng cách phân hoạch

trong công trình [48]. Đề xuất thuật toán filter F_FDAR tìm tập rút gọn sử dụng

khoảng cách mờ được xây dựng, trên cơ sở đó đề xuất thuật toán filter-wrapper

FW_FDAR tìm tập rút gọn sử dụng khoảng cách mờ. Kết quả này được công bố

trong các công trình 2, 4, 5, phần “Danh mục các công trình của tác giả”.

Chương 2 tiến hành thực nghiệm các thuật toán trên các bộ dữ liệu thử

nghiệm từ kho dữ liệu UCI [103] nhằm đánh giá tính hiệu quả của các thuật toán so

với các thuật toán đã công bố trên các tiêu chí: số lượng thuộc tính tập rút gọn, độ

chính xác phân lớp và thời gian thực hiện. Kết quả thử nghiệm cho thấy, so với cá

thuật toán filter đã công bố, các thuật toán filter-wrapper đề xuất có số lượng thuộc

tính của tập rút gọn nhỏ hơn và độ chính xác phân lớp cao hơn, do đó giảm thiểu

đáng kể độ phức tạp của mô hình. Tuy nhiên thời gian thực hiện cao hơn do phải

thực hiện các bộ phân lớp.

Như vậy, các thuật toán filter-wrapper giảm thiểu đáng kể số lượng thuộc tính

tập rút gọn. Với các bài toán có số lượng thuộc tính lớn (high dimention data), ví dụ

trong linh vực tin sinh học, việc giảm thiểu số lượng thuộc tính có ý nghĩa quan

trọng vì giảm thiểu độ phức tạp của mô hình, do đó lựa chọn các thuật toán filter-

wrapper là phù hợp. Tuy nhiên, với các bảng có số thuộc tính nhỏ và có dữ liệu lớn,

việc chọn các thuật toán filter phù hợp hơn vì thời gian thực hiện nhỏ hơn.

73

Chương 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT

ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH MỜ

3.1. Mở đầu

Với sự tăng trưởng không ngừng về dung lượng dữ liệu, các bảng quyết định

ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc áp dụng các thuật toán

tìm tập rút gọn gặp nhiều thách thức. Trường hợp các bảng quyết định bị thay đổi

và cập nhật, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định sau

khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể. Trường hợp bảng

quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng quyết

định sẽ gặp khó khăn về thời gian thực hiện. Do đó, các nhà nghiên cứu đề xuất

hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Với trường hợp bảng quyết định

bị thay đổi, thuật toán gia tăng không tính lại tập rút gọn trên toàn bộ bảng quyết

định mà chỉ nhật lại tập rút gọn đã có dựa trên thành phần dữ liệu bị thay đổi. Với

trường hợp bảng quyết định có kích thước lớn, thuật toán gia tăng tìm tập rút gọn

trên một thành phần bị chia nhỏ, sau đó thực hiện cập nhật lại tập rút gọn khi bổ

sung các thành phần còn lại. Do đó, thuật toán gia tăng có khả năng giảm thiểu thời

gian thực hiện và có khả năng thực hiện trên các bảng quyết định kích thước lớn.

Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng

quyết định thay đổi theo tiếp cận tập thô truyền thống và tập thô dung sai khá sôi

động trong mấy năm gần đây. Các kết quả chính tập trung vào các hướng: các thuật

toán gia tăng tìm tập rút gọn trong trường hợp bổ sung và loại bỏ tập đối tượng [20,

24, 28, 36, 37, 49, 56, 65, 66, 86, 95, 96, 102]; các thuật toán gia tăng tìm tập rút

gọn trong trường hợp bổ sung và loại bỏ tập thuộc tính [24, 31, 54, 65, 83, 86, 87,

88, 89]. Trong các thuật toán này, các tác giả đều xây dựng các công thức gia tăng

tính toán độ đo. Sử dụng độ đo, các tác giả xây dựng các thuật toán gia tăng tìm tập

rút gọn theo tiếp cận heuristic. Các thuật toán này không tính lại tập rút gọn trên

toàn bộ bảng quyết định mà chỉ nhật lại tập rút gọn đã có dựa trên thành phần dữ

74

liệu bị thay đổi. Kết quả thực nghiệm cho thấy các thuật toán gia tăng giảm thiểu

đáng kể thời gian thực hiện so với các thuật toán không gia tăng.

Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán

gia tăng tìm tập rút gọn trên bảng quyết định thay đổi theo tiếp cận tập thô mờ.

Zeng và các cộng sự [15] đề xuất thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ

thuộc mờ trong trường hợp bổ sung và loại bỏ một thuộc tính (tương ứng là FRSA-

IFS-HIS-AA và FRSA-IFS-HIS-AD). Zeng và các cộng sự [15, 16] đề xuất thuật

toán gia tăng tính các tập xấp xỉ trên mờ, xấp xỉ dưới mờ (IUAFRS-VCAV và

IUAFRS-VDAV) trong trường hợp tập thuộc tính thay đổi. Yang và các cộng sự

[98] đề xuất thuật toán gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt

trong trường hợp bổ sung tập đối tượng. Yang và các cộng sự [99] đề xuất hai phiên

bản của thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung tập đối tượng:

thuật toán V-FS-FRS-1 và V-FS-FRS-2. Liu và các cộng sự [97] đề xuất thuật toán

gia tăng tìm tập rút gọn sử dụng độ phụ thuộc mờ FIAR.

Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có



hướng tiếp cận lọc truyền thống (filter). Trong đó, tập rút gọn tìm được là tập thuộc

tính tối thiểu bảo toàn độ đo được định nghĩa (độ phụ thuộc mờ, quan hệ phân

biệt…), việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập

rút gọn. Vì vậy, tập rút gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về

số lượng thuộc tính và độ chính xác phân lớp, nghĩa là tập rút gọn tìm được chưa

chắc có độ chính xác phân lớp tốt nhất.

Trong chương này, luận án trình bày công thức tính toán gia tăng khoảng cách

mờ (được đề xuất ở mục 2.3 chương 2) trong trường hợp bổ sung và loại bỏ tập đối

tượng. Dựa trên công thức tính toán gia tăng được xây dựng, luận án trình bày thuật

toán gia tăng filter-wrapper tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập

đối tượng. Phương pháp đề xuất có thời gian thực hiện nhỏ hơn đáng kể phương

pháp không gia tăng. Hơn nữa, phương pháp đề xuất theo tiếp cận filter-wrapper

75

nên tập rút gọn thu được có số lượng thuộc tính ít hơn và độ chính xác phân lớp cao

hơn các phương pháp gia tăng khác theo tiếp cận tập thô mờ đã công bố.

Kết quả nghiên cứu ở chương này được công bố ở công trình số 7, phần “Danh

mục các công trình của tác giả”.

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn xấp xỉ khi bổ

sung tập đối tượng

3.2.1. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng

3.2.1.1. Công thức gia tăng tính khoảng cách mờ khi bổ sung một đối tượng

Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là quan hệ

tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Theo Mệnh đề

2.5, khoảng cách phân hoạch mờ sinh bởi C và C D trên U là

2

1

1,

n

U C C D i i iC C Di

D R R x x xn


quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử

đối tượng x được bổ sung vào U . Khi đó, công thức tính gia tăng khoảng cách

phân hoạch mờ là:

2

2

2, ,

1 1U x C C D U C C D

C C D

nD R R D R R x x x

n n

Chứng minh:

Giả sử ij( )CU n nM R p

,

ij 1 1( )CU x n n

M R p

tương ứng là ma trận tương

đương mờ của CR trên U và U x với 1,1 1 1,2 2 1, 1 1/ / ... /n n n n nCx p x p x p x .

Giả sử ij( )U D n nM R d

,

ij 1 1( )DU x n n

M R d

tương ứng là ma trận tương

đương của D trên U và U x .

Khi đó ta có

1

2

1

1,

1

n

U x C C D i i iC C Di

D R R x x xn

76

1 1 12

1...

1n n nC C D C C D C C D

x x x x x x x x xn

1 1

1, 1, 1, , , ,2

1 1

1min , ... min ,

1

n n

i i i n i n i n i C C Di i

p p d p p d x x xn

1, 1, 1, , , ,2

1 1

1min , ... min ,

1

n n


p p d p p d x x xn

1, 1 1, 1 1, 1 , 1 , 1 , 1min , ... min ,n n n n n n n n np p d p p d

1, 1, 1, , , ,2

1 1

1min , ... min , 2*

1

n n


p p d p p d x x xn

Mặt khác, 1, 1, 1, , , ,

1 1 1

min , ... min ,n n n

i i i n i n i n i i i iC C Di i i

p p d p p d x x x

2 * ,U C C Dn D R R , do đó ta có:

2

2

2, ,

1 1U x C C D U C C D

C C D

nD R R D R R x x x

n n

3.2.1.2. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng

Trên cơ sở Mệnh đề 3.1, chúng tôi xây dựng công thức gia tăng tính khoảng

cách phân hoạch mờ trong trường hợp bổ sung tập đối tượng bởi Mệnh đề 3.2 như

sau:


quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử

tập đối tượng gồm s phần tử 1 2, ,...,n n n sU x x x được bổ sung vào U , với

ij ij( ) , ( )CU U U U Dn s n s n s n sM R p M R d

tương ứng là trận tương đương

mờ và ma trận tương đương trên C và D Khi đó, công thức tính gia tăng khoảng

cách phân hoạch mờ như sau:

2

2

1

2, ,

s

U U C C D U C C D n i n i n iC C Di

nD R R D R R x x x

n s n s

với 1

, 1 , 1 , 1min ,s

n i n j n i n j n i n j

j i

p p d

77

Chứng minh:

Ký hiệu 1 2, ,..., sD D D tương ứng là công thức tính khoảng cách phân hoạch mờ

khi thêm lần lượt các đối tượng 1 2, ,...,n n n sx x x

vào U, và 0D là khoảng cách phân

hoạch mờ trên tập đối tượng ban đầu U.

Khi bổ sung đối tượng 1nx vào U, ta có:

2

1 0 1 1 12

2

1 1n n nC C D

nD D x x x

n n

(3.1)

Ở đây, lớp tương đương mờ 1n Cx tính trên 1n đối tượng. Để tính toán trên

n s đối tượng sau khi bổ sung (tương ứng với ma trận quan hệ ( )CU UM R ), công

thức (3.1) trở thành:

2

1 0 1 1 1 12

2

1 1n n nC C D

nD D x x x

n n

2

2 1 2 2 2 22

1 2

2 2n n nC C D

nD D x x x

n n

2

0 1 1 1 1 2 2 2 22

2

2 2n n n n n nC C D C C D

nD x x x x x x

n n

Với

1 1, 2 1, 2 1, 2 1, 1, 1,min , ... min ,n n n n n n n n s n n s n n sp p d p p d

2 2, 3 2, 3 2, 3 2, 2, 2,min , ... min ,n n n n n n n n s n n s n n sp p d p p d

Tính tương tự như vậy ta được:

2

0 2

1

2 s

s n i n i n iC C Di

nD D x x x

n s n s

Với 1

, 1 , 1 , 1min ,s

n i n j n i n j n i n j

j i

p p d

78

3.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập đối

tượng


quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện,

B C là tập rút gọn dựa trên khoảng cách phân hoạch mờ. Giả sử tập đối tượng

gồm s phần tử 1 2, ,...,n n n sU x x x được bổ sung vào U . Khi đó ta có:

1) Nếu n iD x d với mọi 1..i s thì

2

2

1

2, ,

s

U U C C D U C C D n i n i n iC C Di

nD R R D R R x x x

n s n s

2) Nếu n i n iB Dx x với mọi 1..i s

thì , ,U U B B D U U C C DD R R D R R

Chứng minh.

Giả sử

( ) , ( )C BC BU U ij U U ijn s n s n s n s

M R p M R p tương ứng là ma

trận tương đương mờ trên C và B.

1) Nếu n iD x d với 1..i s thì với mọi 1.. , .. 1i s j i s ta có , 1 1n i n jd . Do

đó , 1 , 1 , 1min ,C C

n i n j n i n j n i n jp d p , từ Mệnh đề 3.2 ta có công thức 1).

2) Nếu n i n iB Dx x với mọi 1..i s

thì n i n i n iC B D

x x x , khi đó ta có

n i n i n iB D Bx x x và n i n i n iC D C

x x x , do đó 0n i n i n iB B Dx x x ,

1

0s

n i n i n iB B Di

x x x

và 0n i n i n iC C Dx x x ,

1

0s

n i n i n iC C Di

x x x

.

Hơn nữa, , 1 , 1 , 1 , 1 , 1 , 1min , , min ,B B C C

n i n j n i n j n i n j n i n j n i n j n i n jp d p p d p với

1.. , .. 1i s j i s . Từ Mệnh đề 3.2 ta có:

2

, ,U U B B D U B B D

nD R R D R R

n s

(*)

2

, ,U U C C D U C C D

nD R R D R R

n s

(**)

79

Mặt khác, do B là tập rút gọn của C nên ta có

, ,U B B D U C C DD R R D R R Từ (*) và (**) suy ra:

, ,U U B B D U U C C DD R R D R R

Dựa trên Mệnh đề 3.3, thuật toán gia tăng filter-wrapper tìm tập rút gọn sử

dụng khoảng cách phân hoạch mờ khi bổ sung tập đối tượng U được thực hiện

như sau:

Thuật toán IFW_FDAR_AdObj (Incremental Filter-Wrapper Algorithm for

Fuzzy Distance based Attribute Reduction When Add Objects).

Đầu vào:

1) Bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , quan hệ tương đương

mờ R , tập rút gọn B C , tập rút gọn xấp xỉ 0B C có độ chính xác phân

lớp tốt nhất

2) Các ma trận tương đương mờ

( ) , ( ) , ( )B CB C DU ij U ij U ij n nn n n n

M R p M R p M R d

3) Tập đối tượng bổ sung 1 2, ,...,n n n sU x x x

Đầu ra: Tập rút gọn xấp xỉ bestB của ' ,DS U U C D

ước 1: Khởi tạo

1. :T // Chứa các ứng viên tập rút gọn tốt nhất

2. Tính các ma trận tương đương mờ trên tập đối tượng U U

( ) , ( )B

B DU U ij U U ij n s n sn s n sM R p M R d

ước 2: Kiểm tra tập đối tượng bổ sung

3. Đặt :X U

4. For 1i to s do

5. If n i n iB Dx x then : n iX X x

6. If X then Return 0B // Tập rút gọn xấp xỉ không thay đổi

7. Đặt : ; :U X s U ; //Gán lại tập đối tượng

80

ước 3: Thực hiện thuật toán tìm tập rút gọn

8. Tính các khoảng cách phân hoạch mờ ban đầu

, ; ,U B B D U C C DD R R D R R

9. Tính khoảng cách phân hoạch mờ bởi công thức gia tăng;

, ; ,U U B B D U U C C DD R R D R R ;


10. While , ,U U B B D U U C C DD R R D R R do

11. Begin

12. Với mỗi a C B

13. Begin

14. Tính ,U U B a B a DD R R bởi công thức gia tăng;

15.

Tính

, ,U U B B D U U B a B a DBSIG a D R R D R R

16. End;

17. Chọn a C B sao cho B m Ba C B

SIG a Max SIG a

;

18.

: mB B a ;

19.

0 0: mB B a

20. 0:T T B ;

21. End;

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân lớp cao hất

22. Đặt :t T //t là số phần tử của T, T chứa các chuỗi thuộc tính được

chọn, nghĩa là 1 1 2 1 20 0 0, , ,..., , ,...,

ti i i i i iT B a B a a B a a a ;

23. Đặt 1 1 2 1 21 0 2 0 0: ; : , ;...; : , ,...,

ti i i t i i iT B a T B a a T B a a a

24. For j = 1 to t

25. Begin

26. Tính độ chính xác phân lớp trên jT bằng một bộ phân lớp sử dụng

81


27. End

28. :best joB T với joT có độ chính xác phân lớp lớn nhất.

Return bestB ;

Tiếp theo, chúng tôi đánh giá độ phức tạp của thuật toán IFW_FDAR_AdObj.

Giả sử D d và ký hiệu , ,C U U tương ứng là số thuộc tính điều kiện, số đối

tượng và số đối tượng bổ sung thêm. Độ phức tạp tính ma trận tương đương mờ ở

câu lệnh 2 trên U U là * *O B U U U . Độ phức tạp của vòng lặp For ở

câu lệnh số 4 là *O U U U .

Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 6 (tập rút gọn không

thay đổi). Khi đó, độ phức tạp thuật toán IFW_FDAR_AdObj là

* *O B U U U .

Ngược lại, độ phức tạp tính khoảng cách phân hoạch mờ theo công thức gia

tăng trong câu lệnh 9 là * *O C U U U . xét vòng lặp While từ câu lệnh 10

đến 21, để tính BSIG a ta phải tính ,U U B a B a dD R R vì

,U U B B dD R R đã được tính ở bước trước. Độ phức tạp tính gia tăng

,U U B a B a dD R R là *O U U U . Do đó, độ phức tạp của vòng lặp

While là 2

*O C B U U U và độ phức tạp của giai đoạn filter trong trường

hợp xấu nhất là 2

*O C B U U U . Độ phức tạp của giai đoạn wrapper phụ

thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ phức tạp của bộ

phân lớp là O T , khi đó độ phức tạp của giai đoạn wrapper là *O C B T . Vì

vậy, độ phức tạp của thuật toán IFW_FDAR_AdObj là

2

max * * , * * *O B U U U O C B U U U O C B T . Nếu thực hiện thuật

82

toán không gia tăng FW_FDAR trực tiếp trên bảng quyết định có số đối tượng

U U , theo mục 3.3 độ phức tạp của thuật toán FW_FDAR là

22

* *O C U U O C T . Do đó, thuật toán gia tăng IFW_FDAR_AdObj giảm

thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trong trường hợp U lớn

hoặc C lớn và B nhỏ.

3.2.3. Thực nghiệm thuật toán

3.2.3.1. Mục tiêu thử nghiệm

(1) Đánh giá tính hiệu quả về thời gian thực hiện của thuật toán gia tăng filter-

wrapper IFW_FDAR_AdObj với hai thuật toán không gia tăng FW_FDAR và

FEBAR [91]. FEBAR là thuật toán filter-wrapper tìm tập rút gọn sử dụng -entropy

mờ trong [91]. FW_FDAR là thuật toán filter-wrapper tìm tập rút gọn sử dụng

khoảng cách mờ trình bày trong chương 2. Mục tiêu này nhằm đánh giá tính hiệu

quả về thời gian của thuật toán gia tăng.

(2) Đánh giá tính hiệu quả về độ chính xác phân lớp của thuật toán gia tăng

filter-wrapper IFW_FDAR_AdObj với thuật toán gia tăng filter IV-FS-FRS-2 [99]

và thuật toán gia tăng filter IARM [98].

3.2.3.2. Dữ liệu thử nghiệm

Việc thử nghiệm được thực hiện trên 10 tập dữ liệu mẫu lấy từ kho dữ liệu

UCI [103] được mô tả ở Bảng 3.1. Với các thuộc tính a có miền giá trị thực, chúng

tôi chuẩn hóa miền dữ liệu về đoạn [0, 1] sử dụng công thức [99]

' min

max min

i

i

a x aa x

a a

(6)

với max(a), min(a) là giá trị lớn nhất, nhỏ nhất trên miền giá trị thuộc tính a với

ix U . Sử dụng quan hệ tương đương mờ aR trong [99] trên thuộc tính a như sau

, 1a i j i jR x x a x a x

với ,i jx x U (7)

Với các thuộc tính a C có miền giá trị định danh hoặc nhị phân (nominal hoặc

binary), chúng tôi sử dụng quan hệ tương đương aR , với ,i jx x U

83

1,

0,

i j

a

a x a xR

otherwise

(8)

Trên thuộc tính quyết định d chúng tôi sử dụng quan hệ tương đương d

R .

Phân hoạch

/d d

U R x x U với ( , ) 1

ddx y U R x y là một lớp tương

đương. Khi đó, lớp tương đương d

x được xem là lớp đương đương mờ, ký hiệu là

d

x , với hàm thuộc 1

dx

y nếu d

y x và 0

dx

y nếu d

y x .

Bảng 3.1. Bộ dữ liệu thử nghiệm thuật toán IFW_FDAR_AdObj

STT Bộ dữ

liệu Mô tả

Số

đối

tượng

Số

đối

tượng

ban

đầu

Số

đối

tượng

gia

tăng


Số

lớp

quyết

định

Tất

cả

Thuộc

tính định

danh

(nominal)

Thuộc

tính

thực

(Real-

valued)

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

1 Wine Wine 178 88 90 13 0 13 3

2 Libra Libras

movement

360 180 180 90 0 90 15

3 WDBC Wisconsin

diagnostic

breast cancer

569 284 285 30 0 30 2

4 Horse Horse colic 368 183 185 22 15 7 2

5 Heart Statlog

(heart)

270 135 135 13 7 6 2

6 Credit Credit

approval

690 345 345 15 9 6 2

7 German German

credit data

1000 500 5000 20 13 7 2

8 Cmc Contraceptive

Method

Choice

1473 733 740 9 7 2 3

9 Yeast Protein

Localization

Sites

1484 744 740 8 0 8 10

10 Wave Waveform 5000 2500 2500 21 0 21 3

84

3.2.3.2. Phương pháp, công cụ và môi trường thử nghiệm

Công cụ thực hiện lập trình các thuật toán là ngôn ngữ lập trình C# và công cụ

phân tích dữ liệu R.

Mỗi tập dữ liệu được chia thành hai phần xấp xỉ bằng nhau: tập dữ liệu ban

đầu (cột 5 Bảng 3.1) và tập dữ liệu gia tăng (cột 6 Bảng 3.1). Tập dữ liệu gia tăng

được chia thành 5 phần bằng nhau.

Để tiến hành thử nghiệm thuật toán gia tăng IFW_FDAR_AdObj, trước hết,

chúng tôi chạy thuật toán trên tập dữ liệu ban đầu (coi tập dữ liệu ban đầu là tập gia

tăng). Tiếp theo, chạy thuật toán khi lần lượt bổ sung từ phần thứ nhất đến phần thứ

năm của tập dữ liệu gia tăng

Với các thuật toán filter-wrapper IFW_FDAR_AdObj, FW_FDAR, FEBAR,

chúng tôi sử dụng bộ phân lớp CART (cây phân lớp, hồ quy) để tính độ chính xác

phân lớp trong bước tìm tập rút gọn có độ chính xác tốt nhất. Chúng tôi sử dụng

phương pháp kiểm tra chéo 10-fold, nghĩa là bộ dữ liệu được chia thành 10 phần

xấp xỉ bằng nhau, lấy ngẫu nhiên 1 phần làm bộ dữ liệu kiểm tra, 9 phần còn lại làm

dữ liệu huấn luyện. Quá trình được lặp lại 10 lần. Độ chính xác phân lớp được biểu

diễn bởi v trong đó v là giá trị độ chính xác trung bình (mean) của 10 lần lặp và

là sai số chuẩn (standard error).

Môi trường thử nghiệm là máy tính PC với cấu hình Intel(R) Core(TM) i7-

3770CPU @3.40 GHz, sử dụng hệ điều hành Windows 7, 32 bit.

3.2.3.3. So sánh thuật toán gia tăng IFW_FDAR_AdObj và hai thuật toán không gia

tăng: FW_FDAR, FE AR

Để đánh giá tính hiệu quả về thời gian thực hiện của thuật toán gia tăng, chúng

tôi sử dụng tỷ lệ giảm thiểu thời gian, ký hiệu là TTR, được tính như sau:

*100M

i

TTTR

T

với MT là thời gian thực hiện thuật toán gia tăng IFW_FDAR_AdObj,

iT là thời

gian thực hiện của thuật toán FW_FDAR, FEBAR.

85

Kết quả so sánh thời gian thực hiện ba thuật toán (tính bằng giây - s) được mô

tả ở Bảng 3.2. Trong đó, thời gian thực hiện thuật toán gia tăng IFW_FDAR_AdObj

là tổng thời gian thực hiện thuật toán trên tập dữ liệu ban đầu và khi lần lượt bổ

sung từng phần tập dữ liệu gia tăng. Thời gian thực hiện các thuật toán không gia

tăng FW_FDAR, FEBAR được tính trên toàn bộ tập dữ liệu gốc. Thời gian thực

hiện của ba thuật toán filter-wrapper bao gồm thời gian tìm ứng viên tập rút gọn

trong giai đoạn filter và thời gian chạy bộ phân lớp trong giai đoạn wrapper.

Kết quả thử nghiệm ở Bảng 3.2 cho thấy, với hai thuật toán filter-wrapper,

thời gian thực hiện thuật toán FW_FDAR nhỏ hơn so với thuật toán FEBAR trên tất

cả các tập dữ liệu. Thời gian thực hiện thuật toán gia tăng giảm thiểu đáng kể so với

hai thuật toán không gia tăng. Tính trung bình trên 10 tập dữ liệu, thời gian thực

hiện IFW_FDAR_AdObj chỉ bằng 8,19% thuật toán FW_FDAR và 7,43 thuật toán

FEBAR. Với các bộ số liệu lớn như Wave, thời gian thực hiện của

IFW_FDAR_AdObj chỉ bằng 1,44% so với FW_FDAR và 1,38% so với FEBAR.

Do đó, thuật toán gia tăng đặc biệt hiệu quả trên các tập dữ liệu kích thước lớn.

Thay vì tìm tập rút gọn trên toàn bộ tập dữ liệu, chúng ta chia nhỏ tập dữ liệu thành

nhiều phần, sau đó lần lượt thực hiện thuật toán gia tăng khi bổ sung từng phần.

Bảng 3.2. Thời gian thực hiện IFW_FDAR_AdObj, FW_FDAR, FEBAR (s)

STT Tập dữ liệu

IFW_FDAR

_AdObj FW_FDAR FEBAR [91]

Thời gian Thời gian TTR% Thời gian TTR%

1 Wine 0,22 1,67 13,17 1,70 12,94

2 Libra 6,78 132,46 5,11 143.38 4,72

3 WDBC 4.08 28,89 14,12 34.60 11,79

4 Horse 1,08 7,53 14,34 7.91 13,65

5 Heart 0.26 2,76 9,42 3.28 7,92

6 Credit 1,86 20,00 9,3 23.26 7,99

7 German 4.26 61,12 6,96 65.50 6,50

8 Cmc 3.22 84,42 3,81 92,42 3,48

86

9 Yeast 5.68 134,84 4,21 145,68 3,89

10 Wave 274.48 19.058,26 1,44 19.822,46 1,38

Trung bình 30,19 1953,19 8,19 2034,01 7,43

Bảng 3.3 trình bày kết quả về độ chính xác phân lớp của ba thuật toán theo tiếp

cận filter-wrapper. Trong đó, ký hiệu C là số thuộc tính của bộ dữ liệu ban đầu, B

là số thuộc tính của tập rút gọn. Kết quả của Bảng 3.3 cho thấy, độ chính xác phân

lớp của ba thuật toán theo tiếp cận filter-wrapper xấp xỉ nhau. Số lượng thuộc tính

của tập rút gọn của cả ba thuật toán cũng xấp xỉ nhau. Do đó, thuật toán gia tăng

không cải thiện về độ chính xác phân lớp so với các thuật toán không gia tăng. Mặt

khác, Bảng 3.3 cũng cho thấy độ chính xác phân lớp của cả ba thuật toán cao hơn

một chút trên hầu hết các tập dữ liệu so với độ chính xác phân lớp ban đầu. Điều đó

cho thấy các phương pháp rút gọn thuộc tính cố gắng bảo toàn hoặc cải thiện độ

chính xác phân lớp ban đầu.

Bảng 3.3. Độ chính xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR

STT Bộ dữ

liệu

Độ chính xác

ban đầu

Thuật toán

IFW_FDAR_AdObj

Thuật toán

FW_FDAR

Thuật toán

FEBAR [91]

C Độ

chính

xác

B Độ chính

xác

B Độ

chính

xác

B Độ chính

xác

1 Wine 13 0.910 ±

0.066

6 0.926 ±

0.072

5 0.902 ±

0.072

5 0.908 ±

0.058

2 Libra 90 0.566 ±

0.137

10 0.582 ±

0.077

8 0.605 ±

0.103

9 0.556 ±

0.205

3 WDBC 30 0.924 ±

0.037

6 0.932 ±

0.058

4 0.915 ±

0.027

6 0.925 ±

0.644

4 Horse 22 0.829 ±

0.085

5 0.806 ±

0.052

4 0.788 ±

0.066

4 0.836 ±

0.058

5 Heart 13 0.744 ±

0.072

5 0.812 ±

0.074

3 0.803 ±

0.074

3 0.782 ±

0.055

6 Credit 15 0.826 ±

0.052

4 0.865 ±

0.028

3 0.846 ±

0.048

4 0.820 ±

0.078

7 German 20 0.692 ± 6 0.716 ± 8 0.702 ± 8 0.725 ±

87

0.030 0.029 0.043 0.024

8 Cmc 9 0.426 ±

0.024

4 0.658 ±

0.072

4 0.672 ±

0.002

4 0.686 ±

0.012

9 Yeast 8 0.522 ±

0.045

4 0.506 ±

0.016

3 0.508 ±

0.012

3 0.508 ±

0.014

10 Wave 21 0.796 ±

0.058

8 0.812 ±

0.022

9 0.818 ±

0.048

9 0.806 ±

0.018

3.2.3.4. So sánh thuật toán gia tăng IFW_FDAR_AdObj với thuật toán gia tăng IV-

FS-FRS-2, IARM

Bảng 3.4 trình bày kết quả so sánh về thời gian thực hiện (tính bằng giây - s)

của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj so với hai thuật toán gia

tăng filter: IV-FS-FRS-2 [99] và IARM [98]. Về lý thuyết, thuật toán

IFW_FDAR_AdObj tính các công thức khoảng cách, đơn giản hơn các thuật toán

IV-FS-FRS-2, IARM tính các cặp đối tượng phân biệt. Tuy nhiên, thuật toán

IFW_FDAR_AdObj mất thêm chi phí thời gian thực hiện bộ phân lớp. Kết quả thử

nghiệm cho thấy, thời gian thực hiện của thuật toán IFW_FDAR_AdObj cao hơn

hai thuật toán IV-FS-FRS-2, IARM, đặc biệt là trên bộ dữ liệu kích thước lớn như

Wave.

Bảng 3.4. Thời gian thực hiện IFW_FDAR_AdObj, IV-FS-FRS-2, IARM

STT Tập dữ liệu

Thời gian

IFW_FDAR_A

dObj

Thời gian

IV-FS-FRS-2

[99]

Thời gian

IARM [98]

1 Wine 0,22 0,18 0,16

2 Libra 6,78 5,76 5,08

3 WDBC 4.08 3,35 3,12

4 Horse 1,08 0.82 0,86

5 Heart 0.26 0,22 0,22

6 Credit 1,86 1,18 1,15

7 German 4.26 3,84 3,46

8 Cmc 3.22 2,72 2,96

88

9 Yeast 5.68 4,68 4,22

10 Wave 274.48 238,64 226,26

Trung bình 30,19 26,13 24,749

Bảng 3.5 trình bày kết quả so sánh về độ chính xác phân lớp và số lượng thuộc

tính tập rút gọn của ba thuật toán. Từ Bảng 3.5 ta thấy, thuật toán filter-wrapper

IFW_FDAR_AdObj có độ chính xác phân lớp cao hơn đáng kể so với hai thuật toán

filter là IV-FS-FRS-2, IARM trên hầu hết các tập dữ liệu, vì thuật toán

IFW_FDAR_AdObj luôn chọn tập rút gọn có độ chính xác phân lớp tốt nhất. Hơn

nữa, số thuộc tính tập rút gọn của thuật toán IFW_FDAR_AdObj nhỏ hơn nhiều hai

thuật toán IV-FS-FRS-2 và IARM. Do đó, thời gian thực hiện và tính khái quát hóa

của tập luật phân lớp trên tập rút gọn của thuật toán IFW_FDAR_AdObj tốt hơn so

với hai thuật toán IV-FS-FRS-2 và IARM.

Như vậy, thuật toán đề xuất filter-wrapper IFW_FDAR_AdObj đáp ứng mục

tiêu đặt ra là giảm thiểu số thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của

mô hình mà vẫn cố gắng bảo toàn độ chính xác phân lớp (độ chính xác phân lớp còn

cao hơn các phương pháp filter) so với các thuật toán gia tăng khác theo tiếp cận

filter.

Bảng 3.5. Độ chính xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM

STT Bộ dữ

liệu

Độ chính xác

ban đầu

Thuật toán

IFW_FDAR_AdObj

Thuật toán

IV-FS-FRS-2

[57]

Thuật toán

IARM [56]

C Độ

chính

xác

B Độ chính

xác

B Độ

chính

xác

B Độ

chính

xác

1 Wine 13 0.910 ±

0.066

6 0.926 ±

0.072

7 0.906

± 0.016

7 0.902 ±

0.056

2 Libra 90 0.566 ±

0.137

10 0.582 ±

0.077

51 0.502±

0.020

48 0.517±

0.014

3 WDBC 30 0.924 ± 6 0.932 ± 24 0.895± 16 0.892±

89

0.037 0.058 0.012 0.014

4 Horse 22 0.829 ±

0.085

5 0.806 ±

0.052

12 0.788±

0.048

12 0.764±

0.023

5 Heart 13 0.744 ±

0.072

5 0.812 ±

0.074

10 0.766±

0.058

11 0.772±

0.014

6 Credit 15 0.826 ±

0.052

4 0.865 ±

0.028

13 0.828±

0.014

14 0.826±

0.014

7 German 20 0.692 ±

0.030

6 0.716 ±

0.029

12 0.688±

0.032

11 0.690±

0.015

8 Cmc 9 0.426 ±

0.024

4 0.658 ±

0.072

9 0.489±

0.042

9 0.482±

0.012

9 Yeast 8 0.522 ±

0.045

4 0.506 ±

0.016

7 0.502±

0.012

7 0.502±

0.012

10 Wave 21 0.796 ±

0.058

8 0.812 ±

0.022

17 0.784±

0.016

21 0.702±

0.024

3.3. Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối

tượng

Trong phần này, chúng tôi trình bày thuật toán filter-wrapper tìm tập rút gọn

sử dụng khoảng cách phân hoạch mờ khi loại bỏ tập đối tượng theo hướng tiếp cận

tính toán gia tăng. Trước hết, chúng tôi xây dựng các công thức cập nhật khoảng

cách phân hoạch mờ khi loại bỏ một đối tượng và tập đối tượng

3.3.1. Công thức cập nhật khoảng cách mờ khi loại bỏ tập đối tượng

3.3.3.1. Cập nhật khoảng cách phân hoạch mờ khi loại bỏ một đối tượng


quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử

đối tượng kx U bị loại bỏ khỏi U. Khi đó, công thức tính khoảng cách phân hoạch

mờ như sau:

2

2

2, ,

1 1kU x C C D U C C D k k kC C D

nD R R D R R x x x

n n

(4)

90

với , , ,kU C C D U x C C DD R R D R R tương ứng là khoảng cách phân

hoạch mờ trên tập đối tượng ,U U x .

Chứng minh:

Giả sử ( ), ( )C CU U x

M R M R

tương ứng là ma trận tương đương mờ của CR trên

U và kU x , khi đó ta có:

2

1,

1,

1k

n

U x C C D i i iC C Di i k

D R R x x xn

1 1 1 1 1 12

1...

1k k kC C D C C D

x x x x x xn

1 1 1 ...k k k n n nC C D C C Dx x x x x x

1, 1, 1, , , , , , ,2

1, 1, 1,

1min , ... min , min ,

1

n n n

i i i n i n i n i k i k i k i

i i k i i k i i k

p p d p p d p p dn

1, 1, 1, , , , , , ,2

1 1, 1

1min , ... min , 2* min ,

1

n n n

i i i n i n i n i k i k i k i

i i i

p p d p p d p p dn

2

2

1* , 2*

1C C DU k k kC C D

n D R R x x xn

2

2

2,

1 1U C C D k k kC C D

nD R R x x x

n n

3.3.3.2. Cập nhật khoảng cách phân hoạch mờ khi loại bỏ tập đối tượng

Trên cơ sở Mệnh đề 3.4, chúng tôi xây dựng công thức cập nhật khoảng

cáchphân hoạch mờ trong trường hợp loại bỏ tập đối tượng bởi Mệnh đề 3.5 như

sau:


quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử

tập đối tượng gồm s phần tử 1 1, ,...,k k k sU x x x bị loại khỏi U , s n , với

ij ij( ) , ( )CU U U U Dn s n s n s n sM R p M R d

tương ứng là trận tương đương

91

mờ và ma trận tương đương trên C và D Khi đó, công thức cập nhật khoảng cách

phân hoạch mờ như sau:

2 1

2

0

2, ,

s

U U C C D U C C D k i k i k iC C Di

nD R R D R R x x x

n s n s

(5)

với , , ,

0

min ,i

k i k j k i k j k i k j

j

p p d

Chứng minh:

Ký hiệu 1 2, ,..., sD D D tương ứng là công thức tính khoảng cách phân hoạch

mờ khi loại bỏ lần lượt các đối tượng 1 1, ,...,k k k sx x x

khỏi U, và 0D là khoảng cách

phân hoạch mờ trên tập đối tượng ban đầu U. Áp dụng mệnh đề 8 ta có:

2

1 0 , , ,2

2min ,

1 1k k k k k k k k kC C D

nD D x x x p p d

n n

2

2 1 1 1 12

1 2

2 2k k kC C D

nD D x x x

n n

1, 1, 1, 1, 1 1, 1 1, 1min , min ,k k k k k k k k k k k kp p d p p d

2

2 0 , , ,2

2min ,

2 2k k k k k k k k kC C D

nD D x x x p p d

n n

1 1 1 1, 1, 1, 1, 1 1, 1 1, 1min , min ,k k k k k k k k k k k k k k kC C Dx x x p p d p p d

Tính tương tự như vậy ta được:

2 1

0 , , ,2

0 0

2min ,

s i

s k i k i k i k i k j k i k j k i k jC C Di j

nD D x x x p p d

n s n s

Vì vậy:

2 1

0 2

0

2 s

s k i k i k iC C Di

nD D x x x

n s n s

với , , ,

0

min ,i

k i k j k i k j k i k j

j

p p d

92

3.3.2. Thuật toán filter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng


quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện,

B C là tập rút gọn dựa trên khoảng cách phân hoạch mờ. Giả sử tập đối tượng

gồm s phần tử 1 1, ,...,k k k sU x x x bị loại khỏi U , s n , Khi đó ta có:

1) Nếu k iD x d với mọi 0.. 1i s thì

2 1

2

0

2, ,

s

U U C C D U C C D k i k i k iC C Di

nD R R D R R x x x

n s n s

2) Nếu k i k iB Dx x với mọi 0..i s

thì


Chứng minh.

Giả sử

( ) , ( )C BC BU U ij U U ijn s n s n s n s

M R p M R p tương ứng là ma

trận tương đương mờ trên C và B sau khi xóa tập đối tượng U

1) Nếu k iD x d với 0.. 1i s thì với mọi 0.. 1, .. 2i s j i s ta có

, 1 1k i k jd . Do đó , 1 , 1 , 1min ,C C

n i n j n i n j n i n jp d p , từ Mệnh đề 3.5 ta có công thức

1).

2) Nếu k i k iB Dx x với mọi 0.. 1i s

thì k i k i k iC B D

x x x , khi đó ta có

k i k i k iB D Bx x x và k i k i k iC D C

x x x , do đó 0k i k i k iB B Dx x x ,

1

0

0s

k i k i k iB B Di

x x x

và 0k i k i k iC C Dx x x ,

1

0

0s

k i k i k iC C Di

x x x

.

Hơn nữa, , 1 , 1 , 1 , 1 , 1 , 1min , , min ,B B C C

k i k j k i k j k i k j k i k j k i k j k i k jp d p p d p với

0.. 1, .. 2i s j i s . Từ Mệnh đề 3.5 ta có:

2

, ,U U B B D U B B D

nD R R D R R

n s

(*)

2

, ,U U C C D U C C D

nD R R D R R

n s

(**)

93

Mặt khác, do B là tập rút gọn của C nên ta có

, ,U B B D U C C DD R R D R R Từ (*) và (**) suy ra:


Dựa trên Mệnh đề 3.6, thuật toán filter-wrapper cập nhật tập rút gọn xấp xỉ có

độ chính xác phân lớp tốt nhất sử dụng khoảng cách phân hoạch mờ khi loại bỏ tập

đối tượng U được thực hiện như sau:

Thuật toán UFW_FDAR_DelObj (Updated Filter-Wrapper Algorithm for Fuzzy

Distance based Attribute Reduction when Delete Objects).

Đầu vào:

1) Bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , quan hệ tương đương

mờ R , tập rút gọn B C , tập rút gọn xấp xỉ 0B C có độ chính xác phân lớp

tốt nhất

2) Các ma trận tương đương mờ

( ) , ( ) , ( )B CB C DU ij U ij U ij n nn n n n

M R p M R p M R d

3) Tập đối tượng loại bỏ 1 2 1, ,...,k k k sU x x x gồm s đối tượng với s n

Đầu ra: Một tập rút gọn xấp xỉ bestB của ' ,DS U U C D có độ chính xác phân

lớp tốt nhất.

1. :T // Chứa các ứng viên của tập rút gọn xấp xỉ

2. Đặt :X U

3. For 0i to 1s do

4. If k i k iB Dx x then : k iX X x

5. If X then Return 0B // Tập rút gọn không thay đổi

6. Đặt : ;U X s U ; //Gán lại tập đối tượng

7. Tính các khoảng cách phân hoạch mờ ban đầu:

, ; ,U B B D U C C DD R R D R R

8. Tính khoảng cách phân hoạch mờ bởi Mệnh đề 9 khi loại U :

94

, ; ,U U B B D U U C C DD R R D R R ;


9. While , ,U U B B D U U C C DD R R D R R do

10. Begin

11. For each a B do

12. Begin

13. Tính ,U U B a B a DD R R bởi công thức gia tăng;

14.

Tính : , ,U U B a B a D U U B B DB aSIG a D R R D R R

15. End;

16. Chọn ma B sao cho B m B aa B

SIG a Min SIG a

;

17.

: mB B a ;

18.

0 0: mB B a

19. 0: ;T T B

20. End;


21. Đặt :t T //t là số phần tử của T, T chứa các chuỗi thuộc tính được

chọn, nghĩa là 1 1 2 1 20 0 0, , ,..., , ,...,

ti i i i i iT B a B a a B a a a ;

22. Đặt 1 1 2 1 21 0 2 0 0: ; : , ;...; : , ,...,

ti i i t i i iT B a T B a a T B a a a

23. For j = 1 to t

24. Begin

25. Tính độ chính xác phân lớp trên jT bằng một bộ phân lớp sử dụng


26. End

27. :best joB T với joT có độ chính xác phân lớp cao nhất.

Return bestB ;

95

Tiếp theo, chúng tôi đánh giá độ phức tạp của thuật toán

UFW_FDAR_DelObj. Giả sử D d và ký hiệu , ,C U U tương ứng là số thuộc

tính điều kiện, số đối tượng và số đối tượng bị loại bỏ khỏi U. Độ phức tạp của

vòng lặp For ở câu lệnh số 3 là *O U U .

Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 5 (tập rút gọn không

thay đổi). Khi đó, độ phức tạp thuật toán UFW_FDAR_DelObj là *O U U .

Ngược lại, độ phức tạp tính khoảng cách phân hoạch mờ ban đầu ở câu lệnh số

7 là O U . Xét vòng lặp While từ câu lệnh 9 đến 20, độ phức tạp tính khoảng cách

phân hoạch mờ khi xóa U trong câu lệnh 8 là *O U U . Để tính B aSIG a

ta

phải tính ,U U B a B a dD R R vì ,U U B B dD R R đã được tính ở bước

trước. Độ phức tạp tính ,U U B a B a dD R R là *O U U . Do đó, độ phức

tạp của vòng lặp While là 2* *O B U U . Do đó, độ phức tạp của giai đoạn filter

trong trường hợp xấu nhất là 2* *O B U U . Độ phức tạp của giai đoạn wrapper

phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ phức tạp của

bộ phân lớp là O T , khi đó độ phức tạp của giai đoạn wrapper là *O B T . Vì vậy,

độ phức tạp của thuật toán UFW_FDAR_DelObj là 2* * *O B U U O B T .

Nếu thực hiện thuật toán FW_FDAR trực tiếp trên bảng quyết định có số đối

tượng U U , theo mục 3.3 độ phức tạp của thuật toán FW_FDAR là là

22*O C U U . Do đó, nếu U

nhỏ, thuật toán theo tiếp cận tính toán gia tăng

UFW_FDAR_DelObj tốt hơn thuật toán FW_FBAR. Tuy nhiên, nếu U

lớn và

B

lớn thì việc tính lại tập rút gọn trực tiếp sau khi xóa tập đối tượng tỏ ra hiệu quả

hơn về thời gian thực hiện.

96

3.4. Kết luận chương 3

Trong chương 3, luận án xây dựng công thức gia tăng tính khoảng cách mờ

trong trường hợp bổ sung, loại bỏ tập đối tượng. Khoảng cách mờ được đề xuất ở

chương 2. Dựa trên công thức gia tăng tính khoảng cách phân hoạch mờ, luận án đề

xuất hai thuật toán gia tăng filter-wrapper:

1) Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn

trong trường hợp bổ sung tập đối tượng.

2) Thuật toán gia tăng filter-wrapper UFW_FDAR_DelObj tìm tập rút gọn

trong trường hợp loại bỏ tập đối tượng.

Luận án tiến hành thực nghiệm các thuật toán trên các bộ dữ liệu mẫu từ kho

dữ liệu UCI [61] để đánh giá tính hiệu quả của thuật toán gia tăng filter- wrapper

IFW_FDAR_AdObj. So với hai thuật toán không gia tăng filter-wrapper

FW_FDAR và FEBAR [91], thuật toán IFW_FDAR_AdObj giảm thiểu đáng kể

thời gian thực hiện. So với hai thuật toán gia tăng filter IV-FS-FRS-2 [99] và

IARM [98], thuật toán IFW_FDAR_AdObj có độ chính xác phân lớp cao hơn, số

thuộc tính của tập rút gọn ít hơn, do đó giảm thiểu đáng kể về độ phức tạp của mô

hình. Tuy nhiên, thuật toán IFW_FDAR_AdObj có thời gian thực hiện lớn hơn vì

phải tính toán các bộ phân lớp.

Các kết quả nghiên cứu ở Chương 3 được công bố trong công trình 7, phần

“Danh mục công trình của tác giả”.

97

KẾT LUẬN

1) Những kết quả chính của luận án:

Luận án nghiên cứu hướng tiếp cận filter-wrapper tìm tập rút gọn của bảng quyết

định nhằm giảm thiểu số lượng thuộc tính tập rút gọn, từ đó giảm thiểu độ phức tạp của

mô hình phân lớp. Kết quả của luận án bao gồm:


theo tiếp cận tập thô mờ: Thuật toán FW_FRSAR sử dụng độ phụ thuộc mờ và Thuật

toán FW_FDAR sử dụng khoảng cách mờ. Khoảng cách mờ được đề xuất là mở

rộng của khoảng cách trong công trình [48]. Kết quả thử nghiệm trên các bộ số liệu

mẫu từ kho dữ liệu UCI [103] cho thấy, cả hai thuật toán đề xuất đều giảm thiểu đáng

kể số lượng thuộc tính tập rút gọn và nâng cao độ chính xác phân lớp so với các thuật

toán filter đã công bố, từ đó giảm thiểu độ phức tạp của mô hình phân lớp. Với thuật

toán filter-wrapper FEBAR [91] được công bố gần đây, thuật toán đề xuất

FW_FDAR hiệu quả hơn FEBAR về thời gian thực hiện.

2) Đề xuất hai thuật toán gia tăng filter-wrapper: Thuật toán

IFW_FDAR_AdObj tìm tập rút gọn trong trường hợp bổ sung tập đối tượng và

Thuật toán UFW_FDAR_DelObj tìm tập rút gọn trong trường hợp loại bỏ tập đối

tượng. Cả hai thuật toán đều sử dụng khoảng cách mờ đề xuất. Kết quả thử nghiệm

trên các bộ số liệu mẫu từ kho dữ liệu UCI [103] cho thấy, thuật toán đề xuất

IFW_FDAR_AdObj giảm thiểu số lượng thuộc tính tập rút gọn và nâng cao độ chính

xác phân lớp so với các thuật toán gia tăng đã công bố, từ đó giảm thiểu độ phức tạp

của mô hình phân lớp.

2) Hướng phát triển của luận án:

(1). Tiếp tục nghiên cứu, đề xuất các thuật toán gia tăng filter-wrapper tìm tập

rút gọn theo tiếp cận tập thô mờ trong trường hợp bổ sung, loại bỏ tập thuộc tính

(2). Tiếp tục nghiên cứu, đề xuất các thuật toán gia tăng filter-wrapper tìm tập

rút gọn theo tiếp cận tập thô mờ trong trường hợp cập nhật tập đối tượng, cập nhật

tập thuộc tính

98

Danh mục các công trình của tác giả

1 Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Như Sơn, “Về phương

pháp rút gọn thuộc tính trong bảng quyết định với miền trị thuộc tính nhận

giá trị số theo tiếp cận tập thô mờ”, Chuyên san Các công trình nghiên cứu,

phát triển và ứng dụng CNTT&TT, Tạp chí thông tin khoa học công nghệ của

Bộ thông tin và Truyền thông, Tập V-2, số 16 (36), 12-2016, Tr 40-49.

2 Nguyen Van Thien, Janos Demetrovics, Vu Duc Thi, Nguyen Long Giang,

Nguyen Nhu Son, “A Method to Construct an Extension of Fuzzy

Information Granularity Based on Fuzzy Distance”, Serdica Journal of

Computing 10 (2016), Sofia, Bulgarian Academy of Sciences, No 1, 2016,

pp. 13-30.

3 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về một phương

pháp rút gọn thuộc tính trong bảng quyết định có miền giá trị liên tục theo

tiếp cận tập thô mờ”, Kỷ yếu Hội thảo quốc gia lần thứ XVIII: Một số vấn đề

chọn lọc của Công nghệ thông tin và truyền thông-TP HCM,05-06/11/2015.

4 Nguyễn Văn Thiện, Nguyễn Như Sơn, Nguyễn Long Giang, Cao Chính

Nghĩa, “Về một phương pháp xây dựng độ phân hạt mờ mở rộng dựa trên

khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX - Một số vấn đề

chọn lọc của CNTT và TT, Hà Nội, 01-02/10/2016, Tr. 371-376.

5 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về phương

pháp rút gọn thuộc tính trực tiếp trên bảng quyết định sử dụng khoảng cách

mờ”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và

ứng dụng CNTT (FAIR’9), Cần Thơ, 04-05/08/2016, Tr. 825-835.

6 Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son , “Fuzzy Partition

Distance based Attribute Reduction in Decision Tables”, IJCRS'2018:

International Joint Conference on Rough Sets 2018, Quy Nhon, Viet Nam,

August 20-24, 2018 (Accepted).

7 Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Phương pháp

gia tăng rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách mờ”,

Hội thảo Quốc gia lần thứ XXI - Một số vấn đề chọn lọc của CNTT và TT,

Thanh Hóa, 27-28/07/2018, Tr. 296- 302.

http://www.bas.bg/

99

Tài liệu tham khảo

Tài liệu tiếng Việt

[1] Cao Chính Nghĩa, “Nghiên cứu các phương pháp rút gọn thuộc tính và sinh

luật quyết định theo tiếp cận tập thô mờ”, Luận án Tiến sĩ Kỹ thuật, Học viện

Công nghệ Bưu chính Viễn thông, 2018.

[2] Cao Chính Nghĩa, Vũ Đức Thi, Tân Hạnh, Nguyễn Long Giang (2016), “Rút

gọn thuộc tính của bảng quyết định sử dụng miền dương mờ”, Tạp chí Khoa

học Công nghệ thông tin và Truyền thông, Học viện Công nghệ Bưu chính

viễn thông, số 2, tr. 3-10.

[3] Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh, “Fuzzy

distance based attribute reduction in decision tables”, Journal on Information

Communications Technology, Research and Development on Information &

Communications Technology, Vietnam, Vol. V-2, No. 16 (36), pp. 104-111,

2016.

[4] Hoàng Thị Lan Giao, “Khía cạnh đại số và lôgic phát hiện luật theo tiếp cận

tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2007.

[5] Nguyễn Đức Thuần, “Phủ tập thô và độ đo đánh giá hiệu năng tập luật quyết

định”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2010.

[6] Nguyễn Long Giang, “Nghiên cứu một số phương pháp khai phá dữ liệu theo

tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công nghệ thông

tin, 2012.

[7] Nguyễn Thị Lan Hương, “Rút gọn thuộc tính trong bảng quyết định động theo

tiếp cận tập thô”, Luận án Tiến sĩ Toán học, Viện Công nghệ thông tin, 2017.

[8] Nguyễn Long Giang, Cao Chính Nghĩa, Nguyễn Quang Huy, Nguyễn Thị Lan

Hương, Nguyễn Ngọc Cương, Trần Anh Tú, Về một độ đo khoảng cách mờ và

ứng dụng rút gọn thuộc tính trong bảng quyết định, Kỷ yếu Hội thảo Quốc gia

lần thứ XX - Một số vấn đề chọn lọc của CNTT và TT, Quy Nhơn, 23-

24/11/2017, Tr. 404-409.

100

[9] Nguyễn Long Giang, Nguyễn Thanh Tùng, Vũ Đức Thi, Một phương pháp

mới rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric,

Tạp chí Tin học và Điều khiển học, T.28, S.2, 2012, tr. 129-140.

[10] Nguyen Long Giang, Nguyen Thi Lan Huong, Metric Based Attribute

Reduction in Incomplete Information Systems, Kỷ yếu Hội thảo Quốc gia lần

thứ XV “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”,

Hà Nội 11/2012, 2013, Tr. 185-190.

[11] Phùng Thị Hiền, “Nghiên cứu rút gọn thuộc tính trong hệ thông tin quyết định

giá trị tập”, Luận án Tiến sĩ Toán học, Học viện Kỹ thuật quân sự, 2014.

[12] Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tạo, Nguyễn Long Giang,

Phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử

dụng khoảng cách phân hoạch, Các công trình nghiên cứu, phát triển và

ứng dụng CNTT&TT, Tạp chí CNTT&TT, Tập V-2, số 14(34), 12-2015,

Trang 23-32.

[13] Vũ Văn Định, “Rút gọn thuộc tính trong bảng quyết định không đầy đủ theo

tiếp cận tập thô dung sai”, Luận án Tiến sĩ Toán học, Viện Công nghệ thông

tin, 2016.

Tài liệu tiếng Anh

[14] Anoop Kumar Tiwari , Shivam Shreevastava, Tanmoy Som, K.K. Shukla,

“Tolerance-based intuitionistic fuzzy-rough set approach for attribute

reduction”, Expert Systems With Applications 101, pp. 205–212, 2018.

[15] A.P. Zeng, T.R. Li, D. Liu, J.B. Zhang, H.M. Chen, “A fuzzy rough set

approach for incremental feature selection on hybrid information systems”,

Fuzzy Sets and Systems, Volume 258, pp. 39-60, 1 January 2015.

[16] A.P. Zeng , T.R. Li, J. Hu, H.M. Chen, Chuan Luo, “Dynamical updating

fuzzy rough approximations for hybrid data under the variation of attribute

values”, Information Sciences 000, pp. 1-26, 2016.

https://www.sciencedirect.com/science/journal/01650114

https://www.sciencedirect.com/science/journal/01650114/258/supp/C

101

[17] B.W. Xu, Y.M. Zhou, H.M. Lu, “An improved accuracy measure for rough

sets”, J. Comput. Syst. Sci., vol. 71, pp. 163-173, 2005.

[18] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi,

“About a fuzzy distance between two fuzzy partitions and attribute reduction

problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-

28, 2016.

[19] C. Arunkumar, S. Ramakrishnan, “Attribute Selection using fuzzy roughset

based customized similarity measure for lung cancer microarray gene

expression data”, Future Computing and Informatics Journal, In Press, 2018.

[20] C.S. Zhang, R.J. Jing, Y.H. Tan, “An Improved Incremental Updating

Algorithm for Core Based on Positive Region”, Journal of Computational

Information Systems 7: 9, pp. 3127-3133, 2011.

[21] C.Z. Wang, Y.L. Qi, M.W. Shao, Q.H. Hu, D.G. Chen, Y.H. Qian, Y.J. Lin,

“A Fitting Model for Feature Selection with Fuzzy Rough Sets”, IEEE

Transactions on Fuzzy Systems, Volume: 25, Issue: 4, Page(s): 741-753, Aug.

2017.

[22] D. Dübois, H. Prade, “Rough fuzzy sets and fuzzy rough sets”, International

Journal of General Systems 17, pp.191-209, 1990.

[23] D. Dubois, H. Prade, “Putting rough sets and fuzzy sets together”, Intelligent

Decision Support, Kluwer Academic Publishers, Dordrecht, 1992.

[24] Demetrovics Janos, Nguyen Thi Lan Huong, Vu Duc Thi, Nguyen Long

Giang, “Metric Based Attribute Reduction Method in Dynamic Decision

Tables”, Cybernetics and Information Technologies, Vol.16, No.2, pp. 3-15,

2016.

[25] Demetrovics Janos, Vu Duc Thi, Nguyen Long Giang, “A Distance-based

Method for Attribute Reduction in Incomplete Decision Systems”, Serdica

Journal of Computing 7, No 4, pp. 355-374, 2013.


https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=91


https://ieeexplore.ieee.org/xpl/tocresult.jsp?isnumber=8000698

102

[26] D.G. Chen, Q. H. Hu and Y. P. Yang, “Parameterized attribute reduction with

Gaussian kernel based fuzzy rough sets”, Information Sciences, vol. 181, no.

23, pp. 5169-5179, 2011.

[27] D.G. Chen, L. Zhang, S. Y. Zhao, Q. H. Hu, P. F. Zhu, “A novel algorithm for

finding reducts with fuzzy rough sets”, IEEE Transaction on Fuzzy Systems,

vol. 20, no.2, pp. 385-389, 2012.

[28] D.G. Chen, Y. Yang, Z. Dong, “An incremental algorithm for attribute

reduction with variable precision rough sets”, Appl. Soft Comput., vol. 45, pp.

129-149, 2016.

[29] D.G. Chen, E.C.C. Tsang, S.Y. Zhao, “An approach of attributes reduction

based on fuzzy TL rough sets”, IEEE International Conference on Systems,

Man and Cybernetics, pp. 486-491, 2007.

[30] D.G. Chen, S. Y. Zhao, “Local reduction of decision system with fuzzy rough

sets”, Fuzzy Sets and Systems 161, pp. 1871-1883, 2010.

[31] D. Liu, T. Li, J.B. Zhang, “Incremental updating approximations in

probabilistic rough sets under the variation of attributes”, Knowledge-Based

Systems 73, pp. 81-96 , 2015.

[32] D. Yu, Q. Hu, C. Wu, “Uncertainty measures for fuzzy relations and their

applications”, Applied soft computing 7 (3), pp. 1135–1143, 2007.

[33] D. Yu, S. An, Q. Hu, “Fuzzy mutual information based min-redundancy and

max-relevance heterogeneous feature selection”, International Journal of

Computational Intelligence Systems 4(4), pp. 619–633, 2011.

[34] E.C.C. Tsang, D.G. Chen, D.S. Yeung, X.Z. Wang, J.W.T. Lee, “Attributes

reduction using fuzzy rough sets”, IEEETrans. Fuzzy Syst. 16, pp.1130-1141,

2008.

[35] E.C.C. Tsang, X.Q. Fan, X.F. Li, S.Y. Zhao, “Weights based ranked fuzzy

rough reduction”, International Conference on Machine Learning and

Cybernetics (ICMLC), IEEE, 2017.

http://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.Chen,%20D.G..QT.&newsearch=true

http://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.Tsang,%20E.C.C..QT.&newsearch=true

http://ieeexplore.ieee.org/xpl/mostRecentIssue.jsp?punumber=4413560

https://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.Eric%20C.C.%20Tsang.QT.&newsearch=true

https://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.Zhao%20Suyun.QT.&newsearch=true

https://ieeexplore.ieee.org/xpl/mostRecentIssue.jsp?punumber=8095149

103

[36] F. Hu, G.Y. Wang, H. Huang, Y. Wu, “Incremental attribute reduction based

on elementary sets”, Proceedings of the 10th International Conference on

Rough Sets, Fuzzy Sets, Data Mining and Granular Computing, Regina,

Canada, pp. 185-193, 2005.

[37] F. Hu, J. Dai, G.Y. Wang, "Incremental algorithms for attribute reduction in

decision tables," Control Decis., vol. 22, no. 3, pp. 268, 2012.

[38] F. Wang, J.Y. Liang, Y.H. Qian, “Attribute reduction: A dimension

incremental strategy”, Knowledge-Based Systems, Volume 39, pp. 95-108,

2013.

[39] F. Wang, J.Y. Liang, C.Y. Dang, “Attribute reduction for dynamic data sets”,

Applied Soft Computing, 13(1), pp. 676-689, 2013.

[40] F. Xu, D. Miao, L. Wei, “An Approach for Fuzzy-Rough Sets Attributes

Reduction via Mutual Information”, In FSKD (3), pp. 107-112, 2007.

[41] F. Xu, D.Q. Miao, L. Wei, “Fuzzy-rough attribute reduction via mutual

information with an application to cancer classification”, Computers and

Mathematics with Applications 57, pp. 1010 -1017, 2009.

[42] G.C.Y. Tsang, D.G. Chen, E.C.C. Tsang, J.W.T. Lee, D.S. Yeung, “On

attributes reduction with fuzzy rough sets”, IEEE International Conference on

Systems, Man and Cybernetics, 2005.

[43] Guyon, Isabelle; Elisseeff, André, “An Introduction to Variable and Feature

Selection”, Journal of Machine Learning Research, pp. 1157-1182, 2003.

[44] H. Liu, L. Yu, “Toward integrating feature selection algorithms for

classification and clustering”, IEEE Transactions on knowledge and data

engineering, 17(4), pp. 491-502, 2005.

[45] J.H. Dai, Q. Xu, “Attribute selection based on information gain ratio in fuzzy

rough set theory with application to tumor classification”, Applied Soft

Computing 13, pp. 211-221, 2013.

http://www.sciencedirect.com/science/journal/09507051

http://www.sciencedirect.com/science/journal/09507051/39/supp/C

https://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.G.C.Y.%20Tsang.QT.&newsearch=true

https://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.%20Chen%20Degang.QT.&newsearch=true

https://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.E.C.C.%20Tsang.QT.&newsearch=true

https://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.J.W.T.%20Lee.QT.&newsearch=true

https://ieeexplore.ieee.org/search/searchresult.jsp?searchWithin=%22Authors%22:.QT.D.S.%20Yeung.QT.&newsearch=true


http://jmlr.csail.mit.edu/papers/v3/guyon03a.html

http://jmlr.csail.mit.edu/papers/v3/guyon03a.html

104

[46] J.H. Dai, H. Hu, W.Z. Wu,Y.H. Qian, D.B. Huang, “Maximal Discernibility

Pairs Based Approach to Attribute Reduction in Fuzzy Rough Sets”, IEEE

Transactions on Fuzzy Systems, 30 October 2017.

[47] J.H. Dai, Y.J. Yan, Z.W. Li, B.S. Liao, “Dominance-based fuzzy rough set

approach for incomplete interval-valued data”, Journal of Intelligent & Fuzzy

Systems 34, pp. 423-436, 2018.

[48] J.Y. Liang, R. Li, Y. H. Qian, “Distance: A more comprehensible perspective

for measures in rough set theory”, Knowledge-Based Systems, Volume 27, pp.

126-136, 2012.

[49] J.Y. Liang, F. Wang, C.Y. Dang, Y.H. Qian, “A group incremental approach

to feature selection applying rough set technique”, IEEE Transactions on

Knowledge and Data Engineering, 26(2), pp. 294-308, 2014.

[50] J. Y. Liang, Z. Z. Shi, D. Y. Li, M. J. Wierman, “The information entropy,

rough entropy and knowledge granulation in incomplete information system”,

Int. J. Gen. Syst., vol. 35, no. 6, pp. 641-654, 2006.

[51] J.Y. Liang, Z.Z. Shi, “The information entropy, rough entropy and knowledge

granulation in rough set theory”, Int. J. Uncertain., Fuzziness Knowl.-Based

Syst., vol. 12, no. 1., pp. 37-46, 2004.

[52] J. Y. Liang, Y. H. Qian, “Information granules and entropy theory”, Sci.

China., Ser. F, vol. 51, no. 10, pp. 1427-1444, 2008.

[53] J. Y. Liang, Z. Z. Shi, D. Y. Li, and M. J. Wierman, “The information entropy,

rough entropy and knowledge granulation in incomplete information system,”

Int. J. Gen. Syst., vol. 35, no. 6, pp. 641–654, 2006.

[54] J. Zhang, T. Li, D. Ruan, “Rough sets based matrix approaches with dynamic

attribute variation in set-valued information systems”, Int. J. Approx. Reason,

Vol.53, pp. 620-635, 2012.

[55] J. Zhao, Z. Zhang, C. Han, Z. Zhou, “Complement information entropy for

uncertainty measure in fuzzy rough set and its applications”, Soft Computing

19(7), pp. 1997-2010, 2015.




http://refhub.elsevier.com/S0020-0255(14)00968-2/h0275



105

[56] L.H Guan, “An incremental updating algorithm of attribute reduction set in

decision tables”, FSKD'09 Proceedings of the 6th international conference on

Fuzzy systems and knowledge discovery, Vol 2, pp. 421-425, 2009.

[57] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”,

Federated Conference on Computer Science and Information System

(FEDCSIS), Wroclaw, Poland, IEEE, pp. 311-316, 2012.

[58] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction

in Incomplete Decision Tables”, Proceedings of 14th International

Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing,

RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science,

SpingerLink, Vol. 8170, pp. 99-110, 2013.

[59] L.W. Wang, Omar A. M. Salem, “An improved Fuzzy Mutual Information

Feature Selection for Classification Systems”, IEEE/ACIS 16th International

Conference on Computer and Information Science (ICIS), 2017.

[60] L. Zadeh, “Fuzzy logic equals computing with words,” IEEE Trans. Fuzzy

Syst., vol. 4, no. 2, pp. 103-111, 1996.

[61] M.J. Wierman, “Measuring uncertainty in rough set theory”, Int. J. Gen.Syst.,

vol. 28, no. 4, pp. 283-297, 1999.

[62] M. Kryszkiewicz, “Rough set approach to incomplete information systems”,

Information Science, Vol. 112, pp. 39-49, 1998.

[63] M. M. Deza, E. Deza, “Encyclopedia of Distances”, Springer, 2009.

[64] M.R. CHMIELEWSKI, J.W. GRZYMALABUSSE, “Global discretization of

continuous attributes as preprocessing for machine learning”, Int. J. Approx.

reasoning 15 (4), pp. 319-331, 1996.

[65] Nguyen Thi Lan Huong, Nguyen Long Giang, “Incremental algorithms based

on metric for finding reduct in dynamic decision tables”, Journal on Research

and Development on Information & Communications Technology, Vol.E-3,

No.9 (13), pp. 26-39, 2016.

http://dx.doi.org/10.1007/978-3-642-41218-9_11

http://dx.doi.org/10.1007/978-3-642-41218-9_11

http://www.springer.com/series/558



106

[66] N. Li, J.Y. Xie, “A feature subset selection algorithm based on neighborhood

rough set for incremental updating datasets”, Computer Technology and

Development, vol. 21, no.11, pp. 149-155, 2011.

[67] N. Long, D. Gianola, K.A. Weigel, “Dimension reduction and variable

selection for genomic selection : application to predicting milk yield in

Holsteins”, Journal of Animal Breeding and Genetics. 128 (4), pp. 247–257,

2011.

[68] Pradipta Maji, Partha Garai, “On fuzzy-rough attribute selection: Criteria of

Max-Dependency, Max-Relevance, Min-Redundancy, and Max-Significance”,

Applied Soft Computing 13, pp. 3968-3980, 2013.

[69] Q. He, C.X. Wu, D.G Chen, S.Y. Zhao, “Fuzzy rough set based attribute

reduction for information systems with fuzzy decisions”, Knowledge-Based

Systems 24, pp. 689-696, 2011.

[70] Q.H. Hu, D.R. Yu, Z.X. Xie, J. F. Liu, “Fuzzy probabilistic approximation

spaces and their information measures”, IEEE Transaction on Fuzzy Systems,

vol. 14, no. 2, pp. 191-201, 2006.

[71] Q.H. Hu, D.R. Yu, Z.X. Xie, “Information-preserving hybrid data reduction

based on fuzzy-rough techniques”, Pattern Recognit. Lett. 27(5), pp. 414–423,

12-2006.

[72] Q.H. Hu, Z.X. Xie, D.R. Yu, “Hybrid attribute reduction based on a novel

fuzzy-rough model and information granulation”, Pattern Recognition 40, pp.

3509-3521, 2007.

[73] Q.H. Hu , L. Zhang , D.G. Chen , W. Pedrycz , D.R. Yu , “Gaussian kernel

based fuzzy rough sets: Model, uncertainty measures and applications”, Int. J.

Approx. Reason. 51, pp. 453-471, 2010.

[74] Q.H. Hu, Z.X. Xie, D.R. Yu, “Comments on fuzzy probabilistic

approximations spaces and their information measures”, IEEE Trans. Fuzzy

Syst.16, pp. 549-551, 2008.

107

[75] Q.H. Hu, D.R. YU, “Entropies of fuzzy indiscrenibility relation and its

operations”, International Journal of Uncertainty, Fuzziness and Knowledge-

Based Systems, Vol. 12 Iss. 5, pp. 575-589, 2005.

[76] Q. Shen, R. Jensen, “Selecting informative features with fuzzy-rough sets and

its application for complex systems monitoring”, Pattern Recognition 37, pp.

1351 – 1363, 2004.

[77] R. Jensen, Q. Shen, “Semantics-preserving dimensionality reduction: rough

and fuzzy-rough-based approaches”, IEEE Trans. Knowl. Data Eng. 16(12),

pp. 1457-1471, 2004.

[78] R. Jensen, Q. Shen, “Fuzzy-rough attribute reduction with application to web

categorization”, Fuzzy Sets Syst. 141, pp. 469-485, 2004.

[79] R. Jensen, Q. Shen, “Fuzzy-rough sets assisted attribute reduction”, IEEE

Trans. Fuzzy Syst. 15(1), pp. 73-89, 2007.

[80] R. Jensen, Q. Shen, “New approaches to fuzzy-rough feature selection”, IEEE

Trans. Fuzzy Syst. 17(4), pp. 824-838, 2009.

[81] R.B. Bhatt, M. Gopal, “On fuzzy-rough sets approach to feature selection”,

Pattern Recognit. Lett. 26, pp. 965-975, 2005.

[82] R.B. Bhatt, M. Gopal, “On the compact computational domain of fuzzy rough

sets”, Pattern Recognition Lett. 26, pp.1632-1640, 2005.

[83] S. Li, T. Li, D. Liu, “Incremental updating approximations in dominance-

based rough sets approach under the variation of the attribute set”, Knowledge-

Based Systems, Vol.40, pp. 17-26, 2013.

[84] Soumen Ghosh , P.S.V.S. Sai Prasad(B), C. Raghavendra Rao, “Third Order

Backward Elimination Approach for Fuzzy-Rough Set Based Feature

Selection”, International Conference on Pattern Recognition and Machine

Intelligence, PreMI 2017: Pattern Recognition and Machine Intelligence, pp.

254-262, 2017.

[85] T.K. Sheeja, A. Sunny Kuriakose, “A novel feature selection method using

fuzzy rough sets”, Computers in Industry 97, pp. 111-116, 2018.

https://link.springer.com/conference/premi

https://link.springer.com/conference/premi

https://link.springer.com/book/10.1007/978-3-319-69900-4

108

[86] W.H. Shu, W.B. Qian, “An incremental approach to attribute reduction from

dynamic incomplete decision systems in rough set theory”, Data &

Knowledge Engineering 100, pp. 116-132, 2015.

[87] W.H. Shu, H. Shen, “Updating attribute reduction in incomplete decision

systems with the variation of attribute set”, International Journal of

Approximate Reasoning, vol. 55, no.3, pp. 867-884, 2014.

[88] W. Shu, H. Shen, “Incremental feature selection based on rough set in

dynamic incomplete data”, Pattern Recognit., vol. 47, no. 12, pp. 3890-3906,

2014.

[89] W. Wei, X.Y. Wu, J.Y. Liang, J.B. Cui, Y.J. Sun, “Discernibility matrix based

incremental attribute reduction for dynamic data”, Knowledge-Based Systems,

Volume 140, pp. 142-157, 15 January 2018.

[90] X. Zhang, C.L. Mei, D.G. Chen, Y.Y. Yang, “A fuzzy rough set-based feature

selection method using representative instances”, Knowledge-Based Systems,

27 March 2018, In Press.

[91] X. Zhang, C.L. Mei, D. G. Chen, J. Li, “Feature selection in mixed data: A

method using a novel fuzzy rough set-based information entropy”, Pattern

Recognition 56, pp. 1-15, 2016.

[92] Y.H. Qian, Q. Wang, H.H. Cheng, J.Y. Liang, C.Y. Dang, “Fuzzy-rough

feature selection accelerator”, Fuzzy Sets and Systems 258, pp. 61-78, 2015.

[93] Y.H. Qian., J.Y. Liang, W.Z. Wu, C.Y. Dang, “Information Granularity in

Fuzzy Binary GrC Model”, IEEE Trans. Fuzzy Syst. 19, No 2, pp. 253-264,

2011.

[94] Y. H. Qian, J. Y. Liang, W. Z. Wu, and C. Y. Dang, “Information granularity

in fuzzy binary GrC model”, IEEE Trans. Fuzzy Syst., vol. 19, no. 2, 253-264,

2011.

[95] Y. Jing., T. Li, C. Luo, S.J. Horng, G. Wang, Z. Yu, “An incremental

approach for attribute reduction based on knowledge granularity”,

Knowledge-Based Systems, Vol.104, 2016, pp. 24-38.

https://www.sciencedirect.com/science/article/pii/S0950705117305026#!








https://www.sciencedirect.com/science/journal/aip/09507051

109

[96] Y. Ming, “An incremental updating algorithm for attribute reduction based on

improved discernibility matrix” Chinese Journal of Computers, 30(5), pp.

815-822 , 2007.

[97] Y.M. Liu, S.Y. Zhao, H. Chen, C.P. Li, Y.M. Lu, “Fuzzy Rough Incremental

Attribute Reduction Applying Dependency Measures”, APWeb-WAIM

2017: Web and Big Data, pp 484-492, 2017.

[98] Y.Y. Yang, D.G. Chen, H. Wang, Eric C.C.Tsang, D.L. Zhang, “Fuzzy rough

set based incremental attribute reduction from dynamic data with sample

arriving”, Fuzzy Sets and Systems, Volume 312, 1, Pages 66-86, April 2017.

[99] Y.Y. Yang, D.G. Chen, H. Wang, X.H. Wang, “Incremental perspective for

feature selection based on fuzzy rough sets”, IEEE TRANSACTIONS ON

FUZZY SYSTEMS, TFS-2016-0916, 27 June 2017.

[100] Y.W. Li , S.X. Wu , Y.J. Lin, J.H. Liu, “Different classes’ ratio fuzzy rough

set based robust feature selection”, Knowledge-Based Systems 000 , pp. 1-13,

2016.

[101] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data, Kluwer

Academic Publisher, London, 1991.

[102] Z.T. Liu, "An incremental attribute arithmetic for the smallest reduction of

attributes", Acta Electronoca Sinica, vol. 27, no. 11, pp. 96-98, 1999.

[103] The UCI machine learning repository,

http://archive.ics.uci.edu/ml/datasets.html.

https://link.springer.com/book/10.1007/978-3-319-63579-8



http://archive.ics.uci.edu/ml/datasets.html

Documents

MỘT SỐ PHƢƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC …gust.edu.vn/media/26/uftai-ve-tai-day26334.pdf · hiện lâu nay. Các phương pháp rút gọn thuộc tính theo