Tải bản đầy đủ

Rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết tập thô

BỘ GIÁO DỤC VÀ ĐÀO TẠO
NGUY ỄN HẢI NAM

VIỆN ĐẠI HỌC MỞ HÀ NỘI

CÔNG NGHỆ THÔNG TIN

LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT
ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ

NGUYỄN HẢI NAM

KHÓA 2
HÀ NỘI - 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN ĐẠI HỌC MỞ HÀ NỘI


LUẬN VĂN THẠC SỸ
RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT
ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ

NGUYỄN HẢI NAM

CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60.48.02.018


NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. NGUYỄN LONG GIANG

HÀ NỘI - 2016

LỜI CAM ĐOAN
Tác giả xin cam đoan rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý
thuyết tập thô được trình bày trong luận văn này là do tác giả thực hiện dưới sự hướng
dẫn của TS. Nguyễn Long Giang. Tất cả những tham khảo từ các nghiên cứu liên quan
đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong luận
văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người
khác mà không chỉ rõ về tài liệu tham khảo.
Hà Nội, ngày 15 tháng 11 năm 2016
Tác giả

Nguyễn Hải Nam


LỜI CẢM ƠN
Trước hết tôi xin gửi lời cảm ơn chân thành đến tập thể thầy cô trường Viện Đại
học Mở Hà Nội đã quan tâm tổ chức và giảng dạy khóa cao học công nghệ thông tin và
tạo môi trường thuận lợi cho chúng tôi được học tập và nghiên cứu chuyên sâu về lĩnh
vực Công nghệ thông tin.
Tôi xin cảm ơn bạn bè và đồng nghiệp đã động viên, giúp đỡ cũng như tạo điều
kiện thuận lợi cho tôi trong quá trình thực hiện luận văn.
Đặc biệt tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn khoa học
TS. Nguyễn Long Giang đã tận tình chỉ bảo, hướng dẫn cho tôi trong quá trình nghiên
cứu và thực hiện luận văn.
Cuối cùng, tôi biết ơn gia đình đã tạo mọi điều kiện thuận lợi cho tôi yên tâm


trong suốt thời gian nghiên cứu và hoàn thành luận văn cao học này.
Hà Nội, ngày 15 tháng 11 năm 2016
Tác giả

Nguyễn Hải Nam


MỤC LỤC
MỤC LỤC ......................................................................................................................................................3
Danh mục các thuật ngữ................................................................................................................................7
Danh sách bảng...............................................................................................................................................8
MỞ ĐẦU ........................................................................................................................................................9
Chương 1. TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ .................................................................. 12
1.1. Hệ thông tin .............................................................................................................. 12
1.2. Mô hình tập thô ........................................................................................................ 12
1.3. Bảng quyết định........................................................................................................ 15
1.4. Tập rút gọn và tập lõi ............................................................................................... 15
1.5. Ma trận phân biệt và hàm phân biệt......................................................................... 17
Chương 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG
KHOẢNG CÁCH .............................................................................................................. 19
2.1. Tổng quan về rút gọn thuộc tính và trích lọc luật trong bảng quyết định............... 19
2.1.1. Tổng kết, phân nhóm các phương pháp rút gọn thuộc tính............................. 19
2.1.2. Luật quyết định và các độ đo đánh giá hiệu năng ........................................... 23
2.1.3. So sánh, đánh giá các phương pháp rút gọn thuộc tính................................... 27

2.2. Rút gọn thuộc tính trong bảng quyết định sử dụng khoảng cách ........................... 29
2.2.1. Xây dựng độ đo khoảng cách .......................................................................... 30
2.2.2. Xây dựng khoảng cách giữa hai tri thức và các tính chất ............................... 31
2.2.3. Xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách .................. 34
2.2.4. Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách ................ 39

Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................................ 40


3.1. Nhiệm vụ của thử nghiệm ........................................................................................ 40
3.2. Lựa chọn công cụ và cài đặt thử nghiệm ................................................................. 40
3.2.1. Thuật toán tìm tập rút gọn sử dụng entropy Liang.......................................... 40
3.2.2. Lựa chọn công cụ và cài đặt ............................................................................ 42

3.3. Kết quả thử nghiệm .................................................................................................. 42
3.3.1. Số liệu thử nghiệm .......................................................................................... 42
3.3.2. Môi trường thử nghiệm ................................................................................... 43
3.3.3. Kết quả thử nghiệm ......................................................................................... 43
3.3.4. Kết quả thử nghiệm về trích lọc luật theo tiếp cận tập thô ............................. 47

3.4. Ứng dụng trong bài toán chuẩn đoán bệnh viêm gan ............................................. 50
3.4.1. Phát biểu bài toán ............................................................................................ 50
3.4.2. Mô tả dữ liệu ................................................................................................... 50
3.4.3. Kết quả thực hiện ............................................................................................ 51

KẾT LUẬN ................................................................................................................................................. 56
Tài liệu tham khảo ....................................................................................................................................... 57


Danh mục các thuật ngữ
Thuật ngữ tiếng Việt

Thuật ngữ tiếng Anh

Tập thô

Rough Set

Hệ thông tin

Information System

Bảng quyết định

Decision Table

Quan hệ không phân biệt được

Indiscernibility Relation

Xấp xỉ dưới

Lower Approximation

Xấp xỉ trên

Upper Approximation

Rút gọn thuộc tính

Attribute Reduction

Tập rút gọn

Reduct

Tập lõi

Core

Luật quyết định

Decision Rule

Khoảng cách

Distance


Danh sách bảng
Bảng 1.1. Bảng thông tin về bệnh cúm ...............................................................................14
Bảng 1.2. Bảng quyết định về bệnh cúm..............................................................................16
Bảng 2.1. Các phương pháp rút gọn thuộc tính trong tài liệu [1, 2] ..................................20
Bảng 2.2. Bảng quyết định về các xe hơi .............................................................................24
Bảng 2.3. Bảng quyết định minh họa thuật toán tìm tập rút gọn ...........................................37
Bảng 3.1. Các bộ số liệu thử nghiệm kích thước vừa và nhỏ ..............................................42
Bảng 3.2. Các bộ số liệu kích thước lớn ..............................................................................42
Bảng 3.3. Kết quả thực hiện Thuật toán EBAR và Thuật toán DBAR .................................46
Bảng 3.4. Tập rút gọn của Thuật toán EBAR và Thuật toán DBAR ...................................46
Bảng 3.5. Kết quả thực hiện Thuật toán EBAK và Thuật toán DBAK ................................47
trên các bộ số liệu lớn ..........................................................................................................47
Bảng 3.6. Tập rút gọn tốt nhất của bộ số liệu Soybean-small ............................................49
Bảng 3.7. Các luật phân lớp trên bảng quyết định rút gọn sử dụng tập thô .......................49


MỞ ĐẦU
Lý thuyết tập thô - do Zdzislaw Pawlak [7] đề xuất vào những năm đầu thập
niên tám mươi của thế kỷ hai mươi - được xem là công cụ hữu hiệu để giải quyết
các bài toán phân lớp, phát hiện luật…chứa dữ liệu không đầy đủ, không chắc
chắn. Từ khi xuất hiện, lý thuyết tập thô đã được sử dụng hiệu quả trong các
bước của quá trình khai phá dữ liệu và khám phá tri thức, bao gồm tiền xử lý số
liệu, khai phá dữ liệu và đánh giá kết quả thu được. Rút gọn thuộc tính và trích
lọc luật quyết định (luật phân lớp) là hai ứng dụng chính của lý thuyết tập thô
trong khai phá dữ liệu. Rút gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu còn
trích lọc luật thuộc giai đoạn khai phá dữ liệu. Mục tiêu của rút gọn thuộc tính là
loại bỏ các thuộc tính dư thừa nhằm tím tập con nhỏ nhất của tập thuộc tính điều
kiện (tập rút gọn) mà bảo toàn thông tin phân lớp của bảng quyết định. Dựa trên
tập rút gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất.
Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu về rút gọn thuộc tính trong
bảng quyết định theo tiếp cận lý thuyết tập thô đã thu hút đông đảo cộng đồng
nghiên cứu về tập thô tham gia [1]. Có rất nhiều phương pháp rút gọn thuộc tính
khác nhau đã được đề xuất sử dụng các độ đo khác nhau. Các phương pháp điển
hình được tổng kết trong tài liệu [1] là: phương pháp dựa trên miền dương,
phương pháp dựa trên ma trận phân biệt, các phương pháp sử dụng độ đo entropy
trong lý thuyết thông tin, các phương pháp sử dụng độ đo trong tính toán hạt, các
phương pháp sử dụng độ đo khoảng cách…
Với mong muốn tổng hợp các kết quả nghiên cứu về các phương pháp rút
gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô, trên cơ sở đó xây
dựng phương pháp sử dụng một độ đo khoảng cách, luận văn đặt ra hai mục tiêu
chính sau đây:
1) Tổng hợp các phương pháp rút gọn thuộc tính và trích lọc luật trong bảng
quyết định theo tiếp cận lý thuyết tập thô trong tài liệu [1, 2], bao gồm:
- Phân nhóm các phương pháp rút gọn thuộc tính và mối liên hệ giữa các
phương pháp dựa vào định nghĩa tập rút gọn.


- Trích lọc luật trong bảng quyết định, bao gồm: luật quyết định và các độ
đo đánh giá hiệu năng, sự thay đổi các độ đo đánh giá hiệu năng trên các tập rút
gọn và đánh giá các phương pháp dựa trên tiêu chuẩn chất lượng phân lớp (độ hỗ
trợ) của tập luật.
2) Xây dựng và thử nghiệm phương pháp rút gọn thuộc tính sử dụng độ đo
khoảng cách, bao gồm: xây dựng độ đo khoảng cách và công thức tính khoảng
cách giữa hai tập thuộc tính; định nghĩa tập rút gọn và độ quan trọng của thuộc
tính dựa trên khoảng cách; xây dựng thuật toán heuristic tìm một tập rút gọn tốt
nhất sử dụng khoảng cách; phân nhóm và đánh giá phương pháp sử dụng khoảng
cách với các phương pháp đã có và thử nghiệm phương pháp trên các bộ số liệu
mẫu từ kho dữ liệu UCI [12]. Trên cơ sở đó, luận văn thử nghiệm phương pháp
với bài toán thực tiễn là chuẩn đoán bệnh viêm gan.
Đối tượng nghiên cứu của luận văn là các bảng quyết định với kích thước
trung bình và kích thước lớn.
Phạm vi nghiên cứu của luận văn tập trung vào bài toán rút gọn thuộc tính
ở bước tiền xử lý số liệu và trích lọc luật ở bước khai phá dữ liệu trong quá trình
khai phá dữ liệu và khám phá tri thức.
Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên
cứu thực nghiệm. Về nghiên cứu lý thuyết: các mệnh đề được chứng minh chặt
chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố. Về
nghiên cứu thực nghiệm: luận văn thực hiện cài đặt các thuật toán, chạy thử
nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI [12], so sánh và đánh
giá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết, từ đó kết luận tính
đúng đắn của kết quả nghiên cứu.
Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo.
Chương 1 trình bày các khái niệm cơ bản về lý thuyết tập thô của Pawlak [8]
được sử dụng trong chương 2 và chương 3.


Chương 2 trình bày hai nội dung chính, thứ nhất là tổng kết các công bố về
các phương pháp rút gọn thuộc tính và trích lọc luật, bao gồm phân nhóm các
phương pháp rút gọn thuộc tính, luật quyết định và các độ đo đánh giá hiệu năng,
sự thay đổi các độ đo đánh giá hiệu năng trên các tập rút gọn của các phương pháp,
đánh giá các phương pháp dựa vào chất lượng phân lớp (độ hỗ trợ) của tập luật.
Thứ hai là xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách, bao
gồm xây dựng độ đo khoảng cách, định nghĩa tập rút gọn và độ quan trọng của
thuộc tính dựa trên khoảng cách, xây dựng thuật toán heuristic tìm một tập rút
gọn tốt nhất sử dụng khoảng cách; phân nhóm và đánh giá phương pháp sử dụng
khoảng cách với các phương pháp đã có.
Chương 3 trình bày kết quả thử nghiệm và đánh giá phương pháp sử dụng
khoảng cách trên các bộ số liệu mẫu từ kho dữ liệu UCI [12] nhằm sáng tỏ các
kết quả nghiên cứu về lý thuyết. Trên cơ sở đó, luận văn thử nghiệm phương
pháp với bài toán thực tiễn là chuẩn đoán bệnh viên gan, bao gồm rút gọn
thuộc tính và trích lọc luật.
Cuối cùng, phần kết luận nêu những đóng góp của luận văn, hướng phát
triển tiếp theo.


Chương 1. TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ
Chương này trình bày các khái niệm cơ bản về lý thuyết tập thô do Pawlak
[8] đề xuất. Các khái niệm cơ bản này là kiến thức nền tảng để sử dụng cho các
chương sau của luận văn.
1.1. Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm p
cột ứng với p thuộc tính và n hàng ứng với n đối tượng. Một cách hình thức, hệ
thông tin được định nghĩa như sau.
Định nghĩa 1.1. Hệ thông tin là IS = (U , A) trong đó U là tập hữu hạn, khác rỗng
các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính.
Với mọi u ∈U , a ∈ A , ta ký hiệu giá trị thuộc tính a tại đối tượng u là a ( u )
thay vì f ( u, a ) . Nếu B = {b1 , b2 ,..., bk } ⊆ A là một tập con các thuộc tính thì ta ký
hiệu bộ các giá trị bi ( u ) bởi B ( u ) . Như vậy, nếu u và v là hai đối tượng, thì ta viết
B ( u ) = B ( v ) nếu bi ( u ) = bi ( v ) với mọi i = 1,..., k .

Xét hệ thông tin IS = (U , A) . Mỗi tập con các thuộc tính P ⊆ A xác định một
quan hệ hai ngôi trên U, ký hiệu là IND ( P ) , xác định bởi

{

}

IND ( P ) = ( u , v ) ∈ U × U ∀a ∈ P, a ( u ) = a ( v ) .

IND ( P ) là quan hệ P-không phân biệt được. Dễ thấy rằng IND ( P ) là một quan

hệ tương đương trên U. Nếu ( u, v ) ∈ IND ( P ) thì hai đối tượng u và v không phân biệt
được bởi các thuộc tính trong P. Quan hệ tương đương IND ( P ) xác định một phân
hoạch trên U, ký hiệu là U / IND ( P ) hay U / P . Ký hiệu lớp tương đương trong phân
hoạch U / P chứa đối tượng u là [u ]P , khi đó [u ]P = {v ∈U ( u, v ) ∈ IND ( P )} .
1.2. Mô hình tập thô
Cho hệ thông tin IS = (U , A) và tập đối tượng X ⊆ U . Với một tập thuộc tính
B ⊆ A cho trước, chúng ta có các lớp tương đương của phân hoạch U / B , thế thì


một tập đối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế
nào?
Trong lý thuyết tập thô, để biểu diễn X thông qua các lớp tương đương của
U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp

của một số hữu hạn các lớp tương đương của U / B . Có hai cách xấp xỉ tập đối
tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên
của X, ký hiệu là lượt là BX và BX , được xác định như sau:

{

}

{

}

BX = u ∈ U [u ]B ⊆ X , BX = u ∈ U [u ]B ∩ X ≠ ∅ .

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B. Từ

hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BN B ( X ) = BX − BX : B-miền biên của X , U − BX : B-miền ngoài của X.

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc
X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử
dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
BX = U {Y ∈ U / B Y ⊆ X } , BX = U {Y ∈ U / B Y ∩ X ≠ ∅} .

Trong trường hợp BN B ( X ) = ∅ thì X được gọi là tập chính xác (exact set),
ngược lại X được gọi là tập thô (rough set).
Với B, D ⊆ A , ta gọi B-miền dương của D là tập được xác định như sau
POS B ( D) =

U ( BX )
X ∈U / D

Rõ ràng POS B ( D) là tập tất cả các đối tượng u sao cho với mọi v ∈ U mà
u ( B ) = v ( B ) ta đều có u ( D ) = v ( D ) .

Nói cách khác, POS B ( D) = {u ∈ U [u ]B ⊆ [u ]D } .
Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở Bảng
1.1.


Bảng 1.1. Bảng thông tin về bệnh cúm
U

Đau đầu

Thân nhiệt

Cảm cúm

u1



Bình thường

Không

u2



Cao



u3



Rất cao



u4

Không

Bình thường

Không

u5

Không

Cao

Không

u6

Không

Rất cao



u7

Không

Cao



u8

Không

Rất cao

Không

Ta có: U / {Đau đầu} = {{u1 , u2 , u3 } , {u4 , u5 , u6 , u7 , u8 }}
U / {Thân nhiệt} =

U / {Cảm cúm} =

{{u , u } , {u , u , u } , {u , u , u }}
1

4

2

5

7

3

6

8

{{u , u , u , u } , {u , u , u , u }}
1

4

5

U / {Đau đầu, Cảm cúm} =

8

2

3

6

7

{{u } , {u , u } , {u , u , u } , {u , u }}
1

2

3

4

5

8

6

7

Như vậy, các bệnh nhân u2 , u3 không phân biệt được về đau đầu và cảm
cúm, nhưng phân biệt được về thân nhiệt.
Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt} là:

{u1 } , {u 2 }, {u 3 } , {u 4 } , {u 5 , u 7 } , {u 6 , u 8 } .
Đặt X = {u u (Cảm cúm) = Có} = {u2 , u3 , u6 , u7 } . Khi đó:
BX = {u2 , u3 } và BX = {u2 , u3 , u5 , u6 , u7 , u8 }. Như vậy, B-miền biên của X là tập

hợp BN B ( X ) = {u5 , u6 , u7 , u8 } . Nếu đặt D = {Cảm cúm} thì
U / D = { X 1 = {u1, u4 , u5 , u8 } ; X 2 = {u2 , u3 , u6 , u7 }} , BX 1 = {u1 , u4 } ; BX 2 = {u2 , u3 } ,

POS B ( D ) =

U ( BX ) = {u , u , u , u } .
1

X ∈U / D

2

3

4


Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , các tập thô
được chia thành bốn lớp cơ bản:
1) Tập X là B-xác định thô nếu BX ≠ ∅ và BX ≠ U .
2) Tập X là B-không xác định trong nếu BX = ∅ và BX ≠ U .
3) Tập X là B-không xác định ngoài nếu BX ≠ ∅ và BX = U .
4) Tập X là B-không xác định hoàn toàn nếu BX = ∅ và BX = U .
1.3. Bảng quyết định
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng
dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập thuộc
tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là
tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là DS = (U , C ∪ D ) với
C∩D =∅.

Bảng quyết định DS được gọi là nhất quán nếu D phụ thuộc hàm vào C, tức là
với mọi u, v ∈U , C ( u ) = C ( v ) kéo theo D ( u ) = D ( v ) . Ngược lại thì gọi là không nhất
quán hay mâu thuẫn. Theo định nghĩa miền dương, bảng quyết định là nhất quán khi
và chỉ khi POSC ( D ) = U . Trong trường hợp bảng không nhất quán thì POSC ( D )
chính là tập con cực đại của U sao cho phụ thuộc hàm C → D đúng.
1.4. Tập rút gọn và tập lõi
Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm:
thuộc tính lõi (core attribute), thuộc tính rút gọn (reductive attribute) và thuộc
tính dư thừa (redundant attribute). Thuộc tính lõi là thuộc tính không thể thiếu
trong việc phân lớp chính xác tập dữ liệu. Thuộc tính lõi xuất hiện trong tất cả
các tập rút gọn của bảng quyết định. Thuộc tính dư thừa là những thuộc tính mà
việc loại bỏ chúng không ảnh hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư
thừa không xuất hiện trong bất kỳ tập rút gọn nào của bảng quyết định. Thuộc
tính rút gọn là thuộc tính xuất hiện trong một tập rút gọn nào đó của bảng quyết
định. Chúng ta sẽ đưa ra các định nghĩa chính xác trong phần tiếp theo.


Định nghĩa 1.2. [8] (Tập lõi dựa trên miền dương) Cho bảng quyết định
DS = (U , C ∪ D ) . Thuộc tính c ∈ C được gọi là không cần thiết (dispensable) trong

DS dựa trên miền dương nếu POSC ( D ) = POS(C −{c}) ( D ) ; Ngược lại, c được gọi là
cần thiết (indispensable). Tập tất cả các thuộc tính cần thiết trong DS được gọi là
tập lõi dựa trên miền dương và được ký hiệu là PCORE ( C ) . Khi đó, thuộc tính
cần thiết chính là thuộc tính lõi.
Theo Định nghĩa 1.2, thuộc tính không cần thiết là thuộc tính dư thừa hoặc
thuộc tính rút gọn.
Định nghĩa 1.3. [8] (Tập rút gọn dựa trên miền dương) Cho bảng quyết định
DS = (U , C ∪ D ) và tập thuộc tính R ⊆ C . Nếu

1) POS R ( D) = POSC ( D)
2) ∀r ∈ R, POS R −{r} ( D) ≠ POSC ( D)
thì R là một tập rút gọn của C dựa trên miền dương.
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak. Ký hiệu
PRED ( C )

là họ tất cả các tập rút gọn Pawlak của C. Khi đó

PCORE ( C ) =

I

R.

R∈PRED ( C )

Định nghĩa 1.4. Cho bảng quyết định DS = (U , C ∪ D ) và a ∈ C . Ta nói rằng a là
thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn R ∈ PRED ( C ) sao cho a ∈ R .
Định nghĩa 1.5. Cho bảng quyết định DS = (U , C ∪ D ) và a ∈ C . Ta nói rằng a là
thuộc tính dư thừa của DS nếu a ∈ C −

U

R.

R∈PRED ( C )

Ví dụ 1.2. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2.
Bảng 1.2. Bảng quyết định về bệnh cúm

U

Mệt mỏi

Đau đầu

Đau cơ Thân nhiệt

Cảm
cúm


u1







Bình thường Không

u2







Cao



u3







Rất cao



u4



Không



Bình thường Không

u5



Không

Không

Cao

Không

u6



Không



Rất cao



Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} và R2 = {Đau
đầu, Thân nhiệt}. Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân nhiệt là
thuộc lõi duy nhất. Các thuộc tính không cần thiết bao gồm:
Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn nào
Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt
trong một tập rút gọn. Hai thuộc tính này đều không cần thiết theo nghĩa
là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn
chuẩn đoán đúng bệnh. Tức là
POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}).
1.5. Ma trận phân biệt và hàm phân biệt
Ma trận phân biệt do Andrzej Skowron và các cộng sự [3] đề xuất là công
cụ sử dụng để tìm tập rút của bảng quyết định. Xét bảng quyết định
DS = (U , C ∪ D ) với U = {u1 , u2 ,..., un } . Ma trận phân biệt của DS , ký hiệu
M = ( mi j )

n× n

, là một ma trận đối xứng mà mỗi phần tử của nó là một tập hợp các

thuộc tính được xác định như sau
 c ∈ C c(ui ) ≠ c(u j )
mi j = 
 ∅

{

}

if

D(ui ) ≠ D(u j ),

if

D (ui ) = D(u j ) .


Định nghĩa 1.6. [3] (Tập rút gọn dựa trên ma trận phân biệt) Cho bảng quyết
định DS = (U , C ∪ D ) , M = ( mi j )n×n là ma trận phân biệt của DS và tập thuộc
tính R ⊆ C . Nếu
1) R ∩ mi j ≠ ∅ với mọi mi j ≠ ∅
2) Với mọi r ∈ R , R − {r} không thỏa mãn 1)
thì R được gọi là một tập rút gọn của C thu được bởi phương pháp sử dụng ma
trận phân biệt, gọi tắt là tập rút gọn dựa trên ma trận phân biệt. Ký hiệu
SRED ( C ) là họ tất cả các tập rút gọn của C dựa trên ma trận phân biệt.

Định nghĩa 1.7. [3] (Tập lõi dựa trên ma trận phân biệt) Cho bảng quyết định
DS = (U , C ∪ D ) , M = ( mi j )

n× n

là ma trận phân biệt của DS. Thuộc tính c ∈ C được

gọi là không cần thiết (dispensable) trong DS dựa trên ma trận phân biệt nếu

( C − {c}) ∩ m

ij

≠ ∅ với mọi mi j ≠ ∅ . Ngược lại, c được gọi là cần thiết

(indispensable). Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi
dựa trên ma trận phân biệt và được ký hiệu là SCORE ( C ) . Theo
SCORE ( C ) =

I
R∈SRED ( C )

R.

[3],


Chương 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ
DỤNG KHOẢNG CÁCH
Chương này trình bày hai nội dung chính như sau:
1) Tổng hợp các kết quả nghiên cứu về các phương pháp rút gọn thuộc tính
và trích lọc luật trong bảng quyết định trong tài liệu [1, 2], bao gồm: tổng hợp và
phân nhóm các phương pháp rút gọn thuộc tính dựa vào tập rút gọn; tổng hợp các
kết quả nghiên cứu về luật quyết định và các độ đo đánh giá hiệu năng; tổng hợp
các kết quả nghiên cứu về so sánh, đánh giá các phương pháp rút gọn thuộc tính.
2) Xây dựng phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách,
bao gồm: xây dựng độ đo khoảng cách; định nghĩa tập rút gọn và độ quan trọng
của thuộc tính dựa trên khoảng cách; xây dựng thuật toán heuristic tìm tập rút
gọn sử dụng khoảng cách; phân nhóm, đánh giá phương pháp khoảng cách với
các phương pháp khác công bố.
2.1. Tổng quan về rút gọn thuộc tính và trích lọc luật trong bảng
quyết định
2.1.1. Tổng kết, phân nhóm các phương pháp rút gọn thuộc tính

Mục tiêu của rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô
là sử dụng công cụ tập thô để tìm tập con nhỏ nhất của tập thuộc tính điều kiện
mà bảo toàn thông tin phân lớp của bảng quyết định. Dựa vào tập rút gọn thu
được, việc sinh luật và phân lớp đạt hiệu quả cao nhất. Với một bảng quyết định
cho trước, độ phức tạp thời gian của thuật toán tìm tất cả các tập rút gọn là hàm
mũ đối với số thuộc tính điều kiện. Tuy nhiên, trong các bài toán thực tế không
đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn tốt nhất
theo một tiêu chuẩn đánh giá đặt ra. Do đó, các phương pháp rút gọn thuộc tính
sử dụng cận tập thô đều thực hiện theo hướng tiếp cận heuristic. Các phương
pháp này đều có các điểm chung như sau:
- Đưa ra khái niệm tập rút gọn của phương pháp dựa trên một độ đo được
chọn. Các phương pháp khác nhau có độ đo khác nhau, điển hình là các độ đo


trong tính toán hạt (granunal computing), độ đo entropy, độ đo khoảng cách, sử
dụng ma trận…
- Đưa ra khái niệm độ quan trọng của thuộc tính đặc trưng cho chất lượng
phân lớp của thuộc tính dựa trên độ đo được chọn.
- Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo tiêu
chuẩn đánh giá độ quan trọng của thuộc tính (chất lượng phân lớp của thuộc
tính). Thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó có thể áp
dụng đối với các bài toán có dữ liệu lớn. Các thuật toán heuristic này thường
được xây dựng theo hai hướng tiếp cận khác nhau: hướng tiếp cận từ dưới lên
(bottom-up) và hướng tiếp cận từ trên xuống (top-down). Ý tưởng chung của
hướng tiếp cận từ dưới lên (bottom-up) là xuất phát từ tập tập lõi, bổ sung dần
dần các thuộc tính có độ quan trọng lớn nhất vào tập lõi cho đến khi thu được tập
rút gọn. Ý tưởng chung của hướng tiếp cận từ trên xuống (top-down) xuất phát từ
tập thuộc tính điều kiện ban đầu, loại bỏ dần các thuộc tính có độ quan trọng nhỏ
nhất cho đến khi thu được tập rút gọn. Cả hai hướng tiếp cận này đều đòi hỏi phải
sắp xếp danh sách các thuộc tính theo thứ tự giảm dần hoặc tăng dần của độ quan
trọng tại mỗi bước lặp.
1) Các phương pháp rút gọn thuộc tính trong bảng quyết định
Theo tiếp cận tập thô, cho đến nay đã có rất nhiều phương pháp rút gọn thuộc
tính dựa trên các độ đo khác nhau được công bố. Trong tài liệu [1, 2], tác giả đã
tổng kết khá đầy đủ các phương pháp rút gọn thuộc tính trong bảng quyết định
và các tập rút gọn tương ứng.
Bảng 2.1. Các phương pháp rút gọn thuộc tính trong tài liệu [1, 2]
STT

Phương pháp

Tập rút gọn

1

Phương pháp sử dụng miền Tập rút gọn dựa trên
dương.

2

Phương

RP

miền dương
pháp

entropy Shannon
3

Ký hiệu

sử

dụng Tập rút gọn dựa trên

RH

entropy Shannon

Phương pháp sử dụng metric Tập rút gọn dựa trên

RM


metric
4

Phương pháp sử dụng các Tập rút gọn dựa trên

RF

phép toán trong đại số quan đại số quan hệ
hệ
5

Phương pháp sử dụng ma Tập rút gọn dựa trên
trận phân biệt.

6

Phương

pháp

ma trận phân biệt
sử

dụng Tập rút gọn dựa trên

entropy Liang
7

RS

entropy Liang

Phương pháp sử dụng độ đo Tập rút gọn dựa trên
khác biệt của tri thức

RE

RK

độ khác biệt tri thức.

2) Phân nhóm các phương pháp rút gọn thuộc tính
Như đã trình bày ở trên, mỗi phương pháp rút gọn thuộc tính đều đưa ra
định nghĩa về tập rút gọn và xây dựng thuật toán heuristic tìm tập rút gọn. Do đó,
có thể nói rằng tập rút gọn là kết quả của phương pháp rút gọn thuộc tính. Vì vậy,
việc phân nhóm các phương pháp rút gọn thuộc tính cũng dựa vào định nghĩa tập
rút gọn và được thực hiện theo nguyên tắc: các phương pháp có tập rút gọn như
nhau được phân thành một nhóm. Trong tài liệu [1, 2], các tác giả đã tổng kết và
nghiên cứu mối liên hệ giữa các định nghĩa tập rút gọn và kết quả phân nhóm các
phương pháp rút gọn thuộc tính như sau:
1) Nếu bảng quyết định nhất quán, các định nghĩa tập rút gọn RP , RH , RM ,
RF , RS , RE , RK là tương đương nhau.

2) Nếu bảng quyết định không nhất quán:
- Tập rút gọn dựa trên entropy Shannon ( RH ), tập rút gọn dựa trên metric
( RM ), tập rút gọn dựa trên đại số quan hệ ( RF ) tương đương nhau.
- Tập rút gọn dựa trên ma trận phân biệt ( RS ), tập rút gọn dựa trên entropy
Liang ( RE ), tập rút gọn dựa trên độ khác biệt của tri thức ( RK ) tương đương nhau.
Mối quan hệ giữa các định nghĩa tập rút gọn được mô tả như sau:


- Tập rút gọn dựa trên miền dương ( RP ) là tập con của tập rút gọn dựa trên
entropy Shannon ( RH ), nghĩa là: nếu RH là một tập rút gọn dựa trên entropy
Shannon thì tồn tại RP ⊆ RH với RP là một tập rút gọn dựa trên miền dương.
- Tập rút gọn dựa trên entropy Liang ( RE ) là tập con của tập rút gọn dựa
trên entropy Shannon ( RH ), nghĩa là: nếu RE là một tập rút gọn dựa trên entropy
Liang thì tồn tại RH ⊆ RE với RH là một tập rút gọn dựa trên entropy Shannon.
Mối liên hệ giữa các tập rút gọn của bảng quyết định không nhất quán được
biểu diễn bằng sơ đồ sau:

RP



RH = RM = RF



RS = RE = RK

Hình 2.1. Mối liên hệ giữa các định nghĩa tập rút gọn

Từ sơ đồ về mối liên hệ giữa các tập rút gọn, các tác giả trong [1, 2] đã thực
hiện phân nhóm các tập rút gọn và chỉ ra mối liên quan hệ giữa các tập rút gọn
của các nhóm. Cụ thể:
Các tập rút gọn trong bảng quyết định không nhất quán được chia thành
bốn nhóm:
Nhóm 1: Bao gồm tập rút gọn RP .
Nhóm 2: Bao gồm các tập rút gọn RH , RM , RF
Nhóm 3: Bao gồm các tập rút gọn RS , RE , RK
Mối liên hệ giữa các tập rút gọn trong các nhóm như sau:
• Nếu R3 là một tập rút gọn thuộc nhóm 3 thì tồn tại một tập rút gọn R2
thuộc nhóm 2 và một tập rút gọn R1 thuộc nhóm 1 sao cho R1 ⊆ R2 ⊆ R3 .
Dựa vào phân nhóm các tập rút gọn, các phương pháp rút gọn thuộc tính
trong bảng quyết định cũng được phân thành ba nhóm tương ứng.


Đế đánh giá tính hiệu quả của một phương pháp rút gọn thuộc tính, cộng
đồng nghiên cứu về tập thô sử dụng hai tiêu chuẩn: 1) độ phức tạp về thời gian
thực hiện thuật toán heuristic và 2) chất lượng phân lớp của tập rút gọn. Các
công bố về rút gọn thuộc tính đều tính toán độ phức tạp thời gian thuật toán tìm
tập rút gọn. Do đó, hoàn toàn có thể so sánh được tính hiệu quả của các phương
pháp về tiêu chuẩn thời gian. Vì vậy, luận văn tập trung nghiên cứu việc đánh
giá các phương pháp dựa trên tiêu chuẩn chất lượng phân lớp của tập rút gọn.
Việc đánh giá chất lượng phân lớp của tập rút gọn dựa vào số lượng thuộc
tính của tập rút gọn và chất lượng phân lớp của từng thuộc tính. Về mặt định
tính, tập rút gọn có số thuộc tính càng ít thì chất lượng phân lớp càng cao. Tuy
nhiên, điều này chưa hẳn đã chính xác vì chất lượng phân lớp của từng thuộc
tính khác nhau. Tóm lại, ta cần phải sử dụng độ đo mang tính định lượng để
đánh giá chất lượng phân lớp của tập rút gọn. Trong lý thuyết tập thô, các nhà
nghiên cứu sử dụng ba độ đo để đánh giá tính đúng đắn và tính hiệu quả của
một phương pháp rút gọn thuộc tính: độ chắc chắn (certainty measure), độ nhất
quán (consistency measure) và độ hỗ trợ (support measure), cụ thể là: tập rút
gọn của phương pháp rút gọn thuộc tính phải bảo toàn độ chính xác, độ nhất
quán của tập luật quyết định. Độ hỗ trợ sử dụng để đánh giá chất lượng phân lớp
của tập rút gọn. Độ hỗ trợ của tập luật quyết định dựa trên tập rút gọn càng cao
thì chất lượng phân lớp của tập rút gọn đó càng cao.
Phần tiếp theo, chúng tôi tổng kết các kết quả nghiên cứu liên quan đến
luật quyết định và các độ đo đánh giá hiệu năng trong bảng quyết định trong tài
liệu [1, 2]. Chúng tôi cũng tổng hợp kết quả nghiên cứu về sự thay đổi các độ đo
trên các tập rút gọn của các nhóm phương pháp, từ đó trình bày kết quả so sánh,
đánh giá các phương pháp rút gọn thuộc tính dựa trên tiêu chuẩn chất lượng
phân lớp của tập rút gọn.
2.1.2. Luật quyết định và các độ đo đánh giá hiệu năng

1) Luật quyết định và các độ đo đánh giá hiệu năng


Cho bảng quyết định DS = (U , C ∪ D ) , giả sử U / C = {X1, X 2 ,..., X m} và
U / D = {Y1, Y2 ,..., Yn } . Với Xi ∈U / C , Y j ∈U / D và Xi ∩Yj ≠ ∅ , ký hiệu des ( X i ) và des (Y j )

lần lượt là các mô tả của các lớp tương đương X i và Y j trong bảng quyết định DS.
Một luật quyết định có dạng Zij : des ( X i ) → des (Y j ) .
Các độ đo đánh giá luật quyết định đơn Z ij được Pawlak đề xuất [8].
(1) Độ chắc chắn: µ ( Zij ) = X i ∩ Y j / X i ,
(2) Độ hỗ trợ: s ( Z ij ) = X i ∩ Y j / U .
Ví dụ 2.1. Xét bảng quyết định IDS = (U , C ∪ D ) mô tả về các ô tô cho ở Bảng 2.2
với U = {u1 , u2 , u3 , u4 , u5 , u6 } , C = {a1 , a2 , a3 , a4 } với

a1 (Đơn giá), a2 (Km đã đi),

a3 (Kích thước), a4 (Tốc độ tối đa), D = {d}.

Bảng 2.2. Bảng quyết định về các xe hơi

Ô tô

Đơn giá Km

đã Kích

Tốc độ tối

đi

thước

đa

d

u1

Cao

Thấp

Đầy đủ

Thấp

Tốt

u2

Thấp

Thấp

Đầy đủ

Thấp

Tốt

u3

Thấp

Thấp

Gọn nhẹ

Thấp

Xấu

u4

Cao

Thấp

Đầy đủ

Cao

Tốt

u5

Cao

Thấp

Đầy đủ

Cao

Tuyệt
hảo

u6

Thấp

Cao

Đầy đủ

Cao

Tốt

Ta có U / {a1} = {{u1 , u4 , u5},{u2 , u3 , u6 }} , U / {a2 } = {{u1 , u2 , u3 , u4 , u5},{u6 }}
U / {a3} = {{u1 , u2 , u4 , u5 , u6 },{u3}} , U / {a4 } = {{u1 , u2 , u3},{u4 , u5 , u6 }}

Vậy U / A = {{u1},{u2 },{u3},{u4 , u5},{u6 }} .


Ta có U / {d } = {Y1 , Y2 , Y3} với Y1 = {u1 , u2 , u4 , u6 } , Y2 = {u3} , Y3 = {u5} .
Các luật quyết định là:
Z11 : (a1, Cao) ∨ (a2, Thấp) ∨ (a3, Đầy đủ) ∨ (a4, Thấp) → (d, Tốt)
Z 21 : (a1, Thấp) ∨ (a2, Thấp) ∨ (a3, Đầy đủ) ∨ (a4, Thấp) → (d, Tốt)

Z 32 : (a1, Thấp) ∨ (a2, Thấp) ∨ (a3, Gọn nhẹ) ∨ (a4, Thấp) → (d, Xấu)
Z 41 : (a1, Cao) ∨ (a2, Thấp) ∨ (a3, Đầy đủ) ∨ (a4, Cao) → (d, Tốt)
Z 43 : (a1, Cao) ∨ (a2, Thấp) ∨ (a3, Đầy đủ) ∨ (a4, Cao) → (d, Tuyệt hảo)
Z 51 : (a1, Thấp) ∨ (a2, Cao) ∨ (a3, Đầy đủ) ∨ (a4, Cao) → (d, Tốt)

Các độ đo của các luật quyết định đơn là:
Z11 : µ ( Z11 ) = 1, s ( Z11 ) = 1 / 6
Z 21 : µ ( Z 21 ) = 1, s ( Z 21 ) = 1 / 6
Z 32 : µ ( Z 32 ) = 1, s ( Z 32 ) = 1 / 6
Z 41 : µ ( Z 41 ) = 1 / 2, s ( Z 41 ) = 1 / 6
Z 43 : µ ( Z 43 ) = 1 / 2, s ( Z 43 ) = 1 / 6
Z 51 : µ ( Z 51 ) = 1, s ( Z 51 ) = 1 / 6

Các độ đo này chỉ sử dụng để đánh giá các luật quyết định đơn, không phù
hợp cho việc đánh giá tập luật quyết định.
Giả sử F = U / D = {Y1 , Y2 ,..., Yn } là một phân hoạch của U theo D. Độ chính
xác của phân lớp F bởi C, ký hiệu là α C ( F ) , được Pawlak [8] định nghĩa như sau
αC ( F ) =




Yi ∈U / D

CYi

Yi ∈U / D

CYi

và độ nhất quán (hay độ phụ thuộc) γ C ( D ) được Pawlak [8] định nghĩa như sau
γC

(D) = ∑

n
i =1

U

CYi


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×