Tải bản đầy đủ

Rút gọn thuộc tính trong bảng quyết định động theo tiếp cận tập thô

iii

MỤC LỤC
O

.....................................................................................................i
.........................................................................................................ii

MỤC LỤC ............................................................................................................ iii
Danh mục các thu t ng ......................................................................................... vi
Danh mục các ký hi u, t viết t t ...........................................................................vii
Danh sách b ng ....................................................................................................viii
Danh sách hình vẽ ................................................................................................... x
MỞ ẦU ................................................................................................................ 1
1

Ở LÝ THUYẾT ........................................................................... 12

ế

1.1. M t s


...................................................12

1.1.1. H thông tin .................................................................................................. 12
1.1.2.

...................................................................... 12

1.1.3.

.............................................................................................. 13

1.1.4. B ng quyế

nh............................................................................................ 14

1.2. M t s khái ni m v t p rút g n.........................................................................16
1.2.1. T p rút g n d a trên mi

...................................................................... 16

1.2.2. T p rút g n d a trên ma tr n phân bi t .............................................................. 17
1.2.3. T p rút g n d a trên entropy Shannon ............................................................... 18
1.2.4. T p rút g n d a trên µ-metric .......................................................................... 19

ế

1.3.

1.4. M t s thu

1.5.

............................................21

.......................................................................................24

1.4.1.

...................................................................................... 24


1.4.2.

µ-metric ........................................................ 24

1.4.3.

µ-metric................................... 25

ế

1 ...............................................................................................26
2

ẾP CẬ


21

ă



O



ỔI............................................................ 27

...................................................................................................................27


iv

2.2.

ổi ....................................................29

221

µ-metric khi thêm m

ng ..................................................... 29

222

µ-metric khi xóa m

ng ....................................................... 32

223

µ-metric khi c p nh t m

23

ă

ổi 39

dụng µ-metric khi t

2.2.1. Thu

ă

p rút g n khi thêm t

2.2.2. Thu

ă

p rút g n khi c p nh t t

24

25

ng ................................................ 34

ng ............................. 39
ng ........................ 43

.................................................................................47
2.4.1. Th c nghi m thu

ă

p rút g n khi thêm t

2.4.2. Th c nghi m thu

ă

p rút g n khi c p nh t t

ế

ng ... 59

2.................................................................................................64
ẬP RÚT G

ng 3. TIẾP CẬ


31

ng ......... 47

O



ỔI.......................................................... 66

...................................................................................................................66

3.2. Thu t toá

ă



p rút g

µ-metric khi t p thu c tính thay

ổi .........................................................................................................................67
321

µ-metric khi thêm t p thu c tính

322

µ-metric khi xóa t p thu

323

ă

324

u ki n ......................................... 69

dụng µ-metric khi t p thu

í

ổi .. 70

.................................................................................. 74

ă

3.3. Thu
thu

í

u ki n....................................... 67

í

p rút g



p

ổi ...............................................................................................81

3.3.1. T p rút g n d a trên hàm quyế

nh m r ng và các tính ch t ....................... 82

3.3.2. Ma tr n phân bi t m r ng và hàm phân bi t m r ng .................................... 84
3.3.3. Thu t toán tìm t p rút g n s dụng hàm phân bi t m r ng ............................ 85
3.3.4. Thu

ă

p rút g n s dụng hàm phân bi t m r ng khi bổ sung

t p thu c tính ................................................................................................ 88
3.3.5. Thu

ă

n s dụng hàm phân bi t m r ng khi lo i b t p

thu c tính ..................................................................................................... 90
336

............................................................................ 93


v

34


ế

3.................................................................................................98
Ậ ......................................................................................................... 100

Danh mục các công trình c a tác gi .................................................................... 102
Tài li u tham kh o ............................................................................................... 103
Phụ lục ................................................................................................................ 110


vi

D

mụ

t uật



Thuật ngữ tiếng Việt

Thuật ngữ tiếng Anh

B ng quyế

Decision Table

nh

B ng quyế

ng

Dynamic Decision Table

B ng quyế

nh nh t quán

Consistant Decision Table

ch c ch n c a b ng quyế
chính xác phân l p

nh

Certainty Measure
Classification Accuracy

µ-metric

µ-Metric

hỗ tr c a b ng quyế
ng

nh

Support Measure
Object

Hàm phân bi t m r ng

Generalized Discernibility Function

Hàm quyế

Generalized Decision Function

nh m r ng

H thông tin

Information System

H

ng

Lu t quyế

nh

Dynamic Information System
Decision Rule

Ma tr n phân bi t m r ng

Generalized Discernibility Matrix

Mi

Positive Region
ă

Tiếp c n

Incremental Approach

Quan h

Indiscernibility Relation

Rút g n thu c tính

Attribute Reduction

T p chính xác

Crisp Set

T p lõi

Core

T p rút g n

Reduct

T p thô

Rough Set

Thu c tính

Attribute | Feature

Thu c tính không th lo i b

Indispensable Attribute

X px

Lower Approximation

X p x trên

i

Upper Approximation


vii

D
BN B

X 

mụ



B - mi n biên c a X

POSB  D 

B - mi

BX

B-x px

BX

B - x p x trên c a

aD
ic a

B ng quyế
K

P

ệu, từ v ết tắt

X
X

nh

C u trúc tri th c sinh b i t p thu c tính P
ch c ch n c a b ng quyế

nh DT

chính xác phân l p
hỗ tr c a b ng quyế
phụ thu c c a t p thu
u a

Giá tr thu c tính

a

c

nh DT
í

D
ng

iv iC
u

Hàm phân bi t m r ng
Hàm quyế

nh m r ng

H thông tin
Kho ng cách µ-metric trên b ng quyế
u B

L p

a
ĩ

M

a thu

nh DT

í

iv it pB

U /B

Phân ho ch c a U sinh b i quan h IND(B)

IN D  B 

Quan h

B - không phân bi

H (Q | P )

Shannon e

u ki n c a Q

H

P

|X|

Shannon entropy c a t p thu c tính P
L

IN D  B 

ng u c a quan h

ng c a t p h p X

c
ết P


viii

D

b

ế

ch táo ............................................................... 15

B ng 2.1. B ng quyế

nh g c .............................................................................. 31

B ng 2.2. B ng quyế

ng ................................................ 32

B ng 2.3. B ng quyế

ng .............................................. 34

B

11

s

B ng 2.4. B ng quyế

nh c p nh t m

ng................................................ 39

B ng 2.5. Các b s li u th nghi m ..................................................................... 49
B ng 2.6. T p rút g n c a thu t toán MBAR và thu t toán MIR_AdObjs .............. 51
B

27

AP, AQ ,  , g 

c a thu t toán MBAR và thu t toán

MIR_AdObjs ......................................................................................................... 52
B ng 2.8. So sánh th i gian th c hi n (s) thu t toán MBAR và thu t toán
MIR_AdObjs ......................................................................................................... 53
B

29

chính xác phân l p c a MBAR và MIR_AdObjs ................. 55

B ng 2.10. Kết qu th c hi n Thu t toán MIR_AdObjs và thu t toán GIARC-L ... 57
B

2 11

a thu t toán MIR_AdObjs và thu t toán GIARC-L. ......... 58

B

2 12

chính xác phân l p c a GIARC-L và MIR_AdObjs ........... 59

B ng 2.13. B s li u th c nghi m ........................................................................ 60
B ng 2.14. T p rút g n c a thu t toán MBAR và thu t toán MIR_UpObjs ............ 61
B

2 15

a thu t toán MBAR và thu t toán MIR_UpObjs ............. 61

B ng 2.16. So sánh th i gian th c hi

chính xác phân l p c a ARED-L và

MIR_UpObjs ......................................................................................................... 63
B ng 3.1. B ng quyế

ă

p thu

í

u ki n P............................... 69

B ng 3.2. Mô t các b d li u th nghi m............................................................ 75
B ng 3.3. T p rút g n c a thu t toán MIR_AdAt và MBAR.................................. 76
B ng 3.4. Kết qu

a thu t toán MIR_AdAt và MBAR........................ 77

B ng 3.5. T p rút g n c a thu t toán MIR_AdAt và DIA_RED. ........................... 79
B

36

chính xác phân l p c a DIA_RED và MIR_AdAt ............... 81

B ng 3.7. Mô t các b d li u th nghi m............................................................ 94


ix

B ng 3.8. T p rút g n c a thu t toán MIR_AdAt và GDF_IR_AdAt ..................... 95
B

39

a thu t toán MIR_AdAt và GDF_IR_AdAt ....................... 96

B

3 10

chính xác phân l p c a GDF_IR_AdAt và MIR_AdAt ...... 97


x

D

s

ì

vẽ

Hình 2.1. Th i gian tìm rút g n c a hai thu t toán MBAR và MIR_AdObjs .......... 50
Hình 2.2. Th i gian tìm rút g n c a hai thu t toán MBAR và MIR_AdObjs theo các
ă

............................................................................... 54

Hình 2.3. Th i gian tìm rút g n c a thu t toán MBAR và thu t toán MIR_UpObjs
.............................................................................................................................. 62
Hình 3.1. Th i gian tìm rút g n c a hai thu t toán MIR_AdAt và MBAR ............. 77
Hình 3.2. L
Hình 3.3. L

ng t p rút g n c a hai thu t toán DIA_RED và MIR_AdAt ....... 80
ng t p rút g n c a hai thu

ă

DF_

_

MIR_AdAt ............................................................................................................ 94


1

MỞ ĐẦU
í

í

ă
Xu t phát t s

ế

í
ế



í :

í

í

;

(

í

í

:
í

í

G

í

í

.

í
í


ă

í

ế

í

.

Giảm kích thước tập thuộc tính
í

G

í
í

í

ĩ

í

hi u qu cho

í

í

í
í



[27]

í

í
ế

ổ í

í

í

ế
(hay í


í
)

í
trong


F

Attribute Selection)


,



.


2

í

l a
í





í

ế

í

í
ế

í
ế
í

í
í

l a

[20], [27]:

;

í

;

;

ế

Phân loại các phương pháp lựa chọn thuộc tính
ến nay
c

ế

t nhi u
ĩ

áp dụng thành công trong nhi
ă

phân l p và bi u di
thu t toán l a

c ụ

n d li u,

n, x lý và tìm kiếm

… Có th chia các

:

c (Filter)

thu c tính thành hai l

và l

ế

(Wrapper)

í

ế



í




ng tin c a thu c tính và l
tiêu chu n ch n thu c tính mà không s dụng các tri th c phân l p c a d li u. D
ến lý thuyết thông tin và

ng
í
thiết

chi phí tính toán th p, b

m là

c các thông tin c n

i v i các kỹ thu t khai phá tri th c.
các

thu c tính

ă




[22]:


;

;




cụ th c a mô hình
í



;
í

C
ĩ

ă
í



;




í
d a trên tác vụ


3

khó kh thi trong th c ti n,

c bi t khi s

í
í

ụ ụ

ng thu c tính l


.

Lý thuyết tập thô và lựa chọn thuộc tính
Z

Khái ni m t p thô (rough sets) l
ă

1982

[33]

t h th

cg

w

“ ý thuyết t p thô –
ĩ

u, lý thuyết t



t công cụ toán h c m

ĩ

phân tích d li u không hoàn h
ế

w

và không ch c ch n). D

í
s

c u. Ý

n c a lý thuyết t

ng ng c a r t nhi u nhà nghiên
c hình thành d a trên gi thiết mỗ

ng mang tin (d li u, tri th c) trong t

rụ

u có liên h v

i
i

c hình thành b i nh ng thông tin gi ng nhau là không phân bi

i góc

ế

c mang ch a trong chúng.

í
M t quan h g i là quan h không phân bi t
toán h c c a lý thuyết t p thô. Mỗi t p h p các
là m t t
í

không phân bi t

và t o thành m t h t tri th

n (nguyên t ). M t t p h p g i là

(crisp) nếu nó là h p c a m t s t

cl it ph

i là t p

ng biên – g m các ph n t không th phân l p

thô (rough). Mỗi t
chính xác v i các tri th c

hi n có và

t p x p x trên và t p x p x

i. X p x

nh b i hai t p chính xác –
i c a m t t p h p bao g

i

ng có khả năng thuộc

ng chắc chắn thuộc, còn x p x trên ch a t t c
v t p

g i

Mi n biên c a t p thô chính là ph n khác nhau gi a x p x trên và x p x
ết lu n t d li

i. Các t p x p x
thô là m t trong nh

nh, suy lu n quy n p và
ế

nh n d ng m u. Trong không gian
í

ết t p

n n t ng cho trí tu nhân t o và khoa h c nh n th c,

c bi t cho h c máy, phát hi n tri th c, phân tích quyế
ế

D



:

í


4

í

ế

ế



ế

í



ế

.

D

ác
ến nay

ng nghiên c u ng dụng lý thuyết t


ĩ

: Phân l p, l a ch n thu c tính, rút g n s chi u c a h thông tin,

phân cụm, gi m nhi u d li


d li u quan h , phân tích h thông tin không
ĩ

í

l a
ế

ă

ế

.
í

ế
í

l a
í

ế



;

ế

ế

í
í

L a ch n thu

ếp c n lý thuyết t p thô
í

g i là rút g n thu c tính.
í
í

ế

M t

có th có nhi u t p thu c tính rút g n (t nay

g i ng n g n là t p rút g n) và mỗi t p rút g
thu c tính

u có th thay thế
ế

. Vi c tìm t t c các rút g n

minh là bài toán NP - khó [41]. T
nào là t t nh ?

tr l i câu h i này, c

í

c ch ng
ế

t yếu n y sinh câu h i t p rút g n
t ra nh ng tiêu chu

rút g n. Trong nhi u nghiên c
thu

c cho t p

t p

i ta dùng tiêu chu n s

nh. T p rút g n t t nh t sẽ có s

ng

ng thu c tính ít nh t;

có nhi u t p rút g n có s thu c tính bé nh t, tiêu chu
là t p có ít thu c tính
tính

có kh

.

ă

t t nh t

t
í



c tìm kiế

ng dụng th c tế, ch c n tìm ra m t t p rút g


g n t t nh t [41].

t p t i thi u thu c

p thu c tính g c. M c dù có th

c t p rút g n t t nh
cao, may m n là v

nh sẽ

í
ế

ế
.

ng r t




mà không c n tìm t p rút


5

Trong ba th p kỷ g
ế

ế

r t

í

pháp rút g n thu

ng th y

nh t d

dụng làm tiêu chu
í

ng kết qu

c tính [22].

ch c ch n), ch

iv

i tính ch t c

c ki m ch ng trên m t s

í

thu c thu

í

heuristic

t p rút g n

ng phân l

phụ

hỗ tr c a t p lu t quyết

nh.
D

ế

thu c tính, các t

dụ
í

trong [2], [4]

ế

:1

ba

[12], [16],

[28], [36]; 2



-

Shannon

entropy ([30], [43], [45], [47], [50], [51], [52], [53])
([1], [18], [19], [55]), kho ng cách metric ([2], [3], [6], [9], [13], [14]); 3
-



Liang entropy ([25], [29]),

([43], [54], [59])
rút g

hỗ tr c a t p thu c tính

ph c a t p lu t sinh b i t p rút g n) gi m d n t

3.

y, nếu ch xét v khía c

dụ

1 ến nhóm

hỗ tr c a t p lu
c ma tr n phân bi t t

dụng nh

iv i

m t mô hình d li u, c n ph i xem xét thêm nh ng yếu t khác n a, chẳng h n
ph m vi ng dụng ho c chi phí tính toán

c khi quyế

nh ch n l

pháp.
Rút gọn thuộc tính đối với hệ thông tin động
M c dù


thông tin

c

xu t tìm t p rút g n
c p

trên. Song

ĩ

các nghiên c

ế

v n còn khá khiêm t n. V

ổi, bài toán rút g n thu c tính c
qu ?

ến rút g n thu c tính trong h

c gi i quyế

t ra là: Khi h thông
ế nào cho hi u


6

:

M t h thông tin biế
ế

ng v

: ổ

í

thu

;

;

ế
ế

V



c
ế

ế

trên

ế
ổi c a d li u sẽ ng n l i

, chu kỳ




ế

ế



ế

thêm ho c xóa m t t p h p m u trong phân lo i text là ho
nh ng ng dụ

n nh

D

ế

í



ế

b

xu t

ế

các

ă

dụng các tính toán g c [9], [15], [17],

[21], [23], [26], [37], [38], [48], [49], [60] t
ă
nh t chúng khi h

m th i gian th c hi n thu t toán.

í

i toàn b t p rút g n mà tìm cách c p

c bổ sung ho c lo i b t

gi m thi

ng ho c t p thu c

th i gian th c hi n và có th th c hi n trên các b ng

í

c l n. Trong các công trình [15], [17], [37], [60] các tác gi
ă

phân bi t khi bổ sung t
d ng các công th

p rút g n d a trên mi

í

ă

Shannon entropy, Liang
;


ă

ng thu
ă
í

n

ng m i. Trong công trình [26], các tác gi

entropy, entropy tổ h p) khi bổ sung, lo i b các

thu

iv i

c nghiên c

n thu c tính


quyế

hi u qu

ổi theo chu kỳ c

bổ sung vào ngân hàng nh
í

nh.

c p nh t

nh ng h thông tin có nhu c

í

ng theo chu kỳ trên

ng xã h i Twitter, Facebook b i ngôn ng s dụng trên



m

ổi

Ví dụ, nh

í

p rút g n. Trong công trình [38], các tác gi
p rút g n mi

ng h p giá tr thu

trình nêu trên, các tác gi

[49]

í

dụ

phụ thu c c a

ổi, c p nh t. Trong các công

u minh ch ng b ng th c nghi m r

ia


7

ă

i gian th c hi n gi m thi
í

c bi t trên các b d li

c l n.

T nh ng nghiên c u v

xu

ă

ti m c n

thu c tính trên h

ă

so v

ng tiếp c n gia
ă

n

ng:

Tiệm cận gia tăng trong rút gọn thuộc tính trên hệ thông tin động là phương
pháp tìm cơ chế tái sử dụng các kết quả tính để cập nhật tập rút gọn nhằm giảm
thời gian tính toán và đảm bảo các yêu cầu về hiệu năng của tập rút gọn.
ă
ế

ế



c í

ế

thao tác í


y

.
làm tiêu chu n l a ch n thu c tính

ă

ổi so v

ĩ

c

p rút

ổi b n ch t. Nói m

g

ă
ă

p rút g n kết qu v i hi
g c trên m

dụng

c hi n l i thu t toán

ng. D

d li u biế
2], [4]

ế

V y, trên

ă

í



;
;

:
c
;



[2], [4]. T


m trên,





ĩ
nh

trong các

ế

ế

ĩ



l n nh t. Tuy
ế

nhiên,



[2], [4]
D

2

3 ẽ

í

:

ế
2 ẽ

l a ch n




ế

c


8

ă

2

ch yếu s dụng entropy.

[26], [49], các
,
ế

ế



ă
ế

p í

| | | | | || |

í

kh
ế

[26].

ế
í

ế

ă

í
ế

í

[49]
| |

| | | |

| |

| | | |

ă

trong [26], [49]
ế

ế

ă

i v i các thu t toán

Liang entropy [26], [49], b ng quyế

nh rút g

s dụng

hỗ tr th

is
14]

dụng m t s
í

l

c p nh t t p thu c tính rút g n trên b ng quyế
dụng kho ng cách metric

sẽ gi i quyết bài toán

c xây d ng trong [14].

th c a b ng quyế

ng h p biế

c nghiên c u trong lu n án g m:

;

ă

ng theo tiếp c n

; ổ

í

ng cụ



;

;

í

Động cơ, mục tiêu và kết quả nghiên cứu
ă


nh t

: 1)

metric [14]
ế

ă






metric trong [14] ch

kh

p

ế

ph c t p tính toán. 2)
ế

í [3], [5], [9], [14] trong khi ti

thác và s dụng các metric có th còn r t l n b

nên có

ă

khai

c s dụng r t


9

ĩ

phổ biến trong nhi

ă

c [10]. 3) S dụ

c p nh t t p rút g

ến m c dù trong [9]

c nghiên c

ă

xu t m t metric

ế

tron


hỗ tr nh

[14] và Shannon entropy [2], [4]
bi t. 4) Trong các nghiên c
trên h

i t p rút g n s dụng metric
i ch gi i quyế
ă

xu

ng, h u hết các tác gi m

ng c a d li u, s biế

ng h

c

n thu c tính

ến m t khía c nh biến

xu

ng có th ch xét trong t

ng [15], [17], [21],

[26], [37], [48], [60] ho c ch xét trong t p thu c tính [38], [49] ch
trình nào xem xét toàn di n trên c t p thu c tính và t

ng.
14]

b n lý do trên, tác gi cho r ng s dụng metric xây d ng
ă g rút g n thu c tính sẽ có ba


s dụ

í

metr

; Thứ hai, kế th a nh

ế

c

mc

c ch ng minh trong v

gi i quyết bài toán rút g n trên b ng quyế
ĩ

trong ph



nh

c a t p lu t quyết
ổ biến là

dụ

entropy thông tin, ma tr n phân bi t; ph m vi ng dụng c
ch h n chế trên b ng quyế

ĩ

n s dụng metric

:
nh

m: Thứ nhất,

không

nh nh t quán

dụ

ụng phù h p cho các b ng quyế

n

nh không nh t quán; Thứ ba,

gi m th i gian c p nh t t p rút g n so v i vi c th c hi n l i thu t toán g c s dụng

í

V

h



ế

:

í

1)

ế
ế

.

2) Xây d ng và ch ng minh các công th c c p nh
và hàm phân bi t m r
quyế

nh:

ế

ng h p biế

n (metric
ng c a b ng


10

 Thêm/Xóa t

ng

 C p nh t t

ng

 Thêm/Xóa t p thu c tính
ă

3) Xây d ng thu
biế

ng

ng h p

trên
ă

4) Tiến hành m t s th c nghi m so sánh v
ă

m ts

u qu c

ă

1) Xây d ng các công th c c p nh t metric và các thu

ng khi thêm/xóa/cập nhật đối

rút g n thu c tính trong b ng quyế
t ợng.

2) Xây d ng các công th c c p nh t metric, c p nh t ma tr n phân bi t m
ă

r ng và các thu

n thu c tính trong b ng quyết

ng khi thêm/xóa thuộc tính.
u c a lu n án là nghiên c u
í

ế

nh lý, m

trong lu


lý thuyết:
d a trên
í

kiến th

hi

.
t

th c nghi m.
c ch ng minh ch t chẽ, logic

n và các kết qu nghiên c u

í

trên lý thuyết

gb

nghiên c u th c nghi m: lu n án th c

ch y th nghi m

thu t toán v i d li u

UCI, so sánh và

ết qu th c nghi m so v i kết qu nghiên c u lý thuyết, t
í

n c a kết qu nghiên c u.
Bố cục của luận án g m ph n m

và danh mục các tài li u tham kh o.
ế

và s dụ
ế

u và ba
1

i dung, ph n kết lu n
í

ến trong
í

; M ts

metric [14] và rút g n thu c tính s dụng metric
dụ

ết lu n

n thu c tính s

n


trong

tác gi

trong lu n án.


11

a lu
2

2

c trình

3

ế

kết qu nghiên c u
ế



2
m ts

v
minh h

3

í

n và hi u qu c

i quyế

nh - khi t p thu c tính

ng h p biế
u ki n

.
ổi th hai c a b ng quyết

c bổ sung ho c lo i b b ng cách s dụng hai

: Metric và Hàm phân bi t m r ng. M t s th c nghi m trên các b
s li

c th c hi

i v i các thu
ă

n và hi u qu c
Trong ph n kết lu n
tri n tiếp theo c a tác gi .

nh

xu t nh m minh h a cho tính
xu t.
a lu

ng

phát


12

C
Một số k

1.1.

1. CƠ SỞ LÝ T UYẾT
ệm

b

về ý t u ết tậ t

Lý thuyết t
ă

w

c Z.

1982 33]

34] ă

c bổ

xu t, lý thuyết t

l

u tiên

1998

c nhi u s chú ý t gi i nghiên c u khoa h c và

ến nay, các nghiên c u trên n n t ng lý thuyết t p thô và t p trung vào các

t

ng dụng c a lý thuyết t p thô trong khai phá d li u có th nói vô cùng phong phú.
Các khái ni

ng khái ni

c a lý thuyết t p thô truy n th ng.

1.1.1. Hệ thông tin
H thông tin

là công cụ bi u di n tri

th

i d ng m t b ng d li u g m p c t ng v i p thu c tính và n hàng ng v i

n

ng. M t cách hình th c, h thông tin

Đ

ĩ

ĩ 1.1 ([33]). H thông tin là m t b

h n, khác rỗ
ế ;

ng


U là t p h u

; A là t p h u h n, khác rỗng các thu c tính

í

í
m i

tính a



u a

thay vì

. Nếu

u U , a  A

, ta ký hi u giá tr thu c

B   b1 , b 2 , ..., b k   A

thu c tính thì ta ký hi u b các giá tr { u  b i  }b i u  B 
ng, thì ta viết u  B   v  B  nếu u  b i   v  bi  v i m i

là m t t p con các
y, nếu u và v là hai

i  1, ..., k

.

, u a

u ch a giá tr khác rỗng thì h thông tin

ĩ 1.2 ([33]). Xét h thông tin

, v i mỗi t p con các thu c tính

Nếu v i m i

u U



a A

c g i là hệ thông tin đầy đủ.
1.1.2.
Đ
P  A

ệ không



, m t quan h hai ngôi trên U, ký hi u là
IN D  P  

 u , v   U

IN D  P 

nh b i:

U a  P, u a   v a 

c g i là quan h P - không phân bi

c.




13

D

t quan h
thì

ng u và v không phân bi
IN D  P 

trong P. Quan h
ế

U / IN D  P 

ho ch

U /P

U. Nếu

nh m t phân ho ch trên U, ký hi u là

U /P

. Ký hi u l p
u P

ng u là  u  P

ch

c b i các thu c tính



 vU

phân

u, v  





K(P)



(knowledge granule) ho c t

[22].

ĩ 1.3 ([34]). Cho h thông tin
1) Phân ho ch

nếu

 .

í

|

Đ

IN D  P

u  U ,

u P

 u 

2) Phân ho ch

hay phân ho ch

U /P



và phân ho ch

ết

một số lớp của

U /Q

2) Với mọi

U / P U /Q

),

.

Q

U /P

mn

(finer) phân ho ch

(coarser) phân ho ch

U /Q

P  Q

. Ta nói:

U /Q

Tính chất 1.1 ([34]). Xét hệ thông tin
1) Nếu

P,Q  A

thì

U /Q

U / P

U /P



, mỗi lớp của

U /Q

nếu

(viết

u  U ,

U / P

u P

U /Q

 u 

Q

)

.

P, Q  A

U /P

là một lớp hoặc hợp của

.
ta có  u  P  Q

u U

 u   u 
P

Q

.

1.1.3.
Cho h thông tin
B  A

và t

ng

c, chúng ta có các l

X  U

. V i m t t p thu c tính

a phân ho ch

:

?
Trong lý thuyết t

U /B

bi u di n X thông qua các l

a

(còn g i là bi u di n khái ni m X b ng tri th c có sẵn B

i ta x p x X

b i h p c a m t s h u h n các l

a

ng X thông qua t p thu c tính B
c a X, ký hi u l n

t là



BX

BX  u U


u B

U /B

c g i là B-xấp xỉ dưới và B-xấp xỉ trên
:

BX

 X

. Có hai cách x p x t p

,



BX  u U

u B



 X   .


14

p
còn t p

bao g m t t c các ph n t c a U ch c ch n thu c vào X,

BX

ă

bao g m các ph n t c a U có kh

BX

c phân lo i vào X d a vào
ĩ

t p thu c tính B. T hai t p x p x nêu trên, ta
BN B

X 

B-miền biên c a X ,

BX  BX

p

D th y B-miền biên c a X là t p ch
miền ngoài c a X ch

ng có th thu c X, còn B-

ng ch c ch n không thu c X.

ng h p
l iX

B-miền ngoài c a X.

U  BX

BN B

X 



c g i là tập chính xác (crisp)

,X

c

c g i là tập thô (rough).
V i

B,D  A

, ta g i B-mi

a D là t
BX 

POSB (D ) 
X U / D

ĩ


vU

mi

u B



POSB (D )  u  U

  v B 

u B

 u 

D

u

u D



b ng quyế

C và t p các thu c tính quyế
v i
B ng quyế

nh). B ng quyế

C  D  

cl i

nh t quán khi và ch khi

í

u ki n
ế

c g i là nh t quán khi và ch khi phụ
ĩ

i m i

u, v  U , u C

  v  C  kéo theo

là không nh t quán. D th y b ng quyế
POSC

D  U .

nh

C  D

ế
;D



ng h p b ng không nh t quán

i c a U sao cho phụ thu c hàm

11
í

nh là m t h thông tin,

nhau: t p các thu

ế

ế
12 ;

khác,

.

 D  chính là t p con c

Ví dụ 1.1. B

cách

ế

nh

  vD.

POSC

Nói

nh D.

thu c hàm C D nghi

thì

.

.

p thu c tính A bao g m hai t p con

u D

  vD

sao cho v i m i

c bi t c a các h thông tin có vai trò quan tr ng trong nhi u ng
ế

dụng là

ta

ng

ịnh

1.1.4. B ng quy
M tl

t pt tc

1
ch}

2

3 …


15

U/C = {{u1}, {u2, u5}, {u3}, {u4}, {u6, u8}, {u7},{u9, u10}, {u11}, {u12}};
2
6

5

8; 9

í
10

í
í

í

U/D = {{u1, u2, u4, u6, u7, u8, u10, u11}, {u3, u5, u9, u12}}
1

2

3

4

5

6

í
ế

11

ế

10

10 D ≠ 9 D
B ng 1.1.
Id



M u

u1

thu ho ch táo
t

To

u2

Thu hoạch
Yes
Yes

u3

Xanh

u4

Xanh

No
To

Yes

u5

No

u6

Yes

u7

To

Yes

u8

Yes

u9

No

u10

Yes

u11

Yes

u12

Xanh

No

9


16

1.2.

Một số khái niệm về tập rút gọn

1.2.1. T p rút gọn dựa trên miề d ơ
Trong b ng quyế

í

nh, không ph i m i thu

i v i tác vụ phân l p t

ng. Các thu

í

u ki n trong b ng quyết

c chia thành thu c tính lõi và thu c tính không c n thiết d
tr

i v i phân l p. Thuộc tính lõi là thu c tính c t yếu, không th thiếu trong

vi c phân l p chính xác t p d li u. Thuộc tính không cần thiết
w

Đ

ĩ

dụng mi
ĩ 1.4 ([33]). Cho b ng quyế

a) là thu c

ến vi c phân l p d li u.

tính mà vi c lo i b thu c tính này không
Z

quan

í

a và thu c tính lõi

nh

. Thu c tính
ếu

c g i là không c n thiết trong DT d a trên mi
PO SC  D



P O S ( C c  )  D

ĩ

;

c l i, c

í

ổi mi

c g i là c n thiết.

a là thu c tính mà khi lo i b sẽ không làm thay

a t p thu c tính quyế

ổi m t lu t quyế
nh t quán c a b ng quyế

D

ĩ

D

nh t



nh.

T p t t c các thu c tính c n thiết trong DT
d

c tính này không làm

c ký hi u là

c g i là t p lõi d a trên mi n
c tính c n thiế

c g i là

thu c tính lõi.
Rút g n thu c tính chính là tìm cách lo i b t
c n thiết mà v

ă

m b o kh

ĩ

1.5 ([33]). Cho b ng quyế
:

R  C

í

D

p

ĩ :

rút g n theo mi
Đ

p c a t p thu

ng thu c tính không

1)

POSR (D )  POSC (D )

2)

 r  R , P O S R r ( D )  P O S C ( D )

t t p rút g n c a C d a trên mi

nh

T p thu c tính


17

ĩ

1

u ki

ch n c a các lu t phân l

u ki n t p rút g n R b
;

p thu c tính g

t p rút g n R không ch a thu

í

mb

trong

w

i là t p rút g

ế

u

PRED C



rút g n Pawlak c a C
ĩ

2

th a.

ĩ

T p rút g

u ki

ch c

 là h t t c các t p

.

p rút g n b o toàn mi

rút g n thu c tính khác d a trên nh ng nguyên t c b
í

u có mụ

n là gi m s

ng thu c tính và b o toàn các

thông tin c n thiết ch a trong d li u. Ví dụ, trong [35] Z.Pawlak và A.Skowron
ĩ

p rút g

1.5 b

u ki n b o toàn hàm quyế
ch c ch n (kh

nh m r ng và ch

ă

ĩ 15

nh m r ng; Ho

u ki n 1)

u ki n b o toàn kho ng cách gi a phân b entropy c a

ng b t kỳ
g

u ki n này

n l p) c a t p thu c tính g c. T p rút

g n này g i là t p rút g n b o toàn hàm quyế
c

ĩ

u ki n 1) c

c t p rút g n b o toàn entro



ụ thu

u là nh

1.2.2. T p rút gọn dựa trên ma tr n phân biệt
Ma tr n phân bi t do A. Skowron và các c ng s
dụ
nh

v i

M  mi j 

thu

n n



xu

tìm t

U   u 1 , u 2 , ..., u n 

, là m t ma tr

43]

b ng quyết
. Ma tr n phân bi t c a

, ký hi u

i x ng mà mỗi ph n t c a nó là m t t p h p các

í
mi j



 cC

 




ui (c )  u j (c )



if

u i ( D )  u j ( D ),

if

ui (D )  u j (D ) .

ế
ĩ


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×