Tải bản đầy đủ

Một số phương pháp xử lý tri thức không nhất quán trong ontology

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYỄN VĂN TRUNG

MỘT SỐ PHƯƠNG PHÁP
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN
TRONG ONTOLOGY

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

HUẾ - NĂM 2018


ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

NGUYỄN VĂN TRUNG

MỘT SỐ PHƯƠNG PHÁP
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN

TRONG ONTOLOGY

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 62.48.01.01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học:
PGS. TS. HOÀNG HỮU HẠNH

HUẾ - NĂM 2018


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng
dẫn của PGS. TS. Hoàng Hữu Hạnh. Những nội dung trong các công trình đã công bố
chung với các tác giả khác đã được sự đồng ý của đồng tác giả khi đưa vào luận án.
Các số liệu và kết quả nghiên cứu trình bày trong luận án là trung thực, khách quan
và chưa được công bố bởi tác giả nào trong bất cứ công trình nào khác.
Nghiên cứu sinh

Nguyễn Văn Trung

i


LỜI CẢM ƠN
Luận án này được thực hiện và hoàn thành tại Khoa Công nghệ Thông tin, Trường
Đại học Khoa học, Đại học Huế. Trong suốt quá trình học tập và thực hiện luận án,
tôi đã nhận được rất nhiều sự quan tâm, động viên, giúp đỡ của thầy giáo hướng dẫn,
thầy cô giáo trong Khoa Công nghệ Thông tin, Phòng Đào tạo Sau đại học và Ban
giám hiệu Trường Đại học Khoa học.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS. Hoàng Hữu Hạnh là người thầy
tận tình hướng dẫn, động viên và truyền đạt những kinh nghiệm quý báu trong nghiên
cứu khoa học để tôi có thể hoàn thành luận án này.
Tôi xin chân thành cảm ơn quý thầy cô giáo trong Khoa Công nghệ Thông tin đã
tạo điều kiện thuận lợi trong công tác để tôi có thể hoàn thành công việc nghiên cứu
của mình. Tôi xin cảm ơn quý thầy cô và cán bộ của Phòng Đào tạo Sau đại học, Ban
giám hiệu Trường Đại học Khoa học đã giúp đỡ tôi trong việc hoàn thành kế hoạch
học tập.


Tôi xin trân trọng cảm ơn quý thầy cô giáo trong Hội đồng Khoa học của Khoa
Công nghệ Thông tin đã đọc và đưa ra những góp ý xác đáng cho luận án này.
Tôi xin trân trọng cảm ơn quý thầy cô giáo và các anh chị đồng nghiệp trong Khoa
Công nghệ Thông tin đã giúp đỡ, chia sẻ trong quá trình công tác, học tập, nghiên cứu
và thực hiện luận án.
Cuối cùng tôi xin cảm ơn những người thân trong gia đình đã luôn ủng hộ, chia sẻ
khó khăn trong suốt quá trình học tập, nghiên cứu và thực hiện luận án.
Nghiên cứu sinh

Nguyễn Văn Trung

ii


MỤC LỤC

Lời cam đoan
i
Lời cảm ơn
ii
Mục lục
iii
Danh mục từ viết tắt, thuật ngữ
v
Danh mục ký hiệu
vi
Danh mục bảng, biểu
vii
Danh mục hình vẽ
viii
Mở đầu
1
Chương 1. TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT
1.1
1.2

QUÁN TRONG ONTOLOGY
Ontology và tri thức không nhất quán . . . . . . . . . . . . . . . . . .
Khung lập luận với ontology không nhất quán sử dụng chiến lược phát

9
9

triển tuyến tính tập tiên đề diễn giải . . . . . . . . . . . . . . . . . . .
1.2.1 Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Hàm chọn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Phép suy luận không chuẩn sử dụng hàm chọn đơn điệu . . . .
1.2.4 Phép suy luận không chuẩn sử dụng hàm chọn dựa trên sự liên

15
15
19
20

quan cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Các nghiên cứu liên quan đến khung lập luận với ontology không

23

1.2.5

nhất quán sử dụng chiến lược mở rộng tuyến tính tập tiên đề
diễn giải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo

28

phương pháp đồng thuận . . . . . .
1.3.1 Hồ sơ xung đột . . . . . . .
1.3.2 Sự không nhất quán tri thức
1.3.3 Hàm đồng thuận . . . . . .
1.3.4 Các nghiên cứu liên quan xử

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
lý không nhất quán tri thức trong

32
32
33
40

quá trình tích hợp ontology bằng phương pháp đồng thuận . . .
1.4 Tiểu kết Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chương 2. SUY LUẬN VỚI ONTOLOGY KHÔNG NHẤT QUÁN SỬ

44
46

1.3

DỤNG HÀM CHỌN DỰA TRÊN ĐỘ LIÊN QUAN NGỮ
2.1

NGHĨA
Khoảng cách ngữ nghĩa giữa hai khái niệm trong ontology . . . . . . .

iii

47
48


2.2

Khoảng cách ngữ nghĩa giữa hai biểu thức khái niệm theo ontology tham

2.3
2.4

chiếu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Khoảng cách ngữ nghĩa giữa hai tiên đề theo ontology tham chiếu . . .
Suy luận với ontology không nhất quán sử dụng hàm chọn dựa trên

khoảng cách ngữ nghĩa . . . . . . . . . . . .
2.5 Thực nghiệm và đánh giá kết quả . . . . . .
2.6 Tiểu kết Chương 2 . . . . . . . . . . . . . .
Chương 3. XỬ LÝ XUNG ĐỘT MỨC KHÁI

53
55

. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
NIỆM TRONG QUÁ

61
67
71

TRÌNH TÍCH HỢP ONTOLOGY
Mô hình tích hợp tri thức dựa trên lý thuyết đồng thuận . . . . . . . .
Các mức xung đột trong quá trình tích hợp ontology . . . . . . . . . .
Xử lý xung đột mức khái niệm trong quá trình tích hợp ontology . . .
Vấn đề xây dựng hàm đánh giá khoảng cách cho các miền giá trị của

72
72
75
78

các thuộc tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Hàm đánh giá khoảng cách giữa hai biểu thức khái niệm . . . .
3.4.2 Hàm đánh giá khoảng cách giữa hai khoảng dữ liệu . . . . . . .
3.5 Tiểu kết Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chương 4. XỬ LÝ XUNG ĐỘT MỨC TIÊN ĐỀ TRONG QUÁ TRÌNH

85
85
86
93

TÍCH HỢP ONTOLOGY
Mô hình xử lý xung đột tri thức cấp độ cú pháp . . . . . . . . . . . . .
4.1.1 Bài toán tìm đồng thuận của các công thức hội và các tiêu chuẩn

94
95

cho đồng thuận . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Phân tích các tiêu chuẩn đồng thuận . . . . . . . . . . . . . . .
4.1.3 Thuật toán xác định đồng thuận . . . . . . . . . . . . . . . . .
4.2 Xử lý xung đột mức tiên đề trong quá trình tích hợp ontology . . . . .
4.3 Tiểu kết Chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
KẾT LUẬN
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN

98
100
109
115
119
120

LUẬN ÁN
TÀI LIỆU THAM KHẢO

122
123

3.1
3.2
3.3
3.4

4.1

iv


DANH MỤC TỪ VIẾT TẮT, THUẬT NGỮ
Từ viết tắt, thuật ngữ
ODP

Diễn giải
Over-determined Processing
Quy trình xử lý quá xác định

OWL

Ontology Web Language
Ngôn ngữ ontology dùng cho Web

W3C

World Wide Web Consortium
Tổ chức tiêu chuẩn quốc tế về World Wide Web

Conflict profile

Hồ sơ xung đột

Consensus theory

Lý thuyết đồng thuận

Data property

Thuộc tính dữ liệu

Domain

Miền xác định (của thuộc tính)

Object property

Thuộc tính đối tượng

Open World Assumption

Giả thiết thế giới mở

Range

Miền giá trị (của thuộc tính)

Semantic wiki

Wiki ngữ nghĩa

v


DANH MỤC KÝ HIỆU
Ký hiệu

Diễn giải ý nghĩa

O

Ontology

Σ

Ontology không nhất quán

Σ ,Σ

Ontology nhất quán với các tiên đề được chọn từ một
ontology không nhất quán khác

|≈

Phép suy luận không chuẩn

|≈Syn

Phép suy luận không chuẩn sử dụng hàm chọn dựa trên
độ liên quan cú pháp

|≈O

Phép suy luận không chuẩn sử dụng hàm chọn dựa trên
khoảng cách ngữ nghĩa của ontology tham chiếu O

R, S

Các tên vai trò, thuộc tính

A, B

Các tên cá thể

DPO (C)

Tập khái niệm cha trực tiếp của khái niệm trên một
ontology

DCO (C)

Tập khái niệm con trực tiếp của khái niệm trên một
ontology

LCPO (C, D)

Tập khái niệm cha chung tối thiểu của hai khái niệm
trên một ontology

C, D

Các tên khái niệm

CE 1 , CE 2

Các biểu thức khái niệm

DR1 , DR2

Các khoảng dữ liệu

DT

Kiểu dữ liệu

U

Tập vũ trụ

X, Y

Các hồ sơ xung đột

P1a , P1b

Các tiêu chuẩn cho hàm nhất quán

T1 , T2

Các tiêu chuẩn cho bộ tri thức tích hợp

H1 , H2

Các tiêu chuẩn cho công thức hội

vi


DANH MỤC BẢNG, BIỂU

Bảng 1.1. Tính thoả tiêu chuẩn của một số hàm nhất quán thông dụng . . . . .

40

Bảng 2.1. Các tiên đề về biểu thức khái niệm . . . . . . . . . . . . . . . . . . .
Bảng 2.2. Các tiên đề về thuộc tính đối tượng . . . . . . . . . . . . . . . . . . .
Bảng 2.3. Các tiên đề về thuộc tính dữ liệu, định nghĩa kiểu dữ liệu, khoá của

58
59

biểu thức khái niệm, phát biểu về dữ kiện . . .
Bảng 2.4. Các ontology thực nghiệm . . . . . . . . . . . .
Bảng 2.5. So sánh theo số lượng kết quả xác định của truy
Bảng 2.6. So sánh sự phát triển tập tiên đề diễn giải . . .

.
.
.
.

60
68
69
69

Bảng 3.1. Cấu trúc của khái niệm Course trong 5 ontology . . . . . . . . . . . .

91

. . .
. . .
vấn
. . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

Bảng 4.1. Ví dụ về các công thức hội của 3 tác tử mô tả tính chất của thuộc
tính hasSpouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Bảng 4.2. Trạng thái tri thức của các tác tử cho bài toán minh hoạ . . . . . . . 114

vii


DANH MỤC HÌNH VẼ

Hình 1.1.
Hình 1.2.
Hình 1.3.
Hình 1.4.
Hình 1.5.

Truy vấn với ontology không nhất quán . . . . .
Chiến lược mở rộng tuyến tính [21] . . . . . . .
Sơ đồ áp dụng hàm đồng thuận . . . . . . . . .
Trích dẫn của ontology tham chiếu OREF −T REE
Trích dẫn ontology của 4 chuyên gia . . . . . . .

.
.
.
.
.

13
21
43
44
45

Hình 2.1. Cây phân cấp khái niệm minh hoạ . . . . . . . . . . . . . . . . . . . .
Hình 2.2. Ontology tham chiếu O . . . . . . . . . . . . . . . . . . . . . . . . . .

50
65

viii

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.


MỞ ĐẦU
1. Tính cấp thiết của đề tài
Năm 2001, Tim Berners Lee cùng cộng sự đã đưa ra phác thảo cho một “dạng
thức mới về nội dung web mà dạng thức này có ý nghĩa đối với máy tính” [4].
Thế hệ web sử dụng dạng thức nội dung này – gọi là Web ngữ nghĩa (Semantic
Web) – cho phép máy tính có thể “hiểu” tri thức được lưu trữ, theo đó có thể
chia sẻ và tái sử dụng các cơ sở tri thức trong các hệ thống thông tin thuộc
nhiều lĩnh vực khác nhau. So với Web hiện tại – là một kho tài liệu được liên
kết với nhau – Web ngữ nghĩa là một nền tảng dữ liệu mà trong đó thông tin
được lưu ở dạng định nghĩa tường minh, cho phép máy tính và con người có thể
làm việc được cùng nhau [4].
Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát triển nhanh và nhận
được sự quan tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công
nghệ Web ngữ nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau trong
thực tế như tin-sinh học, tin học trong y tế, quản trị tri thức, công nghệ phần
mềm, . . . Thành phần quan trọng trong các ứng dụng web ngữ nghĩa là ontology.
Trong một ontology người ta định nghĩa các thực thể (bao gồm khái niệm,
thuộc tính, cá thể) và mối quan hệ giữa các thực thể này theo ngữ nghĩa được
quy định tường minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology được
sử dụng phổ biến và chuẩn hoá bởi tổ chức tiêu chuẩn quốc tế W3C (World
Wide Web Consortium) là OWL, được xây dựng dựa trên logic mô tả: Phiên
bản đầu tiên của OWL (được giới thiệu vào năm 2004) dựa trên logic mô tả
SHOIN (D), trong khi đó phiên bản thứ hai là OWL 2 (được giới thiệu vào năm

2009) dựa trên logic mô tả SROIQ(D). Các tác vụ lập luận cơ bản với một
ontology OWL – bao gồm kiểm tra tính nhất quán và truy vấn tri thức không
được phát biểu tường minh trong ontology – đã được cài đặt trong các bộ lập
luận RACER [15], FaCT+ [59], Pellet [56], HermiT [36], . . . Danh sách đầy đủ
các bộ lập luận dùng với ontology OWL được tổ chức W3C cập nhật thường
xuyên tại địa chỉ https://www.w3.org/2001/sw/wiki/OWL/Implementations.

1


Theo [13], vấn đề quan trọng của Web ngữ nghĩa là phải xử lý tri thức
không nhất quán trong các ontology. Điều này bắt nguồn từ chính đặc điểm xây
dựng và sử dụng ontology trong các ứng dụng Web ngữ nghĩa: Đặc tính có thể
mở rộng, có thể chia sẻ, tái sử dụng, phân tán và đa người dùng luôn tiềm ẩn
khả năng làm xuất hiện tri thức không nhất quán trong các ontology [22]. Trên
thực tế, nếu một ontology là không nhất quán, các truy vấn trên nó là không
có nghĩa [26]. Điều này là bởi bất kỳ tiên đề nào cũng là hệ quả logic của một
ontology không nhất quán. Nói cách khác, sự không nhất quán làm mất đi ý
nghĩa sử dụng của ontology trong các ứng dụng Web ngữ nghĩa. Chính vì vậy,
xử lý tri thức không nhất quán trong ontology là bài toán quan trọng, có ý nghĩa
thực tiễn và được cộng đồng khoa học máy tính quan tâm nghiên cứu.

2. Động lực nghiên cứu và cách tiếp cận nghiên cứu của luận án
Các phương pháp xử lý tri thức không nhất quán trong ontology có thể được
phân làm hai nhóm: (1) nhóm phương pháp chấp nhận tồn tại tri thức không
nhất quán trong ontology, và (2) nhóm phương pháp tìm cách loại bỏ tri thức
không nhất quán khỏi ontology:
(1) Các giải pháp thuộc nhóm thứ nhất – chấp nhận tồn tại tri thức không
nhất quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic
mô tả với ngữ nghĩa nửa nhất quán và xây dựng ontology dựa trên các logic
đó [31, 32, 38, 50]. Tác vụ truy vấn với các ontology dựa trên logic nửa nhất
quán vẫn có thể sử dụng các bộ lập luận dành cho logic mô tả xây dựng nên
OWL (bằng cách chuyển các bài toán lập luận trên các logic này về bài toán lập
luận trên các logic mô tả của OWL). Việc sử dụng logic với ngữ nghĩa nửa nhất
quán để xây dựng ontology, mặc dù tạo ra được mô hình biểu diễn tri thức toàn
diện nhưng lại khó triển khai trong thực tế do tính phổ biến của các ngôn ngữ
ontology đã được chuẩn hoá và khuyến nghị sử dụng bởi tổ chức W3C.
Trong rất nhiều trường hợp thực tế, các ứng dụng Web ngữ nghĩa cần truy
vấn thông tin được tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và
có thể không nhất quán) mà không được phép chỉnh sửa hay tạo mới ontology.
Một giải pháp phù hợp cho vấn đề này là khung lập luận với ontology không
nhất quán sử dụng chiến lược phát triển tuyến tính tập tiên đề diễn giải, được

2


đề xuất bởi nhóm tác giả Zhisheng Huang, Frank van Harmelen và cộng sự [21].
Khung lập luận này tìm câu trả lời có nghĩa cho truy vấn với ontology không
nhất quán bằng cách chọn ra một tập con gồm các tiên đề nhất quán từ ontology
đầu vào – gọi là tập tiên đề diễn giải truy vấn: tập tiên đề này có liên quan với
truy vấn theo một tiêu chí cụ thể cho trước và có thể trả lời được truy vấn. Quá
trình chọn tập tiên đề diễn giải có thể được diễn ra trong nhiều bước theo chiến
lược gọi là chiến lược mở rộng tuyến tính. Phần quan trọng nhất của khung lập
luận với ontology không nhất quán là hàm chọn để xây dựng tập tiên đề diễn
giải truy vấn. Hai hàm chọn điển hình được nhóm tác giả phát triển là hàm
chọn dựa trên sự liên quan cú pháp [21] và hàm chọn dựa trên khoảng cách ngữ
nghĩa theo máy tìm kiếm Google [23]. Hai hàm chọn này đều có chung nhược
điểm là phụ thuộc vào cú pháp (tên khái niệm trong tiên đề) trong quá trình
phát triển tập tiên đề diễn giải. Khắc phục nhược điểm này chính là một động
lực nghiên cứu của luận án: Luận án đề xuất xây dựng tập tiên đề diễn giải theo
độ liên quan ngữ nghĩa giữa các tiên đề với truy vấn đầu vào. Độ liên quan này
được xác định dựa trên khoảng cách ngữ nghĩa giữa các khái niệm, giữa các biểu
thức khái niệm khi đặt chúng trên cây phân cấp khái niệm của một ontology,
ontology này được gọi là ontology tham chiếu.
(2) Các giải pháp thuộc nhóm thứ hai – tìm cách loại bỏ tri thức không nhất
quán thông qua việc xây dựng mới ontology từ một hoặc nhiều ontology đầu vào.
Việc tạo mới ontology như vậy diễn ra theo hai chiến lược: chiến lược thứ nhất,
dò tìm, đề xuất chỉnh sửa hoặc loại bỏ một số tiên đề gây nên sự không nhất
quán khỏi ontology [25, 29, 51, 54]; và chiến lược thứ hai, áp dụng lý thuyết đồng
thuận để xây dựng tập tiên đề hợp lý nhất (theo một tiêu chuẩn xác định trước)
có thể đại diện cho các ontology đầu vào [39, 40, 41, 43, 45, 46, 47, 48, 49]. Chiến
lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một ontology,
trong khi đó, chiến lược thứ hai thường được sử dụng để xử lý xung đột trong
quá trình tích hợp ontology đến từ nhiều nguồn phân tán, độc lập nhau.
Xử lý tri thức không nhất quán theo phương pháp đồng thuận được thực
hiện thông qua việc xây dựng mô hình biểu diễn sự không nhất quán tri thức
(gọi là xung đột tri thức) – dưới dạng hồ sơ xung đột. Dựa vào độ sai khác giữa
các trạng thái tri thức (xác định bởi hàm đánh giá khoảng cách giữa hai trạng

3


thái tri thức) và tập tiêu chuẩn cho tri thức đồng thuận, người ta sẽ đề xuất
phương pháp xác định trạng thái tri thức đồng thuận có thể đại diện cho tập
trạng thái tri thức đầu vào. Phương pháp này được tác giả Nguyễn Ngọc Thành
đề xuất vào năm 2002 [40] và cùng với các cộng sự mở rộng trong các công trình
sau đó [42, 43, 46, 47].
• Trong các công trình [44, 45, 48], tác giả Nguyễn Ngọc Thành đã phân

loại xung đột trong quá trình tích hợp ontology theo các mức (mức khái
niệm, mức quan hệ, mức cá thể) và đề xuất các phương pháp để xử lý
xung đột theo các mức này. Xung đột mức khái niệm là chủ đề được đặc
biệt quan tâm xử lý bởi các khái niệm là thành phần quan trọng trong
ontology. Nhóm tác giả Dương Trọng Hải, Nguyễn Ngọc Thành và cộng
sự [9] kết hợp lý thuyết đồng thuận và xét thêm phân loại khái niệm của
các ontology đầu vào để cải tiến chất lượng của quá trình tích hợp. Nhóm
tác giả Nguyễn Ngọc Thành và Trương Hải Bằng [49, 58], Dương Trọng
Hải, Nguyễn Ngọc Thành và Kozierk [9] đã mở rộng các kết quả trên để
xử lý xung đột mức khái niệm trong quá trình tích hợp ontology mờ.
Trong bài toán xử lý xung đột mức khái niệm, cấu trúc khái niệm được
xét theo hai khía cạnh: tập thuộc tính mô tả khái niệm và miền giá trị của
thuộc tính. Tuy vậy, các nghiên cứu xử lý xung đột mức khái niệm trong
quá trình tích hợp ontology hiện nay chỉ tập trung xây dựng danh sách
thuộc tính của khái niệm cần tích hợp. Trong khi đó, miền giá trị của các
thuộc tính chỉ được xác định bằng cách lấy hợp của các miền giá trị thành
phần. Điều này có nghĩa xung đột về miền giá trị của thuộc tính là chưa
được xét đến. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức
theo phương pháp đồng thuận [45] và đề xuất phương án xử lý xung đột
mức khái niệm trong quá trình tích hợp ontology, trong đó có xét đến cả
hai khía cạnh: danh sách thuộc tính và miền giá trị của thuộc tính.
• Một mức xung đột khác cũng có thể xảy ra trong quá trình tích hợp

ontology đó là xung đột mức tiên đề, theo đó, tập tiên đề của các ontology
tham gia tích hợp là có sai khác nhau hoặc thậm chí mâu thuẫn nhau.
Tình huống này cũng có thể thường xuyên xảy ra trong quá trình xây
dựng ontology theo kiểu phân tán, cộng tác, đa người dùng [6, 60, 61] mà

4


trong đó, một ontology có thể được xây dựng bởi nhiều người dùng tự
nguyện thông qua một wiki ngữ nghĩa [17, 27, 37] hoặc bởi các chuyên gia
được thuê [34].
Tuy nhiên, xung đột mức tiên đề trong quá trình tích hợp ontology hiện
vẫn là bài toán chưa có giải pháp tốt và thuyết phục như các mức khái
niệm, quan hệ hay cá thể. Bằng cách biểu diễn một tiên đề dưới dạng một
literal , mỗi ontology thành phần có thể được biểu diễn dưới dạng hội của
các literal đó. Như vậy, bài toán xử lý xung đột tập tiên đề có thể được dẫn
về bài toán xử lý xung đột ở cấp độ cú pháp của các công thức hội [45].
Luận án sẽ xây dựng khoảng cách giữa hai công thức hội, phân tích các
tiêu chuẩn cho công thức hội đồng thuận và đề xuất phương án tìm công
thức hội đồng thuận. Kết quả này có thể áp dụng cho bài toán xử lý xung
đột mức tiên đề.

3. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu của luận án là ontology, tri thức không nhất quán trong
ontology, và các phương pháp xử lý tri thức không nhất quán trong ontology.
Trên cơ sở phân tích các động lực nghiên cứu, luận án xác định mục tiêu xử lý
tri thức không nhất quán trong ontology theo hai tác vụ truy vấn và tích hợp.
Mục tiêu nghiên cứu cụ thể của luận án được giới hạn theo ba bài toán sau đây:
• Bài toán thứ nhất: Xác định câu trả lời có nghĩa khi truy vấn với ontology

không nhất quán. Trong bài toán này, luận án nghiên cứu đề xuất phương
pháp sử dụng ontology tham chiếu để tính khoảng cách ngữ nghĩa giữa hai
khái niệm, giữa hai biểu thức khái niệm, giữa hai tiên đề. Khoảng cách
ngữ nghĩa này sẽ được dùng để xây dựng hàm chọn của khung lập luận với
ontology không nhất quán [21].
• Bài toán thứ hai: Xử lý xung đột mức khái niệm trong quá trình tích hợp

ontology. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo
phương pháp đồng thuận [45] để tìm đồng thuận cho cấu trúc khái niệm.
Sự không nhất quán trong cấu trúc khái niệm sẽ được giải quyết ở cả danh
sách thuộc tính và miền giá trị của các thuộc tính.
• Bài toán thứ ba: Xử lý xung đột mức tiên đề trong quá trình tích hợp

5


ontology. Trên cơ sở biểu diễn xung đột mức tiên đề trong quá trình tích
hợp ontology dưới dạng xung đột về cú pháp [45], luận án đánh giá độ sai
khác của các tập tiên đề và xây dựng phương pháp tìm tập tiên đề đồng
thuận theo các tiêu chuẩn dựa trên độ sai khác này.

4. Ý nghĩa khoa học và thực tiễn của luận án
Luận án nghiên cứu về các phương pháp xử lý tri thức không nhất quán
trong ontology. Các điểm mới trong nghiên cứu của luận án là:
• Đề xuất phương pháp sử dụng khoảng cách ngữ nghĩa theo ontology tham

chiếu trong hàm chọn của khung lập luận với ontology không nhất quán.
Hàm chọn được xây dựng sẽ không bị phụ thuộc cú pháp biểu diễn của các
tiên đề trong ontology.
• Đề xuất phương pháp dựa trên lý thuyết đồng thuận để xử lý xung đột

mức khái niệm trong quá trình tích hợp ontology ở cả hai khía cạnh: danh
sách thuộc tính và miền giá trị của các thuộc tính.
• Đề xuất phương pháp dựa trên lý thuyết đồng thuận để xử lý xung đột

mức tiên đề trong quá trình tích hợp ontology.
Các đóng góp về mặt lý thuyết của luận án có ý nghĩa lớn trong các vấn đề
thực tiễn:
• Góp phần giải quyết bài toán truy vấn với ontology không nhất quán. Đây

là vấn đề bức thiết trong thời đại dữ liệu liên kết mở (open linked data),
trong đó tri thức không nhất quán được xem là một đặc tính phải chấp
nhận.
• Góp phần giải quyết xung đột trong quá trình tích hợp ontology theo hướng

xây dựng trí tuệ nhóm (collective intelligence): Các kết quả lý thuyết về xử
lý xung đột mức khái niệm và về mức tiên đề có thể được áp dụng trong
bài toán xây dựng ontology theo kiểu cộng tác, đa người dùng của một
wiki hay wiki ngữ nghĩa – một nền tảng đang rất phổ biến hiện nay.

5. Nội dung và bố cục của luận án
Chương 1 trình bày tổng quan về xử lý tri thức không nhất quán trong

6


ontology theo hai hướng: (1) lập luận với ontology không nhất quán sử dụng
chiến lược mở rộng tuyến tính tập tiên đề diễn giải theo truy vấn đầu vào,
và (2) xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo
phương pháp đồng thuận. Trong chương này luận án trình bày các khái niệm
cơ bản về khung lập luận với ontology không nhất quán sử dụng hàm chọn để
mở rộng tuyến tính tập tiên đề diễn giải. Hàm chọn dựa trên sự liên quan cú
pháp được giới thiệu trong chương như là ví dụ áp dụng khung lập luận và cũng
làm cơ sở để so sánh với hàm chọn dựa trên khoảng cách ngữ nghĩa sẽ được xây
dựng trong luận án. Luận án cũng trình bày phương pháp biểu diễn sự không
nhất quán tri thức theo mô hình hồ sơ xung đột. Phương pháp xây dựng đồng
thuận từ hồ sơ xung đột thông qua hàm đồng thuận cùng với các tiêu chuẩn cho
hàm đồng thuận cũng sẽ được trình bày trong chương. Các cơ sở lý thuyết này
được liên hệ đến bài toán xử lý tri thức không nhất quán trong quá trình tích
hợp ontology theo phương pháp đồng thuận.
Trong Chương 2, luận án trình bày cách xác định khoảng cách ngữ nghĩa
giữa hai thực thể trên ontology (dựa vào số cung nối của chúng trên cây phân
cấp). Trên cơ sở đó luận án xây dựng phương pháp hiệu quả để tính khoảng
cách ngữ nghĩa giữa hai biểu thức thực thể bất kỳ khi đặt trên cây phân cấp của
ontology này – gọi là ontology tham chiếu. Biểu thức thực thể ở đây có thể là biểu
thức lớp, biểu thức thuộc tính đối tượng hoặc thuộc tính dữ liệu trong ontology
OWL. Phần nội dung quan trọng của chương trình bày phương pháp xác định
tập biểu thức thực thể của một tiên đề trong ontology OWL và xây dựng hàm
chọn tập tiên đề diễn giải dựa vào khoảng cách ngữ nghĩa theo ontology tham
chiếu. Chương này cũng trình bày các kết quả thực nghiệm cho việc áp dụng
hàm chọn được đề xuất của luận án khi truy vấn với một số ontology không
nhất quán.
Chương 3 trình bày phương pháp đồng thuận xử lý tri thức không nhất quán
mức khái niệm trong quá trình tích hợp ontology. Trong chương này, luận án
giới thiệu mô hình tổng quát tích hợp tri thức theo phương pháp đồng thuận.
Luận án áp dụng mô hình này để xử lý tri thức không nhất quán mức khái
niệm theo hai khía cạnh: về danh sách thuộc tính và về miền giá trị của thuộc
tính trong đặc tả khái niệm cần tích hợp. Phương pháp xác định khoảng cách

7


giữa hai miền giá trị của thuộc tính đối tượng và thuộc tính dữ liệu trong các
ontology OWL cũng được trình bày trong chương này.
Trong Chương 4, luận án trình bày mô hình biểu diễn sự không nhất quán
tri thức mà trong đó một trạng thái tri thức được biểu diễn bằng một cấu trúc
hội của các literal. Sau khi xây dựng hàm đánh giá khoảng cách với cấu trúc
này, luận án phân tích các tiêu chuẩn của hàm đồng thuận và đưa ra phương
pháp xây dựng đồng thuận của hồ sơ các cấu trúc hội. Áp dụng kết quả này
luận án đề xuất phương pháp xử lý sự không nhất quán mức tiên đề trong quá
trình tích hợp ontology.
Phần kết luận trình bày tóm tắt những đóng góp chính của luận án, hướng
phát triển và những vấn đề cần giải quyết trong tương lai.

8


Chương 1.
TỔNG QUAN VỀ
XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN
TRONG ONTOLOGY
1.1. Ontology và tri thức không nhất quán
Có nhiều định nghĩa về ontology, nhưng định nghĩa thể hiện rõ bản chất của
ontology và được trích dẫn nhiều nhất là của T. Gruber và W. Brost [5, 14]:
“Ontology là một đặc tả hình thức, tường minh về một sự khái niệm hoá được
chia sẻ”. Một “sự khái niệm hoá” nói đến một mô hình trừu tượng của một hiện
tượng, chủ đề cụ thể bằng cách chỉ ra các khái niệm có liên quan của chủ đề đó.
Tính “tường minh” được hiểu theo nghĩa, các kiểu khái niệm được sử dụng, các
ràng buộc giữa chúng là được định nghĩa rõ ràng. Tính “hình thức” cho phép
ontology có thể được sử dụng bởi máy tính. Cuối cùng, tính “được chia sẻ” cho
biết, tri thức được mô tả bởi ontology được sự chấp nhận của một cộng đồng
chứ không phải một cá nhân đơn lẻ.
Các thành phần cấu trúc nên một ontology bao gồm tập các khái niệm, tập
các cá thể, tập các quan hệ và tập các tiên đề như định nghĩa dưới đây.
Định nghĩa 1.1 (Ontology [45]). Một ontology là một bộ bốn C, I, R, Z , trong
đó:
• C là tập hợp các khái niệm (các lớp).
• I là tập hợp các cá thể của các khái niệm.
• R là tập hợp các quan hệ.
• Z là tập hợp các tiên đề biểu diễn các ràng buộc toàn vẹn dùng để mô tả

các thực thể (khái niệm, cá thể, quan hệ).

9


Ở Định nghĩa 1.1, R còn được gọi là tập thuộc tính. Các thuộc tính p ∈ R
được định nghĩa bởi ánh xạ p : D → R, trong đó: D ⊆ C được gọi là miền xác
định của thuộc tính và R được gọi là miền giá trị của thuộc tính. Người ta phân
biệt hai loại thuộc tính: thuộc tính đối tượng dùng để liên kết các cá thể với
nhau, và thuộc tính dữ liệu dùng để liên kết các cá thể với các giá trị dữ liệu.
Một ontology có thể được xem là một tập tiên đề mô tả một tình huống cụ
thể, gọi là một trạng thái tri thức – trong một lĩnh vực đang được quan tâm
nào đó [26]. Chẳng hạn, ontology ở ví dụ dưới đây mô tả trạng thái tri thức cụ
thể thuộc lĩnh vực sở hữu thú nuôi của con người.
Ví dụ 1.1. Xét ontology Σ = C, I, R, Z với:
• C = {Animal, Person, AnimalLover, Pet, Cat, Dog }.
• I = { TOM, KITTY, MARY, JOHN }.
• R = { hasPet, hasAge }.
• Z = { Person

Animal,

Pet

Animal,

Cat

Pet,

Dog

Pet,

AnimalLover ≡ Person
Pet
Dog

⊥,

Person
Cat

∃hasPet.

( 3 hasPet. ),

⊥,
Person,

∀ hasPet.Pet,
∃hasAge.

Person,

∀hasAge.unsignedInt,
Cat(TOM),
Cat(KITTY),
Person(MARY),
Person(JOHN),
hasPet(MARY, KITTY),
hasAge(MARY, 25) }.

10


Ý nghĩa của các tiên đề trong ontology Σ là như sau:
• Cat(TOM), Cat(KITTY): TOM và KITTY là các cá thể của khái niệm Cat.
• Person(MARY), Person(JOHN): MARY và JOHN là các cá thể của khái niệm
Person.
• AnimalLover ≡ Person

( 3 hasPet. ): Khái niệm AnimalLover gồm những cá

thể thuộc khái niệm Person và có quan hệ với ít nhất 3 cá thể tuỳ ý thông
qua thuộc tính hasPet.
• ∃hasPet.


Person: miền xác định của thuộc tính hasPet là khái niệm Person.

∀hasPet.Pet: miền giá trị của thuộc tính hasPet là khái niệm Pet.

• ∃hasAge.

Person: miền xác định của thuộc tính hasAge là khái niệm

Person.


∀hasAge.unsignedInt: miền giá trị của thuộc tính hasAge là tập số

nguyên không âm.
• Pet

Person

• Cat

Dog

⊥: hai khái niệm Pet và Person không có chung cá thể nào.
⊥: hai khái niệm Cat và Dog không có chung cá thể nào.

• hasPet(MARY, KITTY): Cá thể MARY có quan hệ với cá thể KITTY thông

qua thuộc tính hasPet.
• hasAge(MARY, 25): Cá thể MARY có quan hệ với cá thể số không âm 25

thông qua thuộc tính hasAge.
Các thuộc tính hasPet, hasAge trong ontology tương ứng là thuộc tính đối
tượng và thuộc tính dữ liệu.
Ý nghĩa hình thức của các tiên đề trong ontology được quy định cụ thể bởi
ngôn ngữ xây dựng nên ontology. Ngôn ngữ ontology thông dụng nhất hiện nay
là OWL 2 được dựa trên logic mô tả SROIQ(D).
Ngữ nghĩa của OWL 2 được định nghĩa thông qua các phép diễn dịch, theo
đó, các phép diễn dịch sẽ nêu tường minh mối quan hệ giữa cú pháp và ngữ
nghĩa [19]: Một phép diễn dịch I = ∆I , ·I gồm một miền diễn dịch khác rỗng
11


∆I và một hàm diễn dịch ·I . Hàm diễn dịch ánh xạ (1) mỗi tên khái niệm A

với một tập AI là tập con của ∆I , (2) mỗi tên thuộc tính p với một tập pI
là tập con của một quan hệ nhị phân trên ∆I , và (3) mỗi tên khái niệm a với
một đối tượng aI trong miền diễn dịch ∆I . Hàm diễn dịch được mở rộng với
các khái niệm phức, vai trò phức (thông qua các tạo tử khái niệm, tạo tử vai
trò của ngôn ngữ ontology) cũng như các tiên đề trong ontology. Định nghĩa
chi tiết về ngữ nghĩa của OWL 2 được nêu ở https://www.w3.org/TR/2012/
REC-owl2-direct-semantics-20121211. Một phép diễn dịch thoả tất cả các
tiên đề trong ontology được gọi là một mô hình của ontology đó. Một ontology
được gọi là không nhất quán nếu không có mô hình nào. Nguyên nhân dẫn đến
điều này là do tập tiên đề của ontology có chứa mâu thuẫn.
Tri thức không được phát biểu tường minh bởi các tiên đề trong ontology
có thể được kiểm tra bằng cách đánh giá kết quả truy vấn: Gọi α là một tiên
đề. Truy vấn α với ontology O được viết là “ O |= α?” có kết quả “Đúng” nếu α
là hệ quả logic của tập tiên đề trong O, viết là O |= α. Khi đó ta cũng nói, α
được suy dẫn từ O. Ngược lại, nếu α không phải là hệ quả logic của tập tiên
đề trong O, kết quả của truy vấn là “Sai” và ta viết O |= α. Theo Giả thiết
Thế giới Mở, O |= α không đồng nghĩa với O |= ¬α. Chẳng hạn, ở Ví dụ 1.1
ta có: Σ |= Cat

Animal và Σ |= AnimalLover(MARY). Điều đặc biệt, khi ontology

là không nhất quán, thì mọi tiên đề đều là hệ quả logic của ontology đó [26].
Như vậy, việc truy vấn một ontology không nhất quán là không có nghĩa. Ví
dụ 1.2 dưới đây mô tả một ontology không nhất quán và các kết quả truy vấn
với ontology này.
Ví dụ 1.2 (Ontology không nhất quán và các kết quả truy vấn với ontology
không nhất quán). Gọi Σ = C, I, R, Z là ontology với C, I, R, Z được định
nghĩa như ở Ví dụ 1.1 và Z = Z ∪ {Person(TOM)} .
Có thể thấy rằng, tập con sau đây gồm các tiên đề của Z dưới đây là có
chứa mâu thuẫn:
{ Cat

Pet, Pet

Person

⊥, Person(TOM), Cat(TOM) }

Do vậy, Σ là không có mô hình nào, hay Σ là ontology không nhất quán.
Hình 1.1 mô tả các kết quả truy vấn với ontology không nhất quán Σ . Kết quả
12


cho thấy kết quả các truy vấn này đều là “Đúng”, hay các tiên đề đều là hệ quả
logic của ontology không nhất quán Σ .

Hình 1.1: Truy vấn với ontology không nhất quán
13


Người ta phân các phương pháp xử lý tri thức không nhất quán trong
ontology làm hai nhóm: (1) chấp nhận tồn tại tri thức không nhất quán trong
ontology, và (2) tìm cách loại bỏ tri thức không nhất quán để xây dựng ontology
mới, nhất quán.
(1) Các phương pháp thuộc nhóm thứ nhất chấp nhận tồn tại tri thức không
nhất quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic
mô tả với ngữ nghĩa nửa nhất quán và xây dựng ontology dựa trên các logic
đó [31, 32, 38, 50]. Việc sử dụng logic với ngữ nghĩa nửa nhất quán để xây dựng
ontology, mặc dù tạo ra được mô hình biểu diễn tri thức toàn diện nhưng lại khó
triển khai trong thực tế do tính phổ biến của các ngôn ngữ ontology đã được
chuẩn hoá và khuyến nghị sử dụng bởi tổ chức W3C.
Trong thực tế, có nhiều trường hợp người dùng cần truy vấn thông tin được
tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và có thể không nhất
quán khi được tổng hợp lại) mà không được phép chỉnh sửa hay tạo mới ontology.
Để giải quyết vấn đề này, nhóm tác giả Zhisheng Huang, Frank van Harmelen
và cộng sự [21] đã đề xuất khung lập luận với ontology không nhất quán sử dụng
chiến lược phát triển tuyến tính tập tiên đề diễn giải. Khung lập luận này tìm
câu trả lời có nghĩa cho truy vấn với ontology không nhất quán bằng cách chọn
ra một tập con gồm các tiên đề nhất quán từ ontology đầu vào: tập tiên đề này
có liên quan với truy vấn theo một tiêu chí xác định trước và có thể trả lời được
truy vấn (gọi là tập tiên đề diễn giải truv vấn). Mục 1.2 của chương sẽ trình bày
các khái niệm cơ bản và đánh giá một số tiếp cận ứng dụng khung lập luận này.
(2) Các phương pháp thuộc nhóm thứ hai tìm cách loại bỏ sự không nhất
quán để xây dựng ontology nhất quán từ (một hoặc nhiều) ontology đầu vào. Việc
tạo mới ontology như vậy diễn ra theo hai chiến lược: chiến lược thứ nhất, dò tìm
và loại bỏ một số tiên đề khỏi ontology theo một tiêu chí cụ thể [25, 29, 51, 54],
và chiến lược thứ hai, áp dụng lý thuyết đồng thuận [2] để xây dựng tập tiên đề
hợp lý nhất (theo một tiêu chí cụ thể nào đó) có thể đại diện cho các ontology
đầu vào [39, 40, 41, 43, 45, 46, 47, 48, 49].
Chiến lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một
14


ontology, trong khi đó, chiến lược thứ hai thường được sử dụng để xử lý tri thức
không nhất quán xuất hiện do có xung đột trong quá trình tích hợp ontology
đến từ nhiều nguồn phân tán, độc lập nhau. Mục 1.3 của chương sẽ trình bày
các khái niệm cơ bản về biểu diễn và xử lý xung đột tri thức bằng phương pháp
đồng thuận. Trên cơ sở này luận án sẽ xây dựng các giải pháp để xử lý tri thức
không nhất quán trong quá trình tích hợp ontology.

1.2. Khung lập luận với ontology không nhất quán sử dụng chiến
lược phát triển tuyến tính tập tiên đề diễn giải
1.2.1. Các khái niệm cơ bản
Khung lập luận với ontology không nhất quán được đề xuất bởi Zhisheng
Huang, Frank van Harmelen và cộng sự [21]. Khung lập luận này xem một
ontology như là một tập hợp các tiên đề và không giới hạn cho loại ngôn ngữ
ontology cụ thể nào. Theo đó, gọi L là một ngôn ngữ ontology, chúng ta ký hiệu
2L là tập gồm tất cả các tập tiên đề trên ngôn ngữ L. Ontology Σ có thể xem

là một tập tiên đề trên ngôn ngữ L: Σ ∈ 2L . Để phân biệt với phép suy luận
chuẩn |=, chúng ta sử dụng |≈ để ký hiệu cho phép suy luận không chuẩn, phép
suy luận này có thể được tham số hoá để có thể chấp nhận sự không nhất quán.
Với một ontology nhất quán Σ, phép suy luận chuẩn luôn luôn đảm bảo tính
đúng, theo nghĩa, nếu một tiên đề được cho là được suy dẫn từ Σ thì điều này
sẽ đúng cho mọi mô hình của Σ [26]. Tính đúng như vậy là không thích hợp
với một ontology không nhất quán, bởi vì nếu ontology Σ là không nhất quán
thì mọi tiên đề đều là hệ quả logic của nó. Trong nhiều tình huống thực tế, sự
không nhất quán của một ontology có thể bắt nguồn từ lỗi của một phần nhỏ
của nó (một hoặc một số ít tiên đề của ontology bị xây dựng sai), trong khi
phần còn lại của ontology thì không có lỗi. Chính vì thế, người ta định nghĩa
tính đúng trong một phép suy luận không chuẩn để có thể sử dụng với ontology
không nhất quán như sau.
Định nghĩa 1.2 (Tính đúng [21]). Một phép suy luận không chuẩn |≈ được gọi
là đúng nếu các tiên đề được suy dẫn từ một ontology không nhất quán Σ theo
|≈ thì cũng được suy dẫn từ một tập con gồm các tiên đề nhất quán của Σ (gọi

là ontology con nhất quán của Σ) bằng phép suy luận chuẩn |=, tức là điều kiện
15


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×