Tải bản đầy đủ

Xây dựng thuật toán IHAUI để khai thác dữ liệu dựa trên độ hữu ích trung bình

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

NGUYỄN MINH TÂN

XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI
THÁC DỮ LIỆU DỰA TRÊN
ĐỘ HỮU ÍCH TRUNG BÌNH

LUẬN VĂN THẠC SĨ
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 01 năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM


---------------------------

NGUYỄN MINH TÂN

XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI
THÁC DỮ LIỆU DỰA TRÊN
ĐỘ HỮU ÍCH TRUNG BÌNH

LUẬN VĂN THẠC SĨ
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. LÊ THỊ NGỌC THƠ

TP. HỒ CHÍ MINH, tháng 01 năm 2018


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
Cán bộ hướng dẫn khoa học: TS. LÊ THỊ NGỌC THƠ

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP.HCM
ngày tháng năm 2018.
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
TT

Họ và tên

Chức danh Hội đồng

1

Chủ tịch

2

Phản biện 1

3

Phản biện 2



4

Ủy viên

5

Ủy viên, Thư ký

Chủ tịch Hội đồng đánh giá LV


TRƯỜNG ĐH CÔNG NGHỆ TP.HCM
VIỆN ĐÀO TẠO SAU ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 12 tháng 01 năm 2018

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: ........... NGUYỄN MINH TÂN

Giới tính: ..................... Nam

Ngày, tháng, năm sinh: .....................25/02/1989

Nơi sinh: .............. Tây Ninh

Chuyên ngành: .............. Công Nghệ Thông Tin

MSHV: ............1541860042

I- Tên đề tài:

XÂY DỰNG THUẬT TOÁN IHAUI ĐỂ KHAI THÁC DỮ LIỆU DỰA
TRÊN ĐỘ HỮU ÍCH TRUNG BÌNH
II- Nhiệm vụ và nội dung:
1. Giới thiệu tổng quan về khai thác dữ liệu và khai thác luật kết hợp dựa trên
tập phổ biến, tập hữu ích và tập hữu ích trung bình.
2. Trình bày một số thuật toán cho quá trình khai thác tập itemset có giá trị hữu
ích cao và hữu ích trung bình cao.
3. Xây dựng thuật toán khai thác các itemset có giá trị hữu ích trung bình cao
trên dữ liệu động. Cho ví dụ minh họa và nhận xét.
4. Cài đặt chương trình thực nghiệm
III- Ngày giao nhiệm vụ:

13/02/2017

IV- Ngày hoàn thành nhiệm vụ:

30/12/2017

V- Cán bộ hướng dẫn:

TS. Lê Thị Ngọc Thơ

CÁN BỘ HƯỚNG DẪN

KHOA QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký)

(Họ tên và chữ ký)

TS. Lê Thị Ngọc Thơ


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã
được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Tp.HCM, ngày 12 tháng 01 năm 2018
Tác giả luận văn

NGUYỄN MINH TÂN


ii

LỜI CẢM ƠN
Trước tiên, tôi xin gởi lời cảm ơn và sự tri ân sâu sắc đối với các thầy cô của
Trường Đại học Kỹ thuật Công nghệ Tp. HCM, đặc biệt là các Thầy Cô Khoa Công
nghệ Thông tin đã truyền đạt vốn kiến thức quý báu cho chúng tôi trong suốt thời
gian học tập tại trường.
Đồng thời, tôi cũng xin gửi lời cảm ơn đến Ban Giám hiệu, Khoa Công nghệ
Thông tin Trường Đại học Quốc tế Sài Gòn, cũng như các đồng nghiệp ở bộ môn
Tin học đã tạo điều kiện và giúp đỡ tôi hoàn thành khóa học này.
Đặc biệt, tôi gởi lời cảm ơn chân thành đến TS. Lê Thị Ngọc Thơ, Trường
Đại học Kỹ thuật Công nghệ Tp.HCM, Cô đã nhiệt tình hướng dẫn và định hướng,
giúp tôi hoàn thành luận văn này.
Sau cùng, tôi gửi lời biết ơn đến gia đình, bạn bè và các bạn cùng lớp đã ủng
hộ, tạo điều kiện tốt cho tôi trong suốt khóa học.
Trong quá trình thực hiện luận văn, tôi đã cố gắng hoàn thành tốt với tất cả
nỗ lực của bản thân, nhưng chắc chắn không tránh khỏi những sai sót và hạn chế.
Rất mong nhận được sự đóng góp ý kiến của Quý Thầy Cô và các bạn để tôi học
thêm được nhiều kinh nghiệm.
Tôi xin chân thành cảm ơn!
Nguyễn Minh Tân


iii

TÓM TẮT
Nội dung chính của luận văn là tìm hiểu các thuật toán khai thác tập hữu ích
trung bình và khai thác tập hữu ích trung bình trên dữ liệu động. Tác giả đã tìm hiểu
sự thay đổi các giá trị của các itemsets khi cập nhật thêm các giao dịch và tính toán
sự thay đổi đó. Trên cơ sở đó tác giả đề xuất cải tiến thuật toán HAUI-Tree để tính
toán tập các giá trị của itemset trong cơ sở dữ liệu thêm vào và cập nhật lại tập các
itemsets hữu ích trung bình. Định hướng của đề xuất này là khi thêm các giao dịch
mới, các itemsets thỏa ngưỡng trong cơ sở dữ liệu ban đầu và tập dữ liệu mới thêm
vào sẽ được cập nhật mà không cần phải tính lại tất cả như chạy thuật toán từ đầu.
Nội dung cụ thể của luận văn này là xây dựng thuật toán IHAUI-Tree để khai
thác các itemsets dựa trên độ hữu ích trung bình. Khi các giao dịch được thêm mới
vào cơ sở dữ liệu, thuật toán chỉ cần tính toán các giá trị thay đổi và cập nhật lại tập
hữu ích trung bình mà không cần chạy lại từ đầu. Đồng thời, trong nghiên cứu này
tác giả đề xuất một cấu trúc dữ liệu cho itemset để cải tiến việc tính toán các giá trị
cho các itemset nhanh hơn.
Phương pháp đề xuất đã được thực nghiệm trên bộ dữ liệu mẫu và so sánh
kết quả với các phương pháp trước đó. Kết quả thực nghiệm cho thấy, giải pháp
được đề xuất nâng cao hiệu quả việc khai thác các itemsets hữu ích trung bình, nhất
là khi việc cập nhật dữ liệu luôn thường xuyên.


iv

ABSTRACT
The main content of this thesis is to study algorithms for mining average
utility itemsets on the dynamic data, learn about changes in the values of the
itemsets when updating transactions, calculate those changes and suggest improving
the HAUI-Tree algorithm to calculate the set of the values of the itemsets in the
added database and to update the set of the average utility itemsets. The objective of
this work is to ensure that when new transactions are added, the itemsets meeting
the threshold in the original database and the newly added dataset will be updated
without re-running the algorithm from scratch.
In particular, the IHAUI-Tree algorithm is developed to exploit the itemsets
based on the average utility. When transactions are added to the database, the
algorithm only needs to calculate the changed values and update the average utility
itemsets without re-running from the scratch. In this work, we proposed a new data
structure for the itemsets to help calculate the values of the itemsets faster.
The proposed approach is experiement on two data sets. The results were
compared to previous algorithms and shown that our proposed solution improve the
efficiency in exploiting the average utility itemsets, especially when data is
frequently updated.


v

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................i
LỜI CẢM ƠN ............................................................................................................ ii
TÓM TẮT ................................................................................................................. iii
ABSTRACT ...............................................................................................................iv
MỤC LỤC ...................................................................................................................v
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .......................................... viii
DANH MỤC CÁC BẢNG.........................................................................................ix
DANH MỤC CÁC HÌNH ...........................................................................................x
CHƯƠNG 1 - TỔNG QUAN .....................................................................................1
1.1. Tổng quan về khai phá dữ liệu ......................................................................1
1.1.1. Nhu cầu về khai phá dữ liệu ..................................................................1
1.1.2. Khai thác dữ liệu là sự tiến hóa của công nghệ thông tin .....................3
1.1.3. Khai phá dữ liệu và khai phá tri thức ....................................................6
1.1.4. Các bước chính của quá trình khai phá dữ liệu .....................................7
1.1.5. Kiến trúc một hệ thống khai phá dữ liệu ...............................................9
1.1.6. Ứng dụng của khai phá dữ liệu ...........................................................11
1.2. Khai thác các mẫu phổ biến ........................................................................12
1.2.1. Mẫu phổ biến .......................................................................................12
1.2.2. Khai thác mẫu phổ biến, tập phổ biến .................................................12
1.3. Khai thác dựa trên giá trị hữu ích ................................................................14
1.4. Khai thác dựa trên giá trị hữu ích trung bình ..............................................15
1.5. Mục tiêu của luận văn .................................................................................16
CHƯƠNG 2 -

CƠ SỞ LÝ THUYẾT .................................................................18

2.1. Một số khái niệm .........................................................................................18
2.1.1. Cơ sở dữ liệu giao dịch .......................................................................18
2.1.2. Itemset .................................................................................................18


vi

2.1.3. Độ phổ biến .........................................................................................18
2.1.4. Tập phổ biến ........................................................................................18
2.1.5. Tính chất Apriori .................................................................................19
2.1.6. Ngưỡng hữu ích trung bình tối thiểu ...................................................19
2.1.7. Độ hữu ích ...........................................................................................19
2.1.8. Tập hữu ích ..........................................................................................20
2.1.9. Độ hữu ích trung bình .........................................................................21
2.1.10.Tập hữu ích trung bình ........................................................................21
2.1.11.Cận trên độ hữu ích trung bình ...........................................................21
2.1.12.Tập cận trên độ hữu ích trung bình .....................................................22
2.2. Tính chất bao đóng giảm .............................................................................22
2.3. Tính bao đóng giảm trong tập cận trên hữu ích trung bình .........................23
2.4. Thuật toán HAUI-Tree ................................................................................23
2.4.1. Giới thiệu .............................................................................................23
2.4.1.1.Biểu diễn Itemset ...............................................................................23
2.4.1.2.Cây HAUI-Tree..................................................................................24
2.4.2. Thuật toán sử dụng HAUI-Tree ..........................................................24
2.4.2.1.Tập dữ liệu giao dịch .........................................................................24
2.4.2.2.Thuật toán khai thác với HAUI-Tree .................................................25
2.4.3. Ví dụ minh họa ....................................................................................27
2.4.4. Một số nhận xét ...................................................................................31
2.5. Khai thác độ hữu ích trung bình hai pha tăng trưởng .................................32
2.5.1. Giới thiệu .............................................................................................32
2.5.2. Thuật toán ............................................................................................32
2.5.3. Một số nhận xét ...................................................................................34
CHƯƠNG 3 -

XÂY DỰNG THUẬT TOÁN IHAUI-TREE ............................35

3.1. Cây IHAUI-Tree .........................................................................................35
3.2. Thuật toán IHAUI .......................................................................................35
3.3. Ví dụ minh họa ............................................................................................38


vii

3.3.1. Chạy lần đầu ........................................................................................38
3.3.2. Cập nhật thêm giao dịch ......................................................................42
3.4. Một số nhận xét ...........................................................................................46
CHƯƠNG 4 -

THỰC NGHIỆM VÀ ĐÁNH GIÁ.............................................48

4.1. Các bộ dữ liệu mẫu ......................................................................................48
4.2. Chạy thử nghiệm trên bộ dữ liệu Accidents ................................................49
4.3. Chạy thử nghiệm trên bộ dữ liệu Retail ......................................................50
4.4. Kết luận và kiến nghị ..................................................................................50
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................52
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ......................................................... 53


viii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Viết tắt

Tiếng Anh

Tiếng Việt



Minimum high average-utility
ratio

Tỉ lệ ngưỡng hữu ích trung bình
tối thiểu

au, AU

Average utility

Giá trị hữu ích trung bình

CSDL

Databases

Cơ sở dữ liệu

DM, KPDL Data Mining

Khai phá dữ liệu

HAUI

High average utility itemset

Tập hữu ích trung bình cao

HAUUBI

High average-utility upperbound itemsets

Tập cận trên hữu ích trung bình
cao

KDD

Knowledge Discovery in
Databases

Phát hiện tri thức từ CSDL

u, U

Utility

Độ hữu ích

IHAUI

Incremental high average
utility itemset

Khai thác độ hữu ích trung bình
trên dữ liệu tăng trưởng

ub, UB

Average utility upper bound

Cận trên hữu ích trung bình


ix

DANH MỤC CÁC BẢNG
Bảng 2.1: CSDL item trong giao dịch .......................................................................18
Bảng 2.2: CSDL các giao dịch ..................................................................................20
Bảng 2.3: Giá trị hữu ích các item ............................................................................20
Bảng 2.4: Cấu trúc tập tin dữ liệu .............................................................................24
Bảng 2.5: Biểu diễn dữ liệu giao dịch .......................................................................25
Bảng 2.6: CSDL giao dịch ........................................................................................27
Bảng 2.7: Giá trị của các item trong CSDL ..............................................................27
Bảng 2.8: Kết quả tính giá trị hữu ích và au, ub của các 1-itemset ..........................28
Bảng 2.9: Ví dụ HAUI-Tree - Cấu trúc dữ liệu các 1-itemset ..................................29
Bảng 2.10: Kết quả thu được tập HAU VÀ HAUUB ...............................................31
Bảng 3.1: CSDL giao dịch ........................................................................................39
Bảng 3.2: Giá trị hữu ích ...........................................................................................39
Bảng 3.3: Kết quả tính giá trị hữu ích, AU và UB của các 1-itemset .......................40
Bảng 3.4: 1-itemset ...................................................................................................40
Bảng 3.5: Kết quả thu được tập HAU VÀ HAUUB .................................................42
Bảng 3.6: CSDL các giao dịch thêm mới .................................................................42
Bảng 3.7: Kết quả tính giá trị hữu ích, AU và UB của các 1-itemset .......................43
Bảng 3.8: 1-itemset ...................................................................................................43
Bảng 3.9: 1-itemset sau khi cập nhật ........................................................................43
Bảng 3.10: Kết quả thu được từ cây IHAUI-Tree.....................................................46
Bảng 3.11: Câu trúc itemset của IHAUI và HAUI ...................................................47
Bảng 4.1: Thông tin bộ dữ liệu .................................................................................48
Bảng 4.2: Kết quả chạy thử nghiệm ..........................................................................49
Bảng 4.3: Thời gian chạy của 2 thuật toán ................................................................49
Bảng 4.4: Kết quả chạy thử nghiệm ..........................................................................50
Bảng 4.5: Thời gian chạy của 2 thuật toán ................................................................50


x

DANH MỤC CÁC HÌNH
Hình 1.1: Sự tiến hóa công nghệ CSDL [2] ................................................................3
Hình 1.2: Thế giới là dữ liệu phong phú nhưng thông tin nghèo [2] ..........................5
Hình 1.3: Khai phá dữ liệu – tìm kiếm tri thức trong dữ liệu [2] ...............................6
Hình 1.4: Khai thác dữ liệu là một bước trong quá trình khám phá tri thức [2] .........7
Hình 1.5: Kiến trúc hệ thống khai thác dữ liệu [2] .....................................................9
Hình 1.6: Ví dụ chọn giỏ hàng trong siêu thị [2] ......................................................13
Hình 2.1: Kết quả kết hợp item {A} với các item khác ............................................29
Hình 2.2: Kết quả kết hợp item {B} với các item khác ............................................30
Hình 2.3: Kết quả kết hợp item {A} theo HAUI-Tree..............................................30
Hình 2.4: Kết quả cây thu được ................................................................................30
Hình 3.1: Cấu trúc cây IHAUI-Tree .........................................................................35
Hình 3.2: Kết quả kết hợp item {A} với các item khác ............................................40
Hình 3.3: Kết quả kết hợp item {B} với các item khác ............................................41
Hình 3.4: Kết quả thu được cây IHAUI-Tree ...........................................................41
Hình 3.5: Kết quả kết hợp item {A} với các item khác ............................................44
Hình 3.6: Kết quả kết hợp item {B} với các item khác ............................................45
Hình 3.7: Kết quả kết hợp các item khác ..................................................................45
Hình 4.1: So sánh thời gian chạy của 2 thuật toán ....................................................49
Hình 4.2: So sánh thời gian chạy của 2 thuật toán ....................................................50


1

CHƯƠNG 1 - TỔNG QUAN
1.1.

Tổng quan về khai phá dữ liệu

1.1.1. Nhu cầu về khai phá dữ liệu
“Chúng ta đang sống trong thời đại thông tin” [4], nhưng thực ra là chúng ta
đang sống trong thời đại dữ liệu. Hàng Terabytes hay Petabytes1 dữ liệu đổ vào
mạng máy tính, World Wide Web (WWW), và những thiết bị lưu trữ dữ liệu mỗi
ngày từ kinh doanh, xã hội, khoa học và kỹ thuật, y tế, và gần như mọi khía cạnh
khác của cuộc sống hàng ngày.
Việc tăng trưởng bùng nổ của khối lượng dữ liệu có sẵn là kết quả của việc
tin học hoá xã hội và sự phát triển mạnh mẽ, nhanh chóng của các công cụ thu thập
và lưu trữ dữ liệu. Các công ty trên toàn thế giới đã tạo ra bộ dữ liệu khổng lồ, bao
gồm cả giao dịch bán hàng, hồ sơ giao dịch chứng khoán, giới thiệu sản phẩm,
chương trình khuyến mãi bán hàng, hồ sơ công ty và thông tin phản hồi của khách
hàng.
Ví dụ:
 Các cơ sở dữ liệu lớn xử lý hàng trăm triệu giao dịch mỗi tuần.


http://top-10-list.org/2010/02/16/top-10-largest-databases-list/
1.

Library of Congress: chứa hơn 125 triệu mục, trong đó bao gồm các
tờ báo, sách nấu ăn và thủ tục tố tụng của chính phủ.

2.

Central Intelligence Agency: không rõ kích thước chính xác của cơ
sở dữ liệu này, nhưng có hàng trăm mục dữ liệu thêm vào mỗi
tháng và bao gồm số liệu thống kê dân số, bản đồ,…

3.

Amazon: chứa hơn 250 nghìn sách, 55 triệu khách hàng, và hơn 40
Terabytes dữ liệu.

1

Một petabyte là một đơn vị thông tin hoặc lưu trữ máy tính bằng một nghìn triệu triệu byte, hay một ngàn
terabyte, tương đương một triệu gigabyte.


2

4.

YouTube: hàng trăm triệu clip được xem hàng ngày, tăng gấp đôi
mỗi 5 tháng.

5.

ChoicePoint: cơ sở dữ liệu có thể đạt tới mặt trăng và trở lại ít nhất
75 lần.

6.

Sprint: có hơn 50 triệu thuê bao. Ít nhất 3.000 tỷ cơ sở dữ liệu trên
350 bản ghi cuộc gọi hang ngày và 70.000 lần chèn mỗi giây

7.

Google: theo thống kê hơn 90 triệu cuộc tìm kiếm mỗi ngày và
được gọi là vua của CSDL internet.

8.

AT&T: tương tự như Sprint là công ty viễn thông lâu đời. Nó chứa
hơn 310 terabyte thông tin và gần 2.000 tỷ hang.

9.

National Energy Research SCC là trung tâm tính toán nghiêm cứu
năng lượng quốc gia là CSDL lớn thứ 2 trên thế giới.

10. World Data Center for Climate: CSDL này được điều khiển và duy
trì bởi trung tâm tính toán khí hậu Đức.
 Trung tâm tính toán khoa học nghiên cứu năng lượng quốc gia Mỹ


http://www.nersc.gov/assets/pubs_presos/NERSCplan-FY20142023.pdf(01/5/2013)



Dự đoán sẽ đạt được một Exabyte2 vào năm 2023.

Hoạt động khoa học và kỹ thuật tạo ra hàng Petabyte dữ liệu một cách liên
tục, từ viễn thám, quá trình đo lường, thí nghiệm khoa học, hiệu năng hệ thống,
quan sát kỹ thuật và giám sát môi trường.
 Web

2



http://www.worldwidewebsize.com/



Ít nhất có 2.39 tỷ trang (23/9/2016), và 4.68 tỷ trang (16/6/2017)

Một exabyte là một ngàn petabyte.


3



Ít nhất có 242.39 triệu trang Web ở Hà Lan (23/9/2016), và 246.03 triệu
trang (16/6/2017).

Sự phát triển bùng nổ, phổ biến rộng rãi, và khổng lồ của dữ liệu làm cho
chúng ta thực sự sống trong thời đại dữ liệu. Để tự động phát hiện ra thông tin có
giá trị từ một lượng lớn dữ liệu và chuyển dữ liệu đó thành tri thức, rất cần những
công cụ mạnh mẽ và linh hoạt. Sự cần thiết này đã dẫn đến sự ra đời của khai thác
dữ liệu. Đây là một lĩnh vực mới, năng động và đầy hứa hẹn. Khai thác dữ liệu đã
và sẽ tiếp tục thực hiện những bước tiến lớn trong cuộc hành trình của chúng ta từ
thời dữ liệu đến thời đại thông tin.

1.1.2. Khai thác dữ liệu là sự tiến hóa của công nghệ thông tin
Khai thác dữ liệu có thể được xem như là một kết quả của sự tiến hóa tự
nhiên của công nghệ thông tin.
Tập hợp dữ liệu và khởi tạo CSDL
- Xử lý file thô sơ
Hệ quản trị CSDL
- Hệ thống CSDL phân cấp và mạng
- Công cụ mô hình dữ liệu: Mô hình quan hệ thực tế
- Phương pháp đánh chỉ số và truy nhập
- Ngôn ngữ hỏi SQL…
- Giao diện người dùng, nhập liệu và kết xuất
- Xử lý truy vấn, tối ưu truy vấn
- Quản lý giao dịch: Khôi phục, điều khiển tương
tranh
- Xử lý giao dịch trực tuyến

Hệ CSDL mở rộng
- Mô hình dữ liệu mở rộng: Quan
hệ mở rộng , quan hệ - đối tượng,
suy luận
- Ứng dụng mở rộng: Không gian,
thời gian, đa phương tiện, tích
cực, khoa học, cở sở tri thức

Kho dữ liệu và khai phá dữ liệu
- Kho dữ liệu và OLAP
- Khai thác dữ liệu và phát hiện tri
thức: Phân lớp, phân cụm, kết
hợp, phân tích mẫu, phân tích
ngược lại …
- Ứng dụng KPDL mở rộng: Khai
phá dữ liệu dòng, khai phá text,
khai phá web...

Hệ CSDL dựa trên Web
- Hệ CSDL dựa trên XML
- Sự tích hợp với phục hồi
thông tin
- Dữ liệu và tích hợp thông
tin

Thế hệ mới của dữ liệu tích hợp và các hệ thống thông tin

Hình 1.1: Sự tiến hóa công nghệ CSDL [2]


4

Khai thác dữ liệu có thể coi là một sự tiến hóa tự nhiên trong công nghệ
thông tin và ngành hệ thống thông tin. Từ những năm 1960, công nghệ thông tin đã
phát triển một cách có hệ thống từ những hệ thống xử lý tập tin ban đầu đến các hệ
cơ sở dữ liệu phức tạp, hỗ trợ nhiều chức năng. Những nghiên cứu và những bước
phát triển trong các hệ cơ sở dữ liệu những năm 1970 đã phát triển từ dữ liệu dưới
dạng phân cấp và tiến đến cơ sở dữ liệu quan hệ, các công cụ mô hình hóa dữ liệu,
các phương pháp chỉ mục và truy cập dữ liệu. Hơn thế nữa, người sử dụng còn có
thể tương tác CSDL thông qua các ngôn ngữ truy vấn dữ liệu với giao diện thân
thiện cùng các chức năng tối ưu hóa truy vấn và quản lý xung đột giao tác. Các
phương pháp xử lý giao tác trực tuyến (OLAP) tỏ ra rất hiệu quả. Với các phương
pháp này một truy vấn giống như một giao tác chỉ đọc.Sự phổ biến rộng rãi của
CSDL quan hệ như một công cụ lưu trữ, đảm bảo, và quản lý dữ liệu hiệu quả kể cả
những CSDL khổng lồ.
Từ giữa những năm 1980, các hệ CSDL quan hệ được phát triển mạnh mẽ
thúc đẩy quá trình phát triển các mô hình dữ liệu nâng cao như mô hình quan hệ mở
rộng, mô hình hướng đối tượng, quan hệ đối tượng, mô hình suy diễn. Các hệ
CSDL hướng ứng dụng bao gồm các hệ CSDL cho các ứng dụng không gian vũ trụ,
y học, đa phương tiện, CSDL theo dòng, CSDL cho các ngành khoa học, kỹ thuật,
các hệ cơ sở tri thức cũng phát triển nhanh chóng. Các hệ CSDL hỗn hợp và hệ
thống thông tin Internet toàn cầu như WWW xuất hiện và đóng vai trò chủ đạo
trong ngành công nghiệp thông tin.
Sự phát triển vững chắc và vượt bậc của kỹ thuật phần cứng đã tạo ra được
các siêu máy tính, các thiết bị thu thập dữ liệu và phương tiện lưu trữ mới đáp ứng
được nhu cầu lưu trữ ngày càng lớn. Điều này là tiền đề quan trọng cho ngành công
nghiệp CSDL và thông tin, tạo ra các thùng chứa CSDL và thông tin khổng lồ có
khả năng quản lý giao tác, đảm bảo thông tin và phân tích dữ liệu.
Hiện nay dữ liệu có thể được lưu trữ trong các loại thùng chứa khác nhau.
Một loại kiến trúc thùng chứa dữ liệu xuất hiện là các kho dữ liệu (Data Warehouse)
là một thùng chứa các nguồn dữ liệu hỗn hợp khác nhau, được tổ chức dưới một sơ
đồ thống nhất tại một địa điểm duy nhất hỗ trợ việc quản lý ra quyết định. Kỹ thuật
xử lý kho dữ liệu này gồm các quá trình: Làm sạch dữ liệu (Data Cleaning), tích


5

hợp dữ liệu (Data Integration), xử lý giao tác trực tuyến (OLAP) với khả năng tổng
quát hóa, nén, tập hợp dữ liệu có thể nhìn dữ liệu theo nhiều chiều hướng khác
nhau. Mặc dù công cụ OLAP có thể hỗ trợ phân tích dữ liệu theo nhiều chiều khác
nhau, hỗ trợ ra quyết định, nhưng cần tích hợp thêm các công cụ phân tích dữ liệu
theo chiều sâu khác như phân lớp, gom nhóm dữ liệu hay phân tích dữ liệu theo thời
gian thực. Hơn nữa, kích thước dữ liệu trong CSDL và kho dữ liệu là rất lớn. Vì
vậy, việc phân tích dữ liệu dưới các hình thức khác nhau một cái hiệu quả và có lợi
là một thử thách.
Sự giàu có của dữ liệu đi đôi với sự ra đời của các công cụ phân tích dữ liệu
để khai thác thông tin, tri thức hữu ích.Tránh tình trạng giàu dữ liệu mà nghèo thông
tin. Với những CSDL khổng lồ và phát triển liên tục trong các kho dữ liệu thì việc
phân tích không thể thực hiện được nếu không có sự hỗ trợ của các công cụ. Khi dữ
liệu bị nhiễu quá lớn có thể gây ra hiện tượng “Data Tombs” (mộ dữ liệu). Các công
cụ hỗ trợ ra quyết định không phải dựa trên dữ liệu trong thùng chứa mà dựa trên
các tri thức thu được từ dữ liệu. Các tri thức này được rút ra từ các hệ chuyên gia.
Quá trình này thường tốn thời gian và độ chính xác không cao. Các công cụ khai
thác dữ liệu thực hiện phân tích dữ liệu và giúp chuyển dữ liệu thành dữ liệu vàng
“golden nuggets” cho quá trình khám phá tri thức.

Hình 1.2: Thế giới là dữ liệu phong phú nhưng thông tin nghèo nàn [2]

Theo Plato:“Sự cần thiết, là người mẹ của sáng chế” [2]. KPDL ra đời như
một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa


6

về KPDL đã được trình bày ở trên. KPDL được xem như là một công nghệ tri thức,
giúp các nhà phân tích khai thác những thông tin hữu ích từ những kho dữ liệu,
được tích trữ trong suốt quá trình hoạt động của công ty, tổ chức.

1.1.3. Khai phá dữ liệu và khai phá tri thức
Khai phá dữ liệu là một quá trình trích xuất tri thức từ lượng lớn dữ liệu, khai
thác kiến thức từ dữ liệu. Một quá trình không dễ trích xuất thông tin ẩn, hữu ích,
chưa được biết trước từ dữ liệu.
“Phát hiện tri thức trong CSDL là một quá trình không tầm thường nhận ra
những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu” [2].

Hình 1.3: Khai phá dữ liệu – tìm kiếm tri thức trong dữ liệu [2]

Là lĩnh vực nghiên cứu và triển khai được phát triển nhanh chóng và rộng
lớn, lại được rất nhiều nhóm nghiên cứu tại nhiều địa điểm khác nhau trên thế giới
đồng thời quan tâm, nên tồn tại rất nhiều cách tiếp cận khác nhau đối với lĩnh vực
KDD. Vì lý do đó mà trong nhiều tài liệu, các nhà khoa học trên thế giới đã sử dụng
nhiều thuật ngữ khác nhau mà chúng được coi là mang cùng nghĩa với KDD như
chiết lọc tri thức (knowledge extraction), phát hiện thông tin (information
discovery), thu hoạch thông tin (information harvesting), khai quật dữ liệu (data
archaeology) và xử lý mẫu dữ liệu (data pattern processing).


7

Mô hình quá trình khai phá dữ liệu cũng được cải tiến, phù hợp với mục tiêu
kinh doanh và mục tiêu phát triển của từng tổ chức. Tồn tại một số mô hình thiên
hướng công nghệ.

1.1.4. Các bước chính của quá trình khai phá dữ liệu
Nhiều người xem khai thác dữ liệu như là một từ đồng nghĩa với một thuật
ngữ phổ biến được sử dụng, khám phá tri thức từ dữ liệu, hoặc KDD, trong khi
những người khác xem khai thác dữ liệu chỉ đơn thuần là một bước cần thiết trong
quá trình khám phá tri thức. Quá trình khám phá tri thức được thể hiện trong hình
1.4 là một chuỗi lặp đi lặp lại các bước sau:

Hình 1.4: Khai thác dữ liệu là một bước trong quá trình khám phá tri thức [2]

Làm sạch dữ liệu (để loại bỏ nhiễu và dữ liệu không phù hợp).
Tích hợp dữ liệu (nơi mà nhiều nguồn dữ liệu có thể được kết hợp)4.
Chọn lựa dữ liệu (nơi dữ liệu có liên quan đến nhiệm vụ phân tích được lấy từ cơ sở
dữ liệu): là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu
4

Một xu hướng phổ biến trong ngành công nghiệp thông tin là để thực hiện làm sạch dữ liệu và tích hợp dữ
liệu như là một bước tiền xử lý, nơi mà các dữ liệu kết quả được lưu trữ trong một kho dữ liệu.


8

lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất
định.
Biến đổi dữ liệu (nơi mà dữ liệu được biến đổi và hợp nhất thành các hình thức
thích hợp cho khai thác bằng cách thực hiện tóm tắt hoặc tập hợp các hoạt động)5.
Khai thác dữ liệu (một quá trình cần thiết mà các phương pháp thông minh được áp
dụng để trích xuất các mẫu dữ liệu): đây được xem là bước quan trọng nhất trong
quá trình KDD. Nó áp dụng một số kỹ thuật KPDL (chủ yếu là từ học máy và các
lĩnh vực khác) để khai phá, trích chọn được những mẫu (patterns) thông tin, những
mối liên hệ (relationships) đặc biệt trong dữ liệu.
Đánh giá mẫu (để xác định các mô hình thực sự thú vị đại diện cho kiến thức dựa
trên các biện pháp): thành phần này thường sử dụng các độ đo và tương tác với
thành phần KPDL để tập trung tìm kiếm các mẫu. Nó có thể sử dụng các ngưỡng để
lọc ra các mẫu phát hiện được. Ngoài ra, thành phần đánh giá mẫu có thể được tích
hợp với thành phần KPDL, phụ thuộc vào các phương pháp KPDL được sử dụng.
Biểu diễn tri thức (nơi trực quan và kỹ thuật biểu diễn tri thức được sử dụng để trình
bày kiến thức khai thác cho người sử dụng): những mẫu thông tin và mối liên hệ
trong dữ liệu đã được khai phá ở bước trên được chuyển dạng và biểu diễn ở một
dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật,... Đồng thời bước
này cũng đánh giá những tri thức khám phá được những tiêu chí nhất định.
Từ bước 1 đến 4 là các hình thức khác nhau của tiền xử lý dữ liệu, nơi dữ
liệu được chuẩn bị cho khai thác. Các bước khai thác dữ liệu có thể tương tác với
người sử dụng hoặc một cơ sở tri thức. Các mẫu thú vị được trình bày cho người sử
dụng và có thể được lưu trữ như kiến thức mới trong cơ sở tri thức.

5

Đôi khi chuyển đổi dữ liệu và hợp nhất được thực hiện trước khi quá trình lựa chọn dữ liệu, đặc biệt là trong
trường hợp các kho dữ liệu. Giảm dữ liệu cũng có thể được thực hiện để có được một đại diện nhỏ hơn của
dữ liệu gốc mà không bị mất toàn vẹn của nó


9

1.1.5. Kiến trúc một hệ thống khai phá dữ liệu
Kiến trúc của hệ thống KPDL có thể có các thành phần chính sau:

Hình 1.5: Kiến trúc hệ thống khai thác dữ liệu [2]

Trong kiến trúc này, các nguồn dữ liệu cho các hệ thống KPDL bao gồm
hoặc CSDL, hoặc kho dữ liệu, hoặc WWW, hoặc kho chứa dữ liệu kiểu bất kỳ khác,
hoặc tổ hợp các kiểu đã liệt kê nói trên. Cơ sở tri thức, bao gồm các tri thức hiện có
về miền ứng dụng, được sử dụng trong thành phần KPDL để làm tăng tính hiệu quả
của thành phần này. Một số tham số của thuật toán KPDL tương ứng sẽ được tinh
chỉnh theo tri thức miền sẵn có từ cơ sở tri thức trong hệ thống. Cơ sở tri thức còn
được sử dụng trong việc đánh giá các mẫu đã khai phá được xem chúng có thực sự


10

hấp dẫn hay không, trong đó có đối chứng với các tri thức đã có trong cơ sở tri thức.
Nếu mẫu khai phá được thực sự hấp dẫn thì được bổ sung vào cơ sở tri thức để phục
vụ cho hoạt động tiếp theo của hệ thống. Như vậy, nguồn tri thức bổ sung vào cơ sở
tri thức ở đây không chỉ từ lập luận logic để có tri thức mới, mà còn cho con người
hiểu biết thêm về thế giới khách quan để bổ sung vào tri thức được phát hiện một
cách tự động từ nguồn dữ liệu.
KPDL là một bước chính trong quá trình phát hiện tri thức từ số lượng lớn
dữ liệu đã lưu trữ trong CSDL, kho dữ liệu hoặc các nơi lưu trữ khác. Kết quả của
bước này là những mẫu đáng quan tâm được đưa đến cho người dùng hoặc lưu giữ
như là tri thức mới trong cơ sở tri thức.
 CSDL, kho dữ liệu, WWW, kho chứa dữ liệu khác: Đây là một hoặc một
tập CSDL, kho dữ liệu, World Wide Web, hoặc kho chứa dữ liệu kiểu bất
kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên. Các kỹ thuật làm sạch dữ
liệu và tích hợp dữ liệu có thể được thực hiện trên dữ liệu.
 Server CSDL/Kho dữ liệu: Có trách nhiệm lấy dữ liệu liên quan dựa trên
yêu cầu của người KPDL.
 Cơ sở tri thức: Đây là miền tri thức được sử dụng để hướng dẫn việc tìm
kiếm hoặc đánh giá sự thú vị của các mẫu quan tâm. Tri thức này có thể
bao gồm các mức phân cấp khái niệm, được sử dụng để tổ chức các thuộc
tính hoặc giá trị thuộc tính thành các cấp trừu tượng. Tri thức như độ tin
cậy của người sử dụng, có thể được sử dụng để đánh giá độ thú vị của
mẫu. Các ví dụ khác của miền tri thức là các ràng buộc thú vị bổ sung
hoặc ngưỡng, và siêu dữ liệu (mô tả dữ liệu từ nhiều nguồn không đồng
nhất).
 Bộ máy khai phá dữ liệu: Đây là thành phần cần thiết đối với hệ thống
KPDL, bao gồm một tập các chức năng như mô tả, phân tích tính kết hợp
và tính tương quan, phân lớp, dự báo, phân tích cụm, phân tích ngoại lai,
và phân tích sự tiến hóa.


11

 Đánh giá mẫu: Thành phần này thường sử dụng các độ đo và tương tác
với thành phần KPDL để tập trung tìm kiếm các mẫu thú vị. Nó có thể sử
dụng các ngưỡng để lọc ra các mẫu phát hiện được. Ngoài ra, thành phần
đánh giá mẫu có thể được tích hợp với thành phần KPDL, phụ thuộc vào
các phương pháp KPDL được sử dụng.
 Giao diện người dùng: Thành phần này là thành phần giao tiếp giữa người
sử dụng và hệ thống KPDL; cho phép người dung tương tác với hệ thống
bằng cách xác định một truy vấn hoặc một nhiệm vụ KPDL, cung cấp
thông tin để giúp tập trung tìm kiếm, thăm dò và KPDL dựa trên kết quả
KPDL trung gian. Ngoài ra, thành phần này cho phép người dùng tìm các
lược đồ CSDL, kho dữ liệu hoặc các cấu trúc dữ liệu, đánh giá các mẫu
khai phá được, và trực quan hoá các mẫu trong các dạng khác nhau.

1.1.6. Ứng dụng của khai phá dữ liệu
Mặc dù KPDL là một xu hướng nghiên cứu tương đối mới, nhưng thu hút
nhiều nhà nghiên cứu bởi vì các ứng dụng thực tế của nó trong nhiều lĩnh vực. Sau
đây là một số ứng dụng tiêu biểu:
 Phân tích dữ liệu và hỗ trợ ra quyết định: ứng dụng này là phổ biến trong
thương mại, tài chính và thị trường chứng khoán,…
 Y tế: tìm kiếm sự liên quan tiềm năng giữa các triệu chứng, chẩn đoán, và
phương pháp điều trị,…
 Khai phá text và web: tóm tắt tài liệu, khôi phục văn bản và tìm kiếm văn
bản, phân lớp văn bản và siêu văn bản,…
 Tin sinh học: tìm kiếm và so sánh thông tin di truyền điển hình hoặc đặc
biệt như bộ gen và DNA, các mối quan hệ ngầm giữa một số gen và một
số bệnh di truyền,….
 Tài chính và thị trường chứng khoán: kiểm tra dữ liệu để trích xuất thông
tin dự đoán cho giá của các loại cổ phiếu,…


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×