Data warehuose and data mining

Data warehouse &
Data mining
Topic 13
Giáo viên lý thuyết: Nguyễn Trần Minh Thư
Nhóm thực hiện: 09
Thành viên:
0512173 – Nguyễn Khoa
0512256 – Vũ Đình Phong
0512262 – Đoàn Thu Phương
0512292 – Phạm Minh Sang
0512446 – Hồ Hoàng Ánh
Nội Dung

Kho dữ liệu (Data warehouse)

Giới thiệu

Định nghĩa

DW - Traditional Database

Mục đích

Đặc trưng

Kiến trúc

Úng dụng

Khó khăn

Khai thác dữ liệu (Data mining)

Giới thiệu

Qui trình khám phá tri thức

Luật kết hợp

Cách tiếp cận các vấn đề
KTDL.

Ứng dụng

Các công cụ KTDL hiện đai sử
dụng trong thương mại.
25/12/2009
Giới thiệu DW
35/12/2009
Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng
chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định
Công nghệ kho dữ liệu (Data Warehouse Technology) là tập
các phương pháp + kỹ thuật và các công cụ có thể kết hợp, hỗ trợ
nhau
 cung cấp thông tin cho người sử dụng trên cơ sở tích hợp
từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau.
Định nghĩa Kho Dữ Liệu
Subject
Oriented
Integrated
Time VariantNon Volatile
Data
Warehouse
5/12/20094
W.H.Inmon
Định nghĩa Kho Dữ Liệu (tt)

Theo Pandora, Swinburn University :

Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác
nhau.

Là một điểm truy cập tập trung dữ liệu của một tổ chức

Được trình bày ở một khuông dạng thích hợp

Là hệ thống chỉ đọc

Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng

Theo Paul Lucas, IBM:

Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán consistent.

Được tổng hợp về từ nhiều nguồn

Được làm sẵn cho người sử dụng cuối

Dễ hiểu
55/12/2009
Đặc trưng

Tính tích hợp (Integration)

Dữ liệu gắn thời gian và có tính lịch sử

Dữ liệu có tính ổn định (nonvolatility)

Dữ liệu không biến động

Dữ liệu tổng hợp
65/12/2009
Hướng chủ thể

Được tổ chức xung quanh các chủ thể chính, như khách hàng (customer),
sản phẩm (product), bán hàng (sales).

Tập trung vào việc mô hình hóa và phân tích dữ liệu cho các nhà đưa ra
quyết định, mà không tập trung vào các hoạt động hay các xử lý hàng
ngày.

Cung cấp một khung nhìn đơn giản và súc tích xung quanh các sự kiện của
các chủ thể

Các chủ thể điển hình.

Các tài khoản khách hàng

Việc bán hàng

Tiền tiết kiệm của khách hàng

Các yêu sách bảo hiểm

Đặt chỗ hành khách
7
5/12/2009
Tích hợp
8

Data Warehouse

Operational Environment

Subject = Customer

Savings

Application

Current

Accounts

Application

Loans

Application
5/12/2009
Biến thời gian
9

Data

Time

01/97

02/97

03/97

Data for January

Data for February

Data for March

Data

Warehouse
5/12/2009
Ổn Định

Là lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác
nghiệp.

Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi
trường kho dữ liệu.

Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương
tranh.

Chỉ yêu cầu hai thao tác trong kho dữ liệu: Nạp và truy cập dữ liệu.
105/12/2009
DW - Traditional Database

Traditional Database

Riêng biệt

Hiện tại

Hướng thực thể

Cập nhật thường xuyên (update)

Được chuẩn hóa

Được mã hóa.

Thô

Người dùng : văn phòng
11

Data ware house

Tích hợp

Hiện hành – lịch sử

Hướng chủ thể

Bất biến

Không được chuẩn hóa

Rõ ràng

Tổng quát / chi tiết

Người dùng : quản lý
5/12/2009
Mục đích của kho dữ liệu

khả năng đáp ứng mọi yêu cầu về thông tin của
người sử dụng.

Hỗ trợ nhân viên thực hiện tốt, hiệu quả công
việc của mình, (quyết định hợp lý, nhanh, năng
suất cao hơn... )

Giúp cho quản lý và điều hành các dự án, các
nghiệp vụ một cách hiệu quả và chính xác.

Tích hợp dữ liệu từ nhiều nguồn khác nhau
Kiến trúc
135/12/2009
145/12/2009
OLAP (on-line analytical processing): các phân tích phức tạp
của dữ liệu từ kho dữ liệu, OLAP sử dụng khả năng tính toán
phân tán cho các phân tích, yêu cầu nhiều không gian lưu trữ và
sức mạnh xử lý cao
DSS (desion-support systems): hệ thống hỗ trợ đưa ra quyết
định có tính lãnh đạo của tổ chức, với các dữ liệu có mức độ
phức tạp và quan trọng
Data mining: khám phá, tìm kiếm dữ liệu cho các kiến thức
mới không dự biết trước

Generate time = 0.07918906211853 s. Memory usage = 1.93 MB