Tải bản đầy đủ

BÁO CÁO ĐỒ ÁN MÔN KHAI THÁC DỮ LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HOA SEN


BÁO CÁO ĐỒ ÁN
MÔN KHAI THÁC DỮ LIỆU

Giảng viên
Lớp
Sinh viên

: Nguyễn Phượng Hoàng
: HT421DV01
: Mai Thuận Thảo - 2001753
Giản Diệu KIên - 2001925

ngày 28, tháng 10 năm 2014


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HOA SEN



BÁO CÁO ĐỒ ÁN
MÔN KHAI THÁC DỮ LIỆU

Giảng viên
Lớp
Sinh viên

: Nguyễn Phượng Hoàng
: HT421DV01
: Mai Thuận Thảo - 2001753
Giản Diệu KIên - 2001925

ngày 28, tháng 10 năm 2014


Mục Lục
Mục Lục....................................................................................1
I.ĐỊNH NGHĨA BÀI TOÁN............................................................2
II.THU THẬP DỮ LIỆU................................................................3
III.TIỀN XỬ LÝ DỮ LIỆU..............................................................4
1)Làm sạch dữ liệu (Data Cleaning)......................................4
2)Tích hợp dữ liệu (data integration)....................................5
3)Biến đổi dữ liệu (data transformation)...............................6
4)Thu giảm dữ liệu (data reduction).....................................8
IV.TÀI LIỆU THAM KHẢO............................................................9
MỤC LỤC HÌNH ẢNH................................................................10

1


I.

ĐỊNH NGHĨA BÀI TOÁN

Hiện nay Việt Nam ta đang hội nhập với quốc tế nên du lịch nước ta ngày càng
được chú trọng và đẩy mạnh. Cho nên việc phân tích, khai phá dữ liệu lượng khách
quốc tế đến Việt Nam ta rất cần thiết sẽ giúp cho công ty du lịch có số liệu thống kê
chính xác về du lịch Việt Nam. Cụ thể là nắm rõ thong tin thị trường du lịch khách
quốc tế đến Việt Nam để có thể đề ra các chính sách đẩy mạnh khu vực du lịch
(dịch vụ, văn hóa,…) đối với từng thị trường cho khách quốc tế
Dựa vào môn học Khai Thác Dữ Liệu, nhóm sẽ áp dụng các bước trong tiền xử lý
dữ liệu để làm sạch dữ liệu và chuyển đổi dữ liệu cho phù hợp với mục đích thống
kê được Tình Hình Khách Quốc Tế Đến Việt Nam vào tháng 7 năm 2014 (đặc biệt
là các nước lân cận).

2


II.

THU THẬP DỮ LIỆU

Nhóm lấy dữ liệu từ:
- Website ITDR (http://www.itdr.org.vn/) viện nghiên cứu phát triển du lịch.
Link lấy dữ liệu: http://www.itdr.org.vn/so-lieu-thong-ke-du-lich/so-lieu-thong-kedu-lich-viet-nam/826-tinh-hinh-khach-quoc-te-den-viet-nam-thang-7-va-7-thangnam-2014.html

Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng 7năm 2014

3


III.

TIỀN XỬ LÝ DỮ LIỆU

1) Làm sạch dữ liệu (Data Cleaning)
Làm sạch dữ liệu là quá trình thêm vào các giá trị còn thiếu, làm gọn dữ liệu nhiễu,
xác định hoặc xóa bỏ outlier và giải quyết dữ liệu thiếu nhất quán. Như ở dữ liệu trên, côt
dữ liệu “7 tháng năm 2014” là không cần thiết so với mục đích chính của nhóm.
Quá trình làm sạch dữ liệu:
Đối với những dữ liệu bị thiếu

-

: Kiểm tra dữ liệu thiếu gì. Các trường hợp thiếu:
o Giá trị (người, %) đã thống nhất mỗi cột chưa
o Các đơn vị tổng số có chính xác chưa

Chỉ tiêu

tháng
7/2014

Tháng 7/2014 so với
tháng trước (%)

Tháng 7/2014 so với
tháng 7/2013 (%)

7 tháng năm 2014 so với cùng
kỳ năm trước (%)

(người)
Tổng số

564.736

104,6

85,8

115,6

448.724

102,7

88,6

115,1

2000

146

10,6

30,6

114.012

112,1

85,7

135

Chia theo phương tiện đến
Đường không
Đường biển
Đường bộ

Chia theo mục đích chuyến đi
Du lịch, nghỉ
ngơi

341.383

105,4

84,6

113,9

Đi công việc

94.876

103,4

86,1

116,1

96.852

104,3

88,3

119,5

31.625

101

90,2

121,1

Thăm thân
nhân
Các mục đích
khác

Chia theo một số thị trường
Hồng Kông

644

127,3

72,6

211,3

Đức

7.884

129,1

116,4

199,4

Nga

22.713

121,2

136,5

127

Lào

16.066

120

91,8

126,7

Trung Quốc

123.442

90,3

71,2

126

3.629

174,5

116,4

123,6

Campuchia

26.537

83,3

86,6

123

Anh

15.020

111

104,2

117,9

Italy

1.879

97,9

96,2

115

Niuzilan

3.569

141,3

105,7

114,4

Bỉ

3.097

301,9

106,3

113,3

Philippin

7.463

78,6

98,1

112,1

Na Uy

4.385

295,9

107,8

112,1

Đan Mạch

3.731

296,8

103,6

111,9

Thụy Sỹ

2.779

198,4

104,4

111,6

Đài Loan

38.428

129,1

84,3

108,1

Tây Ban Nha

4


Hà Lan

5.836

206,7

93,8

107,3

Thái Lan

19.594

95,8

87,4

107,2

Nhật

44.681

100,1

100,4

106,9

Thụy Điển

2.545

163,4

101,5

106,6

Canada

7.716

114,5

88,6

106,4

Mỹ

38.881

98,9

105,9

105,9

Pháp

15.872

151

100,3

105,8

Singapo

13.452

80,2

91,4

105,5

Hàn Quốc

56.450

111,5

106

105,2

Malaisia

16.661

48,1

63,8

105

Úc

30.997

151

99,1

104,8

Indonesia

3.766

57,1

64,2

98,6

Phần Lan

929

114,7

85,4

97,6

26.090

218,9

48,2

127

Các thị trường
khác

Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi được làm sạch

2) Tích hợp dữ liệu (data integration)
Tích hợp dữ liệu là quá trình trộn dữ liệu từ các nguồn khác nhau vào một kho
dữ liệu có sẵn cho quá trình khai phá dữ liệu.
Vì dữ liệu này được lấy từ Website ITDR (http://www.itdr.org.vn/) viện nghiên cứu
phát triển du lịch. Cho nên thong tin ở đây đã được tích hợp từ nhiều nguồn dữ liệu
khác do đó tại bước này nhóm chúng tôi chỉ kiểm tra, xác thực tính tổng hợp dữ liệu
ở website này.
Sau khi tìm hiểu thì nhóm xác định đây là dữ liệu đã được thống nhất và chính xác.

Chỉ tiêu

tháng
7/2014

Tháng 7/2014 so với
tháng trước (%)

Tháng 7/2014 so với
tháng 7/2013 (%)

7 tháng năm 2014 so với cùng
kỳ năm trước (%)

(người)
Tổng số

564.736

104,6

85,8

115,6

102,7

88,6

115,1

2000

146

10,6

30,6

114.012

112,1

85,7

135

Chia theo phương tiện đến
Đường không
Đường biển
Đường bộ

448.724

Chia theo mục đích chuyến đi
Du lịch, nghỉ
ngơi

341.383

105,4

84,6

113,9

Đi công việc

94.876

103,4

86,1

116,1

96.852

104,3

88,3

119,5

31.625

101

90,2

121,1

644

127,3

72,6

211,3

7.884

129,1

116,4

199,4

Nga

22.713

121,2

136,5

127

Lào

16.066

120

91,8

126,7

123.442

90,3

71,2

126

3.629

174,5

116,4

123,6

Campuchia

26.537

83,3

86,6

123

Anh

15.020

111

104,2

117,9

Thăm thân
nhân
Các mục đích
khác

Chia theo một số thị trường
Hồng Kông
Đức

Trung Quốc
Tây Ban Nha

5


Italy

1.879

97,9

96,2

115

Niuzilan

3.569

141,3

105,7

114,4

Bỉ

3.097

301,9

106,3

113,3

Philippin

7.463

78,6

98,1

112,1

Na Uy

4.385

295,9

107,8

112,1

Đan Mạch

3.731

296,8

103,6

111,9

Thụy Sỹ

2.779

198,4

104,4

111,6

Đài Loan

38.428

129,1

84,3

108,1

Hà Lan

5.836

206,7

93,8

107,3

Thái Lan

19.594

95,8

87,4

107,2

Nhật

44.681

100,1

100,4

106,9

2.545

163,4

101,5

106,6

Thụy Điển
Canada

7.716

114,5

88,6

106,4

Mỹ

38.881

98,9

105,9

105,9

Pháp

15.872

151

100,3

105,8

Singapo

13.452

80,2

91,4

105,5

Hàn Quốc

56.450

111,5

106

105,2

Malaisia

16.661

48,1

63,8

105

Úc

30.997

151

99,1

104,8

Indonesia

3.766

57,1

64,2

98,6

Phần Lan

929

114,7

85,4

97,6

26.090

218,9

48,2

127

Các thị trường
khác

Hình 3: Bảng thống kê sau khi tích hợp dữ liệu

3) Biến đổi dữ liệu (data transformation)
Biến đổi dữ liệu là việc chuyển toàn bộ tập giá trị của một thuộc tính sang một tập
các giá trị thay thế, sao cho mỗi giá trị cũ tương ứng với một trong các giá trị mới.
Các phương pháp biến đổi dữ liệu :
- Làm trơn (smoothing) : Loại bỏ nhiễu/lỗi khỏi dữ liệu
- Kết hợp (aggregation) : Sự tóm tắt dữ liệu, xây dựng các khối dữ liệu.
- Khái quát hóa (generalization) : Xây dựng các phân cấp khái niệm.
- Chuẩn hóa (normalization) : Đưa các giá trị về một khoảng được chỉ định.
Tại dữ liệu chia theo thị trường vẫn còn rộng và là nơi cần tích hợp thêm một số
thông tin hữu ích đối với mục đích chính là thống kê du lịch ở các nước lân cận.
Nên nhóm chúng tôi dùng phương pháp Khái quát hóa để phân cấp dữ liệu.

Chỉ tiêu

tháng
7/2014

Tháng 7/2014 so với
tháng trước (%)

Tháng 7/2014 so với
tháng 7/2013 (%)

7 tháng năm 2014 so với
cùng kỳ năm trước (%)

(người)
Tổng số

564.736

104,6

85,8

115,6

448.724

102,7

88,6

115,1

2000

146

10,6

30,6

114.012

112,1

85,7

135

341.383

105,4

84,6

113,9

94.876

103,4

86,1

116,1

Chia theo phương tiện đến
Đường không
Đường biển
Đường bộ

Chia theo mục đích chuyến đi
Du lịch, nghỉ ngơi
Đi công việc

6


Thăm thân nhân

96.852

104,3

88,3

119,5

Các mục đích khác

31.625

101

90,2

121,1

Hồng Kông

644

127,3

72,6

211,3

Trung Quốc

Chia theo một số thị trường
Thị trường Châu Á

123.442

90,3

71,2

126

Đài Loan

38.428

129,1

84,3

108,1

Nhật

44.681

100,1

100,4

106,9

Singapo

13.452

80,2

91,4

105,5

56.450

111,5

106

105,2

Hàn Quốc

Thị trường Đông Nam Á
Lào

16.066

120

91,8

126,7

Campuchia

26.537

83,3

86,6

123

Philippin

7.463

78,6

98,1

112,1

Thái Lan

19.594

95,8

87,4

107,2

Malaisia

16.661

48,1

63,8

105

3.766

57,1

64,2

98,6

Indonesia
Tổng số
Đông Nam Á
Tổng số Châu Á

90.087
367.184

Thị trường Châu Âu
Đức

7.884

129,1

116,4

199,4

Nga

22.713

121,2

136,5

127

Tây Ban Nha

3.629

174,5

116,4

123,6

Anh

15.020

111

104,2

117,9

Italy

1.879

97,9

96,2

115

Bỉ

3.097

301,9

106,3

113,3

Na Uy

4.385

295,9

107,8

112,1

Đan Mạch

3.731

296,8

103,6

111,9

Thụy Sỹ

2.779

198,4

104,4

111,6

Hà Lan

5.836

206,7

93,8

107,3

Thụy Điển
Pháp
Phần Lan
Tổng số châu Âu

2.545

163,4

101,5

106,6

15.872

151

100,3

105,8

929

114,7

85,4

97,6

3.569

141,3

105,7

114,4

30.997

151

99,1

104,8

7.716

114,5

88,6

106,4

38.881

98,9

105,9

105,9

218,9

48,2

127,2

90.299

Thị trường Châu Úc
Niuzilan
Úc
Tổng số Châu Úc

34.566

Thị trường Châu Mỹ
Canada
Mỹ
Tổng số Châu Úc
Các thị trường khác

46.597
26.090

Hình 4: Dữ liệu sau khi biến đổi dữ liệu

Thông qua bảng trên nhóm chúng tôi tổng kết được

7


Bảng dữ liệu so sánh tổng số du lịch Đông Nam Á so với các khu vực (%)
4) Thu giảm dữ liệu (data reduction)
Một kho dữ liệu lớn có thể chứa lượng dữ liệu lên đến terabytes sẽ làm cho quá
trình khai phá dữ liệu chạy rất mất thời gian, do đó nên thu giảm dữ liệu.
Việc thu giảm dữ liệu sẽ thu được một biểu diễn thu gọn, mà nó vẫn sinh ra cùng
(hoặc xấp xỉ) các kết quả khai phá như tập dữ liệu ban đầu.
Chiến lược thu giảm:
- Giảm số chiều (dimensuinality reduction), loại bỏ bớt các thuộc tính khống
(ít) quan trọng.
- Giảm lượng dữ liệu (data/numberosity reduction)
+ Kết hợp khối dữ liệu
+ Nén dữ liệu
+ Hồi quy
+ Rời rạc hóa.
Sau khi xem xét kỹ lưỡng dữ liệu trên thì nhóm cho rằng dữ liệu trên không cần
phải thu giảm bởi vì dữ liệu trên nhỏ và các giá trị trên đều cần thiết (không thể
lược bỏ thêm) cho mục đích thống kê tình hình khách quốc tế đến Việt Nam.

8


IV.

TÀI LIỆU THAM KHẢO

Data Mining Concepts and Techniques - Third Edition by Jiawei Han, Micheline
Kamber, Jian Pei
Data Mining with SQL Server 2008
http://www.academia.edu/8033090/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB
%87u_-_data_mining

9


MỤC LỤC HÌNH ẢNH

Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng
7năm 2014...............................................................................3
Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi
được làm sạch..........................................................................5
Hình 3: Bảng thống kê sau khi tích hợp dữ liệu........................6
Hình 4: Dữ liệu sau khi biến đổi dữ liệu....................................7

10



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×

×