Tải bản đầy đủ

Xây dựng mô hình dự báo kết quả học tập của sinh viên đại học Đồng Tháp

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

TRẦN TUẤN ANH

XÂY DỰNG MÔ HÌNH DỰ BÁO KẾT QUẢ HỌC
TẬP CỦA SINH VIÊN ĐẠI HỌC ĐỒNG THÁP

LUẬN VĂN THẠC SĨ KỸ THUẬT

TPHCM - NĂM 2016


i

LỜI CAM ĐOAN
Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung
thực và chƣa hề đƣợc sử dụng để bảo vệ một học vị nào. Mọi sự giúp đỡ cho
việc thực hiện luận văn này đã đƣợc cảm ơn và thông tin trích dẫn trong luận
văn đã đƣợc chỉ rõ nguồn gốc rõ ràng và đƣợc phép công bố.
TP.HCM, ngày…tháng…năm

Học viên thực hiện luận văn

Trần Tuấn Anh


ii

LỜI CÁM ƠN
Để hoàn thành luận văn này, em xin tỏ lòng biết ơn sâu sắc đến Thầy TS.
Dƣơng Minh Đức, đã tận tình hƣớng dẫn trong suốt quá trình làm luận văn.
Em chân thành cám ơn quý Thầy, Cô ở Trƣờng Học Viện Công Nghệ Bƣu
Chính Viễn Thông TPHCM đã tận tình truyền đạt kiến thức trong những năm
em học tập. Với vốn kiến thức đƣợc tiếp thu trong quá trình học không chỉ là
nền tảng trong quá trình nghiên cứu luận văn mà còn là hành trang quí báu để
em bƣớc vào đời cách vững chắc và tự tin.
Cuối cùng em xin kính chúc quý Thầy, Cô dồi dào sức khỏe và thành công
trong sự nghiệp cao quý.

TP.HCM, ngày…tháng…năm
Học viên thực hiện luận văn

Trần Tuấn Anh


iii

MỤC LỤC
Lời cam đoan ................................................................................................ i
Lời cám ơn .................................................................................................... ii
Mục lục ......................................................................................................... iii
Danh mục các thuật ngữ, chữ viết tắt ........................................................... vi
Danh sách bảng............................................................................................. vii
Danh sách hình vẽ ........................................................................................ viii
MỞ ĐẦU ........................................................................................................ 1
CHƢƠNG I - GIỚI THIỆU
1.1. Lý do chọn đề tài ..................................................................................... 3
1.2. Mục đích nghiên cứu ............................................................................... 5
1.3. Đối tƣợng và phạm vi nghiên cứu ........................................................... 6
1.4. Phƣơng pháp nghiên cứu ......................................................................... 6
1.5. Ý nghĩa khoa học và thực tiễn của luận văn ............................................ 7

1.6. Cấu trúc luận văn ..................................................................................... 7
CHƢƠNG II - CƠ SỞ LÝ THUYẾT
2.1. Khái niệm về khai phá dữ liệu ................................................................. 9
2.1.1. Định nghĩa khai phá dữ liệu ................................................................. 9
2.1.2. Những nhóm bài toán của khai phá dữ liệu .......................................... 10
2.1.3Những lợi thế và thách thức của khai phá dữ liệu .................................. 12
2.2. Các bƣớc xây dựng một giải pháp về khai phá dữ liệu ........................... 14
2.2.1 Mô hình luồng dữ liệu ........................................................................... 14
2.2.2 Vòng đời của một hệ thống khai phá dữ liệu......................................... 14
2.3. Kiến trúc của một hệ thống khai phá dữ liệu điển hình ........................... 19
2.4. Khai phá dữ liệu trong lĩnh vực giáo dục ................................................ 20
2.4.1 Tầm quan trọng của khai phá dữ liệu trong lĩnh vực giáo dục .............. 20


iv

2.4.2 Các ứng dụng của khai phá dữ liệu trong lĩnh vực giáo dục ................. 21
2.5. Một số kỹ thuật khai phá dữ liệu trong phân lớp, dự báo ........................ 24
2.5.1. Cây quyết định ...................................................................................... 24
2.5.2. Phân lớp Naïve Bayes........................................................................... 27
2.5.3. Mạng nơ ron nhân tạo ........................................................................... 31
2.5.4. Khai phá luật kết hợp............................................................................ 35
2.6. Khai phá dữ liệu với hệ quản trị CSDL Microsft SQL Server ................ 38
2.6.1. Giới thiệu chung ................................................................................... 38
2.6.2.Ngôn ngữ truy vấn khai phá dữ liệu DMX (Data Mining Extensions) . 40
2.6.3. Bộ công cụ SQL Server Business Intelligence Development Studio ... 42
2.6.4. Lập trình khai phá dữ liệu với Analysis Services APIs ........................ 43
2.7. Kết luận chƣơng 2 ................................................................................... 45
CHƢƠNG 3 -MÔ HÌNH ĐỀ XUẤT
3.1. Giải pháp dự đoán kết quả học tập của sinh viên .................................... 47
3.1.1. Liệt kê lộ trình học của một sinh viên .................................................. 47
3.1.2. Dự đoán kết quả học tập cuối khóa của sinh viên ................................ 49
3.2. Xây dựng cơ sở dữ liệu cho hệ thống ...................................................... 50
3.3. Xây dựng hệ thống dự đoán kết quả học tập ........................................... 54
3.3.1. Xây dựng các mô hình .......................................................................... 54
3.3.2. Đánh giá các mô hình ........................................................................... 55
3.3.3. Thiết kế hệ thống dự đoán kết quả học tập ........................................... 62
CHƢƠNG IV - THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1. Thực nghiệm, đánh giá trên hệ thống ...................................................... 65
4.2. Kết luận chƣơng 4 ................................................................................... 70


v

KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................ 71
TÀI LIỆU THAM KHẢO .............................................................................. 73
PHỤ LỤC ....................................................................................................... 74


vi

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt
ANN

Artificial Neural Network

BBP

Boosting – Based Perceptron

BIDS

Mạng nơron nhân tạo

Bussiness Intelligence Development
Studio
Cơ sở dữ liệu

CSDL
DT

Tiếng Việt

Tiếng Anh

Decision Tree

DMX

Data Mining Extensions

DMM

Data Mining Model

Cây quyết định
Phần mở rộng khai phá dữ
liệu
Mô hình khai phá dữ liệu
Khai phá dữ liệu

KPDL
MAP

Maximum A Posterior

Xác suất hậu nghiệm cực đại

NBC

Naïve Bayes Classifier

Phân loại Naïve Bayes

SOM

Self-Organizing Map

Bản đồ tự tổ chức

MS
SVM

Microsoft
Support Vector Machine

Máy vecto hỗ trợ


vii

DANH SÁCH BẢNG
Bảng 2.1: Lựa chọn các thuật toán khai phá dữ liệu theo mục đích ................... 39
Bảng 3.1: Bảng dữ liệu xây dựng hệ thống dự đoán kết quả học tập ................. 52


viii

DANH SÁCH HÌNH VẼ
Hình 2.1: Các bƣớc xây dựng một hệ thống khai phá dữ liệu ............................ 10
Hình 2.2: Mô hình luồng dữ liệu ........................................................................ 14
Hình 2.3: Kiến trúc của hệ thống khai phá dữ liệu điển hình ............................. 19
Hình 2.4. Biểu diễn cây quyết định cơ bản......................................................... 24
Hình 2.5: Cây quyết định cho việc chơi Tennis ................................................. 25
Hình 2.6: Nơ ron sinh học .................................................................................. 31
Hình 2.7: Mô hình học có giám sát .................................................................... 34
Hình 2.8: Mô hình học không giám sát .............................................................. 35
Hình 2.9: Hình ảnh tổng quan về khai phá dữ liệu với SQL 2008 ..................... 38
Hình 3.1: Quy trình xử lý dữ liệu đầu vào.......................................................... 50
Hình 3.2: Mô hình CSDL quan hệ đƣợc thu thập để xây dựng hệ thống ........... 51
Hình 3.3: Một phần bảng các lộ trình học theo ngành ....................................... 52
Hình 3.4: Một phần dữ liệu xây dựng hệ thống.................................................. 53
Hình 3.5: Sự phụ thuộc của thuộc tính dự đoán vào các thuộc tính khác .......... 54
Hình 3.6: Lựa chọn Lift Chart với Predict Value=”K” ...................................... 56
Hình 3.7: Kết quả Lift Chart với Ketqua=”K” cho 04 mô hình ......................... 56
Hình 3.8: Kết quả Lift Chart không xác định giá trị thuộc tính dự đoán ........... 58
Hình 3.9: Classification Matrix của 04 mô hình ................................................ 59
Hình 3.10: Biểu đồ so sánh mức độ chính xác các mô hình............................... 61
Hình 3.11: Sơ đồ hoạt động của hệ thống .......................................................... 63
Hình 4.1: Kết quả dự đoán kết quả học tập với mô hình Naïve Bayes .............. 65
Hình 4.2: Kết quả dự đoán kết quả học tập với mô hình Cây quyết định .......... 66
Hình 4.3: Kết quả dự đoán kết quả học tập với mô hình Luật kết hợp .............. 66
Hình 4.4: Kết quả dự đoán kết quả học tập với mô hình Neural Network ......... 67
Hình 4.5: Kết quả dự đoán học tập với sinh viên nam ....................................... 68
Hình 4.6: Kết quả dự đoán học tập với sinh viên nữ .......................................... 69
Hình 4.7: Xem chi tiết một lộ trình học.............................................................. 70


1

MỞ ĐẦU
Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu (CSDL) đã đem lại
những lợi ích vô cùng to lớn cho nhân loại. Cùng với sự phát triển của công nghệ
thông tin (CNTT) và ứng dụng của nó trong đời sống - kinh tế - xã hội, lƣợng dữ
liệu thu thập đƣợc ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều
các hệ thống CSDL có kích thƣớc lớn. Trong tình hình hiện nay, khi thông tin đang
trở thành yếu tố quyết định trong mọi lĩnh vực thì vấn đề tìm ra các thông tin hữu
ích trong các CSDL lớn ngày càng trở thành mục tiêu quan trọng của các cơ quan,
tổ chức, doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực
thi nhiệm vụ khai phá tri thức. Đƣợc đánh giá sẽ tao ra cuộc cách mạng trong thế kỷ
21, khai phá dữ liệu sẽ ngày càng đƣợc ứng dụng phổ biến trong các lĩnh vực nhƣ:
thƣơng mại, tài chính, thị trƣờng chứng khoán, y học, thiên văn học, sinh học, giáo
dục, viễn thông...
Hiện nay, đa số các trƣờng đại học và cao đẳng ở nƣớc ta đã chuyển từ đào
tạo theo niên chế sang đào tạo theo tín chỉ. Đào tạo tín chỉ có ƣu điểm giúp sinh
viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định
các môn học theo từng kỳ. Việc lựa chọn các môn học trong từng học kỳ (hay còn
gọi là chọn lộ trình học) để sao cho kết quả học tập là cao nhất có thể là một việc
hết sức khó khăn đối với các sinh viên. Vì vậy, việc dự đoán kết quả học tập để tƣ
vấn cho sinh viên lựa chọn lộ trình học phù hợp nhằm đạt đƣợc kết quả học tập cao
nhất đƣợc đặc biệt quan tâm. Đó cũng là khó khăn chung không chỉ của sinh viên,
mà còn của các cố vấn học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong
trƣờng. Các giảng viên chuyên trách không thể tiếp cận toàn bộ dữ liệu về điểm của
sinh viên. Ngay cả với các cấp quản lý, bằng cảm tính hoặc suy luận thủ công từ
khối dữ liệu lớn để đƣa ra những tƣ vấn tốt trong việc chọn lộ trình học cho

mỗi sinh viên không phải là khả thi.
Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục
đào tạo còn chƣa đƣợc quan tâm đúng mức. Đã có một số công trình đƣợc
công bố sử dụng hồ sơ cá nhân cũng nhƣ điểm đầu vào để dự báo kết quả học


2

tập toàn khoá hoặc giai đoạn của sinh viên, nhưng các công trình nghiên cứu có sử
dụng lộ trình học để dự đoán kết quả học tập còn rất hiếm.
Vì vậy, đề tài “Xây dựng công cụ dự đoán kết quả học tập của sinh viên Đại
học Đồng Tháp” đi sâu vào việc khai phá dữ liệu từ thông tin cá nhân, điểm tuyển sinh
đầu vào kết hợp với lộ trình học để dự đoán kết quả học tập của sinh viên. Đề tài tiến
hành nghiên cứu các kỹ thuật cho phép phân lớp, dự báo trong khai phá dữ liệu, ứng
dụng các kỹ thuật đó để xây dựng các mô hình dự đoán kết quả học tập của sinh viên
bằng công cụ SQL Server Business Intelligence Development Studio. Từ đó, đánh giá
và lựa chọn mô hình cũng như kỹ thuật cho kết quả dự đoán tốt nhất để ứng dụng và
xây dựng chương trình dự đoán kết quả học tập cho mỗi sinh viên. Kết quả dự đoán đó
có thể được dùng để tư vấn cho sinh viên lựa chọn lộ trình học phù hợp để đạt được kết
quả học tập cao nhất.


3

CHƢƠNG I -GIỚI THIỆU
1.1. Lý do chọn đề tài
Hiện nay, hầu hết các trƣờng Đại học đã chuyển từ hình thức đào tạo theo
niên chế sang đào tạo theo học chế tín chỉ. Đào tạo theo tín chỉ xem ngƣời học là
trung tâm của quá trình đào tạo. “Tín chỉ” là đơn vị căn bản để đo khối lƣợng kiến
thức và đánh giá kết quả học tập của sinh viên. Đặc trƣng của hệ thống này là kiến
thức đƣợc cấu trúc thành các học phần. Lƣợng kiến thức dành cho sinh viên gồm
hai khối cơ bản: giáo dục đại cƣơng và giáo dục chuyên môn. Mỗi khối kiến thức có
2 nhóm học phần: học phần bắt buộc là những kiến thức tiên quyết bắt buộc sinh
viên phải học và thi đạt mới đƣợc học tiếp sang học phần khác; nhóm học phần tự
chọn gồm những kiến thức cần thiết nhƣng sinh viên đƣợc chọn theo hƣớng dẫn của
nhà trƣờng.
Học phần là khối lƣợng kiến thức tƣơng đối trọn vẹn, thuận tiện cho sinh
viên tích luỹ trong quá trình học tập. Phần lớn học phần có khối lƣợng từ 2 đến 4 tín
chỉ, nội dung đƣợc bố trí giảng dạy trọn vẹn và phân bố đều trong một học kỳ.
Một tín chỉ đƣợc quy định bằng 15 tiết học lý thuyết; 30 - 45 tiết thực hành,
thí nghiệm hoặc thảo luận; 45 - 90 giờ thực tập tại cơ sở; 45 - 60 giờ làm tiểu luận,
bài tập lớn hoặc đồ án, khoá luận tốt nghiệp.
Đối với những học phần lý thuyết hoặc thực hành, thí nghiệm, để tiếp thu
đƣợc một tín chỉ sinh viên phải dành ít nhất 30 giờ chuẩn bị cá nhân.
Hiệu trƣởng các trƣờng quy định cụ thể số tiết, số giờ đối với từng học phần
cho phù hợp với đặc điểm của trƣờng.
Đối với những chƣơng trình, khối lƣợng của từng học phần đã đƣợc tính theo
đơn vị học trình, thì 1,5 đơn vị học trình đƣợc quy đổi thành 1 tín chỉ.
Một tiết học đƣợc tính bằng 50 phút.
Khối lƣợng kiến thức tích đƣợc đánh giá theo thang điểm chữ A, B, C, D
đƣợc chuyển thành điểm chữ nhƣ sau: Loại đạt: gồm: Giỏi A (8,5 - 10), Khá B (7,0
- 8,4), Trung bình C (5,5 - 6,9), Trung bình yếu D (4,0 - 5,4). Loại không đạt: Kém


4

F (dƣới 4,0). Sinh viên có học phần bắt buộc bị điểm F phải đăng ký học lại học
phần đó ở một trong các học kỳ tiếp theo cho đến khi đạt điểm A, B, C hoặc D.
Hạng tốt nghiệp đƣợc xác định theo điểm trung bình chung tích lũy của toàn
khóa học, nhƣ sau: loại Xuất sắc: từ 3,6 đến 4; loại Giỏi: từ 3,2 đến 3,59; loại Khá:
từ 2,5 đến 3,19; loại Trung bình: từ 2 đến 2,49.
(Trích Quy chế 43 về đào tạo ĐH, CĐ theo Tín chỉ do Bộ Giáo dục - Đào tạo ban
hành năm 2007).
Nếu đào tạo theo niên chế sinh viên phải học theo tất cả những gì Nhà trƣờng
sắp đặt, không phân biệt sinh viên có năng lực tốt, có điều kiện học tập hay sinh
viên có năng lực yếu, có hoàn cảnh khó khăn thì đào tạo theo hệ thống tín chỉ cho
phép sinh viên có thể chủ động học theo năng lực và điều kiện của mình.
Sinh viên có thể chủ động về thời gian, bố trí việc hoàn thành chƣơng trình
theo năng lực của mình. Phần cứng bắt buộc và phần mềm do sinh viên lựa chọn
(thời gian dài ra với sinh viên yếu và ngắn lại với sinh viên giỏi).
Sinh viên đƣợc phép kéo dài chƣơng trình học (trong một khoảng thời gian
nhất định theo quy định riêng từng trƣờng) nếu điều kiện kinh tế không cho phép
hoặc do ốm đau, bệnh tật buộc họ phải nghỉ học giữa chừng thì sinh viên đó vẫn
đƣợc tiếp tục theo học sau đó mà không bị ảnh hƣởng gì khi quay lại tiếp tục
chƣơng trình học.
Sinh viên còn có thể chuyển đổi chuyên ngành mình đang theo học một cách
khá dễ dàng mà không phải học lại từ đầu. Nếu biết sắp xếp những tín chỉ giống
nhau giữa hai ngành một cách hợp lý, sinh viên có thể hoàn toàn tốt nghiệp đƣợc
hai chƣơng trình học trong một thời gian giảm đáng kể so với hình thức đào tạo
theo niên chế.
Một lợi thế quan trọng nữa của hệ tín chỉ là cho phép sinh viên có những sự
lựa chọn chƣơng trình học theo sở thích của mình.
Về phương pháp học tập, sinh viên có thể phát huy tối đa năng lực tự nghiên
cứu và kỹ năng làm việc theo nhóm. Việc quy định số tiết học sinh viên tự nghiên
cứu ở nhà giúp sinh viên có thể phát huy tối đa năng lực tự nghiên cứu cũng nhƣ


5

nâng cao ý thức học tập của mình. Hơn nữa, ở hầu hết các môn học sinh viên đƣợc
tự nghiên cứu, thảo luận và làm việc theo nhóm với những đề tài khác nhau. Đặc
biệt, việc phải thuyết trình về đề tài của các nhóm giúp sinh viên tự tin hơn khi làm
việc trƣớc đám đông.
Qua những phân tích về lợi thế và thách thức của đào tạo theo tín chỉ ở trên, có
thể thấy rằng, đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp
theo đúng quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên
mới vào trƣờng, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín
chỉ còn rất mới mẻ. Xuất phát từ thực tế đó, việc dự đoán kết quả học tập để tƣ vấn
lựa chọn lộ trình học cho sinh viên theo ngành học đã đăng ký là một việc làm hết sức
thiết thực và ý nghĩa.
Bài toán dự đoán kết quả học tập của sinh viên theo lộ trình học gồm hai
bƣớc:
Bƣớc 1: Liệt kê toàn bộ lộ trình học có thể của một sinh viên theo ngành học
mà sinh viên đó đã chọn.
Bƣớc 2: Dự đoán kết quả học tập cuối khóa của sinh viên theo tất cả các lộ
trình ở trên. Chọn ra lộ trình với kết quả dự đoán cho ra kết quả học tập tốt nhất để
tƣ vấn cho sinh viên. Nếu có nhiều lộ trình có cùng kết quả thì sinh viên có thể tự
chọn một trong số các lộ trình học đó sao cho phù hợp nhất với năng lực, sở thích
và các điều kiện khác của bản thân.
1.2. Mục đích nghiên cứu
- Nghiên cứu kỹ thuật khai phá dữ liệu: cây quyết định, Naïve Bayes, mạng
nơ ron nhân tạo, luật kết hợp.
- Nghiên cứu kỹ về các hệ thống dự đoán kết quả học tập cho sinh viên đào
tạo theo tín chỉ, xác định bài toán cụ thể là xây dựng công cụ liệt kê tất cả các lộ
trình học cho mỗi ngành học và gắn lộ trình học với mỗi sinh viên, thu thập, tiền xử
lý và xử lý các bộ dữ liệu đào tạo phục vụ cho mục đích nghiên cứu của luận văn.
- Nghiên cứu các kỹ thuật khai phá dữ liệu sử dụng công cụ Business
Intelligence Development Studio (BIDS), ngôn ngữ truy vấn khai phá dữ liệu DMX


6

và kỹ thuật lập trình khai phá dữ liệu với Analysis Services APIs trên hệ quản trị cơ
sở dữ liệu Microsoft SQL Server.
- Xây dựng ứng dụng dự đoán kết quả học tập nhằm tƣ vấn cho sinh viên lựa
chọn lộ trình học phù hợp dựa trên bộ dữ liệu đã thu thập đƣợc, tiến hành đánh giá
mức độ hiệu quả của các mô hình dự đoán để lựa chọn mô hình cho kết quả dự đoán
tốt nhất.

1.3. Đối tƣợng và phạm vi nghiên cứu
- Nghiên cứu cơ sở lý thuyết về khai phá dữ liệu, tập trung vào các kỹ thuật
khai phá dữ liệu áp dụng cho các mô hình dự báo nhƣ: Cây quyết định, Naïve
Bayes, mạng nơ ron nhân tạo và luật kết hợp.
- Tìm hiểu các vấn đề liên quan đến dữ liệu đào tạo, phƣơng pháp tiền xử lý
dữ liệu, các hệ thống dự đoán kết quả học tập của sinh viên, bộ dữ liệu đào tạo (gồm
kết quả học tập, thông tin cá nhân của sinh viên đã tốt nghiệp các chuyên ngành đào
tạo khác nhau trong trƣờng Đại học Đồng Tháp).
- Nghiên cứu các công trình, bài báo liên quan đến các mô hình dự đoán kết
quả học tập của sinh viên trong và ngoài nƣớc.

1.4. Phƣơng pháp nghiên cứu
- Phƣơng pháp nghiên cứu lý luận: Thu thập, đọc hiểu, phân tích thông tin dữ
liệu từ các tài liệu, giáo trình, sách và các bài báo liên quan đến khai phá dữ liệu và
ứng dụng trong dự đoán kết quả học tập cho sinh viên.
- Phƣơng pháp nghiên cứu thực tiễn: Tiến hành nghiên cứu các kỹ thuật cho
phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng mô
hình dự đoán kết quả học tập của sinh viên dựa vào các thông tin đầu vào. Đề tài
tiến hành so sánh kết quả của các kỹ thuật để lựa chọn kỹ thuật cho kết quả chính
xác nhất. Từ đó, xây dựng chƣơng trình dự đoán kết quả học tập cho mỗi sinh viên
để tƣ vấn cho sinh viên chọn lộ trình học phù hợp nhất sao cho đạt kết quả học tập
tốt nhất. Dữ liệu để kiểm định mô hình đƣợc thu thập từ bộ dữ liệu đào tạo thực tế
nên mang tính khách quan và chính xác cao.


7

1.5. Ý nghĩa khoa học và thực tiễn của luận văn
Việc áp dụng hệ thống dự đoán kết quả học tập vào trƣờng Đại học Đồng
Tháp đào tạo theo học chế tín chỉ sẽ hỗ trợ rất tốt cho các sinh viên trong quá trình
lựa chọn môn học và lộ trình học phù hợp với bản thân, qua đó nâng cao chất lƣợng
giáo dục đào tạo của trƣờng, tiết kiệm chi phí, thời gian cho công tác tổ chức đăng
ký học lại, thi lại, chấm thi … cho cán bộ, giáo viên và sinh viên và các nhà quản lý
đào tạo.

1.6. Cấu trúc luận văn
Luận văn gồm có phần mở đầu, kết luận và 04 chƣơng, cụ thể nhƣ sau:

Chƣơng I. Giới thiệu
Nêu lý do chọn đề tài, tổng quan về đề tài, mục đích nghiên cứu, đối tƣợng
và phạm vi nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài.

Chƣơng II: Cơ sở lý thuyết
Nghiên cứu các cơ sở lý thuyết khai phá dữ liệu, các bƣớc xây dựng giải
pháp khai phá dữ liệu, kiến trúc của một hệ thống khai phá dữ liệu, tìm hiểu các vấn
đề liên quan đến khai phá dữ liệu trong lĩnh vực giáo dục.
Tìm hiểu các kỹ thuật khai phá dữ liệu sử dụng trong bài toán phân lớp và dự
báo nhƣ: cây quyết định, phân lớp Naïve Bayes, mạng nơ ron nhân tạo và luật kết
hợp.
Tìm hiểu kỹ thuật khai phá dữ liệu trên hệ quản trị CSDL MS SQL Server sử
dụng bộ công cụ SQL Server Business Intelligence Development Studio, ngôn ngữ
truy vấn khai phá dữ liệu DMX (Data Mining Extensions) và kỹ thuật lập trình khai
phá dữ liệu với Analysis Services APIs sử dụng đối tƣợng ADOMD.NET.

Chƣơng III. Mô hình đề xuất
Mô tả ứng dụng, xây dựng bài toán liệt kê lộ trình học cho từng ngành học,
dự đoán kết quả cho các lộ trình, từ đó giúp sinh viên có thể lựa chọn lộ trình học
phù hợp với ngành mình đang theo học. Thu thập và xử lý các dữ liệu liên quan để
phát triển hệ thống.


8

Xây dựng hệ thống dự đoán kết quả học tập trên bộ dữ liệu đã thu thập đƣợc
(gồm dữ liệu thông tin tuyển sinh đầu vào kết hợp với lộ trình học của sinh viên
theo ngành học) sử dụng bộ công cụ SQL Server Business Intelligence
Development Studio với các mô hình Cây quyết định, Naïve Bayes, Neural
Networks, Luật kết hợp.

Chƣơng IV. Thực nghiệm và đánh giá
Tiến hành thực nghiệm, đánh giá trên các mô hình, lựa chọn mô hình cho kết
quả dự báo tốt nhất để sử dụng trong hệ thống dự đoán kết quả học tập, giúp sinh
viên có thể chọn ra lộ trình học phù hợp với điều kiện và năng lực của bản thân để
đạt kết quả tốt nghiệp cao nhất.


9

CHƢƠNG II - CƠ SỞ LÝ THUYẾT
2.1. Khái niệm về khai phá dữ liệu
2.1.1. Định nghĩa khai phá dữ liệu
Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lƣợng lớn các
dữ liệu đƣợc lƣu trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các
thông tin quan trọng, có giá trị tiềm ẩn bên trong.
Các dữ liệu này đƣợc thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp
vụ nhƣ: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp
ERP, các hệ thống quản lý khách hàng CRM, hay từ tác công cụ lƣu trữ thông tin
trên web…
Đây là những khối dữ liệu lớn nhƣng những thông tin mà nó thể hiện ra thì
lộn xộn và “nghèo” đối với ngƣời dùng. Kích thƣớc của khối dữ liệu lớn đó cũng
tăng với tốc độ rất nhanh chiếm nhiều dung lƣợng lƣu trữ. Khai phá dữ liệu sẽ giúp
trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu
ích.
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, ngƣời ta còn dùng một số thuật
ngữ khác có ý nghĩa tƣơng tự nhƣ: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ
liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu, nạo vét dữ liệu…Trên thực tế, nhiều
ngƣời coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức
trong CSDL KDD là nhƣ nhau. Còn một số ngƣời chỉ coi khai phá dữ liệu là một
bƣớc trong quá trình khám phá tri thức trong cơ sở dữ liệu. Quá trình này gồm một
số bƣớc lập đƣợc thể hiện trong hình sau.


10

Hình 2.1: Các bƣớc xây dựng một hệ thống khai phá dữ liệu [1]

Ý nghĩa cụ thể của các bƣớc nhƣ sau:
- Lựa chọn dữ liệu liên quan đến bài toán quan tâm.
- Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực.
- Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá.
- Khai phá dữ liệu, trích xuất ra các mẫu dữ liệu.
- Đánh giá mẫu.
- Sử dụng tri thức khai phá đƣợc.
Trong thực tế, thuật ngữ khai phá dữ liệu thông dụng và sử dụng rộng rãi hơn
thuật ngữ khám phá tri thức trong cơ sở dữ liệu. Theo hƣớng ứng dụng ngƣời ta
thƣờng chia khai phá dữ liệu là một quá trình trong đó gồm nhiều bƣớc nhỏ, mà ta
sẽ trình bày chi tiết ở mục tiếp theo: Các bƣớc xây dựng một giải pháp về khai phá
dữ liệu.

2.1.2. Những nhóm bài toán của khai phá dữ liệu
Khai phá dữ liệu có thể đƣợc dùng để giải quyết hàng trăm bài toán với
những mục đích và nhiệm vụ khác nhau. Dựa trên bản chất tự nhiên của các bài
toán đó, ngƣời ta có thể nhóm các bài toán đó thành những nhóm sau:

2.1.2.1 Phân loại


11

Bài toán phân loại là một trong những bài toán phổ biến nhất của khai phá dữ
liệu, ví dụ nhƣ: phân tích xem loại khách hàng nào có khả năng cao nhất sẽ chuyển
sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty (churn analysis),
quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi loại khách
hàng…
Phân loại là tổ chức dữ liệu trong các lớp cho trƣớc, còn đƣợc gọi là học có
quan sát. Phân loại sử dụng các nhãn lớp cho trƣớc để sắp xếp các đối tƣợng. Trong
đó, có một tập huấn luyện gồm các đối tƣợng đã đƣợc kết hợp với các nhãn đã biết.
Những thuật toán học có quan sát sẽ đƣợc áp dụng cho tập các đối tƣợng cần phân
loại để từ đó mô hình phân loại chúng.
Một số thuật toán dùng trong bài toán phân loại nhƣ: cây quyết định, mạng
nơ ron, mạng Naïve Bayes.

2.1.2.2 Phân cụm
Bài toán phân cụm hay còn gọi là phân đoạn. Điểm khác với bài toán phân
loại là ở đây các nhãn lớp chƣa biết và không có tập luyện. Các đối tƣợng đƣợc
phân loại dựa trên các thuộc tính tƣơng đồng giữa chúng. Bài toán phân lớp hay còn
gọi là học không có giám sát.

2.1.2.3 Bài toán phân tích luật kết hợp
Bài toán này đôi khi còn gọi là bài toán phân tích giỏ hàng bởi vì nó đƣợc sử
dụng rộng rãi trong phân tích các giao dịch dữ liệu, các bài toán lựa chọn hàng hóa
đi kèm…
Phân tích luật kết hợp khám phá ra các luật kết hợp thể hiện mối liên hệ giữa
các thuộc tính dữ liệu thƣờng xuất hiện cùng nhau trong các tập dữ liệu.

2.1.2.4 Hồi quy
Bài toán hồi quy cũng tƣơng tự nhƣ bài toán phân loại. Điểm khác biệt là hồi
quy dự đoán cho các dữ liệu liên tục

2.1.2.5 Dự đoán
Dự đoán là một mảng quan trọng của khai phá dữ liệu. Dự đoán có hai loại
chính: một loại là dự đoán về một số giá trị dữ liệu chƣa biết hay có xu hƣớng sắp


12

xảy ra, còn loại kia là dự đoán để phân lớp dựa trên một tập huấn luyện và giá trị
thuộc tính của đối tƣợng. Trong phạm vi luận văn sẽ sử dụng loại dự đoán thứ hai.

2.1.2.6 Phân tích chuỗi
Phân tích chuỗi đƣợc sử dụng để tìm ra các mẫu trong một loạt các giá trị
hay trạng thái rời rạc. Ví dụ nhƣ việc chọn mua hàng của khách hàng có thể mô
hình là một chuỗi dữ liệu. Hành động chọn mặt hàng A, sau đó chọn mặt hàng B,
C… là một chuỗi các trạng thái rời rạc. Trong khi đó thời gian lại là chuỗi số liên
tục.
Phân tích chuỗi và phân tích luật kết hợp giống nhau ở chỗ đều phân tích tập
hợp các đối tƣợng hay trạng thái. Điểm khác nhau là mô hình chuỗi phân tích sự
chuyển của các trạng thái, trong khi mô hình luật kết hợp thì coi mỗi một mặt hàng
trong giỏ hàng là nhƣ nhau và độc lập. Với mô hình chuỗi, việc chọn mặt hàng A
trƣớc mặt hàng B hay chọn mặt hàng B trƣớc A sau là khác nhau. Còn ở mô hình
kết hợp thì cả hai trƣờng hợp là nhƣ nhau.

2.1.2.7 Phân tích độ lệch
Bài toán này còn đƣợc gọi là phát hiện điểm biên. Điểm biên là những đối
tƣợng dữ liệu mà không tuân theo các đặc tính, hành vi chung.
Bài toán phát hiện điểm biên ứng dụng rất nhiều trong các ứng dụng. Ứng
dụng quan trọng nhất của bài toán phát hiện điểm biên là bài toán kiểm tra xác nhận
thẻ tín dụng…
Chƣa có một kỹ thuật chuẩn cho bài toán này. Nó vẫn còn đang là chủ đề mở
hiện đang tiếp tục nghiên cứu.

2.1.3Những lợi thế và thách thức của khai phá dữ liệu
2.1.3.1 Lợi thế
Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác nhƣ hệ
cơ sở dữ liệu, thống kê xác suất, trực quan hóa…Thêm vào đó khai phá dữ liệu còn
có thể áp dụng các kỹ thuật nhƣ mạng nơ ron, lý thuyết tập thô, tập mờ, biểu diễn tri
thức…nên khai phá dữ liệu có một số lợi thế so với các phƣơng pháp trên. Sau đây


13

là một vài so sánh của các chuyên gia giữa khai phá dữ liệu một số phƣơng pháp
truyền thống:
Phƣơng pháp học máy: đây là một phƣơng pháp có nhiều đóng góp cho bài
toán phân lớp, nhận dạng. Tuy nhiên, phƣơng pháp học máy chủ yếu đƣợc áp dụng
trong các cơ sở dữ liệu ít biến động, đầy đủ, tập dữ liệu không quá lớn. Trên thực tế,
các cơ sở dữ liệu thƣờng không đầy đủ, chứa nhiều nhiễu và biến đổi liên tục. Trong
trƣờng hợp này ngƣời ta sử dụng khai phá dữ liệu.
Phƣơng pháp thống kê: mặc dù thống kê là nền tảng của lý thuyết khai phá
dữ liệu nhƣng có thể thấy rõ những tồn tại của phƣơng pháp này mà khai phá dữ
liệu đã giải quyết đƣợc:
- Các phƣơng pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử
dụng các tri thức sẵn có về lĩnh vực.
- Kết quả phân tích của thống kê có thể sẽ có rất nhiều và khó có thể làm rõ
đƣợc.
- Phƣơng pháp thống kê cần có sự hƣớng dẫn của ngƣời dùng để xác định
phân tích dữ liệu nhƣ thế nào và ở đâu.

2.1.3.2 Thách thức
Bên cạnh những lợi thế trên, khai phá vẫn còn những thách thức:
- Chƣa có những hệ thống giao diện lập trình ứng dụng API chuẩn nên tạo ra
những khó khăn cho các kỹ sƣ tích hợp, phát triển ứng dụng.
- Yêu cầu kỹ sƣ phải có nền tảng toán vững chắc trong khi đa số các kỹ sƣ
chỉ thành thạo với các kỹ thuật cơ sở dữ liệu, ngôn ngữ lập trình.
- Tiếp tục là những thách thức về nguồn nhân lực: Phân tích dữ liệu ngày
càng trở nên quan trọng, tuy nhiên hầu hết những kỹ sƣ vẫn chƣa hiểu và thành thào
các kỹ thuật phân tích dữ liệu.
Những hạn chế của các thuật toán: Hầu hết các thuật toán đều khá là tổng
quát, nó sinh ra nhiều luật. Mặc dù các luật sinh ra đa số đều hữu ích nhƣng ta vẫn
phải đo độ đáng quan tâm của các mẫu nên vẫn cần sự can thiệp của các chuyên gia
nghiệp vụ. Nhiều lĩnh vực mới, ví dụ nhƣ phân tích chuỗi DNA trong công nghệ


14

sinh học hiện vẫn chƣa tìm đƣợc thuật toán chuyên dụng hiệu quả, đang là những đề
tài mở để nghiên cứu.

2.2. Các bƣớc xây dựng một giải pháp về khai phá dữ liệu
2.2.1 Mô hình luồng dữ liệu
Khai phá dữ liệu
Ứng dụng

OLAP

DW

OLPT

Kho dữ liệu

Xử lý giao dịch

Xử lý phân tích trực tuyến

trực tuyến

Hình 2.2: Mô hình luồng dữ liệu [1]

Những hệ thống phần mềm kinh doanh lƣu trữ các dữ liệu giao dịch trong
các cơ sở dữ liệu xử lý giao dịch trực tuyến. Những dữ liệu này đƣợc chuyển vào
kho dữ liệu. Những CSDL xử lý phân tích trực tuyến có thể đƣợc xây dựng từ
những dữ liệu trong kho dữ liệu.
Những mũi tên từ khai phá dữ liệu đi ra cho biết khai phá dữ liệu có thể đƣợc
áp dụng trong tất cả các bƣớc, từ trực tiếp những ứng dụng kinh doanh đến phân
tích trực tuyến.

2.2.2 Vòng đời của một hệ thống khai phá dữ liệu
Có rất nhiều tác giả đƣa ra các bƣớc của một hệ thống khai phá dữ liệu, mọi
sự phân chia chỉ mang tính chất tƣơng đối và tƣ tƣởng chủ đạo của nó là nhƣ sau:
- Bƣớc 1: Xác định mục tiêu bài toán.
- Bƣớc 2: thu thập dữ liệu.
- Bƣớc 3: Làm sạch dữ liệu và chuyển đổi dữ liệu.
- Bƣớc 4: Xây dựng mô hình.


15

- Bƣớc 5: Đánh giá mô hình hay đánh giá mẫu.
- Bƣớc 6: Báo cáo.
- Bƣớc 7: Dự đoán.
- Bƣớc 8: Tích hợp vào ứng dụng
- Bƣớc 9: Quản lý mô hình

2.2.2.1 Bƣớc 1: Xác định mục tiêu bài toán
Cũng giống nhƣ bất kỳ một dự án thông thƣờng nào, bƣớc đầu tiên trong quá
trình khai phá dữ liệu đó là phải xác định rõ đƣợc mục tiêu, nhiệm vụ của bài toán.
Đồng thời bên cạnh đó là sự phân công trách nhiệm ở một mức độ nào đó nhằm
đảm bảo dự án đƣợc triển khai một cách có hiệu quả.
Một vấn đề cũng rất quan trọng đƣợc đặt ra đó là “giải pháp khai phá dữ liệu
có thực sự là cần thiết cho vấn đề đó không?” Câu trả lời cho câu hỏi quan trọng
này là phải xác định thật chính xác mục tiêu của bài toán, cần xem mục tiêu của bài
toán có thuộc trong các bài toán của khai phá dữ liệu mà ta đã trình bày bên trên
không? Nó đòi hỏi sự cộng tác giữa các chuyên gia kinh doanh trong lĩnh vực đó và
chuyên gia công nghệ, chuyên gia phân tích dữ liệu.

2.2.2.2 Bƣớc 2: Thu thập dữ liệu
Sau khi xác định đƣợc mục tiêu, nhiệm vụ của bài toán, ta tiến hành thu thập
các dữ liệu liên quan. Dữ liệu có thể đƣợc thu thập từ nhiều nguồn: các cơ sở dữ
liệu của xử lý giao dịch trực tuyến, từ các tệp lƣu trữ thông tin trên web, từ các kho
dữ liệu…
Sau khi thu thập đƣợc các dữ liệu, ta có thể tiến hành chọn lọc dữ các mẫu
tiêu biểu để làm giảm độ lớn của tập luyện.
Trong nhiều trƣờng hợp, các mẫu chứa dữ liệu của khoảng 50,000 khách
hàng cũng tƣơng đƣơng với các mẫu chứa dữ liệu của khoảng 1 triệu khách hàng.

2.2.2.3 Bƣớc 3: Làm sạch dữ liệu và chuyển đổi dữ liệu
Làm sạch và chuyển đổi dữ liệu là một bƣớc rất quan trọng trong một dự ắn
khai phá dữ liệu


16

Làm sạch dữ liệu: Mục đích của làm sạch dữ liệu là loại bỏ những dữ liệu
thừa, không nhất quán, có chứa nhiễu. Quá trình làm sạch dữ liệu sẽ cố gắng thêm
giá trị vào những giá trị bị thiếu, làm mịn các điểm nhiễu và sửa lại các dữ liệu
không nhất quán. Sau đây là một số kỹ thuật áp dụng cho quá trình làm sạch dữ
liệu:
- Xử lý các dữ liệu bị thiếu: Có rất nhiều nguyên nhân của việc dữ liệu thiếu.
Ví dụ khách hàng đôi khi không điền đầy đủ các thông tin bắt buộc…Một số giải
pháp:
+ Bỏ qua mẫu dữ liệu đó nếu mẫu dữ liệu chứa nhiều thuộc tính thiếu giá trị.
+ Dùng một hằng số thay thế, thƣờng là giá trị trung bình của thuộc tính để
thêm vào, hoặc giá trị trung bình của các mẫu trong cùng một lớp với mẫu có giá trị
thiếu.
+ Sử dụng các giá trị có xác suất cao nhất.
- Loại bỏ các điểm biên: Các điểm biên có thể đƣợc phát hiện bằng cách sử
dụng phƣơng pháp phân cụm dữ liệu, hay hồi quy…
- Dữ liệu không nhất quán: Dữ liệu có thể không nhất quán với nhau trong
các bản ghi của một số giao dịch. Một số có thể đƣợc sửa lại một cách thủ công. Ví
dụ những lỗi do việc nhập dữ liệu gây ra. Ngoài ra còn có những lỗi đƣợc tạo ra
trong quá trình tích hợp dữ liệu…
Chuyển đổi dữ liệu: Mục đích của quá trình chuyển đổi dữ liệu là đƣa dữ
liệu về dạng phù hợp với thuật toán khai phá. Sau đây là một số kỹ thuật áp dụng
cho quá trình chuyển đổi dữ liệu:
- Chuyển đổi kiểu dữ liệu: Đây là một kỹ thuật đơn giản nhất. Ví dụ nhƣ
chuyển đổi các cột dữ liệu kiểu logic sang kiểu nguyên và ngƣợc lại. Lý do là một
số thuật toán khai phá dữ liệu thực thi tốt hơn trên dữ liệu kiểu nguyên trong khi số
khác thì ngƣợc lại.
- Nhóm: Đây cũng là một kỹ thuật nhóm các giá trị trong một cột lại để giảm
sự phức tạp: Ví dục: Cột nghề nghiệp có thể có những giá trị khác nhau nhƣ: Kỹ sƣ


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×