Tải bản đầy đủ

Thống kê phân tích dữ liệu bằng R

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC - KỸ THUẬT MÁY TÍNH

TOÁN RỜI RẠC 1
Bài tập lớn

Thống kê & phân tích dữ liệu bằng R

GVHD: Vương Bá Thịnh
SV:

Đỗ Lê Minh Hiển- 1411238
Hồ Quốc Ái - 1410150
Nguyễn Văn Hiền - 1411229
Lê Hoàng Duy - 1410564

TP. HỒ CHÍ MINH, THÁNG 1/2015

CuuDuongThanCong.com https://fb.com/tailieudientucnttTrường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Mục lục
1 Giới thiệu

2

2 Cơ sở lý thuyết
2.1 Thống kê mô tả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Công cụ R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3
3
3

3 Phân tích dữ liệu
3.1 Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Kết quả phân tích . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4
4
7

4 Kết luận

16

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 1/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Bài báo cáo này trình bày về thống kê và phân tích dữ liệu về một số mong muốn của sinh
viên Đại học Bách Khoa đối với giảng viên.

1

Giới thiệu

R là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính toán thống kê và vẽ biểu đồ.
Trong nhiều năm trước đây, khi nhắc đến thống kê, người ta nghĩ ngay đến SAS, SPSS, Stata,
Statistica, và S-Plus. Chúng đều là các công cụ chuyên nghiệp và mạnh mẽ, tuy nhiên lại rất
đắt tiền, có khi chi phí đến hàng trăm nghìn USD một năm. Năm 1997, R được giới thiệu bởi
hai nhà thống kê học Ross Ihaka và Robert Gentleman. R có mã nguồn mở và hoàn toàn miễn
phí. Từ khi ra đời đến nay, R được phát triển và hoàn thiện liên tục, trở thành một trong những
công cụ mạnh mẽ trong tính toán thông kê.
Sơ lược về đề tài : Thống kê và phân tích dữ liệu về một số mong muốn của sinh viên Đại
học Bách Khoa đối với giảng viên. Có 9 mong muốn được đưa ra:
1. Bạn có muốn giảng viên chỉ dạy hướng thực hiện chứ không đưa bài giải cụ thể?
2. Bạn có muốn giảng viên giao bài tập lớn?
3. Bạn có muốn giảng viên tổ chức các buổi thảo luận thêm về một đề tài hay vào cuối học kì?
4. Bạn có muốn giảng viên dùng slide tiếng nước ngoài?
5. Bạn có muốn giảng viên dùng hình mẫu hay vật mẫu hỗ trợ cho bài giảng?
6. Bạn có muốn giảng viên hoàn toàn sử dụng slide mà không viết bảng?
7. Bạn có muốn giảng viên điểm danh?
8. Bạn có muốn giảng viên chấm điểm "dễ, thoáng"?
9. Bạn có muốn giảng viên giao tiếp với sinh viên qua Facebook, Email?

Mỗi mong muốn có 5 mức độ đồng tình, ứng với các giá trị 1 đến 5:
1. Kịch liệt phản đối
2. Không mong muốn
3. Sao cũng được

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 2/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

4. Mong muốn
5. Rất mong muốn

Các mong muốn được tạo thành một bảng khảo sát online bằng dịch vụ typeform.com và được
đăng lên các group Facebook của sinh viên đại học Bách Khoa.

2
2.1

Cơ sở lý thuyết
Thống kê mô tả

Nói đến thống kê mô tả là nói đến việc mô tả dữ liệu bằng các phép tính và chỉ số thống kê như
số trung bình (mean), số trung vị (median), số lớn nhất (max), số nhỏ nhất (min), phương sai
(variance), độ lệch chuẩn (standard deviation). . .
Trong đó ta làm quen các định nghĩa:
- Phương sai của một biến ngẫu nhiên để đo sự phân tán thống kê của biến đó, nó hàm ý các
giá trị của biến đó thường ở cách giá trị kỳ vọng bao xa.
- Độ lệch chuẩn, hay độ lệch tiêu chuẩn, dùng để đo mức độ phân tán của một tập dữ liệu đã
được lập thành bảng tần số. Có thể tính ra độ lệch chuẩn bằng cách lấy căn bậc hai của phương
sai.

2.2

Công cụ R

Như đã nói ở trên, R là một công cụ miễn phí dùng để phân tích dữ liệu. Chúng ta có thể sử
dụng R để thực hiện các phép toán từ đơn giản đến phức tạp. Những bài toán tiêu biểu: các
phép kiểm định thống kê, tính toán trên ma trận, hồi quy tuyến tính, gom cụm dữ liệu, bài toán
phân lớp. . . Và vì R là một ngôn ngữ nên chúng ta có thể viết ứng dụng trên R để giải quyết
các vấn đề cụ thể.
- Các hàm của R để tính toán thống kê mô tả:
> option (width=100)
# chuyển directory
> setwd ("địa chỉ directory")
# đọc dữ liệu vào R từ file csv
> data <- read.csv ("tên file.csv", hearder = TRUE)
#Cho R biết data sẽ là dữ liệu cần xử lí
> attach (data)
# xem xét các cột số trong dữ liệu
> names (data)

# tính trung bình
> mean (tên cột cần tính)
# phương sai và độ lệch chuẩn

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 3/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

> var (tên cột cần tính)
> sd (tên cột cần tính)

3
3.1

Phân tích dữ liệu
Tập dữ liệu

- Tập dữ liệu được chia thành 9 cột lần lượt theo các mong muốn được khảo sát. Giá trị trong
mỗi cột là các giá trị rời rạc, 1 đến 5, ứng với các mức độ mong muốn đối với nội dung được đưa
ra, đã nêu ở trên.
- Đọc dữ liệu bằng R : nhập dữ liệu vào excel và lưu dưới dạng csv (coma delimited).
- Dùng R để nhập dữ liệu dạng csv: giả sử lưu dữ liệu có tên excel.csv trong directory “D:/ctrr”
- Tạo sẵn các hàm cho việc nhập dữ liệu (input.R) và xử lí dữ liệu (thongke.R).
- Input()
input <- function()
{
setwd("D:/ctrr")
data=read.csv("excel.csv", header=TRUE, na.string=".")
attach(data)
data
}
- thongke()
thongke=function(x)
{
x.tanso=table(x)
tb=mean(x)
dlc=sd(x)
MUC_DO_MONG_MUON=x
hist(MUC_DO_MONG_MUON)
c(TRUNG_BINH=tb, DO_LECH_CHUAN=dlc)
}
- Vào R và gõ lệnh :
> source("D:\\ctrr\\input.R")
> source("D:\\ctrr\\thongke.R")
- Kết quả:
(stt)
cau1
1
2
2
4
3
2
4
1
5
3
6
4
7
5
8
3
9
1

cau2
2
4
1
4
3
3
5
2
1

cau3
2
5
4
5
2
2
5
4
1

cau4
1
5
1
1
4
3
5
1
3

cau5
5
5
4
5
5
5
5
5
5

cau6
1
1
1
1
3
3
5
1
1

cau7
1
3
1
2
3
3
5
1
1

cau8
2
3
5
1
5
5
5
5
5

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

cau9
3
5
4
5
5
5
1
5
5

Trang 4/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58

1
4
2
3
5
3
3
3
5
1
1
3
4
2
1
4
1
4
4
3
4
3
3
4
4
5
3
2
3
5
3
4
1
3
5
3
5
4
2
4
5
5
3
4
5
4
5
5
4

4
5
4
3
3
4
4
1
5
1
1
4
4
3
5
1
4
3
3
5
4
5
4
5
5
4
4
2
4
4
4
2
2
5
4
5
4
4
3
5
2
1
4
3
4
3
1
1
2

3
5
3
3
4
5
4
2
4
3
3
4
5
4
5
4
3
5
5
5
4
1
4
2
3
3
5
2
3
5
1
5
5
1
2
5
3
4
3
3
4
4
2
5
3
5
5
4
5

1
3
3
3
2
2
2
2
5
1
1
5
1
3
1
5
3
3
3
2
2
5
2
4
5
5
4
4
4
2
5
3
1
4
5
2
4
4
2
2
3
3
5
3
5
4
5
4
3

5
5
4
3
5
4
3
4
5
4
1
4
5
4
5
3
3
5
5
4
5
5
5
1
4
2
1
1
2
5
4
4
4
4
4
5
2
4
5
5
5
1
4
4
2
2
5
4
3

2
3
2
1
1
5
2
3
4
3
3
3
4
2
5
2
2
3
5
1
2
1
2
5
5
5
5
5
4
3
2
2
1
2
4
3
5
3
3
2
2
4
3
1
4
5
2
3
5

5
3
2
3
4
1
2
2
1
1
2
4
1
2
3
1
4
1
4
1
5
1
1
5
2
2
1
1
2
5
5
2
5
5
5
5
4
5
1
4
5
4
4
5
2
3
2
1
2

5
3
4
3
3
3
4
4
4
1
5
3
4
4
5
5
5
5
1
5
3
4
4
3
5
4
5
2
4
2
4
5
3
2
5
1
3
3
5
2
4
1
5
4
5
4
5
5
5

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

5
4
4
3
3
5
4
3
5
1
5
4
5
5
5
3
3
4
5
1
5
4
5
5
4
5
4
3
3
5
3
5
4
5
1
5
5
5
4
5
2
3
5
4
4
2
5
3
2

Trang 5/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

59
5
60
4
61
5
62
5
63
5
64
5
65
1
66
2
67
3
68
1
69
1
70
4
71
3
- Sau đó mỗi lần ta

2
5
4
5
2
5
5
4
2
2
4
3
1
4
3
4
3
4
2
2
1
5
5
2
5
5
5
1
1
1
5
5
1
5
3
1
3
4
3
gọi lại hàm thongke để tính

3
4
1
4
4
3
4
5
4
2
3
5
5
3
2
4
5
1
5
3
4
2
3
5
4
2
3
2
5
1
5
3
5
5
5
5
1
1
1
1
5
1
3
5
4
4
3
3
3
2
1
3
trung bình và độ lệch chuẩn.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

5
2
1
2
4
4
4
5
5
1
3
5
5

Trang 6/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

3.2

Kết quả phân tích

- Mong muốn thứ nhất
Bạn có muốn giảng viên chỉ dạy hướng thực hiện chứ không đưa bài giải cụ thể?
> thongke(cau1)
TRUNG_BINH DO_LECH_CHUAN
3.323944
1.360406

Hình 1: Biểu đồ cho mong muốn thứ nhất
Nhận xét:
Trung bình là 3.323944 cho thấy sinh viên có mong muốn giảng viên có hướng dẫn thực hiện chứ
không chỉ đưa bài giải cụ thể.
Độ lệch chuẩn là 1.360406 cho thấy mong muốn của các bạn sinh viên có biến động mạnh và
không ổn định. Có bạn muốn giảng viên chỉ đưa bài giải chứ không cần hướng dẫn. Một số tích
cực phản đối hành động này.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 7/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ hai
Bạn có muốn giảng viên giao bài tập lớn?
> thongke(cau2)
TRUNG_BINH DO_LECH_CHUAN
3.338028
1.393287

Hình 2: Biểu đồ cho mong muốn thứ hai
Nhận xét:
Trung bình là 3.338028 cho thấy sinh viên có mong muốn giảng viên có giao bài tập lớn để thực
hiện.
Độ lệch chuẩn là 1.393287 cho thấy mong muốn của các bạn sinh viên có biến động mạnh và
không ổn định. Sẽ có bạn không muốn có bài tập lớn để không phải làm tốn thời gian, bên cạnh
đó có bạn tích cực ủng hộ việc giao bài tập lớn để nâng cao kĩ năng làm việc nhóm.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 8/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ ba
Bạn có muốn giảng viên tổ chức các buổi thảo luận thêm về một đề tài hay vào cuối
học kì?
> thongke(cau3)
TRUNG_BINH DO_LECH_CHUAN
3.619718
1.269040

Hình 3: Biểu đồ cho mong muốn thứ ba
Nhận xét:
Trung bình là 3.619718 cho thấy các bạn sinh viên muốn giảng viên tổ chức các buổi thảo luận
thêm về một đề tài hay vào cuối kì.
Độ lệch chuẩn là 1.269040 cho thấy mong muốn của các bạn sinh viên có biến động và không ổn
định. Đa số các bạn đều hưởng ứng việc tổ chức các buổi thảo luận để hiểu thêm về môn học.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 9/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ tư
Bạn có muốn giảng viên dùng slide tiếng nước ngoài?
> thongke(cau4)
TRUNG_BINH DO_LECH_CHUAN
3.014085
1.419184

Hình 4: Biểu đồ cho mong muốn thứ tư
Nhận xét:
Trung bình là 3.014085 cho thấy nhiều bạn sinh viên có mong muốn giảng viên giảng dạy bằng
slide tiếng nước ngoài.
Độ lệch chuẩn là 1.419184 cho thấy mong muốn của các bạn sinh viên có biến động mạnh và
không ổn định. Nhiều bạn muốn giảng viên dùng slide tiếng anh để nâng cao trình độ ngoại ngữ
của mình, bên cạch đó nhiều bạn cũng không ủng hộ phương pháp này vì trình độ ngoại ngữ các
bạn còn hạn chế.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 10/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ năm
Bạn có muốn giảng viên dùng hình mẫu hay vật mẫu hỗ trợ cho bài giảng?
> thongke(cau5)
TRUNG_BINH DO_LECH_CHUAN
3.929577
1.257253

Hình 5: Biểu đồ cho mong muốn thứ năm
Nhận xét:
Trung bình là 3.929577 cho thấy đa số bạn sinh viên có mong muốn giảng viên giảng dạy có sử
dụng các hình mẫu, vật mẫu hỗ trợ công việc giảng dạy.
Độ lệch chuẩn là 1.257253 cho thấy mong muốn của các bạn sinh viên có biến động mạnh và
không ổn định. Chủ yếu các bạn muốn giảng viên sử dụng các vật mẫu để môn học thêm sinh
động.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 11/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ sáu
Bạn có muốn giảng viên hoàn toàn sử dụng slide mà không viết bảng?
> thongke(cau6)
TRUNG_BINH DO_LECH_CHUAN
2.774648
1.406081

Hình 6: Biểu đồ cho mong muốn thứ sáu
Nhận xét:
Trung bình là 2.774648 cho thấy đa số bạn sinh viên không đồng ý việc giảng viên giảng dạy chỉ
dùng slide mà không viết bảng.
Độ lệch chuẩn là 1.406081 cho thấy mong muốn của các bạn sinh viên có biến động mạnh và
không ổn định. Chủ yếu các bạn sinh viên không đồng tình với việc giảng viên chỉ dùng slide
trong việc giảng dạy.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 12/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ bảy
Bạn có muốn giảng viên điểm danh?
> thongke(cau7)
TRUNG_BINH DO_LECH_CHUAN
2.816901
1.533529

Hình 7: Biểu đồ cho mong muốn thứ bảy
Nhận xét:
Trung bình là 2.816901 cho thấy đa số bạn sinh viên không đồng ý việc giảng viên điểm danh
trong giờ học.
Độ lệch chuẩn là 1.533529 cho thấy mong muốn của các bạn sinh viên có biến động và không
ổn định. Các bạn sinh viên không mong muốn việc giảng viên điểm danh vì nhiều bạn rất ít khi
đến lớp mà tự học ở nhà.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 13/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ tám
Bạn có muốn giảng viên chấm điểm "dễ, thoáng"?
> thongke(cau8)
TRUNG_BINH DO_LECH_CHUAN
3.760563
1.292448

Hình 8: Biểu đồ cho mong muốn thứ tám
Nhận xét:
Trung bình là 3.760563 cho thấy đa số bạn sinh viên đều muốn giảng viên chấm điểm dễ và
“thoáng”.
Độ lệch chuẩn là 1.292448 cho thấy mong muốn của các bạn sinh viên có biến động và không ổn
định. Hầu như các bạn đều mong muốn giảng viên chấm dễ để đạt điểm cao.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 14/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

- Mong muốn thứ chín
Bạn có muốn giảng viên giao tiếp với sinh viên qua Facebook, Email?
> thongke(cau9)
TRUNG_BINH DO_LECH_CHUAN
3.887324
1.293382

Hình 9: Biểu đồ cho mong muốn thứ chín
Nhận xét:
Trung bình là 3.887324 cho thấy hầu như tất cả bạn sinh viên đều muốn giao tiếp với giảng viên
qua Facebook, Email.
Độ lệch chuẩn là 1.293382 cho thấy mong muốn của các bạn sinh viên có biến động và không ổn
định. Các bạn sinh viên muốn giảng viên giao tiếp với họ qua Facebook, Email vì đó là những
công cụ họ hay sử dụng trong cuộc sống. Một số ít bạn lại không thích điều này

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 15/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

4

Kết luận

Trong báo cáo này chúng tôi đã trình bày về việc sử dụng công cụ R để tiến hành phân tích các
số liệu thống kê được về một số mong muốn của sinh viên Đại học Bách Khoa đối với giảng viên.
Khó khăn lớn nhất gặp phải chính là việc thu thập dữ liệu. Do cùng lúc có đến hơn 60 nhóm
cùng thực hiện một đề tài nên khi tiến hành khảo sát, một số sinh viên cảm thấy phiền và khó
chịu do đã bị rất nhiều nhóm khác mời làm khảo sát.
Tuy lấy mẫu bằng cách khảo sát online nhưng nhóm chúng tôi không gửi vào email sinh viên mà
gửi vào các group Facebook của sinh viên, tránh trường hợp việc khảo sát trở thành spam hàng
loạt.

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 16/17


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Tài liệu
[1] Creating a Graph - Statmethods.net
http://www.statmethods.net/graphs/creating.htm, xem ngày : 2/2/2015.
[2] Khảo sát Online của nhóm
https://minhhien1996.typeform.com/to/oWfMn2

Bài tập lớn môn Toán Rời Rạc 1 - Niên khóa 2014-2015

CuuDuongThanCong.com https://fb.com/tailieudientucntt

Trang 17/17Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×

×