Tải bản đầy đủ

Bài tập Thống kê mô tả

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN

MÔN HỌC: XÁC SUẤT THỐNG KÊ CHUYÊN SÂU

THỰC NGHIỆM THỐNG KÊ MÔ TẢ
BẰNG NGÔN NGỮ R

GVHD: PGS.TS ĐINH NGỌC THANH
HV: LƯƠNG MINH LIÊM PHA - 17C12014
KHÓA: 2017-2019

TPHCM, 07/2018


MỤC LỤC
1.

2.

GIỚI THIỆU VỀ BỘ DỮ LIỆU CHỈ SỐ IQ................................................................................... 3

1.1.

Bộ dữ liệu về chỉ số IQ câu lạc bộ toán học............................................................................. 3

1.2.

Nạp và hiển thị dữ liệu: .......................................................................................................... 3

CÁC THAM SỐ THỐNG KÊ MÔ TẢ........................................................................................... 5
2.1.

Bảng tần số, tần suất các trường dữ liệu .................................................................................. 5

2.2.

Đo lường khuynh hướng trung tâm ......................................................................................... 6

2.2.1.

Giá trị trung bình chỉ số IQ ............................................................................................. 6

2.2.2.

Giá trị trung vị chỉ số IQ ................................................................................................. 6

2.2.3.

Giá trị mode chỉ số IQ..................................................................................................... 6

2.3.

2.3.1.

Phương sai chỉ số IQ ....................................................................................................... 7

2.3.2.

Độ lệch chuẩn chỉ số IQ .................................................................................................. 7

2.4.



3.

4.

5.

Đo lường mức độ phân tán ..................................................................................................... 7

Các thước đo về vị trí tương đối ............................................................................................. 7

2.4.1.

Khoảng phân vị chỉ số IQ................................................................................................ 7

2.4.2.

Khoảng biến thiên của chỉ số IQ ..................................................................................... 7

CÁC BIỂU ĐỒ, ĐỒ THỊ MÔ TẢ .................................................................................................. 8
3.1.

Biểu đồ tần số, tần suất chỉ số IQ ............................................................................................ 8

3.2.

Biểu đồ hộp chỉ số IQ ............................................................................................................. 9

3.3.

Biều đồ hình quạt về các lớp trí tuệ của chỉ số IQ.................................................................. 10

3.4.

Biểu đồ thanh phân loại trí tuệ chỉ số IQ ............................................................................... 13

3.5.

Đồ thị cành lá chỉ số IQ ........................................................................................................ 13

THỐNG KÊ GIỮA NAM VÀ NỮ ............................................................................................... 14
4.1.

Thống kê xem nhóm nào có trí thông minh cao hơn .............................................................. 14

4.2.

Kiểm định t-test .................................................................................................................... 15

BỘ DỮ LIỆU VỀ CHIỀU CAO CỦA 10 ĐỨA TRẺ THEO THÁNG TUỔI ................................ 16
5.1.

Nạp và đọc dữ liệu: .............................................................................................................. 16

5.2.

Đồ thị phân tán chiều cao và tháng tuổi ................................................................................ 16

5.3.

Đường biểu diễn tương quan giữa chiều cao và tháng tuổi .................................................... 17

TÀI LIỆU THAM KHẢO.................................................................................................................... 18


1. GIỚI THIỆU VỀ BỘ DỮ LIỆU CHỈ SỐ IQ
1.1.

Bộ dữ liệu về chỉ số IQ câu lạc bộ toán học

Bộ dữ liệu thu thập gồm chỉ số IQ của 100 người trong câu lạc bộ toán học với các
trường: STT, ChiSoIQ, GioiTinh
Số thứ tự
1

STT

2

ChiSoIQ

3

GioiTinh
1.2.

Tên cột

Ý nghĩa
Số thứ tự người được khảo
sát
Chỉ số IQ của người được
khảo sát
Giới tính của người được
khảo sát

Nạp và hiển thị dữ liệu:

Thiết lập thư mục làm việc vào đường dẫn D:/BAITAP
> #Thiet lap thu muc lam viec
> setwd("D:/BAITAP")

Đọc dữ liệu chisoIQ.csv lưu vào biến data và hiển thị dữ liệu
> #Doc va hien thi du lieu
> data<-read.csv("chisoIQ.csv",header=TRUE)
> data
STT ChiSoIQ GioiTinh
1
115
Nu
2
113
Nam
3
110
Nu
4
100
Nam
5
125
Nam
6
125
Nam
7
116
Nam
8
117
Nu
9
118
Nam
10
111
Nam
11
99
Nam
12
121
Nam
13
115
Nu
14
110
Nu
15
100
Nam
16
100
Nu
17
119
Nam
18
121
Nu
19
105
Nam
20
108
Nu
21
109
Nu
22
113
Nam
23
110
Nam


24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80

115
116
125
107
115
119
116
125
95
114
109
108
116
115
123
90
92
116
114
115
113
112
117
101
105
109
108
103
121
145
111
94
96
94
115
116
100
101
103
104
105
114
119
121
109
108
116
110
130
140
145
120
105
120
124
150
104

Nam
Nam
Nam
Nu
Nam
Nu
Nam
Nam
Nu
Nam
Nu
Nam
Nam
Nam
Nam
Nam
Nam
Nam
Nam
Nu
Nam
Nam
Nu
Nam
Nu
Nam
Nam
Nam
Nu
Nam
Nu
Nam
Nu
Nam
Nam
Nu
Nam
Nu
Nam
Nam
Nam
Nu
Nam
Nu
Nam
Nam
Nam
Nam
Nam
Nu
Nam
Nu
Nam
Nam
Nam
Nam
Nam


81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100

95
99
138
142
126
131
127
122
133
144
99
92
141
146
115
118
112
150
135
116

Nam
Nam
Nam
Nam
Nam
Nam
Nu
Nam
Nam
Nu
Nam
Nu
Nam
Nam
Nam
Nu
Nam
Nam
Nu
Nam

Lưu và nạp lại dữ liệu cho những lần sử dụng kế tiếp
>
>
>
>

# Luu du lieu
save(data,file="data.rda")
# Nap lai du lieu data vao R
load("data.rda")

Truy cập nội dung các biến của khung dữ liệu trực tiếp bằng tên biến nhờ vào hàm
attach
> #truy cap truc tiep
> attach(data)

2. CÁC THAM SỐ THỐNG KÊ MÔ TẢ
2.1.

Bảng tần số, tần suất các trường dữ liệu

Bảng tần số chỉ số IQ
> table(ChiSoIQ)
ChiSoIQ
90 92 94 95 96 99 100 101 103 104 105 107 108 109 110 111 112 113 114
1
2
2
2
1
3
4
2
2
2
4
1
4
4
4
2
2
3
3
115 116 117 118 119 120 121 122 123 124 125 126 127 130 131 133 135 138 140
8
8
2
2
3
2
4
1
1
1
4
1
1
1
1
1
1
1
1
141 142 144 145 146 150
1
1
1
2
1
2

Bảng tần suất chỉ số IQ
> tableChiSoIQ<-table(ChiSoIQ)


> prop.table(tableChiSoIQ)
ChiSoIQ
90
92
94
95
96
99 100 101 103 104 105 107 108 109 110
0.01 0.02 0.02 0.02 0.01 0.03 0.04 0.02 0.02 0.02 0.04 0.01 0.04 0.04 0.04
111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
0.02 0.02 0.03 0.03 0.08 0.08 0.02 0.02 0.03 0.02 0.04 0.01 0.01 0.01 0.04
126 127 130 131 133 135 138 140 141 142 144 145 146 150
0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.01 0.02 0.01 0.02

Bảng tần số giới tính
> table(GioiTinh)
GioiTinh
Nam Nu
70 30

Bảng tần suất giới tính
> tableGioiTinh<-table(GioiTinh)
> prop.table(tableGioiTinh)
GioiTinh
Nam Nu
0.7 0.3

2.2.
2.2.1.

Đo lường khuynh hướng trung tâm
Giá trị trung bình chỉ số IQ

> mean(ChiSoIQ)
[1] 115.14

Chỉ số IQ trung bình của câu lạc bộ là 115.4
2.2.2.

Giá trị trung vị chỉ số IQ

> median(ChiSoIQ)
[1] 115

Vị trí trung tâm của chỉ số IQ là 115, nghĩa là không có quá 50% dữ liệu chỉ số IQ
nhỏ hơn 115 và không có quá 50% dữ liệu chỉ số IQ lớn hơn 115
2.2.3.

Giá trị mode chỉ số IQ

Giá trị IQ có tần số cao nhất:
> max(table(ChiSoIQ))
[1] 8

Vị trí có tần số cao nhất:
> which(table(ChiSoIQ)==8)


115 116
20 21

Kết quả trên cho thấy giá trị mode (giá trị chỉ số IQ mà tại đó có tần số cao nhất) là
115 hoặc 116 tại vị trí thứ 20, 21 trong bảng tần số
2.3.
2.3.1.

Đo lường mức độ phân tán
Phương sai chỉ số IQ

> var(ChiSoIQ)
[1] 184.1822

Kết quả trên cho thấy phương sai của chỉ số IQ là 184.1822
2.3.2.

Độ lệch chuẩn chỉ số IQ

> sd(ChiSoIQ)
[1] 13.57138

Kết quả trên cho thấy độ lệch chuẩn của chỉ số IQ là 13.57138
2.4.
2.4.1.

Các thước đo về vị trí tương đối
Khoảng phân vị chỉ số IQ

Khoảng phân vị mặc định trong hàm quantile:
> quantile(ChiSoIQ)
0%
25%
50%
75% 100%
90.0 106.5 115.0 121.0 150.0

Từ kết quả trên cho thấy
-

Không có người có IQ nhỏ hơn 90

-

Khoảng 25% người có IQ nhỏ hơn 106.5 và 75% người có IQ cao hơn 106.5

-

Khoảng 50% người có IQ nhỏ hơn 115 và 50% người có IQ cao hơn 115

-

Khoảng 75% người có IQ nhỏ hơn 121và 25% người có IQ cao hơn 121

-

100% người có IQ nhỏ hơn hoặc bằng 150

Khoảng phân vị bất kỳ
> quantile(ChiSoIQ,0.9)
90%
135.3

Từ kết quả này cho thấy 90% số người có IQ nhỏ hơn 135.3
2.4.2.

Khoảng biến thiên của chỉ số IQ

> max(ChiSoIQ)
[1] 150

Chỉ số IQ cao nhât là 150


> min(ChiSoIQ)
[1] 90

Chỉ số IQ thấp nhất là 90

> range(ChiSoIQ)
[1] 90 150

Chỉ số IQ nằm từ 90 đến 150
> range(ChiSoIQ)[2]-range(ChiSoIQ)[1]
[1] 60

Chỉ số IQ cao nhất lớn hơn chỉ số IQ thấp nhất là 60
> summary(ChiSoIQ)
Min. 1st Qu. Median
90.0
106.5
115.0

Mean 3rd Qu.
115.1
121.0

Max.
150.0

Tóm lại từ lệnh summary là có thể thấy các thông kê mô tả cơ bản và tần số của bộ
dữ liệu bao gồm : giá trị nhỏ nhất, tứ phân vị thứ nhất, trung vị median, giá trị trung bình
mean, tứ phân vị thứ ba và giá trị lớn nhất. Kết quả cho thấy độ trải giữa của dữ liệu chỉ
số IQ từ tứ phân vị thứ nhất đến tứ phân vị thứ 3 là 106.5 đến 121
3. CÁC BIỂU ĐỒ, ĐỒ THỊ MÔ TẢ
3.1.

Biểu đồ tần số, tần suất chỉ số IQ

Biểu đồ tần số chỉ số IQ với 10 thanh
> hist(ChiSoIQ, breaks=10, col="blue", border = "white", xlab = "Chỉ số IQ",
ylab = "Số lượng người", main = "Biểu đồ phân bố chỉ số IQ")


Biểu đồ tần số chỉ số IQ với 30 thanh
> hist(ChiSoIQ, breaks=30, col="blue", border = "white", xlab = "Chỉ số IQ",
ylab = "Số lượng người", main = "Biểu đồ phân bố chỉ số IQ")

Biểu đồ tần suất chỉ số IQ với 30 thanh
> hist(ChiSoIQ, freq = FALSE, breaks=30, col="blue", border = "white", xlab
= "Chỉ số IQ", ylab = "Tần suất", main = "Biểu đồ tần suất chỉ số IQ")

3.2.

Biểu đồ hộp chỉ số IQ

> boxplot(ChiSoIQ, col="blue", xlab="Chỉ số IQ", main="Biểu đồ hộp Chỉ số IQ")


3.3.

Biều đồ hình quạt về các lớp trí tuệ của chỉ số IQ

Qui định về trí tuệ với các mức IQ như sau:
-

Người bình thường: từ 85 <= IQ <=115

-

Người thông minh: IQ từ 116 <= IQ <=130

-

Người thông minh cao: IQ từ 131 <= IQ <=150

Ta có bảng trí tuệ tương ứng của 100 người:
>
>
>
>
>

tritue<-c()
tritue[ChiSoIQ<=115]<-"Bình thường"
tritue[ChiSoIQ>115 & ChiSoIQ <=130]<-"Thông minh"
tritue[ChiSoIQ>130]<-"Thông minh cao"
tritue
[1] "Bình thuờng"
[2] "Bình thuờng"
[3] "Bình thuờng"
[4] "Bình thuờng"
[5] "Thông minh"
[6] "Thông minh"
[7] "Thông minh"
[8] "Thông minh"
[9] "Thông minh"
[10] "Bình thuờng"
[11] "Bình thuờng"
[12] "Thông minh"
[13] "Bình thuờng"
[14] "Bình thuờng"
[15] "Bình thuờng"
[16] "Bình thuờng"
[17] "Thông minh"
[18] "Thông minh"
[19] "Bình thuờng"
[20] "Bình thuờng"
[21] "Bình thuờng"


[22]
[23]
[24]
[25]
[26]
[27]
[28]
[29]
[30]
[31]
[32]
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
[45]
[46]
[47]
[48]
[49]
[50]
[51]
[52]
[53]
[54]
[55]
[56]
[57]
[58]
[59]
[60]
[61]
[62]
[63]
[64]
[65]
[66]
[67]
[68]
[69]
[70]
[71]
[72]
[73]
[74]
[75]

"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Thông minh"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Thông minh"
"Thông minh"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Bình thuờng"
"Thông minh"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Thông minh cao"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Thông minh"
"Bình thuờng"
"Bình thuờng"
"Thông minh"
"Bình thuờng"
"Thông minh"
"Thông minh cao"
"Thông minh cao"
"Thông minh"


[76]
[77]
[78]
[79]
[80]
[81]
[82]
[83]
[84]
[85]
[86]
[87]
[88]
[89]
[90]
[91]
[92]
[93]
[94]
[95]
[96]
[97]
[98]
[99]
[100]

"Bình thuờng"
"Thông minh"
"Thông minh"
"Thông minh cao"
"Bình thuờng"
"Bình thuờng"
"Bình thuờng"
"Thông minh cao"
"Thông minh cao"
"Thông minh"
"Thông minh cao"
"Thông minh"
"Thông minh"
"Thông minh cao"
"Thông minh cao"
"Bình thuờng"
"Bình thuờng"
"Thông minh cao"
"Thông minh cao"
"Bình thuờng"
"Thông minh"
"Bình thuờng"
"Thông minh cao"
"Thông minh cao"
"Thông minh"

Tần số về trí tuệ
> table(tritue)
tritue
Bình thuờng
56

Thông minh Thông minh cao
31
13

Tần suất về trí tuệ
> prop.table(tabletritue)
tritue
Bình thuờng
Thông minh Thông minh cao
0.56
0.31
0.13

Vẽ biểu đồ hình quạt phân loại trí tuệ:
> pie(tabletritue, main = "Biểu đồ hình quạt phân loại trí tuệ")


3.4.

Biểu đồ thanh phân loại trí tuệ chỉ số IQ

> barplot(phanloaitritue, main = "Biểu đồ thanh phân loại trí tuệ", xlab = "T
rí tuệ", ylab = "Tần số")

3.5.

Đồ thị cành lá chỉ số IQ

> stem(ChiSoIQ)
The decimal point is 1 digit(s) to the right of the |
9 | 02244556999


10
11
12
13
14
15

|
|
|
|
|
|

00001133445555788889999
0000112233344455555555666666667788999
001111234555567
01358
0124556
00

4. THỐNG KÊ GIỮA NAM VÀ NỮ
4.1.

Thống kê xem nhóm nào có trí thông minh cao hơn

Với qui định trí người thông minh có IQ >=116
Lập bảng thống kê tần số, tần suất:
> data01 <- data
> data01$thongminh[data01$ChiSoIQ>=116]<-"Thông minh"
> data01$thongminh[data01$ChiSoIQ<116]<-"Không thông minh"
> data01Nam<-data01$thongminh[data01$GioiTinh=="Nam"]
> tableNam<-table(data01Nam)
> data01Nu<-data01$thongminh[data01$GioiTinh=="Nu"]
> tableNu<-table(data01Nu)
> cbind("Tan so [Nam]" = tableNam, "Tan suat [Nam]" = prop.table(tableNam),
+
"Tan so [Nu]"=tableNu, "Tan suat [Nu]" = prop.table(tableNu))
Tan so [Nam] Tan suat [Nam] Tan so [Nu] Tan suat [Nu]
Không thông minh
39
0.5571429
17
0.5666667
Thông minh
31
0.4428571
13
0.4333333

Biểu đồ quạt tỷ lệ thông minh của Nam:
> tableNamPercent <- round(100*tableNam/sum(tableNam), 1)
> pie(tableNam, labels = tableNamPercent, main="Ty le thong minh cua Nam",co
l=rainbow(length(tableNam)))
> legend("topright", c("Thong minh (>=116)","Khong thong minh (<116)"), cex
= 0.7,fill = rainbow(length(tableNam)))


Biểu đồ quạt tỷ lệ thông minh của Nữ
> tableNuPercent <- round(100*tableNu/sum(tableNu), 1)
> pie(tableNu, labels = tableNuPercent, main="Ty le thong minh cua Nu",col=r
ainbow(length(tableNu)))
> legend("topright", c("Thong minh (>=116)","Khong thong minh (<116)"), cex
= 0.7,fill = rainbow(length(tableNu)))

Nhìn vào hai biểu đồ trên ta thấy Nam có tỷ lệ thông minh là 55.7%, nữ có tỷ lệ thông
minh là 56.7%. Chênh lệch không quá cao nên có thể xem Nam và Nữ trong câu lạc bộ
toán học có độ thông minh gần bằng nhau.
4.2.

Kiểm định t-test

t.test(ChiSoIQ~GioiTinh)
Welch Two Sample t-test
data: ChiSoIQ by GioiTinh
t = 0.44819, df = 64.277, p-value = 0.6555
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.312972 6.808210
sample estimates:
mean in group Nam mean in group Nu
115.5143
114.2667

Trong lệnh trên trị số p = 0.6555 cho thấy mức độ khác biệt giữa hai nhóm nam và nữ
không có ý nghĩa thống kê (vì cao hơn 0.05 hay 5%). Khoảng tin cậy 95% cho độ khác
biệt giữa hai nhóm từ -4.312972 đến 6.808210.
Kết quả tính toán trên cho biết chỉ số IQ ở Nam giới có thể thấp hơn cao hơn nữ với
độ khác biệt quá lớn và đó là thêm bằng chứng cho thấy không có khác biệt có ý nghĩa
thống kê giữa hai nhóm.


Kiểm định trên dựa vào giả thiết hai nhóm nam và nữ có khác phương sai. Nếu chúng
ta có lí do để cho rằng hai nhóm có cùng phương sai, chúng ta chỉ thay đổi một thông số
trong hàm t với var.equal=TRUE như sau:
> t.test(ChiSoIQ~GioiTinh, var.equal=TRUE )
Two Sample t-test
data: ChiSoIQ by GioiTinh
t = 0.41952, df = 98, p-value = 0.6758
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.654027 7.149265
sample estimates:
mean in group Nam mean in group Nu
115.5143
114.2667

Về mặt số, kết quả phân tích trên có khác chút ít so với kết quả phân tích dựa vào giả
định hai phương sai khác nhau, nhưng trị số p quá lớn cũng đi đến một kết luận rằng độ
khác biệt giữa hai nhóm không có ý nghĩa thống kê.
5. BỘ DỮ LIỆU VỀ CHIỀU CAO CỦA 10 ĐỨA TRẺ THEO THÁNG TUỔI
5.1.

Nạp và đọc dữ liệu:

> data2<-read.csv("KhaoSatChieuCao.csv",header=TRUE)
> data2
ChieuCao ThangTuoi
1
76.0
18
2
77.0
19
3
76.3
19
4
77.3
20
5
77.7
21
6
78.8
22
7
78.2
22
8
79.0
23
9
80.2
24
10
80.6
25

Lưu và nạp lại dữ liệu cho những lần sử dụng kế tiếp
>
>
>
>

# Luu du lieu
save(data2,file="data2.rda")
# Nap lai du lieu data vao R
load("data2.rda")

Truy cập nội dung các biến của khung dữ liệu trực tiếp bằng tên biến nhờ vào hàm
attach
> #truy cap truc tiep
> attach(data2)

5.2.

Đồ thị phân tán chiều cao và tháng tuổi


> plot(ChieuCao~ThangTuoi,main = "Đồ thị phân tán chiều cao và tháng tuổi", c
ol="red",pch=16)

5.3.

Đường biểu diễn tương quan giữa chiều cao và tháng tuổi

> abline(lm(ChieuCao~ThangTuoi), col="blue",lwd=1)

Kết quả biểu đồ cho thấy số tháng tuối càng lớn thì chiều cao tương ứng của trẻ cũng
càng lớn.


TÀI LIỆU THAM KHẢO
1. Lý thuyết độ đo và xác suất, Đinh Ngọc Thanh, Đặng Đức Trọng ĐH Khoa học tự
nhiên Tp.Hồ Chí Minh.
2. Bài tập và thực hành lý thuyết thống kê, Đinh Ngọc Thanh, Đặng Đức Trọng,
Nguyễn Văn Thìn, Phan Đức Doãn, Nguyễn Thị Hồng Nhung, Nguyễn Thị Hiên, Nguyễn
Thị Nhàn, ĐH Khoa học tự nhiên Tp.Hồ Chí Minh.
3. Phân tích số liệu và biểu đồ bằng R, Nguyễn Văn Tuấn, Garvan Institute of Medical
Research Sydney, Australia.



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×