Tải bản đầy đủ

Chuong 4 Thống kê sinh học

Chương 4

Chương 4
1

Kiểm định giả thuyết

Thống kê Sinh học – Bùi Tấn Anh

3

5

Tổng quan
Kiểm định một mẫu
Kiểm định hai mẫu
Kiểm dịnh sự phù hợp giữa lý thuyết và thực
nghiệm
Kiểm định tính độc lập

2


Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Giả thuyết không và đối thuyết

Thí dụ 1

Kiểm định giả thuyết là bài toán đi xác định có
nên chấp nhận hay bác bỏ một khẳng định về giá
trị của một tham số của tổng thể.
Giả thuyết không, ký hiệu H0 , là một giả định
thăm dò về tham số của tổng thể.
Đối thuyết, ký hiệu H1, là khẳng định có trạng
thái đối lập với giả thuyết.
Chúng ta sẽ quyết định bác bỏ giả thuyết H0 nếu
xác suất xuất hiện của một sự kiện quan sát được
coi là “nhỏ”

Thời gian mang thai của bò có phân bố chuẩn, x ~
N(285, 102).
Ở một giống bò mới người ta xác định được thời
gian mang thai là 295 ngày.
Liệu giá trị quan sát này có phù hợp với trung
bình tổng thể (nghĩa là thời gian mang thai của
giống bò mới trung bình cũng là 285 ngày) hay
hoàn toàn khác?

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

4

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Giải

Giải


Giả thuyết
H0:  = 285
H1:  ≠ 285
Ta cần tính xác suất của giá trị trung bình >295
ngày hoặc <275 ngày (nghĩa là   10 ngày).

Xác suất của biến cố này là:
P(X < 275 hoặc X > 295)

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

=

<

12/11/2010

<

= P (1 < Z < –1)
= 2 * P (Z < – 1)
= 2 * 0.1587 = 0.3174

6

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

1


Biểu đồ phân bố xác suất

Kết luận
Đây là một xác suất lớn (1/3)
 không có lý do gì để bác bỏ giả thuyết trung bình
tổng thể là 285 ngày.

0.159

0.159

275
7

9

295

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

8

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Thí dụ 2

Giải

Giả sử rằng thời gian mang thai quan sát được ở
giống bò mới là 305 ngày.
Ta có thể kết luận gì?

Giả thuyết
H0:  = 285
H1:  ≠ 285
Ta cần tính xác suất của giá trị trung bình > 305
ngày hoặc < 265 ngày (nghĩa là   20 ngày).

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

10

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Biểu đồ phân bố xác suất

Giải
Xác suất của biến cố này là:
P(X < 265 hoặc X > 305)
=

<

<

= P (2 < Z < –2)
= 2 * P (Z < – 2)
= 2 * 0.0228 = 0.0456
0.0228

0.0228
265

11

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

12

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

305
12/11/2010

2


Kết luận

Các loại sai lầm

Đây là một xác suất nhỏ (1/20)
 Bác bỏ giả thuyết H0  = 285 ngày
 Có thể kết luận rằng trung bình tổng thể lớn
hơn có ý nghĩa so với 285 ngày.

13

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Bởi vì kiểm định giả thuyết dựa trên số liệu mẫu,
nên có khả năng xảy ra những sai lầm.
Sai lầm loại I là bác bỏ H0 khi nó đúng, ký hiệu
.
Xác suất mắc phải sai lầm loại I khi giả thuyết H0
đúng bằng một đại lượng gọi là mức ý nghĩa của
kiểm định.

14

Các loại sai lầm

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Kết luận

Bác bỏ Ho

H0 đúng

Quyết định đúng

Sai lầm loại I

H0 sai

Sai lầm loại II

Quyết định đúng

Thông thường người ta hay tập trung chú ý vào
sai lầm loại I và khi kiểm định phải khống chế sao
cho rủi ro loại I không vượt qua mức ý nghĩa .
16

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Kiểm định giá trị trung bình – Các bước

Tổng quan
Kiểm định một mẫu
Kiểm định hai mẫu
Kiểm dịnh sự phù hợp giữa lý thuyết và thực
nghiệm
Kiểm định tính độc lập

1. Xây dựng giả thuyết (kiểm định 2 phía).
H0 :  =  0
H1 :    0
2. Xác định mức ý nghĩa  (thường là 0.05).
3. Lấy mẫu và tính giá trị thống kê của kiểm định
4. Dùng giá trị thống kê kiểm định để tính P-value.
5. Kết luận



Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Chấp nhận Ho
Thực tế

Chương 4

17

12/11/2010

Các loại sai lầm

Sai lầm loại II là chấp nhận H0 khi nó sai, ký
hiệu .
Rất khó để kiểm soát được sai lầm loại II.
Trong kiểm định, để hạn chế gặp phải sai lầm loại
II, người ta thường sử dụng khẳng định “không
bác bỏ H0” mà không dùng khẳng định “chấp
nhận H0”.

15

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

18

Nếu P-value <  Bác bỏ H0
Nếu P-value >  Không bác bỏ H0
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

3


Biểu đồ phân bố

Kiểm định z (z test) – đã biết s
Thời gian mang thai của bò có phân bố chuẩn x ~
N(285, 102).
 = 285 ngày
s = 10 ngày
Ở một giống bò mới người ta ghi nhận được thời
gian mang thai của 6 con bò:

Phân phối mẫu của
Z  X 
s/ n
0

Bác bỏ H0

Bác bỏ H0

Không bác bỏ H0

/2 = .025

/2 = .025

307

z
-1.96

19

0

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

20

Kiểm định z (z test) – s đã biết

Giải

Nếu độ lệch chuẩn trong trường hợp này cũng là
10 ngày.
Như vậy có bằng chứng nào cho thấy trung bình
thời gian mang thai của giống bò mới là khác với
285 ngày?

Đặt giả thuyết:
H0:  = 285 ngày
H1:   285 ngày
Trung bình mẫu

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

22

Giải

283

294

297

12/11/2010

(307 + 293 + 293 + 283 + 294 + 297)
6
= 294.5ngày

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Giải

Kiểm định Z
=

( − )

=

Tính P
= 294.5 < < 275.5
= 2.33 < < −2.33
=2×
< −2.33 = 2 × 0.010 = 0.020
Nhận xét:
P < 0.05  bác bỏ H0
Kết luận:
Thời gian mang thai của giống bò mới có giá trị
trung bình lớn hơn có ý nghĩa so với 285 ngày.

( − )
( )

Trong thí dụ trên
=
23

293

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

=

21

293

1.96

294.5 − 285
(10) /6

= 2.33

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

24

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

4


Bảng xác suất của phân bố chuẩn tắc

Áp dụng Minitab
Khi thử nghiệm thuốc gây mê trên chó, người ta
muốn kiểm tra xem mức độ epinephrine huyết
thanh trong máu khi dùng phương pháp gây mê
mới có khác biệt so với phương pháp cũ không.
Phương pháp cũ cho kết quả: trung bình = 0.4
ng.ml–1 và độ lệch chuẩn = 0.2 ng.ml–1.
Phương pháp mới cho kết quả trên 1 mẫu:
0.64

25

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

26

Các bước tiến hành

0.74

0.48

0.66

0.34

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

0.70

12/11/2010

Mô tả dữ liệu

Nhập liệu
Mô tả dữ liệu:
• Stat > Basic Statistics > Descriptive Statistics …

27

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

28

Mô tả dữ liệu

29

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Mô tả dữ liệu

12/11/2010

30

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

5


31

Kiểm tra tính phân bố chuẩn

Kiểm định Z

• Graph > Boxplot …/Simple

• Stat > Basic Statistics > 1-sample Z…

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

32

Kiểm định Z

33

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Kết quả kiểm định

12/11/2010

34

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Nhận xét và kết luận

Kiểm định t (t-test) – không biết s

P = 0.018 <0.05  bác bỏ H0
Mức epinephrine huyết thanh trong máu tăng có
ý nghĩa sau khi dùng phương pháp gây mê mới

Thời gian mang thai của bò có phân bố chuẩn x ~
N(285, 102).
 = 285 ngày
s = 10 ngày
Ở một giống bò mới người ta ghi nhận được thời
gian mang thai của 6 con bò:
307

35

12/11/2010

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

36

293

293

283

294

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

297

12/11/2010

6


37

Kiểm định t (t-test) – không biết s

Giải

Giả định trong trường hợp ta không biết phương
sai mẫu.
Kết quả phân tích sẽ như thế nào?

Đặt giả thuyết:
H0:  = 285 ngày
H1:   285 ngày
Trung bình mẫu
(307 + 293 + 293 + 283 + 294 + 297)
=
6
= 294.5ngày
Độ lệch chuẩn s =
(307 − 294.5) + ⋯ + (297 − 294.5) = 7.74

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

38

Giải

=

(

)

=

(

)
( )

Tính P
= 294.5 < < 275.5
= 3.01 < < −3.01
= 2×
< −3.01 = 2 × 0.015 = 0.03
Nhận xét:
P < 0.05  bác bỏ H0
Kết luận:
Thời gian mang thai của giống bò mới có giá trị
trung bình lớn hơn có ý nghĩa so với 285 ngày.

độ tự do df = n – 1

Trong thí dụ trên

39

12/11/2010

Giải

Kiểm định t

=

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

.
( .

/)

= 3.01

độ tự do df =6 –1=5

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Bảng phân bố student

40

12/11/2010

Khoảng tin cậy của trung bình tổng thể ()


0

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

t

Kiểm định giả thuyết cho ta biết dữ liệu phù hợp
hay không phù hợp với một giá trị trung bình xác
định .
Câu hỏi tiếp theo là khoảng giá trị nào của  phù
hợp với trung bình mẫu ?
Công việc cần làm là tìm ra khoảng có chứa giá
trị .

41

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

42

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

7


Tính khoảng tin cậy 95% (95%CI)

Tính khoảng tin cậy 95% (95%CI)

Trường hợp 1. Phương sai mẫu không khác so
với phương sai tổng thể.
 xác định khoảng tin cậy dựa trên kiểm định z.

Trường hợp 2. Phương sai mẫu khác so với
phương sai tổng thể.
 xác định khoảng tin cậy dựa trên kiểm định t.

̅±

( )

x

/ = ̅±

.

x ( ̅ )

̅ ±

Trong thí dụ trên:
95%

43

= 294.5 ± 1.96x



= ̅ ±

;

( ̅)

Trong thí dụ trên:
10
= 294.5 ± 8.00 = (286.5, 302.5)
6

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

95%
44

= 294.5 ± 2.57x

7.74
= 294.5 ± 8.1 = (286.4, 302.6)
6

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2010

Kiểm định 2 mẫu

Chương 4
Tổng quan
Kiểm định một mẫu
Kiểm định hai mẫu
Kiểm dịnh sự phù hợp giữa lý thuyết và thực
nghiệm
Kiểm định tính độc lập

45

;

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

1. Hai mẫu độc lập, phương sai bằng nhau
2. Hai mẫu độc lập, phương sai không bằng nhau
3. Hai mẫu liên hệ - so sánh cặp

12/11/2010

46

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Hai mẫu độc lập, Phương sai bằng nhau

Hai mẫu độc lập, Phương sai bằng nhau

Thí dụ: So sánh trọng lượng của hai giống bò.
Dữ liệu thống kê mô tả cho thấy

Số liệu thu thập được có dạng:
x11, x12, x13,…x1n1 nhóm mẫu 1
x21, x22, x23,…x2n2 nhóm mẫu 2
trong trường hợp trên n1 = 12 và n2 = 15
Mô hình:

Giống 1
Trung bình mẫu (kg)
196.20
Độ lệch chuẩn mẫu (kg)
10.62

Giống 2
153.70
12.30

12/11/2010

[ Dữ liệu quan sát ] = [ Trung bình mẫu ] + [ Sai số ngẫu nhiên ]

xij
=
i
+
eij
i = 1, 2 (nhóm mẫu)
j = 1, 2, ..., ni (số lần lặp lại của mỗi mẫu)

Liệu có sự sai khác về trọng lượng giữa hai giống
bò nầy hay không?

47

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/ 2011

48

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/ 2011

8


Hai mẫu độc lập, Phương sai bằng nhau

So sánh phương sai hai mẫu

Trong trường hợp này người ta thường dùng
phương pháp kiểm tra t gộp để so sánh hai trung
bình mẫu.
Các yêu cầu:
(1) Phương sai hai mẫu phải hoàn toàn độc lập,
không ràng buộc lẫn nhau.
(2) Dữ liệu có phân bố chuẩn, xij ~N(,s2), cở mẫu
nhỏ (n < 30).
(3) Phương sai của hai nhóm mẫu phải bằng nhau
49

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Cách 1: tỉ lệ giữa hai độ lệch chuẩn <1.5
Độ lệch chuẩn lớn
Độ lệch chuẩn nhỏ

1.5

Cách 2. Kiểm tra F (F test)
Stat > Basic Statistic ... >/ 2 Variances...

50

Kiểm tra F

51

<

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm tra F

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

52

Kiểm tra F

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm định t gộp
Đặt giả thuyết:
H0 : 1 = 2
H1 : 1  2

Test for Equal Variances
F-Test

1

Test Statistic
P-Value

0.74
0.631

2

6

8

10

12

14

16

18

20

22

Vì P > 0.05 nên có thể xem như phương sai của
hai mẫu bằng nhau
53

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

54

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

9


Kiểm định t gộp

Kiểm định t gộp
Trong thí dụ

Các công thức tính:
̅ − ̅
=
=
1
1
( + )
1

̅ − ̅
( ̅ − ̅ )

Trung bình mẫu (kg)

=

Giống 2
153.70

10.62

12.30

Độ lệch chuẩn mẫu (kg)

2

Trong đó sp là độ lệch chuẩn gộp
1−1

Giống 1
196.20

1

+

1
2−1
+

2
1
2



2

= 196.2 − 153.7 = 42.5kg

2

(

=

.

)

(

. )

= 134.33kg

Độ tự do
=
55

1

−1 +

2−

1 =

1

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

+

2

−2

10.62 kg <
56

12/11/2011

Kiểm định t gộp



1



2

=

=

57

1− 2

=

12/11/2011

Kiểm định t gộp

(

1

+

1

=

= 134.33 = 11.59kg < 12.3 kg

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

134.33(

1

Nếu giả thuyết H0 (nghĩa là 1 = 2) là đúng
thì t = 9.46 thuộc phân bố t với độ tự do =25.
Giá trị P cho kiểm định t là:
= ( 1 − 2 < −42.5 1 − 2 > 42.5)
= ( 25 < −9.46 25 > 9.46
= 2x
25 < −9.46 = 2x0.0000 = 0.0000

)

2

1
1
+ ) = 4.489kg
12 15

42.5
= 9.46
4.489

= 12 + 15 − 2 = 25
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

58

12/11/2011

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Khoảng tin cậy 95%

Kiểm định t gộp
Nhận xét:
P (hai đuôi) < 0.05  giả thiết H0 bị bác bỏ
 sự sai khác của hai trung bình mẫu là có ý nghĩa
về mặt thống kê với độ tin cậy 95%
x1  thứ
x2  tdf(
 giống thứ nhất có trọng lượng lớn hơn giống
hai.

95% CI =

/ 2)

1 1
x1  x2  tdf( / 2)  s 2     x1  x2  tn(0.025)
n 2  se
 n1 n2 

1 1 
 s 2     x1  x2  tn(0.025)
 se( x1  x2 )
1  n2  2
 n1 n2 
= 42.5 kg  2.06 x 4.498 = 42.5 ± 9.246
= (33.2 , 51.7) kg

59

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

60

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

10


Khoảng tin cậy 95%

Áp dụng Minitab

Như vậy có đến 95% cơ hội đúng khi cho rằng sự
khác biệt giữa hai trung bình mẫu nằm trong
khoảng từ 33.2 kg đến 51.7 kg.

Nhập liệu
Kiểm tra các điều kiện:
• Độ lệch chuẩn
• Phân bố chuẩn

Nếu trong khoảng tin cậy 95% không có giá trị 0
thì giả thuyết Ho: 1 – 2 = 0 bị bác bỏ

61

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm định t
Nhận xét và kết luận

62

Kiểm tra các điều kiện

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Kiểm tra các điều kiện

Summary for Group A

Summary for Group B

A nderson-D arling N ormality T est

180

190

200

12/11/2010

210

A -S quared
P-V alue

0.30
0.530

Mean
StD ev
V ariance
Sk ew ness
Kurtosis
N

196.17
10.62
112.70
0.95961
1.81461
12

Minim um
1st Q uartile
Median
3rd Q uartile
Maximum

220

A nderson-Darling Normality Test

180.30
188.25
195.50
202.57
221.10
140

95% C onfidence Interv al for M ean
189.43

150

160

170

180

7.52

153.70
12.30
151.32
0.666732
0.317929
15
135.30
146.20
151.20
163.50
181.80

95% C onfidence Interv al for M ean

202.92

146.89

202.55

160.51

95% C onfidence Interv al for M edian

95% C onfidence Interval for S tD ev
9 5 % C onf ide nce Inter v als

0.36
0.407

Mean
S tDev
V ariance
S kew ness
Kurtosis
N
Minim um
1st Q uartile
Median
3rd Q uartile
Maximum

95% C onfidence I nterval for Median
188.28

A -S quared
P -V alue

146.24

18.02

163.09

95% C onfidence Interv al for S tDev
9 5 % Confidence Inter v als

Mean

9.01

19.40

Mean
Median
190

195

200

Median

205

145

63

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

64

Kiểm định t gộp

65

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

150

155

160

165

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm định t gộp

12/11/2011

66

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

11


Hai mẫu độc lập, Phương sai không bằng nhau

Kiểm định t gộp

Thí dụ: So sánh % tăng trọng lượng của cóc và
ếch sau 2 giờ nhúng ngập nước.
Dữ liệu thống kê mô tả cho thấy

Two-sample T for Group A vs Group B
N Mean StDev
Group A 12 196.2 10.6
Group B 15 153.7 12.3

SE Mean
3.1
3.2

Ếch
Difference = mu (Group A) - mu (Group B)
Estimate for difference: 42.48
95% CI for difference: (33.23, 51.72)
T-Test of difference = 0 (vs not =):
T-Value = 9.46 P-Value = 0.000 DF = 25
Both use Pooled StDev = 11.5901
67

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Cóc

Trung bình mẫu (kg)
6.46
Độ lệch chuẩn mẫu (kg) 6.10

20.58
9.84

Cóc hay ếch thu nhận nước nhiều hơn?

12/11/2011

68

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Kiểm định t Satterthwaite

Kiểm định t Satterthwaite

Đặt giả thuyết:
H0 : 1 = 2
H1 : 1  2

Các công thức tính:
t

Độ tự do
df 

12/11/ 2011

x1  x 2
( s12

/ n1  s 22 / n 2 )

(s

2
1 / n1 ) 
( s12 / n1 ) 2

Khoảng tin cậy

n1  1

( s 22 / n 2 )





2

( s 22 / n 2 ) 2
n2  1

x1  x 2  t / 2 . ( s12 / n1 )  ( s 22 / n 2 )
69

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

70

Áp dụng Minitab

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Áp dụng Minitab

Nhập liệu

71

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

72

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

12


Mô tả dữ liệu

Mô tả dữ liệu

Stat > Basic Statistics > Display Descriptive
Statistics…

73

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

74

Mô tả dữ liệu

75

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Mô tả dữ liệu

12/11/2011

76

Mô tả dữ liệu

77

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Mô tả dữ liệu

12/11/2011

78

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

13


Mô tả dữ liệu

Mô tả dữ liệu
Kết quả hiển thị trong cửa sổ session

79

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

80

Mô tả dữ liệu

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm định
Stat > Basic Statistics > 2-sample t…

81

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

82

Kiểm định

83

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm định

12/11/2011

84

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

14


Hai mẫu liên hệ - So sánh cặp

Nhận xét và kết luận
Qua kết quả phân tích ta thấy P = 0.009 < 0.05
chứng tỏ cóc thu nhận nhiều nước hơn ếch.

Thí dụ: để so sánh 2 khẩu phần vỗ béo cho heo:
• một khẩu phần bình thường (khẩu phần A)
• một khẩu phần có bổ sung Cu (khẩu phần B).

Tiến hành ở 15 nông trại, mỗi nông trại bố trí hai
chuồng heo giống nhau, hai khẩu phần ăn được
phân bố ngẫu nhiên và đồng đều vào hai chuồng.
Tăng trọng trung bình (lb/ngày) của heo ở mỗi
chuồng được ghi nhận.
Sự bổ sung Cu trong khẩu phần ăn có ảnh hưởng
đến tăng trọng trung bình của lợn hay không?
85

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

86

Hai mẫu liên hệ - So sánh cặp

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Hai mẫu liên hệ - So sánh cặp
Ở thí dụ trên, nếu tiến hành theo phương pháp so
sánh hai mẫu độc lập, chúng ta sẽ bỏ sót một
nguồn biến động quan trọng là nông trại.
Trong trường hợp này phương pháp tốt nhất là so
sánh cặp, còn gọi là kiểm định t cặp (pair t-test).

87

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

88

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Hai mẫu liên hệ - So sánh cặp

Hai mẫu liên hệ - So sánh cặp

Sự sai khác giữa hai khẩu phần ăn là:
d = khẩu phần B – khẩu phần A

Giả thuyết
H0 : d = 0
H1 : d  0

Nông trại
1
2
3

15

Sai khác
1.17 – 0.93
1.03 – 1.16
1.23 – 1.05

1.30 – 1.17

d
=
0.24
= – 0.13
=
0.18
=

12/11/2011

0.13

Có tất cả n = 15 sai khác: d1, d2, ..., dn.
Nếu sự bổ sung Cu không có ảnh hưởng thì trung
bình chung của sai khác (d) sẽ bằng 0.
89

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

90

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

15


Công thức tính

Tính theo công thức
Trung bình mẫu : ̅ = 0.09lb/ngày
Độ lệch chuẩn : s = 0.107
Cở mẫu :
n = 15 cặp

̅
=

/

t

với độ tự do df = n – 1
Khoảng tin cậy 95%

2



s /n

95%CI  d  tn 1 .se
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

0.09
0.107 2 / 15

 3.25

df = n – 1 = 15 – 1 = 14
P = 2*P(t14 > 3.25) = 0.006

 /2

91

d

12/11/2011

92

Tính theo công thức

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Nhận xét và Kết luận

Khoảng tin cậy 95%

Vì P < 0.05 nên giả thuyết H0 bị bác bỏ.
Như vậy ta có thể kết luận rằng sự bổ sung Cu
95%CI  d  tn/21 .se  d  t14( 0.025) .se  0.09  2.145  0.107 2 / 15  (0.0306,
0.1494)
(khẩu phần
B) làm tăng trọng có ý nghĩa ở mức
trung bình là 0.09 lb/ngày
%CI  d  t /2 .se  d  t ( 0.025) .se  0.09  2.145  0.107 2 /15  (0.0306, 0.1494)

 0.09  2.145  0.107 / 15  (0.0306, 0.1494)

93

95

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

94

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Áp dụng Minitab

Áp dụng Minitab

Nhập liệu
Kiểm định

Stat > Basic Statistics > Paired t…

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

96

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

12/11/2011

16


Áp dụng Minitab

97

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Áp dụng Minitab

12/11/2011

Áp dụng Minitab

99

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

98

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kết quả

12/11/2011

1 00

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Chương 4

Kết quả

Tổng quan
Kiểm định một mẫu
Kiểm định hai mẫu
Kiểm dịnh sự phù hợp giữa lý thuyết và thực
nghiệm
Kiểm định tính độc lập

1 01

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

1 02

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

17


Kiểm định “Khi bình phương”

Kiểm định “Khi bình phương”

Giả thuyết: H0: O = E
O: tần suất thực nghiệm
E: tần suất lý thuyết
Tính 2 thực nghiệm:

Nếu 2TN > 2 bảng ở mức xác suất P = 0.05
nghĩa là P(2TN) > 0.05
 giả thuyết H0 bị bác bỏ.
Kết luận: tần suất LT và tần suất TN khác biệt có
ý nghĩa với độ tin cậy 95%.
Nếu 2TN < 2 bảng ở mức xác suất P = 0.05
 giả thuyết H0 bị bác bỏ.
Kết luận: tần suất LT và tần suất TN không khác
biệt.

2
TN


(O  E ) 2
E

Kiểm định
Kết luận
1 03

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

1 04

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thí dụ

Áp dụng Minitab

Một nhà di truyền học tiến hành phép lai giữa hai
cá thể ruồi giấm F1 và thu được 176 cá thể F2
gồm

Nhập liệu

12/11/2011

• 130 có kiểu hình hoang dại
• 46 có kiểu hình đột biến.

Liệu kết quả thu được có phù hợp với tỉ lệ 3 trội :
1 lặn theo định luật phân ly của Mendel hay
không?

Kiểm định
Stat >Tables > Chi-Square Goodness-of-Fit Test
(One Variable)...

1 05

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Áp dụng Minitab

1 07

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

1 06

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Áp dụng Minitab

12/11/2011

1 08

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

18


Kết quả

1 09

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Kết quả

12/11/2011

1 10

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Nhận xét và kết luận

Nhận xét và kết luận

Giá trị 2 bảng = 3.84

Vì 2TN = 0.12121 < 3.84 (hoặc P-value > 0.05)
nên không đủ cơ sở để bác bỏ giả thuyết H0 .
Nói cách khác ta có thể kết luận rằng kết quả thu
được phù hợp với tỉ lệ phân ly 3:1 theo định luật
Mendel.

1 11

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

1 12

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thí dụ 2

Thí dụ 2

Dữ liệu

Kết quả

12/11/2011

Tự nhận xét và kết luận

1 13

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

1 14

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

19


Chương 4

Thí dụ 1

Tổng quan
Kiểm định một mẫu
Kiểm định hai mẫu
Kiểm định sự phù hợp giữa lý thuyết và thực
nghiệm
Kiểm định tính độc lập

Một mẫu gồm 111 con chuột được chia thành hai
nhóm:
• Nhóm thí nghiệm gồm 57 chuột được tiêm vi khuẩn

gây bệnh và kháng huyết thanh
• Nhóm đối chứng gồm 54 chuột được tiêm vi khuẩn

gây bệnh nhưng không tiêm kháng huyết thanh.

Sau một thời gian, có 38 chuột bị chết:
• 13 con có tiêm kháng huyết thanh
• 25 con không tiêm kháng huyết thanh

1 15

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Thí dụ 1

Tổng cột

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Thí dụ 1

Các dữ liệu được trình bày trong bảng tiếp liên
(contingency table) 2 x 2.

Có kháng HT
Không có

1 16

Chết
13
25

Sống
44
29

Tổng hàng
57
54

38

73

111

Giả thiết
H0 : khả năng sống của chuột không phụ thuộc
vào việc tiêm kháng huyết thanh.
H1 : khả năng sống của chuột nhờ vào việc
tiêm kháng huyết thanh

Câu hỏi: Tỉ lệ chết của chuột giảm do tiêm kháng
huyết thanh hay ngẫu nhiên?
1 17

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

1 18

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

Thí dụ 1

Kiểm định

Bảng tiếp liên 2 x 2 có thể khái quát dưới dạng
sau:

Tính theo công thức:
TổnghàngxTổngcột
Tổngchung
Độ tự do (df) = (số hàng – 1) x (số cột – 1)
Tầnsuấtlýthuyết =

Tổng hàng
Có kháng HT
Không có
Tổng cột

1 19

a
c
a+c

b
d
b+d

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

a+b
c+d
n

12/11/2011

12/11/2011

2
TN


1 20

(O  E ) 2
E

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

20


Kiểm định

Áp dụng Minitab

Kết quả tính nhanh

Nhập liệu

(ad  bc )2 n
[(13 x 29)  (44 x 25)]2 x 111
2 


(a  b)(c  d )( a  c )(b  d )
57 x 54 x 38 x 73

(  )2
[(13 x 29)  (44 x 25)]2 x 111


a  b)(c  d )(a  c )(b  d )
57 x 54 x 38 x 73
3 x 29) (44 x 25)] x 111
 6.796

1 21

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm định

1 23

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

1 22

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Kiểm định

12/11/2011

Kết quả

1 24

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

Nhận xét và kết luận
Vì 2 thực nghiệm > 2 bảng (df = 1) hoặc dựa
vào P < 0.05 nên giả thuyết H0 không được chấp
nhận.
Như vậy việc tiêm kháng huyết thanh có tác dụng
làm giảm tỉ lệ chết của chuột nhiễm khuẩn.

1 25

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

1 26

Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên

12/11/2011

21



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×