Tải bản đầy đủ

Chuong 3 Thống kê sinh học

3/2/2012

Chương

3

Phân bố Xác suất

Nội dung
1.
2.
3.
4.
5.

Các dạng phân bố
Phân bố nhị thức
Phân bố Poisson
Phân bố chuẩn
Phân bố mẫu


02/03/2012

Biostatistics - Bùi Tấn Anh

2

1


3/2/2012

1.






Các dạng phân bố
Phân bố nhị thức
Phân bố Poisson
Phân bố chuẩn
Phân bố mẫu

02/03/2012

Biostatistics - Bùi Tấn Anh

3

Phân bố đối xứng
• Chiều cao của 100 người nam
168.0
172.0
175.3
175.0
164.9
175.5
173.6
164.2

178.9
164.0
176.8
173.5
02/03/2012

167.6
167.8
166.9
173.5
175.6
174.1
171.7
167.6
171.1
174.2
162.8

167.2
172.3
172.0
166.7
179.3
174.7
181.0
164.9
171.1
167.6
170.0

166.6
164.8
166.1
170.1
160.3
170.4
168.6
168.4
174.2
167.8
172.3

167.6
172.4
163.9
168.3
172.6
171.0
166.6
172.8
174.5
170.6
173.4

172.4
172.5
171.0
172.3
175.9
171.2
164.1
164.9
167.2
176.8
169.5

Biostatistics - Bùi Tấn Anh

176.3
166.8
172.0
170.0
170.1
177.9
168.7
171.8
171.2
168.1
170.6

167.2
167.9
162.4
162.5
173.8
165.8
170.5
166.7
171.1
172.0
169.5

166.0
166.3
167.7
165.9
172.0
176.7
163.1
165.3
174.0
167.3
166.4

4

2


3/2/2012

Stat > Basic statistics > Graphical summary…
Summary for Height
A nderson-D arling N ormality Test

160

164

168

172

176

180

A -S quared
P-V alue

0.39
0.369

M ean
StD ev
V ariance
Skew ness
Kurtosis
N

170.06
4.21
17.75
0.157839
-0.405964
100

M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum

160.30
166.83
170.25
172.75
181.00

95% C onfidence Interv al for M ean
169.23

170.90

95% C onfidence Interv al for M edian
168.25

171.20

95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter v als

3.70

4.89

Mean
Median
168.0

168.5

02/03/2012

169.0

169.5

170.0

170.5

171.0

Biostatistics - Bùi Tấn Anh

5

Nhận xét
• Giá trị của trung bình (170.1 cm; khoảng tin
cậy 95% là 169.23 – 170.90) và trung vị
(170.3 cm; khoảng tin cậy 95% là 168.25 –
171.20) xấp xỉ bằng nhau.
• Kiểm định Anderson-Darling
P-value > 0.05
 Phân bố chuẩn, đối xứng qua giá trị trung
bình

02/03/2012

Biostatistics - Bùi Tấn Anh

6

3


3/2/2012

Phân bố lệch dương
• Số tế bào trứng ở 100 con dê
4100 4500
21400 9400
13400 2700
4900 10000
3000 3800
11900 3600
3900 9000
13200 4100
5600 2400
5900 2700
1700 1900
2500

3600
1300
4300
4400
1600
4800
12200
6000
1500
4500
1200

02/03/2012

6200
6400
2500
2400
4500
2200
5600
2000
9600
7300
5600

6600 15900
4100 5400
2800 6700
10400 3100
5400 2600
12000 5500
2200 4500
2500 4500
5200 7500
3100 4700
7500 2000

3300 2900
9300 3700
4800 10800
3800 6000
7400 6400
12300 2300
7800 3600
4100 1800
4900 5800
2600 13000
3600 2900

5300
6800
3300
2400
10500
2900
6600
9900
5900
2300
6600

Biostatistics - Bùi Tấn Anh

7

Stat > Basic statistics > Graphical summary…
Summary for Oocysts
A nderson-D arling N ormality Test

4000

8000

12000

16000

A -S quared
P-V alue <

3.78
0.005

M ean
StD ev
V ariance
Skew ness
Kurtosis
N

5551.0
3597.0
12938483.8
1.59382
3.30152
100

M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum

20000

1200.0
2900.0
4500.0
6675.0
21400.0

95% C onfidence Interv al for M ean
4837.3

6264.7

95% C onfidence Interv al for M edian
4048.5

5425.8

95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter v als

3158.2

4178.6

Mean
Median
4000

02/03/2012

4500

5000

5500

6000

Biostatistics - Bùi Tấn Anh

6500

8

4


3/2/2012

Nhận xét
• Kiểm định Anderson-Darling: P-value < 0.05
 Không có phân bố chuẩn.
• Phân bố có một đuôi dài lệch về phía bên phải.
Giá trị skewness lớn (1.59).
• Trong box plot chiều dài các whisker không
bằng nhau, trung vị không nằm ở giữa box.
• Có các giá trị ngoại lai (outliers) bên phải.
• Số trung bình (5551) > số trung vị (4500).
02/03/2012

Biostatistics - Bùi Tấn Anh

9

Phân bố lệch âm
• Tần số gen ở 100 con bò
49
47
48
48
49
48
45
50

02/03/2012

47
45
48
47
50
50
48
49

49
47
47
46
49
44
47
48

46
48
48
47
50
48
48
47

47
47
50
49
49
48
43
49

50
46
50
47
50
46
48
43

49
44
49
49
48
49
49
48

47
47
49
47
48
49
47
48

47
47
49
47
47
47
48
49

Biostatistics - Bùi Tấn Anh

48
45
49
48
48
50
47

46
50
45
48
50
46
47

46
47
50
47
50
46
47

47
47
48
47
48
48
46

10

5


3/2/2012

Stat > Basic statistics > Graphical summary…
Summary for Gene+
A nderson-Darling Normality Test

44

46

48

A -Squared
P -V alue <

2.32
0.005

M ean
S tD ev
V ariance
S kew ness
K urtosis
N

47.680
1.563
2.442
-0.617526
0.581375
100

M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum

50

43.000
47.000
48.000
49.000
50.000

95% C onfidence Interv al for M ean
47.370

47.990

95% C onfidence Interv al for M edian
47.000

48.000

95% C onfidence Interv al for StDev
9 5 % Confide nce Inter v als

1.372

1.815

Mean
Median
47.0

02/03/2012

47.2

47.4

47.6

47.8

48.0

Biostatistics - Bùi Tấn Anh

11

Nhận xét
• Kiểm định Anderson-Darling: P-value < 0.05
 Không có phân bố chuẩn.
• Phân bố có một đuôi dài lệch về phía bên trái.
Giá trị skewness âm (- 0.62).
• Trong box plot chiều dài các whisker không
bằng nhau, trung vị không nằm ở giữa box.
• Có các giá trị ngoại lai (outliers) bên trái.
• Số trung bình (47.68/g) < số trung vị (48).
02/03/2012

Biostatistics - Bùi Tấn Anh

12

6


3/2/2012

2.






Các dạng phân bố
Phân bố nhị thức
Phân bố Poisson
Phân bố chuẩn
Phân bố mẫu

02/03/2012

Biostatistics - Bùi Tấn Anh

13

Tổng quan
• Một phép thử chỉ có hai khả năng xảy ra:
“thành công” hoặc “thất bại”.
– xác suất thành công là 
– xác suất thất bại là 1-.
được gọi là phép thử Bernoulli

• Phân bố của số lần phép thử thành công được
gọi là phân bố nhị thức.

02/03/2012

Biostatistics - Bùi Tấn Anh

14

7


3/2/2012

Thí dụ
• Tiếp xúc với hóa chất độc hại: có hoặc không
• Trả lời câu hỏi trắc nghiệm: đúng hoặc sai
• Kiểm tra chất lượng sản phẩm: đạt hoặc không

02/03/2012

Biostatistics - Bùi Tấn Anh

15

Hàm xác suất
• Hàm xác suất

P  X  x  Cxn x (1   ) n  x
• trong đó:
– x = 0, 1,…, n
– n: số phép thử
– : xác suất thành công của phép thử

02/03/2012

Biostatistics - Bùi Tấn Anh

16

8


3/2/2012

Trung bình và phương sai
• Trung bình

m  E  x   n
• Phương sai

s 2  n (1   )

02/03/2012

Biostatistics - Bùi Tấn Anh

17

Áp dụng Minitab
• Calc > Probability Distributions > Binomial...

02/03/2012

Biostatistics - Bùi Tấn Anh

18

9


3/2/2012

Áp dụng Minitab

02/03/2012

Biostatistics - Bùi Tấn Anh

19

Áp dụng Minitab
• Các tuỳ chọn:
– Probability: tính hàm mật độ xác suất (PDF)
P(X=x)
– Cummulative probability: tính hàm phân bố tích
lũy (CDF)
P ( X <= x )
– Inverse cummulative probability: tính xác suất
(P) của hàm phân bố CDF

02/03/2012

Biostatistics - Bùi Tấn Anh

20

10


3/2/2012

Hình dạng
• Phụ thuộc vào:
–n
–

02/03/2012

Biostatistics - Bùi Tấn Anh

21

Hình dạng
Distribution Plot
Binomial, n=20
0.30

p
0.5
0.2
0.1

0.25

Probability

0.20
0.15
0.10
0.05
0.00
0

5

10

15

20

X
02/03/2012

Biostatistics - Bùi Tấn Anh

22

11


3/2/2012

Thí dụ 1
• Hãy xác định phân bố xác suất số bê cái được
sinh ra trong ba lần đẻ liên tiếp. Giả sử rằng
mỗi lần bò chỉ đẻ một con và xác suất sinh ra
bê cái trong mỗi lần đẻ là 0.5.

02/03/2012

Biostatistics - Bùi Tấn Anh

23

Giải
Dạng phân bố là nhị thức với  = 0.5 và n = 3:
P{ X  x}  C x3 (0.5) x (0.5)3 x với x = 0, 1, 2, 3
x=0 

P{ X  0}  C03 (0.5)0 (0.5)3  0.125

x=1 

P{ X  1}  C13 (0.5)1(0.5)2  0.375

x=2 

P{ X  2}  C23 (0.5) 2 (0.5)1  0.375

x=3 
P{ X  3}  C33 (0.5)3 (0.5)0  0.125
Trung bình và phương sai của phân bố là:
μ = n = (3)(0.5) = 1.5
σ2 = n = (3)(0.5)(0.5) = 0.75
02/03/2012

Biostatistics - Bùi Tấn Anh

24

12


3/2/2012

Thí dụ 2
• Trong một quần thể heo tính mẫn cảm đối với một
bệnh được xác định bởi hai alleles: B and b. Heo
có kiểu gen bb sẽ có bệnh, Bb và BB không bệnh.
Tần số của allele B = b = 0.5. Hai con heo đều có
kiểu gen Bb giao phối với nhau và sinh ra một lứa
10 heo con. Hãy tính:
a) Số heo con có khả năng mang bệnh
b) Xác xuất để không có heo con nào bệnh.
c) Xác suất để ít nhất có một heo con bị bệnh.
d) Xác suất để có đúng một nửa đàn heo bị bệnh.
02/03/2012

Biostatistics - Bùi Tấn Anh

25

Giải
• Tần số của allele B = b = 0.5.
– Xác suất để heo con bệnh (bb) = (0.5)(0.5) = 0.25
– Xác suất để heo con không bệnh = 1 – 0.25 = 0.75.

• Như vậy ta có thể tính dựa vào phân bố nhị
thức
với  = 0.25 và n = 10

02/03/2012

Biostatistics - Bùi Tấn Anh

26

13


3/2/2012

Giải

02/03/2012

Biostatistics - Bùi Tấn Anh

27

3.






Các dạng phân bố
Phân bố nhị thức
Phân bố Poisson
Phân bố chuẩn
Phân bố mẫu

02/03/2012

Biostatistics - Bùi Tấn Anh

28

14


3/2/2012

Tổng quan
• Dùng cho các biến ngẫu nhiên rời rạc, xảy ra
không thường xuyên.
• Thường được áp dụng trong các nghiên cứu về
các dạng ung thư da, một số bệnh hiếm hoặc
nghiên cứu về số lượng các yếu tố trong một
không gian nhỏ, chẳng hạn như số khuẩn lạc
trong một đĩa nuôi cấy.
• Phân bố Poisson không chọn lọc mẫu có cỡ
mẫu n và chúng được dùng khi các biến cố xảy
ra ngẫu nhiên trong không gian hoặc thời gian.
02/03/2012

Biostatistics - Bùi Tấn Anh

29

Hàm xác suất
• Số các biến cố xảy ra trong một khoảng thời
gian hoặc không gian cho trước.
• Số các biến cố trung bình trên một đơn vị là .
• Hàm xác suất của phân bố Poisson:

e   x
P  X  x 
x!
với x = 0, 1, 2 …
e = 2.71828
02/03/2012

Biostatistics - Bùi Tấn Anh

30

15


3/2/2012

Áp dụng Minitab
• Calc > Probability Distributions > Poisson...

02/03/2012

Biostatistics - Bùi Tấn Anh

31

Áp dụng Minitab

02/03/2012

Biostatistics - Bùi Tấn Anh

32

16


3/2/2012

Áp dụng Minitab
• Các tuỳ chọn:
– Probability: tính hàm mật độ xác suất (PDF)
P(X=x)
– Cummulative probability: tính hàm phân bố tích
lũy (CDF)
P ( X <= x )
– Inverse cummulative probability: tính xác suất
của hàm phân bố CDF

02/03/2012

Biostatistics - Bùi Tấn Anh

33

Trung bình và Phương sai
• Trung bình

m  E  x  
• Phương sai

s2 

02/03/2012

Biostatistics - Bùi Tấn Anh

34

17


3/2/2012

Hình dạng
Distribution Plot
Poisson
0.20

Mean
20
5
10

Probability

0.15

0.10

0.05

0.00
0

02/03/2012

10

20
X
Biostatistics - Bùi Tấn Anh

30

40

35

Thí dụ 1
• Trong một nhà máy (có số công nhân ổn định),
số tai nạn lao động trung bình hàng năm là 5.
Hãy tính xác suất để trong năm nay có:
a) đúng 7 tai nạn lao động
b) không có tai nạn nào
c) 10 hoặc nhiều hơn 10 tai nạn
d) ít hơn 5 tai nạn.

02/03/2012

Biostatistics - Bùi Tấn Anh

36

18


3/2/2012

Giải
7
7
e
*5
a) P  X  7 
 0.1044
7!

e 5 *50
b) P  X  0 
 0.0067
0!

02/03/2012

Biostatistics - Bùi Tấn Anh

37

Giải
c) P  X  10  1  P  X  9

 1   P  X  0  P  X  1  ...  P  X  9
 1  0.0968  0.032
d) P  X  5

 P  X  0  P  X  1  ...  P  X  4
 0.440
02/03/2012

Biostatistics - Bùi Tấn Anh

38

19


3/2/2012

Thí dụ 2
• Trong một quần thể người hàng năm có trung
bình 13 trường hợp ung thư vòm họng được
phát hiện. Tính xác suất để năm tới, số trường
hợp ung thư chẩn đoán được:
a) bằng đúng 10 trường hợp
b) ít nhất 8 trường hợp.
c) ít hơn 12 trường hợp
d) có từ 9 đến 15 trường hợp
ĐS: a) 0.0858
b) 0.97
c) 0.463
02/03/2012

Biostatistics - Bùi Tấn Anh

d) 0.6638
39

4.






Các dạng phân bố
Phân bố nhị thức
Phân bố Poisson
Phân bố chuẩn
Phân bố mẫu

02/03/2012

Biostatistics - Bùi Tấn Anh

40

20


3/2/2012

Tổng quan
• Dùng cho các biến ngẫu nhiên liên tục.
• Thường được biểu hiện dưới dạng một hàm
qua đó có thể tính xác suất mà một biến nằm
trong một khoảng xác định.

02/03/2012

Biostatistics - Bùi Tấn Anh

41

Hàm xác suất
• Hàm mật độ xác suất (pdf):

f ( x) 

1
2s


2

e

( x  m )2
2s 2

,   x  

trong đó
– m là trung bình
– s là độ lệch chuẩn
02/03/2012

Biostatistics - Bùi Tấn Anh

42

21


3/2/2012

Hàm xác suất
• Hàm phân bố tích luỹ (CDF) thể hiện xác
suất để X không vượt quá giá trị của x.
• Hàm phân bố tích lũy có dạng:
x

P( X  x) 





02/03/2012

1
2s


2

e

( x  m )2
2s 2

dx

Biostatistics - Bùi Tấn Anh

43

Hình dạng
• Hàm mật độ xác suất có dạng hình chuông.
• Tổng diện tích tạo bởi đường cong và trục
hoành là 1 (hay 100%).
• Diện tích giữa 2 điểm x1 và x2 bằng với xác
suất mà biến ngẫu nhiên X nằm trong khoảng
giữa x1 và x2.
• Tung độ của mỗi điểm trên đường cong gọi là
mật độ xác suất.

02/03/2012

Biostatistics - Bùi Tấn Anh

44

22


3/2/2012

Hình dạng
• Theo tính chất toán học thì sự phân bố mẫu thí
nghiệm sẽ có:
– 68,26% dữ liệu nằm trong khoảng m  1s
– 95,46% dữ liệu nằm trong khoảng m + 2s
– 99,73% dữ liệu nằm trong khoảng m + 3s

02/03/2012

Biostatistics - Bùi Tấn Anh

45

Hàm mật độ xác suất

02/03/2012

Biostatistics - Bùi Tấn Anh

46

23


3/2/2012

Hàm phân bố tích lũy

02/03/2012

Biostatistics - Bùi Tấn Anh

47

Hình dạng phân bố với các s khác nhau
Distribution Plot

Pdf
0.4

N(0,1)
0.3

0.2

N(0,2)
0.1

N(0,4)
0.0
-10

-5

0

5

10

15

X

02/03/2012

Biostatistics - Bùi Tấn Anh

48

24


3/2/2012

Hình dạng phân bố với các m khác nhau
Distribution Plot
0.4

0.3

0.2

0.1

0.0
-4

-2

0

2

4

6

X

02/03/2012

Biostatistics - Bùi Tấn Anh

49

Nhận xét

f(x)

Thay đổi μ làm dịch chuyển
phân bố qua trái hoặc phải

σ

Thay đổi σ làm tăng
hoặc giảm độ phân tán.

μ

02/03/2012

Biostatistics - Bùi Tấn Anh

x

50

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×