Tải bản đầy đủ

Giao trinh bai tap do an hai quan benzen acetic complete 1212

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC - KỸ THUẬT MÁY TÍNH

CẤU TRÚC RỜI RẠC CHO KHMT (CO1007)
Nhóm: ... —- Bài tập lớn

Thống kê mô tả và
Xác suất rời rạc với R

GVHD:
SV thực hiện:

Nguyễn An Khương
Huỳnh Tường Nguyên
Nguyễn Văn A – 22102134
Trần Văn B – 88471475
Lê Thị C – 36811334
Phạm Ngọc D – 97501334
Kiều Thị E – 12341334


Tp. Hồ Chí Minh, Tháng .../2015


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Mục lục
1 Kiến thức và kết quả chuẩn bị
1.1 Tổng quan về R . . . . . . . . . . . . . . . . . . . . . .
1.2 Thống kê mô tả . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Các loại dữ liệu . . . . . . . . . . . . . . . . . .
1.2.2 Tổng thể và mẫu . . . . . . . . . . . . . . . . .
1.2.3 Các loại biểu đồ và đồ thị thông dụng . . . . .
1.2.4 Phân tích môt tả các giá trị mẫu . . . . . . . .
1.3 Xác suất cơ bản . . . . . . . . . . . . . . . . . . . . . .
1.4 Biến ngẫu nhiên rời rạc . . . . . . . . . . . . . . . . .
1.4.1 Khái niệm biến ngẫu nhiên rời rạc và ví dụ . .
1.4.2 Phân phối xác suất của biến ngãu nhiên rời rạc
1.4.3 Các đặc trưng số quan trọng của của biến ngẫu
1.5 Một vài mô hình xác suất rời rạc quen thuộc . . . . .
1.5.1 Mô hình ... . . . . . . . . . . . . . . . . . . . .
1.5.2 Mô hình ... . . . . . . . . . . . . . . . . . . . .
1.5.3 Mô hình ... . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3

2 Một số bài toán minh họa
2.1 Bài toán 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Bài toán 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Bài toán 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3
3
10
13

3 Kết luận

20

Tài liệu

20

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
nhiên rời rạc
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Trang 1/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Bài báo cáo này trình bày lời giải một số bài toán về thống kê mô tả và mộ số bài toán liên
quan đến các mô hình xác suất rời rạc có sử dụng R.
Trong phần đầu, chúng tôi nhắc lại một số kiến thức và kết quả cơ bản về thống kê mô tả,
và các mô hình xác suất rời rạc thông dụng, cùng với một số hàm R thông dụng mà chúng tôi
sử dụng để tính toán kết quả trong các lời giải của các bài toán trong Phần 2.
Đối với mỗi bài toán Phần 2, trước hết chúng tôi trình bày lời giải truyền thống, bằng cách
dùng các công thức và kết quả đã được trình bày trong Phần 1. Sau đó chúng tôi tính toán lại
kết quả bằng các hàm R. Các biểu đồ (nếu có) cũng sẽ được vẽ bằng R và nhúng vào LaTeX.

1
1.1

Kiến thức và kết quả chuẩn bị
Tổng quan về R

Trong phần này chúng tôi giới thiệu tóm lược về ngôn ngữ R và ứng dụng của nó trong xác suất
và thống kê.
...

1.2

Thống kê mô tả

Trong phần này chúng tôi tóm lược lại một số kiến thức căn bản về thống kê mô tả như các
dạng dữ liệu, mẫu ngẫu nhiên, các loại biểu đồ, đồ thị, và các số đặc trưng của mẫu. ....
1.2.1

Các loại dữ liệu

...
1.2.2

Tổng thể và mẫu

...
1.2.3

Các loại biểu đồ và đồ thị thông dụng

...
1.2.4

Phân tích môt tả các giá trị mẫu

Trong mục này, chúng tôi trình bày một số bước đầu tiên để phân tích dữ liệu thu thập được
trong quá trình lấy mẫu. Một cách để mô tả một phân phối các giá trị mẫu, đặc biệt hữu ích
trong các mẫu lớn, là xây dựng một phân phối tần số (tần suất) của các giá trị mẫu.
...

1.3

Xác suất cơ bản

Trong phần này chúng tôi nhắc lại một số khái niệm cơ bản về xác suất rời rạc.
....

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 2/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

1.4

Biến ngẫu nhiên rời rạc

Trong phần này chúng tôi trình bày lại một số khái niệm và kết quả quan trọng về các biến ngẫu
nhiên rời rạc, cùng với các số đặc trưng của chúng như: kỳ vọng, phương sai, mode, trung vị,
moment cấp cao, mức phân vị,... mà sẽ được dùng để giải các bài toán trong phần sau.
Đối với mỗi đặc trưng số, chúng tôi nêu ra các hàm R để tính toán liên quan đến chúng .
1.4.1

Khái niệm biến ngẫu nhiên rời rạc và ví dụ

...
1.4.2

Phân phối xác suất của biến ngãu nhiên rời rạc

...
1.4.3

Các đặc trưng số quan trọng của của biến ngẫu nhiên rời rạc

...

1.5

Một vài mô hình xác suất rời rạc quen thuộc

Trong phần này chúng tôi nêu ra các mô hình cụ thể mà chúng tôi sử dụng để giải các bài toán
trong phần sau. Đối với mỗi mô hình chúng tôi nêu ra tường mình các đặc trưng số quan trọng
của chúng, cũng như các hàm R để tính toán các đặc trưng số này
1.5.1

Mô hình ...

...
1.5.2

Mô hình ...

...
1.5.3

Mô hình ...

...

2

Một số bài toán minh họa

Trong phần này chúng tôi sẽ trình bày lời giải tường minh của một số bài toán đã được giao
trong đề bài của nhóm. Các tính toán bằng R để kiểm tra kết quả và các biểu đồ minh họa cũng
sẽ được nêu rõ.

2.1

Bài toán 1

Một công ty Mỹ sản xuất các thành phần vi mạch điện tử lai (hybrid ) đã mua các tấm gốm từ
một nhà cung cấp Nhật Bản. Các tấm được kiểm tra bằng mắt thường trước khi đem in lưới.
Tấm gốm bị lỗi sẽ ảnh hưởng đến hiệu suất điện năng của sản phẩm cuối cùng cũng như năng
suất tổng thể của nó. Để phản hồi cho các nhà cung cấp, công ty đã khảo sát sự thay đổi về số
lượng lỗi X được tìm thấy trên các tấm gốm. Số liệu đo sau đây trong tập dữ liệu BLEMISHES
thể hiện số lỗi tìm thấy trên mỗi 30 tấm gốm.

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 3/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

0, 2, 0, 0, 1, 3, 0, 3, 1, 1, 0, 0, 1, 2, 0, 0, 0, 1, 1, 3, 0, 1, 0, 0, 0, 5, 1, 0, 2, 0.
Biến X nhận các giá trị 0, 1, 2, 3 và 5.
Các lệnh R sau sẽ cài đặt các gói mistat, đọc tập dữ liệu BLEMISHES về số lỗi được tìm thấy
trên 30 tấm gốm và hiển thị chúng trên màn hình máy tính.
> # Sau dấu này là một comment
> install.packages("mistat",
# Cài đặt gói mistat
dependencies=TRUE) # và tất cả các gói có liên quan đến nó
> library(mistat) # Gọi ra các tập dữ liệu và hàm có trong gói
> data(BLEMISHES)
# Gọi ra tập dữ liệu về số lỗi trong 30 tấm gốm
>
# BLEMISHES là tập số liệu dạng bảng, không phải vector (1
>
# chiều)
> help(BLEMISHES)
# Đọc tất cả các thông tin hỗ trợ về tập dữ liệu BLEMISHES
> BLEMISHES
# Đưa ra các số liệu BLEMISHES trên màn hình máy tính

Số liệu trong tập dữ liệu BLEMISHES hiện ra trên màn hình máy tính là như sau.

Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate
Plate

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

plateID count
1
0
2
2
3
0
4
0
5
1
6
3
7
0
8
3
9
1
10
1
11
0
12
0
13
1
14
2
15
0
16
0
17
0
18
1
19
1
20
3
21
0
22
1
23
0
24
0
25
0
26
5
27
1
28
0
29
2

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 4/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Plate 30

30

0

1. Tính tần số, tần suất và tần suất tích lũy của của X?
2. Vẽ biểu đồ tần số của số lượng lỗi trên 30 tấm gốm?
3. Vẽ biểu đồ tần suất của số lượng lỗi trên 30 tấm gốm?
4. Vẽ biểu đồ tần suất tích lũy của số lượng lỗi trên 30 tấm gốm?
5. Hãy trích xuất ra ba dòng đầu của tất cả các cộ trong tập dữ liệu BLEMISHES?
6. Hãy trích xuất ra cột thứ hai của tập dữ liệu?
7. Tính số lỗi trung bình trong dữ liệu mẫu BLEMISHES?
8. Hãy đo mức độ phân tán của số lỗi (xung quanh giá trị trung bình) của dữ liệu?
Lời giải.

1. Tần suất của X được hiển thị trong Bảng 1 sau đây.
Bảng 1: Tần suất của số lỗi trên các tấm gốm

x

Tần số fi

0
1
2
3
4
5
Tổng

15
8
3
3
0
1
n = 30

Tần suất
pi = fi /n
.50
.27
.10
.10
.00
.03
1.00

Tần suất tích lũy
i
Pi = k=0 pi
.50
.77
.87
.97
.97
1.00

Trong R ta có thể tạo ra bảng trên như sau.
>
>
>
>
>

library(mistat)
data("BLEMISHES")
X <- factor(BLEMISHES$count,levels=0:5)
X <- table(X)
cbind("Tan so"=X, "Tan suat"=X/sum(X), "Tan suat tich luy"=cumsum(X/sum(X)))

0
1
2
3
4
5

Tan so
15
8
3
3
0
1

Tan suat Tan suat tich luy
0.50000000
0.5000000
0.26666667
0.7666667
0.10000000
0.8666667
0.10000000
0.9666667
0.00000000
0.9666667
0.03333333
1.0000000

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 5/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Lưu ý rằng trong đoạn mã trên, ta có thể thay X/sum(X) bằng prop.table(X), và thay
cumsum(X/sum(X)) bằng cumsum(prop.table(X)).
Ta đã không quan sát được giá trị x = 4 trong mẫu này, nhưng nhiều khả năng nó sẽ xảy
ra trong các mẫu tương lai nên ta bao gồm nó trong bảng tần suất, với tần số f4 = 0.
2. Vẽ biểu đồ tần số của số lượng lỗi trên 30 tấm gốm: Trong R ta thực hiện
>
>
>
>
>

library(mistat)
data("BLEMISHES")
X <- factor(BLEMISHES$count,levels=0:5)
X <- table(X)
barplot(X, width=1,space=4, col="green50",ylab="Tan so loi",xlab="So loi")

để thu được biểu đồ tần số như trong Hình 1 sau.
Hình 1: Biểu đồ cột về số nhược điểm trên tấm gốm

3. Vẽ biểu đồ tần suất của số lượng lỗi trên 30 tấm gốm: Trong R ta thực hiện
>
>
>
>
>

library(mistat)
data("BLEMISHES")
X <- factor(BLEMISHES$count,levels=0:5)
X <- prop.table(X)
barplot(X, width=1,space=4, col="green50",ylab="Tan suat loi",xlab="So loi")

để thu được biểu đồ tần suất như trong Hình 2 sau.
4. Vẽ biểu đồ tần suất tích lũy của số lượng lỗi trên 30 tấm gốm: Trong R ta thực hiện

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 6/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Hình 2: Biểu đồ cột về số nhược điểm trên tấm gốm

> library(mistat)
> data("BLEMISHES")
> X <- factor(BLEMISHES$count,levels=0:5)
> X <- prop.table(X)
> barplot(cumsum(X), main="Tần suất tích lũy của số lượng lỗi trên các tấm gốm",
xlab="Số lỗi", ylab="Tần suất tích lũy")
để thu được biểu đồ tần suất như trong Hình 3 sau. Toán tử $ sẽ trích xuất cả cột bằng
tên.
5. Dữ liệu BLEMISHES không phải là một vector mà nó là một cấu trúc giống như ma trận,
mà các cột (biến) có thể là khác kiểu nhau (được gọi là một khung dữ liệu). Do đó, ta
truy xuất vào tập dữ liệu này với toán tử dấu ngoặc vuông [i, j] nhằm xác định các phần
tử cần trích xuất. Dấu ngoặc vuông cũng có thể được sử dụng trên vector. Gọi lệnh help
(“[”) tại dấu nhắc lệnh để biết thêm thông tin. Dưới đây là cách trích xuất ra 3 dòng đầu
tiên của bộ dữ liệu BLEMISHES.
> BLEMISHES[1:3, ] # Trích xuất ra các dòng từ 1 đến 3, lấy hết tất cả các cột
plateID count
Plate 1
1
0
Plate 2
2
2
Plate 3
3
0
> head(BLEMISHES,n=3) # Kết quả giống như trên

6. Ta có thể dùng toán tử dấu ngoặc vuông để trích xuất ra cột thứ hai của tập dữ liệu như
sau.
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 7/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Hình 3: Tần suất tích lũy của số lượng lỗi trên các tấm gốm

> BLEMISHES[2]
count
Plate 1
0
Plate 2
2
Plate 3
0
Plate 4
0
Plate 5
1
Plate 6
3
Plate 7
0
Plate 8
3
Plate 9
1
Plate 10
1
Plate 11
0
Plate 12
0
Plate 13
1
Plate 14
2
Plate 15
0
Plate 16
0
Plate 17
0
Plate 18
1
Plate 19
1
Plate 20
3
Plate 21
0
Plate 22
1
Plate 23
0
Plate 24
0
Plate 25
0

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 8/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Plate
Plate
Plate
Plate
Plate

26
27
28
29
30

5
1
0
2
0

7. Số lỗi trung bình trong dữ liệu mẫu BLEMISHES là
x
¯=

15 × 0 + 8 × 1 + 3 × 2 + 3 × 3 + 0 × 4 + 1 × 5
= 0.9333333.
15 + 8 + 3 + 3 + 0 + 1

Trong R ta thực hiện như sau
>
>
>
>

library(mistat)
data("BLEMISHES")
X<-BLEMISHES[2]
colMeans(X)

để thu được cùng kết quả
count
0.9333333

8. Để đo mức độ phân tán của số lỗi (xung quanh giá trị trung bình) của dữ liệu mẫu
BLEMISHES ta tính
• Phương sai mẫu (hiệu chỉnh)
15 × (0 − 0.9333333)2 + 8 × (1 − 0.9333333)2 + 3 × (2 − 0.9333333)2
(15 + 8 + 3 + 3 + 0 + 1) − 1
3 × (3 − 0.9333333)2 + 0 × (4 − 0.9333333)2 + 1 × (5 − 0.9333333)2
+
(15 + 8 + 3 + 3 + 0 + 1) − 1
=1.581609,

s2X =

• và độ lệch chuẩn mẫu sd(X) =

s2X = 1.25762.

Trong R ta thực hiện như sau
>
>
>
>
>

library(mistat)
data("BLEMISHES")
X<-BLEMISHES[2]
apply(X,2,var)
apply(X,2,sd)

để thu được cùng kết quả

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 9/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

count
1.581609

count
1.25762.
Ngoài ra, ta cũng có thể thực hiện như sau trong R để tính được x
¯, s2X và sd(X).
> BLEMISHES[1:30, 2]
[1] 0 2 0 0 1 3 0 3 1 1 0 0 1 2 0 0 0 1 1 3 0 1 0 0 0 5 1 0 2 0
> X<-BLEMISHES[1:30, 2]
> mean(X)
[1] 0.9333333
> var(X)
[1] 1.581609
> sd(X)
[1] 1.25762

2.2

Bài toán 2

Trong bài toán này, Mai, Lan, và Cúc là ba thư ký trong một công ty. Công việc chính của họ
là xử lý sổ sách theo khối lượng được phân công như sau.

Tỉ lệ khối lượng
công việc trong ngày

Mai

Lan

Cúc

60%

30%

10%

Khi xử lý sổ sách, sai sót có thể xảy ra và tỉ lệ sai sót của ba thư ký sau khi được thống kê
trong một thời gian dài được cho bởi bảng sau.

Tỉ lệ sai sót

Mai
0.3%

Lan
0.7%

Cúc
1%

1. Vào một ngày, người quản lý phát hiện ra một hồ sơ bị xử lý sai. Hỏi ai trong số ba thư
ký là người đáng nghi nhất để truy trách nhiệm đối với hồ sơ này?
2. Giả sử trong 7 ngày tiếp theo ngày trên, ngày nào người quản lý cũng phát hiện ra một hồ
sơ bị xử lý sai. Hỏi ai trong số ba thư ký là người đáng nghi nhất để truy trách nhiệm đối
với loạt sai sót này?

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 10/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

1. Đặt các biến cố như sau

Lời giải.

• M = {Một hồ sơ được chọn do Mai xử lý}
• L = {Một hồ sơ được chọn do Lan xử lý}
• C = {Một hồ sơ được chọn do Cúc xử lý}
• A = {Một hồ sơ được chọn ngẫu nhiên bị xử lý sai}.
Khi đó ta cần so sánh ba xác suất p(M |A), p(L|A), và p(C|A). Theo công thức Bayes, ta


p(A|M )p(M )
p(A|M )p(M ) + p(A|L)p(L) + p(A|C)p(C)
(0.003)(0.6)
=
(0.003)(0.6) + (0.007)(0.3) + (0.010)(0.1)
0.0018
=
0.0049
= 0.37,

p(M |A) =

p(A|L)p(L)
p(A|M )p(M ) + p(A|L)p(L) + p(A|C)p(C)
(0.007)(0.3)
=
(0.003)(0.6) + (0.007)(0.3) + (0.010)(0.1)
0.0021
=
0.0049
= 0.43,

p(L|A) =

p(A|C)p(C)
p(A|M )p(M ) + p(A|L)p(L) + p(A|C)p(C)
(0.010)(0.1)
=
(0.003)(0.6) + (0.007)(0.3) + (0.010)(0.1)
0.0010
=
0.0049
= 0.20.

p(C|A) =

Vậy Lan là người có khả năng cao nhất gây ra sai sót này.
Trong R ta thực hiện như sau
>
>
>
>

ti_le_khoi_luong_cong_viec <- c(0.6, 0.3, 0.1)
ti_le_loi <- c(0.003, 0.007, 0.01)
xac_suat_loi_tuong_ung <- ti_le_khoi_luong_cong_viec * ti_le_loi
xac_suat_loi_tuong_ung/sum(xac_suat_loi_tuong_ung)

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 11/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

để thu được cùng kết quả
[1] 0.3673469 0.4285714 0.2040816.

2. Ta đặt lại các biến cố như sau
• M = {Một hồ sơ được chọn do Mai xử lý}
• L = {Một hồ sơ được chọn do Lan xử lý}
• C = {Một hồ sơ được chọn do Cúc xử lý}
• A = {8 hồ sơ được chọn ngẫu nhiên trong 8 ngày liên tiếp đều bị xử lý sai}
• Ai = {Một hồ sơ được chọn ngẫu nhiên trong ngày thứ i bị xử lý sai}, i = 1, ..., 8.
Ta thấy A = ∩8i=1 Ai và từng Ai độc lập với nhau cho nên
8

p(A|M ) = p(∩8i=1 Ai |M ) =

p(Ai |M ) = (0.003)8 ,
i=1
8

p(A|L) =

p(∩8i=1 Ai |L)

p(Ai |L) = (0.007)8 ,

=
i=1



8

p(Ai |C) = (0.010)8 .

p(A|C) = p(∩8i=1 Ai |C) =
i=1

Khi đó ta cần so sánh ba xác suất p(M |A), p(L|A), và p(C|A). Theo công thức Bayes, ta


p(A|M )p(M )
p(A|M )p(M ) + p(A|L)p(L) + p(A|C)p(C)
(0.003)8 (0.6)
=
(0.003)8 (0.6) + (0.007)8 (0.3) + (0.010)8 (0.1)
3.9366−21
=
1.173338−17
= 0.0003355043,

p(M |A) =

p(A|L)p(L)
p(A|M )p(M ) + p(A|L)p(L) + p(A|C)p(C)
(0.007)8 (0.3)
=
8
(0.003) (0.6) + (0.007)8 (0.3) + (0.010)8 (0.1)
1.72944−18
=
1.173338−17
= 0.1473949,

p(L|A) =

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 12/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

p(A|C)p(C)
p(A|M )p(M ) + p(A|L)p(L) + p(A|C)p(C)
(0.010)8 (0.1)
=
(0.003)8 (0.6) + (0.007)8 (0.3) + (0.010)8 (0.1)
10−17
=
1.173338−17
= 0.8522693.

p(C|A) =

Vậy Cúc là người có khả năng cao nhất gây ra loạt sai sót này.
Trong R ta thực hiện như sau
>
>
>
>

ti_le_khoi_luong_cong_viec <- c(0.6, 0.3, 0.1)
ti_le_loi <- c(0.003, 0.007, 0.01)
xac_suat_loi_tuong_ung <- ti_le_khoi_luong_cong_viec * ti_le_loi^8
xac_suat_loi_tuong_ung/sum(xac_suat_loi_tuong_ung)

để thu được cùng kết quả
[1] 0.0003355044 0.1473949328 0.8522695627

2.3

Bài toán 3

Một cuộc khảo sát toàn quốc cho thấy khoảng 44.7% sinh viên cao đẳng, đại học đã từng tham
khảo Wikipedia để làm bài tập trong các môn học của họ. Gọi X là số lượng sinh viên đã từng
tham khảo Wikipedia trong quá trình làm bài tập trong một mẫu ngẫu nhiên kích thước n = 31.
1. X tuân theo luật phân phối xác suất nào? Nói cách khác, X tuân theo mô hình xác suất
nào? Vì sao?
2. Hãy vẽ biểu đồ minh họa phân phối xác suất (điểm) của X?
3. Hãy vẽ đồ thị của hàm phân phối xác suất (tích lũy) của X?
4. Tính xác suất để X nhận giá trị 17?
5. Tính xác suất để X nhận giá trị tối đa là 13?
6. Tính xác suất để X nhận giá trị lớn hơn 11?
7. Tính xác suất để X nhận giá trị ít nhất là 15?
8. Tính xác suất để X nhận một trong các giá trị từ 16 đến 19?
9. Tính kỳ vọng E(X) của X?
10. Tính phương sai V (X) của X?

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 13/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

11. Tính độ lệch chuẩn sd(X) của X?
12. Tính kỳ vọng của biến ngẫu nhiên Y = 4X + 51.324?
Lời giải.
1. Biến ngẫu nhiên X nhận các giá trị trong {0, 1, 2, ..., 31} một cách độc lập với
nhau, với xác xuất bằng nhau và bằng 0.447. Do đó X tuân theo luật phân phối nhị thức
B(n, p) với các tham số n = 31 và p = 0.447:
X ∼ binom(size = 31, prob = 0.447).
2. Để vẽ được biểu đồ minh họa phân phối xác suất (điểm) của X, trước hết ta phải tính ra
bảng phân phối xác suất của X như sau (Bảng 2).
Bảng 2: Bảng phân phối xác suất của X ∼ binom(size = 31, prob = 0.447).

k
0
1
2
3
4
5
6
7

p(X = k)
1.05798 × 10−8
2.65108 × 10−7
3.21438 × 10−6
0.0000251163
0.000142114
0.000620315
0.00217279
0.00627251

k
8
9
10
11
12
13
14
15

p(X = k)
0.0152106
0.0314205
0.055875
0.0862237
0.11616
0.13723
0.142619
0.130652

k
16
17
18
19
20
21
22
23

p(X = k)
0.105609
0.0753225
0.0473546
0.02619
0.0127019
0.00537804
0.00197599
0.000625001

k
24
25
26
27
28
29
30
31

p(X = k)
0.0001684
0.0000381138
7.10956 × 10−6
1.06422 × 10−6
1.2289 × 10−7
1.02759 × 10−8
5.53748 × 10−10
1.44389 × 10−11

Hoặc ta cũng có thể thực hiện như sau trong R để liệt kê kết quả.
> library(distr)
> cbind(Gia_tri=0:31, Xac_suat_tuong_ung=dbinom(0:31,31,0.447))
Gia_tri Xac_suat_tuong_ung
[1,]
0
1.057984e-08
[2,]
1
2.651082e-07
[3,]
2
3.214377e-06
[4,]
3
2.511632e-05
[5,]
4
1.421138e-04
[6,]
5
6.203153e-04
[7,]
6
2.172786e-03
[8,]
7
6.272510e-03
[9,]
8
1.521055e-02
[10,]
9
3.142047e-02
[11,]
10
5.587504e-02
[12,]
11
8.622373e-02
[13,]
12
1.161604e-01
[14,]
13
1.372305e-01
[15,]
14
1.426190e-01
[16,]
15
1.306524e-01
[17,]
16
1.056088e-01
[18,]
17
7.532248e-02
[19,]
18
4.735464e-02

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 14/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

[20,]
[21,]
[22,]
[23,]
[24,]
[25,]
[26,]
[27,]
[28,]
[29,]
[30,]
[31,]
[32,]

19
20
21
22
23
24
25
26
27
28
29
30
31

2.618995e-02
1.270189e-02
5.378041e-03
1.975986e-03
6.250013e-04
1.684000e-04
3.811382e-05
7.109560e-06
1.064220e-06
1.228898e-07
1.027594e-08
5.537484e-10
1.443887e-11

Dựa trên tính toán ở trên, ta có thể phác thảo biểu đồ phân phối xác suất điểm bằng tay,
hoặc dùng Excel như biểu đồ dưới đây (Hình 4).
Hình 4: Biểu đồ phân phối xác suất điểm của
X ∼ binom(size = 31, prob = 0.447) bằng Excel.

Trong R ta dùng
> plot(0:31,dbinom(0:31,size=31,prob=0.447)*100, xlim=c(-1,31+1),,
lwd=2,col="blue",ylab="Xac suat",xlab="Gia tri cua X",
main="Phan phoi Bernoulli voi n=31, p=0.447")
để vẽ được biểu đồ sau (Hình 5).
3. Để vẽ đồ thị của hàm phân phối xác suất (tích lũy) của X, trước hết ta có thể tính trực

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 15/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Hình 5: Biểu đồ phân phối xác suất điểm của
X ∼ binom(size = 31, prob = 0.447) bằng R.

tiếp giá trị của nó theo định nghĩa như sau
k

F (k; 31, 0.447) = p(X ≤ k) =
i=0

31
(0.477)i (1 − 0.477)31−i .
i

Tức là ta cộng dồn (tích lũy) các giá trị xác suất trong Bảng 2 cho đến giá trị k . Trong
R ta thực hiện như sau
> pbinom(0:31,31,0.447)
hoặc như sau
> cumsum(dbinom(0:31,31,0.447))
để thu được cùng kết quả
[1]
[6]
[11]
[16]
[21]
[26]
[31]

1.057984e-08
7.910356e-04
1.117424e-01
7.246284e-01
9.918062e-01
9.999917e-01
1.000000e+00

2.756880e-07
2.963822e-03
1.979661e-01
8.302372e-01
9.971842e-01
9.999988e-01
1.000000e+00

3.490065e-06
9.236332e-03
3.141265e-01
9.055597e-01
9.991602e-01
9.999999e-01

2.860638e-05
2.444689e-02
4.513570e-01
9.529143e-01
9.997852e-01
1.000000e+00

1.707202e-04
5.586736e-02
5.939760e-01
9.791043e-01
9.999536e-01
1.000000e+00

Với kết quả này ta có thể phác thảo đồ thị của F (k; 31, 0.447) bằng tay hoặc bằng Excel
như sau (Hình 6).
Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 16/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Hình 6: Đồ thị của hàm phân phối xác suất tích lũy của
X ∼ binom(size = 31, prob = 0.447) bằng Excel.

Trong R, ta dùng
> plot(0:31,pbinom(0:31,size=31,prob=0.447), vertical=T,
pch=16, col.points="NavyBlue",
col="green3",lwd=2, cex.points=2,
main="Ham phan phoi xac suat tich luy cua pp Bernoulli voi n=31, p=0.447",
ylab="F(k;31,0.447)",xlab="Gia tri cua X")
để có đồ thị sau (Hình 7).
4. Xác suất để X nhận giá trị 17 là
p(X = 17) =

31
(0.477)17 (1 − 0.477)31−17 = 0.0753225.
17

Trong R ta dùng
> dbinom(17, size = 31, prob = 0.447)
để có kết quả là
[1] 0.07532248.

5. Xác suất để X nhận giá trị tối đa 13 là
13

p(X ≤ 13) =
k=0

31
(0.477)k (1 − 0.477)31−k
k

= 0.451356973636012479588353825140359266445093760671233547481214....
Trong R ta dùng

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 17/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

Hình 7: Đồ thị của hàm phân phối xác suất tích lũy của
X ∼ binom(size = 31, prob = 0.447) bằng R.

> pbinom(13, size = 31, prob = 0.447)
để có kết quả là
[1] 0.451357.

6. Xác suất để X nhận giá trị lớn hơn 11 là
31

p(X > 11) =
k=12

31
(0.477)k (1 − 0.477)31−k
k

= 0.802033872504239656027123864970465728136613772232035160154335....
Trong R ta dùng
> pbinom(11, size = 31, prob = 0.447, lower.tail = FALSE)
để có kết quả là
[1] 0.8020339

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 18/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

7. Xác suất để X nhận giá trị ít nhất bằng 15 là
31

31
(0.477)k (1 − 0.477)31−k
k

p(X ≥ 15) =
k=15

= 0.406024003187110387197725259305841821175855219866824141685331....
Trong R ta dùng
> pbinom(14, size = 31, prob = 0.447, lower.tail = FALSE)
để có kết quả là
[1] 0.406024.

8. Xác suất để X nhận một trong các giá trị từ 16 đến 19 là
19

p(16 ≤ X ≤ 19) =
k=16

31
(0.477)k (1 − 0.477)31−k
k

= 0.254475827691107904969571717043382770032772215525688387442289....
Trong R ta dùng
> sum(dbinom(16:19, size = 31, prob = 0.447))
để có kết quả là
[1] 0.2544758.
Hoặc ta cũng có thể dùng
> diff(pbinom(c(19, 15), size = 31, prob = 0.447, lower.tail = FALSE))
để thu cùng kết quả.
9. Kỳ vọng E(X) của X là
31

k · p(X = k)

E(X) =
k=0
31



=
k=0

31
(0.477)k (1 − 0.477)31−k
k

= 13.857.
Trong R ta dùng

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 19/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

> library(distrEx)
> X = Binom(size = 31, prob = 0.447)
> E(X)
để có kết quả là
[1] 13.857.

10. Phương sai V (X) của X là
31

(k − E(X))2 · p(X = k)

V (X) =

k=0
31

=

(k − 13.857)2 ·
k=0

31
(0.477)k (1 − 0.477)31−k
k

= 7.662921.
Trong R ta dùng
> var(X)
để có kết quả là
[1] 7.662921.

11. Độ lệch chuẩn sd(X) của X là
sd(X) =

V (X) =



7.662921 = 2.7682.

Trong R ta dùng
> sd(X)
để có kết quả là
[1] 2.7682.

12. Kỳ vọng của biến ngẫu nhiên Y = 4X + 51.324 là
E(Y ) = E(4X + 51.324) = 4E(X) + 51.324 = 4 × 13.857 + 51.324 = 106.752.
Trong R ta dùng

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 20/21


Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Khoa Khoa Học và Kỹ Thuật Máy Tính

> E(4 * X + 51.324)
để có kết quả là
[1] 106.752.

3

Kết luận

Trong báo cáo này chúng tôi đã trình bày tóm lược về việc sử dụng R để giải một số bài toán
xác suất rời rạc và xử lý số liệu ở mức độ thống kê mô tả. Qua đó, giúp hiểu rõ được ý nghĩa của
các mô hình xác suất rời rạc liên quan và bước đầu nắm được việc sử dụng R trong tình toán và
phân tích dữ liệu.

Tài liệu
[Dal]

Dalgaard, P. Introductory Statistics with R. Springer 2008.

[K-Z]

Kenett, R. S. and Zacks, S. Modern Industrial Statistics: with applications in R,
MINITAB and JMP, 2nd ed., John Wiley and Sons, 2014.

[Ker]

Kerns, G. J. Introduction to Probability and Statistics Using R, 2nd ed., CRC 2015.

Bài tập lớn môn Cấu trúc Rời rạc cho KHMT (CO1007) - Niên khóa 2015-2016

Trang 21/21



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×