Tải bản đầy đủ

THỐNG KÊ NHIỀU CHIỀU VÀ MỘT SỐ ỨNG DỤNG

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

THỐNG KÊ NHIỀU CHIỀU VÀ MỘT SỐ ỨNG DỤNG

KHÓA LUẬN CỬ NHÂN TOÁN ỨNG DỤNG


ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM

THỐNG KÊ NHIỀU CHIỀU VÀ MỘT SỐ ỨNG DỤNG

Chuyên ngành: Toán Ứng Dụng
Mã số SV: 311044151113

KHÓA LUẬN CỬ NHÂN TOÁN ỨNG DỤNG


MỤC LỤC
PHẦN MỞ ĐẦU .............................................................................................. 1

1. Tính cấp thiết của đề tài .............................................................................. 1
2. Mục tiêu nghiên cứu ................................................................................... 1
3. Đối tượng và phạm vi nghiên cứu .............................................................. 1
4. Phương pháp nghiên cứu ............................................................................ 1
5. Bố cục đề tài................................................................................................ 1
6. Tổng quan tài liệu nghiên cứu .................................................................... 2
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT............................................................... 3
1.1. VECTƠ NGẪU NHIÊN VÀ MA TRẬN ................................................... 3
1.1.1. Vectơ và ma trận ............................................................................... 3
a. Vectơ..................................................................................................... 3
b. Ma trận .................................................................................................. 4
c. Căn bậc hai của ma trận........................................................................ 5
1.1.2. Vectơ ngẫu nhiên ............................................................................... 5
a. Vectơ trung bình và ma trận hiệp phương sai ...................................... 6
b. Chia khối ma trận ................................................................................. 6
d. Vectơ trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính
các vectơ ngẫu nhiên ................................................................................... 8
1.1.3. Phân bố chuẩn nhiều chiều ................................................................ 9
a. Định nghĩa ............................................................................................ 9
b. Tính chất ............................................................................................... 9
1.2. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH ............................................................. 10


1.2.1. Vectơ trung bình mẫu, ma trận hiệp phương sai mẫu ..................... 10
1.2.2. Phân bố trung bình mẫu................................................................... 11
1.2.3. Nhận dạng phân bố chuẩn nhiều chiều............................................ 11
1.2.4. Kiểm định giả thuyết về vectơ trung bình ....................................... 11
CHƯƠNG 2. PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH
NHÂN TỐ VỚI PHẦN MỀM MINITAB ................................................... 13
2.1. PHÂN TÍCH THÀNH PHẦN CHÍNH..................................................... 13
2.1.1. Cấu trúc của các thành phần chính .................................................. 13
2.1.2. Các thành phần chính đã chuẩn hóa ................................................ 17
2.1.3. Phân tích thành phần chính dựa trên 1 mẫu .................................... 18
2.2. PHÂN TÍCH NHÂN TỐ .......................................................................... 21
2.2.1. Mô hình phân tích nhân tố trực giao ............................................... 21
2.2.2. Phương pháp ước lượng .................................................................. 23
2.2.3. Xoay nhân tố ................................................................................... 25
2.3. ỨNG DỤNG PHẦN MỀM MINITAB .................................................... 27
2.3.1. Phân tích thành phần chính ............................................................. 27
2.3.2. Phân tích nhân tố ............................................................................. 27


KẾT LUẬN .................................................................................................... 39
TÀI LIỆU THAM KHẢO ............................................................................ 40
PHỤ LỤC ....................................................................................................... 41


LỜI CAM ĐOAN
Em cam đoan đây là công trình nghiên cứu của riêng em.
Các số liệu, kết quả nêu trong báo cáo khóa luận là trung thực và chưa
từng được ai công bố trong bất kỳ công trình nào khác.
Sinh viên thực hiện



1

PHẦN MỞ ĐẦU
1. Tính cấp thiết của đề tài
Một vấn đề quan trọng đặt ra trong việc nghiên cứu là phân tích và xử lý
số liệu thu thập được. Nếu bảng số liệu thu thập được lớn thì việc tìm hiểu
thông tin từ đó là khá khó khăn và phức tạp.
2. Mục tiêu nghiên cứu
Phân tích một bộ dữ liệu cụ thể từ một đề tài thực tế cũng như đưa ra
nhận xét, đánh giá dữ liệu đã được xử lý.
3. Đối tượng và phạm vi nghiên cứu
Mỗi bộ dữ liệu thu thập được khi tiến hành các nghiên cứu, thí nghiệm
thường được thể hiện dưới dạng bảng các giá trị số của nhiều cá thể. Chúng tạo
thành “đám mây số liệu” khá phức tạp. Các số liệu này cần được phân tích và
xử lí để có thể rút ra được những nhận xét, đánh giá thích hợp.
4. Phương pháp nghiên cứu
Hai phương pháp đơn giản là Phân tích thành phần chính và Phân tích
nhân tố được sử dụng thông qua phần mềm Minitab.
5. Bố cục đề tài
Bài báo cáo trình bày về hai phương pháp nói trên trong thống kê nhiều
chiều. Sau đó, đưa ra ví dụ phân tích cụ thể số liệu từ một đề tài khoa học. Đây
là hai phương pháp đơn giản nhưng có tính hiệu quả cao trong số nhiều phương
pháp phân tích số liệu đã được đưa ra bởi các nhà thống kê, tuy nhiên việc ứng
dụng chúng trong nghiên cứu thực nghiệm, nhất là các đề tài thuộc lĩnh vực
khoa học còn hạn chế. Bài báo cáo này phần nào giúp ta thấy được sự hữu ích
của việc áp dụng các kiến thức thống kê trong việc nghiên cứu.


2

6. Tổng quan tài liệu nghiên cứu
Phân tích thành phần chính là kĩ thuật biểu diễn số liệu dựa theo các tiêu
chuẩn về đại số và hình học mà không đòi hỏi một giả thuyết thống kê hay mô
hình đặc biệt nào. Lĩnh vực áp dụng của phân tích thành phần chính rất rộng,
như trong nông nghiệp, kinh tế, khoa học cơ bản.
Phân tích nhân tố là kĩ thuật ghép các điểm quan sát lại thành nhóm theo
một tiêu chí nào đó, tương tự như trong cách phân loại trong sinh học. Việc
phân tích có thuật toán đơn giản, đồng thời đem lại cái nhìn trực quan của phân
loại thu được nên dễ được các nhà chuyên môn trong các ngành khoa học khác
nhau chấp nhận.


3

CHƯƠNG 1. CƠ SỞ LÝ THUYẾT
1.1. VECTƠ NGẪU NHIÊN VÀ MA TRẬN
1.1.1. Vectơ và ma trận
a. Vectơ
Cho x  ( x1, x2 ,..., xn )  . Ta viết dạng ma trận của x như sau:
 x1 
x 
 2  hoặc xT  [ x , x ,..., x ].
1
2
n
 ... 
 
 xn 

Các phép toán: Cho c 

 x1 
 y1 
x 
y 
2

, y   2 .
và 2 vectơ: x 
 ... 
 ... 
 
 
 xn 
 yn 

 x1 
 y1 
x 
y 
- Phép cộng: x   2  , y   2  .
 ... 
 ... 
 
 
 xn 
 yn 

 x1  y1 
x  y 
- Phép nhân với 1 số: x  y   2 2  .
 ... 


 xn  yn 

- Tích vô hướng: xT y  x1 y1  x2 y2  ...  xn yn .
- Độ dài vectơ: Lx  x12  x22  ...  xn2 .
- Góc giữa hai vectơ: cos  

xT y
.
Lx Ly

Hệ trực chuẩn p vectơ e1 , e2 ,..., e p của không gian vectơ
hệ trực chuẩn nếu ei2  1 với mọi i và ei e j  0 với mọi i  j .

p

được gọi là


4

b. Ma trận
Ma trận A  [aij ]n p là một bảng số hình chữ nhật gồm n hàng và p cột
 a11
a
 21
 ...

 an1

Các phép toán: Cho c 

a12
a22
...
an 2

... a1 p 
... a2 p 
... ... 

... anp 

và các

ma trận A  [aij ]n p , B  [bij ]n p ,

C  [cij ] pq .

- Cộng hai ma trận: A  B  [aij  bij ]n p .
- Tích 1 số với 1 ma trận: cA  [caij ]n p .
p

- Nhân hai ma trận: AC  [dij ]nq với dij   aik ckj .
k 1

- Ma trận chuyển vị của ma trận A  [aij ]nn được kí hiệu bởi AT là ma
trận xác định bởi AT  [bij ] với bij  a ji .
- Ma trận đối xứng: Ma trận vuông A  [aij ]nn là ma trận đối xứng nếu
aij  a ji .

- Ma trận đường chéo: A là ma trận đường chéo nếu aij  0 với mọi i  j.
Khi đó A được kí hiệu là A  diag (aii ) .
- Ma trận đơn vị là ma trận đường chéo có các phần tử trên đường chéo
chính bằng 1. Kí hiệu I n là ma trận đơn vị cấp n .
- Ma trận nghịch đảo: Nếu tồn tại ma trận A1 sao cho A. A1  A1 A  I n thì
A1 được gọi là ma trận nghịch đảo của ma trận A .

- Ma trận trực giao: ma trận vuông A là ma trận trực giao nếu AT  A1 .
- Giá trị riêng và vectơ riêng của ma trận vuông: Cho A là ma trận vuông
cấp n , nếu tồn tại vectơ x  0 và số thực  sao cho Ax   x thì  được gọi là
giá trị riêng và x được gọi là vectơ riêng ứng với  .


5

- Vết của ma trận là tổng các phần tử nằm trên đường chéo chính của ma
trận vuông.
Định nghĩa 1.1.
- Ma trận xác định không âm xT Ann x  0 với mọi x 
- Ma trận xác định dương xT Ann x  0 với mọi x 
xT Ann x  0  x  (0,...,0) 

n

n

n

. Kí hiệu A  0 .

,

. Kí hiệu A  0 .

Định lý 1.1. Nếu A  0 thì các giá trị riêng của A là các số thực không
âm.
Định lý 1.2. Nếu ma trận Ap p có p cặp giá trị riêng - vectơ riêng (1; e1 ) ,
(2 ; e2 ) ,..., ( p ; e p ) với e1 , e2 ,..., e p là hệ trực chuẩn thì

A  1e1e1T  2e2e2T  ...  pepeTp .

c. Căn bậc hai của ma trận
Cho Ap p là ma trận đối xứng, xác định không âm. Đặt:
PT  [e1 , e2 ,..., ep ],   diag (1 ,...,  p ), 1/2  diag (  1,...,  p ).

Khi đó ma trận A1/2  P1/2 PT thỏa mãn A1/2 A1/2  A .
Do đó ta gọi ma trận A1/2 là căn bậc 2 của ma trận A .
Ta có các hệ thức sau:
(1) ( A1/2 )T  A1/2
(2) ( A1/2 )1  P1/2 PT nên kí hiệu ( A1/2 )1  A1/2
1.1.2. Vectơ ngẫu nhiên
Cho X1, X 2 ,..., X n là các biến ngẫu nhiên cùng xác định trên không gian
xác suất (, , P) . Kí hiệu X  ( X1, X 2 ,..., X n ) được gọi là vectơ ngẫu nhiên n
chiều. Dạng ma trận của X như sau:


6

 X1 
X 
 2  hoặc X T  [ X1 , X 2 ,..., X n ].
 ... 
 
Xn 

Tương tự, cho X ij với i  1, 2,..., m ; j  1, 2,..., n là mn biến ngẫu nhiên cùng
xác định trên không gian xác suất (, , P ) thì X  [ X ij ]mn được gọi là ma trận
ngẫu nhiên.
a. Vectơ trung bình và ma trận hiệp phương sai
Cho vectơ ngẫu nhiên X  ( X1, X 2 ,..., X n ) . Giả sử E( X i )  i và
cov( X i ; X j )   ij . Khi đó   [ 1 , 2 ,..., n ]T được gọi là vectơ trung bình.

11 12

 22
Cov( X )     21
 ... ...

 n1  n 2

Gọi ij 
 11

   21
 ...

 n1

... 1n 
...  2 n 
được gọi là ma trận hiệp phương sai.
... ... 

...  nn 

 ij
là hệ số tương quan của X i và X j . Khi đó:
 ii jj

12 ... 1n 
22 ... 2 n 
được gọi là ma trận tương quan và ii 
...

n 2

... ... 

... nn 

 ii
 1, i.
 ii ii

b. Chia khối ma trận
Chia vectơ ngẫu nhiên X  ( X1, X 2 ,..., X n ) thành hai vectơ con p chiều và
n  p chiều như sau:

X

(1)

 X1 
 
  ... 
X p 
 

 X (1) 
Khi đó ta viết: X   ... 
 X (2) 



X

(2)

 X p 1 
  ... 
 X n 


7

  (1) 
 1 
  p 1 


 
(1)
(2)
Với cách kí hiệu như trên ta có    ...  , với    ...  ,    ...  .
  (2) 
 p 
 n 
 



Mặt khác,
 ( X (1)   (1) )( X (1)   (1) )T

( X   )( X   )T  
( X (2)   (2) )( X (1)   (1) )T


( X (1)   (1) )( X (2)   (2) )T 


( X (2)   (2) )( X (2)   (2) )T 

trong đó, ( X (1)   (1) )( X (1)  (1) )T là ma trận cấp p  p .
( X (1)   (1) )( X (2)   (2) )T là ma trận cấp p  (n  p) .
( X (2)   (2) )( X (1)   (1) )T là ma trận cấp (n  p)  p .
( X (2)   (2) )( X (2)   (2) )T là ma trận cấp (n  p)  (n  p) .

Ma trận hiệp phương sai cũng được chia khối như sau
 11
  
21

12 
,

22 

trong đó, 11  E ( X (1)   (1) )( X (1)   (1) )T , 12  E ( X (1)   (1) )( X (2)   (2) )T .
21  E ( X (2)   (2) )( X (1)   (1) )T , 22  E ( X (2)   (2) )( X (2)   (2) )T .

c. Hàm mật độ xác suất đồng thời
Nếu X  ( X1, X 2 ,..., X n ) là vectơ ngẫu nhiên rời rạc có miền giá trị
X ()  {xi  ( x1i , x2i ,..., xni ) : i  1}

thì hàm xác suất đồng thời của X là hàm p : X () 

xác định bởi

p( xi )  P( X  xi ).

Nếu X  (X1, X 2 ,..., X n ) gồm n biến ngẫu nhiên liên tục và nếu tồn tại hàm
số không âm f ( x) xác định trên

n

sao cho với mọi A  [a1; b1 ]  ...  [an ; bn ] 

n

,

P( X  A)   f ( x)dx thì f ( x) được gọi là làm mật độ xác suất đồng thời của X .
A

Định lý 1.3. Nếu X1 , X 2 ,..., X n là các biến ngẫu nhiên độc lập có hàm mật độ


8

xác suất lần lượt là f1 ( x1 ) , f2 ( x2 ) ,..., fn ( xn ) thì hàm mật độ xác suất đồng thời
của X là f ( x)  f1 ( x1 ) f 2 ( x2 )... f n ( xn ), x  ( x1, x2 ,..., xn ) 

n

.

Ví dụ 1.1. Cho X1 ~ N (1;12 ) , X 2 ~ N ( 2 ;  22 ) , X1 và X 2 độc lập. Tìm
hàm mật độ xác suất đồng thời của X  (X1, X 2 ).
d. Vectơ trung bình và ma trận hiệp phương sai của tổ hợp tuyến tính
các vectơ ngẫu nhiên
Nếu X1 và X 2 là hai biến ngẫu nhiên, a và b là các số thực thì
(1) E(aX1  bX 2 )  aE( X1 )  bE( X 2 )
(2) Var (aX1  bX 2 )  a 2Var ( X1 )  b2Var ( X 2 )  2ab12
Đặt CT  [a, b] , X T  [ X1 , X 2 ] ta có aX1  bX 2  CT X và do đó,
E (CT X )  CT E ( X )
Var (CT X )  CT cov( X )C

Một cách tổng quát, nếu CT  [c1 , c2 ,..., cn ] là vectơ các hằng số và
X T  [ X1 , X 2 ,..., X n ] là vectơ ngẫu nhiên thì

E(CT X )  CT E( X )  CT 
Var (CT X )  CT cov( X )C  CT C.

Nếu C  [cij ]mn là ma trận các hằng số thì
 c11 X1  c12 X 2  ...  c1n X n 
 c X  c X  ...  c X 
2n n 
CX   21 1 22 2


...


cm1 X1  cm 2 X 2  ...  cmn X n 

Khi đó, E (CX )  CE ( X ) , cov(CX )  Ccov( X )CT


9

1.1.3. Phân bố chuẩn nhiều chiều
a. Định nghĩa
Định nghĩa 1.2. Vectơ ngẫu nhiên X  ( X1, X 2 ,..., X p )T được gọi là có
phân bố chuẩn p chiều với tham số T  (1, 2 ,...,  p )T và   [ ij ] p p (   0 ) nếu
X có hàm mật độ xác suất đồng thời  ( x) 

1
(2 ) p /2 |  |1/2

e

1
 ( x   )T 1 ( x   )
2

.

Kí hiệu X ~ N p (; ) .
b. Tính chất
Tính chất 1.1. Nếu X có phân bố chuẩn p chiều N p ( ; ) thì các thành
phần của X là X1 , X 2 ,..., X p có phân bố chuẩn 1 chiều.
Tính chất 1.2. Nếu X có phân bố chuẩn N p ( ; ) thì với mọi
aT  [a1 , a2 ,..., a p ] ta có aT X  a1 X1  a2 X 2  ...  a p X p ~ N (aT ; aT a). Ta cũng có nếu
aT X  a1 X1  a2 X 2  ...  a p X p ~ N (aT ; aT a). với mọi aT  [a1 , a2 ,..., a p ] thì X có

phân bố chuẩn N p ( ; ) .
Tính chất 1.3. Nếu X có phân bố chuẩn N p ( ; ) thì với mọi A  [aij ]n p
ta có AX ~ N ( A; AAT ).
Tính chất 1.4. Nếu  xác định dương thì 1 tồn tại, hơn nữa nếu ( ; e)
là cặp giá trị riêng - vectơ riêng của  thì ( 1; e) là cặp giá trị riêng - vectơ
riêng của 1 .
Tính chất 1.5. Nếu X có phân bố chuẩn p chiều N p ( ; ) thì
  ( X  )T ( X  )

có phân bố  p2 (phân bố khi bình phương p bậc tự do). Do đó, với mức ý nghĩa
 ta có P(( X   )T ( X   )   p2 ( ))  .


10

1.2. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH
1.2.1. Vectơ trung bình mẫu, ma trận hiệp phương sai mẫu
Giả sử x1 , x2 ,..., xn là mẫu được chọn ngẫu nhiên từ tổng thể
X T  [ X1 , X 2 ,..., X p ] , trong đó xiT  [ xi1 , xi 2 ,..., xip ].
 x1T   x11
 T  x
x
Kí hiệu: x   2    21
 ...   ...
 T 
 xn   xn1

x12
x22
...
xn 2

... x1 p 
... x2 p 
.
... ... 

... xnp 

1
n

Đặt: x j  ( x1 j  x2 j  ...  xnj ), j  1, 2,..., p.
sij 

1 n
 ( xki  xi )( xkj  x j ).
n  1 k 1

rij 

sij
sii s jj

.

- Vectơ x T  [ x1 , x2 ,..., x p ] được gọi là vectơ trung bình mẫu.
 s11
s
- Ma trận S   11
 ...

 s p1

s12
s12
...
sp2

... s1 p 
... s1 p 
được gọi là ma trận hiệp phương sai mẫu.
... ... 

... s pp 

 r11 r12
r
r
- Ma trận R   11 12
 ... ...

 rp1 rp 2

... r1 p 
... r1 p 
được gọi là ma trận hệ số tương quan mẫu.
... ... 

... rpp 

Ví dụ 1.2. Cho mẫu số liệu của X T  [ X1 , X 2 ] như sau:
 4 1
 1 3


 3 5

Tìm vectơ trung bình mẫu, ma trận hiệp phương sai mẫu, ma trận hệ số
tương quan mẫu.


11

1.2.2. Phân bố trung bình mẫu
Định lý 1.4. Cho x  [ xij ]n p là mẫu ngẫu nhiên của tổng thể X có phân

n

bố chuẩn p chiều N p ( ; ) . Khi đó x có phân bố chuẩn N p ( ; ) .
Định lý 1.5. (Định lí giới hạn trung tâm). Cho x  [ xij ]n p là mẫu ngẫu
nhiên của tổng thể X có E ( X )   và cov( X )   . Khi đó với n đủ lớn, x có xấp

n

xỉ phân bố chuẩn N p ( ; ) .
1.2.3. Nhận dạng phân bố chuẩn nhiều chiều
Giả sử
 x1T   x11
 T  x
x
21
x 2
 ...   ...
 T 
 xn   xn1

x12
x22
...
xn 2

... x1 p 
... x2 p 
... ... 

... xnp 

là mẫu được chọn ngẫu nhiên của X T  [ X1, X 2 ,..., X p ] .
Dựa vào mẫu số liệu trên để kiểm tra xem X có phân bố chuẩn không.
Sử dụng biểu đồ xác suất chuẩn
Ta có tính chất: nếu X có phân bố chuẩn p chiều N p ( ; ) thì các thành
phần của X là X1 , X 2 ,..., X p có phân bố chuẩn 1 chiều.
Do đó nếu từ biểu đồ xác suất chuẩn của các thành phần x1 , x2 ,..., x p có
thể chấp nhận X1 , X 2 ,..., X p có phân bố chuẩn 1 chiều thì lúc đó ta có thể chấp
nhận X có phân bố chuẩn.
1.2.4. Kiểm định giả thuyết về vectơ trung bình
Định lý 1.6. Cho x  [ xij ]n p là mẫu ngẫu nhiên của tổng thể X có phân
bố chuẩn p chiều N p ( ; ) . Khi đó,


12

(n  p)
p
T2 
( x   )T S 1 ( x   )
(n  1)
n
n( n  p )

( x   )T S 1 ( x   )
p(n  1)

có phân bố Fisher Fp ,n  p .
Ví dụ 1.3. Cho mẫu số liệu của X T  [ X1 , X 2 ] như sau
 6 9
10 6


 8 3

Giả sử X có phân bố chuẩn 2 chiều. Với mức ý nghĩa 5% thực hiện
kiểm định H0 :   0 và H1 :   0 , trong đó 0T  [9,5] .
Giải.
Miền bác bỏ H0 : W  [ f 2,1 (0.05); )  [199.5;  )
Giá trị kiểm định thống kê:
T2 

n(n  p)
( x  0 )T S 1 ( x  0 )  0.19 
 W nên chưa có cơ sở bác bỏ H0 .
p(n 1)

Hoặc tính P-giá trị:
P-giá tri  P( F2,1  0,19)  0,85  0.05.


13

CHƯƠNG 2. PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ PHÂN TÍCH
NHÂN TỐ VỚI PHẦN MỀM MINITAB
2.1. PHÂN TÍCH THÀNH PHẦN CHÍNH

2.1.1. Cấu trúc của các thành phần chính
Cho vectơ ngẫu nhiên p chiều X  ( X1 ,..., X p ) có ma trận hiệp phương
sai cov( X )   và vectơ trung bình   E ( X )  0 .
Xét p tổ hợp tuyến tính
Y1  a1T X  a11 X1  a12 X 2  ...  a1 p X p
Y2  a2T X  a21 X1  a22 X 2  ...  a2 p X p
... ... ...

.

Yp  aTp X  a p1 X1  a p 2 X 2  ...  a pp X p

Ta có
Var (Yi )  aiT ai , cov(Yi , Yj )  aiT a j .

Định nghĩa 2.1. Thành phần chính của vectơ X là các tổ hợp tuyến tính
Y1 , Y2 ,..., Yp sao cho cov(Yi , Yj )  aiT  a j  0 với mọi i  j và các Var (Yi ) lớn nhất

có thể.
Thu hẹp đến các vectơ hằng có chiều dài bằng k
- Thành phần chính thứ nhất là tổ hợp tuyến tính Y1 sao cho Var (Y1 ) đạt
giá trị lớn nhất trên tập {a1 : a1T a1  1} .
- Thành phần chính thứ hai là tổ hợp tuyến tính Y2 sao cho Var(Y2 ) đạt
giá trị lớn nhất trên tập {a2 : a2T a2  1, a1T a2 )  0}
............................................................................
- Thành phần chính thứ k là tổ hợp tuyến tính Yk sao cho Var(Yk ) đạt giá
trị lớn nhất trên tập {ak : akT ak  1, a1T a j )  0,  j  k } .
Định lý 2.1. Nếu ma trận hiệp phương sai  của vectơ X có p cặp giá
trị riêng - vectơ riêng (1; e1 ) , ( p ; e p ) ,,..., ( p ; e p ) sao cho 1  2  ...   p và


14

e1 , e2 ,..., ep là hệ trực chuẩn thì thành phần chính thứ i xác định bởi
Yi  eiT X , i  1, 2,..., p.

Và với việc chọn như vậy ta có phương sai bằng giá trị riêng Var (Yi )  i ;
Yi , Y j không tương quan cov(Yi , Yj )  eiT e j  0 i  j.

Như vậy nếu ta xem X  ( X1; X 2 ;...; X p ) là tọa độ của điểm X trong hệ
trục tọa độ vuông góc với cơ sở trực chuẩn i1 , i2 ,... , i p với ik là vectơ có tọa độ
thành phần thứ k bằng 1 còn tất cả các tọa độ thành phần khác bằng 0 thì
Y  (Y1; Y2 ;...; Yp ) là phép biến đổi sang hệ trục tọa độ mới với hệ trực chuẩn mới

là e1 , e2 ,..., e p .
Định lý 2.2.

p

p

i 1

i 1

Var ( X i )  1  ...  p  Var(Yi ).

Định nghĩa 2.2. Đại lượng

i

1  ...   p

được gọi là tỉ lệ của phương sai

thành phần chính thứ i trong phương sai tổng thể X .
Nếu tổng

1  2  ...  m
 90% thì khi p lớn ta chỉ cần sử dụng m thành
1  ...   p

phần chính đầu tiên này (thay cho p biến ngẫu nhiên) mà không bị mất nhiều
thông tin.
Định lý 2.3. cov(Yi , X k )  eij k ,  (Yi , X k ) 

eik k

 kk

, trong đó eik là tọa độ

thành phần thứ k của ei  (ei1 ,..., eik ,..., eip ) .
Ví dụ 2.1. Cho mẫu số liệu 2 chiều:
X1

2.5

0.5

2.2

1.9

3.1

2.3

2

1

1.5

1.1

X2

2.4

0.7

2.9

2.2

3

2.7

1.6

1.1

1.6

0.9


15

Biểu diễn các điểm có tọa độ trên lên hệ trục tọa độ vuông góc OX 1X 2
ta có:

Hình 3.1. Các điểm có tọa độ trên hệ trục OX 1X 2.
Phương pháp phân tích thành phần chính là hãy đổi sang hệ trục tọa độ
mới OY1Y 2 sao cho hình chiếu các điểm trên lên trục OY1 giữ được nhiều thông
tin nhất.

Hình 3.2. Hình chiếu các điểm trên lên trục OY1Y 2.


16

Ta có phép biến đổi tọa độ từ hệ trục tọa độ OX1 X 2 sang hệ trục tọa độ
mới OYY
1 2 là
Y1  a11 X1  a12 X 2
.

Y

a
X

a
X
 2
21 1
22 2

Từ số liệu của X1 và X 2 ta tính được ma trận hiệp phương sai
0.616556 0.615444
A

0.615444 0.716556

Hai cặp giá trị riêng và vectơ của ma trận trên là
1  1.284 e1T  (0.678;0.735)
2  0.049 e2T  (0.735; 0.678)

.

Vì vậy, ta có:
Y1  0.678 X1  0.735 X 2
.

Y


0.735
X

0.678
X
 2
1
2

1

1  2



1.284
 96%
1.284  0.049

Với cách chọn phép biến đổi tọa độ như trên nếu ta chọn phép chiếu
vuông góc lên trục OY1 thì hình chiếu các điểm trên lên trục OY1 giữ lại được
nhiều thông tin nhất (96%).
Ví dụ 2.2. Cho X  ( X1, X 2 , X 3 ) có ma trận hiệp phương sai:
 1 2 0 
 2 5 0 


 0 0 2

3 cặp giá trị riêng - vectơ riêng của  là:
1  5,83 e1T  (0,383; 0,924;0)
2  2,00 e2T  (0;0;1)
3  0,17 e  (0,924;0,383;0)
T
3

 1  2  3


17

Do đó 3 thành phần chính sẽ là
Y1  0,383 X1  0,924 X 2
Y2  X 3
Y3  0,924 X1  0,383 X 2

 X 3 không tương quan với X1 , X 2

Ta có
1
 0,72875.
1  2  3
.
1  2
 0,9788.
1  2  3

Tức là nếu chỉ giữ 1 thành phần chính Y1 thì Y1 sẽ giữ lại được gần 73%
thông tin ban đầu X1, X 2 , X 3 . Còn nếu giữ 2 thành phần chính Y1 và Y2 thì Y1 và
Y2 sẽ giữ lại được gần 98% thông tin ban đầu X1, X 2 , X 3 .

2.1.2. Các thành phần chính đã chuẩn hóa
Việc tính toán với ma trận hệ số tương quan sẽ ổn định hơn so với việc
tính toán trên ma trận hiệp phương sai. Chính vì vậy ta sẽ chuẩn hóa vectơ ngẫu
nhiên X  ( X1 , X 2 ,..., X p ) : Zi 

X i  i
.
 ii

Đặt Z  (Z1 , Z 2 ,..., Z p ) ta có Z  (V 1/2 )1 ( X   ).

Trong đó, V 1/2









11

0

0

0
...

 22
...

0 ...
.... ....

0

0

0

...

...

0 

0 
... 
 pp 

Khi đó, ta có E ( Z )  0 và
cov( Z )  V 1/2Cov( X   )(V 1/2 )T
 V 1/2CovX (V 1/2 )  V 1/2V 1/2 V 1/2 (V 1/2 )T .
 I   


18

Định lý 2.4. Cho Z  (Z1 ,..., Z p ) là vectơ ngẫu nhiên đã chuẩn hóa có ma
trận hệ số tương quan  . Nếu  có p cặp giá trị riêng - vectơ riêng (1; e1 ) ,...,
( p ; e p )

với 1  ....   p thì thành phần chính của Z

Yi  eiT Z , i  1, 2,..., p. Hơn nữa,

p

Var (Y )  p,
i 1

i

xác định bởi

và  (Yi , Z k )  eik i , trong đó eik

là thành phần tọa độ thứ k của ei .
Ví dụ 2.3. Cho ma trận hiệp phương sai của X T  [ X1 , X 2 ] như sau
1 4 
  Cov( X )  

 4 100

a) Tìm thành phần chính đối với ma trận hiệp phương sai.
b) Tìm thành phần chính đối với ma trận hệ số tương quan.
2.1.3. Phân tích thành phần chính dựa trên 1 mẫu
 x1T   x11
 T  x
x
Giả sử x   2    21
 ...   ...
 T 
 xn   xn1

x12
x22
...
xn 2

... x1 p 
... x2 p 
là mẫu được chọn ngẫu nhiên của
... ... 

... xnp 

X T  [ X1 , X 2 ,..., X p ] .

Ta nhắc lại trung bình mẫu là x  ( x1 ,..., x p ) , hiệp phương sai mẫu là
S  ( sij ) p p .

Giả sử thành phần chính của ( X1 , X 2 ,..., X p ) là
Y1  a1T X  a11 X 1  a12 X 2  ...  a1 p X p
Y2  a2T X  a21 X 1  a22 X 2  ...  a2 p X p
... ... ...

.

Yp  aTp X  a p1 X 1  a p 2 X 2  ...  a pp X p

Mục đích của mục này là tìm ước lượng thành phần chính Y1 , Y2 ,..., Yp dựa
trên ước lượng vectơ trung bình E ( X ) là x và ước lượng ma trận hiệp phương
sai cov( X ) là S .


19

Với a1T  (a11, a12 ,..., a1p ) 

p

, xét các tổ hợp tuyến tính

a1T xi  a11 xi1  a12 xi 2  ...  a1 p xip , i  1, 2,..., n.

Khi đó (a1T x1 ,..., a1T xn ) là một quan sát của biến ngẫu nhiên aT X nên ước
lượng E (a1T X ) là trung bình mẫu aT x và ước lượng phương sai Var (a1T X ) là
aT Sa .

Hơn nữa, với a1T , a2T 

p

hai biến ngẫu nhiên (a1T X ) và (a2T X ) có ước

lượng hiệp phương sai là phương sai mẫu aT Sb .
Vì vậy, các thành phần chính của ( X1 ,..., X p ) dựa trên mẫu x được định
nghĩa như sau:
- Ước lượng thành phần chính thứ nhất là tổ hợp tuyến tính của Yˆ1  a1T X
sao cho a1T Sa1 đạt lớn nhất trên {a1 

p

: a1T a1  1} ..

- Ước lượng thành phần chính thứ hai là tổ hợp tuyến tính của Yˆ2  a2T X
sao cho a2T Sa2 đạt lớn nhất trên {a1 

p

: a1T a1  1, a1T Sa2  0} .

..............................................................
- Ước lượng thành phần chính thứ p là tổ hợp tuyến tính của Yˆp  a1T X
sao cho aTp Sa p đạt lớn nhất trên {a p 

p

: aTp a p  1 và aTp Sai  0, i  p}.

Định lý 2.5. Nếu ma trận hiệp phương sai mẫu S có p cặp giá trị riêng
- vectơ riêng (ˆ1 , eˆ1 ) ,..., (ˆp , eˆ p ) với ˆ1  ˆ2  ...  ˆp . Khi đó ước lượng thành phần
chính dựa trên mẫu x là Yˆi  eˆiT X , i  1, 2,..., p.
Hơn nữa, ước lượng phương sai và hiệp phương sai là
Var (Yˆi )  i , cov(Yˆi , Yˆj )  0 i  j.

Ước lượng phương sai tổng cộng:

p

Var ( X )  ˆ  ˆ
i 1

i

1

2

 ...  ˆp .


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×