Tải bản đầy đủ

ỨNG DỤNG hồi QUY bán THAM số

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN TRỌNG VINH

ỨNG DỤNG HỒI QUY BÁN THAM SỐ
TRONG KHOA HỌC XÃ HỘI
Chuyên ngành : TOÁN ỨNG DỤNG
Mã số: 604636

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, 15 tháng 06 năm 2013

1


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS. Tô Anh Dũng.............................................
....................................................................................................................................

....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
Cán bộ chấm nhận xét 1:..........................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
Cán bộ chấm nhận xét 2 :..........................................................................................
...................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày . . . . . tháng . . . . năm . . . . . Thành phần Hội đồng đánh giá luận văn thạc sĩ
gồm:
1. ...............................................................
2. ..............................................................
3. ..............................................................
4. ..............................................................
5. ..............................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa .
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA

2


ĐẠI HỌC QUỐC GIA TPHCM

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập – Tự do – Hạnh phúc

Tp. HCM, ngày 15 tháng 06 năm 2013.


NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN TRỌNG VINH

MSHV: 11240508

Ngày, tháng, năm sinh: 08 – 04 – 1986

Nơi sinh: Vĩnh Long

Chuyên ngành: Toán Ứng Dụng

Mã số : 604636

I. TÊN ĐỀ TÀI:
HỒI QUY BÁN THAM SỐ VÀ ỨNG DỤNG

II. NHIỆM VỤ VÀ NỘI DUNG:

III. NGÀY GIAO NHIỆM VỤ : 08/ 2012
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 06/ 2013
V. CÁN BỘ HƯỚNG DẪN PGS.TS. Tô Anh Dũng
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

PGS.TS. Tô Anh Dũng
TRƯỞNG KHOA:...............

3


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc của mình tới Thầy hướng dẫn – PGS.TS
Tô Anh Dũng – Trưởng bộ môn Xác suất thống kê, Đại học Khoa học tự nhiên –
Đại học Quốc Gia Tp. Hồ Chí Minh, người đã luôn khuyến khích, quan tâm giúp
đỡ, truyền đạt kiến thức và tạo mọi điều kiện thuận lợi giúp tôi hoàn thành luận
văn tốt nghiệp này.
Tôi xin bày tỏ lòng biết ơn chân thành đến tập thể Thầy, Cô giáo bộ môn Toán
ứng dụng – Khoa Khoa học Ứng Dụng, phòng Đào Tạo Sau Đại Học – trường Đại
học Bách Khoa – Đại học Quốc Gia Tp.Hồ Chí Minh đã tận tình dạy dỗ, giúp đỡ,
truyền đạt cho tôi trong suốt khóa học.
Tôi xin gửi lời cảm ơn đến tập thể anh chị lớp Cao học khoá 2009 đã giúp đỡ,
chia sẽ, động viên tôi vượt qua những khó khăn trong suốt quá trình học tập.
Cuối cùng tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình đã luôn khích lệ và
giúp đỡ tôi trong suốt thời gian học tập vừa qua.

Nguyễn Trọng Vinh

4


TÓM TẮT
Luận văn gồm bốn chương. Trong chương 1, trình bày một số phương pháp
phân tích hồi quy tham số: hồi quy đơn biến, hồi quy đa biến. Trong chương này
cũng trình bày một số kiến thức cơ bản về phương pháp bình phương cực tiểu, ước
lượng, kiểm định tham số. Trong chương 2, trình bày về mô hình hồi quy phi tham
số bao gồm:một số phương pháp làm trơn, phương pháp Sline phạt, mô hình cộng.
Trong chương 3, trình bày mô hình hồi quy bán tham số, ước lượng trong mô hình
hồi quy bán tham số. chương 4 nêu 2 ví dụ thể hiện tính tối ưu của mô hình hồi
quy bán tham số số với mô hình hồi quy tham số và phi tham số.

5


MỤC LỤC
Lời cảm ơn
Tóm tắt
Mục lục
Mở đầu
1. Tính cấp thiết của đề tài
2. Mục tiêu
3. Nội dung nghiên cứu
4. Phương pháp nghiên cứu
Chương 1: Hồi quy tham số .....................................................................................1
1.1 Phân tích hồi quy..................................................................................... .1
1.2 Mô hình hồi quy đơn biến..........................................................................1
1.2.1 Hồi quy tổng thể ..............................................................................1
1.2.2 Hàm hồi quy mẫu .............................................................................1
1.2.3 Ước lượng và kiểm định giả thuyết mô hình hồi quy đơn biến.........2
1.2.3.1 Phương pháp bình phương cực tiểu .........................................2
1.2.3.2 Các giả thuyết của phương pháp bình phương cực tiểu ..........4
1.2.3.3 Phương sai và sai số chuẩn của các ước lượng ......................7
1.2.3.4 Hệ số xác định và hệ số tương quan ........................................7
1.2.3.5 Phân phối xác suất của các ước lượng ....................................9
1.2.3.6 Khoảng tin cậy của  0 , 1 và  2 ..............................................9
1.2.3.6.1 Khoảng tin cậy của 1 ................................................9
1.2.3.6.2 Khoảng tin cậy của  0 ...............................................10
1.2.3.6.3 Khoảng tin cậy của  2 ................................................10
1.2.3.7 Kiểm định giả thuyết về các hệ số hồi quy ............................10
1.3 Mô hình hồi quy tuyến tính k biến ..............................................................11
1.3.1 Hàm hồi quy tổng thể .........................................................................11
1.3.2 Các giả thuyết .....................................................................................11

6


1.3.3 Ước lượng các tham số .......................................................................12
1.3.4 Hệ số xác định hồi quy bội .................................................................13
1.3.5 Ma trận tương quan ............................................................................13
1.3.6 Ma trận hiệp phương sai ....................................................................14
1.3.7 Khoảng tin cậy và kiểm định giả thuyết ............................................15
Chương 2. Hồi quy phi tham số .................................................................................16
2.1 Làm trơn đơn giản ......................................................................................17
2.1.1 Phương pháp trung bình trượt ...........................................................17
2.1.2 Xấp xỉ cơ bản ....................................................................................17
2.1.3 Tính thống nhất và tốc độ hội tụ .......................................................18
2.1.4 Chuẩn tiệm cận và khoảng tin cậy ....................................................19
2.1.5 Ma trận làm trơn ...............................................................................19
2.2 Làm trơn hạt nhân ........................................................................................20
2.2.1 Ước lượng ..........................................................................................20
2.2.2 Tiệm cận chuẩn ..................................................................................21
2.2.3 So sánh với làm trơn trung bình trượt ................................................22
2.2.4 Khoảng tin cậy ...................................................................................22
2.2.5 Đồng nhất dãy tin cậy ........................................................................22
2.3 Phương pháp Sline phạt ...............................................................................23
2.3.1 Ý tưởng ...............................................................................................23
2.3.2 Chọn số knot và vị trí knot .................................................................27
2.3.3 Hồi quy spline phạt ............................................................................27
2.3.4 Cơ sở Spline bậc hai ...........................................................................28
2.4 Mô hình cộng ...............................................................................................28
Chương 3: Hồi quy bán tham số ................................................................................31
3.1 Mô hình hồi quy bán tham số .....................................................................31
3.2 Ước lượng ...................................................................................................32
3.3 Kết luận .......................................................................................................35
3.3.1 Độ tin cậy và sai số chuẩn ..................................................................36
7


3.3.2 Kiểm định giả thuyết .........................................................................37
Chương 4: Một số ứng dụng của hồi quy bán tham số .............................................40
4.1 Bài toán 1 ...................................................................................................40
4.2 So sánh giữa hồi quy tham số, phí tham số và bán tham số ...................... 41
4.3 Bài toán 2 ...................................................................................................42
Kết luận .....................................................................................................................46
Phụ lục A: Các số liệu trong luận văn .......................................................................47
Phụ lục B: Các thuật toán ..........................................................................................52
Tài liệu tham khảo .....................................................................................................54

8


MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong các ngành khoa học thì hồi quy được ứng dụng rộng rãi. Hai mô hình
thường được sử dụng là hồi quy tham số và hồi quy phi tham số. Trong đó, hồi
quy tham số được dùng nhiều hơn. Tuy nhiên, trong một số trường hợp, hồi quy
tham số không đưa ra được mối tương quan phù hợp với dữ diệu, khi đó người ta
cần dùng đến mô hình hồi quy phi tham số. Nhưng khi hồi quy phi tham số phù
hợp với dữ liệu thì bậc của đường cong lớn, khó dự đoán các kết quả từ mô hình.
Sự kết hợp giữa hồi quy tham số và phi tham số là một sự cần thiết.
Hồi quy bán tham số là cầu nối giữa hai mô hình hồi quy tham số và phi tham
số. Cho phép chúng ta làm tốt cả hai việc phân tích hồi quy tham số và phi tham
số, giúp làm giảm bớt sự phức tạp của bộ dữ liệu, giúp chúng ta có thể hiểu vấn đề
dễ dàng hơn, tìm ra mối tương quan phù hợp với bộ dữ liệu.
Hồi quy bán tham số không có nghĩa là tìm ra những mô hình mới thay thế cho
những mô hình cũ, mà chủ yếu đó là sự mở rộng những mô hình thống kê chuẩn
để giải quyết một số vấn đề khoa học.
2. Mục tiêu
Nghiên cứu các mô hình hồi quy trong phân tích thống kê nhƣ hồi quy tham số,
hồi quy phi tham số, hồi quy bán tham số.
3. Nội dung nghiên cứu

4. Phương pháp nghiên cứu
m hiểu cơ sở lý thuyết và thực tiễn.

9


quy.
Chương 1. HỒI QUY THAM SỐ
1.1.Phân tích hồi quy:
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến( biến phụ thuộc)
vào một hay nhiều biến khác( các biến giải thích), với ý tưởng là ước lượng( hay
dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của
các biến giải thích.
1.2. Mô hình hồi quy đơn biến:
1.2.1. Hồi quy tổng thể:
Hàm hồi quy tổng thể có dạng: E(Y/Xi) = f(Xi).
Hàm hồi quy tổng thể cho biết giá trị trung bình của biến phụ thộc Y sẽ thay
đổi như thế nào khi biến độc lập X nhận các giá trị khác nhau.
Xét trường hợp đơn giản, hàm hồi quy tổng thể có dạng tuyến tính:
E Y / X i   0  1 X i

( 1.1)

Trong đó:  0 , 1 là các tham số chưa biết nhưng cố định và gọi là hệ số hồi quy.
Giá trị quan sát thứ i của biến phụ thuộc Y kí hiệu là Yi.
Kí hiệu Ui là đại lượng chênh lệch giữa Yi và E(Y/Xi).
Ui = Yi - E(Y/Xi)
Hay:

Yi = E(Y/Xi)+ Ui =  0  1 X i  U i

Ui gọi là sai số ngẫu nhiên, đại diện cho sự ảnh hưởng của của các yếu tố khác
mà không được đưa vào biến giải thích.
1.2.2. Hàm hồi quy mẫu:
Trong thực tế, nhiều khi không có điều kiện điều tra toàn bộ tổng thể. Khi đó
chỉ có thể ước lượng giá trị trung bình của biến phụ thuộc từ số liệu của mẫu. Hàm
hồi quy được xây dựng trên cơ sở một mẫu được gọi là hàm hồi quy mẫu.
Việc ước lượng hàm hồi quy tổng thể bằng hàm hồi quy mẫu phải thỏa điều
kiện: tuyến tính, không chệch, có phương sai nhỏ nhất.
10


Nếu hàm hồi quy tổng thể có dạng tuyến tính thì hàm hồi quy mẫu có dạng:
Yˆi  ˆ0  ˆ1 X i

(1.2)

Trong đó: Yˆi là ước lượng điểm của E(Y/Xi);
ˆ0 là ước lượng điểm của 0 ; ˆ1 là ước lượng điểm của 1

Dạng ngẫu nhiên của (1.2) là:
Yi  ˆ0  ˆ1 X i  ei

Trong đó, ei là ước lượng điểm của Ui và gọi là phần dư.
1.2.3. Ước lượng và kiểm định giả thuyết mô hình hồi quy đơn biến:
1.2.3.1. Phương pháp bình phương cực tiểu:
Để tìm hàm Yˆi  ˆ0  ˆ1 X i ta dùng phương pháp bình phương cực tiểu hoặc
OLS( Ordinary Least Square) như sau:
Giả sử có một mẫu gồm n cặp quan sát (Yi,Xi), i  1, n . Theo phương pháp bình
phương cực tiểu tìm Yˆi sao cho nó càng gần với giá trị thực Yi càng tốt, tức phần
dư:
ei  Yi  Yˆi  Yi  ˆ0  ˆ1 X i càng nhỏ càng tốt.

Do ei ( i  1, n ) có thể dương, có thể âm nên ta cần tìm hàm hồi quy mẫu sao cho
tổng bình phương của các phần dư đạt cực tiểu. Tức ˆ0 , ˆ1 phải thỏa điều kiện

e  
n

i 1

n

2
i

i 1

Yi  ˆ0  ˆ1 X 1



2

 min

(*)

Điều kiện (*) có nghĩa là tổng các bình phương các sai lệch giữa giá trị thực tế

 

quan sát được ( Yi ) và giá trị tính theo hàm hồi quy mẫu Yˆi là nhỏ nhất.
Do Yi, Xi ( i  1, n ) đã biết, nên

n

n

i 1

i 1





2

 ei2   Yi  ˆ0  ˆ1 X i là hàm của ˆ0 , ˆ1 . Vì vậy

ta cần tìm ˆ0 , ˆ1 sao cho:
n



f( ˆ0 , ˆ1 ) =  Yi  ˆ0  ˆ1 X i
i 1

11



2

 min


+ ˆ0 , ˆ1 .là nghiệm của hệ phương trình sau:



 f ˆ0 , ˆ1


ˆ0


 f ˆ0 , ˆ1

ˆ1









n



  2 Yi  ˆ0  ˆ1 X i (1)  0
i 1



 2 Y
n

i

i 1



 ˆ0  ˆ1 X i (  X i )  0

Hay:
n
n
 ˆ
ˆ
n



X

Yi

1
i
 0

i 1
i 1

n
n
n
2
 ˆ
ˆ
X


X

X iYi

0
i
1
i

i 1
i 1
i 1


Giải hệ này ta được:
n

ˆ1 

XY
i 1
n

i

i

 n X .Y

 

X n X
i 1

2
i

ˆ0  Y  ˆ1 X

(1.3)

2

(1.4)

+ Xét điều kiện đủ:
Ta có ma trận Hessian như sau:

f
H   ''
 f ˆ ˆ
 10

''
ˆ0 ˆ0

Với

f

''
ˆ0 ˆ1

f ˆ'' ˆ

1 1

n

2 X i
  2n
i 1

n
  n
  2 X i 2 X i2
i 1
 i 1








(1.5)

H1  f ˆ'' ˆ  2n  0
0

0

2
 n 2  n
 
 n
H 2  H  4  n X i    X i    4n  X i2  n X
 i 1
 
 i 1
 i 1

 

Trong đó, xi  X i  X ;

2

n


4
n
xi2  0


i 1


yi  Yi  Y .

Ma trận H xác định dương nên ( ˆ0 , ˆ1 ) xác định bằng công thức (1.3), (1.4) là
điểm cực tiểu của hàm f( ˆ0 , ˆ1 ).
12


Ta có thể tính ˆ1 bằng công thức:
n

ˆ1 

x
i 1
n

i

yi
(1.6)

 xi2
i 1

1.2.3. 2. Các giả thuyết của phương pháp bình phương cực tiểu:
+ Giá trị của biến giải thích Xi là các số đã được xác định.
+ Kỳ vọng của các yếu tố ngẫu nhiên Ui bằng 0, tức là:
E U i / X i   0 .

+ Các Ui có phương sai bằng nhau
var U i / X i   var U j / X i    2

i  j

+ Không có sự tương tác giữa các Ui:
Cov( Ui,Uj ) = 0

i  j .

+ Ui và Xi không tương quan với nhau:
Cov(Ui,Xi) = 0.
Định lý Gauss – Markov: Với 5 giả thiết trên của phương pháp OLS, các ước
lượng của phương pháp bình phương nhỏ nhất sẽ là các ước lượng tuyến tính,
không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không
chệch.
Đối với hàm hai biến, theo định lý trên thì ˆ0 , ˆ1 tương ứng là các ước lượng
tuyến tính, không chệch và có phương sai nhỏ nhất của  0 , 1 .
Chứng minh:
1) Chứng minh ˆ0 , ˆ1 là hàm tuyến tính của biến ngẫu nhiên Y.

13


n

n



ˆ1 

xi yi

i 1
n

x

i 1





n

 xiYi



n

x

2
i

i 1

Ta có:





xi Yi  Y

i 1
n

x

2
i

i 1

n



2
i

i 1

Y  xi
i 1
n

x
i 1

n



 xY
i

i 1
n



i




i 1

2
i

x

i 1

Yi 

n



2
i

x

n

kY
i

i 1

i

i  1, n 

n

x
i 1

xi
i 1

xi

Trong đó, ki 

n

2
i

Tức là ˆ1 là hàm tuyến tính của Y.
ˆ0  Y  ˆ1 X 

n
n
1 n
1

Y

X
k
Y




i
i i
  X .ki  Yi
n i 1

i 1
i 1  n

Vậy ˆ0 cũng là hàm tuyến tính của Y.
2) Chứng minh ˆ0 , ˆ1 là không chệch của  0 , 1 :
n

n

n

n

n

i 1

i 1

i 1

i 1

i 1

n

n

ˆ0   kiYi   ki   0  1 X i  U i    0  ki  1  ki X i   kiU i

Ta có:

k  
i 1

i

i 1

xi



n

x
i 1

2
i

n

x
i 1

n

n

i 1

i 1

n

1



x

2 i 1
i

0

i



n

n

i 1

i 1

 ki X i   ki xi  X  X  ki   ki xi  0  1  1
Vậy:
n

ˆ1  ˆ1   kiU i
i 1

 

n

E ˆ1  1   ki E (U i )  1
i 1

Tức ˆ1 là ước lượng không chệch của 1 .

14

2
i




n
n
1

1

ˆ
 0     X ki    0  1 X i  U i      0   0 X ki 


i 1  n
i 1  n
n
n
n
X
1

  1 i  1 X  ki X i     X ki U i
n

i 1
i 1
i 1  n

1

  0     X ki U i

i 1  n
n

3) Có phương sai nhỏ nhất:
ˆ1 có phương sai nhỏ nhất:
2
var ˆ1  n
 xi2

 

n

ˆ1   kiYi ;
i 1

i 1

Giả sử rằng ˆ1* là ước lượng tuyến tính không chệch của 1 .
n

ˆ1*   WiYi
i 1

 

n

n

n

n

i 1

i 1

i 1

i 1

 E ˆ1*   Wi E Yi    Wi E   0  1 X i   0  Wi  1  Wi X i

 

Do ˆ1* là ước lượng tuyến tính không chệch nên E ˆ1* = 1
n

Cho nên:

n

 Wi  0;

W X

i 1

i 1

i

i

1

n
 n
 n 2
2
var ˆ1*  var  WY

W
var
Y


Wi 2




i i
i
i
i 1
 i 1
 i 1

 

 

var ˆ1*


n 
x
x
  2   Wi  n i  n i
i 1 
xi2  xi2


i 1
i 1

2








(Vì var(Yi) = var(Ui) =  2 ).

2

n





xi2




n 
n 
x
xi
xi 
2




  2   Wi  n i    2 i 1

2

W


i
2
n
n
n
2 
2
2



i 1 
i

1


xi 
xi    xi 


xi2 




i 1
i 1



  i 1 
 i 1 

15


2



n 
x 
2
2
  2   Wi  n i   n
 n
 var ˆ2
i 1 
xi2   xi2  xi2


i 1
i 1
i 1



 

Điều này chứng tỏ ˆ1 có phương sai nhỏ nhất trong các ước lượng tuyến tính
không chệch của 1 . Tương tự, cũng chứng minh được ˆ0 có phương sai nhỏ nhất
trong các ước lượng tuyến tính không chệch của  0 .
1.2.3.3. Phương sai và sai số chuẩn của các ước lượng:
Với giả thuyết của phương pháp bình phương cực tiểu, phương sai và độ lệch
chuẩn của các ước lượng được cho bởi công thức sau:
n

 

var ˆ0 

X
i 1
n

2
i

x

 

 

 

se ˆ0  var ˆ0

;

se ˆ1  var ˆ1

2
i

i 1

 

2 ;

2
var ˆ1  n
 xi2

 

i 1

Trong đó:  2  var(U i ) ;

se: sai số chuẩn( standard error).

Trong các công thức trên, nếu  2 chưa biết thì  2 được ước lượng bằng ước
lượng không chệch của nó là ˆ 2
n

ˆ 2 

e
i 1

2
i

n2

ˆ  ˆ 2

;

là sai số chuẩn của hồi quy.

1.2.3. 4. Hệ số xác định và hệ số tương quan:
Kí hiệu:

n



TSS   Yi  Y
i 1

  Y
2

n

2

i

i 1

 

 n. Y

2

(1.7)

TSS ( Total Sum of Squares) là tổng bình phương của tất cả các sai lệch giữa các
giá trị quan sát Yi với giá trị trung bình của chúng.
n



ESS   Yˆi  Y
i 1

   ˆ   x
2

2

1

n

i 1

2
i

16

(1.8)


ESS (Explained Sum of Squares) là tổng bình phương tất cả các sai lệch giữa
giá trị của biến Y tính theo hàm hồi quy mẫu với giá trị trung bình. Phần này đo độ
chính xác của hàm hồi quy.
n

n

i 1

i 1



RSS   ei2   Yi  Yˆ



2

(1.9)

RSS( Residual Sum of Squares) ) là tổng bình phương tất cả các sai lệch giữa giá
trị quan sát của biến Y và các giá trị nhận được từ hàm hồi quy mẫu.
Khi đó:

TSS = ESS + RSS

(1.10)

ESS
TSS

(1.11)

Định nghĩa: R 2 

Đại lượng R2 gọi là hệ số xác định ( coefficient of determination) và được sử dụng
để đo mức độ phù hợp của hàm hồi quy.
Nếu R2 = 1 thì đường hồi quy phù hợp hoàn hảo, tất cả các sai lệch của Y ( so
với giá trị trung bình) đều giải thích được bởi mô hình hồi quy. Nếu R2 = 0 chứng
tỏ X và Y không có quan hệ.
Hệ số tương quan:
Hệ số tương quan r là số đo mức độ chặt chẽ của quan hệ tuyến tính giữa X và Y
và được xác định bởi công thức:

 X
n

r

i 1

 X
n

i 1

i

i



 X Yi  Y

X



  Y  Y 
n

2

i 1

2

i

(1.12)

Hay :
n

r

x y
i

i 1

n

i

n

x y
2

i 1

i

2

i 1

r =  R2

17


1.2.3.5. Phân phối xác suất của các ước lượng:
Phân tích hồi quy không chỉ là suy đoán về  0 , 1 mà còn kiểm tra bản chất
của sự phụ thuộc, còn phải thực hiện các dự đoán khác. Do vậy cần phải biết phân
phối xác suất của ˆ0 , ˆ1 . Các phân phối này phụ thuộc vào phân phối của các Ui.
Giả thiết: Ui có phân phối N  0,  2  .
Với những giả thuyết đã nêu, các ước lượng ˆ0 , ˆ1 và ˆ 2 có các tính chất sau:
+ Là ước lượng không chệch.
+ Có phương sai cực tiểu.
+ Khi số quan sát đủ lớn thì các ước lượng này xấp xỉ với giá trị thực của phân
phối.
+ ˆ0



N  0 ,  2ˆ

0



từ tính chất này suy ra Z 

ˆ0   0
 ˆ

N  0,1 .

0

+ ˆ1



N 1 ,  2ˆ

1



từ tính chất này suy ra Z 

ˆ1  1
 ˆ

N  0,1 .

1

+

 n  2  ˆ 2

+ Yi

2

N  0,1 .

N  0  1 X i ,  2  .

Với các tính chất trên, ta có thể tìm khoảng tin cậy và kiểm định giả thiết về các
tham số hồi quy.
1.2.3.6. Khoảng tin cậy của  0 , 1 và  2
1.2.3.6.1 Khoảng tin cậy của 1 :
Với hệ số tin cậy 1   , khoảng tin cậy của 1 là :

 

ˆ1  t /2 .se ˆ1

Trong đó, t / 2 là giá trị của đại lượng ngẫu nhiên T có phân phối Student có bậc
tự do (n-2) sao cho P  T  t /2    .

18


1.2.3.6.2 Khoảng tin cậy của  0 :
Với hệ số tin cậy 1   , khoảng tin cậy của  0 là :

 

ˆ0  t /2 .se ˆ0 .

1.2.3.6.3 Khoảng tin cậy của  2
Với hệ số tin cậy 1   , khoảng tin cậy của  2 là :
 (n  2)ˆ 2
(n  2)ˆ 2 
2
P



  1
2
2


 /2
1 /2



1.2.3.7. Kiểm định giả thuyết về các hệ số hồi quy:
Kiểm định giả thuyết 1 :
Loại giả thuyết

Giả thuyết H0 Giả thuyết H1

Miền bác bỏ

Hai phía

1  1*

1  1*

t  t /2

Phía phải

1  1*

1  1*

t  t

Phía trái

1  1*

1  1*

t  t

Kiểm định giả thuyết  0 :
Loại giả thuyết

Giả thuyết H0 Giả thuyết H1

Miền bác bỏ

Hai phía

 0   0*

 0   0*

t  t /2

Phía phải

 0   0*

 0   0*

t  t

Phía trái

 0   0*

 0   0*

t  t

Kiểm định giả thuyết  2
Loại giả thuyết
Hai phía

Giả thuyết H0 Giả thuyết H1
 2   02

 2   02

Miền bác bỏ
 2   2 /2

hoặc
Phía phải

 2   02

 2   02

 2   21 /2

Phía trái

 2   02

 2   02

 2  2

 2   21 /2

19


1.3. Mô hình hồi quy tuyến tính k biến:
1.3.1. Hàm hồi quy tổng thể:
Hàm hồi quy tổng thể trong trường hợp k biến có dạng:
Yi   0  1 X 1i   2 X 2i  ...   k X ki  U i

(1.13)

Trong đó,  0 là hệ số tự do,  j ( j  1, 2,..., k ) là các hệ số hồi quy riêng.
Giả sử, có n quan sát, mỗi quan sát gồm k giá trị ( Yi, X1i,…,Xki), i = 1,2,…,n. Khi
đó:

Y1   0  1 X 11   2 X 21  ...   k X k1  U1
Y     X   X  ...   X  U
 2
0
1 12
2 22
k k2
2

.................................................................
Yn   0  1 X 1n   2 X 2 n  ...   k X kn  U n

(1.14)

Kí hiệu:
 0 
U1 
 
U 
1 

; 
; U   2
... 
... 
 
 
U n 
k 

Y1 
Y 
Y   2
... 
 
Yn 
1

1
X 
...

1


X 11 X 21 .... X k 1 

X 12 X 22 .... X k 2 
.... ..... .... X 31 

X 1n X 2 n .... X kn 

Khi đó, hệ phương trình trên viết lại dưới dạng ma trận như sau:
Y  X  U

(1.15)

1.3.2. Các giả thuyết:
+ E(Ui) = 0 (i)
0

+ E (U i ,U j )   2


i j
i j

hay E (UU T )   2 I

+ X1, X2,…, Xk đã được xác định hay ma trận X đã được xác định.
20


+ Không có hiện tượng cộng tuyến giữa các biến giải thích hay hạng của ma
trận X bằng k.
+ Ui

N (0,  2 )

1.3.3. Ước lượng các tham số:
Hàm hồi quy mẫu có dạng:
Y  X ˆ  e

(1.16)

Trong đó:
 ˆ0 
 
 ˆ 
ˆ   1 
... 
 ˆ 
 k

e1 
e 
e   2   Y  X ˆ
... 
 
en 

;

Theo phương pháp bình phương nhỏ nhất, các hệ số ˆ0 , ˆ1 ,..., ˆk được chọn sao
cho tổng bình phương của các phần dư (RSS) nhỏ nhất, tức là:

e  
n

n

i 1

n

e
i 1

2
i

2
i

i 1

Yi  ˆ0  ˆ1 X 1i  ...  ˆk X ki



2

 min

 eT e  (Y  X ˆ )T (Y  X ˆ )  (Y T  ˆ T X T )(Y  X ˆ )
 Y T Y  ˆ T X T Y  Y T X ˆ  ˆ T X T X ˆ  Y T Y  2ˆ T X T Y  ˆ T X T X ˆ

Hệ phương trình chuẩn có dạng:
(eT e)
0
ˆ

ˆ  ( X T X )1 X T Y . Trong đó, ma trận (XTX) có dạng như sau:

Vậy:

n

 n
X
X T X   i 1 1i

...
 n
 X
ki
 
i 1

 ( X T X ) ˆ  X T Y

n

n

 X 1i
i 1

n

 X 12i

X

i 1

i 1

...
i 1

1i

X 2i

...

n

X

...

i 1

n

n

ki

X 1i

X
i 1

ki



i 1

n

...  X 1i X ki 
i 1

... ....


n
2
...  X ki 

i 1
n

 X 2i

X 2i

X

21

ki

(1.17)


1.3.4. Hệ số xác định hồi quy bội:
R2 

ESS
TSS

Trong đó: TSS  Y T Y  n Y  ;

 

2

ESS  ˆ T X T Y  n Y

2

Hay :

R2 

n

n

n

i 1

i 1

ˆ1  yi x1i ˆ2  yi x2i ...  ˆk  yi xki
i 1

n

 yi2

(1.18)

i 1

n

ESS
ESS
 1
 1
TSS
TSS

R2 

Ta có:

e
i 1
n

y
i 1

n

n





2
i

2
i



n

 e   ei Yi  Yˆi   ei Yi  ˆ0  ˆ1 X 1i  ...  ˆk X ki
i 1

2
i

i 1
n

i 1











n

  ei yi  ˆ1 x1i  ...  ˆk xki   ei yi
i 1
n

  yi yi  ˆ1 x1i  ...  ˆk xki
i 1
n

n

i 1

i 1

i 1

n

n

  yi2  ˆ1  yi x1i  ˆ2  yi x2i  ...  ˆk  yi xki
i 1

n

R2  1 

RSS

TSS

n

 yi2  ei2
i 1

i 1

n

y
i 1



i 1

n

n

n

i 1

i 1

ˆ1  yi x1i  ˆ2  yi x2i  ...  ˆk  yi xki
i 1

n

y

2
i

i 1

2
i

1.3.5. Ma trận tương quan:
Giả sử có mô hình hồi quy bội:
Yi  ˆ0  ˆ1 X1i  ˆ2 X 2i  ...  ˆk X ki  Ui
22

(1.20)

(1.19)


Kí hiệu rtj là hệ số tương quan giữa biến thứ t và biến thứ j. Nếu t = 1 thì r1j là hệ
số tương quan giữa biến Y và biến Xj.
 n

  yi x1 j 
 ;
r1 j   i 1
n

n

 n

  xti x ji 

rtj   i 1
n

n

i 1

i 1

i 1

i 1

 yi2  x2ji

 xti2  x 2ji

Trong đó: xji = X ji  X j ;

rtj  rjt ;

rjj  1

Ma trận hệ số tương quan có dạng:
1
r
R   21
....

 rk1

r1k 
1 .... r2 k 
.... .... .... 

rk 2 .... 1 
r12 ....

(1.21)

1.3.6. Ma trận hiệp phương sai:
Ma trận hiệp phương sai của ˆ có dạng tổng quát như sau:
 var( ˆ0 )
cov( ˆ0 , ˆ1 ) .... cov( ˆ0 , ˆk ) 


ˆ , ˆ ) var( ˆ )
ˆ , ˆ ) 
cov(

....
cov(


1
0
1
1
k
cov( ˆ )  

....
....
....
....


cov( ˆ , ˆ ) cov( ˆ , ˆ ) .... var( ˆ )

k
0
k
1
k



(1.22)

Để tìm cov( ˆ ) áp dụng công thức
1
cov( ˆ )   2  X T X 

(1.23)

 2 là phương sai của sai số ngẫu nhiên Ui nhưng chưa biết nên ta dùng ước

lượng không chệch của nó là ˆ 2
ˆ 2 

RSS
nk

(1.24)

Trong đó k là số biến của mô hình.

23


1.3.7. Khoảng tin cậy và kiểm định giả thuyết:
ˆ j có phân phối chuẩn với kì vọng  j và phương sai là var( ˆ j )

var( ˆ j ) =  2c jj

( j  0,1, 2,..., k )

(1.26)

cjj là phần tử nằm trên dòng j và cột j của ma trận (XTX)-1.
Tuy nhiên, do  2 chưa biết nên ta phải dùng ước lượng không chệch của nó là
ˆ 2 

RSS
nk

(1.27)

Khi đó:
T

ˆ j   j
se( ˆ j )

T (n  k )

(j  0,1, 2,..., k )

(1.28)

Với tiêu chuẩn này, ta tìm khoảng tin cậy và kiểm định giả thuyết về các hệ số
hồi quy riêng. Chẳng hạn, để tìm khoảng tin cậy của  j ( j = 0,1,2,…,k) với hệ số
tin cậy 1   , ta áp dụng công thức:
ˆ j  t /2 (n  k ) se( ˆ j ) .

(1.29)

Kiểm định giả thuyết H0:  j   j0 ( j  0,1, 2,..., k ) ta dùng thống kê:
t

ˆ j   j0
se( ˆ j )

(j  0,1, 2,..., k )

(1.30)

Tùy theo giả thuyết H1, ta có miền bác bỏ sau:
Loại giả thuyết

Giả thuyết H0 Giả thuyết H1

Miền bác bỏ

Hai phía

 j   j0

1  1*

t  t /2 (n-k)

Phía trái

 j  () j0

 j   0j

t  t (n-k)

 j  () j0

 j   j0

t  t (n-k)

Phía phải

24


Chương 2: HỒI QUY PHI THAM SỐ
Hồi quy phi tham số là một hình thức phân tích hồi quy, đòi hỏi giả thuyết về
dữ liệu ít hơn hồi quy tham số, dữ liệu không có phân phối chuẩn và do đó sẽ tốt
hơn trong các tình huống mà sự phân bố là không biết hoặc không dễ dàng sử
dụng xấp xỉ một phân bố xác suất.
Mô hình hồi quy phi tham số có dạng:
yi  f ( xi1 , xi2 , xi3 ,..., xik )   i

(2.1)

Dữ liệu có n quan sát ( i=1,..,n) và k biến dự đoán,  i là sai số của biến dự đoán
thứ i.
Ta có thể chọn một đường gấp khúc qua các điểm dữ liệu (xi, yi) như hình 1.

Hình 1
Tuy nhiên, các đường được chọn như vậy không thể “ giải thích “ bộ dữ liệu đã
cho và khó khăn trong việc dự đoán một quan sát mới.
Như vậy, trong hồi quy phi tham số, ta phải chọn một đường cong f sao cho vừa
phản ánh được bộ dữ liệu, vừa có thể sử dụng để dự đoán các quan sát khác. Để
đạt được yêu cầu này, ta phải làm trơn đường cong và chọn hàm f càng gần đám
mây điểm dữ liệu càng tốt.
25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×