Tải bản đầy đủ

Huong_dan_su_dung_Stata11_can_ban

Sử dụng chơng trình Stata 11 (iu chnh t Stata 7)

nội dung

CHơNG I: GII THIệU CHUNG Về CHơNG TRìNH STATA 10......................................2
1.
2.
3.
4.

Tặ CHỉC LU TRữ Dữ LIệU TRONG STATA (DATASET IN STATA)
KHậI đẫNG V THOáT KHI STATA (OPEN AND EXIT)
GIAO DIệN STATA 11 (STATA INTERFACE)
NHậP V LU Dữ LIệU (USE, INPUT AND AND SAVE)

2
3
3
6

CHơNG II: KHAI THáC Dữ LIệU............................................................................................9

1. CấU TRểC LệNH TRONG STATA (STATA COMMAND SYNTAX)
2.TOáN Tệ V HM Sẩ (OPERATORS AND FUNCTIONS)
3. Mô Tả Dữ LIệU (DATA REPORTING)
4. BIêN TậP V SệA CHữA Dữ LIệU (DATA MANIPULATION)
5. QUYềN Sẩ TRONG VHLSS (WEIGHT)

9
13
14
27
41

CHơNG III: KIểM địNH GIả THIếT V PHâN TíCH HI QUY.............................45
1. ƯC LẻNG V KIểM địNH GIả THIếT (ESTIMATION AND HYPOTHESIS TESTING)
2. PHâN TíCH TơNG QUAN V HI QUY (CORRELATION AND REGRESSION)

45
52

CHơNG IV: Vẽ đ THị............................................................................................................59
1. Vẽ đ THị (GRAPH)
2. MẫT Sẩ LOạI đ THị THấNG DẽNG
3. LU TRữ V HIểN THị đ THị (SAVING

AND GRAPH USING)

59
67
74

CHơNG V: LậP TRìNH TRONG STATA..............................................................................76
1.
2.
3.
4.
5.

GII THIệU CHUNG Về CHơNG TRìNH DO-FILE
LOCAL V GLOBAL MACROS
TíCH Vô HNG V MA TRậN (SCALAR AND MATRIX)
LệNH đIềU KIệN V VSSNG LặP
GII THIệU Về FILE ADO

76
81
83
86
88

TI LIệU THAM KHảO.........................................................................................................90
PHễ LễC.....................................................................................................................................90

1


Chơng I: Giới thiệu chung về chơng trình Stata 10

1. Tổ chức lu trữ dữ liệu trong Stata (Dataset in Stata)
Stata là phần mềm thống kê sử dụng để quản lý, phân tích số liệu và vẽ đồ
thị. Stata cho phép lu trữ thông tin về các đặc điểm của các đối tợng nghiên
cứu. Số liệu lu trữ trong Stata có thể đợc hiển thị dới dạng bảng nh ví dụ sau:
maho

tenchuho

101
Nguyen Van A
102
Le Thi B
103
Tran Van C
Quan sát (observation)

quymo
ho
6
5
10

thunhapbq
2100
3210
1200

Mỗi một hàng ngang của bảng số liệu đợc gọi là một quan sát, hay một bản ghi
(record) lu trữ số liệu về một đối tợng nghiên cứu. ở ví dụ trên có 3 quan sát lu
trữ số liệu về Mã hộ (maho); Tên chủ hộ (tenchuho); Quy mô hộ (quymoho);
Thu nhập bình quân (thunhapbq) của 3 hộ gia đình.
Biến (variable)
Thông tin về đối tợng nghiên cứu đợc thu thập và lu trữ theo các đặc điểm của
chúng. Các đặc điểm này đợc gọi là biến. Biến đợc xem là các cột của bảng số
liệu. ở ví dụ trên có 4 biến, với tên là maho, tenchuho, quymoho, và thunhapbq.
Tên biến dài từ 1 đến 32 ký tự, đợc bắt đầu chữ hoặc dấu gạch dới (_). Tên
biến chỉ bao gồm chữ, sỗ và dấu gạch dới. Các ký tự đặc biệt khác không thể
dùng để đặt tên cho biến.
Biến xác định (identifying variables)
Thông thờng trong các biến sẽ có các biến dùng để nhận dạng quan sát, đợc gọi
là biến xác định. Nhờ có các biến xác định này mà các quan sát có thể phân
biệt đợc với nhau. Mỗi một quan sát có một giá trị của các biến này. ở ví dụ trên,
biến xác định là maho, đối với mỗi một quan sát biến maho nhận một giá trị.


Các đặc điểm của biến
Các biến có thể đợc gán nhãn (chú thích). Ví dụ biến maho có thể đợc gán nhãn
là Mã hộ.
Biến có thể đợc định dạng (format) là biến số và biến ký tự với các loại lu trữ
khác nhau. Biến số có thể lu trữ dới loại byte; int; long; float; double. Còn biến ký
tự thì có thể lu trữ dới dạng str1 đến str80 cho các độ dài khác nhau.
Kiểu lu trữ Dung lợng
Giá trị nhỏ
Giá trị lớn nhất
dạng số
(Byte)
nhất
byte
1
-127
126
int
2
-32,767
32,766
long
4
-2,147,483,647 2,147,483,646
float
4
-10^36
10^36
double
8
-10^308
10^308

Kiểu
Số nguyên
Số nguyên
Số nguyên
Số thực
Số thực
2


Các biến số có thể bao gồm các biến rời rạc và liên tục. Các biến nh là quy mô hộ
gia đình, giới tính chủ hộ, vùng địa lý, trình độ giáo dục là các biến rời rạc
(discrete) (hay còn gọi là biến phân loại (categorical)). Các biến này có thể đợc
lu trữ dới dạng byte, int, và long. Các biến liên tục (continuous) nh thu nhập, chi
tiêu của hộ thì lu trữ dới dạng float hoặc double.
Biến ký tự (string) dùng để lu trữ các loại ký tự. Ví dụ biến tenchuho là biến
kiểu ký tự dùng để lu trữ tên của chủ hộ.
Kiểu lu trữ
dạng chữ
str1
str2
...
str80

Byte

Độ dài lớn nhất

1
2

1
2

80

80

2. Khởi động và thoát khỏi Stata (Open and exit)
Stata đợc khởi động tơng tự nh các chơng trình tin học ứng dụng khác, bằng
cách kích vào biểu tợng của tệp wstata.exe trong Windows explorer, hoặc chọn
bằng cách chọn Start -> Program -> Stata. Chơng trình đợc thoát ra bằng lệnh
exit từ cửa sổ lệnh Stata Command, hoặc tuỳ chọn exit trong thực đơn (menu)
File.
3. Giao diện Stata 11 (Stata interface)1
Sau khi Stata đợc khởi động, giao diện của Stata sẽ đợc hiện lên, bao gồm thanh
thực đơn (menu bar) ở trên cùng, dới đó là thanh công cụ (tool bar) và các cửa
sổ (windows).

1

3


Các cửa sổ của Stata
Các cửa sổ của Stata đợc mở ra bằng việc lựa chọn các tuỳ chọn ở thanh thực
đơn Window (menu bar). Các cửa sổ này bao gồm:
Results

Hiển thị các lệnh và kết quả

Graph

Hiển thị đồ thị

Viewer

Hiển thị cửa sổ trợ giúp (help) và hiển thị nội dung các
file văn bản (text)

Command

Dùng để gõ các câu lệnh

Review

Hiển thị các lệnh đã thực hiện

Variables

Hiển thị danh sách các biến của tệp số liệu

Data editor

Hiển thị và sửa chữa số liệu dới dạng bảng

Do-file editor

Hiển thị cửa sổ để soạn thảo chơng trình

Thanh thực đơn (Menu bar)
Bằng cách kích vào thanh thực đơn và các tuỳ chọn trong đó, Stata sẽ thực hiện
các lệnh khác nhau. Thanh thực đơn bao gồm các nhóm lệnh sau đây:
File
Open

Mở file số liệu

View

Xem các file của Stata trong cửa sổ Viewer

Save

Lu file số liệu
4


Save as

Lu file số liệu dới tên mới

File name

Chọn tên file để đa vào cửa sổ lệnh

Log

Đóng, mở, xem lại log file

Save graph

Lu giữ file đồ thị

Print graph

In đồ thị

Print results

In kết quả

Exit

Thoát khỏi Stata

Edit
Copy text

Sao chép văn bản (text)

Copy tables

Sao chép bảng biểu

Paste

Dán

Table copy options

Lựa chọn sao chép bảng số liệu

Copy as picture

Sao chép thnh 1 hỡnh

.

Prefs

Các tuỳ chọn về màu sắc, phông chữ, và kích cỡ

Windows
Results

Mở cửa sổ kết quả

Graph

Mở cửa sổ đồ thị

Log

Mở cửa sổ log file

Viewer

Mở cửa sổ trợ giúp (help) và xem nội dung file

Command

Mở cửa sổ câu lệnh

Review

Mở cửa sổ các lệnh đã thực hiện

Variables

Mở cửa sổ danh sách các biến của tệp số liệu

Help/Search

Mở cửa sổ trợ giúp (help)

Data editor

Mở cửa để xem số liệu lu trữ dới dạng bảng

Do-file editor

Mở cửa sổ viết chơng trình

Help

Các trợ giúp liên quan đến việc sử dụng Stata

Thanh công cụ (tool bar)
Các tuỳ chọn trên thanh công cụ đợc thiết kế để thực hiện các lệnh thông dụng
của Stata. Nếu chúng ta di chuyển con trỏ đến các nút này thì sẽ hiện lên các
câu huớng dẫn, bao gồm:
Open (use)

Mở file số liệu Stata
5


Save

Lu trữ file số liệu ra đĩa

Print results

In nội dung của cửa sổ kết quả

Begin log

Mở, đóng và xem nội dung của file log

Start viewer

Mở cửa sổ trợ trợ (help)

Bring Dialog Window to Đa cửa sổ hộp thoại ra phía trớc
font
Bring Result Window to Đa cửa sổ kết quả ra phía trớc
font
Bring Graph Window to Đa cửa sổ vẽ đồ thị ra phía trớc
font
Do-file editor

Mở cửa sổ soạn thảo chơng trình

Data editor

Mở cửa sổ sửa chữa số liệu

Data browser

Mở cửa sổ xem số liệu

Clear more- condition

Tắt lệnh more

Break

Dừng việc thực hiện lệnh hoặc chơng
trình

4. Nhập và lu dữ liệu (Use, input and and save)
Mở tệp số liệu đang có:
Tệp số liệu Stata có thể đợc mở bằng lựa chọn Open trên thực đơn File; hoặc
nút Open (use) trên thanh công cụ tool bar.

6


Nếu file số liệu có dung lợng lớn thì chúng ta phải thiết lập bộ nhớ cần dùng cho
Stata bằng lệnh:
set memory #[k|m]
Ví dụ:
set mem 32m
set mem 32000k
Nhập số liệu
Có một số cách để nhập số liệu từ bàn phím vào bộ nhớ của Stata.
-

Sử dụng cửa sổ Stata editor để nhập số liệu. Hoặc từ cửa sổ command,
gõ lệnh edit. Sau đó nhập số liệu theo kiểu biểu bảng trong cửa sổ này.

7


Stata cho phép nhập số liệu từ các file cơ sở dữ liệu khác. Trớc hết các file số
liệu này cần đợc lu trữ dới dạng text (có thể bằng chơng trình Excel), các quan
sát đợc các nhau 1 dòng và các giá trị cách nhau 1 dẫu phẩy (commas) hoặc dấu
cách (tab). Sau đó dùng lệnh copy và paste để nhập số liệu này vào Stata.
Lu trữ số liệu
Việc lu trữ số liệu có thể thực hiện bằng các tùy chọn Save và Save as ở trong
thanh thực đơn (menu bar); hoặc nút Save trên thanh công cụ (tool bar).

8


Chú ý: Xem thêm lệnh infile và outfile

Chơng II: Khai thác dữ liệu

1. Cấu trúc lệnh trong Stata (Stata command syntax)
Cấu trúc cơ bản của một lệnh trong Stata nh sau:
[by danh sách biến:] Cú pháp lệnh [danh sách biến] [biểu thức] [điều
kiện] [phạm vi] [quyền số] [, tuỳ chọn]
Trong phần Hớng dẫn s dụng (Help) của Stata, cú pháp lệnh trình bày bằng tiếng
Anh nh sau:
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [,
options]
Trong đó dấu ngoặc vuông ký hiệu các tuỳ chọn.
Chú ý:
-

Các câu lệnh Stata đợc viết bằng chữ thờng.

-

Đối với tên biến, Stata phân biệt chữ viết thờng với chữ viết hoa. Ví dụ,
trong cùng một tệp số liệu, biến Ho_ten và biến ho_ten là 2 biến khác
nhau.

-

Các tuỳ chọn đợc ký hiệu trong dấu ngoặc vuông [ ]. Các tuỳ chọn này có
thể có hoặc không trong câu lệnh. Các tham số bắt buộc (tên biến) đợc
đặt trong dấu ngoặc < >. Các câu lệnh sẽ không thực hiện đợc nếu các
tham số bắt buộc này không đợc khai báo.
9


-

Một số lệnh Stata cho phép viết tắt. Ví dụ lệnh summarize có thể viết
tắt là sum. Trong cuốn tài liệu này phần gạch chân dới cú pháp của câu
lệnh là cú pháp viết tắt của câu lệnh đó.

-

Các ví dụ trong cuốn tài liệu này sử dụng số liệu Điều tra Mức sống dân c
năm 1998 do Tổng cục Thống kê tiến hành. Trong đó Tệp chi tiêu tổng
hợp Hhexp98n.dta thờng xuyên đợc sử dụng.

by danh sách biến (by varlist): Stata sẽ thực hiện câu lệnh với theo từng giá
trị đợc chỉ ra bởi danh sách biến. Biến đợc chỉ ra bởi danh sách biến đợc yêu
cầu sẵp xếp trớc khi thực hiện lệnh.
Ví dụ:
. sort sex
. by sex: sum

rlpcex1

-> sex = 1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------rlpcex1 |
4375
2980.906
2430.648
357.318
45801.71
-> sex = 2
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------rlpcex1 |
1624
3748.368
3231.241
376.9805
30624.77

Dùng thanh công cụ menu bar

10


Danh sách biến (varlist)
Chỉ ra danh sách các biến chịu tác động của câu lệnh. Nếu nh không có biến
nào đợc chỉ ra thì lệnh Stata sẽ có tác dụng lên tất cả các biến (all variables)
Ví dụ:
. sum hhsize sex reg7
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------hhsize |
5999
4.752292
1.954292
1
19
sex |
5999
1.270712
.4443645
1
2
reg7 |
5999
4.01917
2.145305
1
7
. sum
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------househol |
5999
19617.86
11201.92
101
38820
year |
5999
97.94666
.2247337
97
98
month |
5999
6.340723
3.011082
1
12

Lệnh sum này hiển thị thống kê cơ bản của tất cả các biến trong tệp số liệu.
Điều kiện (if exp)
Stata chỉ thực hiện câu lệnh đối với các quan sát mà giá trị của nó cho kết quả
của biểu thức là đúng.
11


Ví dụ:
. sum

poor if reg7==1

Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------poor |
859
.4982538
.5002882
0
1

Lệnh này chỉ có tác dụng đối với các quan sát mà biến reg7 có giá trị bằng 1.
Phạm vi (in range)
Chỉ ra phạm vi các quan sát chịu tác động của câu lệnh. Range (phạm vi) có
thể có các dạng sau:
sum poor in 10

Tính giá trị trung bình của biến poor cho quan sát 10
(chính bằng giá trị của biến poor tại quan sát thứ 10)

sum
poor
10/100

in Tính giá trị trung bình của biến poor cho quan sát từ
10 đến 100

sum
f/100

poor

in Tính giá trị trung bình của biến poor cho quan sát từ
đầu tiên đến 100

sum
100/l

poor

in Tính giá trị trung bình của biến poor cho quan sát từ
thứ 100 đến quan sát cuối cùng

Quyền số (weight)
Cho phép tính toán sủ dụng quyền số. Tuỳ chọn về quyền số sẽ đợc trình bày
kỹ ở mục 5 của chơng này.
Các tuỳ chọn (Options)
Nhiều câu lệnh Stata cho phép các tuỳ chọn riêng. Các tuỳ chọn này đợc chỉ ra
sau dấu phẩy.
Ví dụ:
Lệnh sum có tuỳ chọn là detail, cho phép tính toán thêm một số thống kê khác
ngoài giá trị trung bình và độ lệnh chuẩn.
. sum

rlpcex1, detail
comp.M&Reg price adj.pc tot exp
------------------------------------------------------------Percentiles
Smallest
1%
682.9575
357.318
5%
1012.433
366.2792
10%
1238.088
376.9805
Obs
5999
25%
1671.054
381.3502
Sum of Wgt.
5999
50%
75%
90%

2397.042
3711.917
5940.803

Largest
26944.64
30624.77

Mean
Std. Dev.
Variance

3188.667
2692.567
7249918

12


95%
99%

8045.32
14163.04

31066.5
45801.71

Skewness
Kurtosis

3.791027
29.21398

Chú ý:
-

Stata cho phép viết tắt các lệnh và tùy chọn. Trong tài liệu này, phần gạch
chân dới các lệnh có nghĩa là lệnh đó có thể viết tắt bằng ký tự trong
phần gạch chân này. Ví dụ nh lệnh use có nghĩa là có thể đợc viết tắt
bởi u.

-

Cú pháp của các câu lệnh trong tài liệu này đợc viết bằng tiếng Anh, cho
phép ngời đọc có thể đối chiếu với phần hớng dẫn sử dụng trong Stata.

2.Toán tử và hàm số (Operators and functions)
Các toán tử (operators)
Các toán tử trong Stata đợc ký hiệu nh sau:
Ký hiệu

ý nghĩa

Số học
+

Cộng

-

Trừ

*

Nhân

/

Chia

^

Luỹ thừa

Quan hệ
>

Lớn hơn

<

Nhỏ hơn

>=

Lớn hơn hoặc bằng

<=

Nhỏ hơn hoặc bằng

==

Bằng

~=

Không bằng (khác)

!=

Không bằng (khác)

Lôgíc
~

Không

|

Hoặc

&



Chú ý:
Trong biểu thức dấu == đợc dùng cho việc kiểm định biểu thức, ví dụ nh đợc
dùng sau lệnh if. Còn dấu = đợc dùng cho lệnh tạo biến.
Ví dụ:
gen RRD=0
replace RRD=1 if reg8==1
Các hàm số (function)
13


Hàm số thờng đợc dùng trong biểu thức (exp) của câu lệnh Stata. Nếu coi Y là
một hàm số của f(X1, X2,, Xn) thì lệnh về hàm số trong Stata sẽ tính giá trị của
Y nếu cho các giá trị của Xi. Stata có 8 loại hàm số:
Mathematical functions

Các hàm toán học

Statistical functions

Hàm thống kê

Random numbers

Hàm cho số ngẫu nhiên

String functions

Hàm liên quan đến dẫy ký tự

Special functions

Hàm đặc biệt

Date functions

Hàm ngày tháng

Time-series functions

Hàm chuỗi thời gian

Matrix functions

Hàm ma trận

Ví dụ:
gen absx=abs(x)
gen log_exp=log(rlpcex1)
Các ký hiệu cụ thể về các hàm số này có thể xem ở mục help functions.
3. Mô tả dữ liệu (Data reporting)
3.1. Xoá bộ nhớ của Stata
Cú pháp:
clear
Lệnh này xoá các dữ liệu trong bộ nhớ của Stata, bắt đầu cho một file làm việc
mới.
3.2. Hớng dẫn sử dụng lệnh Stata
Cú pháp:
help
Lệnh này hiển thị hớng dẫn sử dụng các lệnh Stata, lệnh Stata cần phải đợc gõ
đầy đủ và chính xác.
Ví dụ:
. help sum
help for sum not found
try help contents or search sum
. help summarize
----------------------------------------------------------------------------------------help for summarize

(manual: [R] summarize)
14


----------------------------------------------------------------------------------------Summary statistics
.
Chú ý:
Chúng ta có thể tìm hớng dẫn sử dụng theo từ khoá bằng lệnh search. Lệnh
search có thể đợc thực hiện bằng tuỳ chọn Search ở thực đơn help.
Chúng ta cũng có thể dùng cửa sổ lệnh bằng menu bar

3.3. Mô tả dữ liệu
Cú pháp:
describe [danh sách biến]
Lệnh này hiển thị thông tin chung nh tên biến, định dạng, nhãn biến của các
biến đợc liệt kê bởi danh sách biến của file số liệu đang mở. Nếu nh không có
biến nào đợc chỉ ra thì lệnh describe sẽ hiện thị thông tin của tất cả các biến.
Ví dụ:
. des

househol year month vlssmphs

storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------househol
long
%12.0g
household code
year
float %9.0g
Year of interview
month
float %9.0g
Month of interview
15


vlssmphs

byte

%8.0g

1 if vlss, 2 if mphs source

3.4. Hiển thị giá trị của các biến
Cú pháp:
list [danh sách biến] [điều kiện] [phạm vi] [, nolabel]
Lệnh này hiển thị giá trị của các biến đợc chỉ ra bởi danh sách biến. Tuỳ chọn
nolable cho phép hiển thị giá trị số chứ không phải là giá trị gán nhãn.
Ví dụ:
. list

househol farm in 1/5
househol
36307
28002
36017
32418
15215

1.
2.
3.
4.
5.
. list

househol farm in 1/5, nolabel
househol
36307
28002
36017
32418
15215

1.
2.
3.
4.
5.

farm
farm
farm
farm
non farm
non farm

farm
1
1
1
0
0

3.5. Sửa chữa, xem số liệu
Cú pháp:
edit

[danh sách biến] [điều kiện] [phạm vi] [, nolabel]

browse [danh sách biến] [điều kiện] [phạm vi] [, nolabel]
Lệnh edit này mở cửa sổ Data editor để ngời sử dụng sửa chữa, nhập số liệu.
Tuỳ chọn nolable cho phép hiển thị giá trị số chứ không phải là giá trị gán
nhãn. Lệnh này có thể đợc chọn từ tuỳ chọn Data editor trong thanh thực đơn
Windows.
Lệnh browse giống lệnh edit nhng không cho phép sửa chữa số liệu.
3.6. Đếm quan sát
Cú pháp:
count [điều kiện] [phạm vi]

16


Lệnh này đếm số quan sát đợc chỉ ra bởi điều kiện (exp) và phạm vi (range).
Nếu điều kiện (exp) và phạm vi (range) không đợc chỉ ra thì sẽ hiện thị số
quan sát của tệp số liệu.
Ví dụ:
. count
5999
. count if reg7==1
859
. count if reg7==1 & urban98==1
187
. count if reg7==1 & urban98==0
672
3.7. Thống kê cơ bản
Cú pháp:
summarize [danh sách biến] [quyền số] [điều kiện] [phạm vi] [, detail]
Lệnh này tính toán và hiển thị những thống kê cơ bản của các biến đợc chỉ ra
bởi danh sách biến. Tuỳ chọn detail cho phép hiển thị thêm một số thống kê
nh độ nhọn, độ lệnh và các giá trị của thập vị phân.
Ví dụ:
. sum

rlpcex1

Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------rlpcex1 |
5999
3188.667
2692.567
357.318
45801.71
. sum

rlpcex1, detail

comp.M&Reg price adj.pc tot exp
------------------------------------------------------------Percentiles
Smallest
1%
682.9575
357.318
5%
1012.433
366.2792
10%
1238.088
376.9805
Obs
5999
25%
1671.054
381.3502
Sum of Wgt.
5999
50%
75%
90%
95%
99%

2397.042
3711.917
5940.803
8045.32
14163.04

Largest
26944.64
30624.77
31066.5
45801.71

Mean
Std. Dev.

3188.667
2692.567

Variance
Skewness
Kurtosis

7249918
3.791027
29.21398
17


3.8. Hiển thị thông tin chung về biến
Cú pháp:
inspect [danh sách biến] [điều kiện] [phạm vi]
Lệnh này mô tả về số liệu của các biến kiểu số. Nó đa ra thông tin về số âm,
dơng, số nguyên, giá trị thiếu (missing) của giá trị của biến.
Ví dụ:
. gen x=invnorm(uniform())
. inspect x
x:
---|
#
|
#
|
#
|
#
|
#
#
#
| .
#
#
#
.
+----------------------3.918931
3.641588
(More than 99 unique values)

Negative
Zero
Positive
Total
Missing

Number of Observations
NonTotal
Integers
Integers
2964
2964
3035
3035
------------5999
5999
----5999

Chú ý: có thể xem thêm lệnh codebook
3.9. Tạo bảng tần suất
Tạo bảng tần suất 1 chiều
Cú pháp:
tabulate [quyền số] [điều kiện] [phạm vi] [, missing
nolabel]
tab1 [quyền số] [điều kiện] [phạm vi] [, missing
nolabel]
Lệnh này tạo bảng tần suất 1 chiều của biến đợc chỉ ra. Lệnh tabulate chỉ cho
phép có 1 biến đợc chỉ ra, nếu có hơn 1 biến đợc chỉ ra thì Stata sẽ hiểu là
tạo bảng tần suất 2 chiều.
Các tuỳ chọn:
missing
1 loại.
nolabel
nhãn biến

Cho phép các quan sát không có giá trị (missing) đợc xếp vào
Cho phép hiển thị giá trị số của biến, chứ không phải

18


VÝ dô:
. tab sex
Gender of |
HH.head |
(1:M;2:F) |
Freq.
Percent
Cum.
------------+----------------------------------1 |
4375
72.93
72.93
2 |
1624
27.07
100.00
------------+----------------------------------Total |
5999
100.00
. tab1 urban98 reg7
-> tabulation of urban98
1:urban 98; |
0:rural 98 |
Freq.
Percent
Cum.
------------+----------------------------------Rural |
4269
71.16
71.16
Urban |
1730
28.84
100.00
------------+----------------------------------Total |
5999
100.00
-> tabulation of reg7
Code by 7 |
regions |
Freq.
Percent
Cum.
------------+----------------------------------region1 |
859
14.32
14.32
region2 |
1175
19.59
33.91
region3 |
708
11.80
45.71
region4 |
754
12.57
58.28
region5 |
368
6.13
64.41
region6 |
1023
17.05
81.46
region7 |
1112
18.54
100.00
------------+----------------------------------Total |
5999
100.00

Chóng ta còng cã thÓ dïng cöa sæ lÖnh b»ng menu bar

19


Tạo bảng tần suất 2 chiều
Cú pháp:
tabulate [quyền số] [điều kiện] [phạm vi] [,
chi2 missing nofreq cell column row]
tab2 [quyền số] [điều kiện] [phạm vi] [, chi2 missing
nofreq cell column row]
Lệnh tablulate này tính và hiển thị bảng tần suất 2 chiều của 2 biến đợc chỉ
ra. Lệnh tab2 tạo bảng tần suất 2 chiều của từng cặp biến đợc chỉ ra trong
danh sách biến.
Ví dụ:
. tab urban98 farm
1:urban | Type of HH (1:farm;
98; |
0:nonfarm)
0:rural 98 | non farm
farm |
Total
-----------+----------------------+---------Rural |
1021
3248 |
4269
Urban |
1540
190 |
1730
-----------+----------------------+---------Total |
2561
3438 |
5999

Các tuỳ chọn:
chi2

Thực hiện kiểm định giả thiết là hai biến độc lập

missing

Cho phép các quan sát không có giá trị đợc xếp vào 1
20


loại
nofreq

Không hiển thị tần suất

cell

Hiển thị tần suất tơng đối (tỷ lệ %) của các ô

column

Hiển thị tần suất tơng đối (tỷ lệ %) của các ô theo cột

row

Hiển thị tần suất tơng đối (tỷ lệ %) của các ô theo
hàng

Ví dụ:
. tab

reg7 urban98, cell nof

| 1:urban 98; 0:rural
Code by 7 |
98
regions |
Rural
Urban |
Total
-----------+----------------------+---------region1 |
11.20
3.12 |
14.32
region2 |
13.05
6.53 |
19.59
region3 |
10.00
1.80 |
11.80
region4 |
8.37
4.20 |
12.57
region5 |
6.13
0.00 |
6.13
region6 |
8.57
8.48 |
17.05
region7 |
13.84
4.70 |
18.54
-----------+----------------------+---------Total |
71.16
28.84 |
100.00
. tab farm urban98, column row
Type of HH | 1:urban 98; 0:rural
(1:farm; |
98
0:nonfarm) |
Rural
Urban |
Total
-----------+----------------------+---------non farm |
1021
1540 |
2561
|
39.87
60.13 |
100.00
|
23.92
89.02 |
42.69
-----------+----------------------+---------farm |
3248
190 |
3438
|
94.47
5.53 |
100.00
|
76.08
10.98 |
57.31
-----------+----------------------+---------Total |
4269
1730 |
5999
|
71.16
28.84 |
100.00
|
100.00
100.00 |
100.00

3.10. Tạo bảng thống kê tổng hợp bằng lệnh tabulatesummarize
Cú pháp:
tabulate [quyền số] [điều kiện] [phạm vi] ,
summarize(tên biến 3) [means standard freq missing ]
Lệnh này tạo bảng một hoặc hai chiều định nghĩa bởi biến 1 hoặc biến 2 và
mỗi ô cho giá trị thống kê trung bình, độ lệch chuẩn và tần suất của biến 3.
Ví dụ:
21


. tab

farm urban98, sum(poor)
Means, Standard Deviations and Frequencies of poor

Type of HH | 1:urban 98; 0:rural
(1:farm; |
98
0:nonfarm) |
Rural
Urban |
Total
-----------+----------------------+---------non farm | .2791381 .06168831 | .14837954
| .44879538 .24066673 | .35554523
|
1021
1540 |
2561
-----------+----------------------+---------farm | .42302956 .12105263 | .4063409
| .4941161 .32705022 | .49122109
|
3248
190 |
3438
-----------+----------------------+---------Total | .3886156 .06820809 | .29621604
| .48749275 .25217555 | .45662551
|
4269
1730 |
5999

Các tuỳ chọn:
means

Hiển thị mỗi giá trị trung bình

standard

Hiển thị mỗi giá trị độ lệch chuẩn

freq

Hiển thị mỗi giá trị tần suất

missing

Cho phép các quan sát không có giá trị đợc xếp vào 1
loại

Ví dụ:
. replace poor=poor*100
(1777 real changes made)
. format poor %4.2f
. tab reg7 urban98, sum(poor) means
Means of poor
| 1:urban 98; 0:rural
Code by 7 |
98
regions |
Rural
Urban |
Total
-----------+----------------------+---------region1 |
61.46
8.02 |
49.83
region2 |
32.57
5.87 |
23.66
region3 |
44.83
10.19 |
39.55
region4 |
37.25
11.51 |
28.65
region5 |
47.28
. |
47.28
region6 |
12.45
2.16 |
7.33
region7 |
35.78
10.28 |
29.32
-----------+----------------------+---------Total |
38.86
6.82 |
29.62

3.11. Tạo bảng thống kê tổng hợp bằng lệnh tabstat
Cú pháp:
22


tabstat [quyền số] [điều kiện] [phạm vi] [,
statistics(cú pháp tkê [...]) by(tên biến) missing format[(%fmt)]]
Lệnh này tính toán các thống kê của các biến đợc chỉ ra bởi danh sách biến
cho từng giá trị của biến phân loại (categorical) đợc chỉ ra bởi by(tên biến).
Chúng ta cũng có thể dùng cửa sổ lệnh bằng menu bar

Ví dụ:
. tabstat

rlfood rlhhex1, stats(mean median) by(reg7)

Summary statistics: mean, p50
by categories of: reg7 (Code by 7 regions)
reg7 |
rlfood
rlhhex1
--------+-------------------region1 | 5595.556 9560.349
| 5350.916 8536.373
----------------------------region2 | 6419.427 12951.14
| 5664.145 9997.146
----------------------------region3 | 5692.201 10885.38
| 5369.411 9022.334
----------------------------region4 | 6512.576 13525.41
| 5790.046 11077.51
----------------------------region5 | 5894.983 11217.05
| 5380.505 9421.447
-----------------------------

23


region6 | 9746.158 23515.01
| 8428.743 18514.39
----------------------------region7 | 6556.616 13068.11
| 6066.128 11043.99
----------------------------Total | 6787.898 14010.74
| 5951.567 10733.19
-----------------------------

Các tuỳ chọn:
statistics(statname
[...])

Chỉ ra thống kê cần tính cho danh sách biến

by(tên biến)

Chỉ ra biến phân loại (categorical)

Missing

Giá trị thiếu (mising) của biến loại đợc xem nh 1
loại

format[(%fmt)]

Chỉ ra định dạng của số liệu hiển thị

Stata cho phép các loại thống kê đợc chỉ ra bởi statistics(cú pháp thống kê [...])
nh sau:
Cú pháp thống kê

ý nghĩa

mean

Trung bình mean

count

Đếm số quan sát

n

Giống nh lệnh count (Đếm số quan sát)

sum

Tổng cộng

max

Giá trị lớn nhất

min

Giá trị nhỏ nhất

range

Biên độ = Giá trị lớn nhất - Giá trị nhỏ nhất

sd

Độ lệch chuẩn

sdmean

Độ lệch chuẩn của trung bình = Độ lệch chuẩn / {(Số
quan sát)^0.5}

skewness

Độ lệch của phân phối

kurtosis

Độ nhọn

median

Trung vị (Giống nh p50)

p1

1% phân vị

p5

5% phân vị

p10

10% phân vị

p25

25% phân vị

p50

50% phân vị (trung vị)
24


p75

75% phân vị

p90

90% phân vị

p95

95% phân vị

p99

99% phân vị

iqr

p75 - p25

q

tơng đơng với "p25 p50 p75"

Ví dụ:
. tabstat

rlpcex1, stats(mean sd q) by(reg7) format(%5.1f)

Summary for variables: rlpcex1
by categories of: reg7 (Code by 7 regions)
reg7 |
mean
sd
p25
p50
p75
--------+-------------------------------------------------region1 |
2174.8
1265.1
1328.0
1792.1
2710.8
region2 |
3294.0
2511.9
1816.7
2532.5
3822.0
region3 |
2503.3
1918.0
1489.7
2001.2
2808.1
region4 |
2933.7
2260.5
1697.9
2362.2
3471.4
region5 |
2087.3
1285.4
1217.3
1850.8
2700.5
region6 |
5257.5
4005.7
2676.7
4154.1
6431.8
region7 |
2931.1
2137.2
1680.1
2321.9
3414.7
----------------------------------------------------------Total |
3188.7
2692.6
1671.1
2397.0
3711.9
-----------------------------------------------------------

3.12. Tạo bảng thống kê tổng hợp bằng lệnh table
Cú pháp:
table [biến cột [biến cột trên cùng]] [điều kiện] [phạm vi]
[quyền số] [, contents(nội dung) row col format(%fmt) missing]
Lệnh này cho phép tính các thống kê của các biến đợc chỉ ra trong contents
theo dạng bảng, trong đó các hàng đợc định nghĩa bởi biến dòng, còn các cột
đợc định nghĩa bởi biến cột (và biến cột trên cùng). Các biến hàng và cột này
là các biến phân loại (categorical).
Ví dụ:
. table reg7 urban98 farm, contents(mean poor)
---------------------------------------------------|
Type of HH (1:farm; 0:nonfarm) and
|
1:urban 98; 0:rural 98
Code by 7 | ---- non farm --------- farm -----regions
|
Rural
Urban
Rural
Urban
----------+----------------------------------------region1 | 19.35484 6.015038
65.7377 12.96296

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×

×