tin hoc UD

Preview:

Citation preview

CHƯƠ�G 2TỔ�G QUA� PHẦ� MỀM STATA

TRƯỜNG ĐẠI HỌC LÂM NGHIỆP

thangpn@vfu.edu.vn

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

thangpn@vfu.edu.vn

2

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Giới thiệu Stata

• Stata (statistics and data) là một chương trình thống kê với những khả năng quản lý và phân tích dữ liệu, vẽ đồ thị mạnh.

• Các phiên bản của Stata (mới nhất Stata 12)• Phiên bản chuẩn Stata/IC (2047 biến)• Phiên bản đặc biệt Stata/SE (32766 biến)

thangpn@vfu.edu.vn

• Phiên bản đặc biệt Stata/SE (32766 biến)• Phiên bản đa xử lý Stata/MP (xử lý nhanh)

Khởi động và kết thúc Stata

� Cách 1: Khởi động Stata từ shortcut trên màn hình desktop

Bấm đúp chuột

� Cách 2: Khởi động từ nút Start :Start -> Programs -> Stata 10 -> StataSE 10

thangpn@vfu.edu.vn

• Kết thúc chương trình Stata:• File -> Exit hoặc gõ Exit vào cửa sổ lệnh• Alt + F4• Bấm vào nút đóng X

thangpn@vfu.edu.vn

Các cửa sổ của Stata

Các cửa sổ của Stata được mở ra bằng việc lựa chọncác tuỳ chọn ở thanh thực đơn Windows (menu bar).Các cửa sổ này bao gồm:

� Results Hiển thị các lệnh và kết quả

� Graph Hiển thị đồ thị

� Viewer Hiển thị cửa sổ trợ giúp (help) và hiển thị nội dung các file

thangpn@vfu.edu.vn

� Viewer Hiển thị cửa sổ trợ giúp (help) và hiển thị nội dung các file văn bản (text)

� Command Dùng để gõ các câu lệnh

� Review Hiển thị các lệnh đã thực hiện

� Variables Hiển thị danh sách các biến của tệp số liệu

� Data editor Hiển thị và sửa chữa số liệu dưới dạng bảng

� Do-file editor Hiển thị cửa sổ để soạn thảo chương trình

Thanh thực đơn

� File: làm việc với tệp tin, dữ liệu, log, máy in, kết thúc

� Edit: Các thao tác biên tập dữ liệu(sao chép)

� Data: Làm việc với biến (mô tả, tạoj), liên kết dữ liệu

� Graphics: Làm việc với đồ thị

� Statistics: Làm việc với thống kê như tính tần suất, trung bình, hồi quy, j

thangpn@vfu.edu.vn

bình, hồi quy, j

� Window: Dùng để hiển thị các cửa sổ như comand, Reviewj và do file

Giao tiếp với Stata

Từ Stata 8 hỗ trợ 2 cách giao tiếp:

1. Trình tự thực hiện bằng lệnh trình đơn như sau:Chọn lệnh trên trình đơn -> hộp thoại -> chọn các tham số

2. Thực hiện bằng gõ trực tiếp câu lệnh vào cửa sổ lệnh Command

thangpn@vfu.edu.vn

Kết quả của lệnh được hiển thị trong cửa sổ Results sau khi thực hiện lệnh

Cấu trúc lệnh trong Stata

• Câu lệnh phân biệt chữ hoa chữ thường (khuyên dùng chữ thường).

• Cấu trúc câu lệnh trong Stata

command [varlist] [if exp] [in range] [weight] [using filename] [, options]

thangpn@vfu.edu.vn

1. Lệnh – Command: Yêu cầu thực hiện hành động

2. Biến, tệpj.: Các đối tượng chịu tác động

3. Điều kiện(if exp): Giới hạn các quan sát chịu tác động

4. Các lựa chọn: Xác định tùy chọn khi hoàn thành lệnh

• Khi gõ bạn có thể không cần gõ tất cả câu lệnh. Ví dụ: thay vì gõ generate (tạo một biến) bạn có thể gõ gen là được.

thangpn@vfu.edu.vn

Ghi nhật ký làm việc Log file• Sử dụng log file: ghi lại tất cả những thao thực hiện

trong buổi làm việc. Logfile chứa các câu lệnh và bảng kết quả, không chứa biểu đồ, đồ thị. Để mở một log file:

• Từ menu vào File – Log – Begin

• Bằng câu lệnh

log using tentep [, append replace [text|smcl]]

thangpn@vfu.edu.vn

log using tentep [, append replace [text|smcl]]Đuôi mở rộng của log file: .log; .smcl;• Tạm dựng ghi log: log off• Tiếp tục ghi log: log on• Đóng logfile: log close• Mở xem nội dung: type tentep [log|smcl]• Chuyển smcl-> text: translate “tentep.smcl” “tentep.txt”

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

thangpn@vfu.edu.vn

12

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Cấu trúc dữ liệu

� Ở mỗi thời điểm Stata chỉ làm việc với một tệp dữ liệu (*.dta), khi đó dữ liệu được tải vào bộ nhớ trong (Data Editor, Data View để xem dữ liệu)

� Dữ liệu tổ chức dạng bảng gồm hàng và cột, mỗi cột là một biến(vars) tên cột là tên biến, mỗi hàng là một quan sát(obs) hày là bản ghi.

thangpn@vfu.edu.vn

Làm việc với tệp dữ liệu(1)

� Lệnh trình đơn File -> Open

� Mở tệp dữ liệu: use tentep [, clear]

Ví dụ: use “D:\data\mydata.dta”, clear

� Mở các tệp ví dụ đi kèm: sysuse tentep

Ví dụ: sysuse auto

thangpn@vfu.edu.vn

Ví dụ: sysuse auto

� Chúng ta có thể xem các số liệu: File �Example datasets

Làm việc với tệp dữ liệu(2)

� Mở bảng dữ liệu chế độ chỉ đọc� Lệnh trình đơn: Data -> Browser� Câu lệnh: browse

� Mở tệp dữ liệu và biên tập dữ liệu� Lệnh trình đơn: Data->Edit

Câu lệnh: edit

thangpn@vfu.edu.vn

� Câu lệnh: edit

Cấu trúc của file dữ liệu

� Kiểm tra cấu trúc dữ liệu, các khoảng giá trị của biến, các nhãn của biến, các nhãn của giá trị

� Sử dụng: � describe: mô tả số liệu hoặc mô tả biến� codebook: hiển thị dữ liệu kèm theo các thông kê mô tả,

giá trị missing,j

thangpn@vfu.edu.vn

giá trị missing,j� list: dùng để hiển thị giá trị của biến trên màn hình kết quả

(thường kết hợp với if, in)

Liệt kê dữ liệu� Lệnh trình đơn: Data->Describe data->List data

� Câu lệnh: list [varlist] [if] [in] [, options]� List: Liệt kê toàn bộ dữ liệu� List danh_sach_bien: Liệt kê dữ liệu của các biến trong

danh sách ví dụ: list make mpg weight

� List [danh_sach_bien] if dieu_kien: Liệt kê các biến

thangpn@vfu.edu.vn

� List [danh_sach_bien] if dieu_kien: Liệt kê các biến thỏa mãn điều kiện ví dụ: list if mpg>20 & mpg<23

Thông tin mô tả tệp dữ liệu

Contains data from E:\Stata\ado\base/a/auto.dtaobs: 74 1978 Automobile Datavars: 12 13 Apr 2007 17:45size: 3,478 (99.9% of memory free) (_dta has notes)

storage display value

� Lệnh trình đơn: Data->Describe data->Describe data in memory

� Câu lệnh: describe

thangpn@vfu.edu.vn

storage display valuevariable name type format label variable label

make str18 %-18s Make and Model (Nhãn hiệu, chủng loại)price int %8.0gc Price (giá tiền)mpg int %8.0g Mileage (mpg) (số dặm đi được/galon xăng)rep78 int %8.0g Repair Record 1978 (sửa chữa thường xuyên)headroom float %6.1f Headroom (in.)trunk int %8.0g Trunk space (cu. ft.)weight int %8.0gc Weight (lbs.) (trọng lượng)length int %8.0g Length (in.)turn int %8.0g Turn Circle (ft.) displacement int %8.0g Displacement (cu. in.)gear_ratio float %6.2f Gear Ratioforeign byte %8.0g origin Car type (nhập khẩu hay trong nước)

Sorted by: foreign

Kiểu dữ liệu và định dạng

Kiểu biến Giá trị nhỏ nhất Giá trị lớn nhất Loại biếnbyte -127 100 Số nguyênint -32,767 32,740 Số nguyênlong -2,147,483,647 2,147,483,620 Số nguyên

Các thông tin về biến

� Tên biến(variable name): tối đa 32 ký tự, gồm chữ, số, dấu gạch dưới “_”, luôn bắt đầu bằng chứ hoặc “_” gồm biến kiểu số, biến ký tự.

� Kiểu dữ liệu(storage type): được mô tả trong bảng sau

thangpn@vfu.edu.vn

float -1.70141173319*10^38 1.70141173319*10^38 Số thực

double -8.9884656743*10^307 8.9884656743*10^307 Số thực

str 1 80 Ký tự

Định dạng Mô tả Ví dụ%#.#g Định dạng số tổng quát %9.0g Số có độ dài 9 chữ số

%#.#f Định dạng số có độ dài cố định%9.2f độ dài 9, có 2 chữ số thập phân

%#s Định dạng xâu ký tự %15s xâu có độ dài 15 ký tự

• Định dạng hiển thị(display format)

•“-” Căn trái ; “c” nhóm 3 số thành nhóm ví dụ: %-9.0gc

Hàm định dạng - format

� Cú pháp: format varlist %fmt

� Với %fmt: � %w.df: w là chiều dài của số, d là số chữ số sau phần

thập phân� ví dụ: 1.5235 nếu định dạng %8.2f � 1.52� %w.0g: w chiều dài của số đó

thangpn@vfu.edu.vn

� %w.0g: w chiều dài của số đó � int %8.0g

� byte %8.0g� long %12.0g� float %9.0g

� double %10.0g

� str# %#s� format length %9.0g

Tạo tệp dữ liệu(1)

� Tạo tệp dữ liệu, tạo biến (generate): Có 2 cách gán giá trị và label của biến:� Cách 1: Tạo tập dữ liệu từ cửa sổ biên tập� Cách 2: Dùng lệnh tạo tập dữ liệu

thangpn@vfu.edu.vn

Tạo tệp dữ liệu(2)� Cách 1: Tạo tập dữ liệu từ cửa sổ biên tập

1. Dùng lệnh xóa các biến đã có: clear

2. Dùng lệnh mở cửa sổ biên tập: edit

3. Chọn ô đầu tiên trên một cột, nhập một giá trị đại diện là số hoặc ký tự vào một ô trên cột đã chọn

4. Nhắp đúp chuột lên cột biến vừa nhập, khi đó xuất

thangpn@vfu.edu.vn

4. Nhắp đúp chuột lên cột biến vừa nhập, khi đó xuất hiện hộp thoại.

5. Ghi lại tệp dữ

liệu: File->Save

hoặc Save tep_ten

Nhập tên biến

Nhãn của biến

Định dạng hiển thị

Định dạng nhãn giá trị, (từ stata 9 trở đi)

Tạo tệp dữ liệu(3)

� Cách 2: Dùng lệnh tạo tập dữ liệu

1. Dùng lệnh xóa các biến đã có: clear

2. Định nghĩa các biến: generate ten_bien=gia_tri (gia_tri chỉ có ý nghĩa làm mẫu và định dạng dữ liệu)

3. Gán nhãn biến: label variable ten_bien “nhan_bien”

thangpn@vfu.edu.vn

4. Nhập các giá trị cho biến: edit

5. Ghi lại tập dữ liệu: File->Save hoặc save ten_tep

obs thunhap tieudung

1 1 0.6

2 1.1 0.65

3 0.7 0.48

4 1.4 0.9

5 0.5 0.38

6 0.4 0.23

7 0.55 0.32

8 0.8 0.48

9 0.7 0.45

thangpn@vfu.edu.vn

10 0.25 0.18

11 0.65 0.4

12 0.4 0.25

13 1.8 0.95

14 0.4 0.25

15 0.5 0.3

16 0.3 0.2

17 1 0.5

18 0.5 0.25

19 0.8 0.45

20 1.4 0.7

Bổ sung thêm biến

� Thêm biến mới vào tập dữ liệu

1. Mở tệp dữ liệu

Cách 1:

1. Chọn ô đầu tiên trên một cột, nhập một giá trị đại diện là số hoặc ký tự vào một ô trên cột đã chọn

thangpn@vfu.edu.vn

2. Nhắp đúp chuột lên cột biến vừa nhập, khi đó xuất hiện hộp thoại.

Cách 2:

1. Định nghĩa các biến: generate ten_bien=gia_tri

2. Gán nhãn biến: label variable ten_bien “nhan_bien”Lưu ý: Tạo biến không có giá trị: generate ten_bien =.

Xóa, đổi tên biến

� Xóa biến trong tập dữ liệu

1. Mở tệp dữ liệu

Cách 1:

1. Mở cửa sổ biên tập bằng lệnh: edit

2. Chọn cột cấn xóa, Nhấp nút Delete

thangpn@vfu.edu.vn

2. Chọn cột cấn xóa, Nhấp nút Delete

Cách 2:

1. Xóa bằng lệnh: drop ten_bien

Lưu ý: dùng câu lệnh sẽ xóa luôn không xác nhận lại

� Để đổi tên biến: rename ten_bien_cu ten_bien_moi.

Gán nhãn cho giá trị(1)

� Gán nhãn cho giá trị:

Cách 1: Bằng lệnh trình đơn: Data ���� Labels���� Label values ���� Define or modify value labels

thangpn@vfu.edu.vn

Gán nhãn cho giá trị(2)

� Gán nhãn cho giá trị:

Cách 2: Bằng câu lệnh: label define ten_bien ten_nhan

Ví dụ: label define gioi 1 “Nam” 0 “Nu”

� Hiển thị các bộ nhãn dùng lện: lable dir

� Xóa bỏ nhãn: label drop ten_nhan

thangpn@vfu.edu.vn

� Xóa bỏ nhãn: label drop ten_nhan

Ví dụ: label drop gioi

Xóa bỏ tất cả: label drop_all

obs gioi thunhap tieudung

1 Nam 1 0.6

2 Nu 1.1 0.65

3 Nam 0.7 0.48

4 Nam 1.4 0.9

5 Nam 0.5 0.38

6 Nu 0.4 0.23

7 Nam 0.55 0.32

8 Nu 0.8 0.48

9 Nu 0.7 0.45

thangpn@vfu.edu.vn

10 Nam 0.25 0.18

11 Nam 0.65 0.4

12 Nu 0.4 0.25

13 Nam 1.8 0.95

14 Nam 0.4 0.25

15 Nam 0.5 0.3

16 Nu 0.3 0.2

17 Nam 1 0.5

18 Nu 0.5 0.25

19 Nu 0.8 0.45

20 Nu 1.4 0.7

Một số thao tác trên biến

� Mô tả cấu trúc dữ liệu hoặc biến ? (describe)� des varlist

� Để đổi tên biến: rename old_var new_var.

� Muốn xóa một biến trong Stata? (drop hoặc keep)�Ngược lại với drop là keep� drop var1 [var2j.]

thangpn@vfu.edu.vn

� drop var1 [var2j.]� drop if var1 >=15

Hàm toán học và Toán tử(1)

Ký hiệu Tên phép toán+ Cộng- Trừ* Nhân / Chia^ Lũy thừa

Ký hiệu Tên phép toán> Lơn hơn< Nhỏ hơn== Bằng>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng~= Khác (Không bằng)!= Khác (Không bằng)

•Phép toán số học •Phép toán quan hệ

•Phép toán logic

thangpn@vfu.edu.vn

Ký hiệu Tên phép toán~ Phủ định (Không)& Và| Hoặc

•Hàm: Là một dạng phép toán được xây dựng trước để tính toán. Hàm nhận vào đố số là các biến, hằng, biểu thức trong Stata có các loại hàm: Hàm toán học; Hàm thống kê; Hàm ngẫu nhiên; Hàm ký tự; Hàm ngày tháng, Hàm đặc biệt; Hàm ma trận; Hàm chuỗi thời gianVí dụ: abs(x) – lấy giá trị tuyệt đối của x; sin(x) – Hàm tính sin x

Hàm toán học và Toán tử(2)

� Chúng ta muốn tính toán, hiển thị kết quả như một máy tính: display

� Các hàm toán học: mod(x,y), sign(x), max(x1,x2, jx3)

Ví dụ: Muốn lấy phần dư của 5 chia cho 2

display mod(5,2) � kết quả bằng 1

thangpn@vfu.edu.vn

� Kết hợp lệnh gen với các hàm toán học tạo biến

ví dụ: gen phandu = mod(5,2)

Mệnh đề if

� Cú pháp lệnh if: if bieu_thuc

Ví dụ:

summarize mgp if mpg ==20

sum mpg if(weight<2000)

� Chúng ta có thể kết hợp các toán tử với lệnh generate

thangpn@vfu.edu.vn

� Chúng ta có thể kết hợp các toán tử với lệnh generate và replace.

Ví dụ: gen var1 = 3^2 * 5 và

replace var1 = 1 if var1 ==.

Mệnh đề in� Cú pháp: cau_lenh in khoang

� Khoảng:� #: Hiển thị giá trị của biến thứ #� #/#: từ vị trị nào đến vị trí nào� f/#: từ vị trí đầu tiên đến vị trí #� #/l(last): từ vị trí # đến cuối

thangpn@vfu.edu.vn

Ví dụ:

list mpg 1/10 � hiển thị giá trị của mpg từ vị trí 1 đến 10

list in f/20 �hiển thị danh sách first->20

list in -10/l �hiển thị danh sách 10 trước last

sum mpg 1/10 � tính tổng danh sách 1->10

sum mgp 20/l � tính tổng danh sách 20 ->last

Mã hóa lại biến(1)

� Mã hóa lại biến.

recode varlist (rule) [(rule) ...] [, generate(newvar)]

Luật (rule) Ví dụ Ý nghĩa

# = # 3 = 1 3 mã thành 1

# # = # 2 . = 9 2 và . mã thành 9

thangpn@vfu.edu.vn

#/# = # 1/5 = 4 1 đến 5 mã thành 4

nonmissing = # nonmiss = 8 Tất cả không trống thành 8

missing = # miss = 9 Tất cả trống thành 9

Mã hóa lại biến(2)

� Ví dụ: mã biến tuổi(age), tạo biến mới và gán nhãn: � 0 – 17: 1 � Dưới độ tuổi lao động; � 18-65:2 � Độ tuổi lao động; � 67 trở đi: 3 � Ngoài độ tuổi lao động; và tạo ra một biến mới là newage và nhãn giá trị new_age

thangpn@vfu.edu.vn

recode age (0/17 = 1 “Dưới độ tuổi lao động”) (18/65=2 “Độ tuổi lao động”) (65/105 = 3 “Ngoài độ tuổi lao động”), pre(newage) label(new_age)

Sử dụng biến hệ thống

� Khi số liệu đã có trong bộ nhớ thì _N đại diện cho tổng số quan sát

� _n đại diện cho quan sát số: _n=1 quan sát thứ nhất, _n=2 cho quan sát thứ hai, đến _n=_N cho quan sát cuối cùng.

Chúng ta có thể ứng dụng _n để tạo chỉ mục.

thangpn@vfu.edu.vn

Chúng ta có thể ứng dụng _n để tạo chỉ mục.

gen caseID = _n

Sử dụng biến hệ thống

� Trong stata còn cho phép hiển thị dữ liệu của một ô cụ thể trong dữ liệu.

� Biến hệ thống _n còn có ứng dụng trong dữ liệu dạng series. Nếu chúng ta có dữ liệu hàng ngày về giá của một cổ phiếu cụ thể trên thị trường chứng khoán với tên biến là open. Như vậy, chúng ta muốn tính giao động

thangpn@vfu.edu.vn

biến là open. Như vậy, chúng ta muốn tính giao động giá của ngày hôm sau so với hôm trước:

sysuse sp500

gen difopen = open – open[_n-1]

Quản lý bộ nhớ

� Mặc định Stata thiết lập bộ nhớ là 10MB, nhưng nếu dữ liệu của bạn lớn hơn 10MB thì cần đặt lại kích thước bộ nhớ: set memory #[b|k|m|g]

b: byte; k: kilobyte; m: megabyte; g: gigabyte

Ví dụ:

set memory 120m.

thangpn@vfu.edu.vn

set memory 120m.

set memory 3g

op sys refuses to provide memory

no; data in memory would be lost

Nối số liệu

� Nối 2 hay nhiều file dữ liệu stata (append hoặc merge).

� Nối 2 số liệu theo observation (case) ta sử dụng append.

� Nối 2 số liệu theo biến ta sử dụng merge (chú ý khi trước khi sử dụng lệnh merge thì cả 2 số liệu phải được sắp xếp – lệnh sort).

thangpn@vfu.edu.vn

sắp xếp – lệnh sort).

Nối số liệu (append)

� Cú pháp:

append using filename [, options]

Trong đó options:

� keep(varlist) � Chúng ta có thể chỉ nối một số biến cụ thể từ số liệu using được xác định trong varlist, nếu không có xác định keep thì mặc định là tất cả các biến

thangpn@vfu.edu.vn

không có xác định keep thì mặc định là tất cả các biến sẽ được nối.

list � Hiển thị kết quả sau khi nối.

Nối số liệu(merge)

� Trong lệnh merge số liệu master là trong bộ nhớ, còn số liệu using là dữ liệu để merge vào.

merge [varlist] using filename [filename ...] [, options]

� Mặc định tạo ra biến _merge nhận 3 giá trị� 1 Quan sát chỉ có trong số liệu master� 2 Quan sát chỉ có trong số liệu using

thangpn@vfu.edu.vn

� 2 Quan sát chỉ có trong số liệu using� 3 Quan sát có cả trong master và using

� Merge bạn có thể quan hệ 1-1, 1-nhiều, nhiều nhiều

Nối số liệu� Ví dụ 1: nối 1-1, trước khi nối ta phải sort số liệu trước.

use “thuc_hanh1.dta”,clear

merge using “thuc_hanh2.dta”

file thuc_hanh1.dta là master file, còn file thuc_hanh2.dta là using file

Ví dụ 2: sử dụng biến để nối (thường là biến id)

thangpn@vfu.edu.vn

use “thuc_hanh1.dta”,clear

sort id

save, replace // lưu và thay số liệu trong file

use “thuc_hanh2.dta”,clear � là số liệu master.

sort id

merge number using “thuc_hanh1.dta”

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

thangpn@vfu.edu.vn

44

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Các tham số đo lường thống kê

Đo mức độ đại biểu Đo độ biến thiên

Số bình quân Khoảng biến thiên

thangpn@vfu.edu.vn

45

Số bình quân

Mốt

Trung vị

Khoảng biến thiên

Phương sai

Độ lệch tiêu chuẩn

Hệ số biến thiên

Các tham số đo mức độ đại biểu

� Nêu lên đặc điểm chung của hiện tượng KT- XH số lớn

� So sánh các hiện tượng không cùng qui mô

� Nghiên cứu quá trình biến động qua thời gian.

� Chiếm vị trí quan trọng trong việc vận dụng các phương pháp phân tích và dự đoán

thangpn@vfu.edu.vn

46

Số bình quân

KN về số bình quân:

Số bình quân trong thống kê là là trị số biểu hiện mức độ đại biểu theo một chỉ tiêu nào đó của hiện tượng KT-XH bao gồm nhiều đơn vị cùng loại

Đặc điểm của số bình quân

Mức độ đặc trưng nhất, khái quát nhất của tổng thể

thangpn@vfu.edu.vn

� Mức độ đặc trưng nhất, khái quát nhất của tổng thể bao gồn nhiều đơn vị cùng loại

� Là kết quả của sự san bằng mọi chênh lệch

� Chịu ảnh hưởng lớn bởi lượng biến có tần số lớn nhất

47

Số bình quân cộng

a) Số bình quân cộng giản đơn

nxinxxxxn

i

n //)....(1

21 ∑=

=+++=

thangpn@vfu.edu.vn

48

b) Số bình quân cộng gia quyền

=

==++++++=n

i

i

n

i

ii

nnn

f

fx

ffffxfxfxx

1

1212211 )..../()....(

Bình quân hình học – geometric mean

� a/ Điều kiện vận dụng : Các lượng biến có quan hệtích số.

� b/ Công thức:

� Số bình quân nhân giản đơn

� Số bình quân nhân gia quyền

nn21 x.......x.xx =

n21 n21f...ff fn

f2

f1 x.....x.xx +++

=

49

2.2 - Mốt (mode) – M0

a/ K�- Đối với dãy số không có khoảng cách tổ:

Mốt là lượng biến hoặc biểu hiện được gặp nhiều nhất trong dãy số phân phối.Cách xác định M0

Xác định lượng biến hoặc biểu hiện có tần số lớn nhất trong

thangpn@vfu.edu.vn

50

Xác định lượng biến hoặc biểu hiện có tần số lớn nhất trong dãy số phân phối, đó chính là M0.

B2 : Tính giá trị gần đúng của M0 theo công thức:

DD

)ff()ff(

ff.hxM

100100

100

0min0

MMMM

MM

MM0

+−

−+−

−+=

51

)DD()DD(

DD.hxM

100100

100

0min0

MMMM

MM

MM0

+−

−+−

−+=

2.3 – Trung vị (Median) – Me

a/ KN

Trung vị là lượng biến của đơn vị đứng vị trí chính giữa trong dãy số lượng biến, chia số đơn vị trong dãy số thành 2 phần bằng nhau.

b/ Cách xác định trung vị

Xác định đơn vị đứng ở vị trí chính giữa

thangpn@vfu.edu.vn

52

- Xác định đơn vị đứng ở vị trí chính giữa

+ Nếu số đơn vị tổng thể là số lẻ (n = 2m + 1) thì đơn vị đứng ở vị trí chính giữa là đơn vị thứ m + 1.

+ Nếu số đơn vị tổng thể là số chẵn (n = 2m) thì đơn vị đứng ở vị trí chính giữa là đơn vị thứ m và m +1

- Chú ý:

+ Trung vị là lượng biến của đơn vị đứng ở vị trí chính giữa chứ không phải lượng biến đứng chính giữa.

+ Khi xác định trung vị phải xác định đơn vị đứng ở vị trí chính giữa trong dãy số lượng biến nên dãy số này phải được sắp xếp theo thứ tự nhất định (từ nhỏ đến

thangpn@vfu.edu.vn

53

lớn hoặc ngược lại).

- Tính trung vị:

+ Đối với dãy số không có khoảng cách tổ, trung vị là lượng biến của đơn vị đứng ở vị trí chính giữa

Nếu số đơn vị tổng thể là số lẻ : Me = xm+1

Nếu số đơn vị tổng thể là chẵn :

M = (x + x ) : 2

thangpn@vfu.edu.vn

54

Me = (xm + xm+1) : 2

+ Đối với dãy số có khoảng cách tổ, cần qua 2 bước

B1 : Xđ tổ chứa trung vị : là tổ chứa lượng biến của đơn vị đứng ở vị trí chính giữa .

B2 : Tính trung vị theo công thức (giả định phân phối đều đặn):

f∑

55

e

1e

emine

M

Mi

MMe f

S2

f

.hxM−

+=

Tính cho VD

c/ Tác dụng của Me :

- Bổ sung hoặc thay thế số bình quân khi cần thiết.

- Khi kết hợp với số bq cộng, mốt, trung vị có thể nêu lên đặc trưng của dãy số phân phối, cụ thể:

+ Lệch phảiLệch trái Đối xứng

Mean= Median= ModeMean MedianMode Mode MedianMean

56

Mean= Median= ModeMean MedianMode Mode MedianMean

- Trung vị được ứng dụng nhiều trong công tác kĩ thuật và phục vụ công cộng (vì ∑ xi –Me fi = min).

Trong các tham số đo mức độ đại biểu, tham số nào đo mức độ đại biểu tốt nhất?VD :

6000 $

2000 $

… Người lao động cho rằng mức lương thấp, phần lớn chỉ đạt 100$/tháng.

…. Chủ doanh nghiệp nói rằng mức ươ đạ

57

300 $

100 $

…. Chủ doanh nghiệp nói rằng mức lương khá cao, bình quân đạt 840$/tháng!

Khoảng biến thiên (R)–(Range)a/ KN : Là chênh lệch giữa lượng biến lớn nhất và lượng

biến nhỏ nhất của tiêu thức.

b/ CT : R = Xmax – Xmin

VD : Tổ 1 : 45 50 55 60 65 R1 = ?Tổ 2: 51 53 55 57 59 R2 = ?

thangpn@vfu.edu.vn

58

c/ ưu điểm : Tính toán đơn giản, cho NX nhanh về độ biến thiên của tổng thể.Nhược điểm: Cho NX không chính xác khi có các lượng biến đột xuất (quá lớn hoặc quá nhỏ).

2.2 – Phương sai ( σ2) – (Variance)a/ KN: Là số bình quân cộng của bình phương các độ lệch

giữa lượng biến với bình quân các lượng biến đó.

b/ Công thức :

59

2

i

i2

i

i2

i2

222

i2

)x(f

f.x

f

f.)xx(

)x(n

x

n

)xx(

i

i

−=−

−=−

∑∑

∑∑

∑∑

c/ Tác dụng :

- Biểu hiện độ biến thiên tiêu thức

- Dùng nhiều trong phân tích thống kê như tính hệ số tương quan, xác định cỡ mẫu điều tra…

d/ Nhược điểm:

thangpn@vfu.edu.vn

60

- Khuếch đại sai số

- Đơn vị tính toán không phù hợp.

Độ lệch tiêu chuNn(σ)

a/ KN : Là căn bậc hai của phương sai

b/ Tác dụng:

- Là một trong những chỉ tiêu hoàn thiện nhất để đo độ biến thiên tiêu thức

thangpn@vfu.edu.vn

61

- Dùng nhiều trong các phân tích thống kê.

- Cho biết sự phân phối của các lượng biến trong một tổng thể (dựa vào định lý Chebyshev)

Thống kê mô tả

� Mô tả thống kê với biến liên tục: summarize

summarize [varlist] [if] [in] [weight] [, options]

� Trong lệnh summarize: chỉ tính bị các quan sát không có missing. Sẽ loại bỏ các quan sát có giá trị missing.

thangpn@vfu.edu.vn

Thống kê mô tả� Giá trung bình của một chiếc xe là bao nhiêu?

Dùng lệnh: summarize price

� Giá trung bình của các xe có tiêu hao nhiên liệu ở dưới mức trung bình chung 21.3 ?

thangpn@vfu.edu.vn

mức trung bình chung 21.3 ?

Dùng lệnh: summarize price if mpg<21.3

� Trung vị của mức tiêu hao nhiên liệu là gì?

Dùng lệnh: summarize mpg, detail

Thống kê mô tả

� Hiển thị số liệu thống kê giá và tiêu hao nhiên liệu đối với từng loại xe trong nước và xe nước ngoài.

sort foreign

by foreign: summarize price mpg

thangpn@vfu.edu.vn

Xử lý các giá trị missing

� Các giá trị missing trong Stata được coi như các số vô cùng lớn.

� Ví dụ: chúng ta muốn tính tính summarize (mô tả thống kê) với dữ liệu auto, ta tính mean của biến price, theo rep78.

sysuse auto

thangpn@vfu.edu.vn

sysuse autosummarize price if rep78>3 � kết quả bảng 1.1sum price if rep78>3 & rep78 <. � Kết quả bảng 1.2

Variable Obs Mean Std. Dev. Min Maxprice 34 6073 2315.435 3748 12990

Variable Obs Mean Std. Dev. Min Maxprice 29 6011.379 2055.312 3748 11995

Bảng 1.1

Bảng 1.2

Bảng tần suất 1 chiều

� Để mô tả các biến rời rạc

Cú pháp: có 2 câu lệnh cho chúng ta lựa chọntabulate varname [if] [in] [weight] [, tabulate1_options]

tab1 varlist [if] [in] [weight] [, tab1_options] � chạy cùng một lúc nhiều biến

thangpn@vfu.edu.vn

Ví dụ: Đếm số lượng xe trong nước và xe nước ngoài

tabulate foreign

Tào nhiều bảng cùng lúc

tab1 foreign mpg price

Bảng tần suất 2 chiều)

� Sử dụng bảng tần suất và bảng tương quan 2 chiều (cross-tabulation) với tabulate.

� Cú pháp: có 2 lựa chọntabulate varname1 varname2 [if] [in] [weight] [, options]

tab2 varlist [if] [in] [weight] [, options]

thangpn@vfu.edu.vn

Mô tả thống kê theo bảng của Mean, Median, và các đại lượng thống kê khác

Ví dụ: tabulate var, sum(varlist)� Với var là biến rời rạc, varlist là biến liên tục

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

thangpn@vfu.edu.vn

68

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Biểu đồ Histogram

� Histogram dùng để biểu diễn phân bố các giá trị của biến đó trong đồ thị

� Cú pháp:

histogram varname [if] [in] [weight] [,[continuous_opts |discrete_opts] options]

thangpn@vfu.edu.vn

continuous_opts: bin(#), width(#), start(#) � Với các biến là liên tục� bin(#): # là số lượng cột hiển thị trên đồ họa, nếu không xác định

bin(#) thì mặc định số lượng bin được tính theo công thức sau: # = min{sqrt(N), 10 ln(N)/ln(10)} với N là số quan sát.

� width(#): # độ rộng của từng cột cái này phụ thuộc vào số lượng cột� start(#): Mặc định # là giá trị nhỏ nhất của biến cần vẽ

Biểu đồ Histogram(2)

� discrete_opts: với các biến là rời rạc� discrete: biến số liệu là biến rời rạc

� width(#) và start(#): cũng tương tự như lựa chọn liên tục

� options:� density: đơn vị trên thang đo là mật độ (mặc định).

� fraction: tỷ lệ

thangpn@vfu.edu.vn

� frequency: đơn vị trên thang đo là tần suất, � percent: Phần trăm

Biểu đồ Histogram(3)

� options:� percent: đơn vị trên thang đo là phần trăm, tổng số chiều cao của

các cột bằng 100.

� gap(#): Khoảng cách giữa các cột, 0 <= # <100� axis_options: xlables(), ylabels(), ytitle(), xtitle().� normal: thêm đường cong mật độ chuẩn vào đồ thị.

� caption(): Trích dẫn nguồn thông tin

thangpn@vfu.edu.vn

� caption(): Trích dẫn nguồn thông tin� title(), subtitle: các tiêu đề� note(): chú thích

Ví dụ: histogram mpg� hist mpg , normal freq xtitle("so dam tren galon xang")

note("so lieu trong file auto.dat")� histogram mpg, percent� histogram mpg, fraction

Biểu đồ Histogram(4)

thangpn@vfu.edu.vn

Biểu đồ phân tán(Scatter plot)

twoway (typeplot_1 y1 x1) [(typeplot_2 y2 x2) �(typeplot_n yn xn)] [if] [in] [weight] [, options]

� typelot: là các kiểu đồ thị: � scatter: đồ thị dạng điểm phân tán� lfit: đường dự báo tuyến tính� qfit: đượng dự báo bậc hai

thangpn@vfu.edu.vn

� qfit: đượng dự báo bậc hai� fpfit: đường dự báo đa phân thức� lowess: đường LOWESS(locally weight scatterpot smoothing)

Ví dụ:

sysuse auto

scatter mpg weight // vẽ đồ thị đơn giản

Biểu đồ phân tán(Scatter plot)

� Qua biểu đồ ta có thể hình dung về mối quan hệ giữa hai đại lượng� Dạng của liên hệ: Nếu các điểm tập trung theo một dài dọc

theo đường thẳng thì có thể nói có quan hệ tuyến tính� Mức độ của mối liên hệ: Dải điểm càng hẹp thì mức độ

quan hệ càng chặt

thangpn@vfu.edu.vn

quan hệ càng chặt� Chiều hướng của mối quan hệlà tăng hay giảm.

scatter mpg weight

Biểu đồ phân tán(Scatterplot)

� Một số options:msymbol(symbolstylelist):

ssssmmmmpppplllluuuussss ssssmmmmxxxx xxxx ssssmmmmttttrrrriiiiaaaannnngggglllleeee tttt solid ssssmmmmssssqqqquuuuaaaarrrreeee ssss solid ssssmmmmddddiiiiaaaammmmoooonnnndddd dddd solid ssssmmmmcccciiiirrrrcccclllleeee oooo solid

xxxx XXXX pppplllluuuussss ++++ ssssqqqquuuuaaaarrrreeee SSSS solid ttttrrrriiiiaaaannnngggglllleeee TTTT solid ddddiiiiaaaammmmoooonnnndddd DDDD solid cccciiiirrrrcccclllleeee OOOO solid symbolstyle (if any) description synonym

thangpn@vfu.edu.vn

nnnnoooonnnneeee iiii a symbol that is invisible ppppooooiiiinnnntttt pppp a small dot

ssssmmmmssssqqqquuuuaaaarrrreeee____hhhhoooolllllllloooowwww sssshhhh hollow ssssmmmmttttrrrriiiiaaaannnngggglllleeee____hhhhoooolllllllloooowwww tttthhhh hollow ssssmmmmddddiiiiaaaammmmoooonnnndddd____hhhhoooolllllllloooowwww ddddhhhh hollow ssssmmmmcccciiiirrrrcccclllleeee____hhhhoooolllllllloooowwww oooohhhh hollow

ssssqqqquuuuaaaarrrreeee____hhhhoooolllllllloooowwww SSSShhhh hollow ttttrrrriiiiaaaannnngggglllleeee____hhhhoooolllllllloooowwww TTTThhhh hollow ddddiiiiaaaammmmoooonnnndddd____hhhhoooolllllllloooowwww DDDDhhhh hollow cccciiiirrrrcccclllleeee____hhhhoooolllllllloooowwww OOOOhhhh hollow

ssssmmmmpppplllluuuussss ssssmmmmxxxx xxxx

•scatter mpg weight, msymbol(diamond)•scatter mpg weight, msymbol(x)

Biểu đồ phân tán(Scatterplot)

� Khi vẽ chồng biểu đồ phân tán cùng các đường cong dự báo ta có thể ước lượng tốt hơn về dạng quan hệ

Ví dụ:twoway (scatter mpg weight) (lfit mpg weight) (qfit mpg weight)

thangpn@vfu.edu.vn

Biểu đồ phân tán(Scatterplot)

� Gán nhã lên các giá trị: mlabel(varlist)

� xscale () và yscale(): nolog – mặc định, log – điều chỉnh theo mật độ xuất hiện các giá trị của biến trong 1 khoảng nhất định.

Ví dụ: scatter mpg weight, xscale(log)

scatter mpg weight, msymbol(plus) mlabel(mpg)

thangpn@vfu.edu.vn

scatter mpg weight, msymbol(plus) mlabel(mpg)

Biểu đồ cột (bar plot)

� Cú pháp: twoway bar yvar xvar [if] [in] [, options]

� Options:� vertical: Đồ thị hiển thị hình cột theo chiều thẳng đứng.� horizontal: Đồ thị hiển thị hình cột theo chiều ngang� Các lựa chọn khác của tương tự như histogram

Ví dụ: sử dụng số liệu sp500 để vẽ biểu đồ bar giá thay

thangpn@vfu.edu.vn

Ví dụ: sử dụng số liệu sp500 để vẽ biểu đồ bar giá thay đổi (biến change) theo ngày (biến date)twoway bar change date in 1/52

Biểu đồ matrix

� Cú pháp: đây là đồ thị mở rộng của scatter 2 chiều

graph matrix varlist [if] [in] [weight] [, options]

y aaaaxxxxiiiissss((((2222)))) v2/v1 v2/v3 v2/v4 v2/v5 v1/v2 v1/v3 v1/v4 v1/v5 y aaaaxxxxiiiissss((((1111)))) aaaaxxxxiiiissss((((2222)))) aaaaxxxxiiiissss((((4444)))) x x

thangpn@vfu.edu.vn

aaaaxxxxiiiissss((((1111)))) aaaaxxxxiiiissss((((3333)))) aaaaxxxxiiiissss((((5555)))) x x x v5/v1 v5/v2 v5/v3 v5/v4 y aaaaxxxxiiiissss((((5555)))) y aaaaxxxxiiiissss((((4444)))) v4/v1 v4/v2 v4/v3 v4/v5 v3/v1 v3/v2 v3/v4 v3/v5 y aaaaxxxxiiiissss((((3333))))

ví dụ: sử dụng auto

sysuse auto, clear

graph mat mpg price weight length

Biểu đồ hình hộp (Box Plot)

� Có 2 kiểu biểu đồ hình hộp:graph box yvars [if] [in] [weight] [, options]graph hbox yvars [if] [in] [weight] [, options]

Ví dụ:graph box mpg

The encoding and the words used to describe the encoding are

thangpn@vfu.edu.vn

graph box mpggraph box mpg,by(foreign)

o <- outside value

adjacent line <- lower adjacent value whiskers <- 25th percentile (lower hinge) box <- median <- 75th percentile (upper hinge) whiskers adjacent line <- upper adjacent value

o o <- outside values

Biểu đồ hình tròn (Pie Chart)

� Hiển thị các phần của hình tròngraph pie varlist [if] [in] [weight] [, options]

� Chú ý: các biến trong varlist phải cùng đơn vị

� Hiển thị các phần của hình tròn theo phần trăm hoặc giá trị của biến theo biến rời rạc trong over()

thangpn@vfu.edu.vn

graph pie varname [if] [in] [weight], over(varname) [options]

� Hiển thị các phần của hình tròn theo tần suất của biến rời rạc bên trong over

graph pie [if] [in] [weight], over(varname) [options]

Biểu đồ hình tròn (Pie Chart)

� Một số option chính� over(varname): biến rời rạc

� angle0(#): # là độ nghiêng của slice đầu tiên, mặc định là 90 độ� missing: bạn muốn hiển thị giá trị missing trên biểu đồ

Ví dụ: graph pie mpg, over(foreign)

thangpn@vfu.edu.vn

Biểu đồ hình tròn (Pie Chart)

sysuse auto

gen price1 = price if price < 5000

gen price2 = price if price <8000 & price >=5000

gen price3 = price if price >=8000

graph pie price1 price2 price3 // đồ thị đơn giản loại 1

thangpn@vfu.edu.vn

graph pie price1 price2 price3 // đồ thị đơn giản loại 1

graph pie price1 price2 price3, plabel(_all percent)

graph pie price1 price2 price3, plabel(_all percent) by( foreign, total)

Biểu đồ hình cột (Bar Chart)

� Cú pháp: graph bar yvars [if] [in] [weight] [, options]

graph hbar yvars [if] [in] [weight] [, options]

� yvars: (stat): với stat là: mean median p1 p2 ... p99 sum count min max

� Options:

thangpn@vfu.edu.vn

� over( varname): varname là biến rời rạc, và bạn có thể kết hợp được nhiều over()

� by(varname): cũng tương tự như over(varname)� blabel():Mặc định là none, bar và total

Biểu đồ hình cột (Bar Chart)

� sysuse auto

� graph bar (mean) price weight, over(foreign)

� graph bar (mean) price weight (median) price weight, by(foreign)

� graph bar (mean) price weight, by(foreign) blabel (bar)

thangpn@vfu.edu.vn

Lưu lại biểu đồ

� Vẽ đồ thị: graph pie price1 price2 price3, plabel(_all percent) by(foreign, total)

� Lưu lại đồ thị: graph save "E:\graph1.gph”, replace

� Sử dụng đồ thị: graph use "E:\graph1.gph”

� Lệnh trình đơn: File->Save (trên cửa sổ biều đồ)

thangpn@vfu.edu.vn