86
CHƯƠG 2 TỔG QUA PHẦ MỀM STATA TRƯỜNG ĐẠI HỌC LÂM NGHIỆP [email protected]

tin hoc UD

Embed Size (px)

Citation preview

Page 1: tin hoc UD

CHƯƠ�G 2TỔ�G QUA� PHẦ� MỀM STATA

TRƯỜNG ĐẠI HỌC LÂM NGHIỆP

[email protected]

Page 2: tin hoc UD

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

[email protected]

2

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Page 3: tin hoc UD

Giới thiệu Stata

• Stata (statistics and data) là một chương trình thống kê với những khả năng quản lý và phân tích dữ liệu, vẽ đồ thị mạnh.

• Các phiên bản của Stata (mới nhất Stata 12)• Phiên bản chuẩn Stata/IC (2047 biến)• Phiên bản đặc biệt Stata/SE (32766 biến)

[email protected]

• Phiên bản đặc biệt Stata/SE (32766 biến)• Phiên bản đa xử lý Stata/MP (xử lý nhanh)

Page 4: tin hoc UD

Khởi động và kết thúc Stata

� Cách 1: Khởi động Stata từ shortcut trên màn hình desktop

Bấm đúp chuột

� Cách 2: Khởi động từ nút Start :Start -> Programs -> Stata 10 -> StataSE 10

[email protected]

• Kết thúc chương trình Stata:• File -> Exit hoặc gõ Exit vào cửa sổ lệnh• Alt + F4• Bấm vào nút đóng X

Page 6: tin hoc UD

Các cửa sổ của Stata

Các cửa sổ của Stata được mở ra bằng việc lựa chọncác tuỳ chọn ở thanh thực đơn Windows (menu bar).Các cửa sổ này bao gồm:

� Results Hiển thị các lệnh và kết quả

� Graph Hiển thị đồ thị

� Viewer Hiển thị cửa sổ trợ giúp (help) và hiển thị nội dung các file

[email protected]

� Viewer Hiển thị cửa sổ trợ giúp (help) và hiển thị nội dung các file văn bản (text)

� Command Dùng để gõ các câu lệnh

� Review Hiển thị các lệnh đã thực hiện

� Variables Hiển thị danh sách các biến của tệp số liệu

� Data editor Hiển thị và sửa chữa số liệu dưới dạng bảng

� Do-file editor Hiển thị cửa sổ để soạn thảo chương trình

Page 7: tin hoc UD

Thanh thực đơn

� File: làm việc với tệp tin, dữ liệu, log, máy in, kết thúc

� Edit: Các thao tác biên tập dữ liệu(sao chép)

� Data: Làm việc với biến (mô tả, tạoj), liên kết dữ liệu

� Graphics: Làm việc với đồ thị

� Statistics: Làm việc với thống kê như tính tần suất, trung bình, hồi quy, j

[email protected]

bình, hồi quy, j

� Window: Dùng để hiển thị các cửa sổ như comand, Reviewj và do file

Page 8: tin hoc UD

Giao tiếp với Stata

Từ Stata 8 hỗ trợ 2 cách giao tiếp:

1. Trình tự thực hiện bằng lệnh trình đơn như sau:Chọn lệnh trên trình đơn -> hộp thoại -> chọn các tham số

2. Thực hiện bằng gõ trực tiếp câu lệnh vào cửa sổ lệnh Command

[email protected]

Kết quả của lệnh được hiển thị trong cửa sổ Results sau khi thực hiện lệnh

Page 9: tin hoc UD

Cấu trúc lệnh trong Stata

• Câu lệnh phân biệt chữ hoa chữ thường (khuyên dùng chữ thường).

• Cấu trúc câu lệnh trong Stata

command [varlist] [if exp] [in range] [weight] [using filename] [, options]

[email protected]

1. Lệnh – Command: Yêu cầu thực hiện hành động

2. Biến, tệpj.: Các đối tượng chịu tác động

3. Điều kiện(if exp): Giới hạn các quan sát chịu tác động

4. Các lựa chọn: Xác định tùy chọn khi hoàn thành lệnh

• Khi gõ bạn có thể không cần gõ tất cả câu lệnh. Ví dụ: thay vì gõ generate (tạo một biến) bạn có thể gõ gen là được.

Page 11: tin hoc UD

Ghi nhật ký làm việc Log file• Sử dụng log file: ghi lại tất cả những thao thực hiện

trong buổi làm việc. Logfile chứa các câu lệnh và bảng kết quả, không chứa biểu đồ, đồ thị. Để mở một log file:

• Từ menu vào File – Log – Begin

• Bằng câu lệnh

log using tentep [, append replace [text|smcl]]

[email protected]

log using tentep [, append replace [text|smcl]]Đuôi mở rộng của log file: .log; .smcl;• Tạm dựng ghi log: log off• Tiếp tục ghi log: log on• Đóng logfile: log close• Mở xem nội dung: type tentep [log|smcl]• Chuyển smcl-> text: translate “tentep.smcl” “tentep.txt”

Page 12: tin hoc UD

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

[email protected]

12

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Page 13: tin hoc UD

Cấu trúc dữ liệu

� Ở mỗi thời điểm Stata chỉ làm việc với một tệp dữ liệu (*.dta), khi đó dữ liệu được tải vào bộ nhớ trong (Data Editor, Data View để xem dữ liệu)

� Dữ liệu tổ chức dạng bảng gồm hàng và cột, mỗi cột là một biến(vars) tên cột là tên biến, mỗi hàng là một quan sát(obs) hày là bản ghi.

[email protected]

Page 14: tin hoc UD

Làm việc với tệp dữ liệu(1)

� Lệnh trình đơn File -> Open

� Mở tệp dữ liệu: use tentep [, clear]

Ví dụ: use “D:\data\mydata.dta”, clear

� Mở các tệp ví dụ đi kèm: sysuse tentep

Ví dụ: sysuse auto

[email protected]

Ví dụ: sysuse auto

� Chúng ta có thể xem các số liệu: File �Example datasets

Page 15: tin hoc UD

Làm việc với tệp dữ liệu(2)

� Mở bảng dữ liệu chế độ chỉ đọc� Lệnh trình đơn: Data -> Browser� Câu lệnh: browse

� Mở tệp dữ liệu và biên tập dữ liệu� Lệnh trình đơn: Data->Edit

Câu lệnh: edit

[email protected]

� Câu lệnh: edit

Page 16: tin hoc UD

Cấu trúc của file dữ liệu

� Kiểm tra cấu trúc dữ liệu, các khoảng giá trị của biến, các nhãn của biến, các nhãn của giá trị

� Sử dụng: � describe: mô tả số liệu hoặc mô tả biến� codebook: hiển thị dữ liệu kèm theo các thông kê mô tả,

giá trị missing,j

[email protected]

giá trị missing,j� list: dùng để hiển thị giá trị của biến trên màn hình kết quả

(thường kết hợp với if, in)

Page 17: tin hoc UD

Liệt kê dữ liệu� Lệnh trình đơn: Data->Describe data->List data

� Câu lệnh: list [varlist] [if] [in] [, options]� List: Liệt kê toàn bộ dữ liệu� List danh_sach_bien: Liệt kê dữ liệu của các biến trong

danh sách ví dụ: list make mpg weight

� List [danh_sach_bien] if dieu_kien: Liệt kê các biến

[email protected]

� List [danh_sach_bien] if dieu_kien: Liệt kê các biến thỏa mãn điều kiện ví dụ: list if mpg>20 & mpg<23

Page 18: tin hoc UD

Thông tin mô tả tệp dữ liệu

Contains data from E:\Stata\ado\base/a/auto.dtaobs: 74 1978 Automobile Datavars: 12 13 Apr 2007 17:45size: 3,478 (99.9% of memory free) (_dta has notes)

storage display value

� Lệnh trình đơn: Data->Describe data->Describe data in memory

� Câu lệnh: describe

[email protected]

storage display valuevariable name type format label variable label

make str18 %-18s Make and Model (Nhãn hiệu, chủng loại)price int %8.0gc Price (giá tiền)mpg int %8.0g Mileage (mpg) (số dặm đi được/galon xăng)rep78 int %8.0g Repair Record 1978 (sửa chữa thường xuyên)headroom float %6.1f Headroom (in.)trunk int %8.0g Trunk space (cu. ft.)weight int %8.0gc Weight (lbs.) (trọng lượng)length int %8.0g Length (in.)turn int %8.0g Turn Circle (ft.) displacement int %8.0g Displacement (cu. in.)gear_ratio float %6.2f Gear Ratioforeign byte %8.0g origin Car type (nhập khẩu hay trong nước)

Sorted by: foreign

Page 19: tin hoc UD

Kiểu dữ liệu và định dạng

Kiểu biến Giá trị nhỏ nhất Giá trị lớn nhất Loại biếnbyte -127 100 Số nguyênint -32,767 32,740 Số nguyênlong -2,147,483,647 2,147,483,620 Số nguyên

Các thông tin về biến

� Tên biến(variable name): tối đa 32 ký tự, gồm chữ, số, dấu gạch dưới “_”, luôn bắt đầu bằng chứ hoặc “_” gồm biến kiểu số, biến ký tự.

� Kiểu dữ liệu(storage type): được mô tả trong bảng sau

[email protected]

float -1.70141173319*10^38 1.70141173319*10^38 Số thực

double -8.9884656743*10^307 8.9884656743*10^307 Số thực

str 1 80 Ký tự

Định dạng Mô tả Ví dụ%#.#g Định dạng số tổng quát %9.0g Số có độ dài 9 chữ số

%#.#f Định dạng số có độ dài cố định%9.2f độ dài 9, có 2 chữ số thập phân

%#s Định dạng xâu ký tự %15s xâu có độ dài 15 ký tự

• Định dạng hiển thị(display format)

•“-” Căn trái ; “c” nhóm 3 số thành nhóm ví dụ: %-9.0gc

Page 20: tin hoc UD

Hàm định dạng - format

� Cú pháp: format varlist %fmt

� Với %fmt: � %w.df: w là chiều dài của số, d là số chữ số sau phần

thập phân� ví dụ: 1.5235 nếu định dạng %8.2f � 1.52� %w.0g: w chiều dài của số đó

[email protected]

� %w.0g: w chiều dài của số đó � int %8.0g

� byte %8.0g� long %12.0g� float %9.0g

� double %10.0g

� str# %#s� format length %9.0g

Page 21: tin hoc UD

Tạo tệp dữ liệu(1)

� Tạo tệp dữ liệu, tạo biến (generate): Có 2 cách gán giá trị và label của biến:� Cách 1: Tạo tập dữ liệu từ cửa sổ biên tập� Cách 2: Dùng lệnh tạo tập dữ liệu

[email protected]

Page 22: tin hoc UD

Tạo tệp dữ liệu(2)� Cách 1: Tạo tập dữ liệu từ cửa sổ biên tập

1. Dùng lệnh xóa các biến đã có: clear

2. Dùng lệnh mở cửa sổ biên tập: edit

3. Chọn ô đầu tiên trên một cột, nhập một giá trị đại diện là số hoặc ký tự vào một ô trên cột đã chọn

4. Nhắp đúp chuột lên cột biến vừa nhập, khi đó xuất

[email protected]

4. Nhắp đúp chuột lên cột biến vừa nhập, khi đó xuất hiện hộp thoại.

5. Ghi lại tệp dữ

liệu: File->Save

hoặc Save tep_ten

Nhập tên biến

Nhãn của biến

Định dạng hiển thị

Định dạng nhãn giá trị, (từ stata 9 trở đi)

Page 23: tin hoc UD

Tạo tệp dữ liệu(3)

� Cách 2: Dùng lệnh tạo tập dữ liệu

1. Dùng lệnh xóa các biến đã có: clear

2. Định nghĩa các biến: generate ten_bien=gia_tri (gia_tri chỉ có ý nghĩa làm mẫu và định dạng dữ liệu)

3. Gán nhãn biến: label variable ten_bien “nhan_bien”

[email protected]

4. Nhập các giá trị cho biến: edit

5. Ghi lại tập dữ liệu: File->Save hoặc save ten_tep

Page 24: tin hoc UD

obs thunhap tieudung

1 1 0.6

2 1.1 0.65

3 0.7 0.48

4 1.4 0.9

5 0.5 0.38

6 0.4 0.23

7 0.55 0.32

8 0.8 0.48

9 0.7 0.45

[email protected]

10 0.25 0.18

11 0.65 0.4

12 0.4 0.25

13 1.8 0.95

14 0.4 0.25

15 0.5 0.3

16 0.3 0.2

17 1 0.5

18 0.5 0.25

19 0.8 0.45

20 1.4 0.7

Page 25: tin hoc UD

Bổ sung thêm biến

� Thêm biến mới vào tập dữ liệu

1. Mở tệp dữ liệu

Cách 1:

1. Chọn ô đầu tiên trên một cột, nhập một giá trị đại diện là số hoặc ký tự vào một ô trên cột đã chọn

[email protected]

2. Nhắp đúp chuột lên cột biến vừa nhập, khi đó xuất hiện hộp thoại.

Cách 2:

1. Định nghĩa các biến: generate ten_bien=gia_tri

2. Gán nhãn biến: label variable ten_bien “nhan_bien”Lưu ý: Tạo biến không có giá trị: generate ten_bien =.

Page 26: tin hoc UD

Xóa, đổi tên biến

� Xóa biến trong tập dữ liệu

1. Mở tệp dữ liệu

Cách 1:

1. Mở cửa sổ biên tập bằng lệnh: edit

2. Chọn cột cấn xóa, Nhấp nút Delete

[email protected]

2. Chọn cột cấn xóa, Nhấp nút Delete

Cách 2:

1. Xóa bằng lệnh: drop ten_bien

Lưu ý: dùng câu lệnh sẽ xóa luôn không xác nhận lại

� Để đổi tên biến: rename ten_bien_cu ten_bien_moi.

Page 27: tin hoc UD

Gán nhãn cho giá trị(1)

� Gán nhãn cho giá trị:

Cách 1: Bằng lệnh trình đơn: Data ���� Labels���� Label values ���� Define or modify value labels

[email protected]

Page 28: tin hoc UD

Gán nhãn cho giá trị(2)

� Gán nhãn cho giá trị:

Cách 2: Bằng câu lệnh: label define ten_bien ten_nhan

Ví dụ: label define gioi 1 “Nam” 0 “Nu”

� Hiển thị các bộ nhãn dùng lện: lable dir

� Xóa bỏ nhãn: label drop ten_nhan

[email protected]

� Xóa bỏ nhãn: label drop ten_nhan

Ví dụ: label drop gioi

Xóa bỏ tất cả: label drop_all

Page 29: tin hoc UD

obs gioi thunhap tieudung

1 Nam 1 0.6

2 Nu 1.1 0.65

3 Nam 0.7 0.48

4 Nam 1.4 0.9

5 Nam 0.5 0.38

6 Nu 0.4 0.23

7 Nam 0.55 0.32

8 Nu 0.8 0.48

9 Nu 0.7 0.45

[email protected]

10 Nam 0.25 0.18

11 Nam 0.65 0.4

12 Nu 0.4 0.25

13 Nam 1.8 0.95

14 Nam 0.4 0.25

15 Nam 0.5 0.3

16 Nu 0.3 0.2

17 Nam 1 0.5

18 Nu 0.5 0.25

19 Nu 0.8 0.45

20 Nu 1.4 0.7

Page 30: tin hoc UD

Một số thao tác trên biến

� Mô tả cấu trúc dữ liệu hoặc biến ? (describe)� des varlist

� Để đổi tên biến: rename old_var new_var.

� Muốn xóa một biến trong Stata? (drop hoặc keep)�Ngược lại với drop là keep� drop var1 [var2j.]

[email protected]

� drop var1 [var2j.]� drop if var1 >=15

Page 31: tin hoc UD

Hàm toán học và Toán tử(1)

Ký hiệu Tên phép toán+ Cộng- Trừ* Nhân / Chia^ Lũy thừa

Ký hiệu Tên phép toán> Lơn hơn< Nhỏ hơn== Bằng>= Lớn hơn hoặc bằng<= Nhỏ hơn hoặc bằng~= Khác (Không bằng)!= Khác (Không bằng)

•Phép toán số học •Phép toán quan hệ

•Phép toán logic

[email protected]

Ký hiệu Tên phép toán~ Phủ định (Không)& Và| Hoặc

•Hàm: Là một dạng phép toán được xây dựng trước để tính toán. Hàm nhận vào đố số là các biến, hằng, biểu thức trong Stata có các loại hàm: Hàm toán học; Hàm thống kê; Hàm ngẫu nhiên; Hàm ký tự; Hàm ngày tháng, Hàm đặc biệt; Hàm ma trận; Hàm chuỗi thời gianVí dụ: abs(x) – lấy giá trị tuyệt đối của x; sin(x) – Hàm tính sin x

Page 32: tin hoc UD

Hàm toán học và Toán tử(2)

� Chúng ta muốn tính toán, hiển thị kết quả như một máy tính: display

� Các hàm toán học: mod(x,y), sign(x), max(x1,x2, jx3)

Ví dụ: Muốn lấy phần dư của 5 chia cho 2

display mod(5,2) � kết quả bằng 1

[email protected]

� Kết hợp lệnh gen với các hàm toán học tạo biến

ví dụ: gen phandu = mod(5,2)

Page 33: tin hoc UD

Mệnh đề if

� Cú pháp lệnh if: if bieu_thuc

Ví dụ:

summarize mgp if mpg ==20

sum mpg if(weight<2000)

� Chúng ta có thể kết hợp các toán tử với lệnh generate

[email protected]

� Chúng ta có thể kết hợp các toán tử với lệnh generate và replace.

Ví dụ: gen var1 = 3^2 * 5 và

replace var1 = 1 if var1 ==.

Page 34: tin hoc UD

Mệnh đề in� Cú pháp: cau_lenh in khoang

� Khoảng:� #: Hiển thị giá trị của biến thứ #� #/#: từ vị trị nào đến vị trí nào� f/#: từ vị trí đầu tiên đến vị trí #� #/l(last): từ vị trí # đến cuối

[email protected]

Ví dụ:

list mpg 1/10 � hiển thị giá trị của mpg từ vị trí 1 đến 10

list in f/20 �hiển thị danh sách first->20

list in -10/l �hiển thị danh sách 10 trước last

sum mpg 1/10 � tính tổng danh sách 1->10

sum mgp 20/l � tính tổng danh sách 20 ->last

Page 35: tin hoc UD

Mã hóa lại biến(1)

� Mã hóa lại biến.

recode varlist (rule) [(rule) ...] [, generate(newvar)]

Luật (rule) Ví dụ Ý nghĩa

# = # 3 = 1 3 mã thành 1

# # = # 2 . = 9 2 và . mã thành 9

[email protected]

#/# = # 1/5 = 4 1 đến 5 mã thành 4

nonmissing = # nonmiss = 8 Tất cả không trống thành 8

missing = # miss = 9 Tất cả trống thành 9

Page 36: tin hoc UD

Mã hóa lại biến(2)

� Ví dụ: mã biến tuổi(age), tạo biến mới và gán nhãn: � 0 – 17: 1 � Dưới độ tuổi lao động; � 18-65:2 � Độ tuổi lao động; � 67 trở đi: 3 � Ngoài độ tuổi lao động; và tạo ra một biến mới là newage và nhãn giá trị new_age

[email protected]

recode age (0/17 = 1 “Dưới độ tuổi lao động”) (18/65=2 “Độ tuổi lao động”) (65/105 = 3 “Ngoài độ tuổi lao động”), pre(newage) label(new_age)

Page 37: tin hoc UD

Sử dụng biến hệ thống

� Khi số liệu đã có trong bộ nhớ thì _N đại diện cho tổng số quan sát

� _n đại diện cho quan sát số: _n=1 quan sát thứ nhất, _n=2 cho quan sát thứ hai, đến _n=_N cho quan sát cuối cùng.

Chúng ta có thể ứng dụng _n để tạo chỉ mục.

[email protected]

Chúng ta có thể ứng dụng _n để tạo chỉ mục.

gen caseID = _n

Page 38: tin hoc UD

Sử dụng biến hệ thống

� Trong stata còn cho phép hiển thị dữ liệu của một ô cụ thể trong dữ liệu.

� Biến hệ thống _n còn có ứng dụng trong dữ liệu dạng series. Nếu chúng ta có dữ liệu hàng ngày về giá của một cổ phiếu cụ thể trên thị trường chứng khoán với tên biến là open. Như vậy, chúng ta muốn tính giao động

[email protected]

biến là open. Như vậy, chúng ta muốn tính giao động giá của ngày hôm sau so với hôm trước:

sysuse sp500

gen difopen = open – open[_n-1]

Page 39: tin hoc UD

Quản lý bộ nhớ

� Mặc định Stata thiết lập bộ nhớ là 10MB, nhưng nếu dữ liệu của bạn lớn hơn 10MB thì cần đặt lại kích thước bộ nhớ: set memory #[b|k|m|g]

b: byte; k: kilobyte; m: megabyte; g: gigabyte

Ví dụ:

set memory 120m.

[email protected]

set memory 120m.

set memory 3g

op sys refuses to provide memory

no; data in memory would be lost

Page 40: tin hoc UD

Nối số liệu

� Nối 2 hay nhiều file dữ liệu stata (append hoặc merge).

� Nối 2 số liệu theo observation (case) ta sử dụng append.

� Nối 2 số liệu theo biến ta sử dụng merge (chú ý khi trước khi sử dụng lệnh merge thì cả 2 số liệu phải được sắp xếp – lệnh sort).

[email protected]

sắp xếp – lệnh sort).

Page 41: tin hoc UD

Nối số liệu (append)

� Cú pháp:

append using filename [, options]

Trong đó options:

� keep(varlist) � Chúng ta có thể chỉ nối một số biến cụ thể từ số liệu using được xác định trong varlist, nếu không có xác định keep thì mặc định là tất cả các biến

[email protected]

không có xác định keep thì mặc định là tất cả các biến sẽ được nối.

list � Hiển thị kết quả sau khi nối.

Page 42: tin hoc UD

Nối số liệu(merge)

� Trong lệnh merge số liệu master là trong bộ nhớ, còn số liệu using là dữ liệu để merge vào.

merge [varlist] using filename [filename ...] [, options]

� Mặc định tạo ra biến _merge nhận 3 giá trị� 1 Quan sát chỉ có trong số liệu master� 2 Quan sát chỉ có trong số liệu using

[email protected]

� 2 Quan sát chỉ có trong số liệu using� 3 Quan sát có cả trong master và using

� Merge bạn có thể quan hệ 1-1, 1-nhiều, nhiều nhiều

Page 43: tin hoc UD

Nối số liệu� Ví dụ 1: nối 1-1, trước khi nối ta phải sort số liệu trước.

use “thuc_hanh1.dta”,clear

merge using “thuc_hanh2.dta”

file thuc_hanh1.dta là master file, còn file thuc_hanh2.dta là using file

Ví dụ 2: sử dụng biến để nối (thường là biến id)

[email protected]

use “thuc_hanh1.dta”,clear

sort id

save, replace // lưu và thay số liệu trong file

use “thuc_hanh2.dta”,clear � là số liệu master.

sort id

merge number using “thuc_hanh1.dta”

Page 44: tin hoc UD

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

[email protected]

44

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Page 45: tin hoc UD

Các tham số đo lường thống kê

Đo mức độ đại biểu Đo độ biến thiên

Số bình quân Khoảng biến thiên

[email protected]

45

Số bình quân

Mốt

Trung vị

Khoảng biến thiên

Phương sai

Độ lệch tiêu chuẩn

Hệ số biến thiên

Page 46: tin hoc UD

Các tham số đo mức độ đại biểu

� Nêu lên đặc điểm chung của hiện tượng KT- XH số lớn

� So sánh các hiện tượng không cùng qui mô

� Nghiên cứu quá trình biến động qua thời gian.

� Chiếm vị trí quan trọng trong việc vận dụng các phương pháp phân tích và dự đoán

[email protected]

46

Page 47: tin hoc UD

Số bình quân

KN về số bình quân:

Số bình quân trong thống kê là là trị số biểu hiện mức độ đại biểu theo một chỉ tiêu nào đó của hiện tượng KT-XH bao gồm nhiều đơn vị cùng loại

Đặc điểm của số bình quân

Mức độ đặc trưng nhất, khái quát nhất của tổng thể

[email protected]

� Mức độ đặc trưng nhất, khái quát nhất của tổng thể bao gồn nhiều đơn vị cùng loại

� Là kết quả của sự san bằng mọi chênh lệch

� Chịu ảnh hưởng lớn bởi lượng biến có tần số lớn nhất

47

Page 48: tin hoc UD

Số bình quân cộng

a) Số bình quân cộng giản đơn

nxinxxxxn

i

n //)....(1

21 ∑=

=+++=

[email protected]

48

b) Số bình quân cộng gia quyền

=

==++++++=n

i

i

n

i

ii

nnn

f

fx

ffffxfxfxx

1

1212211 )..../()....(

Page 49: tin hoc UD

Bình quân hình học – geometric mean

� a/ Điều kiện vận dụng : Các lượng biến có quan hệtích số.

� b/ Công thức:

� Số bình quân nhân giản đơn

� Số bình quân nhân gia quyền

nn21 x.......x.xx =

n21 n21f...ff fn

f2

f1 x.....x.xx +++

=

49

Page 50: tin hoc UD

2.2 - Mốt (mode) – M0

a/ K�- Đối với dãy số không có khoảng cách tổ:

Mốt là lượng biến hoặc biểu hiện được gặp nhiều nhất trong dãy số phân phối.Cách xác định M0

Xác định lượng biến hoặc biểu hiện có tần số lớn nhất trong

[email protected]

50

Xác định lượng biến hoặc biểu hiện có tần số lớn nhất trong dãy số phân phối, đó chính là M0.

Page 51: tin hoc UD

B2 : Tính giá trị gần đúng của M0 theo công thức:

DD

)ff()ff(

ff.hxM

100100

100

0min0

MMMM

MM

MM0

+−

−+−

−+=

51

)DD()DD(

DD.hxM

100100

100

0min0

MMMM

MM

MM0

+−

−+−

−+=

Page 52: tin hoc UD

2.3 – Trung vị (Median) – Me

a/ KN

Trung vị là lượng biến của đơn vị đứng vị trí chính giữa trong dãy số lượng biến, chia số đơn vị trong dãy số thành 2 phần bằng nhau.

b/ Cách xác định trung vị

Xác định đơn vị đứng ở vị trí chính giữa

[email protected]

52

- Xác định đơn vị đứng ở vị trí chính giữa

+ Nếu số đơn vị tổng thể là số lẻ (n = 2m + 1) thì đơn vị đứng ở vị trí chính giữa là đơn vị thứ m + 1.

+ Nếu số đơn vị tổng thể là số chẵn (n = 2m) thì đơn vị đứng ở vị trí chính giữa là đơn vị thứ m và m +1

Page 53: tin hoc UD

- Chú ý:

+ Trung vị là lượng biến của đơn vị đứng ở vị trí chính giữa chứ không phải lượng biến đứng chính giữa.

+ Khi xác định trung vị phải xác định đơn vị đứng ở vị trí chính giữa trong dãy số lượng biến nên dãy số này phải được sắp xếp theo thứ tự nhất định (từ nhỏ đến

[email protected]

53

lớn hoặc ngược lại).

Page 54: tin hoc UD

- Tính trung vị:

+ Đối với dãy số không có khoảng cách tổ, trung vị là lượng biến của đơn vị đứng ở vị trí chính giữa

Nếu số đơn vị tổng thể là số lẻ : Me = xm+1

Nếu số đơn vị tổng thể là chẵn :

M = (x + x ) : 2

[email protected]

54

Me = (xm + xm+1) : 2

Page 55: tin hoc UD

+ Đối với dãy số có khoảng cách tổ, cần qua 2 bước

B1 : Xđ tổ chứa trung vị : là tổ chứa lượng biến của đơn vị đứng ở vị trí chính giữa .

B2 : Tính trung vị theo công thức (giả định phân phối đều đặn):

f∑

55

e

1e

emine

M

Mi

MMe f

S2

f

.hxM−

+=

Tính cho VD

Page 56: tin hoc UD

c/ Tác dụng của Me :

- Bổ sung hoặc thay thế số bình quân khi cần thiết.

- Khi kết hợp với số bq cộng, mốt, trung vị có thể nêu lên đặc trưng của dãy số phân phối, cụ thể:

+ Lệch phảiLệch trái Đối xứng

Mean= Median= ModeMean MedianMode Mode MedianMean

56

Mean= Median= ModeMean MedianMode Mode MedianMean

- Trung vị được ứng dụng nhiều trong công tác kĩ thuật và phục vụ công cộng (vì ∑ xi –Me fi = min).

Page 57: tin hoc UD

Trong các tham số đo mức độ đại biểu, tham số nào đo mức độ đại biểu tốt nhất?VD :

6000 $

2000 $

… Người lao động cho rằng mức lương thấp, phần lớn chỉ đạt 100$/tháng.

…. Chủ doanh nghiệp nói rằng mức ươ đạ

57

300 $

100 $

…. Chủ doanh nghiệp nói rằng mức lương khá cao, bình quân đạt 840$/tháng!

Page 58: tin hoc UD

Khoảng biến thiên (R)–(Range)a/ KN : Là chênh lệch giữa lượng biến lớn nhất và lượng

biến nhỏ nhất của tiêu thức.

b/ CT : R = Xmax – Xmin

VD : Tổ 1 : 45 50 55 60 65 R1 = ?Tổ 2: 51 53 55 57 59 R2 = ?

[email protected]

58

c/ ưu điểm : Tính toán đơn giản, cho NX nhanh về độ biến thiên của tổng thể.Nhược điểm: Cho NX không chính xác khi có các lượng biến đột xuất (quá lớn hoặc quá nhỏ).

Page 59: tin hoc UD

2.2 – Phương sai ( σ2) – (Variance)a/ KN: Là số bình quân cộng của bình phương các độ lệch

giữa lượng biến với bình quân các lượng biến đó.

b/ Công thức :

59

2

i

i2

i

i2

i2

222

i2

)x(f

f.x

f

f.)xx(

)x(n

x

n

)xx(

i

i

−=−

−=−

∑∑

∑∑

∑∑

Page 60: tin hoc UD

c/ Tác dụng :

- Biểu hiện độ biến thiên tiêu thức

- Dùng nhiều trong phân tích thống kê như tính hệ số tương quan, xác định cỡ mẫu điều tra…

d/ Nhược điểm:

[email protected]

60

- Khuếch đại sai số

- Đơn vị tính toán không phù hợp.

Page 61: tin hoc UD

Độ lệch tiêu chuNn(σ)

a/ KN : Là căn bậc hai của phương sai

b/ Tác dụng:

- Là một trong những chỉ tiêu hoàn thiện nhất để đo độ biến thiên tiêu thức

[email protected]

61

- Dùng nhiều trong các phân tích thống kê.

- Cho biết sự phân phối của các lượng biến trong một tổng thể (dựa vào định lý Chebyshev)

Page 62: tin hoc UD

Thống kê mô tả

� Mô tả thống kê với biến liên tục: summarize

summarize [varlist] [if] [in] [weight] [, options]

� Trong lệnh summarize: chỉ tính bị các quan sát không có missing. Sẽ loại bỏ các quan sát có giá trị missing.

[email protected]

Page 63: tin hoc UD

Thống kê mô tả� Giá trung bình của một chiếc xe là bao nhiêu?

Dùng lệnh: summarize price

� Giá trung bình của các xe có tiêu hao nhiên liệu ở dưới mức trung bình chung 21.3 ?

[email protected]

mức trung bình chung 21.3 ?

Dùng lệnh: summarize price if mpg<21.3

� Trung vị của mức tiêu hao nhiên liệu là gì?

Dùng lệnh: summarize mpg, detail

Page 64: tin hoc UD

Thống kê mô tả

� Hiển thị số liệu thống kê giá và tiêu hao nhiên liệu đối với từng loại xe trong nước và xe nước ngoài.

sort foreign

by foreign: summarize price mpg

[email protected]

Page 65: tin hoc UD

Xử lý các giá trị missing

� Các giá trị missing trong Stata được coi như các số vô cùng lớn.

� Ví dụ: chúng ta muốn tính tính summarize (mô tả thống kê) với dữ liệu auto, ta tính mean của biến price, theo rep78.

sysuse auto

[email protected]

sysuse autosummarize price if rep78>3 � kết quả bảng 1.1sum price if rep78>3 & rep78 <. � Kết quả bảng 1.2

Variable Obs Mean Std. Dev. Min Maxprice 34 6073 2315.435 3748 12990

Variable Obs Mean Std. Dev. Min Maxprice 29 6011.379 2055.312 3748 11995

Bảng 1.1

Bảng 1.2

Page 66: tin hoc UD

Bảng tần suất 1 chiều

� Để mô tả các biến rời rạc

Cú pháp: có 2 câu lệnh cho chúng ta lựa chọntabulate varname [if] [in] [weight] [, tabulate1_options]

tab1 varlist [if] [in] [weight] [, tab1_options] � chạy cùng một lúc nhiều biến

[email protected]

Ví dụ: Đếm số lượng xe trong nước và xe nước ngoài

tabulate foreign

Tào nhiều bảng cùng lúc

tab1 foreign mpg price

Page 67: tin hoc UD

Bảng tần suất 2 chiều)

� Sử dụng bảng tần suất và bảng tương quan 2 chiều (cross-tabulation) với tabulate.

� Cú pháp: có 2 lựa chọntabulate varname1 varname2 [if] [in] [weight] [, options]

tab2 varlist [if] [in] [weight] [, options]

[email protected]

Mô tả thống kê theo bảng của Mean, Median, và các đại lượng thống kê khác

Ví dụ: tabulate var, sum(varlist)� Với var là biến rời rạc, varlist là biến liên tục

Page 68: tin hoc UD

Nội dung

Những vấn đề cơ bản sử dụng Stata1

Tổ chức và quản lý dữ liệu trong Stata2

[email protected]

68

Vẽ biểu đồ

3

4

Phân tích dữ liệu bằng Stata

Page 69: tin hoc UD

Biểu đồ Histogram

� Histogram dùng để biểu diễn phân bố các giá trị của biến đó trong đồ thị

� Cú pháp:

histogram varname [if] [in] [weight] [,[continuous_opts |discrete_opts] options]

[email protected]

continuous_opts: bin(#), width(#), start(#) � Với các biến là liên tục� bin(#): # là số lượng cột hiển thị trên đồ họa, nếu không xác định

bin(#) thì mặc định số lượng bin được tính theo công thức sau: # = min{sqrt(N), 10 ln(N)/ln(10)} với N là số quan sát.

� width(#): # độ rộng của từng cột cái này phụ thuộc vào số lượng cột� start(#): Mặc định # là giá trị nhỏ nhất của biến cần vẽ

Page 70: tin hoc UD

Biểu đồ Histogram(2)

� discrete_opts: với các biến là rời rạc� discrete: biến số liệu là biến rời rạc

� width(#) và start(#): cũng tương tự như lựa chọn liên tục

� options:� density: đơn vị trên thang đo là mật độ (mặc định).

� fraction: tỷ lệ

[email protected]

� frequency: đơn vị trên thang đo là tần suất, � percent: Phần trăm

Page 71: tin hoc UD

Biểu đồ Histogram(3)

� options:� percent: đơn vị trên thang đo là phần trăm, tổng số chiều cao của

các cột bằng 100.

� gap(#): Khoảng cách giữa các cột, 0 <= # <100� axis_options: xlables(), ylabels(), ytitle(), xtitle().� normal: thêm đường cong mật độ chuẩn vào đồ thị.

� caption(): Trích dẫn nguồn thông tin

[email protected]

� caption(): Trích dẫn nguồn thông tin� title(), subtitle: các tiêu đề� note(): chú thích

Ví dụ: histogram mpg� hist mpg , normal freq xtitle("so dam tren galon xang")

note("so lieu trong file auto.dat")� histogram mpg, percent� histogram mpg, fraction

Page 72: tin hoc UD

Biểu đồ Histogram(4)

[email protected]

Page 73: tin hoc UD

Biểu đồ phân tán(Scatter plot)

twoway (typeplot_1 y1 x1) [(typeplot_2 y2 x2) �(typeplot_n yn xn)] [if] [in] [weight] [, options]

� typelot: là các kiểu đồ thị: � scatter: đồ thị dạng điểm phân tán� lfit: đường dự báo tuyến tính� qfit: đượng dự báo bậc hai

[email protected]

� qfit: đượng dự báo bậc hai� fpfit: đường dự báo đa phân thức� lowess: đường LOWESS(locally weight scatterpot smoothing)

Ví dụ:

sysuse auto

scatter mpg weight // vẽ đồ thị đơn giản

Page 74: tin hoc UD

Biểu đồ phân tán(Scatter plot)

� Qua biểu đồ ta có thể hình dung về mối quan hệ giữa hai đại lượng� Dạng của liên hệ: Nếu các điểm tập trung theo một dài dọc

theo đường thẳng thì có thể nói có quan hệ tuyến tính� Mức độ của mối liên hệ: Dải điểm càng hẹp thì mức độ

quan hệ càng chặt

[email protected]

quan hệ càng chặt� Chiều hướng của mối quan hệlà tăng hay giảm.

scatter mpg weight

Page 75: tin hoc UD

Biểu đồ phân tán(Scatterplot)

� Một số options:msymbol(symbolstylelist):

ssssmmmmpppplllluuuussss ssssmmmmxxxx xxxx ssssmmmmttttrrrriiiiaaaannnngggglllleeee tttt solid ssssmmmmssssqqqquuuuaaaarrrreeee ssss solid ssssmmmmddddiiiiaaaammmmoooonnnndddd dddd solid ssssmmmmcccciiiirrrrcccclllleeee oooo solid

xxxx XXXX pppplllluuuussss ++++ ssssqqqquuuuaaaarrrreeee SSSS solid ttttrrrriiiiaaaannnngggglllleeee TTTT solid ddddiiiiaaaammmmoooonnnndddd DDDD solid cccciiiirrrrcccclllleeee OOOO solid symbolstyle (if any) description synonym

[email protected]

nnnnoooonnnneeee iiii a symbol that is invisible ppppooooiiiinnnntttt pppp a small dot

ssssmmmmssssqqqquuuuaaaarrrreeee____hhhhoooolllllllloooowwww sssshhhh hollow ssssmmmmttttrrrriiiiaaaannnngggglllleeee____hhhhoooolllllllloooowwww tttthhhh hollow ssssmmmmddddiiiiaaaammmmoooonnnndddd____hhhhoooolllllllloooowwww ddddhhhh hollow ssssmmmmcccciiiirrrrcccclllleeee____hhhhoooolllllllloooowwww oooohhhh hollow

ssssqqqquuuuaaaarrrreeee____hhhhoooolllllllloooowwww SSSShhhh hollow ttttrrrriiiiaaaannnngggglllleeee____hhhhoooolllllllloooowwww TTTThhhh hollow ddddiiiiaaaammmmoooonnnndddd____hhhhoooolllllllloooowwww DDDDhhhh hollow cccciiiirrrrcccclllleeee____hhhhoooolllllllloooowwww OOOOhhhh hollow

ssssmmmmpppplllluuuussss ssssmmmmxxxx xxxx

•scatter mpg weight, msymbol(diamond)•scatter mpg weight, msymbol(x)

Page 76: tin hoc UD

Biểu đồ phân tán(Scatterplot)

� Khi vẽ chồng biểu đồ phân tán cùng các đường cong dự báo ta có thể ước lượng tốt hơn về dạng quan hệ

Ví dụ:twoway (scatter mpg weight) (lfit mpg weight) (qfit mpg weight)

[email protected]

Page 77: tin hoc UD

Biểu đồ phân tán(Scatterplot)

� Gán nhã lên các giá trị: mlabel(varlist)

� xscale () và yscale(): nolog – mặc định, log – điều chỉnh theo mật độ xuất hiện các giá trị của biến trong 1 khoảng nhất định.

Ví dụ: scatter mpg weight, xscale(log)

scatter mpg weight, msymbol(plus) mlabel(mpg)

[email protected]

scatter mpg weight, msymbol(plus) mlabel(mpg)

Page 78: tin hoc UD

Biểu đồ cột (bar plot)

� Cú pháp: twoway bar yvar xvar [if] [in] [, options]

� Options:� vertical: Đồ thị hiển thị hình cột theo chiều thẳng đứng.� horizontal: Đồ thị hiển thị hình cột theo chiều ngang� Các lựa chọn khác của tương tự như histogram

Ví dụ: sử dụng số liệu sp500 để vẽ biểu đồ bar giá thay

[email protected]

Ví dụ: sử dụng số liệu sp500 để vẽ biểu đồ bar giá thay đổi (biến change) theo ngày (biến date)twoway bar change date in 1/52

Page 79: tin hoc UD

Biểu đồ matrix

� Cú pháp: đây là đồ thị mở rộng của scatter 2 chiều

graph matrix varlist [if] [in] [weight] [, options]

y aaaaxxxxiiiissss((((2222)))) v2/v1 v2/v3 v2/v4 v2/v5 v1/v2 v1/v3 v1/v4 v1/v5 y aaaaxxxxiiiissss((((1111)))) aaaaxxxxiiiissss((((2222)))) aaaaxxxxiiiissss((((4444)))) x x

[email protected]

aaaaxxxxiiiissss((((1111)))) aaaaxxxxiiiissss((((3333)))) aaaaxxxxiiiissss((((5555)))) x x x v5/v1 v5/v2 v5/v3 v5/v4 y aaaaxxxxiiiissss((((5555)))) y aaaaxxxxiiiissss((((4444)))) v4/v1 v4/v2 v4/v3 v4/v5 v3/v1 v3/v2 v3/v4 v3/v5 y aaaaxxxxiiiissss((((3333))))

ví dụ: sử dụng auto

sysuse auto, clear

graph mat mpg price weight length

Page 80: tin hoc UD

Biểu đồ hình hộp (Box Plot)

� Có 2 kiểu biểu đồ hình hộp:graph box yvars [if] [in] [weight] [, options]graph hbox yvars [if] [in] [weight] [, options]

Ví dụ:graph box mpg

The encoding and the words used to describe the encoding are

[email protected]

graph box mpggraph box mpg,by(foreign)

o <- outside value

adjacent line <- lower adjacent value whiskers <- 25th percentile (lower hinge) box <- median <- 75th percentile (upper hinge) whiskers adjacent line <- upper adjacent value

o o <- outside values

Page 81: tin hoc UD

Biểu đồ hình tròn (Pie Chart)

� Hiển thị các phần của hình tròngraph pie varlist [if] [in] [weight] [, options]

� Chú ý: các biến trong varlist phải cùng đơn vị

� Hiển thị các phần của hình tròn theo phần trăm hoặc giá trị của biến theo biến rời rạc trong over()

[email protected]

graph pie varname [if] [in] [weight], over(varname) [options]

� Hiển thị các phần của hình tròn theo tần suất của biến rời rạc bên trong over

graph pie [if] [in] [weight], over(varname) [options]

Page 82: tin hoc UD

Biểu đồ hình tròn (Pie Chart)

� Một số option chính� over(varname): biến rời rạc

� angle0(#): # là độ nghiêng của slice đầu tiên, mặc định là 90 độ� missing: bạn muốn hiển thị giá trị missing trên biểu đồ

Ví dụ: graph pie mpg, over(foreign)

[email protected]

Page 83: tin hoc UD

Biểu đồ hình tròn (Pie Chart)

sysuse auto

gen price1 = price if price < 5000

gen price2 = price if price <8000 & price >=5000

gen price3 = price if price >=8000

graph pie price1 price2 price3 // đồ thị đơn giản loại 1

[email protected]

graph pie price1 price2 price3 // đồ thị đơn giản loại 1

graph pie price1 price2 price3, plabel(_all percent)

graph pie price1 price2 price3, plabel(_all percent) by( foreign, total)

Page 84: tin hoc UD

Biểu đồ hình cột (Bar Chart)

� Cú pháp: graph bar yvars [if] [in] [weight] [, options]

graph hbar yvars [if] [in] [weight] [, options]

� yvars: (stat): với stat là: mean median p1 p2 ... p99 sum count min max

� Options:

[email protected]

� over( varname): varname là biến rời rạc, và bạn có thể kết hợp được nhiều over()

� by(varname): cũng tương tự như over(varname)� blabel():Mặc định là none, bar và total

Page 85: tin hoc UD

Biểu đồ hình cột (Bar Chart)

� sysuse auto

� graph bar (mean) price weight, over(foreign)

� graph bar (mean) price weight (median) price weight, by(foreign)

� graph bar (mean) price weight, by(foreign) blabel (bar)

[email protected]

Page 86: tin hoc UD

Lưu lại biểu đồ

� Vẽ đồ thị: graph pie price1 price2 price3, plabel(_all percent) by(foreign, total)

� Lưu lại đồ thị: graph save "E:\graph1.gph”, replace

� Sử dụng đồ thị: graph use "E:\graph1.gph”

� Lệnh trình đơn: File->Save (trên cửa sổ biều đồ)

[email protected]