Upload
ngodiep
View
228
Download
8
Embed Size (px)
Citation preview
THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH
CHƯƠNG 2: THỐNG KÊ MÔ TẢ - TRÌNH BÀY BẰNG BẢNG VÀ ĐỒ THỊ
M&B –18/5/2017
1. TÓM TẮT DỮ LIỆU ĐỊNH TÍNH
Phân phối tần số
Phân phối tần số là một bảng tóm tắt dữ liệu cho thấy số lượng
phần tử xuất hiện trong mỗi nhóm không chồng chéo.
Phân phối tần suất và tần suất phần trăm
Tần suất = Tần số/n
Xem cột thứ 3 trong Bảng 2.2.
Tần suất phần trăm = tần suất * 100
Xem cột thứ 4 trong Bảng 2.2.
Thực hành dữ liệu trên Excel:
• Mở tập tin SoftDrink.xls
• Sử dụng hàm IF và SUM để đếm số lần xuất hiện của từng
loại nước ngọt trong tổng số 50 lần mua.
Ví dụ: Đặt dấu bằng ô B2 và thực hiện như sau
=IF($A2="Coke Classic",1,0)
Sau đó, copy công thức ở ô B2 sang ô C2 và sửa Coke
Classic thành Diet Coke, …
Sau đó copy nguyên dòng thứ 2 và kéo xuống đến dòng thứ
51.
• Tiếp theo là copy dòng tiêu đề và dòng SUM và sử dụng
Special Paste dạng Values và Tranpose, ta có Bảng 2.2
như trang 36.
Bảng 2.2: Phân phối tần số mua nước ngọt
Nước ngọt Tần số Tần suất Tần suất phần trăm
Coke
Classic 19 0.38 38
Diet Coke 8 0.16 16
Dr. Pepper 5 0.1 10
Pepsi 13 0.26 26
Sprite 5 0.1 10
Tổng 50 1 100
Thực hành dữ liệu với Stata:
• Copy cột A, mở Stata, và mở Data Editor (Edit), rồi paste
vào, và sửa lại tên biến thành brand (ngắn gọn thôi), và
lưu file là SoftDrink.dta.
• Để có Bảng 2.2, em chỉ cần gỏ lệnh này:
tab brand
Như vậy, dùng Stata nhanh hơn nhiều!
Biểu đồ thanh và biểu đồ tròn
• Để vẻ đồ thị như Hình 2.1 với Excel thì em phải sử dụng
Bảng 2.2, và hơi mất thời gian.
• Với Stata thì nhanh hơn, nhưng cần nắm một vài lệnh mới.
DO CÁC GIÁ TRỊ CỦA BIẾN BRAND ĐANG LÀ DẠNG STRING CHỨ
KHÔNG PHẢI DẠNG SỐ, NÊN KHÔNG VẼ BIỂU ĐỒ MỘT CÁCH TRỰC
TIẾP ĐƯỢC. Trước tiên, em cần dùng lệnh encode rồi dùng
lệnh hist (xem hướng dẫn Stata ở phần Kinh tế lượng căn
bản trước nhé):
encode brand, generate(brand1)
[Diễn giải lệnh encode: tạo một biến mới có tên brand1
với giá trị dạng số].
hist brand1
Hình này trông cũng được, nhưng các số 1, 2, 3, 4, 5 ở
trục hoành là gì thì hơi khó hiểu. Để làm rõ hơn, em dùng
lệnh sau đây:
0.2
.4.6
.8
De
nsity
1 2 3 4 5Brand Purchased
hist brand2, xlabel(1 2 3 4 5, valuelabel)
0.2
.4.6
.8
De
nsity
Coke Classic Diet Coke Dr. Pepper Pepsi SpriteBrand Purchased
• Vẻ biểu đồ tròn với Stata?
graph pie, over(brand1)
Coke Classic Diet Coke
Dr. Pepper Pepsi
Sprite
graph pie, over(brand1) plabel(_all sum)
19
85
13
5
Coke Classic Diet Coke
Dr. Pepper Pepsi
Sprite
graph pie, over(brand1) plabel(_all percent)
38%
16%10%
26%
10%
Coke Classic Diet Coke
Dr. Pepper Pepsi
Sprite
graph pie, over(brand1) plabel(_all percent, gap(5))
plabel(_all name, gap(-5)) legend(off)
Em có thể tham khảo thêm nhiều dạng khác của Pie Graph ở cuốn
A Visual Guide to Stata Graphics.
38%
16%
10%
26%
10%
Coke Classic
Diet Coke
Dr. Pepper
Pepsi
Sprite
2. TÓM TẮT DỮ LIỆU ĐỊNH LƯỢNG
Phân phối tần số
Ba bước cần thiết để xác định các nhóm cho một phân phối tần
số với dữ liệu định lượng:
1) Xác định số nhóm: từ 5 đến 20 nhóm.
2) Xác định độ rộng của mỗi nhóm: = (giá trị lớn nhất – giá
trị nhỏ nhất)/số nhóm
3) Xác định giới hạn nhóm
Xem Bảng 2.5, trang 45.
Phân phối tần suất và tần suất phần tram
Tần suất = Tần số/n
Tần suất phần tram = Tần suất * 100
Phân phối tích lũy
Là một dạng cộng dồn các tần suất khi giá trị các nhóm tăng
dần. Loại đồ thị này rất cần thiết trong phân tích rủi ro sử
dụng Crystal Ball để so sách lựa chọn giữa các phương án của
một dự án đầu tư. Tên gọi của kiểu so sánh này trong Crystal
Ball là Overlay Chart (sau này em có thể tham khảo ở các môn
Phân tích lợi ích – chi phí hoặc Thẩm định dự án đầu tư). Bây
giờ thì hãy tập trung môn này đi.
Bây giờ em xem ví dụ minh họa rồi sẽ hiểu, dễ mà.
Sử dụng tập tin AuditTime.xls, copy và chuyển sang Stata (như
cách là ở trên phần 1), và lưu lại với tên AuditTime.dta.
Bảng 2.4 (nhưng trong Stata thì dữ liệu được sort lại từ nhỏ
đến lớn).
Bây giờ em tạo ra năm nhóm như Bảng 2.5 (trang 45) bằng lệnh
sau đây:
generate audit=recode(audittime,14,19,24,29,34)
Chú thích: Tức tạo một biến mới tên là audit, với năm nhóm
14, 19, ….
tab audit
Nhưng người khác sẽ không hiểu audit là gì và các nhóm 14,
19, … là gì hết. Cho nên, bây giờ em phải đặt tên nhãn cho
các nhóm và biến audit nhé.
label define group 14 "10 to 14" 19 "15 to 19" 24 "20 to 24"
29 "25 to 29" 34 "30 to 34"
label values audit group
label variable audit "Audit time, day"
tab audit
Bảng ở trên chính là Bảng 2.7, trang 48 đó em.
Hơi vất vả tí, nhưng vẫn nhanh và thú vị hơn so với Excel.
Đúng không?
Đồ thị điểm
Đồ thị phân phối (Histogram)
hist audit, xlabel(14 19 24 29 34, valuelabel)
Ở Hình 2.5, trang 48 có đưa ra 4 hình dáng phân phối (lệch
trái, lệch phải, đối xứng, và lệch phải nhiều). Bây giờ thì
em chưa hiểu được ngay, chờ phần sau nói về Skewness thì em
sẽ rõ và hiểu bảng chất dữ liệu hơn.
0
.02
.04
.06
.08
De
nsity
10 to 14 15 to 19 20 to 24 25 to 29 30 to 34Audit time, day
hist audit, xlabel(14 19 24 29 34, valuelabel) frequency
normal
02
46
8
Fre
qu
en
cy
10 to 14 15 to 19 20 to 24 25 to 29 30 to 34Audit time, day
Đồ thị Ogive
. cumul audit, gen(cum)
. line cum audit, sort xlabel(14 19 24 29 34, valuelabel)
0.2
.4.6
.81
EC
DF
of a
ud
it
10 to 14 15 to 19 20 to 24 25 to 29 30 to 34Audit time, day
3. PHÂN TÍCH DỮ LIỆU THĂM DÒ: BIỂU ĐỒ NHÁNH LÁ
Sử dụng tập tin ApTest.xls, và chuyển sang tập tin Stata. Em
làm như trên nha. Nhớ cách chuyển không?
Lệnh trên Stata là stem + biến số
stem correct
4. BẢNG CHÉO VÀ ĐỒ THỊ PHÂN TÁN
(Lưu ý: Chỉ đối với trường hợp hai biến số).
Sử dụng tập tin Restaurant.xls và chuyển sang tập tin Stata
(y như trên nha). Và đặt lại tên biến qualityrating thành
quality (tên biến phải ngắn gọn).
(như đầu trang 62 trong sách).
Để lập bảng giống như Bảng 2.10 (trang 62), em phải thực hiện
một số lệnh sau:
. encode quality, gen(quality1)
. generate price=recode(mealprice,19,29,39,49)
. label define group 19 "10-19USD" 29 "20-29USD" 39 "30-39"
49 "40-49USD"
. label values price group
. tab quality1 price
BẢNG 2.11 (trang 63)
Nghịch lý Simpson thì em tự đọc nhé. Trang 63 – 65.
Đồ thị phân tán và đường xu thế
scatter sales comer
hoặc
twoway (scatter sales comer)
40
45
50
55
60
65
Sale
s V
olu
me
1 2 3 4 5No. of Commercials
twoway (scatter sales commer) (lfit sales commer)
ĐỒ THỊ DẠNG SCATTER NÀY EM SẼ DÙNG RẤT NHIỀU TRONG PHÂN TÍCH
DỮ LIỆU VÀ HỒI QUY. EM CÓ THỂ XEM THÊM TRONG CUỐN A VISUAL
GUIDE TO STATA GRAPHICS ĐỂ THỰC HÀNH THÊM.
40
45
50
55
60
65
1 2 3 4 5No. of Commercials
Sales Volume Fitted values