4
Các vn đ liên quan quan mô hình xp x Lê Văn Chánh Ngày 15 tháng 12 năm 2015 Tóm tt ni dung Mt ln na, Nht, Phùng Minh Nht, li “ra đ khó”. Bài vit nh này, tôi đưa ra mt s bình lun nhm tăng sc thuyt phc v mô hình xp x (cái mà theo Nht không đáng tin cy khi bin ngu nhiên nhn c nhng giá tr mà thc t không xy ra). Ngoài ra, tôi s bàn thêm v vài điu kin trong vic xp x mt phân phi nh thc thành Poisson hoc chun, và xp x phân phi Poisson thành phân phi chun. Nu có thêm thi gian, tôi s đưa ra mt s thí d (trong trưng hp không có thi gian, tôi ch dn bài tp liên quan). 1 Bàn v mô hình hóa Mt điu bt buc phi xut hin trong mô hình hóa là b bt ràng buc. Vic b bt các ràng buc có th vì mc đích có đưc mt mô hình toán đơn gin din t “gn đúng” vn đ thc t (nu ngưi mô hình hóa thy/ chng minh s “gn đúng” đó đã đ tt thì không cn c gng xây dng mô hình phc tp hơn) hoc có th vì không tn ti mô hình thc t tha tt c các ràng buc ca “thc t”. Do đó khi s dng mô hình, ta phi tuân th theo mô hình và cn phi b đi (quên đi) các ràng buc thc t (do ý nghĩa thc t ca đi tưng cn mô hình sinh ra). Đi vi gi đnh Bài toán 8-10 (Đ cương ôn tp ĐĐXS), chúng ta phi “th lng” tt c các ràng buc và thay vào đó ta chp nhn nó như mt bin ngu nhiên nhn giá tr trên toàn min R. Đó là gi thit-ging như lut chơi- nu ta không chp nhn thì ta không th tip tc làm bt kỳ điu gì. Khi chp nhn điu đó có th dn đn điu vô lý. Thí d: có mt gia đình có s con ln tùy ý 1 . Tuy nhiên, ta có th chp nhn nó v phương din xác sut thng kê khi xp x mt s kin không bao gi xy ra bi mt s kin rt him xy ra (xác sut xy ra rt bé). Sau khi chp nhn hoc chp nhn tm thi (đ kim tra), mt câu hi quan trng ca vic mô hình hóa là mô hình có tt không?- Điu này không đưc quan tâm trong các bài tp đang đ cp đn. Thí d v ”mô hình tt”: Mt đi tưng X nhn giá tr trên tp (support) A R và đưc mô hình thành mt bin ngu nhiên X tha P(X R \ A) rt bé; khi đó ta có th xem mô hình này “tt” v mt xác sut (xem thêm Nhn xét 2.1). Nhn xét 1.1. Nhn xét thêm v khong tin cy. Nu A [μ - 3σ , μ + 3σ ] thì P(X A) P(X [μ - 3σ , μ + 3σ ]) = Φ(3) - Φ(-3)= 2Φ(3) - 1 0.9974. Do đó, nu min giá tr thc ca đi lưng ban đu, còn gi là support, cha đon [μ - 3σ , μ + 3σ ] thì bin ngu nhiên tương ng có th xp x tt/chp nhn đưc (theo nghĩa xác sut). Ý tưng này liên quan đn quy tc k - σ . 2 Xp x cho phân phi nh thc, phân phi Poisson 2.1 Xp x cho phân phi nh thc Gi s X B(n, p) vi np, n(1 - p) 5 (xem [BOM + 03]) (có th có thêm điu kin cho p, n : n 30, p (0.1, 0.9)). Khi đó ta có th xp x v mt xác sut bin ngu nhiên X (có phân phi nh thc) bi mt bin ngu nhiên Y có phân phi chun, ta vit X Y . Theo Đnh lý Moivre-Laplace, ngưi ta chn Y N (np, np(1 - p)). 1 Bài 33 (Bài tp b sung) gi đnh rng xác sut đ mt gia đình có n con là α p n , trong đó n 1, α 0, 1-p p i . 1

Các v§n đ• liên quan quan mô hình x§p x¿ ·  · 2016-09-15chøng minh sü “gƒn đúng” đó đã đı tŁt thì không cƒn cŁ g›ng xây düng mô hình phøc t⁄p

Embed Size (px)

Citation preview

Page 1: Các v§n đ• liên quan quan mô hình x§p x¿ ·  · 2016-09-15chøng minh sü “gƒn đúng” đó đã đı tŁt thì không cƒn cŁ g›ng xây düng mô hình phøc t⁄p

Các vấn đề liên quan quan mô hình xấp xỉ

Lê Văn Chánh

Ngày 15 tháng 12 năm 2015

Tóm tắt nội dung

Một lần nữa, Nhật, Phùng Minh Nhật, lại “ra đề khó”. Bài viết nhỏ này, tôi đưa ra một số bình luận nhằmtăng sức thuyết phục về mô hình xấp xỉ (cái mà theo Nhật không đáng tin cậy khi biến ngẫu nhiên nhận cảnhững giá trị mà thực tế không xảy ra). Ngoài ra, tôi sẽ bàn thêm về vài điều kiện trong việc xấp xỉ mộtphân phối nhị thức thành Poisson hoặc chuẩn, và xấp xỉ phân phối Poisson thành phân phối chuẩn. Nếu cóthêm thời gian, tôi sẽ đưa ra một số thí dụ (trong trường hợp không có thời gian, tôi chỉ dẫn bài tập liên quan).

1 Bàn về mô hình hóaMột điều bắt buộc phải xuất hiện trong mô hình hóa là bỏ bớt ràng buộc. Việc bỏ bớt các ràng buộc có thể vìmục đích có được một mô hình toán đơn giản diễn tả “gần đúng” vấn đề thực tế (nếu người mô hình hóa thấy/chứng minh sự “gần đúng” đó đã đủ tốt thì không cần cố gắng xây dựng mô hình phức tạp hơn) hoặc có thểvì không tồn tại mô hình thực tế thỏa tất cả các ràng buộc của “thực tế”. Do đó khi sử dụng mô hình, ta phảituân thủ theo mô hình và cần phải bỏ đi (quên đi) các ràng buộc thực tế (do ý nghĩa thực tế của đối tượng cầnmô hình sinh ra). Đối với giả định ở Bài toán 8-10 (Đề cương ôn tập ĐĐXS), chúng ta phải “thả lỏng” tất cảcác ràng buộc và thay vào đó ta chấp nhận nó như một biến ngẫu nhiên nhận giá trị trên toàn miền R. Đó là giảthiết-giống như luật chơi- nếu ta không chấp nhận thì ta không thể tiếp tục làm bất kỳ điều gì. Khi chấp nhậnđiều đó có thể dẫn đến điều vô lý. Thí dụ: có một gia đình có số con lớn tùy ý 1. Tuy nhiên, ta có thể chấp nhậnnó về phương diện xác suất thống kê khi xấp xỉ một sự kiện không bao giờ xảy ra bởi một sự kiện rất hiếm xảy ra(xác suất xảy ra rất bé). Sau khi chấp nhận hoặc chấp nhận tạm thời (để kiểm tra), một câu hỏi quan trọngcủa việc mô hình hóa là mô hình có tốt không?- Điều này không được quan tâm trong các bài tập đang đềcập đến. Thí dụ về ”mô hình tốt”: Một đối tượng X nhận giá trị trên tập (support) A⊂ R và được mô hình thànhmột biến ngẫu nhiên X thỏa P(X ∈ R\A) rất bé; khi đó ta có thể xem mô hình này “tốt” về mặt xác suất (xemthêm Nhận xét 2.1).

Nhận xét 1.1. Nhận xét thêm về khoảng tin cậy.Nếu A⊃ [µ−3σ ,µ +3σ ] thì

P(X ∈ A)≥ P(X ∈ [µ−3σ ,µ +3σ ]) = Φ(3)−Φ(−3) = 2Φ(3)−1≈ 0.9974.

Do đó, nếu miền giá trị thực của đại lượng ban đầu, còn gọi là support, chứa đoạn [µ−3σ ,µ +3σ ] thì biếnngẫu nhiên tương ứng có thể xấp xỉ tốt/chấp nhận được (theo nghĩa xác suất). Ý tưởng này liên quan đến quy tắck−σ .

2 Xấp xỉ cho phân phối nhị thức, phân phối Poisson

2.1 Xấp xỉ cho phân phối nhị thứcGiả sử X ∼ B(n, p) với np, n(1− p) ≥ 5 (xem [BOM+03]) (có thể có thêm điều kiện cho p, n : n ≥ 30, p ∈(0.1,0.9)). Khi đó ta có thể xấp xỉ về mặt xác suất biến ngẫu nhiên X (có phân phối nhị thức) bởi một biến ngẫunhiên Y có phân phối chuẩn, ta viết X ≈Y . Theo Định lý Moivre-Laplace, người ta chọn Y ∼N (np,np(1− p)).

1Bài 33 (Bài tập bổ sung) giả định rằng xác suất để một gia đình có n con là α pn, trong đó n≥ 1,α ∈(

0, 1−pp

].

1

Page 2: Các v§n đ• liên quan quan mô hình x§p x¿ ·  · 2016-09-15chøng minh sü “gƒn đúng” đó đã đı tŁt thì không cƒn cŁ g›ng xây düng mô hình phøc t⁄p

2

Với mong muốn đảm bảo đặc tính xác suất sau vẫn “công bằng” (và hi vọng có thể giảm thiếu sai số):

P(X ≤ x) = P(X < x+1)∀x ∈ {0, 1, ..., n}, (1)

và nhằm giảm sự sai biệt giữa range(X) = {0, 1, ..., n} và range(Y ) = R, người ta dùng mô hình xấp xỉ C.C(Continuity Correction)

P(X ≤ x) = P(X < x+1)≈ P(Y ≤ x+1/2). (2)

(Về phương diện ý nghĩa, miền giá trị ban đầu là một tập con của tập số nguyên không âm. Do đó ta chỉ áp dụngCC cho x là số nguyên (không âm).)

Với x∈Z, bằng Công thức xấp xỉ (2), chúng ta sẽ có các xấp xỉ cho P(X < x), P(X ≤ x), P(X > x), P(X ≥ x).Cụ thể

P(X < x) = P(X ≤ x−1)≈ P(Y ≤ x−0.5),P(X ≤ x) = P(X < x+1)≈ P(Y ≤ x+0.5),P(X > x) = 1−P(X ≤ x)≈ 1−P(Y ≤ x+0.5),P(X ≥ x) = 1−P(X < x)≈ 1−P(Y ≤ x−0.5),.P(X = x) = P(x−1 < X < x+1)≈ P(x−0.5≤ Y ≤ x+0.5).

Một thí dụ nhằm minh họa cho CC (xem Thí dụ 2.1).

Thí dụ 2.1. Thí dụ như Hình 1. Với n đủ lớn, điều kiện đủ tốt, P(Y > 920) và P(Y < 870) trở nên rất bé. Khiđó mô hình xấp xỉ trở nên tốt hơn.

Hình 1: Minh họa CC (stas.stackexchange.com)

Nhận xét 2.1. Áp dụng quy tắc 3σ cho xấp xỉ này một biến ngẫu nhiên X ∼ B(n, p) bởi phân phối chuẩnN (np,np(1− p)), điều kiện [np−3

√np(1− p),np+3

√np(1− p)]⊂∈ [0,n] trên trở thành

µ±3σ = np±3√

np(1− p) ∈ [0,n].

Do đó n≥max{ 9(1−p)p , 9p

1−p}. Như vậy ta có thể dùng điều kiện này để đảm bảo mô hình xấp xỉ đủ “tốt".

Nhận xét 2.2. Nếu X ∼ B(n, p), đặt λ = np thì X ≈ Po(λ ). Xấp xỉ này tốt nếu n≥ 30, np < 5, p≤ 0.1)2. (TheoĐịnh lý giới hạn Poisson.)

Thí dụ 2.2. Một số thí dụ: tham khảo Jeffrey S. Simonoff, The normal approximation to the binomial, courseStatistics and Data Analysis, http://people.stern.nyu.edu/jsimonof/classes/1305/pdf/contcorr.pdf và http://www.regentsprep.org/regents/math/algtrig/ats7/blesson3.htm.

2Một số tài liệu khác đưa ra điều kiệnn≥ 20 và p≤ 0.05, hoặc n≥ 100 và np≤ 10.

Page 3: Các v§n đ• liên quan quan mô hình x§p x¿ ·  · 2016-09-15chøng minh sü “gƒn đúng” đó đã đı tŁt thì không cƒn cŁ g›ng xây düng mô hình phøc t⁄p

3

Nhận xét 2.3 (Một số thuận lợi khi xấp xỉ phân phối nhị thức thành phân phối chuẩn khi n đủ lớn.). Về phươngdiện tính toán, việc xấp xỉ phân phối nhị thức thành phân phối chuẩn làm cho việc tính toán dễ dàng hơn. Ngoàira, trong tính toán số biểu thức

(kn

)pk(1− p)n−k trở nên mất ý nghĩa khi giá trị của chúng có thể nhỏ hơn độ

chính xác đang dùng nên có thể xảy ra tình huốngm∑

k= j

(kn

)pk(1− p)n−k“ = ”0 (đối với độ chính xác nào đó).

Hơn nữa, nếu tính toán không cẩn thận biểu thức(

kn

)pk(1− p)n−k có dạng ∞.0 có thể dẫn đến sai số lớn.

Nhận xét 2.4. Tài liệu tham khảo thêm: Feller, W., On the normal approximation to the binomial distribution, TheAnnals of Mathematical Statistics, Vol. 16 No. 4, Page 319-329, 1945; “How good is the normal approximation?”[Pit93, trang 103].

2.2 Xấp xỉ cho phân phối PoissonĐối với biến ngẫu nhiên X ∼ Po(λ ), với điều kiện3 λ > 10, ta có xấp xỉ biến ngẫu nhiên này X ≈Y ∼N (λ , λ ).Ta cũng sử dụng mô hình xấp xỉ CC như trên.

Nhận xét 2.5 (Sơ đồ xấp xỉ).

B(n, p) Po(λ )

N (np,np(1− p)) N (λ ,λ )

n(1− p)> 5 np > 5

λ := np < 5

λ > 10

3 Đánh giá sai số cho CLTĐịnh lý 3.1 (Berry–Esseen4). Giả sử dãy biến ngẫu nhiên X1, X2, ... độc lập cùng phân phối, và ρ :=E|X1|3 <∞.Đặt trung bình mẫu Yn := X1+X2+···+Xn

n , và Fn là phân phối tích lũy của Yn√

, và Φ(x) là hàm phân phối tích lũycủa phân phối chuẩn tắc. Khi đó tồn tại hằng số C sao cho với mọi x, n, ta có

|Fn(x)−Φ(x)| ≤ Cρ

σ3√n. (3)

Định lý này chỉ ra tốc độ hội tụ của phân phối của trung bình mẫu về phân phối chuẩn (theo phân phối) làn−12 , trong đó n là cỡ mẫu. Cụ thể

Nhận xét 3.1. Đối với xấp xỉ dựa vào Định lý giới hạn trung tâm (CLT), ta không dùng CC.

4 Nội dung khácBài toán 1. Đơn giản hóa kết quả của Phúc Hậu (xem Hình 2).

Tài liệu tham khảo[BOM+03] Bruce L Bowerman, Richard T O’Connell, Emily Murphree, Steven C Huchendorf, Dawn C Porter,

and Patrick Schur. Business statistics in practice. McGraw-Hill/Irwin New York, NY, 2003.

[Pit93] J. Pitman. Probability. Springer Texts in Statistics. Springer, 1993.

3Tài liệu [BOM+03, trang 230] đưa ra nhiều trường hợp khác nhau của việc xấp xỉ phân phối Poisson thành phân phối chuẩn.4https://en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem.

Page 4: Các v§n đ• liên quan quan mô hình x§p x¿ ·  · 2016-09-15chøng minh sü “gƒn đúng” đó đã đı tŁt thì không cƒn cŁ g›ng xây düng mô hình phøc t⁄p

4

Hình 2: Tổng cần đơn giản