54
1 第第第 第第第第 第第第 第第第第 第第第第第 第第第第第 第第第第 第第第第 第第第第第第第 第第第第第第第 第第第第第第第第第 第第第第第 第第 :、 第第第第第第第第第 第第第第第 第第 :、 / / 第第第第 第第第第第 第第第第 第第第第第 第第第第第 第第第第第 第第第第第第第第 第第第第第第第第 第第第第第第 第第第第第第 第第第第第 第第第第第 第第第第第第第第第 第第第第第第第第第 第第第第 第第第第第 第第第第第 第第 、、、 第第第第 第第第第第 第第第第第 第第 、、、

第 二 章: 随机变量

  • Upload
    kineta

  • View
    149

  • Download
    0

Embed Size (px)

DESCRIPTION

上节课内容 概率理论 概率公理及推论 随机事件之间的关系:条件概率、独立 / 条件独立、贝叶斯公式 本节课内容 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 联合分布、边缘分布、条件分布、独立. 第 二 章: 随机变量. 随机变量. 统计推断是与数据相关的 。 随机变量 就是将样本空间 / 随机 事件与数据之间联系起来的纽带 随机变量 是一个映射 ,将一个实数值 赋给一个试验的每一个输出 - PowerPoint PPT Presentation

Citation preview

Page 1: 第 二 章: 随机变量

1

第二章:随机变量第二章:随机变量 上节课内容上节课内容

概率理论概率理论 概率公理及推论概率公理及推论 随机事件之间的关系:条件概率、独立随机事件之间的关系:条件概率、独立 // 条件独立、贝叶斯公条件独立、贝叶斯公

式式 本节课内容本节课内容

随机变量及其分布随机变量及其分布 随机变量变换随机变量变换 常见分布族常见分布族 多元随机向量的分布多元随机向量的分布

联合分布、边缘分布、条件分布、独立联合分布、边缘分布、条件分布、独立

Page 2: 第 二 章: 随机变量

2

随机变量随机变量 统计推断是与数据相关的。统计推断是与数据相关的。随机变量随机变量就是将样本空间就是将样本空间 //

随机事件与数据之间联系起来的纽带随机事件与数据之间联系起来的纽带 随机变量随机变量是一个映射 ,将一个实数值 赋给是一个映射 ,将一个实数值 赋给

一个试验的每一个输出一个试验的每一个输出

例例 2.22.2 :抛:抛 1010 次硬币,令次硬币,令 XX((ωω)) 表示序列表示序列 ωω 中正面向上中正面向上的次数,如当 的次数,如当 ωω = HHTHHTHHTT = HHTHHTHHTT ,则,则 XX((ωω) = 6) = 6 。。

:X W® R X

Page 3: 第 二 章: 随机变量

3

随机变量的概率描述随机变量的概率描述 事件的概率 事件的概率 随机变量的概率描述随机变量的概率描述

给定一随机变量给定一随机变量 XX 及实数子集及实数子集 AA ,定义,定义

例例 2.42.4 :抛:抛 22 次硬币,令次硬币,令 XX 表示正面向上的次数,则表示正面向上的次数,则

AXAX ,1

( ) ( )( ) ( ){ }( )1 ;X A X A X Aw w-Î = = Î W ÎP P P( ) ( )( ) ( ){ }( )1 ;X x X x X xw w-= = = Î W =P P P

其中 X 表示随机变量, x 表示 X 可能的取值

( ) { }( ) ( ) { }( )0 1 4, 1 , 1 2,X TT X HT THP P P P= = = = = =

( ) { }( )2 1 4X HH= = =P P

ωω ({({ωω})}) XX((ωω))

TTTT 1/41/4 00

THTH 1/41/4 11

HTHT 1/41/4 11

HHHH 1/41/4 22

xx ((XX==xx))

00 1/41/4

11 1/21/2

22 1/41/4

Page 4: 第 二 章: 随机变量

4

随机变量的分布函数随机变量的分布函数 随机变量随机变量 XX 的的累积分布函数累积分布函数 (cumulative (cumulative

distribution function, CDF) distribution function, CDF) 定义为定义为

CDFCDF 是一个非常有用的函数:包含了随机变量的所有信息。是一个非常有用的函数:包含了随机变量的所有信息。 CDFCDF 的性质:略 (见书)的性质:略 (见书)

: [0,1]XF ®R

( ) ( )XF x X x= £P 有时记为F

( ) ( )3.7 CDF CDF , ( ) ( )X F Y G x F x G x

A X A Y A

" =

" Î = Î

公式 假定 有 , 有 。如果 ,

那么 ,有P P

( ) ( )d

X Yx F x F x X Y X Y

X Y

= =如果 任意 有 ,那么 机 量 和 同分布

不意味 与 相等,而是在概率意 下相同

对 这两个随 变 记为

这 着 义 。

Page 5: 第 二 章: 随机变量

5

例:随机变量的例:随机变量的 CDFCDF

例例 2.62.6 :公正地抛硬币:公正地抛硬币 22 次,令次,令 XX 表示正面向上的次数,则表示正面向上的次数,则

CDFCDF 右连续、非减函数右连续、非减函数 对所有实数对所有实数 xx 都有定义都有定义

虽然随机变量只取虽然随机变量只取 00 、、 11 、、 22

( ) ( ) ( )

( )

0 = 2 1 4 1 1 2

0 0

1 4 0 1

3 4 1 2

1 2

X

X X X

x

xF x

x

x

, ,则 数= = = = =

ì <ïïïï £ <ï=íï £ <ïïï ³ïî

分布函 如下:P P P

Page 6: 第 二 章: 随机变量

6

离散型随机变量的概率函数离散型随机变量的概率函数 离散型随机变量的离散型随机变量的概率函数概率函数 ((probability functionprobability function

or or probability mass functionprobability mass function, pmf), pmf) 定义为定义为

对所有的对所有的

CDFCDF与与 pmfpmf 之间的关系为:之间的关系为:

( ) ( )Xf x X x= =P

( ) ( ) ( )i

X X ix x

F x X x f x£

= £ =åP

有时记为 f

( ) 0Xx f xÎ ³R,( ) 1X i

i

f x =å

Page 7: 第 二 章: 随机变量

7

例:离散型随机变量的例:离散型随机变量的 pmfpmf

例例 2.102.10 :公正地抛硬币:公正地抛硬币 22 次,令次,令 XX 表示正面向上的次数,表示正面向上的次数,则则

概率函数为:概率函数为:

( ) ( ) ( )

( )

0 = 2 1 4 1 1 2

0 0

1 4 0 1

3 4 1 2

1 2

X

X X X

x

xF x

x

x

, ,则 数= = = = =

ì <ïïïï £ <ï=íï £ <ïïï ³ïî

分布函 如下:P P P

( )

1 4 0

1 2 1

1 4 2

0

X

x

xf x

x

otherwise

ì =ïïïï =ï=íï =ïïïïî

Page 8: 第 二 章: 随机变量

8

连续型随机变量的概率(密度)函数连续型随机变量的概率(密度)函数 对连续型随机变量对连续型随机变量 XX ,如果存在一个函数 ,使得对所有,如果存在一个函数 ,使得对所有的的 xx , ,且对任意 有, ,且对任意 有

则函数 被称为则函数 被称为概率概率密度密度函数函数 ((probability density probability density functionfunction, pdf), pdf) 。。

CDFCDF与与 pdfpdf 之间的关系:之间的关系:

在所有 可微的点在所有 可微的点 xx ,则,则

( ) ( )b

Xa

a X b f x dx< < =òP

Xfa b£0Xf ³

Xf

( ) ( ) ( ) ( ) ( ), 1x

X X XF x X x f t dt X x F x- ¥

= £ = > = -òP P

XF ( ) ( )'X Xf x F x=

注意: 是可能的( ) 1Xf x >

( ) ( )0 , XX x f x x= = ¹ "P

Page 9: 第 二 章: 随机变量

9

例:连续型随机变量的例:连续型随机变量的 CDFCDF和和 pmfpmf

例例 2.122.12 :设:设 XX有有 PDF:PDF:

显然有显然有 有该密度的随机变量为有该密度的随机变量为 (0,1)(0,1) 上的均匀分布:上的均匀分布: Uniform(0, 1)Uniform(0, 1) ,,

即在即在 00和和 11 之间随机选择一个点。之间随机选择一个点。 其其 CDFCDF 为:为:

( ) 0 1X Xf x f dx³ =ò,

( )1 0 1

0X

for xf x

otherwise

ì £ <ïï=íïïî

( )0 0

0 1

1 1X

x

F x x x

x

ì <ïïïï= £ £íïï >ïïî

Page 10: 第 二 章: 随机变量

10

分位函数 分位函数 (quantile function)(quantile function)

令随机变量令随机变量 XX的的 CDFCDF为为 FF,, CDFCDF 的反函数或分位函数的反函数或分位函数(quantile function)(quantile function) 定义为定义为

其中 。若其中 。若 FF 严格递增并且连续,则 为一个唯严格递增并且连续,则 为一个唯一确定的实数一确定的实数 xx ,使得 。,使得 。 为增函数为增函数

中值中值 (median)(median) :: 一个很有用的统计量,对噪声比较鲁棒一个很有用的统计量,对噪声比较鲁棒

( )1 inf{ : ( ) }X XF q x F x q- = >

[0,1]q Î ( )1XF q-

( )XF x q=

( )1 1 2F -

1XF-

Page 11: 第 二 章: 随机变量

11

随机变量的变换随机变量的变换 XX :老的随机变量,:老的随机变量, YY :新的随机变量,:新的随机变量,

离散:离散:

( )XX F x:

( )Y r X=

( ) ( ) ( )( )Yf y Y y r X y= = = =P P

( ){ }( ) ( )( )1; x r x y X r y-= = = ÎP P

Page 12: 第 二 章: 随机变量

12

离散型随机变量的变换离散型随机变量的变换 例例 2.452.45 :假设:假设

YY 的取值比的取值比 XX 少少,因为该变换不是一一映射。,因为该变换不是一一映射。

xx ffXX(x)(x)

-1-1 1/41/4

00 1/21/2

11 1/41/4

yy ffYY(y)(y)

00 1/21/2

11 1/21/2

( ) ( ) ( )-1 = 1 1 4 0 1 2X X X, ,P P P= = = = =

( ) ( ) ( ) ( ) ( )

2

-1 = 0 1 2 1 -1 1 1 2,

Y X

Y X Y X X

,则

=

= = = = = = + = =

P P P P P

Page 13: 第 二 章: 随机变量

13

连续型随机变量的变换连续型随机变量的变换 CDFCDF 方法方法

变换的三个步骤变换的三个步骤

1.1. 对每个对每个 yy ,计算集合,计算集合

2.2. 计算计算 CDFCDF

3.3. PDFPDF为为

{ : ( ) }yA x r x y

'( ) ( )Y Yf y F y

( ) ( ) ( ( ) )

({ ; ( ) }) ( )y

Y

A X

F y Y y r X y

x r x y f x dx

P P

P

Page 14: 第 二 章: 随机变量

14

连续型随机变量的变换连续型随机变量的变换 当当 rr 为单调增函数为单调增函数 // 减函数,定义减函数,定义 rr 的反函数 ,则的反函数 ,则

当当 XX、、 YY 存在存在一一映射一一映射时,上述结论仍可用时,上述结论仍可用—— JacobianJacobian 方法方法 分区间:在每个 区间内为单调函数,可分区间利用上述结论分区间:在每个 区间内为单调函数,可分区间利用上述结论

1s r-=

( )( ) ( ( ))Y X

ds yf y f s y

dy

Page 15: 第 二 章: 随机变量

15

证明:用 CDF方法,先求 YF y ,然后 'Y Yf y F y

1) ( ) ( )YF y Y y r X y P P

( )( ) ( )( )( ) ( )

, is increasing function

, is decreasing function

X s y s y

X s y s y

P

P

ìï £ïï=íï ³ïïî

( )( ) ( )( )( ) ( )

, is increasing function

1 , is decreasing function

X

X

F s y s y

F s y s y

ìïïï=íï -ïïî

2) 'Y Yf y F y

( )( )( ) ( )

( )( )( ) ( )

'

'

, is increasing function

1 , is decreasing function

X

X

F s y s y

F s y s y

ìïïïï=íïï -ïïî

( )( ) ( )( )

( )( ) ( )( )

, is increasing function

, is decreasing function

X

X

ds yf s y s y

dy

ds yf s y s y

dy

ìïïïïïï=íïïï -ïïïî

= ( )( ) ( )X

ds yf s y

dy

Page 16: 第 二 章: 随机变量

16

例:连续型随机变量的变换例:连续型随机变量的变换 例例 2.462.46 :: 则则

令令 则则

或直接用或直接用 JacobianJacobian 方法方法

( ) , 0xXf x e x-= >

( ) logY r X X= =

{ }: yyA x x e= £ { }: logyA x x y= £

( ) ( ) (log )YF y Y y X y= £ = £P P

( )( ) 1yy y e

XX e F e e-= £ = = -P

( )yy e

Yf y e e-=

( ) ( ) ( ) ( )1 , yy y y y e

Y Xs y r y e f y f e e e e- -= = = =

( ) ( )0

( ) 1x

xX XF x X x f s ds e-= £ = = -òP

Page 17: 第 二 章: 随机变量

17

例:连续型随机变量的变换例:连续型随机变量的变换 例:例: [[ 概率积分变换概率积分变换 ] ] XX 有连续有连续 CDF CDF ,定义随机变量,定义随机变量 YY

为 ,则为 ,则 YY为为 [0,1][0,1] 上的均匀分布,即上的均匀分布,即

对随机数产生特别有用(对随机数产生特别有用( Chp2Chp2第第 1515 题)题)

XF( )XY F X=

( ) , 0 1Y y y y£ = £ £P

Page 18: 第 二 章: 随机变量

18

x

( )XF x

0.5

1.0

0 1x 2x

证明: ( )XY F X= , 0 1y

定义 XF 的反函数为分位函数1

XF- ,即

( ){ }1 inf :X XF x F x y- = ³

( ) ( )( )XY y F X y£ = £P P

( ) ( )( )1 1( )X X XF F X F y- -= £P ( 1XF- 为增函数)

( )( )1XX F y-= £P (右边图示)

( )( )1X XF F y-= ( XF 的定义)

y= ( XF 的连续性)

假设 1 2[ , ]x x 为 XF 的平坦区域

1 2[ , ]x x x" Î

( )11( )X XF F x x- =

( ) ( )1X x X x£ = £P P

概率不等式仍然成立

Page 19: 第 二 章: 随机变量

19

常见分布族常见分布族 离散型随机变量 离散型随机变量 [Ch2, p25][Ch2, p25]

均匀均匀 (Uniform)(Uniform) 分布分布 贝努利贝努利 (Bernoulli)(Bernoulli) 分布分布 二项二项 (Binnomial)(Binnomial) 分布 分布 超几何超几何 (HyperGeometric)(HyperGeometric) 分布分布 几何几何 (Geometric)(Geometric) 分布分布 泊松泊松 (Possion)(Possion) 分布分布

连续型随机变量 连续型随机变量 [Ch2, p27][Ch2, p27] 均匀均匀 (Uniform)(Uniform) 分布分布 正态正态 (Normal)(Normal) 分布分布 GammaGamma 分布分布 BetaBeta 分布分布 分布分布 指数指数 (Exponential)(Exponential) 分布分布

2c

Page 20: 第 二 章: 随机变量

20

常见分布族常见分布族 每个分布族每个分布族

pdf/pmfpdf/pmf 形式形式 参数参数 典型应用典型应用 均值、方差均值、方差

Page 21: 第 二 章: 随机变量

21

正态分布正态分布 亦称高斯分布,亦称高斯分布,

: : 位置(位置( locationlocation )参数)参数 : : 尺度(尺度( scalescale )参数)参数

如图像处理中的多尺度分析如图像处理中的多尺度分析

m

2

2

1 ( )( ) exp

22

xf x

s

2

2

1 ( )( ) exp

22

xf x

( )2~ ,X N ms

Page 22: 第 二 章: 随机变量

22

正态分布正态分布 最重要的分布之一最重要的分布之一

在实际遇到的许多随机现象都服从或近似服从正态分布 在实际遇到的许多随机现象都服从或近似服从正态分布 如考试成绩如考试成绩

中心极限定理:随机样本的均值近似服从正态分布中心极限定理:随机样本的均值近似服从正态分布 对任意对任意 IIDIID 样本 ,则样本 ,则 1,..., nX X

2

,nX Nn

sm

æ ö÷ç ÷» ç ÷ç ÷çè ø

Page 23: 第 二 章: 随机变量

23

标准正态分布标准正态分布 当 时,正态分布称为标准正态分布,通常用当 时,正态分布称为标准正态分布,通常用 ZZ

表示服从标准正态分布的变量,记为 。表示服从标准正态分布的变量,记为 。 pdfpdf和和 CDFCDF 分别记为分别记为

标准化变换:标准化变换: 若 ,则若 ,则 若 ,则若 ,则

正态分布的线性组合仍是正态分布:若 正态分布的线性组合仍是正态分布:若 是独立的,则 是独立的,则

0, 1m s= =( )~ 0,1Z N

( )2~ ,X N ms ( ) ( )~ 0,1Z X Nm s= -

( )2~ ,X Z Nm s ms= +( )~ 0,1Z N

( )2~ , , 1,2,..,i i iX N i nms =

2

1 1 1

~ ,n n n

i i ii i i

X N m s= = =

æ ö÷ç ÷ç ÷ç ÷è øå å å

( ) ( ),z zf F

Page 24: 第 二 章: 随机变量

24

二元随机向量的联合分布二元随机向量的联合分布 离散型随机变量的联合分布:令离散型随机变量的联合分布:令 XX、、 YY 为一对离散型随机为一对离散型随机

变量,联合概率函数变量,联合概率函数 (pmf)(pmf) 定义为定义为

联合概率分布函数联合概率分布函数 (CDF)(CDF) 为:为:

(X, Y) :随机向量

( ) ( ) ( ), ,f x y X x Y y X x Y y= = = = = =且P P

( ) ( ), , ,X YF x y X x Y y= £ £P

Page 25: 第 二 章: 随机变量

25

例例 2.182.18 :对如下有两个随机变量的二元分布,变量:对如下有两个随机变量的二元分布,变量 XX和和 YY 取值为取值为 00、、 11 , ,

则 。则 。 1,1 1, 1 4 9f X YP

12/31/3

2/35/92/9X=1

1/32/91/9X=0

Y=1 Y=0联合分布

边缘分布

Page 26: 第 二 章: 随机变量

26

二元随机向量的联合分布二元随机向量的联合分布 连续型随机变量的联合分布:令连续型随机变量的联合分布:令 XX、、 YY 对一对连续型随机对一对连续型随机

变量,联合概率密度函数变量,联合概率密度函数 (pdf)(pdf) 定义为定义为

对任意集合对任意集合

联合概率分布函数联合概率分布函数 (CDF)(CDF) 为:为:

( , ) 0 ,f x y x y,

, ( , ) ,X YF x y X x Y yP

, , ( , )A

A X Y A f x y dxdyR R P

, 1f x y dxdy

Page 27: 第 二 章: 随机变量

27

边缘分布边缘分布 离散型随机变量:离散型随机变量:

( )

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( ) ( )

,.23 ,

, , 2.4

, , 2.5

X Y

Xy y

Yx x

X Y f

X

f x X x X x Y y f x y

Y

f y Y y X x Y y f x y

= = = = = =

= = = = = =

å å

å å

2 定 : 如果 有 合分布密度函

那么 的 密度函 定 如下:

的 密度函 定 :

P P

P P

义 联 数 ,

边缘 数 义

边缘 数 义为

Page 28: 第 二 章: 随机变量

28

边缘分布边缘分布 连续型随机变量:连续型随机变量:

联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布,但反之通常不成立

( ) ( ) ( ) ( ) ( ), , ,

= = 2.6X Y

X Y

f x f x y dy f y f x y dx

F F

ò ò2. 25 定 型 机 量, 密度函 是:

相 的 分布函 分 和

义 对连续 随 变 边缘 数

应 边缘 数 别标记为

Page 29: 第 二 章: 随机变量

29

独立独立

PDF 可以因式分解

( ) ( ) ( ) ( )

2.29

, . 2.6

A B

X Y

X A Y B X A Y B

X Y

Î Î = Î Î

C

定 如果 于任意 和 足以下 件,机 量 和 是相互 立的,

P P P

义 对 满 条则称两个随 变 独

记为 。

( ) ( ) ( ),

,

2.30 PDF , , ,

,

X Y

X Y X Y

X Y f x y

f x y f x f y X Y= C

定理 与 的 合 所有

且 足 ,

设 联 对

当 仅当满 时 。

Page 30: 第 二 章: 随机变量

30

独立独立

( ) ( ) ( )

( )( )

( ) ( ) ( ) ( )( ) ( ) ( )

2

- -2

2.33

,

2.34

2 0 0,

0

0, 0, 2 ,

,

x y

x y

X Y

g h

f x y x y X Y

X Y

e x yf x y

otherwise

X Y g x e h y e

f x y x y X Y

- +ìï > >ï=íïïî+¥ ´ +¥ = =

C

定理 与 成的范 是矩形(可能 限大),

如果有函 和 ( 不必是概率密度函 ) 足

例 与 有 合概率密度

与 是 的矩形域,

,有 因而,

设 组 围 无数 数 满

=g h 则 与 相互独立

时 =g h ,

Page 31: 第 二 章: 随机变量

31

随机变量之间的关系随机变量之间的关系 独立独立

当且仅当当且仅当

不独立:随机变量之间的关系用条件分布描述不独立:随机变量之间的关系用条件分布描述

条件分布:条件分布:

X YC ( ) ( ) ( ), ,X Y X Yf x y f x f y=

( )( )( )

,|

,| X Y

X YY

f x yf x y

f y=

( ) ( ) ( ) ( ) ( ), | |, | |X Y X Y Y Y X Xf x y f x y f y f y x f x= =

Page 32: 第 二 章: 随机变量

32

条件分布条件分布 离散型随机变量的条件概率函数:离散型随机变量的条件概率函数:

对连续型随机变量,条件概率定义相同,但解释不同对连续型随机变量,条件概率定义相同,但解释不同

( )( )( )

|AB

A BB

=P

PP

第一节课中随机事件的条件概率:

,|

2.35 0

,, | = | =

Y

X YX Y

Y

f y

f x yX x Y yf x y X x Y y

Y y f y

定 : , 件概率函 定

PP

P

义 当 时 条 数 义为

Page 33: 第 二 章: 随机变量

33

条件分布条件分布

给定变量给定变量 YY 时,在 时,在 XX 上的概率分布上的概率分布 对对 YY 的每个可能取值,对的每个可能取值,对 XX 都定义有一个概率分布都定义有一个概率分布 是一个概率分布,满足概率分布的所有性质,是一个概率分布,满足概率分布的所有性质,

如如

( )| |X Yf x yf

( )| |X Yf x yf

( )( )

|

, ( )| 1

( ) ( )

XY YX Y

Y Y

f x y dy f yf x y dx

f y f y= = =

òòf

Page 34: 第 二 章: 随机变量

34

例:条件分布例:条件分布( ) ( )

( )

( )|

2.39 0,1 | ,1

1 0 1

0

10 1

| 10

X

Y X

X Uniform X Y X x Uniform x

Y

xf x

x yf y x x

f

=

ì < <ïï=íïïîìïï < < <ï= -íïïïî

:例 服 , 得 的值后,生成

那么 的 分布是什么?首先注意到,

所以

设 从 当获 。

边缘

其他

其他

( ) ( ) ( )

( ) ( ) ( ) ( )

, |

,

10 1

, | 10

,1

X Y Y X X

Y X Y

x yx y f y x f x x

Y

dx duf y f x y dx

x u

ìïï < < <ï= = -íïïïî

= < <-ò ò ò

的 分布是y y 1-y

0 0 1

其他

边缘

= = - = - l og 1-y 0 y 1

Page 35: 第 二 章: 随机变量

35

联合分布、边缘分布与条件分布联合分布、边缘分布与条件分布 边缘分布与联合分布:边缘分布与联合分布:

条件分布与边缘分布、联合分布:条件分布与边缘分布、联合分布:

联合分布与条件分布、边缘分布:联合分布与条件分布、边缘分布:

( ) ( ) ( ) ( ) ( ), | |, | |X Y X Y Y Y X Xf x y f x y f y f y x f x= =f

( )( )( )

,|

,| X Y

X YY

f x yf x y

f y= f

( ) ( ) ( ) ( ), ,, , ,X X Y Y X Yf x f x y dy f y f x y dx= =ò ò

Page 36: 第 二 章: 随机变量

36

条件概率 条件概率 链规则(链规则( Chain RuleChain Rule ))

链规则链规则

或或

( ) ( ) ( )( ) ( ) ( )

, , | , ,

| , |

f x y z f x y z f y z

f x y z f y z f z

=

=

f

( ) ( ) ( ), |f x y f x y f y=f

( ) ( ) ( ) ( ), , | | , f x y z f x f y x f z x y=f

Page 37: 第 二 章: 随机变量

37

贝叶斯规则贝叶斯规则

贝叶斯规则

( ) ( ) ( ), |f x y f x y f y=f

( ) ( ) ( ), |f x y f y x f x=f

( )( ) ( )

( )|

|f y x f x

f x yf y

=f

似然似然 先验先验

后验后验

Page 38: 第 二 章: 随机变量

38

贝叶斯规则中的边缘化贝叶斯规则中的边缘化 给定 和 ,推导给定 和 ,推导

经常使用经常使用贝叶斯规则的归一化因子贝叶斯规则的归一化因子

通过边缘化,通过边缘化,

( )( ) ( )

( )|

|f y x f x

f x yf y

=f

( ) ( ) ( ) ( ), |x x

f y f x y f y x f x= =å åf

( )|f x yf ( )f yf ( )f xf

已知已知

?

Page 39: 第 二 章: 随机变量

39

边缘分布边缘分布 通过使用 通过使用 (1) (1) 边缘化边缘化和和 (2) (2) 链规则链规则,给定 ,可以,给定 ,可以

计算:计算:

( ),f x yf

( )f xf

( )f yf

( )|f x yf

( )|f y xf

Page 40: 第 二 章: 随机变量

40

条件独立条件独立 (绝对)独立:(绝对)独立:

给定给定 YY ,不会对,不会对 XX 增加任何信息增加任何信息

条件独立:若在给定条件独立:若在给定 ZZ 的情况下,的情况下, XX与与 YY 条件独立,则条件独立,则 一旦已知一旦已知 ZZ,, YY 不会对不会对 XX 提供额外的信息提供额外的信息 例:例:

( ) ( ) ( ),f x y f x f y=f( ) ( )|f x y f x=f

( ) ( )| , |f x y z f x z=f

X YC

( ) ( ) ( ), | | |f x y z f x z f y z=

( ) ( )| , |WetGrass Season Rain WetGrass Rain=P P

Page 41: 第 二 章: 随机变量

41

联合概率联合概率 联合概率:联合概率:

定义了所有可能状态的概率定义了所有可能状态的概率 二值变量的情况下有 项二值变量的情况下有 项

用 个独立变量表示用 个独立变量表示 非二值变量非二值变量 ??

如果这些变量是独立的,则如果这些变量是独立的,则 对二值变量,用对二值变量,用 nn 个独立变量表示个独立变量表示 非非二值变量二值变量 ??

( )1 2, ,..., nf x x x

( ) ( ) ( ) ( )1 2 1 2, ,..., ...n nf x x x f x f x f x=

2 1n -

2n

Page 42: 第 二 章: 随机变量

42

联合概率联合概率 若有些变量是条件独立的话,联合概率可以用少若有些变量是条件独立的话,联合概率可以用少于 个变量表示于 个变量表示

例:例: 但若但若 YY和和 WW 在给定在给定 XX下独立,且下独立,且 ZZ和和 WW、、 XX 在给定在给定 YY下下独立,则独立,则

真实问题通常是这样的,真实问题通常是这样的,贝叶斯网络贝叶斯网络就是利用了就是利用了条件独立的性质条件独立的性质

( ) ( ) ( ) ( ) ( ), , , | | |f w x y z f w f x w f y x f z y=

( ) ( ) ( ) ( ) ( ), , , | | , | , ,f w x y z f w f x w f y w x f z w x y=

2 1n -

Page 43: 第 二 章: 随机变量

43

链规则推广链规则推广 条件概率的定义条件概率的定义

递归定义:递归定义:

( ) ( ) ( )1 2 1 2 2, ,..., | ,..., ,...,n n nf x x x f x x x f x x=

( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )

1 2 1 2 2 3 1

1 2 1 3 1 2 1 1

, ,..., | ,..., | ,..., ... |

| | , ... | ,...,

n n n n n n

n n

f x x x f x x x f x x x f x x f x

f x f x x f x x x f x x x

-

-

=

=2n

1 2 4 2n-1 对二值变量对二值变量

Page 44: 第 二 章: 随机变量

44

多元随机向量的分布多元随机向量的分布 令随机向量令随机向量 ,其中 为随机变量,,其中 为随机变量,

用 表示用 表示 XX的的 pdf/pmfpdf/pmf ,先前讨论的关于二元随,先前讨论的关于二元随机向量分布的结论都可以推广到多元随机向量,如可以机向量分布的结论都可以推广到多元随机向量,如可以定义边缘分布、条件分布等定义边缘分布、条件分布等

当随机向量当随机向量 互相独立时,互相独立时,

随机向量相互独立随机向量相互独立两两独立,但反之不成立两两独立,但反之不成立

( )1,..., kX X X= 1,..., kX X( )1,..., kf x x

1,..., kX X

( ) ( )11

,...,j

k

k X jj

f x x f x=

Page 45: 第 二 章: 随机变量

45

IIDIID(( Independent Identically Independent Identically DistributionDistribution )样本)样本

当 互相独立且有相同的边缘分布当 互相独立且有相同的边缘分布 FF 时,记为 时,记为 ,我们称 为独立同分布( ,我们称 为独立同分布( Independent Independent Identically Distribution,Identically Distribution, IIDIID )样本,表示 是从相)样本,表示 是从相同分布独立抽样同分布独立抽样 //采样,我们也称 是分布采样,我们也称 是分布 FF 的随机的随机样本。若样本。若 FF 有密度有密度 ff ,也可记为,也可记为

,样本大小为,样本大小为 nn

思考题:怎样对任意分布思考题:怎样对任意分布 FF进行采样(得到多个独立同分进行采样(得到多个独立同分布的样本)?布的样本)?

1,..., nX X

1,..., ~nX X F 1,..., nX X

1,..., nX X

1,..., ~nX X f1,..., nX X

Page 46: 第 二 章: 随机变量

46

常见多元分布常见多元分布 多元二项分布多元二项分布 多元正态分布多元正态分布

Page 47: 第 二 章: 随机变量

47

多元二项分布多元二项分布 二项分布的多元变量版本二项分布的多元变量版本

其中其中

例:例:从箱子中共从箱子中共 kk 中颜色的球, 为抽取到颜色中颜色的球, 为抽取到颜色 jj 的概率,的概率,共抽取共抽取 nn 次,令 为颜色次,令 为颜色 jj 出现的次数,则出现的次数,则

( )~ ,X Multinomial n p

( ) 11

1

......

kxxk

k

nf x p p

x x

æ ö÷ç ÷=ç ÷ç ÷çè ø

( )11

,..., ,k

k jj

X X X n x=

= =å

jp

jX ( )~ Multinomial ,X n p

( )11

,..., , 0, 1k

k j jj

p p p p p=

= ³ =å

Page 48: 第 二 章: 随机变量

48

多元二项分布多元二项分布 边缘分布:若 , 其中 且 边缘分布:若 , 其中 且

,则 的边缘分布为 ,则 的边缘分布为 jX( )~ ,X Multinomial n p ( )1,..., kX X X=

( ), jBinomial n p( )1,..., kp p p=

Page 49: 第 二 章: 随机变量

49

多元正态分布多元正态分布 令 ,其中 且互相独立令 ,其中 且互相独立 则则

ZZ 的协方差矩阵为单位矩阵的协方差矩阵为单位矩阵 II ,,记为 。记为 。

1

...

k

Z

Z

Z

æ ö÷ç ÷ç ÷ç ÷=ç ÷ç ÷ç ÷÷çè ø

( )1,..., 0,1kZ Z N:

( )( ) ( )

22 2

1

1 1 1 1exp exp

2 22 2

kT

jk kj

f z z z zp p=

ì üï ï ì üï ïï ï ï ï= - = -í ý í ýï ï ï ïï ïî þï ïî þå

( )0,Z N I~

Page 50: 第 二 章: 随机变量

50

多元正态分布多元正态分布 更一般地,更一般地,

其中 表示矩阵的行列式, 为均值向量,协方差矩阵其中 表示矩阵的行列式, 为均值向量,协方差矩阵 为一个对称的正定矩阵 为一个对称的正定矩阵

( )~ ,X N mS

( )( ) ( )

( ) ( )12 1 2

1 1; , exp

22 det

T

kf x x xm m mp

-ì üï ïï ïS = - - S -í ýï ïS ï ïî þ( )det × ( )X m=E

( )X =SV

Page 51: 第 二 章: 随机变量

51

多元正态分布多元正态分布 多元正态分布有如下性质:多元正态分布有如下性质:

11 、若 且 ,则、若 且 ,则 22 、若 ,则、若 ,则 33 、若 ,、若 , aa 为与为与 XX 相同相同长度的向量,则长度的向量,则

( )0,1Z N: ( )~ ,X N mS1 2X m= +S

( )~ ,X N mS ( ) ( )1 2 0,1X Nm-S - ~

( )~ ,T T T Ta X N a a am S( )~ ,X N mS

Page 52: 第 二 章: 随机变量

52

随机向量的变换随机向量的变换 令 ,求令 ,求

1. 1. 对每个对每个 zz ,计算集合,计算集合

2. 2. 计算计算 CDFCDF

3. PDF3. PDF为为

例 例 2.482.48

{( , ) : ( , ) }zA x y r x y z

( ),Z r X Y= Zf

,

( ) ( ) ( ( , ) )

({( , ); ( , ) }) ( , )z

z

A X Y

F z Z z r X Y z

x y r x y z f x y dxdy

P P

P

'( ) ( )z zf z F z

Page 53: 第 二 章: 随机变量

53

随机向量的变换随机向量的变换 令集合令集合 集合集合 且且 AA、、 BB 存在存在一一映射一一映射时,可利用时,可利用 JacobianJacobian 方法计算方法计算

定义反变换 ,变换的定义反变换 ,变换的 JacobianJacobian 为为

((UU,,VV)) 的联合分布为的联合分布为

{ }( , ) : ( , ) 0XYA x y f x y= >{ }1 2( , ) : ( , ), ( , ), ( , )B u v u g x y v g x y x y A= = = Î

x xx y y xu vJ

y y u v u v

u x

¶ ¶¶ ¶ ¶ ¶¶ ¶= = -

¶ ¶ ¶ ¶ ¶ ¶¶ ¶

1 2( , ), ( , )U g X Y V g X Y= =

1 2( , ), ( , )x h u v y h u v= =

( ) ( ) ( )( )1 2, , , ,UV XYf u v f h u v h u v J=

Zf

思考题:求两个正态分布的和与乘积的分布

Page 54: 第 二 章: 随机变量

54

下节课内容下节课内容 作业:作业:

Chp2Chp2 :第:第 44、、 77、、 1414、、 1515 题题

下节课内容下节课内容 期望、方差期望、方差 样本均值、样本方差样本均值、样本方差 层次模型层次模型

补充教材补充教材 [CB]p162-168[CB]p162-168