方差, 相关系数以及其他数字特征

本文结算了方差, 相关系数以及其他数字特征。方差是刻画随机变量在其中心位置附近的散布程度,通过举例引入矩的概念。通过举例说明学习协方差和相关系数及其他数字特征。
展开查看详情

1.3-2: 随机变量的数字特征 张伟平

2.第三章随机变量的数字特征 3.2 方差, 相关系数以及其他数字特征 . . . . . . . 1 3.2.1 方差 (Variance) . . . . . . . . . . . . . 1 3.2.2 矩 . . . . . . . . . . . . . . . . . . . . 6 3.3 协方差和相关系数 . . . . . . . . . . . . . . . 9 3.3.1 协方差 . . . . . . . . . . . . . . . . . . 10 3.3.2 相关系数 . . . . . . . . . . . . . . . . 13 3.4 其他一些数字特征与相关函数 . . . . . . . . . 21 Previous Next First Last Back Forward 1

3. 3.2 方差, 相关系数以及其他数字特征 3.2.1 方差 (Variance) 方差是刻画随机变量在其中心位置附近的散布程度. 在实际应用 中, 方差不仅是信息度量的标准也是 风险度量的标准. 设 X 为随机变量, 分布为 F , 若 X 平方可积, 则称 V ar(X) = E(X − EX)2 = σ 2 Definition √ 为 X (或分布 F ) 的方差, 其平方根 V ar(X) = σ (取正 值) 称为 X (或分布 F ) 的标准差. Previous Next First Last Back Forward 1

4. 显然有 V ar(X) = EX 2 − (EX)2 . 对随机变量的方差, 我们可以得到 定理 1. 设 c 为常数. 则有 1. 0 ≤ V ar(X) = EX 2 − (EX)2 , 因此 V ar(X) ≤ EX 2 . 2. V ar(cX) = c2 V ar(X) 3. V ar(X) = 0 当且仅当 P (X = c) = 1, 其中 c = EX. 此时, 我们称 X 退化到常数 c. 4. 对任何常数 c 有, V ar(X) ≤ E(X − c)2 , 其中等号成立当且仅 当 c = EX. 5. 如果随机变量 X 和 Y 相互独立, a, b 为常数. 则 V ar(aX + bY ) = a2 V ar(X) + b2 V ar(Y ). Previous Next First Last Back Forward 2

5. 证明上述定理,我们介绍一个引理。 引理 1. 如果 ξ 为退化于 0 的随机变量,则有 Eξ 2 = 0;反之,如 果随机变量 ξ 的 2 阶矩存在而且 Eξ 2 = 0,则 ξ 必为退化于 0 的随 机变量. Proof. 如果 ξ 为退化于 0 的随机变量,则有 P (ξ = 0) = 1, 故有 Eξ 2 = 0。反之,如果随机变量 ξ 平方可积,并且 Eξ 2 = 0,但是 ξ 不退化于 0,则有 P (ξ = 0) < 1。那么就存在 δ > 0 和 0 < ϵ < 1, 使得 P (|ξ| > δ) > ϵ,于是 Eξ 2 > δ 2 ϵ。导致矛盾,所以 ξ 必退化到 0. Previous Next First Last Back Forward 3

6.常见分布的方差: 1. 二项分布 X ∼ B(n, p): V arX = np(1 − p) 2. Poisson 分布 X ∼ P (λ): V arX = λ 3. 均匀分布 X ∼ U [a, b]: (b − a)2 V arX = 12 4. 指数分布 X ∼ Exp(λ): V arX = 1/λ2 5. 正态分布 X ∼ N (µ, σ 2 ): V arX = σ 2 Previous Next First Last Back Forward 4

7.我们称 X − EX X∗ = √ V ar(X) Definition 为 X 的标准化随机变量. 易见 EX ∗ = 0, V ar(X ∗ ) = 1. 我们引入标准化随机变量是为了消除由于计量单位的不同而给 随机变量带来的影响. 例如, 我们考察人的身高, 那么当然可以以 米为单位, 得到 X1 , 也可以以厘米为单位, 得到 X2 . 于是就有得到 X2 = 100X1 . 那么这样一来, X2 与 X1 的分布就有所不同. 这当然是 一个不合理的现象. 但是通过标准化, 就可以消除两者之间的差别, 因 为我们有 X2∗ = X1∗ . 对于正态分布, 我们经过标准化 Y = (X − µ)/σ, 就可以得出均值为 0 方差为 1 的正态分布, 即标准正态分布. Previous Next First Last Back Forward 5

8.3.2.2 矩 下面我们引入矩 (Moments) 的概念,并将之与我们前面所说的 期望、方差建立联系. 设 X 为随机变量, c 为常数, r 为正整数, 则 E[(X − c)r ] Definition 称为 X 关于 c 点的 r 阶矩. 比较重要的有两个情况: 1. c = 0. 这时 αk = EX r 称为 X 的 r 阶原点矩. 2. c = EX. 这时 µk = E[(X − EX)r ] 称为 X 的 r 阶中心矩. 容易看出, 一阶原点矩就是期望, 二阶中心矩就是 X 的方差 V ar(X). Previous Next First Last Back Forward 6

9.• 偏度系数 [( [ ] ) ] X−µ 3 µ3 E (X − µ)3 γ1 = E = = [ ] σ σ3 (E (X − µ)2 )3/2 Previous Next First Last Back Forward 7

10.• 峰度系数 [( [ ] ) ] X−µ 4 µ4 E (X − µ)4 γ2 = E = = [ ] σ σ4 (E (X − µ)2 )2 Previous Next First Last Back Forward 8

11. 3.3 协方差和相关系数 现在我们来考虑多维随机向量的数字特征, 以二维的情况为例, 设 (X, Y ) 为二维随机变量, X, Y 本身都是一维随机变量, 那么它们 相应的均值方差, 我们都在上两节中讨论过了, 我们更有兴趣的数字 特征是反映分量之间关系的那种量, 其中最重要的, 是本节要讨论的 协方差和相关系数. 注意到 V ar(X + Y ) = V ar(X) + V ar(Y ) + 2E(X − EX)(Y − EY ) 即 X + Y 的波动性 =X 的波动性 +Y 的波动性 +X 和 Y 的相关性 Previous Next First Last Back Forward 9

12.3.3.1 协方差 如果随机变量 X 和 Y 平方可积, 我们称 Cov(X, Y ) = E(X − EX)(Y − EY ) Definition 为 X 与 Y 的协方差, 其中 Cov 是英文单词 Covariance 的缩写. 由协方差的定义, 我们立刻可以得到协方差具有如下性质: 1. Cov(X, Y ) = Cov(Y, X), Cov(X, X) = V ar(X) 2. Cov(X, Y ) = EXY − EXEY , 显然若 X、Y 相互独立, 则 Cov(X, Y ) = 0 Previous Next First Last Back Forward 10

13. 3. Cov(X1 + X2 , Y ) = Cov(X1 , Y ) + Cov(X2 , Y ) 4. 对任何实数 a1 , a2 , b1 , b2 , 有 ∑ 2 ∑ 2 Cov(a1 X1 + a2 X2 , b1 Y1 + b2 Y2 ) = ai bj Cov(Xi , Yj ) i=1 j=1 如果 ξ1 , · · · , ξn 是定义在同一概率空间下的随机变量,并且其中每个 随机变量都是平方可积的。称矩阵 Σ = (bij ) = (cov(ξi , ξj ))   D(ξ1 ) cov(ξ1 , ξ2 ) ··· cov(ξ1 , ξn )    cov(ξ2 , ξ1 ) D(ξ2 ) ··· cov(ξ2 , ξn )    =  . .. .. ..   .. . . .    cov(ξn , ξ1 ) cov(ξn , ξ2 ) ··· D(ξn ) 为 ξ1 , · · · , ξn 的协方差矩阵。显然 Σ ≥ 0。 Previous Next First Last Back Forward 11

14. ↑Example 设 (X, Y ) ∼ N (a, b, σ12 , σ22 , ρ),则 (X, Y ) 的协方差矩阵为 ( ) σ12 ρσ1 σ2 Σ= ρσ1 σ2 σ22 ↓Example Previous Next First Last Back Forward 12

15.3.3.2 相关系数 设随机变量 X, Y 为随机变量, 称 Cov(X, Y ) ρX,Y = √ √ , V arX · V arY Definition 为 X 与 Y 的相关系数 (Coefficient of correlation). 当 ρX,Y = 0 时, 则称 X 与 Y 不相关 (uncorrelated). √ 由 定 义 容 易 看 出, 若 令 X ∗ = (X − EX)/ V arX 和 Y ∗ = √ (Y − EY )/ V arY 分 别 为 X 和 Y 相 应 的 标 准 化 随 机 变 量, 则 ρX,Y = Cov(X ∗ , Y ∗ ). 因此, 形式上可以把相关系数视为 “标准尺度 下的协方差”, 从这个角度上说, 相关系数可以更好的反映两个随机变 量间的关系, 而不受它们各自所用度量单位的影响. Previous Next First Last Back Forward 13

16. ↑Example 设 (X, Y ) ∼ N (a, b, σ12 , σ22 , ρ), 则 ρX,Y = ρ. ↓Example 相关系数有如下的性质: 1. 若 X 和 Y 相互独立, 则 ρX,Y = 0 2. |ρX,Y | ≤ 1, 等号成立当且仅当 X, Y 之间存在严格的线性关系, 即 ρX,Y = 1, 则存在 a > 0, b ∈ R 使得 X = aY + b (正相关) ρX,Y = −1, 则存在 a < 0, b ∈ R 使得 X = aY + b (负相关) [注]: ρX,Y 也常称作 X 和 Y 线性相关系数, 只能刻画 X 和 Y 间的 线性相依程度, |ρX,Y | 越接近 1, 就表示 X, Y 间的线性相关程度越 Previous Next First Last Back Forward 14

17.高; |ρX,Y | = 0 时, 只是表示 X 和 Y 间不存在线性相关, 但可以存在 非线性的函数关系. 为证明 2, 我们看如下引理。 引理 2. [Cauchy − Schwarz Inequality] 设 ξ, η 均平方可积,则有 [Eξη]2 ≤ Eξ 2 Eη 2 等号成立当且仅当 P (ξ = t0 η) = 1,其中 t0 为一常数。 Proof. 易知, 对任何 t ∈ R, 都有 g(t) := Eη 2 · t2 − 2Eξη · t + Eξ 2 = E(ξ − tη)2 ≥ 0 , 所以二次函数 g(t) 的判别式 ∆ = 4(Eξη)2 − 4Eξ 2 · Eη 2 ≤ 0, 故得不等式. Previous Next First Last Back Forward 15

18. 如果存在 t0 ∈ R, 使得 P (ξ = t0 η) = 1, 显然就有 (Eξη)2 = Eξ 2 Eη 2 . 反之, 如果不等式等号成立, 那么方程 g(t) = 0 有唯一的实根 t0 , 即 有 E(ξ − t0 η)2 = g(t0 ) = 0, 于是由引理1知 ξ − t0 η 是退化于 0 的随机变量, 即有 P (ξ = t0 η) = 1. 推论 1. 设随机变量 ξ, η 平方可积, 则有 √ √ cov(ξ, η) ≤ Dξ · Dη, 并且等号成立, 当且仅当存在 t0 ∈ R, 使得 P (ξ = t0 η) = 1. Previous Next First Last Back Forward 16

19. ↑Example 设 X ∼ U (− 21 , 12 ), 而 Y = cosX, 证明 X, Y 不相关. 但是 X, Y 之间存在着非线性的函数关系. ↓Example 证: 由于 EX = 0, ∫ 1/2 E(XY ) = E(Xcos(X)) = xcosxdx = 0 −1/2 所以 Cov(X, Y ) = EXY − EXEY = 0 即 X, Y 不相关. 但是 X, Y 之间存在着非线性的函数关系. 定理 2. 对任何非退化的随机变量 ξ, η 平方可积, 如下四个命题相互 等价: (1) ξ 与 η 不相关; (2) cov(ξ, η) = 0; (3) Eξη = EξEη ; (4) V ar(ξ + η) = V ar(ξ) + V ar(η). Previous Next First Last Back Forward 17

20. 下面我们来讨论不相关与独立性之间的关系. 定理 3. 对随机变量 X, Y , 如果 X 与 Y 相互独立, 那么它们一定不 相关; 但是如果它们不相关却未必相互独立. ↑Example 试证明若 (X, Y ) 服从单位圆内的均匀分布, 则 X, Y 不相关但不 独立. ↓Example 解: 由 (X, Y ) 服从单位圆内的均匀分布, 则 (X, Y ) 的联合密度函数 { 1 π , x2 + y 2 ≤ 1; f (x, y) = 0, 其他. Previous Next First Last Back Forward 18

21.由此, 可得 X 和 Y 的边缘密度函数为 2√ fX (x) = fY (x) = 1 − x2 , −1 ≤ x ≤ 1. π 因此, EX = EY = 0, 又 ∫ 1 ∫ √1−x2 1 EXY = x. √ y. dydx = 0. π −1 − 1−x2 所以, Cov(X, Y ) = 0, 从而 ρX,Y = 0, 即 X 和 Y 不相关. 但由 f (x, y) ̸= fX (x).fY (y), 知 X 和 Y 显然不独立. Previous Next First Last Back Forward 19

22. ↑Example 设随机变量 X 和 Y 的分布律分别为 ( ) ( ) −1 0 1 0 1 X∼ 1 1 1 , Y ∼ 1 1 4 2 4 2 2 并且 P (X · Y = 0) = 1. 则 X 与 Y 不独立, 也不相关. ↓Example [注]: 只在正态情形下, 不相关与独立等价. 我们举二维正态的例子 来说明, 不妨设 (X, Y ) ∼ N (a, b, σ12 , σ22 , ρ), 则 X 和 Y 独立等价于 ρ = ρX,Y = 0, 从而等价于 X 和 Y 不相关. Previous Next First Last Back Forward 20

23. 3.4 其他一些数字特征与相关函数 • 平均绝对差 E|X − EX| • 矩母函数 g(t) = EetX , 其中 t ∈ R. • 特征函数 ϕ(t) = EeitX , 其中 t ∈ R, i 为虚数. 定理 4. 对任何随机变量 X, Y , 分别有分布函数 FX , FY 和特征函数 ϕX , ϕY , 则 FX = FY ↔ ϕX = ϕY Previous Next First Last Back Forward 21

24. 表 3.1: 常见分布表 分布名称 参数 概率密度 期望 方差 ( ) c 退化分布 c c 0 (1 ) 0 1 二点分布 p(0 < p < 1) p pq q p ( ) n 二项分布 B(n, p) n ≥ 1, 0 < p < 1 pk q n−k , k = 0, · · · , n np npq k q 几何分布 p(0 < p < 1) q k−1 p, k = 1, 2, · · · 1 p p2 r, p ( ) k−1 pr q k−r , r rq 巴斯卡分布 r ∈ N r−1 k = r, r + 1, · · · p p2 0 < p < 1 λk e−λ , k = 0, 1, · · · 波松分布 P (λ) λ(λ > 0) ( )( k! M ) N −M λ λ 超几何分布 M, N, n ∈ N k ( ) N n−k nM N nM N −M N −n N N N −1 n 1 I a+b (b−a)2 均匀分布 U (a, b) a, b(a < b) b−a a<x<b 2 12 (x−a)2 − 正态分布 N (a, σ 2 ) a, σ 2 √1 e 2σ 2 a σ2 σ 2π 指数分布 λ(λ > 0) λe−λx Ix>0 1 1 λ λ2 χ2 分布 n(n ≥ 1) 1 xn/2−1 e−x/2 n 2n 2n/2 Γ(n/2) x > 0