大数定律和中心极限定理

本文主要介绍了大数定律和中心极限定理。大数定律, 是概率论中讨论随机变量和的平均值的收敛情况, 是数理统计学中参数估计的理论基础. 中心极限定理, 是概率论中讨论随机变量和的分布以正态分布为极限的一组定理, 这组定理是数理统计学和误差分析的理论基础, 指出了大量随机变量近似服从正态分布的条件。通过举行说明,更深刻的了解了大数定律和中心极限定理的运用。
展开查看详情

1.4: 大数定律和中心极限定理 张伟平

2.第四章大数定律和中心极限定理 4.1 大数定律 . . . . . . . . . . . . . . . . . . . . 1 4.2 中心极限定理 . . . . . . . . . . . . . . . . . . 5 Previous Next First Last Back Forward 1

3. 极限定理是概率论的重要内容, 也是数理统计学的基石之一. 大 数定律, 是概率论中讨论随机变量和的平均值的收敛情况, 是数理统 计学中参数估计的理论基础. 中心极限定理, 是概率论中讨论随机变 量和的分布以正态分布为极限的一组定理, 这组定理是数理统计学和 误差分析的理论基础, 指出了大量随机变量近似服从正态分布的条件. 4.1 大数定律 如果对任何 ε > 0, 都有 lim P (|ξn − ξ| ≥ ε) = 0, n→∞ Definition 那么我们就称随机变量序列 {ξn , n ∈ N} 依概率收敛到随机 p 变量 ξ, 记为 ξn → ξ. Previous Next First Last Back Forward 1

4.定理 1. 设 {Xn } 是一列独立同分布 (i.i.d.) 的随机变量序列,具有 公共的数学期望 µ 和方差 σ 2 . 则 1∑ n p X= Xk → µ, n k=1 即 {Xn } 服从 (弱) 大数定律。 [注]: 实际上,我们只需要均值存在即有大数定律成立,上述定理中 加上了方差存在的条件,只是为了证明的方便。 作为上述定理的一个特例,我们有 Previous Next First Last Back Forward 2

5. ↑Example 如果以 ζn 表示 n 重 Bernoulli 试验中的成功次数, 则有 ζn p → p. n ↓Example p 如果用 fn = ζn /n 表示成功出现的频率, 则上例说明 fn → p, 即频 率 (依概率) 收敛到概率. 为证明定理1, 我们需要如下的 Chebyshev 不等式: 引理 1 (Chebyshev 不等式). 设随机变量 X 的方差存在,则 Var (X) P (|X − EX| ≥ ε) ≤ , ∀ ε > 0. ε2 我们可以用 Chebyshev 不等式来估计 X 与 EX 的偏差, 但是 Chebyshev 不等式作为一个理论工具比作为估计的实际方法要恰当 Previous Next First Last Back Forward 3

6.一些, 其重要性在于它的应用普遍性, 但是不能希望很普通的命题对 一些个别情况给了深刻的结果. 如令 X 为掷一个均匀的骰子所得到 的点数, 则 µ = EX = 7/2, σ 2 = Var(X) = 35/12. X 与 µ 的最 大偏差为 2.5 ≈ 3σ/2. |X − µ| 大于这个偏差的概率为 0, 然而利用 Chebyshev 不等式仅仅断定这个概率少于 0.47. 这时就需要找更精确 的估计. 定理1的证明. 利用 Chebyshev 不等式,并注意到 EX = µ, VarX = σ 2 /n, 我们有, P (|X − µ| ≥ ε) ≤ σ 2 /(nε2 ) → 0, n → ∞� ∀ε > 0. 定理得证. Previous Next First Last Back Forward 4

7. 4.2 中心极限定理 中心极限定理是概率论中讨论随机变量序列的分布收敛于正态分 布的一类定理. 它是概率论中最重要的一类定理, 有广泛的实际应用 背景. 定理 2. 设 {Xn } 为 i.i.d 的随机变量序列,具有公共的数学期望 µ 和方差 σ 2 . 则 X1 + · · · + Xn 的标准化形式 √1nσ (X1 + · · · + Xn − nµ) 满足中心极限定理. 即对任意 x ∈ R,有 lim Fn (x) = Φ(x), n→∞ 其中 Fn (x) 为 √1nσ (X1 + · · · + Xn − nµ) 的分布函数, 而 Φ(x) 为标 准正态分布 N (0, 1) 的分布函数. 记为 1 d √ (X1 + · · · + Xn − nµ) → N (0, 1). nσ Previous Next First Last Back Forward 5

8. 2 Proof. 由于标准正态分布的特征函数为 f (t) = e−t /2 ,因此我们只 ∑ n Xi −µ 需证明 ηn = σ 的特征函数的极限是 f (t) 就可以了。 i=1 记 {Xi − µ} 的共同特征函数为 g(t),则 ( t ) t2 ( t2 ) g √ =1− +o σ n 2n n 而 ηn 的特征函数为 g n ( σ√t n ). 由于 ( t ) ( t2 ) n ( t ) ( t2 ) ( t2 ) gn √ − 1− ≤ n g √ − 1− = no −→ 0 σ n 2n σ n 2n n 所以 ( t ) 2 lim g n √ = e−t /2 n→∞ σ n 即 lim P (ηn ≤ x) = Φ(x) n→∞ Previous Next First Last Back Forward 6

9. 定理2的令人吃惊之处就是任何独立同分布的随机变量序列, 不 论它的分布是什么, 只要存在有限的方差, 那么它们的标准化部分和 都渐近于标准正态分布. 这也说明了正态分布的普遍性. 由定理2, 我们很容易得到如下推论 定理 3. 设 X1 , · · · , Xn 相互独立且具有相同的分布 P (X1 = 1) = 1 − P (X1 = 0) = p, 0 < p < 1. 则有 X1 + · · · + Xn − np d √ → N (0, 1). np(1 − p) 即 ( X + · · · + X − np ) 1 n lim P √ ≤ x = Φ(x), ∀ x ∈ R. n→∞ np(1 − p) 定理2称为棣莫弗 -拉普拉斯定理, 是历史上最早的中心极限定理. Previous Next First Last Back Forward 7

10.因为定理2中随机变量 X1 , · · · , Xn 的和 X1 + · · · + Xn ∼ B(n, p), 我 们利用正态分布近似地估计二项分布. 设 t1 < t2 是两个正整数, 则当 n 相当大时, 由定理2, 近似地有 P (t1 ≤ X1 + · · · + Xn ≤ t2 ) ≈ Φ(y2 ) − Φ(y1 ), 其中 √ yi = (ti − np)/ np(1 − p), i = 1, 2. 为提高精度, 我们可把 y1 , y2 修正为 √ √ y1 = (t1 − 1/2 − np)/ np(1 − p), y2 = (t2 + 1/2 − np)/ np(1 − p). Previous Next First Last Back Forward 8

11. ↑Example 设一考生参加 100 道题的英语标准化考试 (每道题均为有两个备 选答案的选择题,有且仅有一个答案是正确的),每道题他都随机地 选择一个答案,假设评分标准为:选对得一分,选错或不选不得分。 试给出该考生最终得分大于等于 50 的概率. ↓Example 解: 记 Xi 表示第 i 题的得分, i = 1, 2 · · · , 100. 则 X1 , · · · , Xn 是一 列独立同分布的随机变量具有共同的分布 P (X1 = 0) = P (X1 = 1) = 0.5. 利用中心极限定理, 有 (X + ··· + X ) 1 100 − 100 ∗ 0.5 P (X1 + · · · + X100 ≥ 50) = P √ ≥0 100 ∗ 0.5 ∗ 0.5 = 1 − Φ(0) = 1/2. Previous Next First Last Back Forward 9

12. ↑Example 每天有 1000 个旅客需要乘坐火车从芝加哥到洛杉矶, 这两个城 市之间有两条竞争的铁路, 它们的火车同时开出同时到达并且具有 同样的设备. 设这 1000 个人乘坐那一条铁路的火车是相互独立而且 又是任意的, 于是每列火车的乘客数目可视为概率为 1/2 的 1000 重 Bernoulli 试验中成功的次数. 如果一列火车设置 s < n 个座位, 那么 一旦有多于 s 个旅客来乘车就容纳不下了, 令这个事件发生的概率为 f (s). 利用中心极限定理, 有 ( 2s − 1000 ) f (s) ≈ 1 − Φ √ . 1000 要求 s 使得 f (s) < 0.01, 即在 100 次中有 99 次是有足够的座位的. 查表容易求出 s = 537. 这样, 两列火车所有的座位数为 1074, 其中只 有 74 个空位, 可见由于竞争而带来的损失是很小的. ↓Example Previous Next First Last Back Forward 10

13. ∑n nk −n ↑Example 求极限 lim e . n→∞ k=1 k! ↓Example 定理 4. 设 X ∼ B(n, p),则有 X − np lim P ( √ ≤ x) = Φ(x), ∀x∈R n→∞ npq 即 X − np asy. √ ∼ N (0, 1). npq Proof. 由二项分布随机变量和 0-1 分布随机变量之间的关系及中心 极限定理易证。 在仅有独立性和二阶矩有限场合下,我们有 Previous Next First Last Back Forward 11

14.定理 5. 设 {Xn } 为独立的随机变量序列,而且具有数学期望 EXk = µk 和方差 D(Xk ) = σk2 < ∞ , k = 1, 2, · · · . 记 ∑ n Bn2 = σk2 k=1 若存在正数 δ,使得当 n → ∞ 时 1 ∑ n E|Xk − EXk |2+δ → 0 Bn2+δ k=1 则有 ( n ) ∑ Xk − µk lim P ≤ x = Φ(x) ∀x ∈ R (4.1) n→∞ k=1 Bn 例题参考课本. Previous Next First Last Back Forward 12

15.如果独立随机变量序列 {Xn , n ∈ N} 同上述定理, 并且对任 何 τ > 0, 都有 1 ∑ { } n Definition lim E (Xk − ak )2 I(|Xk − ak | ≥ τ Bn ) = 0, n→∞ Bn2 k=1 (4.2) 则称该随机变量序列满足 Linderberg 条件. 定理 6. 设随机变量序列 {Xn } 满足 Linderberg 条件 (4.2), 则 {Xn } 满足中心极限定理, 即 (4.1) 式成立. Previous Next First Last Back Forward 13