区间估计

本节主要介绍区间估计的概念组成及运用。区间估计包含了置信区间、置信界、确定样本大小。对于未知的参数, 除了求出它的点估计 外,我们还希望估计出一个范围, 并希望知道这个范围包含参数 真值得可信程度。 这样的范围通常以区间形式给出, 同时还给出此区间包含真值的可信程度。 这种形式的估计称为区间估计。
展开查看详情

1.第六讲: 参数估计 张伟平

2.第六讲: 参数估计 6.2 区间估计 . . . . . . . . . . . . . . . . . . . . 1 6.2.1 置信区间 . . . . . . . . . . . . . . . . 2 6.2.2 置信界 . . . . . . . . . . . . . . . . . . 10 6.2.3 确定样本大小 . . . . . . . . . . . . . . 11 Previous Next First Last Back Forward 1

3. 6.2 区间估计 对于一个未知量, 人们在测量和计算时, 常不以得到近似值为满 足, 还需要估计误差, 及要求知道近似值的精确程度 (亦即所求真值所 在的范围). 类似的, 对于未知的参数 θ, 除了求出它的点估计 θˆ 外, 我们还希望估计出一个范围, 并希望知道这个范围包含参数 θ 真值得 可信程度. 这样的范围通常以区间形式给出, 同时还给出此区间包含 真值的可信程度. 这种形式的估计称为区间估计. ↑Example 比如你估计月花费支出是 500, 我们相信多少会有误差, 但是误差 有多大? 单从你提出的 500 这个数字还给不出什么信息, 若你给出估 计支出是 400-600 之间, 则人们相信你在作出这估计时, 已把可能出 现的误差考虑到了, 多少给人们以更大的信任感. 因此区间估计也是 常用的一种估计方式. ↓Example Previous Next First Last Back Forward 1

4. 现在最流行的一种区间估计理论是 J. Neyman 在上世纪 30 年 代建立起来的. 他的理论的基本概念很简单, 为表达方便, 我们暂时假 定总体分布只包含一个未知参数 θ, 且要估计的就是 θ 本身. 如果总 体分布中包含若干位置参数 θ1 , · · · , θk , 而要估计的是 g(θ1 , · · · , θk ), 则基本概念和方法并无不同. 这在后面的例子里可以看出. 6.2.1 置信区间 Neyman 建立起来的区间估计也叫置信区间, 字面上的意思是: 对该区间能包含未知参数 θ 可置信到何种程度. 假设 X1 , · · · , Xn 是从该总体中抽取的样本, 所谓 (一维未知)θ 的区间估计, 就是要 ¯ 1 , · · · , Xn ) 所构成的区间 • 寻求统计量 θ(X1 , · · · , Xn ) < θ(X ¯ [θ, θ]. • 该区间满足一定的要求 Previous Next First Last Back Forward 2

5. 不难理解, 这里有两个要求 ¯ 内, 也就是说 • θ 以很大概率被包含在区间 [θ, θ] ¯ =1−α Pθ (θ ≤ θ ≤ θ) 尽可能大, 即要求估计尽量可靠. ¯ 要尽可能的短, 或 • 估计的精度要尽可能高,比如要求区间 [θ, θ] 者某种能体现这个要求的其他准则。 比如估计一个人的年龄, 如 [30,35], 我们自然希望这个人的年龄有很 大把握在这个区间之内, 并且希望这个区间不能太长. 如果估计是 [10,90], 当然可靠了, 但是精度太差, 用处不大. 但这两个要求是相互矛盾的,因此区间估计的原则是在已有的 样本资源限制下,找出更好的估计方法以尽量提高可靠性和精度。 Neyman 提出了广泛接受的准则:先保证可靠性,在此前提下尽可能 提高精度。为此,引入如下定义: Previous Next First Last Back Forward 3

6.设总体分布 F (x, θ) 含有一个或多个未知的参数 θ,θ ∈ Θ, 对给定的值 α, (0 < α < 1),若由样本 X1 , · · · , Xn 确定的两 个统计量 θ¯ = θ(X ¯ 1 , · · · , Xn ) 和 θ = θ(X1 , · · · , Xn ),满足 Definition ¯ =1−α Pθ (θ ≤ θ ≤ θ) ∀ θ∈Θ ¯ 为 θ 的置信水 称 1 − α 为置信系数或置信水平,而称 [θ, θ] 平为 1 − α 的置信区间。 置信区间就是在给定的置信水平之下,去寻找有优良精度的区 间。 一般,我们首先寻求参数 θ 的一个估计 (多数是基于其充分统计 量构造的),然后基于此估计量构造参数 θ 的置信区间,介绍如下: Previous Next First Last Back Forward 4

7.1. 枢轴变量法 设待估参数为 g(θ), 1. 找一个与待估参数 g(θ) 有关的统计量 T ,一般是其一个良好 的点估计 (多数是通过极大似然估计构造); 2. 设法找出 T 与 g(θ) 的某一函数 S(T, g(θ)) 的分布,其分布 F 要与参数 θ 无关 (S 即为枢轴变量); 3. 对任何常数 a < b,不等式 a ≤ S(T, g(θ)) ≤ b 要能表示成等 价的形式 A ≤ g(θ) ≤ B,其中 A, B 只与 T, a, b 有关而与参 数无关; 4. 取分布 F 的上 α/2 分位数 ωα/2 和上 (1−α/2) 分位数 ω1−α/2 , 有 F (ωα/2 ) − F (ω1−α/2 ) = 1 − α. 因此 P (ω1−α/2 ≤ S(T, g(θ)) ≤ ωα/2 ) = 1 − α 由 3 我们就可以得到所求的置信区间. Previous Next First Last Back Forward 5

8. ↑Example 设 X1 , · · · , Xn 为从正态总体 N (µ, σ 2 ) 中抽取得样本,求参数 µ, σ 的 1 − α 置信区间。 2 ↓Example ¯ S 2 满足 解: 由于 µ, σ 2 的估计 X, √ T1 = ¯ − µ)/S ∼ tn−1 n(X T2 = (n − 1)S 2 /σ 2 ∼ χ2n−1 所以 T1 , T2 就是我们所要寻求的枢轴变量,从而易得参数 µ, σ 2 的 1 − α 置信区间分别为 [ ] ¯ − √1 Stn−1 (α/2), X X ¯ + √1 Stn−1 (α/2) , n n [ ] (n − 1)S 2 (n − 1)S 2 , . χ2n−1 (α/2) χ2n−1 (1 − α/2) Previous Next First Last Back Forward 6

9. ↑Example 设 X1 , · · · , Xn 为从正态总体 N (µ1 , σ12 ) 中抽取得样本,Y1 , · · · , Ym 为从正态总体 N (µ2 , σ22 ) 中抽取得样本,两组样本相互独立。求参数 µ1 − µ2 , σ12 /σ22 的 1 − α 置信区间。 ↓Example 解: 方法完全类似于前面的例子,由于 µ1 , µ2 , σ12 , σ22 的估计分别 2 2 ¯ Y¯ , SX 为 X, 2 , SY2 , 且注意到 X ¯ − Y¯ ∼ N (µ1 − µ2 , σ1 + σ2 ), (n − n m 2 1)SX /σ12 ∼ χ2n−1 以及 (m − 1)SX 2 /σ12 ∼ χ2m−1 , 结合两组样本的独立 性可知 SY2 σ22 2 ∼ F (m − 1, n − 1) SX σ12 2 从而可得 σX /σY2 的置信区间. 对 µ1 − µ2 的置信区间, 当 σX 2 , σY2 已 知或者相等但未知情形, 容易得到其置信区间; 当两者不全已知且不 相等时, 不存在 µX − µY 的精确置信区间 (Behrens-Fisher problem). Previous Next First Last Back Forward 7

10.2. 大样本法 大样本法就是利用极限分布,以建立枢轴变量。通过以下例子说 明: ↑Example 某事件 A 在每次实验中发生的概率都是 p,作 n 次独立的实验, 以 Yn 记 A 发生的次数。求 p 的 1 − α 置信区间。 ↓Example 解: 设 n 比较大,令 q = 1 − p, 则由中心极限定理知,近似有 √ √ (Yn − np)/ npq ∼ N (0, 1),从而 (Yn − np)/ npq 可以作为枢轴变 量。由 √ P (−uα/2 ≤ (Yn − np)/ npq ≤ uα/2 ) ≈ 1 − α (∗) 可以等价表示成 P (A ≤ p ≤ B) ≈ 1 − α Previous Next First Last Back Forward 8

11.其中 A, B 为方程 √ (Yn − np)/ npq = uα/2 的解, 即  √  n u2α/2 p ˆ(1 − p ˆ) u2α/2 A, B = pˆ + ± uα/2 +  n + u2α/2 2n n 4n2 A 取负号,B 取正号,ˆ p = Yn /n。 由于 (*) 式只是近似成立,故区间估计也只是近似成立,当 n 较 大时才相去不远。详细的说明参见课本 p203。我们还可以先假定方 差是 “已知” 的,最后再将其估计,得到如下 Wald 置信区间: √ pˆ ± uα/2 pˆ(1 − pˆ)/n. Previous Next First Last Back Forward 9

12.6.2.2 置信界 在实际中,有时我们只对参数 θ 的一端的界限感兴趣。比如果 汁的最低含量, 有害物质的最高含量等等. 设总体分布 F (x, θ) 含有一个未知的参数 θ,θ ∈ Θ,对给定 的值 α, (0 < α < a),若由样本 X1 , · · · , Xn 确定的两个统计 量 θ¯ = θ(X ¯ 1 , · · · , Xn ) 和 θ = θ(X1 , · · · , Xn ), 1. 若 ¯ Pθ (θ ≤ θ) 1−α ∀ θ∈Θ Definition 则称 θ¯ 为 θ 的一个置信系数为 1 − α 的置信上界. 2. 若 Pθ (θ ≥ θ) 1−α ∀ θ∈Θ 则称 θ 为 θ 的一个置信水平为 1 − α 的置信下界. Previous Next First Last Back Forward 10

13. ¯ 和 [θ, +∞) 都称为是单边的置信区间。寻求置信上、 而 (−∞, θ] 下界的方法和寻求置信区间的方法完全类似。 6.2.3 确定样本大小 在以区间长度为精度准则下, 置信区间越窄就越好,为什么呢? 作为一个一般的原则,我们已经知道更多的测量可以得到更精确的 推断。有时候,对精度是有要求的,甚至于是在测量之前就提出此要 求,因此相应的样本大小就要事先确定下来。我们以如下的例子说明 如何确定样本大小,一般的方法类似。 ↑Example 假设某种成分的含量服从正态分布 N (µ, σ 2 ),σ 2 已知。要求平 均含量 µ 的 (1 − α) 置信区间的长度不能长于 ω。试确定测量样本大 小。 ↓Example Previous Next First Last Back Forward 11

14. ¯ ∼ N (µ, σ 2 /n) 来构造 解: 由于 σ 2 已知,我们已经知道可以根据 X µ 的 95% 置信区间。因此易知区间长度为 2uα/2 √σn . 从而由 σ 2uα/2 √ ≤ ω n 得到 ( )2 2uα/2 σ n≥ . ω ( 2×1.96×0.1 )2 比如当 σ = 0.1, ω = 0.05, α = 0.05, 可以得到 n ≥ 0.05 = 61.4656. 即为达到要求至少需要测量 62 次。 Previous Next First Last Back Forward 12