区间估计

下载 0

enough

发布于

2736

人观看

#信息技术

本节主要介绍区间估计的概念组成及运用。区间估计包含了置信区间、置信界、确定样本大小。对于未知的参数, 除了求出它的点估计外,我们还希望估计出一个范围, 并希望知道这个范围包含参数真值得可信程度。这样的范围通常以区间形式给出, 同时还给出此区间包含真值的可信程度。这种形式的估计称为区间估计。

展开查看详情

1 .第六讲: 参数估计张伟平

2 .第六讲: 参数估计 6.2 区间估计 . . . . . . . . . . . . . . . . . . . . 1 6.2.1 置信区间 . . . . . . . . . . . . . . . . 2 6.2.2 置信界 . . . . . . . . . . . . . . . . . . 10 6.2.3 确定样本大小 . . . . . . . . . . . . . . 11 Previous Next First Last Back Forward 1

3 . 6.2 区间估计对于一个未知量, 人们在测量和计算时, 常不以得到近似值为满足, 还需要估计误差, 及要求知道近似值的精确程度 (亦即所求真值所在的范围). 类似的, 对于未知的参数 θ, 除了求出它的点估计 θˆ 外, 我们还希望估计出一个范围, 并希望知道这个范围包含参数 θ 真值得可信程度. 这样的范围通常以区间形式给出, 同时还给出此区间包含真值的可信程度. 这种形式的估计称为区间估计. ↑Example 比如你估计月花费支出是 500, 我们相信多少会有误差, 但是误差有多大? 单从你提出的 500 这个数字还给不出什么信息, 若你给出估计支出是 400-600 之间, 则人们相信你在作出这估计时, 已把可能出现的误差考虑到了, 多少给人们以更大的信任感. 因此区间估计也是常用的一种估计方式. ↓Example Previous Next First Last Back Forward 1

4 . 现在最流行的一种区间估计理论是 J. Neyman 在上世纪 30 年代建立起来的. 他的理论的基本概念很简单, 为表达方便, 我们暂时假定总体分布只包含一个未知参数 θ, 且要估计的就是 θ 本身. 如果总体分布中包含若干位置参数 θ1 , · · · , θk , 而要估计的是 g(θ1 , · · · , θk ), 则基本概念和方法并无不同. 这在后面的例子里可以看出. 6.2.1 置信区间 Neyman 建立起来的区间估计也叫置信区间, 字面上的意思是: 对该区间能包含未知参数 θ 可置信到何种程度. 假设 X1 , · · · , Xn 是从该总体中抽取的样本, 所谓 (一维未知)θ 的区间估计, 就是要 ¯ 1 , · · · , Xn ) 所构成的区间 • 寻求统计量 θ(X1 , · · · , Xn ) < θ(X ¯ [θ, θ]. • 该区间满足一定的要求 Previous Next First Last Back Forward 2

5 . 不难理解, 这里有两个要求 ¯ 内, 也就是说 • θ 以很大概率被包含在区间 [θ, θ] ¯ =1−α Pθ (θ ≤ θ ≤ θ) 尽可能大, 即要求估计尽量可靠. ¯ 要尽可能的短, 或 • 估计的精度要尽可能高，比如要求区间 [θ, θ] 者某种能体现这个要求的其他准则。比如估计一个人的年龄, 如 [30,35], 我们自然希望这个人的年龄有很大把握在这个区间之内, 并且希望这个区间不能太长. 如果估计是 [10,90], 当然可靠了, 但是精度太差, 用处不大. 但这两个要求是相互矛盾的，因此区间估计的原则是在已有的样本资源限制下，找出更好的估计方法以尽量提高可靠性和精度。 Neyman 提出了广泛接受的准则：先保证可靠性，在此前提下尽可能提高精度。为此，引入如下定义: Previous Next First Last Back Forward 3

6 .设总体分布 F (x, θ) 含有一个或多个未知的参数 θ，θ ∈ Θ，对给定的值 α, (0 < α < 1)，若由样本 X1 , · · · , Xn 确定的两个统计量 θ¯ = θ(X ¯ 1 , · · · , Xn ) 和 θ = θ(X1 , · · · , Xn )，满足 Deﬁnition ¯ =1−α Pθ (θ ≤ θ ≤ θ) ∀ θ∈Θ ¯ 为 θ 的置信水称 1 − α 为置信系数或置信水平，而称 [θ, θ] 平为 1 − α 的置信区间。置信区间就是在给定的置信水平之下，去寻找有优良精度的区间。一般，我们首先寻求参数 θ 的一个估计 (多数是基于其充分统计量构造的)，然后基于此估计量构造参数 θ 的置信区间，介绍如下: Previous Next First Last Back Forward 4

7 .1. 枢轴变量法设待估参数为 g(θ)， 1. 找一个与待估参数 g(θ) 有关的统计量 T ，一般是其一个良好的点估计 (多数是通过极大似然估计构造)； 2. 设法找出 T 与 g(θ) 的某一函数 S(T, g(θ)) 的分布，其分布 F 要与参数 θ 无关 (S 即为枢轴变量); 3. 对任何常数 a < b，不等式 a ≤ S(T, g(θ)) ≤ b 要能表示成等价的形式 A ≤ g(θ) ≤ B，其中 A, B 只与 T, a, b 有关而与参数无关； 4. 取分布 F 的上 α/2 分位数 ωα/2 和上 (1−α/2) 分位数 ω1−α/2 ，有 F (ωα/2 ) − F (ω1−α/2 ) = 1 − α. 因此 P (ω1−α/2 ≤ S(T, g(θ)) ≤ ωα/2 ) = 1 − α 由 3 我们就可以得到所求的置信区间. Previous Next First Last Back Forward 5

8 . ↑Example 设 X1 , · · · , Xn 为从正态总体 N (µ, σ 2 ) 中抽取得样本，求参数 µ, σ 的 1 − α 置信区间。 2 ↓Example ¯ S 2 满足解：由于 µ, σ 2 的估计 X, √ T1 = ¯ − µ)/S ∼ tn−1 n(X T2 = (n − 1)S 2 /σ 2 ∼ χ2n−1 所以 T1 , T2 就是我们所要寻求的枢轴变量，从而易得参数 µ, σ 2 的 1 − α 置信区间分别为 [ ] ¯ − √1 Stn−1 (α/2), X X ¯ + √1 Stn−1 (α/2) , n n [ ] (n − 1)S 2 (n − 1)S 2 , . χ2n−1 (α/2) χ2n−1 (1 − α/2) Previous Next First Last Back Forward 6

9 . ↑Example 设 X1 , · · · , Xn 为从正态总体 N (µ1 , σ12 ) 中抽取得样本，Y1 , · · · , Ym 为从正态总体 N (µ2 , σ22 ) 中抽取得样本，两组样本相互独立。求参数 µ1 − µ2 , σ12 /σ22 的 1 − α 置信区间。 ↓Example 解：方法完全类似于前面的例子，由于 µ1 , µ2 , σ12 , σ22 的估计分别 2 2 ¯ Y¯ , SX 为 X, 2 , SY2 , 且注意到 X ¯ − Y¯ ∼ N (µ1 − µ2 , σ1 + σ2 ), (n − n m 2 1)SX /σ12 ∼ χ2n−1 以及 (m − 1)SX 2 /σ12 ∼ χ2m−1 , 结合两组样本的独立性可知 SY2 σ22 2 ∼ F (m − 1, n − 1) SX σ12 2 从而可得 σX /σY2 的置信区间. 对 µ1 − µ2 的置信区间, 当 σX 2 , σY2 已知或者相等但未知情形, 容易得到其置信区间; 当两者不全已知且不相等时, 不存在 µX − µY 的精确置信区间 (Behrens-Fisher problem). Previous Next First Last Back Forward 7

10 .2. 大样本法大样本法就是利用极限分布，以建立枢轴变量。通过以下例子说明: ↑Example 某事件 A 在每次实验中发生的概率都是 p，作 n 次独立的实验，以 Yn 记 A 发生的次数。求 p 的 1 − α 置信区间。 ↓Example 解：设 n 比较大，令 q = 1 − p, 则由中心极限定理知，近似有 √ √ (Yn − np)/ npq ∼ N (0, 1)，从而 (Yn − np)/ npq 可以作为枢轴变量。由 √ P (−uα/2 ≤ (Yn − np)/ npq ≤ uα/2 ) ≈ 1 − α (∗) 可以等价表示成 P (A ≤ p ≤ B) ≈ 1 − α Previous Next First Last Back Forward 8

11 .其中 A, B 为方程 √ (Yn − np)/ npq = uα/2 的解, 即  √  n u2α/2 p ˆ(1 − p ˆ) u2α/2 A, B = pˆ + ± uα/2 +  n + u2α/2 2n n 4n2 A 取负号，B 取正号，ˆ p = Yn /n。由于 (*) 式只是近似成立，故区间估计也只是近似成立，当 n 较大时才相去不远。详细的说明参见课本 p203。我们还可以先假定方差是 “已知” 的，最后再将其估计，得到如下 Wald 置信区间： √ pˆ ± uα/2 pˆ(1 − pˆ)/n. Previous Next First Last Back Forward 9

12 .6.2.2 置信界在实际中，有时我们只对参数 θ 的一端的界限感兴趣。比如果汁的最低含量, 有害物质的最高含量等等. 设总体分布 F (x, θ) 含有一个未知的参数 θ，θ ∈ Θ，对给定的值 α, (0 < α < a)，若由样本 X1 , · · · , Xn 确定的两个统计量 θ¯ = θ(X ¯ 1 , · · · , Xn ) 和 θ = θ(X1 , · · · , Xn )， 1. 若 ¯ Pθ (θ ≤ θ) 1−α ∀ θ∈Θ Deﬁnition 则称 θ¯ 为 θ 的一个置信系数为 1 − α 的置信上界. 2. 若 Pθ (θ ≥ θ) 1−α ∀ θ∈Θ 则称 θ 为 θ 的一个置信水平为 1 − α 的置信下界. Previous Next First Last Back Forward 10

13 . ¯ 和 [θ, +∞) 都称为是单边的置信区间。寻求置信上、而 (−∞, θ] 下界的方法和寻求置信区间的方法完全类似。 6.2.3 确定样本大小在以区间长度为精度准则下, 置信区间越窄就越好，为什么呢？作为一个一般的原则，我们已经知道更多的测量可以得到更精确的推断。有时候，对精度是有要求的，甚至于是在测量之前就提出此要求，因此相应的样本大小就要事先确定下来。我们以如下的例子说明如何确定样本大小，一般的方法类似。 ↑Example 假设某种成分的含量服从正态分布 N (µ, σ 2 )，σ 2 已知。要求平均含量 µ 的 (1 − α) 置信区间的长度不能长于 ω。试确定测量样本大小。 ↓Example Previous Next First Last Back Forward 11

14 . ¯ ∼ N (µ, σ 2 /n) 来构造解: 由于 σ 2 已知，我们已经知道可以根据 X µ 的 95% 置信区间。因此易知区间长度为 2uα/2 √σn . 从而由 σ 2uα/2 √ ≤ ω n 得到 ( )2 2uα/2 σ n≥ . ω ( 2×1.96×0.1 )2 比如当 σ = 0.1, ω = 0.05, α = 0.05, 可以得到 n ≥ 0.05 = 61.4656. 即为达到要求至少需要测量 62 次。 Previous Next First Last Back Forward 12

0点赞

0收藏

0下载