参数估计

本文主要介绍了参数估计的性质及应用。首先介绍了点估计,包括了矩估计方法、最大似然估计方法、点估计的优良准则。点估计的优良准则具有相合性、无偏性、有效性、渐近正态性等性质。
展开查看详情

1.第六章: 参数估计 张伟平

2.第六章: 参数估计 6.1 点估计 . . . . . . . . . . . . . . . . . . . . . . 2 6.1.1 矩估计方法 . . . . . . . . . . . . . . . 2 6.1.2 最大似然估计方法 . . . . . . . . . . . 7 6.1.3 点估计的优良准则 . . . . . . . . . . . 20 Previous Next First Last Back Forward 1

3. 参数估计问题: • 总体: X ∼ fθ (x),f 形式已知, θ = (θ1 , . . . , θk ) 为未知参数 • 样本: X1 , . . . , Xn 利用样本对参数 θ 的作出估计或估计它们的某个已知函数 g(θ). • 点估计: 用样本的一个函数 T (X1 , . . . , Xn ) 去估计 g(θ) • 区间估计: 用一个区间 (区域) 去估计 g(θ) Previous Next First Last Back Forward 1

4. 6.1 点估计 根据样本 X1 , · · · , Xn 来估计参数 θ, 就是要构造适当的统计 量 θˆ = θ(X ˆ 1 , · · · , Xn ). 当有了样本 X1 , · · · , Xn 的值后, 就代入 ˆ ˆ θ = θ(X1 , · · · , Xn ) 中算出一个值, 用来作为 θ 的估计值. 为这样特 定目的而构造的统计量 θˆ 叫做 θ 的估计量. 由于参数 θ 是数轴上的 一个点, 用 θˆ 估计 θ, 等于用一个点去估计另一个点, 所以这样的估计 叫做点估计. 求点估计的方法有多种, 下面介绍两种点估计方法: 6.1.1 矩估计方法 矩方法追溯到 19 世纪的Karl Pearson. 矩方法是基于一种简 单的 “替换” 思想建立起来的一种估计方法. 其基本思想是用样本矩 估计总体矩. 由大数律,如果未知参数和总体的某个 (些) 矩有关系, 我们很自然的来构造未知参数的估计。 Previous Next First Last Back Forward 2

5. 回忆一下以前关于矩的记法: 1∑ k 1∑ n n 样本k阶矩: ak = Xi mk = (Xi − X) ¯ k n i=1 n i=1 总体k阶矩: αk = EX k µk = E(X − EX)k 因此在 k 阶矩存在的情况下,根据大数律有 p p ak −→ αk , mk −→ µk 从而我们可以使用 ak , mk 分别估计 αk , µk , 进而得到 θ 的估计. 介 绍如下: 假设总体 X 包含 k 个未知参数 θ = (θ1 , · · · , θk ), 由方程组    α1 = f1 (θ1 , · · · , θk )  ..  .   αk = fk (θ1 , · · · , θk ) Previous Next First Last Back Forward 3

6.反解得到    θ1 = g1 (α1 , · · · , αk )  ..  .   θk = gk (α1 , · · · , αk ) 将其中的总体矩用相应的样本矩代替,则我们可以得到参数 θ1 , · · · , θk 的一个估计:   θˆ1 = g1 (a1 , · · · , ak )   ..  .   ˆ θk = gk (a1 , · · · , ak ) 若要估计参数 θ1 , · · · , θk 的某函数 g(θ1 , · · · , θk ), 则用 g(θˆ1 , · · · , θˆk ) 去估计它. 这里我们用的都是原点矩 αk ,当然也可以使用中心矩 µk ,或者 两个都使用。在这种情况下,只需要把相应的总体矩换成样本矩。我 们称这种估计方法为矩估计法,得到的估计量称为矩估计量。矩估计 方法应用的原则是:能用低阶矩处理的就不用高阶矩。 Previous Next First Last Back Forward 4

7. 矩估计法的优点是简单易行, 有些情况下不需要事先知道总体是 什么分布. 缺点是,当总体类型已知时,没有充分利用分布提供的信 息. 一般场合下, 矩估计量不具有唯一性. ↑Example 投掷一枚硬币, 为了解正面出现的概率, 现独立重复的投掷 n 次, 用 X1 , · · · , Xn 表示投掷结果. 显然此时总体 X 的分布为 B(1, p), p 为感兴趣的量. 而 X1 , · · · , Xn 为样本, 则求参数 p 的矩估计量。 ↓Example ¯ 收敛到总体均值 EX, 因此 p 的 解: 由于 EX = p,而样本均值 X ¯ 一个矩估计量为 pˆ = X. Previous Next First Last Back Forward 5

8. ↑Example 为考察某种考试成绩分布情况, 使用正态分布 N (a, σ 2 ) 来作为总 体 X 的分布. 现在从中随机调查 n 个人, 即样本为 X1 , · · · , Xn . 试 求参数 a, σ 2 的矩估计量。 ↓Example 解: 由于 EX = a, V ar(X) = σ 2 所以 a, σ 2 的一个矩估计量为 1∑ n a ¯ ˆ = X, ˆ 2 = m2 = σ (Xi − X) ¯ 2 n i=1 我们知道 ES 2 = σ 2 ,因此,σ 2 的另一个矩估计量为 σ ˆ2 = S2. Previous Next First Last Back Forward 6

9.6.1.2 最大似然估计方法 最大似然方法到目前为止应用最广的的点估计方法. 这种方法是 基于如下的看法: 设样本 X = (X1 , . . . , Xn ) 有概率函数 f (x; θ) = f (x; θ1 , · · · , θk ) Definition 这里参数 θ = (θ1 , · · · , θk ) ∈ Θ, x = (x1 , . . . , xn ) 为样本 X 的观察值. 当固定 x 时把 f (x; θ) 看成为 θ 的函数,称为 似然函数, 常记为 L(x; θ) 或 L(θ). 当固定参数 θ 时,f (x; θ) 可以看成是得到样本观察值 x 的可能 性,这样,当把参数 θ 看成变动时,也就得到 “在不同的 θ 值下能观 察到 x 的可能性大小, 即 L(x; θ)”;由于我们已经观察到了 x,所以 Previous Next First Last Back Forward 7

10.使得能观察到 x 的可能性 L(x; θ) 最大的 θ 值, 看起来应该最像未知 的 θ。这个 θ 的值即称为 θ 最大似然估计值(看上去最有可能的)。我 们先看一个例子: ↑Example 从鱼池里随机捕捞 500 条鱼, 做好记号后重新放入鱼池中, 待充 分混合后再捕捞 1000 条鱼, 结果发现其中有 72 条带有记号. 试问鱼 池中可能有多少条鱼. ↓Example 解: 先将问题一般化. 设池中有 N 条鱼, 其中 r 条做好记号. 鱼在鱼 池里均匀. 随机捕捞 s 条, 发现 x 条有记号. 用上述信息来估计 N . 用 X 表示捕捞的 s 条鱼中带记号鱼的数目, 则 s−x x CN −r Cr P (X = x) = s . CN Previous Next First Last Back Forward 8

11.目前发现在捕捞的 s 条鱼中有记号的鱼 x 条, 要寻求 N 取何值时, 使得观察到这个事件 {X = x} 的可能性最大. 即 x 是固定的, N 是 变化的, 记 p(x; N ) = P (X = x). 因为 p(x; N ) (N − s)(N − r) N 2 − N (s + r) + rs g(N ) := = = 2 , p(x; N − 1) N (N − r − s + x) N − N (r + s) + N x 当 rs > N x 时, g(N ) > 1; rs < N x 时, g(N ) < 1. 所以 P (X = x) 在 N = rs x 附近达到最大, 注意到 N 只能取正整数, 故 N 的最可能 的估计即最大似然估计为 ⌈ ⌉ ˆ = rs . N x 其中 ⌈ ⌉ 表示下取整, 即小于该值的最大整数. 将题目中的数字代入, ⌈ ⌉ ˆ = 500 × 1000 = 6944. N 72 即鱼池中的总的鱼数为 6694 条. Previous Next First Last Back Forward 9

12. 现给出最大似然估计的一般性定义: 设 X = (X1 , · · · , Xn ) 为从具有概率函数 fθ (x) 的总体中抽 取的样本,θ 为未知参数或者参数向量. x = (x1 , · · · , xn ) 为 样本的观察值。若在给定 x 时, 值 θˆ = θ(x) ˆ 满足下式 ˆ = max L(x; θ) L(θ) Definition θ∈Θ 则称 θˆ 为参数 θ 的最大似然估计值, 而 θ(X) ˆ 称为参数 θ 的最大似然估计量。若待估参数为 θ 的函数 g(θ),则 g(θ) ˆ 的最大似然估计量为 g(θ)。 Previous Next First Last Back Forward 10

13. 求最大似然估计值相当于求似然函数的最大值。在简单样本的情 况下, ∏ n L(x; θ) = fθ (xi ) i=1 而把似然函数的对数 l(θ) = log L(θ) 称为对数似然函数 (这是由于在 一些情况下,处理对数似然函数更方便) 当似然函数对变量 θ 单调时, 我们可以容易得到其最大值点. 反 之当似然函数为非单调函数且对变量 θ 可微分时,我们可以求其驻 点: 令 dl(θ) dL(θ) = 0 (或者 = 0) dθ dθ 当 θ 为多维时, 比如 θ = (θ1 , · · · , θk ) 时令 ∂l(θ) ∂L(θ) =0 (或者 = 0) i = 1, · · · , k ∂θi ∂θi 然后判断此驻点是否是最大值点。 Previous Next First Last Back Forward 11

14. ↑Example 设 X1 , · · · , Xn 为从总体 X ∼ N (a, σ 2 ) 中抽取的样本,求参数 2 a, σ 的最大似然估计量。 ↓Example 解: 易得对数似然函数为 1 ∑ n n l(a, σ 2 ) = c − 2 (xi − a)2 − log(σ 2 ) 2σ i=1 2 其中 c 是与参数无关的常数. 令 {  ∑ ∂l(a,σ 2 ) =0  a=x¯ = n1 n i=1 xi ∂a ⇒ ∑ n ∂l(a,σ 2 ) 2 =0  σ = n 2 1 (xi − a)2 ∂σ i=1 容易验证此驻点是唯一的最大值点,因此得到 a, σ 2 的最大似然估计 量: 1∑ n a ¯ ˆ=X ˆ2 = σ (Xi − X) ¯ 2. n i=1 Previous Next First Last Back Forward 12

15. ↑Example 设总体 X 服从 [a, b] 上的均匀分布, a < b, 求参数 a, b 的最大似 然估计. ↓Example 解: 易得似然函数为 1 ∏n 1 L(a, b) = I(a ≤ xj ≤ b) = I(a ≤ x(1) ≤ x(n) ≤ b). (b − a)n j=1 (b − a)n 于是对任何满足条件 a ≤ xj ≤ b 的 a, b 都有 1 1 L(a, b) = ≤ , (b − a)n (x(n) − x(1) )n 即似然函数 L(a, b) 在 a = x(1) , b = x(n) 时取到最大值. 于是 a, b 的 最大似然估计量为 a ˆ = X(1) , ˆb = X(n) . Previous Next First Last Back Forward 13

16. ↑Example 设 X1 , · · · , Xn 为从具有如下形式密度的总体中抽取的样本: { 1 b exp{− x−a b } ,x > a f (x; a, b) = 0 ,x ≤ a 求参数 a, b 的最大似然估计量. ↓Example 解: 易得似然函数为 ∏ n 1 1∑ n L(a, b) = f (xi ; a, b) = n exp{− (xi − a)}I(x(1) > a) i=1 b b i=1 在固定 b 时,显然似然函数为 a 的单调增函数,因此 L(a) 的驻点为 ∑ n ˆ = x(1) 。再令 ∂L(a,b) a ∂b = 0,得到 b = n1 (xi − x(1) ),容易验证此 i=1 Previous Next First Last Back Forward 14

17.解是最大值点。从而得到 a, b 的最大似然估计量:   a ˆ = X(1) ∑ n  b = n1 ˆ (Xi − X(1) ). i=1 Previous Next First Last Back Forward 15

18. ↑Example 设总体 X1 , . . . , Xn 服从 0-1 分布 B(1, p), 0 < p < 1, 求参数 p 的最大似然估计. ↓Example 解: 似然函数为 ∏ n ∑ ∑ L(p) = P (Xi = xi ) = p xi (1 − p)n− xi i=1 ∂logL(p) 从而令 ∂p = 0 得到 ∑ ∑ xi n − xi = p 1−p 因此 p 的似然估计为 ∑n i=1 Xi pˆ = . n Previous Next First Last Back Forward 16

19. ↑Example 设总体 X1 , . . . , Xn 服从柯西分布 f (x) = 1 1 π 1+(x−θ)2 , x ∈ R, θ ∈ R, 求参数 θ 的最大似然估计. ↓Example 解: 因为柯西分布不存在矩, 因此矩方法不适用. 其对数似然函数为 ∑ n ∑ n l(θ) = logL(θ) = logf (xi ) = [−logπ − log(1 + (xi − θ)2 ) i=1 i=1 ∂l(θ) 从而令 ∂θ = 0 得到 ∑ n 2(xi − θ) =0 i=1 1 + (xi − θ)2 此方程没有显式解, 可以使用数值方法求解. 使用起来不太方便, 因此在应用中, 考虑到柯西分布的对称性, 使用样本中位数来估计 θ. Previous Next First Last Back Forward 17

20. ↑Example 设 X1 , · · · , Xn 为从如下分布中抽取的简单样本,求 θ 的最大似 然估计. 1 1 f (x) = [θx (1−θ)2−x +θ2−x (1−θ)x ], x = 0, 1, 2; θ ∈ (0, ) x!(2 − x)! 2 ↓Example 解: 由题设知 f (x) 为离散型,其分布律为 X 0 1 2 P 1 2 [(1 − θ) + θ ] 2 2 2θ(1 − θ) 1 2 [(1 − θ)2 + θ2 ] 若直接从此分布出发,则不能得到 θ 的最大似然估计的显式表达。为 此,我们重新参数化,记 η = 2θ(1 − θ). 则由题设知 η < 1/2。则 X 0 1 2 P 1 2 (1 − η) η 1 2 (1 − η) Previous Next First Last Back Forward 18

21.再记 ni = #{X1 , · · · , Xn 中等于i的个数}, i = 0, 1, 2, 则得到似然 函数为 1 1 1 L(η) = ( (1 − η))n0 η n1 ( (1 − η))n2 = ( (1 − η))n−n1 η n1 2 2 2 求解并注意 η 的上界即得到 η 的最大似然估计为 n1 1 ηˆ = min{ , } n 2 √ 1− 1−2η 再由 θ = 2 得到 θ 的最大似然估计为 √ 1− 1 − 2ˆ η θˆ = 2 Previous Next First Last Back Forward 19

22.6.1.3 点估计的优良准则 我们看到对同一个参数,有多个不同的估计量,因此,评选不同 估计量的优劣性是需要考虑的。 1. 相合性 设总体分布依赖于参数 θ1 , · · · , θk , g(θ1 , · · · , θk ) 是待估参数函 数。设 X1 , · · · , Xn 为自该总体中抽取的样本,T (X1 , · · · , Xn ) 为 g(θ1 , · · · , θk ) 的一个估计量,如果对任意的 ϵ > 0 和 θ1 , · · · , θk 的一 切可能值都有 lim Pθ1 ,··· ,θk (|T (X1 , · · · , Xn ) − g(θ1 , · · · , θk )| ≥ ϵ) = 0 n→∞ 我们则称 T (X1 , · · · , Xn ) 为 g(θ1 , · · · , θk ) 的一个 (弱)相合估计量 (Consistent Estimator)。 相合性是对一个估计量的最基本的要求,如果一个估计量没有相 合性,那么无论样本大小多大,我们也不能把未知参数估计到任意预 定的精度。这种估计量显然是不可取的。 Previous Next First Last Back Forward 20

23. 矩估计量是满足相合性的,最大似然估计量在很一般的条件下也 是满足相合性的。 2. 无偏性 设 gˆ(X1 , · · · , Xn ) 为待估参数函数 g(θ) 的一个估计量,若 g (X1 , · · · , Xn ) = g(θ) Eˆ 则称 gˆ(X1 , · · · , Xn ) 为 g(θ) 的无偏估计量 (Unbiased Estimator) 。 无偏性的实际意义就是无系统误差. 因此在有多个估计量可供选择 时,我们优先考虑无偏估计量。 很多时候我们得到的估计量是有偏, 例如正态总体的方差 σ 2 的 ∑n 最大似然估计量 σ ˆ2 = 1 n (Xi − X) ¯ 2 是有偏的, E σ ˆ 2 = n−1 σ 2 . 若 n i=1 2 以 乘以 σ n n−1 ˆ , 所得到的估计量就是无偏的. 这种方法称为修正. 若某一参数存在多个无偏估计时, 如何来选择使用哪个估计量? 人们又在无偏性的基础上增加了对方差的要求. Previous Next First Last Back Forward 21

24.3. 有效性 设 gˆ1 (X1 , · · · , Xn ) 和 gˆ2 (X1 , · · · , Xn ) 为待估参数函数 g(θ) 的 两个不同的无偏估计量,若对任意的 θ ∈ Θ, 有 g1 (X1 , · · · , Xn )) ≤ V ar(ˆ V ar(ˆ g2 (X1 , · · · , Xn )) 而且至少对某个 θ0 ∈ Θ 使得严格不等式成立。则称 gˆ1 较 gˆ2 有效。 Previous Next First Last Back Forward 22

25. ↑Example 设 X1 , · · · , Xn 为从如下分布中抽取的简单样本,试证明样本方 差为总体方差的无偏估计. ↓Example 证: 显然 1 ∑ n ES 2 = E (Xi − X) ¯ 2 n − 1 i=1 1 ∑ n = (E(Xi − EXi + EXi − X) ¯ 2 n − 1 i=1 1 ∑ n = [(E(Xi − EXi )2 − E(EXi − X) ¯ 2] n − 1 i=1 1 ∑ 2 n = [σ − σ 2 /n)2 = σ 2 . n − 1 i=1 Previous Next First Last Back Forward 23

26. ↑Example 设总体 X 服从 (0, θ) 上的均匀分布, 0 < θ, 求参数 θ 的最大似 然估计是否为无偏估计. ↓Example 解: 易得似然函数为 1 ∏ n 1 L(θ) = I(0 ≤ xj ≤ θ) = n I(0 ≤ x(1) ≤ x(n) ≤ θ). θn j=1 θ 于是似然函数 L(θ) 在 θ = x(n) 时取到最大值. 而 X(n) 的密度函数 为 ntn−1 f (t) = I(0 < t < θ). θn 因此 ∫ θ n EXn = tf (t)dt = θ. 0 n+1 即 θ 的最大似然估计量 X(n) 不是 θ 的无偏估计, 但 n+1 n X(n) 为θ 的无偏估计量. Previous Next First Last Back Forward 24

27. ↑Example 设 X1 , . . . , Xn 来自均值为 µ, 方差为 σ 2 的总体分布的简单样 ∑ 本, ω1 , . . . , ωn 为已知的非负权值, 且满足 ωi = 1, 试比较 µ 的两 ¯ ∑ n 个估计估计 X 和 i=1 ωi Xi . ↓Example 解: 因为 2 ∑ ∑ n ¯ = σ , V ar(X) V ar( ωi Xi ) = ωi2 σ 2 , n i=1 所以 ∑ V ar( ωi Xi ) ≥ V ar(X) ¯ 且等号成立当且仅当 ωi = 1 n . Previous Next First Last Back Forward 25

28.4. 渐近正态性 估计量是样本 X1 , · · · , Xn 的函数,其确切的分布一般不是容易 得到。但是,许多形式很复杂的统计量 (未必是和),当 n 很大时, 其分布都渐近于正态分布,这个性质称为统计量的 “渐近正态性”。 无偏性和有效性都是对固定的样本大小 n 而言的,这种性质称 为估计量的 “小样本性质”,而相合性和渐近正态性都是考虑在样本 大小趋于无穷时的性质,这种性质称为 “大样本性质”。 Previous Next First Last Back Forward 26

29. ↑Example 设从总体 X 0 1 2 3 P θ/2 θ 3θ/2 1 − 3θ 抽取的一个简单样本 X1 , · · · , X10 的观察值为 (0, 3, 1, 1, 0, 2, 0, 0, 3, 0), (1) 求 θ 的矩估计量 θˆM 和最大似然估计量 θˆL ,并求出估计值。 (2) 上述估计量是否为无偏的?若不是,请作修正. (3) 比较修正后的两个估计量,指出那个更有效. ↓Example 由有效性的定义,我们自然会问在一切可能的无偏估计里,能否 找到具有最小方差的无偏估计量?如果存在这样的估计量,我们称其 为最小方差无偏估计量, 详细地可以参考课本。 Previous Next First Last Back Forward 27