05_对称特征值

下载 2

达达仔

发布于

2186

人观看

#信息技术

1 Jacobi 迭代 2 Rayleigh 商迭代 3 对称 QR 迭代 4 分而治之法 5 对分法和逆迭代 6 奇异值分解 7 扰动

展开查看详情

1 .第五讲对称特征值问题 1 Jacobi 迭代 2 Rayleigh 商迭代 3 对称 QR 迭代 4 分而治之法 5 对分法和逆迭代 6 奇异值分解 7 扰动分析

2 .关于对称特征值问题的常用算法有 (直接法): • Jacobi 迭代: 最古老, 收敛速度较慢, 但精度较高, 且很适合并行计算. • Rayleigh 商迭代: 一般具有三次收敛性, 但需要解方程组. • 对称 QR 迭代: 对称矩阵的 QR 方法. 对于对称三对角矩阵, 若只计算特征值, 则速度最快 (运算量为 O(n2 )). 如果还需要计算特征向量, 则运算量约为 6n3 . • 分而治之法 (Divide-and-Conquer) : 同时计算特征值和特征向量的一种快速算法. 基本思想是将大矩阵分解成小矩阵, 然后利用递归思想求特征值. 在最坏的情形下, 运算量为 O(n3 ). 在实际应用中, 平均为 O(n2.3 ). 如果使用快速多极子算法 (FMM) 后, 理论上的运算量可降低到 O(n logp n), 其中 p 是一个较小的整数, 这使得分而治之算法成为目前计算对称三对角矩阵的特征值和特征向量的首选方法. 2/102

3 .• 对分法和反迭代: 对分法主要用于求解对称三对角矩阵在某个区间中的特征值, 运算量约为 O(kn), 其中 k 为所需计算的特征值的个数. 反迭代用于计算特征向量, 在最佳情况下, 即特征值 “适当分离” 时, 运算量约为 O(kn), 但在最差情况下, 即特征值成串地紧靠在一起时, 运算量约为 O(k 2 n), 而且不能保证特征向量的精度 (虽然实际上它几乎是精确的). † 除了 Jacobi 迭代和 Rayleigh 商迭代外, 其余算法都需要先将对称矩 4 阵三对角化, 这个过程大约需花费 n3 的工作量, 如果需要计算特征 3 8 3 向量的话, 则运算量约为 n . 3 3/102

4 .1 Jacobi 迭代基本思想: 通过一系列的 Jacobi 旋转将 A 正交相似于一个对角矩阵: A(0) = A, A(k+1) = JkT A(k) Jk , k = 0, 1, . . . , 且 A(k) 收敛到一个对角矩阵, 其中 Jk 为 Jacobi 旋转, 即 Givens 变换: ik jk   I    cos θk · · · − sin θk  ik Jk = G(ik , jk , θk ) =   .. ..    ..   . . .    jk  sin θk · · · cos θk  I 4/102

5 .引理设 A ∈ R2×2 是对称矩阵, 则存在 Givens 变换 G ∈ R2×2 使得 GT AG 为对角阵. (板书) 5/102

6 .为了使得 A(k) 收敛到一个对角矩阵, 其非对角元素必须趋向于 0. 记 off(A) 为所有非对角元素的平方和, 即 ∑ ∑ n off(A) = a2ij = ∥A∥2F − a2ii , i̸=j i=1 我们的目标就是使得 off(A) 尽快趋向于 0. 引理设 A = [aij ]n×n ∈ Rn×n 是对称矩阵, Aˆ = [ˆ aij ]n×n = J T AJ, J = G(i, j, θ), 其中 θ 的选取使得 a ˆji = 0, 则 ˆij = a ˆ = off(A) − 2a2 . off(A) ij (板书) 6/102

7 .算法 1.1 Jacobi 迭代算法 1: Given a symmetric matrix A ∈ Rn×n 2: if eigenvectors are desired then 3: set J = I and shif t = 1 4: end if 5: while not converge do 6: choose an index pair (i, j) such that aij ̸= 0 7: τ = (aii − ajj )/(2aij ) √ 8: t = sign(τ )/(|τ | + 1 + τ 2 ) % 计算 tan θ √ 9: c = 1/ 1 + t2 , s = c · t % 计算 Givens 变换 10: A = G(i, j, θ)T AG(i, j, θ) % 实际计算时不需要做矩阵乘积 11: if shif t = 1 then 12: J = J · G(i, j, θ) 13: end if 14: end while

8 .aij 的选取问题一种直观的选取方法就是使得 aij 为所有非对角元素中绝对值最大的一个, 这就是经典 Jacobi 算法. 8/102

9 .算法 1.2 经典 Jacobi 迭代算法 1: Given a symmetric matrix A ∈ Rn×n 2: if eigenvectors are desired then 3: set J = I and shif t = 1 4: end if 5: while oﬀ(A)> tol do 6: choose (i, j) such that |aij | = maxk̸=l |akl | 7: τ = (aii − ajj )/(2aij ) √ 8: t = sign(τ )/(|τ | + 1 + τ 2 ) √ 9: c = 1/ 1 + t2 , s = c · t 10: A = G(i, j, θ)T AG(i, j, θ) 11: if shif t = 1 then 12: J = J · G(i, j, θ) 13: end if 14: end while

10 .可以证明, 经典 Jacobi 算法至少是线性收敛的. 定理对于经典 Jacobi 算法 1.2, 有 ( ) 1 n(n − 1) off(A (k+1) )≤ 1− off(A(k) ), N= . N 2 故 k 步迭代后, 有 ( )k ( )k 1 1 off(A(k) ) ≤ 1− off(A(0) ) = 1− off(A). N N (板书) 10/102

11 .事实上, 经典 Jacobi 算法最终是二次局部收敛的. 定理经典 Jacobi 算法 1.2 是 N 步局部二次收敛的, 即对足够大的 k, 有 ( ) ( ( )) off A(k+N ) = O off2 A(k) . 11/102

12 .经典 Jacobi 算法的每一步都要寻找绝对值最大的非对角元, 费时不实用. 改进: 逐行扫描, 这就是循环 Jacobi 迭代方法算法 1.3 循环 Jacobi 迭代算法 (逐行扫描) 1: Given a symmetric matrix A ∈ Rn×n 2: if eigenvectors are desired then 3: set J = I and shif t = 1 4: end if 5: while oﬀ(A)> tol do 6: for i = 1 to n − 1 do 7: for j = i + 1 to n do 8: if aij ̸= 0 then 9: τ = (aii − ajj )/(2aij ) √ 10: t = sign(τ )/(|τ | + 1 + τ 2 ) √ 11: c = 1/ 1 + t2 12/102

13 .12: s=c·t 13: A = G(i, j, θ)T AG(i, j, θ) 14: if shif t = 1 then 15: J = J · G(i, j, θ) 16: end if 17: end if 18: end for 19: end for 20: end while 循环 Jacobi 也具有局部二次收敛性 [65, page 270]. 13/102

14 .2 Rayleigh 商迭代在反迭代方法中, 以 Rayleigh 商作为位移. 关于 Rayleigh 商迭代的收敛性, 我们有下面的结论. 定理设 A ∈ Rn×n 对称, 且特征值都是单重的. 则当误差足够小时, Rayleigh 商迭代中每步迭代所得的正确数字的位数增至三倍, 即 Rayleigh 商迭代是局部三次收敛的. (板书) 关于 RQI 算法的全局收敛性, 可参见文献 [49]. 14/102

15 .3 对称 QR 迭代将带位移的隐式 QR 方法运用到对称矩阵, 就得到对称 QR 迭代方法. 基本步骤 1. 对称三对角化: 利用 Householder 变换, 将 A 化为对称三对角矩阵, 即计算正交矩阵 Q 使得 T = QAQT 为对称三对角矩阵; 2. 使用带 (单) 位移的隐式 QR 迭代算法计算 T 的特征值与特征值向量; 3. 计算 A 的特征向量. 15/102

16 . 对称三对角化任何一个对称矩阵 A ∈ Rn×n 都可以通过正交变换转化成一个对称三对角矩阵 T . 这个过程可以通过 Householder 变换来实现, 也可以通过 Givens 变换来实现. 对称 QR 迭代算法的运算量 • 三对角化 4n3 /3 + O(n2 ), 若需计算特征向量, 则为 8n3 /3 + O(n2 ); • 对 T 做带位移的隐式 QR 迭代, 每次迭代的运算量为 6n; • 计算特征值, 假定每个平均迭代 2 步, 则总运算量为 12n2 ; • 若要计算 T 的所有特征值和特征向量, 则运算量为 6n3 + O(n2 ); • 若只要计算 A 的所有特征值, 运算量为 4n3 /3 + O(n2 ); • 若计算 A 的所有特征值和特征向量, 则运算量为 26n3 /3 + O(n2 ); 16/102

17 . 位移的选取 — Wilkinson 位移位移的好坏直接影响到算法的收敛速度. 我们可以通过下面的方式来选取位移. 设  (k) (k)  a1 b1    b(k) . . . . . .    A(k) =  1 ,  .. ..   . . b(k) n−1  (k) (k) bn−1 an (k) (k) 一种简单的位移选取策略就是令 σk = an . 事实上, an 就是收敛到特征向量的迭代向量的 Rayleigh 商. 这种位移选取方法几乎对所有的矩阵都有三次渐进收敛速度, 但也存在不收敛的例子, 故我们需要对其做改进. 17/102

18 . [ ] (k) (k) an−1 bn−1 (k) Wilkinson 位移: 取 (k) (k) 的最接近 an 的特征值作为位移. bn−1 an 通过计算可得 Wilkinson 位移为 √ ( )2 (k) 1 (k) n + δ − sign(δ) δ + bn−1 σ = a(k) 其中 − a(k) 2 , δ= (a n ). 2 n−1 出于稳定性方面的考虑, 我们通常用下面的计算公式 ( )2 (k) bn−1 n − σ = a(k) √ ( )2 . (k) δ + sign(δ) δ 2 + bn−1 定理采用 Wilkinson 位移的 QR 迭代是整体收敛的, 且至少是线性收敛. 事实上, 几乎对所有的矩阵都是渐进三次收敛的. 18/102

19 .例带 Wilkinson 位移的隐式 QR 迭代算法收敛性演示. Matlab 代码: Eig_TriQR.m 19/102

20 .4 分而治之法分而治之法由 Cuppen [16] 于 1981 年首次提出, 但直到 1995 年才出现稳定的实现方式 [33], 是目前计算所有特征值和特征向量的最快算法. 考虑不可约对称三对角矩阵   a1 b1    b ... ...   1     ..   . am−1 bm−1       bm−1 am bm  T =   bm am+1 bm+1     .. ..   . .   bm+1     .. ..   . . bn−1  bn−1 an 20/102

21 .   a1 b1      b ... ...   1         ..     . am−1 bm−1         bm−1 am − bm       bm bm  = +   am+1 − bm bm+1   bm bm       .. ..     . .     bm+1         .. ..   . . bn−1  bn−1 an [ ] T1 0 = + bm vv T , 0 T2 其中 v = [0, . . . , 0, 1, 1, 0, . . . , 0]T . 21/102

22 .假定 T1 和 T2 的特征值分解已经计算出来了, 即 T1 = Q1 Λ1 QT1 , T2 = Q2 Λ2 QT2 , 下面考虑 T 的特征值分解. [ ] T1 0 T = + bm vv T 0 T2 [ ] Q1 Λ1 QT1 0 = + bm vv T 0 Q2 Λ2 QT2 [ ] ([ ] )[ ]T Q1 0 Λ1 0 T Q1 0 = + bm uu , 0 Q2 0 Λ2 0 Q2 其中 [ ]T [ ] Q1 0 QT1 的最后一列 u= v= . 0 Q2 QT2 的第一列令 α = bm , D = diag(Λ1 , Λ2 ) = diag(d1 , d2 , . . . , dn ), 并假设 d1 ≥ d2 ≥ · · · ≥ dn . 则 T 的特征值与 D + αuuT 的特征值相同. 22/102

23 .下面考虑 D + αuuT 的特征值. 设 λ 是 D + αuuT 的一个特征值, 若 D − λI 非奇异, 则 det(D + αuuT − λI) = det(D − λI) · det(I + α(D − λI)−1 uuT ). 故 det(I + α(D − λI)−1 uuT ) = 0. 引理设 x, y ∈ Rn , 则 det(I + xy T ) = 1 + y T x . 于是 ∑ n u2i △ det(I+α(D−λI)−1 uuT ) = 1+αuT (D−λI)−1 u = 1+α = f (λ). i=1 di − λ 故求 A 的特征值等价于求特征方程 f (λ) = 0 的根. 23/102

24 .由于 ∑ n u2i f ′ (λ) = α , i=1 (di − λ)2 当所有的 di 都互不相同, 且所有的 ui 都不为零时, f (λ) 在 λ ̸= di 处都是严格单调的. 6 4 2 0 −2 −4 −6 −1 0 1 2 3 4 5 6 24/102

25 .所以 f (λ) 在每个区间 (di+1 , di ) 内都有一个根, 共 n − 1 个, 另一个根在 (d1 , ∞) (若 α > 0) 或 (−∞, dn ) (若 α < 0) 中. 由于 f (λ) 在每个区间 (di , di+1 ) 内光滑且严格单调递增 (α > 0) 或递减 (α < 0), 所以在实际计算中, 可以使用对分法, 牛顿法及其变形, 或有理逼近等算法来求解. 通常都能很快收敛, 一般只需迭代几步即可. 因此, 计算一个特征值的运算量约为 O(n), 计算 D + αuuT 的所有特征值的运算量约为 O(n2 ). 当所有特征值计算出来后, 我们用下面的引理来计算特征向量. 引理设 D ∈ Rn×n 为对角矩阵, u ∈ Rn , α ∈ R, 若 λ 是 D + αuuT 的特征值, 则 (D − λI)−1 u 是其对应的特征向量, 且运算量为 O(n). (板书) 25/102

26 .算法 4.1 计算对称三对角矩阵的特征值和特征向量的分而治之法 1: function [Q, Λ] = dc_eig(T ) % T = QΛQT 2: if T is of 1 × 1 then 3: Q = 1, Λ = T 4: return 5: end if [ ] T1 0 6: form T = + bm vv T 0 T2 7: [Q1 , Λ1 ] = dc_eig(T1 ) 8: [Q2 , Λ2 ] = dc_eig(T2 ) 9: form D + αuuT from Λ1 , Λ2 , Q1 , Q2 compute the eigenvalues Λ and eigenvectors ˆ T 10: [ Q of D] + αuu Q1 0 11: compute the eigenvectors of T with Q = ·Q ˆ 0 Q2 12: end

27 .† 在分而治之法中, 计算特征值和特征值向量是同时进行的. 下面我们详细讨论分而治之算法的几个细节问题: (1) 如何减小运算量; (2) 如何求解特征方程 f (λ) = 0; (3) 如何稳定地计算特征向量. 27/102

28 . (1) 如何减小运算量 — 收缩技巧 (deﬂation) 分而治之算法的计算复杂性分析如下: 用 t(n) 表示对 n 阶矩阵调用函数 dc_eig 的运算量, 则 t(n) = 2 t(n/2) 递归调用 dc_eig 两次 + O(n2 ) 计算 D + αuuT 的特征值和特征向量 + c · n3 计算 Q. 如果计算 Q 时使用的是稠密矩阵乘法, 则 c = 2; 若不计 O(n2 ) 项, 则由递归公式 t(n) = 2 t(n/2) + c · n3 可得 t(n) ≈ c · 4n3 /3. 但事实上, 由于收缩 (deﬂation) 现象的存在, 常数 c 通常比 1 小得多. 28/102

29 .在前面的算法描述过程中, 我们假定 di 互不相等且 ui 不能为零. 事实上, 当 di = di+1 或 ui = 0 时, di 即为 D + αuuT 的特征值, 这种现象我们称为收缩 (deﬂation) . 在实际计算时, 当 di − di+1 或 |ui | 小于一个给定的阈值时, 我们就近似认为 di 为 D + αuuT 的特征值, 即出现收缩现象. 在实际计算中, 收缩现象会经常发生, 而且非常频繁, 所以我们可以而且应该利用这种优点加快分而治之算法的速度 [16, 53]. 由于主要的计算量集中在计算 Q, 即算法最后一步的矩阵乘积. 如果 ˆ 的第 i 列为 ei , 故计 ui = 0, 则 di 为特征值, 其对应的特征向量为 ei , 即 Q 算 Q 的第 i 列时不需要做任何的计算. 当 di = di+1 时, 也存在一个类似的简化. 29/102

7点赞

1收藏

2下载