Complement de Schur

En àlgebra lineal i teoria de matrius, el complement de Schur d'una matriu per blocs és defineix de la manera següent.

Assumim que existeixen unes matrius A, B, C, D que són, respectivament, matrius p × p, p × q, q × p, i q × q, i que D és invertible. Aleshores podem definir M com

M = [ A B C D ] {\displaystyle M=\left[{\begin{matrix}A&B\\C&D\end{matrix}}\right]}

de forma que M és una matriu (p + q) × (p + q).

Si D és invertible, el complement de Schur del bloc D de la matriu M és la matriu p × p definida per

M / D := A B D 1 C {\displaystyle M/D:=A-BD^{-1}C\,}

i si A és invertible, el complement de Schur del bloc A de la matriu M és la matriu q × q definida per

M / A := D C A 1 B . {\displaystyle M/A:=D-CA^{-1}B.}

En el cas que A o D sigui singular, substituir la pseudoinversa (o inversa generalitzada) per la inversa de M/A i M/D resulta en el complement de Schur generalitzat.

Tot i que ja havia estat utilitzat anteriorment, el complement de Schur s'anomena així perquè va ser Issai Schur qui el va utilitzar per provar el lema de Schur.[1] Emilie Virginia Haynsworth va ser la primera que va anomenar-lo complement de Schur.[2] El complement de Schur és una eina clau en els camps d'anàlisi numèrica, estadística, i anàlisi matricial.

Antecedents

El complement de Schur sorgeix com el resultat d'una eliminació Gaussiana per blocs, en multiplicar la matriu M des de la dreta amb una matriu triangular inferior

L = [ I p 0 D 1 C I q ] . {\displaystyle L={\begin{bmatrix}I_{p}&0\\-D^{-1}C&I_{q}\end{bmatrix}}.}

Aquí Ip denota una matriu identitat p×p. Després de la multiplicació amb la matriu L, el complement de Schur apareix al bloc superior p×p. El producte de les matrius és

M L = [ A B C D ] [ I p 0 D 1 C I q ] = [ A B D 1 C B 0 D ] = [ I p B D 1 0 I q ] [ A B D 1 C 0 0 D ] . {\displaystyle {\begin{aligned}ML&={\begin{bmatrix}A&B\\C&D\end{bmatrix}}{\begin{bmatrix}I_{p}&0\\-D^{-1}C&I_{q}\end{bmatrix}}={\begin{bmatrix}A-BD^{-1}C&B\\0&D\end{bmatrix}}\\[4pt]&={\begin{bmatrix}I_{p}&BD^{-1}\\0&I_{q}\end{bmatrix}}{\begin{bmatrix}A-BD^{-1}C&0\\0&D\end{bmatrix}}.\end{aligned}}}

Això és anàleg a una descomposició LDU. Per tant, hem demostrat que

[ A B C D ] = [ I p B D 1 0 I q ] [ A B D 1 C 0 0 D ] [ I p 0 D 1 C I q ] , {\displaystyle {\begin{aligned}{\begin{bmatrix}A&B\\C&D\end{bmatrix}}&={\begin{bmatrix}I_{p}&BD^{-1}\\0&I_{q}\end{bmatrix}}{\begin{bmatrix}A-BD^{-1}C&0\\0&D\end{bmatrix}}{\begin{bmatrix}I_{p}&0\\D^{-1}C&I_{q}\end{bmatrix}},\end{aligned}}}

i la inversa de M pot ser expressada implicant D−1 i la inversa del complement de Schur (si existeix) només com

[ A B C D ] 1 = [ I p 0 D 1 C I q ] [ ( A B D 1 C ) 1 0 0 D 1 ] [ I p B D 1 0 I q ] = [ ( A B D 1 C ) 1 ( A B D 1 C ) 1 B D 1 D 1 C ( A B D 1 C ) 1 D 1 + D 1 C ( A B D 1 C ) 1 B D 1 ] = [ ( M / D ) 1 ( M / D ) 1 B D 1 D 1 C ( M / D ) 1 D 1 + D 1 C ( M / D ) 1 B D 1 ] . {\displaystyle {\begin{aligned}&{\begin{bmatrix}A&B\\C&D\end{bmatrix}}^{-1}={\begin{bmatrix}I_{p}&0\\-D^{-1}C&I_{q}\end{bmatrix}}{\begin{bmatrix}\left(A-BD^{-1}C\right)^{-1}&0\\0&D^{-1}\end{bmatrix}}{\begin{bmatrix}I_{p}&-BD^{-1}\\0&I_{q}\end{bmatrix}}\\[4pt]={}&{\begin{bmatrix}\left(A-BD^{-1}C\right)^{-1}&-\left(A-BD^{-1}C\right)^{-1}BD^{-1}\\-D^{-1}C\left(A-BD^{-1}C\right)^{-1}&D^{-1}+D^{-1}C\left(A-BD^{-1}C\right)^{-1}BD^{-1}\end{bmatrix}}\\[4pt]={}&{\begin{bmatrix}\left(M/D\right)^{-1}&-\left(M/D\right)^{-1}BD^{-1}\\-D^{-1}C\left(M/D\right)^{-1}&D^{-1}+D^{-1}C\left(M/D\right)^{-1}BD^{-1}\end{bmatrix}}.\end{aligned}}}

Cf. El lema d'inversió de matrius que il·lustra relacions entre el que s'ha explicat a dalt i la derivació equivalent amb els rols de A i D intercanviats.

Propietats

  • Si p i q són 1 (és a dir si A, B, C i D són escalars), trobem la fórmula per obtenir la inversa d'una matriu 2 per 2:
  • : M 1 = 1 A D B C [ D B C A ] {\displaystyle M^{-1}={\frac {1}{AD-BC}}\left[{\begin{matrix}D&-B\\-C&A\end{matrix}}\right]}
Amb la condició que AD - BC sigui diferent de zero.
  • En general, si A és invertible, llavors
  • : M = [ I p 0 C A 1 I q ] [ A 0 0 D C A 1 B ] [ I p A 1 B 0 I q ] , M 1 = [ A 1 + A 1 B ( M / A ) 1 C A 1 A 1 B ( M / A ) 1 ( M / A ) 1 C A 1 ( M / A ) 1 ] {\displaystyle {\begin{aligned}M&={\begin{bmatrix}I_{p}&0\\CA^{-1}&I_{q}\end{bmatrix}}{\begin{bmatrix}A&0\\0&D-CA^{-1}B\end{bmatrix}}{\begin{bmatrix}I_{p}&A^{-1}B\\0&I_{q}\end{bmatrix}},\\[4pt]M^{-1}&={\begin{bmatrix}A^{-1}+A^{-1}B(M/A)^{-1}CA^{-1}&-A^{-1}B(M/A)^{-1}\\-(M/A)^{-1}CA^{-1}&(M/A)^{-1}\end{bmatrix}}\end{aligned}}}
sempre que aquesta inversa existeixi.
  • Quan A, i respectivament D, és invertible, el determinant de M és també donat per
  • : det ( M ) = det ( A ) det ( D C A 1 B ) {\displaystyle \det(M)=\det(A)\det \left(D-CA^{-1}B\right)} , respectivament
  • : det ( M ) = det ( D ) det ( A B D 1 C ) {\displaystyle \det(M)=\det(D)\det \left(A-BD^{-1}C\right)} ,
cosa que generalitza la fórmula del determinant de matrius 2 × 2.
  • (Fórmula d'additivitat de rang de Guttman) Si D és invertible, aleshores el rang de M és donat per
  • : rank ( M ) = rank ( D ) + rank ( A B D 1 C ) {\displaystyle \operatorname {rank} (M)=\operatorname {rank} (D)+\operatorname {rank} \left(A-BD^{-1}C\right)}
  • (Fórmula d'additivitat de la inèrcia de Haynsworth) Si A és invertible, llavors la inèrcia de la matriu per blocs M és igual a la inèrcia de A més la inèrcia de M/A.

Aplicació a la solució d'equacions lineals

El complement de Schur sorgeix naturalment en la solució de sistemes d'equacions lineals com

A x + B y = a C x + D y = b {\displaystyle {\begin{aligned}Ax+By&=a\\Cx+Dy&=b\end{aligned}}}

On x i a són vectors columna de dimensió p, y i b són vectors columna de dimensió q, A, B, C, D són definides com a dalt, i D és invertible. Multiplicant l'equació inferior per B D 1 {\textstyle BD^{-1}} i després restant de l'equació superior es pot obtenir

( A B D 1 C ) x = a B D 1 b . {\displaystyle \left(A-BD^{-1}C\right)x=a-BD^{-1}b.}

Per tant, si es pot invertir D així com el complement de Schur de D, es pot resoldre l'equació per x, i llavors utilitzant l'equació C x + D y = b {\displaystyle Cx+Dy=b} es pot solucionar per y. Això redueix el problema d'invertir una matriu ( p + q ) × ( p + q ) {\displaystyle (p+q)\times (p+q)} a invertir una matriu p × p i una matriu q × q. En un cas pràctic, D ha d'estar ben condicionada per a que aquest algoritme sigui numèricament acurat.

En enginyeria elèctrica aquest mètode es fa servir amb el nom d'eliminació de nodes o reducció de Kron.

Aplicacions a teoria de probabilitat i estadística

Assumim que existeixen uns vectors columna aleatoris X i Y pertanyents a Rn i Rm respectivament, on el vector (X, Y) pertanyent a Rn + m té una distribució normal multivariable on la seva covariància és la matriu simètrica i definida positiva següent

Σ = [ A B B T C ] , {\displaystyle \Sigma =\left[{\begin{matrix}A&B\\B^{\mathsf {T}}&C\end{matrix}}\right],}

On A R n × n {\textstyle A\in \mathbb {R} ^{n\times n}} és la matriu de covariància de X, C R m × m {\textstyle C\in \mathbb {R} ^{m\times m}} és la matriu de covariància de Y i B R n × m {\textstyle B\in \mathbb {R} ^{n\times m}} és la matriu de covariància entre X i Y.

Aleshores la covariància condicional de X donada Y és el complement de Schur de C dins Σ {\textstyle \Sigma } [3]

Cov ( X Y ) = A B C 1 B T E ( X Y ) = E ( X ) + B C 1 ( Y E ( Y ) ) {\displaystyle {\begin{aligned}\operatorname {Cov} (X\mid Y)&=A-BC^{-1}B^{\mathsf {T}}\\\operatorname {E} (X\mid Y)&=\operatorname {E} (X)+BC^{-1}(Y-\operatorname {E} (Y))\end{aligned}}}

Si agafem la matriu Σ {\displaystyle \Sigma } com la covariància de mostra, i no com la covariància d'un vector aleatori, llavors aquesta pot tenir una distribució de Wishart. En aquest cas, el complement de Schur de C dins Σ {\displaystyle \Sigma } també té una distribució de Wishart.[cal citació]

Condicions per matrius definides positives i semidefinides positives

Prenguem X com una matriu simètrica de nombres reals i definida de la manera següent

X = [ A B B T C ] . {\displaystyle X=\left[{\begin{matrix}A&B\\B^{\mathsf {T}}&C\end{matrix}}\right].}

Aleshores

  • Si A és invertible, llavors X és definida positiva si i només si A i el seu complement de Schur X/A són tots dos definits positius:
  • : X 0 A 0 , X / A = C B T A 1 B 0. {\displaystyle X\succ 0\Leftrightarrow A\succ 0,X/A=C-B^{\mathsf {T}}A^{-1}B\succ 0.} [4]
  • Si C és invertible, llavors X és definida positiva si i només si C i el seu complement de Schur X/C són tots dos dos definits positius:
  • : X 0 C 0 , X / C = A B C 1 B T 0. {\displaystyle X\succ 0\Leftrightarrow C\succ 0,X/C=A-BC^{-1}B^{\mathsf {T}}\succ 0.}
  • Si A és definida positiva, llavors X és semidefinida positiva si i només si el complement de Schur X/A és semidefinit positiu:
  • : Si  A 0 ,  aleshores  X 0 X / A = C B T A 1 B 0. {\displaystyle {\text{Si }}A\succ 0,{\text{ aleshores }}X\succeq 0\Leftrightarrow X/A=C-B^{\mathsf {T}}A^{-1}B\succeq 0.} [4]
  • Si C és definida positiva, llavors X és semidefinida positiva si i només si el complement de Schur X/C és semidefinit positiu:
  • : If  C 0 ,  then  X 0 X / C = A B C 1 B T 0. {\displaystyle {\text{If }}C\succ 0,{\text{ then }}X\succeq 0\Leftrightarrow X/C=A-BC^{-1}B^{\mathsf {T}}\succeq 0.}

Les declaracions primera i tercera poden ser derivades quan es considera el minimitzador de la quantitat[5]

u T A u + 2 v T B T u + v T C v , {\displaystyle u^{\mathsf {T}}Au+2v^{\mathsf {T}}B^{\mathsf {T}}u+v^{\mathsf {T}}Cv,\,}

Com una funció de v (per u constant).

A més, perquè

[ A B B T C ] 0 [ C B T B A ] 0 {\displaystyle \left[{\begin{matrix}A&B\\B^{\mathsf {T}}&C\end{matrix}}\right]\succ 0\Longleftrightarrow \left[{\begin{matrix}C&B^{\mathsf {T}}\\B&A\end{matrix}}\right]\succ 0}

la segona declaració es compleix a conseqüència de la primera.

Cal notar que això també és així per a la quarta declaració respecte de la tercera.

Aquesta línia de raonament es pot aplicar equivalentment a les matrius semidefinides positives.

Finalment, hi ha també una condició suficient i necessària pel verificar que una matriu X és semidefinida positiva, en termes d'un complement de Schur generalitzat.[1] Aquesta condició pot expressar-se com

  • I X 0 A 0 , C B T A g B 0 , ( I A A g ) B = 0 {\displaystyle X\succeq 0\Leftrightarrow A\succeq 0,C-B^{\mathsf {T}}A^{g}B\succeq 0,\left(I-AA^{g}\right)B=0\,}
  • X 0 C 0 , A B C g B T 0 , ( I C C g ) B T = 0 , {\displaystyle X\succeq 0\Leftrightarrow C\succeq 0,A-BC^{g}B^{\mathsf {T}}\succeq 0,\left(I-CC^{g}\right)B^{\mathsf {T}}=0,}

On A g {\displaystyle A^{g}} denota la inversa generalitzada (o pseudoinversa) de A {\displaystyle A} .

Vegeu també

Referències

  1. 1,0 1,1 Zhang, Fuzhen. The Schur Complement and Its Applications. Springer, 2005. DOI 10.1007/b105056. ISBN 0-387-24271-6. 
  2. Haynsworth, E. V., "On the Schur Complement", Basel Mathematical Notes, #BNB 20, 17 pages, June 1968.
  3. von Mises, Richard. «Chapter VIII.9.3». A: Mathematical theory of probability and statistics. Academic Press, 1964. ISBN 978-1483255385. 
  4. 4,0 4,1 Zhang, Fuzhen. The Schur Complement and Its Applications. Springer, 2005, p. 34. 
  5. Boyd, S. and Vandenberghe, L. (2004), "Convex Optimization", Cambridge University Press (Appendix A.5.5)