24
Cap´ ıtulo 3 Valores singulares 3.1. Introducci´ on Los valores singulares juegan un papel central en el ´ algebra lineal num´ erica actual. Son esenciales para calcular de forma fiable cantidades tan importantes como el rango de una matriz o la distancia de una matriz no singular al conjunto de las matrices singulares. Como tantas veces en matem´ aticas, no fue la necesidad pr´ actica (derivada, por ejemplo, del c´ alculo num´ erico) sino la necesidad de profundizar en el conocimiento lo que produjo el surgimiento de los valores singulares. Por otra parte, no ha sido hasta el reciente desarrollo del ´ algebra lineal num´ erica cuando tal concepto ha adquirido la importancia que actualmente tiene e incluso la denominaci´ on que ahora le estamos dando. En efecto, fue en la segunda parte del siglo XIX cuando algunos ge´ ometras se preguntaron, utilizando lenguaje actual, por la posibilidad de reducir unitariamente una forma cuadr´atica a forma diagonal. Entre los matem´ aticos que contribuyeron 65

Cap tulo 3 Valores singulares - Hasiera - UPV/EHU · Una breve e interesante historia de los valores singulares puede encontrarse en el ... nirla como la super cie que se obtiene

  • Upload
    hakien

  • View
    222

  • Download
    0

Embed Size (px)

Citation preview

Capıtulo 3

Valores singulares

3.1. Introduccion

Los valores singulares juegan un papel central en el algebra lineal numericaactual. Son esenciales para calcular de forma fiable cantidades tan importantes comoel rango de una matriz o la distancia de una matriz no singular al conjunto de lasmatrices singulares.

Como tantas veces en matematicas, no fue la necesidad practica (derivada, porejemplo, del calculo numerico) sino la necesidad de profundizar en el conocimiento loque produjo el surgimiento de los valores singulares. Por otra parte, no ha sido hastael reciente desarrollo del algebra lineal numerica cuando tal concepto ha adquirido laimportancia que actualmente tiene e incluso la denominacion que ahora le estamosdando. En efecto, fue en la segunda parte del siglo XIX cuando algunos geometras sepreguntaron, utilizando lenguaje actual, por la posibilidad de reducir unitariamenteuna forma cuadratica a forma diagonal. Entre los matematicos que contribuyeron

65

66 Valores singulares

a la solucion de este problema se encuentran nombres tan famosos como EugenioBeltrami, Camille Jordan, James Joseph Sylvester, Erhard Scmidt o Hermann Weyl.

Una breve e interesante historia de los valores singulares puede encontrarse en elreport de G. W. Stewart: On the early history of the Singular Value Decompositionque se puede obtener en la direccion

http://citeseer.ist.psu.edu/stewart92early.html

o mediante ftp anonimo en thales.cs.umd.edu en el directorio pub/reports.

En nuestro proceso hacia la definicion de los valores singulares y del teoremacentral de este capıtulo (El Teorema SVD) necesitamos recordar el concepto dematriz unitaria. A ello dedicamos la primera seccion.

3.2. Matrices Ortogonales y Unitarias

Comenzamos repasando los conceptos de producto escalar y ortogonalidad. Six, y P Fn entonces el producto escalar de y y x es

ă x, y ą“

$’&’%

nři“1

yixi “ yTx si F “ R,nři“1

yixi “ y˚x si F “ C

Por lo general supondremos que F “ C de modo que el producto escalar de x y y loescribiremos como un producto de matrices; i.e. y˚x. Deberemos entender que en elcaso en que los vectores sean reales y hablemos del producto escalar en Rn entoncesse debe sustituir ˚ por T .

Debe observarse que para todo x P Cn

x˚x “nÿ

i“1

|xi|2 “ }x}22.

Esta forma de expresar la norma euclıdea de un vector, la usaremos muy a menudo.Un vector diremos que es unitario si su norma es 1.

Dos vectores se dice que son ortogonales si su producto escalar es cero:

x K y ô y˚x “ 0.

3.2 Matrices Ortogonales y Unitarias 67

Notese que y˚x y x˚y son numeros complejos conjugados:

x˚y “ y˚x,

pero si x, y P Rn entonces xTy “ yTx.

Dos conjuntos X, Y Ă Fn son ortogonales si cada vector de X es ortogonal acada vector de Y . Escribiremos, en tal caso, X K Y . Si S Ď Fn es un subconjuntodenotaremos

SK “ ty P Fn|x˚y “ 0, @x P Su.Independientemente de si S es un subespacio vectorial o no, SK siempre lo es, ylo llamaremos el subespacio ortogonal de S. Abusando de lenguaje diremos que unconjunto de vectores no nulos es ortogonal si cada vector es ortogonal a todos losdemas:

S ortogonal ô @x, y P S, x˚y “ 0.

Si, ademas, todos los vectores del conjunto son unitarios entonces el conjunto se diceque es ortonormal :

S ortonormal ô S ortogonal y @x P S, }x}2 “ 1.

Proposicion 3.1 Todos los vectores de un conjunto S “ tv1, . . . , vtu ortogonal sonlinealmente independientes.

Demostracion.- Sitři“1

aivi “ 0, entonces para j “ 1, . . . , t

0 “ v˚jtÿ

i“1

aivi “tÿ

i“1

aipv˚j viq “ cjpv˚j vjq “ cj}xj}.

Por lo tanto, cj “ 0.

Definicion 3.2 (a) Una matriz U P Cnˆn es unitaria si sus columnas formanuna base ortonormal de vectores de Cn.

(b) Una matriz P P Rnˆn es ortogonal si sus columnas forman una base orto-normal de vectores de Rn.

68 Valores singulares

Hay algunas condiciones equivalentes a ser unitaria (aplicado a F “ R sirvenpara matrices ortogonales):

Proposicion 3.3 Para U P Cnˆn las siguientes condiciones son equivalentes:

(i) U es unitaria.

(ii) U es no singular y U˚ “ U´1.

(iii) UU˚ “ In.

(iv) U˚ es unitaria.

(v) Las filas de U forman un sistema ortonormal de vectores de Cn.

(vi) Para todo x P Cn se tiene }x}2 “ }Ux}2

La demostracion de estas propiedades es mas o menos inmediata salvo, quiza,la condicion (vi). Desde luego, si U es unitaria entonces

}Ux}22 “ pUxq˚Ux “ x˚U˚Ux “ x˚x “ }x}22donde hemos usado las condiciones (iv) y (iii) equivalentes a ser U unitaria (i.e.U˚U “ In). El recıproco se puede demostrar siguiendo las siguientes ideas: Si}Ux}2 “ }x}2 entonces x˚U˚Ux “ x˚x, que equivale a x˚pU˚U ´ Inqx “ 0. Teniendoen cuenta que U˚U´In es hermıtica (simetrica en el caso real de matrices ortogona-les) es facil ver que x˚pU˚U ´ Inqx “ 0 implica U˚U ´ In “ 0. En efecto, si ponemosA “ U˚U ´ In, x˚Ax “ 0 para todo x P Fn implica que si ei “ p0, . . . , 1, . . . , 0q es eli-esimo vector canonico entonces

eiAei “ 0 ñ aii “ 0pei ` ejq˚Apei ` ejq “ 0 ñ Repaijq “ 0.pei ` iejq˚Apei ` iejq “ 0 ñ Impaijq “ 0

Las matrices unitarias forman un subgrupo multiplicativo del Grupo GeneralLineal, llamado Grupo Unitario. La condicion (vi) de la Proposicion 3.3 indica queel grupo unitario es el grupo de isometrıas para la norma euclıdea.

3.2 Matrices Ortogonales y Unitarias 69

Definicion 3.4 Una norma } ¨ } en Cmˆn se dice que es unitariamente invariantessi @A P Cmˆn y para todo par de matrices unitarias U P Cmˆm y V P Cnˆn secumple que }UAV } “ }A}.

Proposicion 3.5 Las normas } ¨ }2 y } ¨ }F definidas en Cnˆn son unitariamenteinvariantes.

Demostracion.- Recordemos que }A}2F “ trpA˚Aq “ trpAA˚q. Ası, si U esunitaria

}UA}2F “ trpA˚U˚UAq “ trpA˚Aq “ }A}2F .De la misma forma, si V es unitaria

}AV }2F “ trppAV qpAV q˚q “ trpAV V ˚A˚q “ trpAA˚q “ }A}2F .

Por lo tanto, si U y V son unitarias:

}UAV }F “ }UA}F “ }A}F .

Por otra parte, }A}2 “ max}x}2“1

}Ax}2. Entonces, si U es unitaria

}UA}2 “ max}x}2“1

}UAx}2.

Pero por ser U unitaria, }Ux}2 “ }x}2, de modo que }UAx}2 “ }Ax}2 y

}UA}2 “ max}x}2“1

}UAx}2 “ max}x}2“1

}Ax}2 “ }A}2.

Tambien, si V es unitaria los conjuntos

tx P Cn|}x}2 “ 1u “ tV x P Cn|}V x}2 “ 1u

son iguales. Entonces

}AV }2 “ max}x}2“1

}AV x}2 “ max}V x}2“1

}AV x}2 “ max}y}2“1

}Ay}2 “ }A}2.

En consecuencia }UAV }2 “ }A}2.

70 Valores singulares

3.3. Valores singulares

Hay varias formas de introducir los valores singulares de una matriz. Tal ycomo se ha mencionado en la Introduccion de esta Leccion, historicamente los va-lores singulares son el resultado de la busqueda de una forma de reducir las formascuadraticas a forma diagonal mediante cambios de base ortonormales. Este hecho,sin embargo tiene un significado geometrico que no debe pasar desapercibido:

Las aplicaciones lineales transforman las esferas unidad en hiperelipses.

Una hiperelipse es la generalizacion a m dimensiones de una elipse. Podrıamos defi-nirla como la superficie que se obtiene al estirar o comprimir la esfera unidad en mdirecciones ortogonales por factores σ1, σ2,. . . , σm (posiblemente cero). Es decir, sifijamos m vectores ortonormales u1, . . . , um P Fm, los vectores σ1u1,. . . , σmum sonlos semiejes de la hiperelipse con longitudes σ1,. . . , σm.

Si

Sn´1 “ tx P Fn|}x}2 “ 1ues la esfera unidad y A P Fmˆn entonces ApSn´1q es una hiperelipse. La Figura 3.1representa el caso n “ m “ 2 y F “ R.

s2 u

2

s1 u

1

v1

v2

A

Figura 3.1: Las matrices transforman esferas en elipses

El hecho de que las aplicaciones lineales (o matrices) transformen la esfera uni-dad en hiperelipses no es obvia y quedara demostrada cuando probemos el llamado

3.3 Valores singulares 71

Teorema SVD. Por ahora aceptemosla y veamos que significa en terminos de ma-trices. Supongamos que la matriz de la aplicacion lineal es A P Fmˆn y que, porsencillez, rangpAq “ n ď m. Notemos que, como aplicacion lineal, A : Fn Ñ Fm.

Tal y como hemos mencionado, la hiperelipse queda determinada, en principio,por m vectores ortonormales tu1, . . . , umu y las correspondientes longitudes de lossemiejes σ1,. . . , σm que los vamos a suponer ordenados de forma que σ1 ě σ2 ě¨ ¨ ¨ ě σm ě 0. Ası σiui es el i-esimo semieje mas largo de ApSn´1q. Ası pues,para i “ 1, . . . ,m σiui P ApSn´1q Ă ImA. Pero como los vectores tu1, . . . , umuson ortonormales, y por lo tanto son linealmente independientes, si rangpAq “ rdebe haber a lo sumo r vectores σiui linealmente independientes. De todo ello sesigue que hay r de los σi que son distintos de cero a lo ma. En otras palabras,si la hiperelipse es la imagen por A de la esfera unidad, debe estar en ImA asıque solo puede contener r vectores linealmente independientes. Finalmente seantv1, . . . , vnu Ă Sn´1 las anteimagenes de los semiejes no nulos de la hiperelipse:

Avi “ σiui, i “ 1, . . . , r.

En este momento no es claro por que pero admitamos que los vectores vi son orto-gonales (y, por lo tanto, ortonormales porque estan en la esfera unidad).

La condicion Avi “ σiui, i “ 1, . . . , r, se puede escribir en forma matricial: Siponemos U “ “

u1 ¨ ¨ ¨ ur‰

y V “ “v1 ¨ ¨ ¨ vr

‰tenemos que

AV “ ΣU , Σ “ Diagpσ1, . . . , σrq.

siendo U P Fmˆn y V P Fnˆn matrices cuyas columnas son vectores ortonormales.Si escogemos base ortonormal de KerA y que sean ortogonales a los de V podemosformar una matrix unitari V “ “

V V‰

que es unitaria y AV “ U“Σ 0

‰. Por

consiguienteA “ U

“Σ 0

‰V ˚ “ UΣV ˚.

A esta factorizacion de A se le llama Descomposicion en Valores Singulares Reducidao Economica de A. O, mas abreviadamente, SVD Reducida de A.

Hay tambien una Descomposicion en Valores Singulares Completa de A, que esla que aparece en la mayorıa de los libros que tratan el tema, aunque en la mayorparte de las aplicaciones es la descomposicion reducida la que se utiliza. Pasar deuna descomposicion a la otra es muy facil: Si m ě n, U no es una matriz unitaria y Σno tiene el tamano de A. Una descomposicion completa es una que cumpla estos dos

72 Valores singulares

requisitos. Para ello basta ampliar el sistema de vectores ortonormales tu1, . . . , unuhasta una base ortonormal de Cm. Tal cosa siempre es posible porque los vectoresu1, . . . , un son linealmente independientes y se pueden ampliar hasta una base de Cn.Luego basta aplicar el metodo de Gram-Schmidt para obtener la base ortonormal.Sea entonces tu1, . . . , un, un`1, . . . , umu una base ortonormal de Cm y pongamos

U “ “u1 ¨ ¨ ¨ un un`1 ¨ ¨ ¨ um

‰y Σ “

„Σ

0m´nˆn

Entonces

UΣV ˚ “ “U U

‰ „ Σ0m´nˆn

V ˚ “ UΣV ˚ “ A.

Por lo tanto, A “ UΣV ˚ es una descomposicion en valores singulares completa deA. Notese que de una descomposicion en valores singulares completa de A se obtieneuna reducida sin mas que suprimir las filas cero de Σ y las correspondientes columnasde U y V .

Definicion 3.6 Sea m,n enteros positivos y A P Cmˆn. Una descomposicion envalores singulares (completa) de A es una factorizacion

A “ UΣV ˚

donde U P Cmˆm y V P Cnˆn son unitarias y Σ es diagonal. Ademas,

Σ “

$’’&’’%

„Diagpσ1, . . . , σnq

0m´nˆn

si m ě n

“Diagpσ1, . . . , σmq 0mˆn´m

‰si n ě m

En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mıntm,nu son numeros reales nonegativos ordenados de mayor a menor y se llaman valores singulares de A.Ademas, a los vectores u1, . . . , um y v1, . . . , vn que forman las columnas de U y V seles llama vectores singulares de A por la izquierda y por la derecha, respectivamente.

Si A P Rmˆn basta cambiar “matriz unitaria” por “matriz ortogonal”.

Nos queda establecer de manera rigurosa que tal descomposicion es siempreposible y que los valores singulares estan determinados de forma unica por A. Ad-mitiendolo, deberıa ya ser claro que, en efecto, la imagen de la esfera unidad en

3.3 Valores singulares 73

Fn por A “ UΣV ˚ es una hiperelipse:V ˚ por ser unitaria preserva la esfera, Σ ladeforma estirando o encogiendo la esfera en direcciones ortogonales y U , de nuevounitaria, la gira o refleja.

Todo lo anterior tiene sentido una vez que demostremos el siguiente resultadofundamental

Teorema 3.7 (Teorema SVD) Toda matriz A P Fmˆn admite una descomposi-cion en valores singulares. Ademas, los valores singulares estan determinados deforma unica, y, si A es cuadrada y sus valores singulares son todos distintos, enton-ces los vectores singulares estan tambien determinados de forma unica salvo productopor un numero complejo de modulo 1.

Demostracion.- Supondremos F “ C y todo lo que vamos a decir es de aplica-cion a matrices de numeros reales cambiando la palabra “unitaria” por “ortogonal”.

Dado que el caso de A “ 0 es trivial, supondremos que A ‰ 0 y procederemos porinduccion sobre n, el numero de columnas de A. Supondremos, ademas, que m ě n.Si fuera n ě m, y una vez demostrado el Teorema con m ě n, lo aplicarıamosa A˚. Ası, existirıan matrices unitarias U y V tales que A˚ “ UΣV ˚ EntoncesA “ pA˚q˚ “ V Σ˚U˚. Como los valores singulares son numeros reales Σ˚ “ Σ yA “ V ΣU˚ con U y V unitarias.

Sea entonces n “ 1 y m ě 1. Ponemos U “ 1}A}2A, Σ “ }A}2 y V “ 1. Ası

UΣV “ 1

}A}2A ¨ }A}2 ¨ 1 “ A.

Para n “ 1, A P Cmˆ1 es un vector columna y por lo tanto U es un vector columnaunitario. Ası A “ UΣV es una descomposicion reducida de A que puede extendersea una descomposicion completa tal y como hemos visto mas arriba.

Consideremos ahora que el Teorema ha sido demostrado para matrices de ta-mano m ˆ p (p ď n ´ 1). Sea A P Cmˆn y σ1 “ }A}2. Como }A}2 “ max

}x}2“1}Ax}2

existe un vector unitario v1 P Cn, }v1}2 “ 1, tal que σ1 “ }A}2 “ }Av1}2. Seau1 “ 1

}Av1}2Av1. Ası }u1}2 “ 1 y Av1 “ σ1u1. Extendamos u1 y v1 hasta bases orto-normales de Cm y Cn, respectivamente, y sean U1 y V1 las matrices, unitarias, cuyas

74 Valores singulares

columnas son los vectores de esas bases. Escribamos

U1 ““u1 U1

‰, V1 “

“u1 V 1

‰.

Entonces

U˚1AV1 “„u1

U˚1

A“v1 V 1

‰ “„u1Av1 u1AV 1

U˚1Av1 U

˚1AV 1

.

Por una parte Av1 “ σ1u1 implica que u1Av1 “ σ1 (recordemos que u1u1 “ 1 porqueu1 es un vector unitario). Ademas U

˚1Av1 “ σ1U

˚1u1. Pero las columnas de U1 son

ortogonales a u1 y esto equivale a U˚1u1 “ 0. Ası pues

U˚1AV1 “„u1Av1 u1AV 1

0 U˚1AV 1

.

Veamos que tambien u1AV 1 “ 0. Pongamos w˚ “ u1AV 1 y B “ U˚1AV 1, S “

U1AV1 y z “„σ1

w

. Como la norma espectral es consistente con la norma euclıdea

}S}2}z}2 ě }Sz}2 “››››„σ1 w˚

0 B

„σ1

w

››››2

“››››„σ2

1 ` w˚wBw

››››2

ě pσ21 ` w˚wq “

“ pσ21 ` w˚wq1{2

››››„σ1

w

››››2

“ pσ21 ` w˚wq1{2}z}2.

Ası pues, }S}2 ě pσ21`w˚wq1{2. Pero la norma espectral es unitariamente invariante

(Proposicion 3.5); por lo tanto σ1 “ }A}2 “ }S}2 ě pσ21 ` w˚wq1{2; lo cual implica

que w “ 0 tal y como querıamos demostrar.

En consecuencia

U˚1AV1 “„σ1 00 B

.

Debe notarse que B es la restriccion de A al subespacio ortogonal a u1; i.e. ău1 ąK. Ademas B P Cpm´1qˆpn´1q. Por la hipotesis de induccion, B admite unadescomposicion en valores singulares: B “ U2Σ2V2 con U2 P Cpm´1qˆpm´1q y V2 PCpn´1qˆpn´1q unitarias y Σ2 “

„Diagpσ2, . . . , σnq

0

. Ası

„1 00 U2

U˚1AV1

„1 00 V2

“„

1 00 U2

„σ1 00 B

„1 00 V2

“„

Diagpσ1, σ2, . . . , σnq0

.

3.3 Valores singulares 75

Si ponemos

U˚ “„

1 00 U2

U˚1 y V “ V1

„1 00 V2

,

tenemos que U˚AV “ Σ y A “ UΣV ˚. Esto prueba la existencia de la descompo-sicion de A en valores singulares, excepto el ordenamiento de los valores singulares.Segun la hipotesis de induccion los valores singulares de B estan ordenados de mayora menor. Basta entonces demostrar que σ1pAq ě σ1pBq. Es decir, }A}2 ě }B}2, obien, max

}x}2“1}Ax}2 ě max

}x}2“1}Bx}2. Ademas, como la norma espectral es unitariamente

invariante podemos suponer que

A “„σ1 00 B

.

Sea x0 P Cn´1 un vector unitario para el que }Bx0} “ max}x}2“1

}Bx}2 y sea

y “„

0x0

P Cn.

Claramente y˚y “ x0x0 “ 1, de modo que

max}x}2“1

}Ax}2 ě }Ay} “ y˚A˚Ay “ x˚0B˚Bx0 “ }Bx0} “ max

}x}2“1}Bx}2,

tal y como se deseaba demostrar.

La unicidad de los valores singulares ası como el resto del teorema lo demos-traremos una vez analizadas unas cuantas propiedades importantes de los valoressingulares.

Observaciones 3.8 Si A P Rmˆn entonces existen matrices ortogonales P P Rmˆm

y Q P Rnˆn tales que A “ PΣQT con

Σ “

$’’&’’%

„Diagpσ1, . . . , σnq

0m´nˆn

si m ě n

“Diagpσ1, . . . , σmq 0mˆn´m

‰si n ě m.

En cualquier caso, σ1 ě ¨ ¨ ¨ ě σp ě 0, p “ mıntm,nu son numeros reales nonegativos.

76 Valores singulares

3.4. Propiedades de los valores singulares

A continuacion analizamos algunas propiedades que se derivan del TeoremaSVD.

Proposicion 3.9 Si r es el numero de valores singulares de A distintos de cero,entonces rangA “ r.

La demostracion es una consecuencia inmediata de que el rango de una matriz novarıa si la multiplicamos por matrices invertibles.

Proposicion 3.10 Si A “ UΣV ˚ es una descomposicion de A P Cmˆn en valoressingulares, r “ rangA, y U “ “

u1 u2 ¨ ¨ ¨ um‰

y V “ “v1 v2 ¨ ¨ ¨ vn

‰entonces

ImA “ă u1, . . . , ur ą y KerA “ă vr`1, . . . , vm ą.

Demostracion.- Sobre la base de que V y U son invertibles es facil ver que

ImpAV q “ ImpAq y KerpU˚Aq “ KerpAq.Ahora bien,

ImpAV q “ ImpUΣq “ă σ1u1, . . . σrur ą“ă u1, . . . , ur ą .

Por otra parte, como tv1, . . . , , vmu es una base ortonormal de Cn, si x P Cn entonces

x “mři“1

civi “ V c con c “ pc1, . . . , cmq. Ası

x P KerpAq ô Ax “ 0 ô AV c “ 0 ô U˚AV c “ 0 ô Σc “ 0 ôô σici “ 0, 1 ď i ď r ô x “

mři“r`1

civi.

Esto significa que KerpAq “ă vr`1, . . . , vm ą.

De forma similar se prueba

Proposicion 3.11 Si A “ UΣV ˚ es una descomposicion de A P Cmˆn en valoressingulares, r “ rangA, y U “ “

u1 u2 ¨ ¨ ¨ um‰

y V “ “v1 v2 ¨ ¨ ¨ vn

‰entonces

ImA˚ “ă v1, . . . , vr ą y KerA˚ “ă ur`1, . . . , um ą.

3.4 Propiedades de los valores singulares 77

Esta proposicion tambien se puede ver como una consecuencia inmediata de laanterior teniendo en cuenta las siguientes propiedades cuya demostracion es muysimple

pImAqK “ KerA˚ y pKerAqK “ ImA˚

La siguiente proposicion nos proporciona una forma practica de calcular losvalores singulares de una matriz:

Proposicion 3.12 Los valores singulares de A P Cmˆn distintos de cero son lasraıces cuadradas positivas de los valores propios distintos de cero de A˚A y tambiende los de AA˚.

Demostracion.- Probaremos que los valores singulares de A son las raıces cua-dradas positivas de los valores propios de A˚A. Que tambien son los de AA˚ sedemuestra igual. Tambien es consecuencia de la siguiente propiedad: Si A P Fmˆn yB P Fnˆm entonces los valores propios distintos de cero de AB y BA son los mismos.La explicacion de esta propiedad esta contenida en la siguiente ecuacion:

„Im ´A0 In

„AB 0B 0

„Im A0 In

“„

0 0B BA

.

Como

„Im A0 In

´1

“„Im ´A0 In

, las matrices

„AB 0B 0

y

„0 0B BA

son semejantes;

i.e. tiene los mismos valores propios. Ademas, det

„λIm ´ AB 0´B λIn

“ λn detpλIm´

ABq y det

„λIm 0´B λIn ´BA

“ λm detpλIn ´BAq. Por lo tanto, las matrices AB y

BA tienen los mismos valores propios distintos de cero.

Si A “ UΣV ˚ es una descomposicion de A en valores singulares entonces

A˚A “ V Σ˚U˚UΣV ˚ “ V ΣTΣV ˚

porque Σ es una matriz de numeros reales. Como V es unitaria V ˚ “ V ´1, por loque A˚A y ΣTΣ son semejantes. Es decir, tienen los mismos valores propios. Pero

ΣTΣ “ Diagpσ21, . . . , σ

2r , 0, . . . 0q P Rnˆn

78 Valores singulares

con r “ rangpAq. Por lo tanto σ21 ě ¨ ¨ ¨ ě σ2

r son los valores propios de ΣTΣ y deA˚A. .

La demostracion de la Proposicion anterior nos da un metodo para calcular losvalores singulares de A: se calculan los valores propios de A˚A no nulos, se obtienesu raız cuadrada positiva y el resultado son los valores singulares de A no nulos. Losrestantes son cero. Ahora bien, este metodo no nos proporciona, a priori, los vectoressingulares; o lo que es lo mismo, no obtenemos la descomposicion SVD de A. Sinembargo, podemos usar el calculo de los valores y vectores propios de A˚A paraobtener dicha descomposicion. Para ver el modo de hacerlo tenemos que tener encuenta algunas propiedades de la matriz A˚A. En primer lugar, A˚A es una matrizhermıtica. Ademas es semidefinida positiva (o definida no negativa). Una matrizhermıtica H P Cnˆn, o simetrica si es real, se dice que es semidefinida positiva sipara todo x P Cnˆ1, x˚Hx ě 0. Y es definida positiva si la desigualdad es estrictapara todo x. Una propiedad importante que caracteriza las matrices semidefinidaspositivas es que sus valores propios son numeros reales no negativos (positivos,si la matriz es definida positiva). La matriz A˚A es semidefinida positiva porquecualquiera que sea x P Fnˆ1, x˚A˚Ax “ }Ax}2 ě 0. Otra propiedad importante delas matrices hermıticas, que se demostrara en la Leccion 9, es que son unitariamentediagonalizables. Es decir, que si H P Fnˆn es hermıtica (simetrica en el caso real)entonces existe una matriz unitaria (ortogonal en el caso real) U P Fnˆn tal queU˚HU “ D, siendo D una matriz diagonal. Los elementos en la diagonal de D (queson numeros reales) son los valores propios de H.

Con estos ingredientes, el siguiente procedimiento nos proporciona una factori-zacion SVD de A P Fmˆn donde supodremos que m ě n (en otro caso cambiarıamosA˚A por AA˚ en todo lo que sigue):

1. Calculamos los valores y vectores propios ortonormales de A˚A: A˚A “ V ΛV ˚,Λ “ Diagpλ1, . . . , λnq con V P Fnˆn unitaria y λ1 ě ¨ ¨ ¨ ě λn

2. Observamos que AV es una matriz cuyas columnas son ortonormales. En efec-to, si B “ AV y bj es su j-esima columna entonces bi bj “ vi A

˚Avj, y comoV ˚A˚AV “ Λ, bi bj es el elemento en la posicion pi, jq de Λ. Es decir,

b˚i bj “"

0 si i ‰ jλi si i “ j,

de modo que las columnas de B “ AV son ortonormales y }bj}2 “ `aλj.

3.4 Propiedades de los valores singulares 79

Por lo tanto, si ponemos uj “ 1

`?λjbj tenemos que U1 “

“u1 u2 ¨ ¨ ¨ un

‰es

una matriz mˆn con columnas ortonormales. La ampliamos hasta una matrizU “ “

U1 U2

‰ P Fmˆm unitaria. Ası,

AV “ B “ “b1 b2 ¨ ¨ ¨ bn

‰ “ U

„Diagp`?λ1, . . . ,`

?λnq

0

3. Obtenemos A “ U

„Diagp`?λ1, . . . ,`

?λnq

0

V ˚. Poniendo, σi “ `

?λi, i “

1, . . . , n, y Σ “„

Diagpσ1, . . . , σnq0

, tenemos que A “ UΣV ˚ es una descom-

posicion de A en valores singulares.

Recordemos ahora que los valores propios son unicos para cada matriz. Estodemuestra la segunda parte del Teorema SVD

Corolario 3.13 Los valores singulares de A estan determinados de forma unica.

Para probar la ultima parte del Teorema SVD; es decir, que si A es cuadraday sus valores singulares son todos distintos, entonces los vectores singulares estantambien determinados de forma unica salvo producto por un numero complejo demodulo 1, debemos recordar lo siguiente sobre los valores propios de una matriz: SiM P Cnˆn y sus valores propios son distintos dos a dos entonces admite un sistemacompleto de vectores propios linealmente independientes. Esto es una consecuenciade que a valores propios distintos corresponden vectores propios linealmente inde-pendientes. Si M tiene n valores propios distintos hay n vectores propios linealmenteindependientes; y como estan en un espacio de dimension n deben ser una base. Aho-ra bien, si vi es un vector propio asociado al valor propio λi entonces Mvi “ λivi.Y cualquier otro vector propio wi asociado al mismo valor propio debe ser propor-cional a vi; es decir, existe α P C tal que wi “ αvi. Ahora, si T “ “

v1 v2 ¨ ¨ ¨ vn‰

entonces T P Cnˆn es invertible y

T´1MT “ Diagpλ1, . . . , λnq (3.1)

Y recıprocamente, si T P Cnˆn es una matriz invertible que verifica (3.1) con λi ‰ λj,entonces la i-esima columna de T es un vector propio asociado al valor propio λi.

80 Valores singulares

Aplicando todo esto a la matriz A˚A y teniendo en cuenta la demostracion dela Proposicion 3.12 tenemos que

V ˚A˚AV “ Diagpσ21, σ

22, . . . , σ

2nq,

y tambienU˚AA˚U “ Diagpσ2

1, σ22, . . . , σ

2nq.

Esto quiere decir que las columnas de V son una base ortonormal de vectores propiosde Cn respecto de A˚A; y las de U son una base ortonormal de vectores propios deCn respecto AA˚. Y, ademas, si A “ U1ΣV1 es otra descomposicion de A en valoressingulares, entonces vi “ αv1

i (i-esimas columnas de V y V1). Como en este caso son,ademas, vectores unitarios, tenemos que 1 “ vi vi “ |α|2v1

i˚v1i “ |α|. Es decir, α es

un escalar de modulo 1. Para las columnas de U sirve un razonamiento similar.

La unicidad de los valores singulares produce la siguiente consecuencia:

Proposicion 3.14 Si A P Cmˆn y σ1 ě ¨ ¨ ¨σp ě 0, p “ mıntm,nu, son sus valoressingulares, entonces }A}2 “ σ1 y }A}F “ σ2

1 ` ¨ ¨ ¨ ` σ2p.

Demostracion.- En efecto si A “ UΣV ˚ es una descomposicion en valoressingulares de A, como las normas } ¨ }2 y } ¨ }F son unitariamente invariantes tenemos

}A}2 “ }Σ}2 y }A}F “ }Σ}F .Basta probar que }Σ}2 “ σ1 y }Σ}F “ σ2

1 ` ¨ ¨ ¨ ` σ2p. Lo segundo es inmediato por

la propia definicion de la norma de Frobenius. En cuanto a lo primero, supongamospor sencillez que m ě n y sea x P Cn un vector arbitrario de norma euclıdea 1.Entonces

}Σx}2 “bσ2

1|x1|2 ` ¨ ¨ ¨ ` σ2n|xn|2 ď σ1

a|x1|2 ` ¨ ¨ ¨ ` |xn|2 “ σ1}x}2 “ σ1,

donde hemos utilizado que σ1 ě ¨ ¨ ¨ ě σn y que }x}2 “ 1. Ademas, resulta que sie1 “ p1, 0, . . . , 0q P Cn entonces }e1}2 “ 1 y }Σe1}2 “ σ1. Esto prueba que

σ1 “ max}x}2“1

}Σx}2 “ }Σ}2.

Proposicion 3.15 Si A P Cnˆn y σ1 ě ¨ ¨ ¨ ě σn son sus valores singulares entonces

| detpAq| “ σ1 ¨ . . . ¨ σn

3.4 Propiedades de los valores singulares 81

Demostracion.- Si A “ UΣV ˚ es una descomposicion de A en valores singula-res,

detpAq “ detpUq detpΣq detpV ˚q.Pero U y V son unitarias. Entonces, por una parte, UU˚ “ In y por otra detpU˚q “detpUq porque el conjugado de cualquier suma y producto de numeros complejos esla suma o producto de los conjugados de dichos numeros. Ası pues, 1 “ detpInq “detpUq detpU˚q “ detpUqdetpUq “ | detpUq|2. En conclusion,

| detpUq| “ | detpV q| “ 1,

y| detpAq| “ | detpΣq| “ σ1 ¨ ¨ ¨ . . . ¨ σn.

Proposicion 3.16 Si A P Cnˆn es invertible y σ1 ě ¨ ¨ ¨ ě σn son sus valores

singulares entonces los valores singulares de A´1 son1

σně ¨ ¨ ¨ ě 1

σ1

. En particular,

}A´1}2 “ 1

σn.

Demostracion.- Si A “ UΣV ˚ es una descomposicion en valores singulares deA y es invertible, entonces A´1 “ V Σ´1U˚. Notemos que

Σ´1 “ Diag

ˆ1

σ1

, . . . ,1

σn

˙

y que1

σ1

ď ¨ ¨ ¨ ď 1

σn. Existe una matriz de permutacion

P “

»———–

0 ¨ ¨ ¨ 0 10 ¨ ¨ ¨ 1 0...

......

1 ¨ ¨ ¨ 0 0

fiffiffiffifl

tal que PΣ´1P T “ Diag

ˆ1

σn, . . . ,

1

σ1

˙. Si ponemos V1 “ V P T y U1 “ UP T resulta

que U1 y V1 son unitarias, porque el producto de matrices unitarias es una matrizunitaria, y A´1 “ V1PΣ´1P TU1 es una descomposicion en valores singulares de A´1.

Como }A´1}2 es el mayor valor singular de A´1 la conclusion es inmediata.

82 Valores singulares

La descomposicion de A en valores singulares nos proporciona una forma espe-cialmente util de escribir A como suma de matrices de rango 1:

Proposicion 3.17 Si A “ UΣV ˚ P Cmˆn es una descomposicion de A en valoressingulares y rangpAq “ r entonces

A “rÿ

i“1

σiuiv˚i

donde U “ “u1 ¨ ¨ ¨ um

‰, V “ “

v1 ¨ ¨ ¨ vn‰

y σ1 ě ¨ ¨ ¨ ě σr ą 0 son los valoressingulares positivos de A.

Demostracion.- Basta poner

Σ “ Σ1 ` Σ2 ` ¨ ¨ ¨ ` Σr, Σi “„

Diagp0, . . . , σi, . . . , 0q 00 0

donde Diagp0, . . . , σi, . . . , 0q P Crˆr y σi aparece en la i-esima posicion.

Es claro que A “rři“1

UΣiV˚ y que UΣiV

˚ “ σiuivi .

Debe notarse querÿ

i“1

σiuiv˚i “ UrΣrV

˚r

con Ur ““u1 ¨ ¨ ¨ ur

‰, Vr “

“v1 ¨ ¨ ¨ vr

‰y Σr “ Diagpσ1, . . . , σrq, es una descom-

posicion reducida en valores singulares de A.

3.5. Aproximacion a matrices de menor rango

Una de las aplicaciones mas interesantes del Teorema SVD es que nos permitecalcular el rango de una matriz con bastante fiabilidad. De hecho, el Teorema SVDnos da mucho mas que eso, nos proporciona una medida de esa fiabilidad. Ello esconsecuencia del siguiente teorema que nos proporciona una cota de la distancia quehay de una matriz al conjunto de las matrices de rango menor que ella.

3.5 Aproximacion a matrices de menor rango 83

Teorema 3.18 .- Sea A P Fmˆn una matriz de rango r; y sea k ă r un entero nonegativo. Entonces

mınrangpBqďk

}A´B}2 “ σk`1

donde σ1 ě σ2 ě . . . ě σr ą 0 son los valores singulares no nulos de A.

Demostracion.- Tal y como viene siendo habitual demostraremos que σk`1 esuna cota superior alcanzable del conjunto de numeros

t}A´B}2 : rangpBq ď ku;es decir, que para cualquier matriz B P Fmˆn con rangpBq ď k se tiene que }A ´B}2 ě σk`1 y que existe una matriz Ak P Fmˆn con rangpAkq “ k tal que }A ´Ak`1}2 “ σk`1.

Sean U P Cmˆm y V P Cnˆn matrices unitarias tales que

U˚AV “ D “ Σ “„

Σr 00 0

con Σr “ Diagpσ1, σ2, . . . , σrq.Observemos que como mıntn,mu ě r ą k tenemos que k ` 1 ď n. Sea Vk`1 la

submatriz de V formada por sus primeras k ` 1 columnas. Como las columnas deVk`1 son ortonormales, dim ImVk`1 “ k ` 1.

Sea ahora B P Fmˆn una matriz cualquiera tal que rangB ď k. Esto significaque dim KerpBq “ n´ rangpBq ě n´k. Tanto KerB como ImVk`1 son subespaciosvectoriales de Fn, pero dim KerB`dim ImVk`1 ě n` 1. Esto significa que KerBXImVk`1 ‰ t0u y, en consecuencia, hay un vector x P KerB X ImVk`1 no nulo quepodemos tomarlo de norma 1: ‖ x ‖2“ 1. Ahora

}A´B}22 ě }pA´Bqx}22 “ }Ax´Bx}22 “ }Ax}22 “ }UΣV ˚x}22 “ }ΣV ˚x}22porque x P KerB y U es unitaria. Dado que x P ImVk`1 es ortogonal a las ultimasn ´ k ´ 1 columnas de V . Es decir, vi x “ 0 para i “ k ` 2, . . . , n. Por lo tanto, siy “ V ˚x entonces las n ´ k ´ 1 ultimas componentes de y son iguales a cero. Asıpues, teniendo en cuenta que k ă r

}ΣV ˚x}22 “ σ21|y1|2 ` ¨ ¨ ¨σ2

k`1|yk`1|2.

84 Valores singulares

Como σ1 ě ¨ ¨ ¨ ě σk`1 deducimos que

}ΣV ˚x}22 ě σ2k`1p|y1|2 ` ¨ ¨ ¨ ` |yk`1|2q “ σk`1}y}22

porque yk`2 “ ¨ ¨ ¨ “ yn “ 0. Finalmente, }y}2 “ }V ˚x}2 “ }x}2 “ 1 porque V esuna matriz unitaria y x un vector de norma euclıdea igual a 1. En consecuencia,}A´B}22 ě σk`1, tal y como se deseaba demostrar.

Veamos ahora que existe una matriz Ak de rango k tal que }A ´ Ak}2 “ σk`1.Pongamos Ak “ UDkV

˚, siendo

Dk “„

Diagpσ1, . . . , σkq 00 0

P Cmˆn.

Teniendo en cuenta que la norma espectral es unitariamente invariante, resulta que

}A´ Ak}2 “ }UpD ´DkqV ˚}2 “ }D ´Dk}2.Pero

D ´Dk “„

Diagp0, . . . , 0, σk`1, . . . , σrq 00 0

cuyos valores singulares no nulos son σk`1 ě . . . ě σr porque existe una matriz depermutacion -y en consecuencia unitaria- Q tal que

QT pD ´DkqQ “„

Diagpσk`1, . . . , σrq 00 0

.

Por lo tanto}A´ Ak}2 “ }D ´Dk}2 “ σk`1,

lo que concluye la demostracion.

Este teorema nos proporciona, como corolario, la distancia de una matriz nosingular a la matriz singular mas proxima en la norma espectral: el valor singularmas pequeno de la matriz no singular.

Corolario 3.19 .- Si A P Cnˆn es una matriz no singular y σ1 ě σ2 ě . . . ě σn ą 0son sus valores singulares, entonces

mındetpBq“0

}A´B}2 “ σn.

3.6 La inversa de Moore-Penrose 85

Demostracion.- detB “ 0 si y solo si rangpBq ď n´1. Por el teorema anterior

mındetpBq“0

}A´B}2 “ mınrangpBqďn´1

}A´B}2 “ σn.

Una consecuencia inmediata de este Corolario es el siguiente

Corolario 3.20 El conjunto de las matrices de rango completo de Cmˆn es abierto.

Demostracion.- En efecto, suponiendo, por sencillez que m ě n, tenemos que siA P Fmˆn y rangpAq “ n entonces las matrices de rango menor que n mas proximas aA estan a una distancia σn, medida en la norma espectral. En consecuencia, cualquierbola abierta con centro en A y radio r ď σn esta completamente contenida en elconjunto de las matrices de rango completo. Esto demuestra que este conjunto esabierto.

3.6. La inversa de Moore-Penrose

Ya hemos visto en la Proposicion 3.16 que si

A “ UΣV ˚, Σ “ Diagpσ1, . . . , σnqes una descomposicion en valores singulares de A P Cnˆn y esta es invertible entonces

A´1 “ V ΣU˚, Σ “ Diag

ˆ1

σn, . . . ,

1

σ1

˙

con V “ V P y U “ UP , P una matriz de permutacion, es una descomposicion envalores singulares de A´1.

Podemos usar esta idea para generalizar el concepto de inversa a inversa gene-ralizada (o pseudoinversa) que juega un papel fundamental en varias partes de lamatematica y en particular en la solucion del problema de mınimos cuadrados. Hayvarias inversas generalizadas (ver [2]). Aquı solo trataremos de la llamada inversageneralizada de Moore-Penrose o, simplemente, inversa de Moore-Penrose o pseudo-inversa de Moore-Penrose. En MATLAB se utiliza el comando pinv para calcularla.

86 Valores singulares

Supongamos que A P Cmˆn y r “ rangpAq. Sean σ1 ě ¨ ¨ ¨ ě σr ą 0 sus valoressingulares no nulos y

A “ UΣV ˚, Σ “„

Diagpσ1, . . . , σrq 00 0

una descomposicion de A en valores singulares. Pongamos

Σ: “»–Diag

ˆ1

σ1

, . . . ,1

σr

˙0

0 0

fifl ,

y definamos

A: “ V Σ:U˚.

Definicion 3.21 A la matriz A: se le llama inversa generalizada o pseudo-inversa de Moore-Penrose de A.

En los ejercicios se presentan algunas propiedades importantes de la inversa deMoore-Penrose. En particular, la definicion dada aquı no es la que aparece habitual-mente en los libros clasicos, aunque es la que mejor se adapta a nuestras circuns-tancias. La definicion habitual es la siguiente: Es la unica matriz que cumple lassiguientes cuatro propiedades:

piq AA:A “ A, piiq A:AA: “ A:,piiiq A:A “ pA:Aq˚, pivq AA: “ pAA:q˚.

Se puede demostrar que la Definicion 3.21 es equivalente a estas cuatro condicio-nes. En cualquier caso, a primera vista en la Definicion 3.21 no parece que se puedaasegurar que hay una unica inversa de Moore-Penrose para cada A. En efecto, ladefinicion depende de la eleccion de las matrices U y V en la descomposicion de A envalores singulares y estas no son, en general, unicas. Nos proponemos demostrar que,a pesar de la arbitrariedad en la eleccion de los vectores singulares por la izquierday por la derecha, la inversa de Moore-Penrose es unica:

Proposicion 3.22 Para cada A P Cmˆn hay una unica inversa de Moore-Penrose.

3.6 La inversa de Moore-Penrose 87

Demostracion.- Sea

A “ UΣV ˚, Σ “„

Diagpσ1, . . . , σrq 00 0

una descomposicion en valores singulares de A, r “ rangpAq. Y sea A: “ V Σ:U˚ lacorrespondiente inversa de Moore-Penrose. Por la Proposicion 3.10 las r primerascolumnas de U y V forman bases ortonormales de ImpAq y de ImpA˚q, respectiva-mente. De acuerdo con esto escribimos V “ “

V1 V2

‰y U “ “

U1 U2

‰con V1 P Cnˆr

y U1 P Cmˆr. Si ademas, ponemos

Σr “ Diagpσ1, . . . , σrq entonces Σ´1r “ Diag

ˆ1

σ1

, . . . ,1

σr

˙,

yA “ U1ΣrV

˚1 y A: “ V1Σ´1

r U˚1 .

Ahora, si hubiera otra descomposicion de A en valores singulares, como estos sonunicos, existirıan matrices unitarias U P Cmˆm y V P Cnˆn tales que A “ UΣV ˚.Partiendo U y V como U y V tendrıamos que A “ U1ΣrV1 con U1 y V1 matricescuyas columnas forman bases ortonormales de ImpAq y ImpA˚q, respectivamente.

Para esta descomposicion de A, la inversa de Moore-Penrose correspondienteserıa: A: “ V1Σ´1

r U1 . Debemos demostrar que A: “ A:.

Por una parte, las columnas de U1 y U1 forman bases ortonormales de ImpAq ylas columnas de V1 y V1 forman bases ortonormales de ImpA˚q. Por lo tanto, existenmatrices unitarias P,Q P Crˆr tales que

U1 “ U1P y V1 “ V1Q.

(P y Q son las matrices de cambio de bases ortonormales; por lo tanto, unitarias).

Por otra parte,U1ΣrV

˚1 “ U1ΣrV

˚1 ,

de modo queU1PΣrQ

˚V ˚1 “ U1ΣrV˚

1 .

Pero U1U1 “ V1 V1 “ Ir, ası que

PΣrQ˚ “ Σr.

88 Valores singulares

Y como Σr es invertibleQΣ´1

r P ˚ “ Σ´1r ,

y tambienV1QΣ´1

r P ˚U˚1 “ V1Σ´1r U˚1 .

Es decir,A: “ V1Σ´1

r U˚1 “ V1QΣ´1r P ˚U˚1 “ V1Σ´1

r U˚1 “ A:,

tal y como se deseaba demostrar.