derivaciónmatricial - fundación universitaria konrad … de vectores en u,entonces se dice que ues...

107
Derivación Matricial Fernando Lara Fundación Universitaria Konrad Lorenz Director: Leonardo Jiménez Moscovitz Matemático Fundación Universitaria Konrad Lorenz 11 de junio de 2007 Resumen En este trabajo se hace una presentación de algunos aspectos teóricos y prácticos acerca de la derivación matricial. Este tema es especialmente importante, ya que las matrices no solo proveen una notación muy com- pacta para algunos desarrollos matemáticos, sino que además permiten una mayor generalización. Después de la presentación teórica, se expone un caso de aplicación a las redes neuronales, y se exponen algunas lineas de código en Matlab para la resolución de problemas que involucren la derivación matricial. This work develops a presentation of some theorical and practical top- ics about matrix derivation. This area is specially important because ma- trix theory not only provides a compact notation for some mathematical developments, it also provides a greater generalization. After the theoric presentation, this paper exposes an application to neural networks, and some code in Matlab to help in the solutions of problems involving matrix derivation. 1

Upload: lycong

Post on 23-May-2018

213 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Derivación Matricial

Fernando LaraFundación Universitaria Konrad Lorenz

Director: Leonardo Jiménez MoscovitzMatemático

Fundación Universitaria Konrad Lorenz

11 de junio de 2007

Resumen

En este trabajo se hace una presentación de algunos aspectos teóricosy prácticos acerca de la derivación matricial. Este tema es especialmenteimportante, ya que las matrices no solo proveen una notación muy com-pacta para algunos desarrollos matemáticos, sino que además permitenuna mayor generalización. Después de la presentación teórica, se exponeun caso de aplicación a las redes neuronales, y se exponen algunas lineasde código en Matlab para la resolución de problemas que involucren laderivación matricial.

This work develops a presentation of some theorical and practical top-ics about matrix derivation. This area is specially important because ma-trix theory not only provides a compact notation for some mathematicaldevelopments, it also provides a greater generalization. After the theoricpresentation, this paper exposes an application to neural networks, andsome code in Matlab to help in the solutions of problems involving matrixderivation.

1

Page 2: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Índice

Introducción 3

1. Preliminares 51.1. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.1. Operaciones con Matrices . . . . . . . . . . . . . . . . . . 101.3.2. Matrices Especiales. . . . . . . . . . . . . . . . . . . . . . 14

2. Derivación. 232.0.3. Interpretación de la derivada como la pendiente de una

tangente. . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.0.4. Reglas de Derivacion. . . . . . . . . . . . . . . . . . . . . 252.0.5. Derivación Parcial . . . . . . . . . . . . . . . . . . . . . . 33

3. Derivación Matricial 353.1. Funciones Matriciales . . . . . . . . . . . . . . . . . . . . . . . . 35

3.1.1. Funciones de Variable Escalar . . . . . . . . . . . . . . . . 353.1.2. Funciones de Variable Vectorial . . . . . . . . . . . . . . . 363.1.3. Funciones de Variable Matricial . . . . . . . . . . . . . . . 37

3.2. Otras Matrices Especiales . . . . . . . . . . . . . . . . . . . . . . 373.3. Producto de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . 393.4. Fórmulas de Derivación Matricial. . . . . . . . . . . . . . . . . . 493.5. Reglas de Derivación. . . . . . . . . . . . . . . . . . . . . . . . . 603.6. Propiedades de Derivación de Funciones Matriciales. . . . . . . . 70

4. Aplicaciónes 874.1. Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.1.1. Características del Algoritmo . . . . . . . . . . . . . . . . 874.1.2. Propagación hacia adelante. . . . . . . . . . . . . . . 884.1.3. Propagación hacia atrás. . . . . . . . . . . . . . . . . . . . 894.1.4. Resumen (Algoritmo) . . . . . . . . . . . . . . . . . . . . 964.1.5. Propagación hacia adelante. . . . . . . . . . . . . . . . . . 974.1.6. Propagación hacia atrás. . . . . . . . . . . . . . . . . . . . 974.1.7. Propagación hacia atrás. . . . . . . . . . . . . . . . . . . . 100

4.2. Derivadas Matriciales en Matlab. . . . . . . . . . . . . . . . . . . 101

5. Conclusiones 106

2

Page 3: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Introducción

El Álgebra matricial se ha convertido en los últimos años en una parte esen-cial de los conocimientos de matemáticas, necesarios en campos tan diversoscomo la ingeniería, la física, la pedagogía, la química, la sociología y en el cam-po científico, así como la estadística y la matemática pura. Este requerimientorefleja la importancia y la amplitud de sus aplicaciones.

Muchos de los temas tratados en los campos mencionados comparten méto-dos comunes para resolver algunos de los problemas específicos. Los programasde las materias de matemáticas han ido evolucionando para facilitar que el pro-fesional domine las técnicas empleadas en el tratamiento de los problemas. Sinembargo, por razones obvias, la mayoría de los textos de matemáticas se hancentrado en lo que es el núcleo básico de los programas de cálculo y álgebra. Porotra parte, asignaturas de corte matemático dirigidos a dotar de conocimientosadecuados para abordar problemas, con un nivel más riguroso, tienen carác-ter optativo. Con respecto a esas asignaturas, no es fácil encontrar manualesadecuados a sus contenidos específicos, lo que significa que un estudiante hade confiar en las referencias bibliográficas recomendadas, que en múltiples oca-siones no se ajustan a sus necesidades de rigor de planteamiento, o bien, apuntestomados en clase, con los conocidos inconvenientes que esta práctica conlleva.Como ejemplos, pensemos en temas como derivadas de vectores y matrices yderivadas de funciones matriciales.

Basado en la importancia que ha adquirido el cálculo matricial, el compendioque se ha proyectado, se presentará como suplemento a los textos sobre cálculomatricial, que entre otros, son bastante exiguos en nuestro medio.

El objetivo fundamental es fijar un criterio de derivación, indicar su relacióncon las aproximaciones vectoriales a la derivada y, a partir de ello, obtenerresultados que permitan enfrentarse formalmente y con mayor comodidad alestudio de variables matriciales.

Antes de abordar el proceso de derivación matricial, se presenta un compen-dio con los elementos básicos del álgebra lineal, específicamente sobre matri-ces, y un compendio que incluye las propiedades básicas del cálculo diferencial,necesarios para comprender la manera como se aborda el estudio sobre cálculomatricial.

De la misma forma, dada la complejidad del problema, se hizo preciso incluiralgunas nuevas operaciones entre matrices que completan el cálculo matricialtradicional; para estas nuevas operaciones, se incluyen conceptos y propiedadessobre producto de Kronecker, vectorización de matrices y se definen las matricesde permutación que se utilizan en algunos desarrollos.

En el presente trabajo se ha utilizado extensivamente la presentación de[Bar98]; este excelente libro es uno de los pocos escritos en español que tratanel tema de la derivación matricial. En particular, se ha utilizado mucho en lasección 3, donde se expone la presentación teórica y de las propiedades. Otrosescritos que se han podido disponer tienen una presentación algo diferente; enparticular, muchos de ellos utilizan el concepto de diferencial al trabajar conderivadas matriciales, lo que implica entre otros aspectos, cambios en la no-

3

Page 4: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

tación.En el capítulo 4, se presenta el desarrollo de un problema de redes neuronales

que en su forma original es un aporte del Ing. Pervys Rengifo, profesor de laF.U.K.L., a quien se le agradece su amable colaboración. En este ejemplo seobserva la aplicación de la derivación matricial en la solución de un problemade este tipo. Finalmente, se exponen algunas líneas de código en Matlab paraayudar en la resolución de problemas de derivación matricial o vectorial.

4

Page 5: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

1. Preliminares

En este capítulo se exponen los conceptos y reglas más importantes quesirven de base a la comprensión de la diferenciación matricial, así como de losconceptos y procesos asociados. Por ello, se explican en primera instancia lasdefiniciones y los conceptos básicos de matrices, así como las operaciones a lasque se pueden someter estos objetos. Luego se presentan los tipos de matricesmás importantes y las propiedades que éstos poseen.

1.1. Matrices

Aquí se introducirá el concepto de matriz y se presentarán ciertas operacio-nes algebráicas definidas sobre ellas. Las nociones expuestas serán la base paracomprender los conceptos relativos al cálculo vectorial y matricial en general.

De la manera más general posible, se puede definir una matriz como unatabla o arreglo rectangular de objetos matemáticos que pueden someterse a lasoperaciones de suma y producto. Esto requiere por una parte, detallar cualesson esos objetos o elementos de la matriz que son de interés primordial para elmatemático, y por otra parte especificar algunas de las propiedades asociadascon las operaciones sobre dichos elementos: éstos, junto con las operaciones desuma y producto, deben formar un cuerpo k [Her86].

Los elementos de una matriz pueden ser o bien los números reales (k = R) obien los números complejos (k = C); en estos caso, los elementos se llaman es-calares. Pero los elementos de una matriz también pueden ser funciones definidasen los números reales o los complejos. En el presente trabajo se tratarán las ma-trices definidas sobre los reales, se definirá posteriormente la matriz de funciones.

El otro caso en que se considerarán las matrices y vectores es en la propiadefinición de las funciones. Para el presente trabajo el interés no radica enfunciones de variable real por ejemplo, sino que la función puede ser de variablevectorial, o matricial y por otra parte su salida puede ser a su vez un valorescalar, vectorial o matricial.

1.2. Conceptos Básicos

En esta sección se expondrán los principales conceptos relacionados con latemática a tratar. Por una parte, se hace referencia a algunos conceptos del álge-bra abstracta como es el concepto de cuerpo, y por otra parte se hace referenciaal concepto de espacio vectorial. A través del concepto de cuerpo se describe elcomportamiento de los elementos que conforman una matriz al realizar sobreellos ciertas operaciones; el concepto de espacio vectorial es una generalizacióntanto de vectores en Rn como del propio concepto de matriz.

Definición 1.1 (Campo o Cuerpo) Un campo o cuerpo k es una estructuraalgebraica conformada por un conjunto y dos operaciones definidas sobre los ele-mentos del conjunto, < K,+, ∗ > que se comportan como un anillo conmutativoen el cual todo elemento diferente de 0 tiene inverso multiplicativo. [Her86].

5

Page 6: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 1.2 (Espacio Vectorial) Un espacio vectorial definido sobre uncuerpo k, es un conjunto V de objetos llamados vectores, junto con las opera-ciones cerradas de suma y producto por escalar, que cumplen ocho propiedades[San94]:

Si u, v, w ∈ V y α, β son escalares cualesquiera, entonces

1. (u+ v) +w = u+ (v +w)

2. u+ v = v + u

3. Existe 0 ∈ V tal que v + 0 = 0 + v = v

4. Para cada v existe un vector −v tal que v + (−v) = (−v) + v = 0

5. α(u+ v) = αu+ αv

6. (α+ β)u = αu+ βu

7. (αβ)u = α(βu)

8. 1 · v = v

Definición 1.3 (Subespacios Vectoriales) Un subespacio U de un espaciovectorial V es un subconjunto de V que es en sí mismo, un espacio vectorialsobre el mismo cuerpo.

Dentro de los espacios vectoriales más importantes, se tienen los espaciosk = Rn así como k = Cn. Un vector en Rn se puede expresar como v1 =α1x1 + α2x2 + ...+ αnxn. Esto se puede generalizar a continuación.

Definición 1.4 (Combinación Lineal) Sea V un espacio vectorial, y U ={u1, u2, ...ur} un conjunto finito de vectores de V. Entonces un vector de laforma:

v = α1u1 + α2u2 + ...+ αrur =∑r

i=1 αiui

se llama una combinación lineal de vectores en U.

Es importante considerar el caso en el que se generan todas las posiblescombinaciones lineales con elementos de U, y con todos los posibles escalaresαi ∈ k.

Definición 1.5 (Subespacio Generado) Sea V un espacio vectorial, y U ={u1, u2, ...ur} un conjunto finito de vectores de V. El conjunto de todas las posi-bles combinaciones lineales de elementos de U se llama el subespacio generadopor U, y se denota:

S (U) = {v|v =∑n

i=1αkui,∀αk ∈ k}

6

Page 7: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Un concepto muy importante relacionado con estos vectores es el de depen-dencia o independencia lineal.

Definición 1.6 (Dependencia Lineal) Sea V un espacio vectorial, y U ={u1, u2, ...ur} un conjunto finito de vectores de V. Entonces, U es linealmentedependiente o ligado si y solo si existen escalares α1, α, ...αr no todos ceros,tal que:

α1u1 + α2u2 + ...+ αrur = 0

Se dice que U es linealmente independiente o libre si no es dependiente.

Un conjunto U linealmente independiente y de especial importancia, se definea continuación.

Definición 1.7 (Base) Sea V un espacio vectorial sobre k. Si en V existe unsubconjunto finito U de vectores linealmente independientes, tal que S(U) = V, oen otras palabras, que todo vector v ∈ V puede ser expresado como combinaciónlineal de vectores en U, entonces se dice que U es una base de V .

Si una base consiste de una cantidad finita de elementos, entoces se puededemostrar que toda base de un espacio vectorial V tiene la misma cantidad deelementos:

Definición 1.8 (Dimensión) Sea V un espacio vectorial con una base B conn elementos. Entonces, se define a n como la dimensión del espacio vectorial V,y se expresa como dim(V ) = n.

Para el caso V = Rn con n = 3 se tiene la dimensión del conjunto de vectoresen el espacio.

Es necesario en muchos casos considerar funciones o morfismos entre espaciosvectoriales diferentes, esto es, f : V → W donde V,W son espacios vectorialessobre el mismo cuerpo k. Estas funciones, cuya descripción se puede encontraren libros de álgebra abstracta tales como [Her86] son de especial importancia siposeen ciertas propiedades, tal como se observa en la siguiente definición.

Definición 1.9 (Isomorfismo) Sean V,W son espacios vectoriales sobre elmismo cuerpo k, y sea f una función f : V →W que cumple con las siguientespropiedades que para todo xi ∈ V y para todo a, b ∈ k:

1. f−1 existe. Esto es, f es invertible

2. f(ax1 + bx2) = f(ax1) + f(bx2) = af(x1) + bf(x2)

A los espacios vectoriales V,W se les llama espacios isomorfos, es decir,que tienen la misma estructura.

7

Page 8: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 1.10 (Transformación Lineal) Sea U un espacio vectorialn-dimensional y sea V un espacio vectorial m-dimensional, ambos sobre el mis-mo cuerpo k. Sea BU una base de U y BV una base de V. Una transformaciónlineal es una función T : U → V tal que, para escalares arbitrarios a, b ∈ k yvectores x1, x2 ∈ U :

T (ax1 + bx2) = T (ax1) + T (bx2) = aT (x1) + bT (x2)

Una transformación lineal es entonces, una operación entre dos espacios vec-toriales que preserva las operaciones. Son de especial importancia también lastransformaciones lineales T : V → V que reciben el nombre de endomorfismos.

1.3. Matrices

En esta sección se establecerán las condiciones para definir adecuadamenteel concepto de matriz, sus diferentes tipos y examinar luego algunas de suspropiedades.

En el presente trabajo, las matrices se establecerán con referencia al espaciovectorial definido porMmn, el conjunto de todas las matrices de tamaño m×n,así:

Definición 1.11 (Matriz) Sea k un cuerpo, y sea Mmn el espacio vectorialde todas las matrices de tamaño m× n definidas sobre k. Se define una matrizA ∈ Mmn con elementos en k, y se expresa diciendo que A es una matrizsobre k, a un arreglo demn elementos aij ∈ k, ordenados de manera rectangularcon m filas y n columnas encerrados entre corchetes, donde 1 ≤ i ≤ m y1 ≤ j ≤ n :

a11 a12 ... a1na21 ... ... a2n... ... ... ...am1 am2 ... amn

Las líneas horizontales en una matriz se denominan filas y las líneas verti-cales se denominan columnas. El primero de los coeficientes indica la fila y elsegundo la columna en que está ubicado el elemento. A una matriz con m filasy n columnas se le denomina matriz m-por-n (escrito m×n), siendo los valoresm y n sus dimensiones. La matriz anterior se denota también por (aij).

Bajo esta definición, entonces sobre las matrices se pueden definir dos ope-raciones: suma y producto por escalar, que deben cumplir con las propiedadesmencionadas en la definición 1.2.

Definición 1.12 (Matriz como Transformación Lineal) Sean V,W espa-cios vectoriales de dimensión finita. Si se han determinado las bases BV delespacio V con dimensión n, y BW del espacio W con dimensión m, entoncescada transformación lineal T : V → W puede ser representada por una matrizA.

8

Page 9: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 1.1 Sean V,W espacios vectoriales. Sea {v1, v2, ...vn} una base de Vy {w1, w2, ...wm} una base de W. Cada vector v ∈ V puede ser representado demanera única mediante los escalares α1, α, ...αn ∈ k. mediante la combinaciónlineal α1v1 + α2v2 + ...+ αrvn

Si f : V →W es una aplicación lineal, entonces

f(a1v1 + a2v2 + ...+ arvn) = a1f(v1) + a1f(v2) + ...arf(vn)

La función queda completamente determinada por los valores f(v1) + ... +f(vn). Como {w1, w2, ...wm} es una base de W, entonces cada f(vj) puede re-presentarse como:

f(vj) = a1jf(w1) + a2jf(w2) + ...anjf(wm)

Luego la función queda completamente determinada por los valores aij . Siestos valores se utilizan para construir una matriz A de tamaño m×n, Entoncesla matriz A se puede utilizar para calcular el valor de f(v) para todo vector enV.

Otra manera de representar la interpretación de una matriz como una apli-cación lineal es tomando x ∈ kn, y ∈ km, luego el morfismo f : kn → km puedeser representado por y = Ax.

Las dimensiones de una matriz siempre se dan con el número de filas primeroy el número de columnas después. La entrada de una matriz A que se encuentraen la fila i-ésima y la columna j-ésima se le llama entrada i, j o entrada (i, j)-ésima de A. Esto se escribe como Ai,j o A[i, j]. Entonces, el primero de lossubíndices indica la fila y el segundo la columna a las que pertenece dichoelemento. Las filas de la matriz son las m n-plas horizontales:

(a11 a12 · · · a1n

),(a21 a22 · · · a2n

), · · · ,

(am1 am2 · · · amn

)

y las columnas de la matriz son las n m-plas verticales:

a11a21...am1

,

a12a22...am2

, · · · ,

a1na2n...amn

Nótese que el elemento aij llamado entrada ij, aparece en la fila i-ésima y enla columna j-ésima. Una matriz conm filas y n columnas se denomina matrizmpor n, o matriz m×n; el par de números (m,n) se llama su tamaño o forma.

Las matrices se denotan usualmente por letras mayúsculas A,B, . . . y loselementos del cuerpo k por minúsculas, a, b, . . . con sus respectivos subíndices.

Una matriz con una sola columna o una sola fila se denomina a menudovector, y se interpreta como un elemento del espacio euclídeo [Her86].

9

Page 10: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 1.13 (Vector) Un vector es una matriz que posee una sola fila ouna sola columna. Una matriz 1× n (una fila y n columnas) se denomina vectorfila, y una matrizm× 1 (una columna ym filas) se denomina vector columna.En general, dada una matriz A, al vector (ai1, ai2, ...ain) que forma la i-ésimafila de A se le llama un vector fila, mientras que al vector (a1j , a2j , ...amj) queforma la j-ésima columna de A se le llama vector columna. Nótese que enparticular, un elemento del cuerpo k puede verse como una matriz o vector detamaño 1× 1.

Ejemplo 1.2 Se tiene la matriz A2×3 :[1 −3 40 5 −2

]

Sus filas son(1 −3 4

)y(0 5 −2

)y cada una de ellas es un vector

fila, mientras que

sus columnas son(10

),

(−35

),

(4−2

)y cada una de ellas es un vector

columna.

Ejemplo 1.3 La aserción[x+ y 2z +wx− y z −w

]=

[3 51 4

]es equivalente al sigui-

ente sistema de ecuaciones:x+ y = 3x− y = 12z + w = 5z −w = 4

Definición 1.14 (Igualdad de Matrices) La condición necesaria y suficientepara que dos matrices A = (aij) y B = (bij) sean iguales (A = B) es que tenganel mismo orden y que cada uno de los elementos de una de ellas sea igual alcorrespondiente de la otra. Esto es

aij = bij (i = 1, 2, ...,m; j = 1, 2, ..., n)

En otras palabras, dos matrices son iguales solo cuando una es copia de laotra.

1.3.1. Operaciones con Matrices

Las matrices se han definido dentro del espacio vectorial que se ha llamadoel espacio vectorial Mmn de las matrices de tamaño m × n. Por tanto, las dosprimeras operaciones que son de interés son la suma y el producto por escalar.Dichas operaciones deben dar como resultado otra matriz del mismo tamaño.Además, para estas operaciones, más adelante,(def 1.19) se definirá la matriz0m×n tal que para cualquier matriz Am×n, A+ 0 = 0 + A = A y obviamente,se tendrá un escalar 1 tal que 1A = A

10

Page 11: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 1.15 (Suma de Matrices) Sean A = (aij) y B = (bij) dos ma-trices del espacio vectorial Mmn, ambas de igual tamaño m × n. La suma (odiferencia) de ellas, denotada como A ± B, es otra matriz C = (cij) de ordenm×n, en la cual cada elemento de C es la suma (o diferencia) de los elementoscorrespondientes de A y B. Esto es, (cij) = (aij + bij)

A =

a11 a12 · · · a1na21 a22 · · · a2n...

......

...am1 am2 · · · amn

; B =

b11 b12 · · · b1nb21 b22 · · · b2n...

......

...bm1 bm2 · · · bmn

C = A+B =

a11 + b11 a21 + b21 · · · a1n + b1na21 + b21 a22 + b22 · · · a2n + b2n

......

......

am1 + bm1 am2 + bm2 · · · amn + bmn

Dos matrices del mismo órden se llaman conformes respecto dela suma algebraica. La suma de matrices no está definida paramatrices no conformes.

Definición 1.16 (Producto por Escalar) Sea A una matriz del espacio vec-torial Mmn, y k ∈ k un escalar. El producto del escalar k por la matriz A, escritokA es la matriz C obtenida multiplicando cada entrada de A por k:

C = kA =

ka11 ka21 · · · ka1nka21 ka22 · · · ka2n

......

......

kam1 kam2 · · · kamn

Obsérvese que A+B y kA son también matrices de tamaño m×n. Ademásse define:−A = −1 ·A y A−B = A+ (−B)

Ejemplo 1.4 Sean A =[1 −2 34 5 −6

], B =

[3 0 2−7 1 8

]entonces

A+B =

[1 + 3 −2 + 0 3 + 24− 7 5 + 1 −6 + 8

]=

[4 −2 5−3 6 2

]

3A =

[3x1 3x (−2) 3x33x4 3x5 3x (−6)

]=

[3 −6 912 15 −18

]

2A− 3B =[2 −4 68 10 −12

]+

[−9 0 −621 −3 −24

]=

[−7 −4 029 7 −36

]

11

Page 12: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Proposición 1.1 (Propiedades de la Suma y el Producto por Escalar)Sea V el conjunto de todas las matrices m× n sobre un campo k. En tal caso,para matrices arbitrarias A,B,C, 0 ∈ V y escalares cualesquiera k1, k2 ∈ k y losvalores 0, 1 ∈ k se cumple:

1. (A+B) +C = A+ (B +C)

2. A+ 0 = A

3. A+ (−A) = 0

4. A+B = B +A

5. k1(A+B) = k1A+ k1B

6. (k1 + k2)A = k1A+ k2A

7. (k1k2)A = k1(k2A)

8. 1 ·A = A y 0 ·A = 0

Estas propiedades son de esperarse, dado que las matrices pertenecen a unespacio vectorial, y k es un escalar.

Si se supone que los vectores en Rn se representan por vectores fila se tiene

u =[a1 a2 · · · an

]v =

[b1 b2 · · · bn

]

Entonces, vistos como matrices, la suma u + v y el producto ku son lassiguientes:

u+ v =[a1 + b1 a2 + b2 · · · an + bn

]ku =

[ka1 ka2 · · · kan

]

Definición 1.17 (Producto de vector fila por vector columna) Sea A =(ai) un vector fila, y B = (bi) un vector columna con el mismo número de ele-mentos. El producto de estos vectores A y B, escrito A× B es un vector c detamaño 1× 1 definido como:

[a1 a2 · · · an

]

b1b2...bn

= a1b1 + a2b2 + · · ·+ anbn =

n∑

k=1

akbk = c

12

Page 13: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Nótese que para este caso, el producto de vectores se puede ver como unescalar c ∈ k. El producto A×B no está definido si los vectores A y B tienendiferente cantidad de elementos.

Ejemplo 1.5[8 −4 5

]32−1

= 8 · 3 + (−4) · 2 + 5 · (−1) = 24− 8− 5 = 11

Ahora se puede ampliar este procedimiento para realizar el producto dematrices de tamaño m× n en general.

Definición 1.18 (Producto de Matrices) Sean A = (aij) y B = (bij) ma-trices tales que el número de las columnas de A coincide con el mismo númerode filas de B; esto es, A es una matriz m×p y B es una matriz p×n. Entoncesel producto de las dos matrices AB, en este orden, es otra matriz C de tamañom × n cuya entrada ij se obtiene multiplicando la fila i-ésima Ai de A por lacolumna j-ésima Bj de B (cada elemento de la fila se multiplica por el corre-spondiente de la columna y a continuación se suman los productos obtenidossegún la definición 1.17):

C = Am×pBp×n =

A1B1 A1B

2 · · · A1Bn

A2B1 A1B2 · · · A1Bn

......

......

AmB1 AmB

2 · · · AmBn

m×n

Donde cij = ai1b1j + ai2b2j + · · · + aipbpj =p∑

k=1

aikbkj para todo i, j en C.

Se observa que en general, el producto de matrices no es conmutativo.Dos matrices en las cuales el número de columnas de A es igual al número

de filas de B se llamanmatrices conformes respecto de la multiplicación.Se debe tener en cuenta el hecho de que el producto AB sólo está definido paramatrices conformes. Esto es, no está definido si A es una matriz m× p y B unamatriz q × n con p = q.

Ejemplo 1.6[r st u

][a1 a2 a3b1 b2 b3

]=

[ra1 + sb1 ra2 + sb2 ra3 + sb3ta1 + ub1 ta2 + ub2 ta3 + ub3

]

[1 23 4

] [1 10 2

]=

[1× 1 + 2x0 1× 1 + 2× 23× 1 + 4× 0 3× 1 + 4× 2

]=

[1 53 11

]

[1 10 2

] [1 23 4

]=

[1× 1 + 1× 3 1× 2 + 1× 40× 1 + 2× 3 0× 2 + 2× 4

]=

[4 66 8

]

13

Page 14: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Lo anterior muestra que el producto de matrices no es conmutativo, es decirlos productos AB y BA de matrices no son necesariamente iguales.

Proposición 1.2 (Propiedades del Producto de Matrices) Sean A,B,Cmatrices conformes para la multiplicación o para la suma, según corresponda, yk un escalar. Entonces, se cumplen las siguientes propiedades:

1. (AB)C = A(BC)

2. A(B +C) = AB +AC

3. (B +C)A = BA+CA

4. k(AB) = (kA)B = A(kB)

5. 0A = 0 y B0 = 0 donde 0 es la matriz nula conforme

1.3.2. Matrices Especiales.

Definición 1.19 (Matriz Nula) Una matriz que tenga nulos todos sus ele-mentos se llama matriz nula o matriz cero y se denota por 0m,n. En el casode que una matriz A sea nula y no haya lugar a confusiones con respecto a suorden, se escribe simplemente A = 0 en lugar de la disposición m× n con suselementos iguales a cero.

Ejemplo 1.7 La matriz cero de tamaño 2× 3 es: 02×3 =[0 0 00 0 0

]

Para cualquier matriz Am,n y 0m,n, se tiene que A+0 = 0+A = A. Esto esde esperarse, ya que 0 cumple la función de vector nulo en el espacio vectorialMmn.

Definición 1.20 (Matriz Traspuesta) La matriz traspuesta de una matrizA de orden m × n es la matriz A′ de orden n ×m llamada la traspuesta deA que se obtiene permutando las filas por las columnas. Por tanto, el elementoaij de A corresponde al elemento aji de A′

Ejemplo 1.8 La traspuesta de la matriz A =[1 2 34 5 6

]es A′ =

1 42 53 6

Obsérvese que el elemento aij de A (fila i, columna j) es aji de A′ (fila j,columna i).

Proposición 1.3 Sean A′ y B′, respectivamente, las traspuestas de las matricesA y B, y sea k ∈ k un escalar; en estas condiciones se cumple que:

1. (A′) ′ = A

14

Page 15: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

2. (kA′) ′ = kA

3. (A+B)′ = A′+B′

4. (A×B)′ = B′ ×A′

Ejemplo 1.9 A =

4 −3 6−2 5 −11 0 3

, B =

7 8 93 2 1−5 6 −4

A+B =

11 5 151 7 0−4 6 −1

, (A+B) ′ =

11 1 −45 7 615 0 −1

A′ =

4 −2 1−3 5 06 −1 3

, B′ =

7 3 −58 2 69 1 −4

,A′+B′ =

11 1 −45 7 615 0 −1

Por tanto (A+B) ′ =

11 1 −45 7 615 0 −1

= A′+B′ =

11 1 −45 7 615 0 −1

Matrices Cuadradas. Dentro de las matrices más utilizadas en álgebra, seencuentran las matrices cuadradas.

Definición 1.21 (Matriz Cuadrada) Una matriz A se llama matriz cuadra-da si el número de filas es igual al número columnas. Es decir n = m. Se diceque una matriz cuadrada n×n es de orden n y se le asigna el nombre de matrizn-cuadrada:

a11 a12 · · · a1na21 a22 · · · a2n...

... · · ·...

an1 an2 · · · ann

Las matrices cuadradas son de especial importancia. Es en estas matricesdonde surge el concepto de determinante y de traza. Además poseen algunaspropiedades interesantes, por ejemplo toda matriz cuadrada se puede descom-poner en la suma de una matriz simétrica y una matriz antisimétrica. Además,si A y B son matrices del mismo orden, entonces se pueden sumar entre sí ysus productos son válidos en ambos sentidos, esto es, tanto AB como BA estándefinidos.

15

Page 16: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 1.22 (Traza de una Matriz Cuadrada) Sea A una matrizcuadrada de orden n. La diagonal principal es la línea formada por los elementosa11, a22, ..., ann. La suma de los elementos de la diagonal principal de una matrizcuadrada A, se llama traza de la misma, y se denota como tr(A) =

∑n

i=1aii.

Ejemplo 1.10 Sean A =

1 2 3−4 −4 −45 6 7

B =

2 −5 10 3 −21 2 −4

Entonces A y B son matrices cuadradas de orden 3, y sus trazas son tr(A) =4 y tr(B) = 1.

Definición 1.23 (Matriz Triangular) Una matriz cuadrada A cuyos elemen-tos aij = 0 para i ≥ j se llama triangular superior; una matriz cuadrada cuyoselementos aij = 0 para i ≤ j se denomina triangular inferior. Así, pues

a11 a12 a13 · · · a1n0 a22 a23 · · · a2n0 0 a33 · · · a3n...

......

......

0 0 0 · · · ann

es una matriz triangular superior

a11 0 0 · · · 0a21 a22 0 · · · 0a31 a32 a33 · · · 0...

......

......

an1 an2 an3 · · · ann

es una matriz triangular inferior.

Definición 1.24 (Matriz Diagonal) La matriz D que es triangular supe-rior e inferior, se llama matriz diagonal. Se representa por:

D = diag[a11 a22 a33 · · · ann

]=

a11 0 0 · · · 00 a22 0 · · · 00 0 a33 · · · 0...

......

......

0 0 0 · · · ann

El producto AB de una matriz diagonal cuadrada de orden m,A = diag (a11, a22, ...amm) por otra matriz cualquiera B de orden n × m seobtiene multiplicando la primera fila de B por a11, la segunda de B por a22 yasí sucesivamente. Esto es:

16

Page 17: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

a11 0 · · · 00 a22 · · · 0...

......

...0 0 · · · ann

b11 b12 · · · b1nb21 b22 · · · b2n...

......

...bn1 bn2 · · · b3n

=

a11b11 a11b12 · · · a11b1na22b21 a22b22 · · · a22b2n...

......

...ammbm1 ammbm2 · · · ammbmn

Definición 1.25 (Matriz Escalar y Matriz Unidad) Si en una matriz dia-gonal D se verifica que a11 = a22 = . . . = ann = k, entonces D recibe el nombrede matriz escalar. Si además k = 1, la matriz se denomina unidad o identicay se representa por In.

Las matrices unitarias tienen algunas de las propiedades del entero 1. Entodo caso, se verifica que:Im ×Am×n = Am×n × In = Im ×Am×n × In = A

Ejemplo 1.11 I2 =[1 00 1

]I3 =

1 0 00 1 00 0 1

Definición 1.26 (Matrices Conmutativas y Anticonmutativas) Si A y Bson dos matrices cuadradas y se verifica que AB = BA dichas matrices se lla-man permutables, conmutativas o que conmutan. Es fácil demostrar que siA es una matriz cuadrada de orden n, conmuta consigo misma y también conIn.

En las condiciones anteriores, si A y B son tales que AB = −BA, lasmatrices A y B se llaman antipermutables o anticonmutativas

Ejemplo 1.12 Demostrar que las matrices[a bb a

]y[c dd c

]son permutables

para todos los valores de a, b, c, d. Esto se deduce de:

[a bb a

]×[c dd c

]=

[ac+ bd ad+ bdbc+ ad bc+ ad

]=

[ca+ db da+ dbcb+ da cb+ da

]=

[c dd c

]×[a bb a

]

17

Page 18: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 1.27 (Matriz Idempotente) Una matriz A de manera queAk+1 = A, se llama matriz idempotente de grado k la matriz A. Al gradok también se le llama periodo.

Ejemplo 1.13 A =

2 −2 −4−1 3 41 −2 −3

Verificar si la matriz A es idempotente:

A2 =

2 −2 −4−1 3 41 −2 −3

×

2 −2 −4−1 3 41 −2 −3

=

2 −2 −4−1 3 41 −2 −3

= A

Definición 1.28 (Matriz Nilpotente) Una matriz A tal que AP = 0, siendop un número entero y positivo, se llama nilpotente. Si p es el menor númeroentero y positivo para la cual AP = 0, la matriz A se llama nilpotente deíndice p.

Ejemplo 1.14 A =

1 1 35 2 6−2 −1 −3

Demostrar que A es una matriz nilpotente

de índice 3.

A2 =

1 1 35 2 6−2 −1 −3

×

1 1 35 2 6−2 −1 −3

=

0 0 03 3 9−1 −1 −3

A3 = A2 ×A =

0 0 03 3 9−1 −1 −3

×

1 1 35 2 6−2 −1 −3

= 0

Definición 1.29 (Matriz Involutiva) Una matriz cuadrada A tal que A2 = Ise llama involutiva. Una matriz unidad, por ejemplo, es involutiva. La inversade una matriz involutiva es ella misma.

Proposición 1.4 La condición necesaria y suficiente para que una matriz Asea involutiva es que (I −A)(I +A) = 0

Demostración. Supóngase (I −A)(I +A) = I −A2 = 0; luego A2 = I y Aes involutiva.

Supóngase que A es involutiva; entonces A2 = I y (I − A)(I + A) =I −A2 = I − I = 0

Definición 1.30 (Matriz Simétrica) Una matriz cuadrada A tal queA′ = A se llama simétrica. Por tanto, en una matriz cuadrada A = [aij ]simétricase verifica que aij = aji para todos los valores de i y de j.

18

Page 19: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 1.15 A =

1 2 32 4 −53 −5 6

es simétrica y también kA para cualquier

k ∈ k

Si A es una matriz cuadrada de orden n, la matriz A+A′ es simétrica.

A =

1 2 32 4 −53 −5 6

, A′ =

1 2 32 4 −53 −5 6

entonces

A+A′ =

2 4 64 8 −106 −10 12

Definición 1.31 (Matriz Antisimétrica) Una matriz cuadrada A tal queA′ = −A se llama hemisimétrica o antisimétrica. Por tanto, en una matrizcuadrada A hemisimétrica se verifica que aij = −aji para todos los valores de iy de j . Evidentemente, los elementos de la diagonal principal deben ser nulos.

Ejemplo 1.16 A =

0 −2 32 0 4−3 −4 0

A′ =

0 2 −3−2 0 −43 4 0

= −A =

0 2 −3−2 0 −43 4 0

La anterior es una matriz hemisimétrica, así como kA, cualquiera que sea elescalar k ∈ k.

Proposición 1.5 Toda matriz cuadrada A se puede descomponer en lasuma de una matriz simétrica B = 1

2 (A+A′) y otra matriz antisimétricaC = 1

2 (A−A′).

La inversa de una matriz juega un papél muy importante en el desarrollode diferentes procedimientos algebraicos y de cálculo matricial. Así como en R ,para todo a ∈ R con a = 0, existe un b ∈ R que es el inverso multiplicativo, parael caso de una matriz A análogamente se plantea la posibilidad de que existauna matriz B conformable, tal que AB = I.

Definición 1.32 (Matriz Inversa) Sean A y B dos matrices cuadradas delmismo orden, para las cuales se cumple que AB = BA = I. A la matriz B sellama inversa de A y se escribe B = A−1 (B igual a inversa de A), Recíproca-mente, la matriz A es la inversa de B, y se puede escribir A = B−1.

Ejemplo 1.17 Como

1 2 31 3 31 2 4

×

6 −2 −3−1 1 0−1 0 1

=

1 0 00 1 00 0 1

= I

Cada una de las matrices del producto es inversa de la otra.

19

Page 20: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

No todas las matrices poseen inversa. Se puede demostrar, sin embargo, quesi A posee matriz inversa, ésta es única.

Proposición 1.6 (Propiedades de la Inversa) La inversa de una matrizcumple con las siguientes propiedades

1. Si A es una matriz que tiene inversa, ésta es única

Demostración. Sean A, B, C tres matrices cuadradas de forma queAB = BA = I y CA = AC = I. En estas condiciones, (CA)B = C(AB)y por tanto B = C. En otra forma, B = C = A−1 es la única inversa deA.

2. (AB)−1 = B−1A−1

Demostración. Por definición (AB)−1(AB) = (AB)(AB)−1 = I. Ahorabien:

(B−1A−1)AB = B−1(A−1A)B = B−1IB = B−1B = I

AB(B−1A−1) = A(BB−1)A−1 = AA−1 = I

Como (AB)−1 es única, luego (AB)−1 = B−1A−1

Una matriz que posee inversa se llama invertible o no singular.

Definición 1.33 (Matriz Ortogonal) Se dice que una matriz A definida so-bre un cuerpo k, es ortogonal si AAT = ATA = I. Una matriz ortogonal A esnecesariamente cuadrada e invertible, con una inversa A−1 = AT

Sea A =

a1 a2 a3b1 b2 b3c1 c2 c3

Si A es ortogonal, entonces se debe cumplir:

AAT =

a1 a2 a3b1 b2 b3c1 c2 c3

a1 b1 c1a2 b2 c2a3 b3 c3

=

1 0 00 1 00 0 1

Esto proporciona el siguiente conjunto de ecuaciones:

a21 + a22 + a

23 = 1 a1b1 + a2b2 + a3b3 = 0 a1c1 + a2c2 + a3c3 = 0

b1a1 + b2a2 + b3a3 = 0 b21 + b22 + b

23 = 1 b1c1 + b2c2 + b3c3 = 0

c1a1 + c2a2 + c3a3 = 0 c1b1 + c1b1 + c1b1 = 0 c21 + c22 + c

23 = 1

o en otras palabras:

u1 • u1 = 1 u1 • u2 = 0 u1 • u3 = 0u2 • u1 = 0 u2 • u2 = 1 u2 • u3 = 0u3 • u1 = 0 u3 • u2 = 0 u3 • u3 = 1

20

Page 21: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

donde u1 = (a1, a2, a3) , u2 = (b1, b2, b3) , u3 = (c1, c2, c3) son las filas de A.Así las filas u1, u2 y u3 son ortogonales entre sí y tienen longitudes unidad o,dicho de otro modo, forman un conjunto ortonormal de vectores

Definición 1.34 (Matriz Escalonada) Sean[A1 A2 · · · AS

]matri-

ces cuadradas de órdenes[m1 m2 · · · mS

], respectivamente.

La generalización A =

A1 0 · · · 00 A2 · · · 0...

......

...0 0 · · · AS

= diag

[A1 A2 · · · AS

]

de la matriz diagonal se llama suma directa o matriz escalonada de lasmatrices .Ai

Ejemplo 1.18 Sean A1 =[2], A2 =

[1 23 4

], A3 =

1 2 −12 0 34 1 −2

La suma directa de A1,A2, A3 es la matriz escalonada:

diag (A1,A2, A3) =

2 0 0 0 0 00 1 2 0 0 00 3 4 0 0 00 0 0 1 2 −10 0 0 2 0 30 0 0 0 1 −2

Tambien se puede ver a la matriz escalonada como una matriz particionada ouna matriz de bloques en la cual las submatrices no nulas están sobre la diagonal.

Definición 1.35 (Determinante de una Matriz Cuadrada) El de-terminante de una matriz cuadrada se puede definir recursivamente mediantedesarrollos por columnas o por filas. Sea A = (aij) una matriz n× n, donde ies el índice de la fila y j es el índice de la columna. Se nota por Aij la matriz(n− 1) × (n− 1) que se obtiene al quitar la fila i y la columna j de la matrizA. Entonces

Desarrollo por la fila i : detA = |A| =∑nj=1(−1)i+jaijdet(Aij).

Desarrollo por la columna j : detA = |A| =∑ni=1(−1)i+jaijdet(Aij).

Aplicando repetidamente estas fórmulas, se va reduciendo el orden de lasdeterminantes hasta llegar a determinantes de órdenes uno, dos o tres que sepueden calcular usando las reglas de Sarrus:

21

Page 22: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

|a11| = a11[a11 a12a21 a22

]= a11a22 − a12a21

a11 a12 a13a21 a22 a23a31 a32 a33

= a11a22a33 + a12a23a31 + a21a32a13

−a13a22a31 − a23a32a11− a21a12a33

El valor del determinante no depende de las filas o columnas escogidas,mientras que la dificultad del cálculo probablemente sí.

Proposición 1.7 (Propiedades del Determinante) Las principales propie-dades de los determinantes de matrices cuadradas son las siguientes.

1. Si una columna es cero, el determinante es cero.

2. Si hay dos columnas iguales, el determinante es cero.

3. Si las columnas son ld, el determinante es cero.

4. El determinante cambia de signo al permutar dos columnas.

5. El determinante no cambia si a una columna se le suma una columna delas restantes.

6. El determinante es lineal respecto a cada columna:

det(..., ci + c′i, ...) = det(..., ci, ...) + det(..., c′i, ...).det(..., ci, ...) = det(..., ci, ...).

7. Las filas también cumplen las anteriores propiedades.

8. det(λA) = λndet(A).

9. El determinante del producto es igual al producto de determinantes:det(AB) = detA·detB.

10. Una matriz A es invertible si y solo si detA = 0. Además, det(A−1) =(detA)−1.

11. Una matriz y su traspuesta tienen el mismo determinante: det(AT ) =detA.

12. El determinante de una matriz triangular es igual al producto de los ele-mentos diagonales.

13. El determinante de una matriz triangular por bloques es igual al productode los determinantes de los bloques diagonales.

22

Page 23: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

2. Derivación.

En esta sección se exponen los conceptos fundamentales de la derivación defunciones reales, y algunas de las reglas principales. Se consideran principal-mente las funciones algebraicas, y al final de la sección se exponen las fórmulasde algunas funciones trigonométricas y logarítmicas que podrán ser utilizadasposteriormente.

Definición 2.1 (Pendiente) Se define la pendiente, en el punto donde x = a,de la tangente a una curva cuya ecuación es y = f (x), como

m = lımh→0f (a− h)− f (a)

h

De hecho, los límites con esta forma surgen siempre al calcular una rapidez decambio en cualquier ciencia o rama de la ingeniería, como la rapidez de reacciónen química o un costo marginal en economía. Dado que este tipo de límite sepresenta con suma frecuencia, se le da un nombre y una notación especial.

Definición 2.2 (Derivada) La derivada de la función f en un número a rep-resentada por f ′ (a) es

f ′ (a) = lımh→0f (a+ h)− f (a)

hdado el caso de que el límite exista.

Si se escribe x = a + h, entonces h = x − a y h → 0 si y solo si x →a; por consiguiente de acuerdo con la determinación de las tangentes, un modoequivalente de enunciar la definición de derivada, es

f ′ (a) = lımx→a

f (x)− f (a)x− a

Ejemplo 2.1 Determinar la derivada de la función f (x) = x2 − 8x + 9 en elnúmero a.

f ′ (a) lımh→0f (a+ h)− f (a)

h

f ′ (a) lımh→0[(a+h)2−8(a+h)+9]−[a2−8a+9]

h

f ′ (a) lımh→0a2+2ah+h2−8a−8h+9−a2+8a−9

h

f ′ (a) lımh→02ah+h2−8h

h= lımh→0 (2a+ h− 8)

f ′ (a) = 2a− 8

El proceso de calcular la derivada de una función se llama derivación.

23

Page 24: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Figura 1:

Notación 2.1 (Derivada) Si se emplea la notación tradicional y = f (x) paraindicar que la variable independiente es x y que la dependiente es y , hay otrasnotaciones alternativas comunes de la derivada:

f ′ (x) = y′ = dy

dx=df

dx=d

dxf (x) = Df (x) = Dxf (x)

Los símbolos D yd

dxse denominan operadores de diferenciación porque in-

dican la operación de diferenciación, que es el proceso de calcular una derivada.

El símbolod

dxfue introducido por Leibniz y no se debe considerar como una

relación, solo es un símbolo de f ′ (x). No obstante, es una notación muy útil ysugerente, en especial cuando se usa con la notación de incrementos.

2.0.3. Interpretación de la derivada como la pendiente de una tan-gente.

Si se parte de la definición de que la línea tangente o recta tangente a la curvay = f (x) en el punto P (a, f (a)) es la línea que pasa por P cuya pendiente es

m = lımx→a

f (x)− f (a)x− a siempre que exista ese límite

Como, según la definición 2.2 es la misma que la derivada f ′ (a) ahora sepuede decir que la recta tangente a y = f (x) en (a, f (a)) es la línea que pasapor (a, f (a)) cuya pendiente es igual a f ′ (a) la derivada de f en a Así, lainterpretación geométrica de una derivada (como se tiene en la definición 2.2)es lo que registra la figura ??.

24

Page 25: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

f ′ (a) = lımh→0f (a+ h)− f (a)

h, b) f ′ (a) = lımx→a

f (x)− f (a)x− a

= pendiente de tangente en P, =pendiente de tangente en P

Al emplear la forma punto-pendiente de la ecuación de la recta, se llega a:Si existe f ′ (a) entonces una ecuación de la recta tangente a la curva y = f (x)

en el punto (a, f (a)) es la siguiente:

y − f (a) = f ′ (a) (x− a)

Ejemplo 2.2 Deducir una ecuación de la tangente a la parábola y = x2−8x+9en el punto (3,−6).

De acuerdo con el ejemplo anterior se sabe que la derivada de f (x) = x2 −8x+9, en el número a es f ′ (a) = 2a− 8 . Entonces la pendiente de la tangenteen (3,−6) es f ′ (3) = 2 (3) − 8 = −2. Así, la ecuación de la recta tangentey − (−6) = (−2) (x− 3) o sea y = −2x.

2.0.4. Reglas de Derivacion.

Una función se dice diferenciable en un intervalo si lo es en cada uno de suspuntos. Las funciones del cálculo elemental son diferenciables, excepto posible-mente en puntos aislados, en sus intervalos de definición.

Si siempre fuera necesario determinar las derivadas directamente a partirde la definición, las operaciones serían tediosas y se requeriría mucho ingeniopara evaluar algunos límites. Por fortuna, se han desarrollado varias reglas parahallar derivadas que obvian ese proceso y simplifican mucho la diferenciación.Las reglas siguientes suponen que se trabaja con funciones diferenciables.

Regla 2.1 (Derivada de una Constante) Si f es una función constante,f (x) = c, entonces f ′ (x) = 0

Este resultado es geométricamente evidente porque la gráfica de una fun-ción constante es una recta horizontal con pendiente 0; la demostración formaltambién es simple.

f ′ (x) = lımh→0f (x+ h)− f (x)

h= lımh→0

c− ch

= lımh→0 0 = 0

En notación de Leibniz, se escribe:d

dxc = 0

Regla 2.2 (Regla de Potencias) Si f (x) = xn en donde n es un entero po-sitivo, f ′ (x) = nxn−1

En la notación de Leibniz la regla de potencias se expresa como: ddx(xn) =

nxn−1

25

Page 26: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Demostración. La fórmulaxn − an = (x− a)

(xn−1 + xn−2a+ . . .+ xan−2 + an−1

)

Se comprueba multiplicando el lado derecho, o sumando el segundo factorcomo una serie geométrica. Así, si se usa la ecuación 2.2 para f ′ (a) y despuésse utiliza la expresión de arriba, se obtiene:

f ′ (a) = lımx→a

f (x)− f (a)x− a = lımx→a

xn − anx− a

f ′ (a) = lımx→a

(xn−1 + xn−2a+ ...+ xan−2 + an−1

)

f ′ (a) = an−1 + an−2 + ...+ xaan−2 + an−1

Demostración. f ′ (a) = nan−1

f ′ (x) = lımh→0f (x+ h)− f (x)

h= lımh→0

(x+ h)n − xnh

Al desarrollar (x+ h)n de acuerdo con el teorema del binomio, se llega a:

f ′ (x) = lımh→0

[xn + nxn−1h+ n(n−1)

2 xn−2h2 + ...+ nxhn−1 + hn]− xn

h

′ (x) = lımh→0

[nxn−1 + n(n−1)

2 xn−2h+ ...+ nxhn−2 + hn−1]

f ′ (x) = nxn−1

Por cuanto todos los términos excepto el primero, tienen a h como factor;por consiguiente, tienden a 0.

Ejemplo 2.3 Los siguientes ejemplos

Si y = t5 entonces dydt= 5t4

Du (um) = mum−1

Si y = x20 , entonces y′ = 20x19

ddr

(r6)= 6r5

26

Page 27: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

ddx

√x = d

dx

(x1

2

)= 1

2x( 12)−1 = 1

2√x

Sea y = 13√x2

Entoncesdy

dx=d

dx

(x−

2

3

)= −2

3x−(

2

3)−1 = −23x−

53

Derivar la función f (t) =√t (1− t) .

Aplicando la regla del producto se tiene:

f ′ (t) =√t ddt(1− t) + (1− t) d

dt

√t

f ′ (t) =√t (−1) + (1− t) 12 t−

1

2

f ′ (t) = −√t+ 1−t

2√t= 1−3t

2√t

Si se utilizan primero las leyes de los exponentes, después se podrá procederdirectamente, sin recurrir a la regla del producto.

f (t) =√t− t

√t = t

1

2 − t 32

f ′ (t) = 12 t− 1

2 − 32 t

1

2 que equivale a la respuesta en la solución anterior

Las fórmulas de diferenciación que siguen indican que la derivada de unaconstante multiplicada por una función es igual a la constante multiplicada porla derivada de la función, y que la derivada de una suma (o resta) de funcioneses igual a la suma (o resta) de las derivadas, siempre y cuando las derivadasexistan.

Para definir las siguientes reglas, se supone que c es una constante y quetanto f ′ (x) como g′ (x) existen.

Regla 2.3 Si g (x) = cf (x), entonces f ′ (x) existe y g (x) = cf ′ (x)

También se escribe:d

dx(cf) = c

df

dx

27

Page 28: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Demostración. g′ (x) = lımh→0f (x+ h)− f (x)

h

= lımh→0cf (x+ h)− cf (x)

h

g′ (x) = lımh→0 c

[f (x+ h)− f (x)

h

]

g′ (x) = c lımh→0f (x+ h)− f (x)

h

g′ (x) = cf ′ (x)

Regla 2.4 Si H (x) = f (x)± g (x) , entonces H′ (x) existe, yH′ (x) = f ′ (x)± g′ (x)También se escribe:

d

dx(f ± g) = df

dx± dgdx

Este resultado se puede ampliar para la suma de cualquier número de fun-ciones.

Demostración. H′ (x) = lımh→0H (x_h)−H (x)

h

H′ (x) = lımh→0[f (x+ h)± g (x+ h)]− [f (x)± g (x)]

h

H′ (x) = lımh→0

[f (x+ h)− f (x)

h± g (x+ h)− g (x)

h

]

H′ (x) = lımh→0f (x+ h)− f (x)

h± lımh→0

g (x+ h)− g (x)h

H′ (x) = f ′ (x)± g′ (x)

De manera resumida, las dos reglas anteriores se pueden expresar como:(cf) ′ = cf ′(f ± g) ′ = f ′ ± g′

Ejemplo 2.4 ddx

(x8 + 12x5 − 4x4 + 10x3 − 6x+ 5

)

= ddx

(x8)+ 12 d

dx

(x5)− 4 d

dx

(x4)+ 10 d

dx

(x3)− 6 d

dx(x) + d

dx(5)

= 8x7 + 12(5x4

)− 4

(4x3)+ 10

(3x2

)− 6 (1) + 0

= 8x7 + 60x4 − 16x3 + 30x2 − 6

28

Page 29: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 2.5 Si f (x) = x4−x3+x2−x+1, deducir la ecuación de la tangentea la gráfica de f en el punto (1, 1).

La pendiente de f ′ (1) que se calculara como sigue:

f ′ (x) = 4x3 − 3x2 + 2x− 1

f ′ (1) = 4− 3 + 2− 1 = 2

Por tanto, la ecuación de la tangente en (1, 1) esy − 1 = 2 (x− 1) o bien 2x− y − 1 = 0

A continuación se necesita una fórmula para la derivada de un producto dedos funciones; es posible sentirse inclinado a suponer, como lo hizo Leibniz hacetres siglos, que la derivada de un producto es igual al producto de las derivadas;pero se puede ver que tal hipótesis no es correcta si se considera un ejemploen particular. Sean f (x) = x y g (x) = x2 . Entonces, la regla de potenciasestablece que f ′ (x) = 1 y g′ (x) = 2x y se tendría f ′ · g′ = 2x. Sin embargo,si se toma h = f · g = x3 y, por consiguiente, hl = (f · g) ′ = 3x2 . Entonces(f · g) ′ = f ′ · g′ . Leibniz descubrió la fórmula correcta, la cual se llama regladel producto.

Regla 2.5 (Regla del Producto) Si H (x) = f (x) g (x) y tanto f ′ (x) comog′ (x) existen a la vez, entonces

H (x) = f (x) g′ (x) + f ′ (x) g (x)

También se puede expresar como:d

dx(fg) = f

dg

dx+ g

df

dx

y de manera abreviada: (fg) ′ = fg′+ f ′g

Demostración. H′ (x) = lımh→0H (x+ h)−H (x)

h

H′ (x) = lımh→0f (x+ h) g (x+ h)− f (x) g (x)

h

Para evaluar este límite, se van a separar las funciones f y g sumando yrestando el término f (x+ h) g (x) en el numerador

H′ (x) == lımh→0

f (x+ h) g (x+ h)− f (x+ h) g (x) + f (x+ h) g (x)− f (x) g (x)h

= lımh→0

[f (x+ h)

g (x+ h)− g (x)h

+ g (x)f (x+ h)− f (x)

h

]

29

Page 30: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

= lımh→0 f (x+ h) lımh→0g (x+ h)− g (x)

h+

+ lımh→0 g (x) lımh→0f (x+ h)− f (x)

h

H′ (x) = f (x) g′ (x) + f ′ (x) g (x)

Ejemplo 2.6 Determinar F ′ (x) si F (x) =(6x3

) (7x4

)

Según la regla del producto:

F ′ (x) =(6x3)

ddx

(7x4)+(7x4

)ddx

(6x3

)

F ′ (x) =(6x3) (28x3

)+(7x4

) (18x2

)

F ′ (x) = 168x6 + 126x6 = 294x6

Se podría comprobar la respuesta a este ejemplo en forma directa multipli-cando primero los factores:

F (x) =(6x3) (7x4)= 42x7 ⇒ F ′ (x) = 42

(7x6

)= 294x6

Regla 2.6 (Regla del Cociente) Si F (x) = f(x)g(x) y existen f ′ (x) y g′ (x) a

la vez, entonces existe F ′ (x) y F ′ (x) = g (x) f ′ (x)− f (x) g′ (x)[g (x)]2

En la notación de Leibniz:d

dx

(f (x)

g (x)

)=g (x) d

dxf (x)− f (x) d

dxg (x)

[g (x)]2

y de manera abreviada:(f

g

)′ = gf ′ − fg′

g2

Demostración. F ′ (x) lımh→0F (x+ h)F (x)

h= lımh→0

f(x+h)g(x+h) −

f(x)g(x)

h

F ′ (x) lımh→0f (x+ h) g (x)− f (x) g (x+ h)

hg (x+ h) g (x)

Para separar f y g en esta expresión se suma y resta el término f (x) g (x)al numerador:

F ′ (x) lımh→0f (x+ h) g (x)− f (x) g (x) + f (x) g (x)− f (x) g (x+ h)

hg (x+ h) g (x)

30

Page 31: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

F ′ (x) lımh→0g (x) f(x+h)−f(x)

h− f (x) g(x+h)−g(x)

h

g (x+ h) g (x)

F ′ (x) lımh→0 g (x) lımh→0f(x+h)−f(x)

h− lımh→0 f (x) lımh→0

g(x+h)−g(x)h

lımh→0 g (x+ h) lımh→0 g (x)

F ′ (x) = g (x) f ′ (x)− f (x) g′ (x)[g (x)]2

En palabras, la derivada de un cociente es igual al denominador multiplicadopor la derivada del numerador, menos el numerador multiplicado por la derivadadel denominador, y todo ello se divide entre el cuadrado del denominador.

Ejemplo 2.7 Sea y = x2−x−2x3+6

Entonces y′ = (x3+6)D(x2+x−2)−(x2+x−2)D(x3+6)(x3+6)2

y′ = (x3+6)(2x+1)−(x2+x−2)(3x2)(x3+6)2

y′ = (2x4+x3+12x+6)−(3x4+3x3−6x2)(x3+6)2

y′ = −x4−2x3+6x2+12x+6(x3+6)2

También se puede emplear la regla del cociente para ampliar la regla depotencias al caso en que el exponente es un entero negativo.

Regla 2.7 Si f (x) = x−n, donde n es un entero positivo, f ′ (x) = −nx−n−1

Demostración. f ′ (x) = ddx(x−n) = d

dx

(1xn

)

f ′ (x) = xnD(1)−1D(xn)(xn)2

f ′ (x) = −nxn−1x2n

= −nxn−1−2n = nx−n−1

Ejemplo 2.8 Si y = 1x

Entonces, dydx= d

dx

(x−1

)= −x−2 = − 1

x2

Ejemplo 2.9 ddt

(6t3

)= 6 d

dt

(t−3)= 6 (−3) t−4 = −18

t4

31

Page 32: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 2.10 Derivar la función f (t) =√t (1− t) Aplicando la regla del pro-

ducto se tiene:

f ′ (t) =√t ddt(1− t) + (1− t) d

dt

√t

f ′ (t) =√t (−1) + (1− t) 12 t−

1

2

f ′ (t) = −√t+ 1−t

2√t= 1−3t

2√t

Si se utilizan primero las leyes de los exponentes, después se podrá procederdirectamente, sin recurrir a la regla del producto.

f (t) =√t− t

√t = t

1

2 − t 32

f ′ (t) = 12 t− 1

2 − 32 t

1

2 que equivale a la respuesta en la solución anterior

Ejemplo 2.11 En qué puntos de la hipérbola xy = 12 la tangente es paralela ala recta 3x+ y = 0?

Como xy = 12 se puede escribir en la forma y = 12x

dydx= 12 d

dy

(x−1

)= 12

(−x−2

)= 12

x2

Sea a la abscisa de uno de los puntos en cuestión. Entonces, la pendiente dela tangente en ese punto es −12

a2. Esa tangente será paralela a la recta 3x+y = 0

o y = −3x, si tiene la misma pendiente, que es −3. Al igualar las pendientes sellega a − 12

a2= −3 , o sea a2 = 4 , o sea a = ±2 Por consiguiente, los puntos

buscados son(2, 6) y (−2,−6).

Regla 2.8 (Regla de la Cadena) Sean f, g dos funciones. Si existen a la vezlas derivadas g′ y f ′ y si H = f ◦ g es la función compuesta definida porH (x) = f (g (x)) , entonces H′(x) existe y está dada por el producto H′ (x) =f ′ (g (x)) g′ (x)

En la notación de Leibnitz, si y = f (u) y u = g(x) son dos funcionesdiferenciables, entonces

dy

dx=dy

du

du

dx

Demostración. Se desarrollará mediante el examen de dos casos.dudx = 0

Aquí ∆u = 0 si ∆x es suficientemente pequeña (porque si no du/dx sería0)pero en este caso se puede dividir entre y multiplicar por ∆u en

32

Page 33: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

1. dydx= lım∆x−→0

∆y∆x

por tanto

dydx= lım∆x−→0

∆y∆u

∆u∆x

dydx= lım∆x−→0

∆y∆u• lım∆x−→0

∆u∆x

∆u −→ 0 cuando ∆x −→ 0porque g es contínua

dydx= lım∆u−→0

∆y∆u• lım∆x−→0

∆u∆x

dydx= dy

dududx

2. dudx= 0

Aquí ∆u = 0 para algunos casos de ∆x, y ∆u = 0 para otros valoresde ∆x. Si se tiene ∆x −→ 0 pasando por valores tales que ∆u = 0 ,podemos escribir

∆y∆x= ∆y

∆u• ∆u∆x

−→ dydu• du

dx= dy

du• 0 = 0

Si ∆x −→ 0 pasando por valores tales que ∆u = 0 , entonces\∆y = f (u+∆u)− f (u) = f (u)− f (u) = 0

y así ∆y∆x= 0

En ambos casos ∆y∆x−→ 0,

y entonces dydx= 0 = dy

dududx

En estas circunstancias se comprueba la regla de la cadena, porque amboslados son 0.

2.0.5. Derivación Parcial

Los casos expuestos anteriormente se aplican para funciones de una solavariable. Cuando se trabaja con funciones de varias variables f(x, y, z, ...) elproceso es similar, teniendo en cuenta que se puede derivar de manera separadala función f con respecto a cada una de sus variables independientes. Parasimplificar la presentación, se considerará en las líneas siguientes el caso de unafunción de dos variables, pero cada caso se puede llevar por analogía a funcionesde tres o más variables.

33

Page 34: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 2.3 Sea z = f(x, y) una función de dos variables independientesx, y. Entonces, las derivadas parciales de z son las funciones fx y fy que sedefinen como:

fx(x, y) = lımh→0

f(x+ h, y)− f(x, y)h

fy(x, y) = lımh→0

f(x, y + h)− f(x, y)h

Donde fx se denomina la primera derivada parcial de f(x, y) con respecto ax, y fy se denomina la primera derivada parcial de f(x, y) con respecto a y.

Por tanto, fx permite calcular la variación de f a medida que cambia x, contodas las demás variables fijas, y equivalentemente para fy.

Notación 2.2 Sea z = f(x, y). Entonces, las derivadas parciales de esta fun-ción con respecto a x y con respecto a y son:

fx(x, y) = fx =∂f

∂x=∂

∂xf(x, y) =

∂z

∂x= f1 = D1f = Dxf

fy(x, y) = fy =∂f

∂y=∂

∂yf(x, y) =

∂z

∂y= f2 = D2f = Dyf

34

Page 35: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

3. Derivación Matricial

El cálculo matricial es en gran manera una ampliación de la notación tradi-cional del cálculo univariado, que permite una notación más compacta a la horade realizar cálculo multivariado, en el cual las funciones pueden ser de un tipomás amplio, ya que la variable puede ser vectorial o matricial. En general, elcálculo matricial trabaja sobre espacios de matrices M(m,n) de tamaño m× ndefinidas sobre k = R.

Antes de abordar el proceso de la derivación matricial dada la complejidadtécnica del problema, es preciso incorporar algunas nuevas operaciones entrematrices que completan el cálculo matricial tradicional. Por ello, se definen lasmatrices de permutación y los conceptos de producto Kronecker y vectorizaciónjunto con sus propiedades.

Primero se exponen nuevos tipos de matrices que son de especial interés paradesarrollos del cálculo matricial.

Nota 3.1 Es importante resaltar en todo caso, que en este escrito se identifi-carán explícitamente los espacios de matrices Mpn con Rpn y Mmq con Rmq,respectivamente.

3.1. Funciones Matriciales

Dentro de esta sección se presentarán los diversos casos de funciones deacuerdo con su variable, hasta llegar al caso general de las funciones de variablematricial.

Para ello, sea Mmn el espacio vectorial de las matrices de tamaño m×n, enel cual se definen las matrices X,Y. Dentro del espacio vectorial M1n se definenlos vectores fila A,B. Además se definen los escalares x, y ∈ k. Se define ademásuna función f.

3.1.1. Funciones de Variable Escalar

Sea Mmn el espacio vectorial de las matrices de tamaño m × n, y X,Ymatrices deMmn. SeaM1n el espacio vectorial de los vectores fila de tamaño n,y sean A,B vectores de M1n. Sean x, y ∈ k escalares reales. Entonces se puedendar los siguientes casos:

Caso 3.1 f : R→ R

f(x) = y

Este es el caso usual, cuya derivación y propiedades de la derivación se haexpuesto en la sección 2.

Ejemplo 3.1 f(x) = x+ 1

35

Page 36: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Caso 3.2 f : R→M1n

f(x) = A

Es el caso de una función de variable escalar, cuya salida es un vector.

Ejemplo 3.2 f(x) = (2x, x2)

Caso 3.3 f : R→Mmn

f(x) = Y

Ejemplo 3.3 f(x) =

[1 x

x+ 1 x2

]

3.1.2. Funciones de Variable Vectorial

Sea Mmn el espacio vectorial de las matrices de tamaño m × n, y X,Ymatrices deMmn. SeaM1n el espacio vectorial de los vectores fila de tamaño n,y sean A,B vectores de M1n. Sean x, y ∈ k escalares reales. Entonces se puedendar los siguientes casos:

Caso 3.4 f :M1n → R

f(A) = y

Caso 3.5 f :M1n →M1n

f(A) = B

Es el caso de una función de variable vectorial, cuya salida es un vector.

Caso 3.6 f :M1n →Mmn

f(A) = Y

36

Page 37: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

3.1.3. Funciones de Variable Matricial

Sea Mmn el espacio vectorial de las matrices de tamaño m × n, y X,Ymatrices deMmn. SeaM1n el espacio vectorial de los vectores fila de tamaño n,y sean A,B vectores de M1n. Sean x, y ∈ k escalares reales. Entonces se puedendar los siguientes casos:

Caso 3.7 f :Mmn → R

f(X) = y

Caso 3.8 f :Mmn →M1n

f(X) = B

Es el caso de una función de variable vectorial, cuya salida es un vector.

Caso 3.9 f :Mmn →Mmn

f(X) = Y

3.2. Otras Matrices Especiales

Se definen las siguientes matrices:

Definición 3.1 (Partición de una Matriz) Una matriz es particionada, sies subdividida en matrices más pequeñas llamadas submatrices o bloques me-diante lineas horizontales y verticales que demarcan filas y columnas completas:

a11 a12 · · · a1na21 · · · · · · a2n...

......

...am1 am2 · · · amn

Una matriz Am×n se puede particionar de 2m+n−2 − 1 maneras distintas,con al menos una línea de partición.

Definición 3.2 (Matriz de Bloques) Una matriz a la que se ha realizadouna partición se llama matriz de bloques o Matriz Particionada..

Ejemplo 3.4 Dada la matriz A3×4,, se le pueden realizar 25 − 1 = 31 parti-ciones diferentes. Una de ellas puede ser:

A3×4 =

a11 a12 a13 a14a21 a22 a23 a24a31 a32 a33 a34

=

[B CD E

]

37

Page 38: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Donde a las submatrices o bloques se les ha denominado B,C,D,E y corres-ponden a:

B =

[a11 a12 a13a21 a22 a23

], C =

[a14a24

],D =

[a31 a32 a33

], E =

[a34

]

Definición 3.3 (Matriz de Permutación) Una matriz de permutación P esuna matriz cuadrada de órden n, donde todos los elementos son 0, a excepciónde uno cualquiera por cada fila y columna que tiene el valor 1

Existen n! matrices de permutación de tamaño n× n. Las matrices de con-mutación de orden n forman un grupo [Her86], cuyo elemento neutro es lamatriz identidad de orden n, mientras que el elemento inverso es la transpuestade la matriz dada.

Ejemplo 3.5 Para n = 3 se tienen las siguientes matrices de permutación:

1 0 00 1 00 0 1

1 0 00 0 10 1 0

0 1 01 0 00 0 1

0 1 00 0 11 0 0

0 0 11 0 00 1 0

0 0 10 1 01 0 0

Se les llama matrices de permutación por cuanto al multiplicar por P otramatriz conforme A, da como resultado una matriz con los mismos elementosde la matriz original A, pero con sus posiciones permutadas de acuerdo con laubicación de los elementos con valor 1 de P.

Definición 3.4 (Matrices de Permutación Par e Impar) A una matriz depermutación P que tiene determinante igual a 1 se le denomina matriz de per-mutación par, y a la que tiene determinante igual a −1 se le denomina matriz deconmutación impar. La mitad de las matrices de permutación de tamaño n× nson matrices de permutación pares, y la otra mitad son impares.

Definición 3.5 (Matrices de Permutación en Bloques) Una matriz de per-mutación por bloques de orden mn, que se denota por Pm,n, es una matrizcuadrada de orden mn, dividida en n × m bloques o cajas cada una de ellasde orden m × n, de manera que el bloque (i, j) , i = 1, ..., n, j = 1, ...,m tienetodos sus elementos nulos salvo el que está situado en su j-ésima fila e i-ésimacolumna que es igual a la unidad

Esta definición muestra que tanto el primer elemento como el último ele-mento de una matriz de permutación por bloques es 1.

38

Page 39: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Proposición 3.1 (Propiedades Matrices de Permutación por Bloques)Las matrices de permutación en bloques cumplen las siguientes propiedades:

1. Pm,1 = P1,m = Im

2. P ′m,n = Pn,m

3. Pm,nPn,m = Inm

4. La matriz Pm,n es ortogonal

Demostración. Se va a demostrar la propiedad 4; la demostración de lasdemás propiedades se hacen de manera análoga. Las demostraciones se puedenconsultar en [Bar98].P ′m,n = Pn,m entonces de (3)., resultaPm,nPn,m = Pn,mP ′m,n = In,mde donde se deduce que Pm,n es ortogonal ya que P−1m,n = P

′m,n

3.3. Producto de Kronecker

En ocasiones el producto de matrices que se asocia a la composición deaplicaciones lineales es insuficiente. El producto de Kronecker que a continuaciónse define, en cierto sentido lo generaliza.

Definición 3.6 (Producto de Kronecker) Sea A una matriz m×n y B unauna matriz p × q. El producto de Kronecker de la matriz A por la matriz B,denotado como A⊗B, es la matriz bloque C de tamaño mp×nq definida como:

C = A⊗B =

a11B · · · a1nB

.... . .

...am1B · · · amnB

y desarrollando las operaciones implícitas en cada bloque aijB, se tiene paraC = A⊗B que

C =

a11b11 a11b12 · · · a11b1q · · · · · · a1nb11 a1nb12 · · · a1nb1qa11b21 a11b21 · · · a11b2q · · · · · · a1nb21 a1nb22 · · · a1nb2q

......

. . ....

......

. . ....

a11bp1 a11bp2 · · · a11bpq · · · · · · a1nbp1 a1nbp2 · · · a1nbpq...

......

. . ....

......

......

.... . .

......

...am1b11 am1b12 · · · am1b1q · · · · · · amnb11 amnb12 · · · amnb1qam1b21 am1b22 · · · am1b2q · · · · · · amnb22 am1b21 · · · amnb2q

......

. . ....

......

. . ....

am1bp1 am1bp2 · · · am1bpq · · · · · · amnbp1 amnbp2 · · · amnbpq

El producto de Kronecker también recibe el nombre de Producto Tensorialo Producto Directo.

39

Page 40: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Se llama producto de Kronecker, denotado con ⊗, a una operación sobredos matrices de tamaño arbitrario que da como resultado una matriz bloque. Elproducto de Kronecker no debe confundirse con el producto de matrices habi-tual, que es una operación totalmente diferente. Debe su nombre al matemáticoalemán Leopold Kronecker.

Ejemplo 3.6

a11 a12a21 a22a31 a32

[b11 b12 b13b21 b22 b23

]=

a11b11 a11b12 a11b13 a12b11 a12b12 a12b13a11b21 a11b22 a11b23 a12b21 a12b22 a12b23a21b11 a21b12 a21b13 a22b11 a22b12 a22b13a21b21 a21b22 a21b23 a22b21 a22b22 a22b23a31b11 a31b12 a31b13 a32b11 a32b12 a32b13a31b21 a31b22 a31b23 a32b21 a32b22 a32b23

Ejemplo 3.7[1 23 4

]⊗[5 67 8

]=

1,5 1,6 2,5 2,61,7 1,8 2,7 2,83,5 3,6 4,5 4,63,7 3,8 4,7 4,8

=

5 6 10 127 8 14 1615 18 20 2421 24 28 32

Ejemplo 3.8[5 67 8

]⊗[1 23 4

]=

5,1 5,2 6,1 6,25,3 5,4 6,3 6,47,1 7,2 8,1 8,27,3 7,4 8,3 8,4

=

5 10 6 1215 20 18 247 14 8 1621 28 24 32

Con el ejemplo 3.8 se muestra que el producto de Kronecker no es conmuta-tivo. En general, A⊗B y B⊗A son matrices diferentes. Sin embargo disfruta deotras propiedades, algunas de las cuales se recogen en la siguiente proposición.

Proposición 3.2 (Propiedades del Producto Kronecker) Sean, A1, A2 ∈Mm×n y B1,B2 ∈Mp×q. Para el producto Kronecker se verifican las siguientespropiedades:

40

Page 41: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

1. (A1 ⊗B1) + (A2 ⊗B1) = (A1 +A2)⊗B1

(A1 ⊗B1) + (A1 ⊗B2) = A1 ⊗ (B1 +B2) .

2. Dadas Am×n, Bp×q y α ∈ R, se verifica (αA⊗B) = (A⊗ αB) = α (A⊗B) .

3. Dadas las matrices Am×n, Bp×q, Cr×s, se verifica que [(A⊗B)⊗C] =[A⊗ (B ⊗C)] .

4. Dadas A1 ∈Mm×n, A2 ∈Mm×p, B1 ∈Mq×r, B2 ∈Mr×s, si se consideranlas matrices

C1 = A1⊗B1 y C2 = A2⊗B2 de ordenesmq×nr y nr×ps respectivamente,entonces

C1C2 = (A1 ⊗B1) (A2 ⊗B2) = A1A2 ⊗B1B2.

5. Dadas A y B matrices de ordenes m × n y p × q, respectivamente, engeneral A⊗B = B ⊗A.

Esto quiere decir, el producto de Kronecker no es conmutativo, si bien severifica que Pm,p (A⊗B)Pq,n = (B ⊗A)

6. Si A ∈ Mn y B ∈ Mm son dos matrices invertibles, entonces se verificaque A⊗B es invertible y su inversa

(A⊗B)−1 = A−1 ⊗B−1.

7. Supuestas A y B dos matrices cualesquiera, se verifica que (A⊗B) ′ =A′ ⊗B′.

8. Dadas A y B dos matrices cuadradas de órdenes m y n, respectivamente,se verifica que tr (A⊗B) = tr (A) · tr (B) .

9. Sean, A ∈ Mn×n y B ∈ Mm×m entonces se verifica que |A⊗B| =|Am| |Bn| .

10. Dadas A y B matrices cualesquiera, se tiene que rg (A⊗B) = rg (A) ·rg (B) .

41

Page 42: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

11. Si A es una matriz m × n particionada en cuatro bloques Aij , i, j = 1, 2de dimensiones mi × nj , i, j = 1, 2 con m1 +m2 = m y n1 + n2 = n y Bes una matriz de orden p× q, entonces

A⊗B =(A11 ⊗B A12 ⊗BA21 ⊗B A22 ⊗B

)

Se presenta ahora la demostración de algunas de las anteriores proposiciones.Demostración. Si para k = 1, 2 se tiene Ak =

(akij), i = 1, ...,m,

j = 1, ..., n, Bk =(bkij), i = 1, ..., p, j = 1, ..., q entonces como

A1 ⊗B1 =(a1ijB1

)ij,

A2 ⊗B1 =(a2ijB1

)ij

resulta que

(A1 ⊗B1) + (A2 ⊗B1) =((a1ij + a

2ij

)B1)ij= (A1 +A2)⊗B1

Análogamente se comprueba la otra igualdad.

Demostración. Dado que

A⊗B =

a11B · · · a11Ba11B · · · a11B...

...a11B · · · a11B

,

por definición de matriz traspuesta y producto de Kronecker resulta que

(A⊗B) ′ =

a11B′ a21B′ · · · am1B′...

......

a1nB′ a2nB′ · · · amnB′

,

tal como se quería probar.

Nota 3.2 Si se comparan las propiedades del producto ordinario de matrices ydel producto Kronecker se tiene:

Producto Matricial Producto Kronecker(AB) ′ = B′A′ (A⊗B) ′ = A′ ⊗B′(AB)

−1= B−1A−1 (A⊗B)−1 = A−1 ⊗B−1

tr (AB) = tr (A) tr (B) tr (A⊗B) = tr (A) tr (B)|AB| = |A| |B| |A⊗B| = |Am| |Bn|rg (AB) ≤ mın {rg (A) , rg (A)} rg (A⊗B) = rg (A) · rg (B)

42

Page 43: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 3.9 Las matrices:

A =

[1 −12 1

]B =

−1 1 11 0 −10 2 4

son tales que tr (A) = 2, tr (B) = 3; rg (A) = 2, rg (B) = 3; |A| = 3, |B| = −4

Entonces para la matriz:

A⊗B =

−1 1 1 1 −1 −11 0 −1 −1 0 10 2 4 0 −2 −4−2 2 2 −1 1 12 0 −2 1 0 −10 4 8 0 2 4

Sin necesidad de trabajar con ella directamente, en virtud de las propiedadesdel producto de Kronecker se pueden calcular los siguientes valores:

tr (A⊗B) = tr (A) tr (B) = 6

rg (A⊗B) = rg (A) · rgB = 6

|A⊗B| = |A|3 |B|2 = 32 (−4)2 = 432

Además como rg (A⊗B) = 6, la matriz A ⊗ B es invertible, siendo suinversa, de acuerdo con la propiedad 6:

(A⊗B)−1 = A−1 ⊗B−1

por tanto, como:

A−1 =

[13

13

−23

13

]y B−1 =

−12

12

14

1 1 0−12 −1

214

se tiene que:

(A⊗B)−1 =

−16

16

112 −1

616

112

13

13 0 1

313 0

−16 −1

6112 −1

6 −16

112

13 −1

3 −16 −1

616

112

−23 −2

3 0 13

13 0

13

13 −1

6 −16 −1

6112

43

Page 44: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Un ámbito en el que puede resultar útil expresar una matriz como un vectorcolumna es el de la derivación de matrices o expresiones matriciales. Por ello, acontinuación se define lo que se entiende por vectorización de una matriz y seanalizan algunas de sus propiedades.

Definición 3.7 (Vectorización de una Matriz) La vectorización de una ma-triz es una transformación lineal que convierte una matriz en un vector columna.Dada una matriz A de orden m×n, la vectorización de A es el vector columna demn elementos que se obtiene escribiendo las columnas de A una a continuaciónde otra y se denota por vec (A) . Entonces:

vec (A) =

a•1a•2...a•n

, con a•1 =

a1ja2j...anj

, j = 1, ..., n.

Ejemplo 3.10 Dada la matriz

A =

1 −2 −1−5 1 03 0 2

se tiene que vec (A) =

1−53−210−102

Proposición 3.3 (Propiedades de la Vectorización) La vectorizaciónde matrices verifica las siguientes propiedades:

1. Sean A,B ∈Mm×n dos matrices cualesquiera, y sea α ∈ R. Se verifica lassiguientes propiedades: vec (A+B) = vec (A) + vec (B)

vec (αA) = αvec (A)

2. Dadas las matrices Am×n y Bn×q se verifica que:

vec (AB) = (B′ ⊗ Im) vec (A) = (Ip ⊗A) vec (B) = (B′ ⊗A) vec (In)

3. Dada la matriz A de orden m× n, se verifica que:

vec (A) = (In ⊗A) vec (In) = (A′ ⊗ Im) vec (Im)

44

Page 45: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

4. Dadas las matrices Am×n, Bn×p y Cp×q, se verifica que:

vec (ABC) = (C′ ⊗A) vec (B) = (Iq ⊗AB) vec (C) = (C′B′ ⊗ Im) vec (A)

5. Dada la matriz A de orden m× n, se verifica:

vec (A) = Pm,nvec (A′) , vec (A′) = Pn,mvec (A)

6. Dada la matriz A de orden m× n, se verifica:

[(vecIn) ′ ⊗ Im] [In ⊗ vec (A)] = A

[vec (A) ′ ⊗ Im] [In ⊗ vec (Im)] = A

[Im ⊗ (vec (A′)) ′] [vec (Im)⊗ In] = A. [Im ⊗ (vec (In)) ′] [vec (A′)⊗ In] =A

7. Dadas las matrices A y B de orden m×n y C,D de orden m×p, se tieneque:

vec [(A+B) (C +D)] = [(Ip ⊗A) + (Ip ⊗B)] [vec (C) + vec (D)]

vec [(A+B) (C +D)] = [(C′ ⊗ Im) + (D′ ⊗ Im)] [vec (A) + vec (B)]

8. Sean las matrices Am×n y Bn×m, entonces se tiene que

tr (AB) = (vec (A′)) ′vec (B) = (vec (B)) ′vec (A)

En particular si n =m y B = In :

tr (A) = (vec (A′)) ′vec (In) = (vec (In)) ′vec (A)

Demostración. La j-ésima columna del producto AB es Ab•j , entonces pordefinición de vectorización y el producto de matrices particionadas de tiene

vecAB =

Ab•1Ab•2...

Ab•p

=

A 0mXn · · · 00 A · · · 0...

......

...0 0 · · · A

b•1b•2...b•p

Ahora bien, teniendo en cuenta el producto Kronecker de matrices, esto sepuede expresar como

45

Page 46: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

vec (AB) = (Ip ⊗A) · vec (B)

Por otra parte, la j-ésima columna de AB esn∑

i=1a•ibij

pues la componenete k-ésima de este vector coincide con el elemento de lak-ésima fila y la j-ésima columna de AB que es

∑ni=1 akibij

Por tanto:

vec (AB) =

n∑i=1a•ibi1

n∑i=1a•ibi2

...n∑i=1a•ibip

=

B′ 0pXn · · · 0

0 B′ · · · 0...

......

0 0 · · · B′

a•1a•2...a•n

y por definición de producto de Kronecker y vectorización, resulta:

vec (AB) = (B′ ⊗ I) vec (A)

Demostración. Como A = ImA por la proposición 3.3,2:

vec (A) = vec (ImA) = (A′ ⊗ Im) vec (Im)

Análogamente, como A = AIn, de nuevo por la proposición 3.3,2:

vec (A) = vec (AIn) = (In ⊗A) vec (In)

Demostración. De acuerdo con la proposición 3.3,2 se verifica que:

vec (ABC) = vec [(AB)C] = (Iq ⊗AB) vec (C)

vec (ABC) = vec [(AB)C] = ((BC) ′ ⊗ Im) vec (A)

vec (ABC) = vec [(AB)C] = (C′B′ ⊗ Im) vec (A)

Además, como en virtud de la proposición 3.3, 1, se tiene también que

vec (ABC) = vec [(AB)C] = (C′ ⊗AB) vec (Ip)

entonces por la proposición 3.3, 4 del producto de Kronecker,

(C′ ⊗AB) = (C′ ⊗A) (Ip ⊗B)

46

Page 47: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

y, teniendo en cuenta la proposición 3.3, 3, se obtiene finalmente

vec (ABC) = (C′ ⊗A) (Ip ⊗B) vec (Ip) = (C′ ⊗A) vec (B)

Las proposiciónes 3.3, 2 y 8 pueden generalizarse para el producto de unnúmero finito de matrices. Así, para matrices A1, A2, A3 y A4 de dimensionesadecuadas, se tiene que:

vec (A1A2A3A4) = (I ⊗A1A2A3) vec (A4)vec (A1A2A3A4) = (A′4 ⊗A1A2) vec (A3)vec (A1A2A3A4) = (A4A3 ⊗A1) vec (A2)vec (A1A2A3A4) = (A4A3A2 ⊗ I) vec (A1)

y

tr (A1A2A3) = (vec (A′1)) ′ (A′3 ⊗ I) vec (A2)tr (A1A2A3) = (vec (A′1)) ′ (I ⊗A2) vec (A3)tr (A1A2A3) = (vec (A′2)) ′ (I ⊗A3) vec (A1)tr (A1A2A3) = (vec (A′2)) ′ (A′1 ⊗ I) vec (A3)tr (A1A2A3) = (vec (A′3)) ′ (A′2 ⊗ I) vec (A1)tr (A1A2A3) = (vec (A′3)) ′ (I ⊗A1) vec (A2)

que se pueden demostrar fácilmente, pues son consecuencia de la vectoriza-ción y traza del producto de dos matrices y de las propiedades del producto deKronecker. Resultados análogos existen para el producto de un número finitode matrices.

En algunas ocasiones, cuando se vectoriza una matriz, conviene hacerlo apartir de sus filas.

Definición 3.8 (Vectorización por Filas) Dada A una matriz de orden m×n, se define:

vec (A) =

a′1•a′2•

...a′m•

con ai• (ai1, ..., ain) , i = 1, ...,m

Es obvio y fácil de verificar que vec (A) = vec (A′) . Por tanto, pueden enun-ciarse las propiedades de vec (A) . Por ejemplo:

vec (AB) = vec ((AB) ′) = vec (B′A′) = [(A⊗ I) vec (B′)]

vec (AB) = (A⊗ I) vec (B)

y

47

Page 48: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

tr (AB) = (vec (A′)) ′vec (B) = (vec (A)) ′vec (B′)

tr (AB) = (vec (A′)) ′ vec (B)

Definición 3.9 (vec) Dada una matriz simétrica A de orden n, puede definirseuna vectorización diferente de las ya indicadas de manera que en dicha vecto-rización, solo se recojan los elementos distintos de la matriz A. Así, se denota

por vec (A) el vector columna de orden r =n (n+ 1)

2dado por:

vec (A) =

a11a12a22a13a23a33...a1na2n...ann

En vec (A) se incluyen los elementos situados por encima de la diagonalprincipal de cada una de las columnas de A. Por otra parte, la relación entreesta vectorización y la indicada en la definción 3.7 se establece por la igualdadvec (A) = Qvec (A) , (donde Q es la matriz diagonal por bloques de orden r×n):

Q =

Q1Q2

. . .Qn

donde i = 1, ..., n, y el bloque Qi una matriz de orden i× n dada por

Qi =

1 0 · · · 0 · · · 00 1 · · · 0 · · · 0...

.........

......

0 0 · · · 1 · · · 0

i-ésima columna

48

Page 49: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Nota 3.3 La vectorización se utiliza en conjunto con el producto Kroneckerpara expresar la multiplicación de matrices como una transformación lineal sobrelas matrices. Por ejemplo, si A,B,X son matrices conformes:vec(AXB) = (BT ⊗A)vec(X)

3.4. Fórmulas de Derivación Matricial.

La derivada de una función matricial de variable matricial no difiere sus-tancialmente del concepto de derivada habitual. La diferencia y dificultad sepresenta cuando es preciso manipular estas derivadas matriciales, debido a sudimensión y la ubicación de sus elementos [Bar98].

En esta sección se indican las definiciones de funciones escalares, vectorialesy matriciales de variable escalar, vectorial o matricial, adoptando un criteriocomún para la colocación de los distintos elementos que componen cada unade estas derivadas. En las definiciones de las derivadas de funciones escalar ovectorial, bien sean de variable escalar o vectorial, existe casi unanimidad en laliteratura en cuanto a su ordenación.

Se acostumbra usar la variable en negrilla cuando se trata de una variable detipo vectorial o matricial; sin embargo, en las siguientes secciones no se utilizaráesta notación ya que el contexto hará claridad. Así, si x ∈ Rn e y ∈ Rm, entoncesse puede observar que una notación bastante usual se expone así:

Si y = y (x1, ..., xn) su derivada es∂y

∂x=

(∂y

∂x1...∂y

∂xn

), que es el caso de

las funciones escalares de variable vectorial.

Si y = y (x) =

y1 (x)...

yn (x)

su derivada es

∂y

∂x=

∂y1(x)∂x...

∂ym(x)∂x

, . que es el caso

de las funciones vectoriales de variable escalar.

Si y = y (x) =

y1 (x1, ..., xn)

...yn (x1, ..., xn)

su derivada es

∂y

∂x=

∂y1∂x1

· · · ∂y1∂xn

......

∂ym∂x1

· · · ∂ym∂xn

,

que es el caso de las funciones matriciales de variable vectorial

Cuando se ha de calcular el gradiente de y = f (x) , se respeta la ordenacióndel vector fila x = (x1, ..., xn) de las variables explicativas; luego parece lógicoque este mismo criterio de ubicación de elementos se adopte para definir laderivada de una función escalar de variable matricial.[Bar98]. Siguiendo esteacuerdo se exponen las siguientes definiciones.

49

Page 50: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Definición 3.10 Sea y = y (x) una función real de variable vectorial, es decir,y es una función definida de Rn en R. La derivada de y respecto de x es el

vector fila∂y (x)

∂x=

(∂y (x)

∂x1, ...,

∂y (x)

∂xn

)

Se adopta esta notación ya que se está derivando un escalar y (x) con respecto

a un vector fila x = (x1, ..., xn). Obsérvese que∂y (x)

∂xes el vector gradiente de

la función y (x) .Si se precisa que el vector de variables x respecto a las que se efectúa la

derivada de y se toma como columna, entonces se denotará por

∂y (x)

∂x=

(∂y (x)

∂x

)′

es decir, este vector coincide con el traspuesto del vector gradiente de y.

Definición 3.11 Sea y = y (x) una función vectorial de variable real, es decir

y (x) =

y1 (x)

...yn (x)

es una función definida de R en Rm. La derivada de y respecto del escalarx es el vector columna

∂y (x)

∂x=

∂y1(x)∂x...

∂ym(x)∂x

Definición 3.12 Sea y = y (x) una función vectorial de variable vectorial, esdecir, una función definida de Rn en Rm. Como

y (x) =

y1 (x)

...ym (x)

entonces:

∂y(x)∂x

=

∂y1(x)∂x...

∂ym(x)∂x

=

∂y1(x)∂x1

· · · ∂y1(x)∂xn

......

∂ym(x)∂x1

· · · ∂ym(x)∂xn|

50

Page 51: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Obsérvese que esta matriz de orden m×n es el Jacobiano de la función y(x),ya que cada una de sus filas es el gradiente de las funciones y1 (x) , ..., yn (x) ,que son las componentes de y(x).

Definición 3.13 Sea y = y (X) una función real de variable matricial, es decir,la función y está definida de Mpn en R. La derivada de y respecto de la matrizX de orden p× n, es la matriz del mismo orden dada por

∂y (X)

∂X=

∂y(X)∂x11

· · · ∂y(X)∂x1n

......

∂y(X)∂xp1

· · · ∂y(X)∂xpn

=

(∂y (X)

∂xij

)

i=1,...,pj=1,...,n

Definición 3.14 Sea Y = Y (x) una función matricial de variable escalar, esdecir la función Y está definida de R enMmq. La derivada de Y = Y (x) respectode la variable x está dada por la matriz de orden m× q

∂Y (x)

∂x=

∂y11(x)∂x

· · · ∂y1q(x)∂x

... · · ·∂ym1(x)

∂x· · · ∂ymq(x)

∂x

=

(∂yij (x)

∂x

)

i=1,...,mj=1,...,q

Definición 3.15 Sea y = y(X) una función vectorial de variable matricialdefinida de Mpn en R. La derivada de y(X) respecto de la matriz A de ordenp× n es la matriz de orden pm× n dada por

∂y (X)

∂X=

∂y1(X)∂X...

∂ym(X)∂X

,

ya que, de acuerdo con la definición 3.13, para cada k = 1, ...,m

∂yk (X)

∂X=

(∂yk (X)

∂xij

)

i=1,...,pj=1,...,n

Definición 3.16 Sea Y = Y (x) una función matricial de variable vectorialdefinida de Rn en Mmq. La derivada de Y (x) respecto del vector x es la matrizde orden m× qn cuya expresión es

∂Y (x)

∂x=

∂y11(x)∂x

· · · ∂y1q(x)∂x

......

∂ym1(x)∂x

· · · ∂ymq(x)∂x

51

Page 52: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

donde, teniendo en cuenta la definición 3.10,

∂yij (x)

∂x=

(∂yij (x)

∂x1, ...,

∂yij (x)

∂xn

)

con i = 1, ...,m, j = 1, ..., q

Definición 3.17 (Derivada Funcion Matricial de Variable Matricial)Sea Y = Y (X) una función matricial de variable matricial, es decir, definida

de Mpn en Mmq. La derivada de Y (X) respecto de la matriz X está dada porla matriz de orden pm× nq

∂Y (X)

∂X=

∂y11(X)∂X

· · · ∂y1q(X)∂X

......

∂ym1(X)∂X

· · · ∂ymq(X)∂X

ya que, teniendo en cuenta la definición 3.14, para cada i − 1, ...,m, j =1, ..., q

∂yij (X)

∂X=

(∂yij (X)

∂xk�

)

k=1,...,p�=1,...,n

La definición 3.17 hace referencia al caso general que se puede tratar en elcaso de la derivación matricial. Este caso se convierte en los casos particulares delas definiciones 3.10 hasta la definición 3.16 si se dan las siguientes condiciones:

1. p = q =m = q se obtiene la definición 3.10

2. p = n = q = 1 se obtiene la definición 3.11

3. p = q = 1 se obtiene la definición 3.12

4. q = m = 1 se obtiene la definición 3.13

5. p = n = 1 se obtiene la definición 3.14

6. q = 1 se obtiene la definición 3.15

7. p = 1 se obtiene la definición 3.16

Existen múltiples formas de dar la expresión de derivadas matriciales, yaque pueden considerarse distintas ordenaciones de los elementos de la matrizfinal que se obtiene al derivar una matriz respecto de otra. Algunas derivadasmatriciales se pueden definir a través de la vectorización de la matriz de variablesdependientes e incluso de la de variables independientes.

52

Page 53: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

1. En el presente trabajo, empleando el concepto de vectorización de una ma-triz, pueden obtenerse las siguientes expresiones alternativas de las defini-ciones 3.13, 3.14, 3.15, 3.16 y 3.17 en términos de vectorización:

• ∂y (X)

∂vec(X)=

∂y(X)∂x11...

∂y(X)∂xp1...

∂y(X)∂x1n...

∂y(X)∂xpn

= vec

(∂y (X)

∂(X)

)

• ∂vecY (x)∂x

=

∂y11(x)∂x11...

∂y1m(x)∂x...

∂y1q(x)∂x...

∂ymq(x)∂x

= vec

(∂Y (x)

∂x

)

• ∂y (X)

∂vec(X)=

∂y1(X)∂vec(X)...

∂ym(X)∂vec(X)

,

siendo∂yi (X)

∂vec(X)para i = 1, ...,m lo indicado en la primera expresión alter-

nativa.

El vector columna∂y (X)

∂vec(X)de orden mnp, teniendo en cuenta propiedades

del producto de Kronecker y de la vectorización, se puede expresar tambiéncomo

∂y (X)

∂vec(X)=

(∂y (X)

∂X′ ⊗ Ip)(vecIp) ,siendo

∂y (X)

∂X′ =

(∂y (X) ′∂X

)′.

53

Page 54: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Nótese que en este caso∂y (X)

∂vec(X) = vec

(∂y (X)

∂X

)

• ∂vecY (x)∂x

=

∂y11(x)∂x...

∂ym1(x)∂x...

∂y1q(x)∂x...

∂ymq(x)∂x

=

∂y11(x)∂x1

· · · ∂y11(x)∂xn

......

∂ym1(x)∂x1

· · · ∂ym1(x)∂xn

......

∂y1q(x)∂x1

· · · ∂y1q(x)∂xn

......

∂ymq(x)∂x1

· · · ∂ymq(x)∂xn

Se observa que∂vec (Y (x))

∂xes una matriz de orden mq × n, mientras que

∂Y (x)

∂xes de orden m× qn. Entre estas dos matrices puede establecerse la sigui-

ente relación:

∂vec (Y (x))

∂x=

(Iq ⊗

∂Y (x)

∂x

)(vec (Iq)⊗ In)

Mediante las definiciones anteriores y las expresiones en términos de la vec-torización y las propiedades del producto de Kronecker se obtienen las siguientes

formas alternativas para el cálculo de∂Y (X)

∂X:

• ∂vec (Y (X))∂X

=

∂y11(X)∂X...

∂ym1(X)∂X...

∂y1q(X)∂X...

∂ymq(X)∂X

=

(Iq ⊗

∂Y (X)

∂X

)(vec (Iq)⊗ In)

• ∂Y (X)∂vecX

=

∂y11(X)∂vec(X) · · · ∂y1q(X)

∂vec(X)...

...∂ym1(X)∂vec(X) · · · ∂ymq(X)

∂vec(X)

=

(∂Y (X)

∂X′ ⊗ Ip)(Iqvec (Ip))

54

Page 55: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

• ∂vec (Y (X))∂vec(X)

= vec

(∂Y (X)

∂vecX

)=

(Iq ⊗

∂Y (X)

∂X′ ⊗ Ip)(vec (Iq)⊗ vec (Ip))

Alternativamente, es posible otra formulación para la derivada de expresionesmatriciales. Para ello, es necesario considerar para cualquier m,n, p, q ∈ N ycualquier función:

Y (X) :Mpn −→Mmq

la definición

∂Y (X)

∂X≡ ∂ [Y (X))]

∂ (vecX) ′

Retomando lo expresado anteriormente, en este trabajo se identificarán ex-plícitamente los espacios de matrices Mpn y Mmq con Rpn y Rmq, respectiva-mente.Lo que se está considerando generalmente es Y (X) como función vectorialde variable vectorial definida de Rpn en Rmq, por lo que la expresión

∂vec [Y (X))]

∂ (vecX) ′

es el Jacobiano de dicha función vectorial. La elección de esta definiciónde derivada puede resultar útil para aplicar a funciones matriciales resultadosmatemáticos relativos a funciones vectoriales.

Ejemplo 3.11 Dada la función y = y (x) de R2 en R2 definida por

y (x) =

(y1 (x1, x2)y2 (x1, x2)

)=

(x21 + x

32

2x1x2

),

de acuerdo con la Definición 3.12 se tiene que

∂y (x)

∂x=

∂y1 (x)

∂x∂y2 (x)

∂x

=

∂y1(x)∂x1

∂y1(x)∂x2

∂y2(x)∂x1

∂y2(x)∂x2

=

(2x1 3x222x2 2x1

)

Por otra parte, teniendo en cuenta la Definición 3.16

∂x=

(∂y (x)

∂x

)=

(2 0 0 6x20 2 2 0

)

55

Page 56: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Observese que el resultado anterior difiere de

∂[vec

(∂y(x)∂x

)]

∂x=∂

∂x

2x12x23x222x1

=

2 00 20 6x22 0

Ejemplo 3.12 Dada la matriz A = (aij) , i = 1, ...,m, j = 1, ..., q, se verificaque la derivada de A respecto del primer vector fila que se denota por a1• es lamatriz de orden m× q2

∂A

∂a1•=

∂a11∂a1•

... ∂a1q∂a1•

......

...∂am1

∂a1•... ∂amq

∂a1•

=

1 0 · · · 0 0 1 · · · 0 · · · 0 0 · · · 10 0 · · · 0 0 0 · · · 0 · · · 0 0 · · · 0...

......

......

......

......

0 0 · · · 0 0 0 · · · 0 · · · 0 0 · · · 0

Haciendo uso de la expresión alternativa se obtiene

∂vec (A)

∂a1•=

(Iq ⊗

∂A

∂a1•

)(vec (Iq)⊗ Iq) =

1 0 0 · · · 00 0 0 · · · 0...

......

...0 0 0 · · · 00 1 0 · · · 00 0 0 · · · 0...

......

...0 0 0 · · · 0...

......

...0 0 0 · · · 10 0 0 · · · 0...

......

...0 0 0 · · · 0

La derivada de la matriz A respecto de sí misma viene dada por la matrizde orden m2 × q2

56

Page 57: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂A

∂A=

∂a11∂A

· · · ∂a1q∂A

......

∂am1

∂A· · · ∂amq

∂A

= (vecIm) (vecIq) ′

para cada i = 1, ...,m, j = 1, ..., q se tiene que

∂aij∂A

=

0 0 · · · 0 · · · 0...

......

...0 0 · · · 1 · · · 0...

......

...0 0 · · · 0 · · · 0

←− i− esima fila

↑y j-ésima columna.

La derivada de la matriz A′ respecto de A es una matriz cuadrada de ordenmq definida como

∂A′∂A

=

∂a11∂A

... ∂am1

∂A...

......

∂a1q∂A

...∂amq

∂A

= P,m, q,

para cada i = 1, ...,m, j = 1, ..., q

∂aij∂A

=

0 0 · · · 0 · · · 0...

......

...0 0 · · · 1 · · · 0...

......

...0 0 · · · 0 · · · 0

←− j-ésima fila

↑y la j-ésima columna

Ejemplo 3.13 Sea y = y(A) una función definida de M2×2 en R2 dada por

y = y(A) =

(y1(A)

y2(A)

)=

(a211 + 2a12 − a222

(a11 + a22)2 − 2a12a21

)

donde A =(a11 a12a21 a22

)

La derivada de la función y = y(A) respecto de la matriz A de variablesindependientes, de acuerdo con la definición 3.15 es

57

Page 58: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂y(A)

∂A=

(∂y1(A)∂A

∂y2(A)∂A

)=

∂y1(A)∂a11

∂y1(A)∂a12

∂y1(A)∂a21

∂y1(A)∂a22

∂y2(A)∂a11

∂y2(A)∂a12

∂y2(A)∂a21

∂y2(A)∂a22

=

2a11 2

0 −2a222a11 + 2a22 −2a21−2a12 2a11 + 2a22

,

y la derivada de y(A) respecto a la vectorización de A, teniendo en cuentala definición 3.17, tiene la expresión

∂y(A)

∂vec (A)=

∂y1(A)∂vec(A)

∂y2(A)∂vec(A)

=

∂y1(A)∂a11

∂y1(A)∂a21

∂y1(A)∂a12

∂y1(A)∂a22

∂y2(A)∂a11

∂y2(A)∂a21

∂y2(A)∂a12

∂y2(A)∂a22

=

2a11

0

2

−2a222a11 + 2a22

−2a12−2a21

2a11 + 2a22

=

2a11 0 0 00 2a11 0 02 0 −2a22 00 2 0 −2a22

2a11 + 2a22 0 −2a12 00 2a11 + 2a22 0 −2a12

−2a21 0 2a11 + 2a22 00 −2a21 0 2a11 + 2a22

1001

=

2a11 0

2 −2a222a11 + 2a22 −2a21−2a21 2a11 + 2a22

(1 00 1

)

1001

=[(

∂y(A)∂A′ ⊗ I2

)]vec (I2)

58

Page 59: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 3.14 Sea la función Y = Y (X) definida de M2×2 en M3×2 por

Y = Y (X) =

y11 (X) y12 (X)y21 (X) y22 (X)y31 (X) y32 (X)

=

x11 + x12 2x12x222 ex21

x11 + x12 x21x12

,

siendo

X =

y11(X)∂X

y12(X)∂X

y21(X)∂X

y22(X)∂X

y31(X)∂X

y32(X)∂X

=

1 1 0 20 0 0 00 0 0 00 2x22 ex21 0x22 0 0 x210 x11 x12 0

.

Ahora bien, de acuerdo con la expresión alternativa

∂vecY (X)

∂X=

(I2 ⊗

∂Y (X)

∂X

)(vec (I2)⊗ I2)

=

1 1 0 2 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 2x22 ex21 0 0 0 0 0x22 0 0 x21 0 0 0 00 x11 x12 0 0 0 0 00 0 0 0 1 1 0 20 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 2x22 ex21 00 0 0 0 x22 0 0 x210 0 0 0 0 x11 x12 0

1 00 10 00 00 00 01 00 1

=

1 10 00 00 2x22x22 00 x110 20 00 0ex21 00 x21x12 0

59

Page 60: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

3.5. Reglas de Derivación.

La derivada de un vector o de una matriz respecto de un escalar, vector omatriz, no difiere sustancialmente de la derivación habitual de funciones. Sinembargo esto no conlleva que sean válidas, en general las reglas usuales paraderivar, por ejemplo, las de suma, el producto o la composición de funciones.

Ahora bien, como se verá a continuación, si se hace uso del producto Kro-necker en lugar del producto matricial estandar, en algunos casos es posibleobtener reglas de derivación análogas a las habituales para funciones.

Proposición 3.4 Sea C una matriz de variables independientes de orden p×n, esto es, C ∈Mpn :

1. Derivada del Producto por Escalar. Sea A una matriz de orden m×q cuyoselementos dependen de los de la matriz C de orden p× n. Entonces, paracualquier λ ∈ R, se verifica que

∂ (λA)

∂C= λ · ∂A

∂C

2. Derivada de la Suma. Sean A y B dos matrices de orden m × q, cuyoselementos dependen de los de la matriz C de orden p× n. Se verifica que

∂ (A+B)

∂C=∂A

∂C+∂B

∂C.

3. Derivada de Producto. Sean A,B y C matrices de ordenes m× q, q × r,p×n, respectivamente, tales que los elementos de A y B son funciones delos elementos de la matriz C. Entonces se verifica que

a) Si p = n = 1 ó m = q = 1

∂AB

∂C=∂A

∂C·B +A · ∂B

∂C

b) Si p = 1, es decir, C es un vector fila de Rn, entonces

∂AB

∂C=∂A

∂C(B ⊗ In) +A ·

∂B

∂C

c) Si p = 1 y n = 1

∂AB

∂C=∂A

∂C(B ⊗ In) + (A⊗ Ip) ·

∂B

∂C

60

Page 61: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

4. Derivada del Producto de Kronecker. Sean A,B y C matrices de ordenesm× q, t× r, p× n,respectivamente, tales que los elementos de A y B sonfunción de los elementos de la matriz C.Entonces se verifica que

∂A⊗B∂C

=

(A⊗ ∂B

∂C

)+ (Im ⊗B ⊗ Ip)

∂ (A⊗ Ir)∂C

donde

∂ (A⊗ Ir)∂C

= (Pr,m ⊗ Ip) ′(Ir ⊗

∂A

∂C

)(Pq,r ⊗ In)

5. Regla de la Cadena. Sea y = y (A) uma función real de variable matri-cial, donde A es una matriz de orden t× r cuyos elementos a su vez sonfunciones de la matriz C de orden p× n. Se verifica

∂y (A)

∂C=

(∂y (A)

∂vec (A)⊗ Ip

)′(∂vec (A)

∂C

)

o también

∂y (A)

∂C= [(vec (It)) ′ ⊗ Ip]

(∂y (A)

∂A⊗ ∂A∂C

)(vec (Ir)⊗ In) .

Demostración. La derivada∂λA

∂Cde acuerdo con la definición 3.17 es una

matriz de orden mp× nq dada por

∂λA

∂C=

(∂λaij∂C

)

i=1,...,mj=1,...,q

y como para cada i = 1, ...m ; j = 1, ..., q, según la definición 3.10,

∂λaij∂C

=∂λaij∂ck�

= λ

(∂aij∂ck�

)

k=1,...,p�=1,...,n

se obtiene que∂λA

∂C= λ

(∂A

∂C

).

Demostración. La derivada∂ (A+B)

∂Csegún la definición 3.17, es la matriz

de orden mp× qn

61

Page 62: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂ (A+B)

∂C=

(∂ (aij + bij)

∂C

)

i=1,...,mj=1,...,q

Ahora bien, para cada i = 1, ...m ; j = 1, ..., q, a partir de la definición 3.13se obtiene

∂ (aij + bij)

∂C=∂aij∂C

+∂bij∂C

y sumando por bloques se puede concluir

∂ (A+B)

∂C=∂A

∂C+∂B

∂C

Demostración.

a) Si p = n = 1, entonces

∂AB

∂C=∂A

∂CB +A

∂B

∂C,

ya que para cada i = 1, ...m ; j = 1, ..., r la derivada del elemento dij de lamatriz D = AB es

∂dij (C)

∂C=

∂C

[q∑

k=1

aik (C) bkj (C)

]

∂dij (C)

∂C=

q∑

k=1

aik (C)

∂Cbkj (C) +

q∑

k=1

aik (C)bkj (C)

∂C

b) En el caso en que n = q = r = 1, según la definición 3.13 se tiene

∂AB

∂C=

∂AB∂c11

· · · ∂AB∂c1n

......

∂AB∂cp1

· · · ∂AB∂cpn

∂AB

∂C=

∂A∂c11

· · · ∂A∂c1n

......

∂A∂cp1

· · · ∂A∂cpn

B +A

∂B∂c11

· · · ∂B∂c1n

......

∂B∂cp1

· · · ∂B∂cpn

,

62

Page 63: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

dado que para cada i = 1, ...p ; j = 1, ..., n

∂ (AB)

∂cij=∂A

∂cijB +A

∂B

∂cij,

y por tanto,

∂ (AB)

∂C=∂A

∂CB +A

∂B

∂C

c) Ahora, si p = 1, n = 1 y D = AB = (dij) i = 1, ...m ; j = 1, ..., r, se tieneque

∂dij (C)

∂C=

q∑

k=1

aik (C)

∂Cbkj (C) +

q∑

k=1

aik (C)bkj (C)

∂C,

de donde

∂dij (C)

∂C=

(∂ai1∂C

...∂aiq∂C

)bij (C) In

bij (C) Inb2j (C) In

...bqj (C) In

+(ai1 (C) Ip...ain (C) Ip)

∂b1j(C)∂C...

∂bqj(C)∂C

y por la definición de producto Kronecker y la definición 3.12, resulta

∂dij (C)

∂C=∂ai•∂C

(b•j (C)⊗ In) + (ai• (C)⊗ Ip)∂b•j (C)

∂C,

y, por consiguiente,

∂D

∂C=∂ (AB)

∂C=∂A

∂C(B ⊗ In) + (A⊗ Ip)

∂B

∂C.

Si p = 1 como Ip = 1, la expresión anterior se transforma en

∂ (AB)

∂C=∂A

∂C(B ⊗ In) +A

∂B

∂C

Demostración. Atendiendo a la definición de producto Kronecker

63

Page 64: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂ (A⊗B)∂C

=∂aijB

∂C,i=1,...,mj=1,...,q

,

y por la definición 3.17, para cada i = 1, ...m ; j = 1, ..., q se tiene que

∂aijB

∂C=∂ (aijbk�)

∂c k=1,...,t�=1,...,r

.

Ahora bien, en virtud del apartado anterior,

∂aijbk�∂c

=∂aij∂C

bk� + aij∂bk�∂C

.

Así pues,

∂aijB

∂C=

∂aij∂Cb11 + aij

∂b11∂C

· · · ∂aij∂Cb1r + aij

∂b1r∂C

......

∂aij∂Cbt1 + aij

∂bt1∂C

· · · ∂aij∂Cbtr + aij

∂btr∂C

o lo que es equivalente

∂aijB

∂C=(B ⊗ ∂aij

∂C

)+ ∂aij

∂B

∂C.

Por tanto,

∂ (A⊗B)∂C

=

(B ⊗ ∂a11

∂C

)+ ∂a11

∂B

∂C· · ·

(B ⊗ ∂a1q

∂C

)+ ∂a1q

∂B

∂C...

...(B ⊗ ∂am1

∂C

)+ ∂am1

∂B

∂C· · ·

(B ⊗ ∂amq

∂C

)+ ∂amq

∂B

∂C

∂ (A⊗B)∂C

=

(A⊗ ∂B

∂C

)+

B ⊗ ∂a11∂C

· · · B ⊗ ∂a1q∂C

......

B ⊗ ∂am1∂C

· · · B ⊗ ∂amq

∂C

∂ (A⊗B)∂C

Solución 3.1 =(A⊗ ∂B

∂C

)+ (Im ⊗B ⊗ Iq)

∂ (A⊗ Ir)∂C

64

Page 65: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ahora bien, a partir de la propiedad 5 del producto de Kronecker, se tiene

A⊗ Ir = Pr,m (Ir ⊗A)Pq,r

y aplicando dos veces la regla de derivación del producto indicada en laproposición 3.4,3 se obtiene

∂ (A⊗ Ir)∂C

= (Pr,m ⊗ Ip)∂ (Ir ⊗A)∂C

(Pq,r ⊗ In) ,

lo que de acuerdo con la solución 3.1, tomando A = Ir y B = A conduce a

∂ (A⊗ Ir)∂C

= (Pr,m ⊗ Ip)(Ir ⊗

∂A

∂C

)(Pq,r ⊗ In) .

Demostración. Teniendo en cuenta la definición 3.13,

∂y (A)

∂C=∂y (A)

∂cij,i=1,...,pj=1,...,n

y por la regla de la cadena para el caso unidimensional

∂y (A)

∂cij=

t∑

k=1

r∑

t=1

∂y(A)∂akl

∂akl (C)

∂cij.

Por tanto,

∂y (A)

∂C=

∂y∂a11

· · · ∂y∂a1n

......

∂y∂ap1

· · · ∂y∂apn

=

t∑

k=1

r∑

t=1

∂y (A)

∂akl

∂akl(C)∂c11

· · · ∂akl(C)∂c1n

......

∂akl(C)∂cp1

· · · ∂akl(C)∂cpn

de donde

∂y (A)

∂C=

t∑

k=1

r∑

t=1

∂y (A)

∂akl· ∂akl (C)

∂C

ahora bien, como

(∂y (A)

∂vec (A)

)′ =

(∂y

∂a11, ...,

∂y

∂at1, ...,

∂y

∂a1r, ...,

∂y

∂atr

)

y

65

Page 66: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂vec (A)

∂C=

∂a11∂C...

∂at1∂C...

∂a1r∂C...

∂atr∂C

resulta∂y (A)

∂C=

[(∂y (A)

∂vec (A)

)′ ⊗ Ip

]· ∂vec (A)

∂C

Solución 3.2 =(∂y (A)

∂vec (A)⊗ Ip

)′ · ∂vec (A)

∂C

Para obtener la expresión alternativa de la regla de la cadena que se indicaen el enunciado, hasta tener en cuenta, que de acuerdo con la propiedad 3 de lavectorización

∂y (A)

∂vec (A)= vec

(∂y (A)

∂A

)=

[(∂y (A)

∂C

)′ ⊗ It

]vec (It) ,

lo que sustituido en la solución 3.2 permite obtener

∂y (A)

∂C=

(vec

(∂y (A)

∂A

)⊗ Ip

)′(∂vec (A)

∂C

)

∂y (A)

∂C=

({[(∂y (A)

∂A

)′ ⊗ It

]vec (It)

}⊗ Ip

)′ · ∂vec (A)

∂C

∂y (A)

∂C=({[(

∂y(A)∂A

)′ ⊗ It

]vec (It)

}′ ⊗ Ip

)· ∂vec (A)

∂C

∂y (A)

∂C=

([(vec (It)) ′

(∂y (A)

∂A⊗ It

)]⊗ Ip

)· ∂vec (A)

∂C,

y tomando B2 = Ip en la propiedad 4 del producto de Kronecker se tiene

∂y (A)

∂C= ((vec (It)) ′ ⊗ Ip)

(∂y (A)

∂A⊗ Itp

)· ∂vec (A)

∂C.

Finalmente de acuerdo con las formas alternativas, como

∂vec (A)

∂C=

(Ir ⊗

∂A

∂C

)(vec (Ir)⊗ In)

66

Page 67: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

sustituyendo en∂vec (A)

∂Cy haciendo uso de nuevo de la propiedad 4 del

producto de Kronecker se tiene

∂vec (A)

∂C= ((vec (It)) ′ ⊗ Ip)

(∂y (A)

∂A⊗ ∂A∂C

)(vec (Ir)⊗ In)

Ejemplo 3.15 Dadas las matrices

A =

(x2 y xy

x+ 1 y3 ex

), B =

((y + 1)2 2y x+ y

ex+y 0 1

)y

C =

(x zw y

)

como∂A

∂C=

∂x2

∂x∂x2

∂z∂y∂x

∂y∂z

∂xy∂x

∂xy∂z

∂x2

∂w∂x2

∂y∂y∂w

∂y∂y

∂xy∂w

∂xy∂y

∂(x+1)∂x

∂(x+1)∂z

∂y3

∂x∂y3

∂z∂ez

∂x∂ez

∂z

∂(x+1)∂w

∂(x+1)∂y

∂y3

∂w∂y3

∂y∂ez

∂w∂ez

∂y

=

2x 0 0 0 y 00 0 0 1 0 x1 0 0 0 ex 00 0 0 3y2 0 0

y∂B

∂C=

0 0 0 0 1 00 2 (y + 1) 0 2 0 1ex+y 0 0 0 0 00 ex+y 0 0 0 0

se tiene

∂ (A+B)

∂C=∂A

∂C+∂B

∂C=

2x 0 0 0 1 + y 00 2 (y + 1) 0 3 0 1 + x

1 + ex+y 0 0 0 ex 00 ex+y 0 3y2 0 0

Asi mismo se verifica que

∂ (3A)

∂C= 3

(∂A

∂C

)=

6x 0 0 0 3y 00 0 0 3 0 3x3 0 0 0 3ex 00 0 0 9y2 0 0

67

Page 68: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 3.16 Dadas las matrices A y C del ejemplo anterior y el vector

b =

x+ y2xyz

teniendo en cuenta∂Ab

∂C=∂A

∂C(b⊗ I2) + (A⊗ I2)

∂b

∂C

como ya se conoce∂A

∂Cy,

∂B

∂C=

1 00 12 00 00 y0 z

sustituyendo en la expresión inicial resulta

∂Ab

∂C=

2x 0 0 0 y 00 0 0 1 0 x1 0 0 0 ex 00 0 0 3y2 0 0

x+ y 00 x+ y2x 00 2xyz 00 yz

+

x2 0 y 0 xy 00 x2 0 y 0 xy

x+ 1 0 y3 0 ex 00 x+ 1 0 y3 0 ex

1 00 12 00 00 y0 z

=

3x2 + 2xy + y2z + 2y xy2

0 x2 + 2xyz + 2x2x+ y + 2y3 + yzex + 1 yex

0 6y2x+ x+ zex + 1

Este resultado coincide con:

∂Ab

∂C=

∂C

(x3 + x2y + 2xy + xy2z

x2 + xy + x+ y + 2xy3 + yzex

)

68

Page 69: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 3.17 Dadas las matrices A, B y C definidas por

A =

x+ y 2zxy x+ zex y3

, B =

(2y z2

1 3z

), C =

xyz

se verifica, de acuerdo con el apartado cuarto de la proposición anterior

∂ (A⊗B)∂C

=

(A⊗ ∂B

∂C

)+ (I3 ⊗B ⊗ I3)

∂ (A⊗ I2)∂C

siendo en este caso

∂B

∂C=

0 02 00 2z0 00 00 3

∂ (A⊗ I2)∂C

= (P2,3 ⊗ I3)(I2 ⊗

∂A

∂C

)P2,2

donde

P2,3 =

1 0 0 0 0 00 0 0 1 0 00 1 0 0 0 00 0 0 0 1 00 0 1 0 0 00 0 0 0 0 1

, P2,2 =

1 0 0 00 0 1 00 1 0 00 0 0 1

∂A

∂C=

1 01 00 2y 1x 00 1ex 10 3y2

0 0

Así pues

69

Page 70: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂ (A⊗B)∂C

=

2y z2 0 02x+ 4y z2 4z 00 2xz + 2yz 4y 6z2

1 3z 0 01 3z 0 00 3x+ 3y 2 12z2y2 yz2 2y z2

4xy xz2 2x+ 2z 00 2xyz 2y 2xz + 3z2

y 3yz 1 3zx 3xz 0 00 3xy 1 3x+ 6z2yex z2ex 0 02ex 0 8y3 3y2z2

0 2zex 0 2y3zex 3zex 0 00 0 3y2 9y2z0 3ex 0 3y3

Ejemplo 3.18 Si y = y (A) = |A| = xy − zw donde A =

(x wz y

)y cada

elemento de A es función del vector c = (t, u) en la forma x = t + u, y = tu,z = t2 + u, w = 2u, se verifica que

∂y (A)

∂c=(u2 − 2ut, 2ut− t2 − 4u

), pues por la regla de la cadena, y las

proposiciones 3.4 y 5

∂y (A)

∂c=

(∂y (A)

∂vec (A)⊗ I1

)′(∂vec (A)

∂c

)=

(∂y (A)

∂vec (A)

)′(∂vec (A)

∂c

)

=(y −z −w x

)

1 10 22t 1u t

=

(y − 2tw + xu y − 2x−w + xt

)

3.6. Propiedades de Derivación de Funciones Matriciales.

En esta sección se recogen algunas de las que aparecen con mayor frecuencia.Los resultados que se indican se obtienen utilizando las definiciones propuestasen este trabajo, las reglas de derivación y las diferentes propiedades tanto delproducto de Kronecker como de la vectorización de matrices.

70

Page 71: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Proposición 3.5 Sea A una matriz m× n y sean x y z vectores de Rn y Rm,respectivamente. Entonces

1. Si y (x) = Ax se verifica que∂y (x)

∂x= A.

2. Si y (x, z) = z′Ax se verifica que

∂y

∂x= z′A ∂y

∂z= x′A′.

3. Si m = n e y (x) = x′Ax, se verifica que

∂y (x)

∂x= x′ (A+A′) , ∂

2y (x)

∂x∂x= (A+A′) ,

y si además A es una matriz simétrica se tiene que

∂y (x)

∂x= 2x′A, ∂

2y (x)

∂x∂x= 2A.

4. Sim = n, A es simétrica,X es una matriz de orden n×p e Y (X) = X′AX,se verifica que

∂Y (X)

∂X= Pn,p (AX ⊗ Ip) + (vec (AX)) (vecIp) ′.

Demostración. Si y(x) = Ax entonces

y(x) = Ax =

n∑

j=1

a1jxj

n∑j=1

a2jxj

...n∑

j=1amjxj

y teniendo en cuenta la definición 3.12

71

Page 72: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂y(x)∂x

=

∂∂x

(n∑

j=1a1jxj

)

∂∂x

n∑

j=1

a2jxj

...

∂∂x

n∑

j=1

amjxj

=

a11 a12 · · · a1na21 a22 · · · a2n...

......

am1 am2 · · · amn

= A

Demostración. Dado que y (x, z) = z′Ax = (z′A)x, por la proposición 3.5,1 resulta

∂y

∂x=∂ (z′A)x∂x

= z′A

Por otra parte, como y = z′Ax = y′ = (x′A′) z, razonando de forma análogase tiene que

∂y

∂x= x′A′.

Demostración. Si y(x) = x′Ax dado que y =n∑

j=1

n∑

i=1

xixjaij , entonces,

como para cada k = 1, ..., n, se tiene que

∂y

∂xk=

n∑

kj=1

akjxj +n∑

i=1

aikxi = x′a′k• + x′a•k

aplicando la definición 3.10 resulta

∂y (x)

∂x=

(∂y

∂x1· · · ∂y∂xn

)= x′A′+ x′A = x′ (A′+A)

teniendo en cuenta esta expresión y la proposición 3.5, 1, se deduce que

∂2y (x)

∂x∂x=∂

∂x

(∂y (x)

∂x

)=∂

∂x[x′ (A′+A)] = (A′+A) ′ = A+A′

lo que coincide con

∂2y (x)

∂x∂x′ =∂

∂x′

(∂y (x)

∂x

)=∂

∂x

((∂y (x)

∂x

)′)= ∂

∂x[(A+A′)x] = A+A′

Si A es una matriz simétrica, los resultados son inmediatos.

72

Page 73: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Demostración. Si Y (X) = X′AX = X′ (AX) aplicando la regla de deriva-ción de un producto 3, se tiene

∂X′ (AX)∂X

=∂X′∂X

(AX ⊗ Ip) + (X′ ⊗ In)∂AX

∂X

y aplicándola nuevamente al producto AX resulta

∂X′ (AX)∂X

= Pn,p (AX ⊗ Ip) + (X′ ⊗ In) + (A⊗ In)∂X

∂X′

ya que∂X

∂X′ = Pn,p y∂A

∂Xes la matriz nula.

Finalmente a partir de las propiedades 4 del producto de Kronecker y lapropiedad 2 de la vectorización, se concluye

∂X′ (AX)∂X

= Pn,p (AX ⊗ Ip) + (X′ ⊗ In) (vecIn) (vecIp) ′

∂X′ (AX)∂X

= Pn,p (AX ⊗ Ip) + (vec(AX)) (vecIp) ′,

ya que vec(A′X) = vec(AX) por se A una matriz simétrica.

Proposición 3.6 Sea A una matriz regular de orden m. Entonces se verifica

1.∂A−1

∂A= −vec

(A−1

)vec

(A−1

)′.

2.∂vec

(A−1

)

∂ (vecA) ′ = −((A−1

)′ ⊗A−1

).

Si además se supone que los elementos de la matriz A son funciones delvector x ∈ Rn, entonces

3.∂A−1(x)

∂x=

[(Im ⊗ (vecIm) ′)

(∂A−1

∂A⊗ Im

)]⊗ ∂ (vecA)

∂x

4.∂vec

(A−1 (x)

)

∂x= −

((A′)−1 ⊗A−1

) ∂ (vecA)∂x

73

Page 74: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Demostración. Si A es una matriz regular, entonces existe A−1 verificando

AA−1 = Im,

y aplicando en esta expresión la regla de derivación de un producto resulta

0m2 =∂AA−1

∂A=∂A

∂A

(A−1 ⊗ Im

)+ (A⊗ Im)

∂A−1

∂A,

de donde

∂A−1

∂A= − (A⊗ Im)−1 ∂A

∂A

(A−1 ⊗ Im

).

Ahora bien como

∂A

∂A= (vecIm) (vecIm) ′

a partir de las propiedades 6, 7 del producto de Kronecker y la propiedad 3de la vectorización se obtiene

∂A−1

∂A= −

(A−1 ⊗ Im

)(vecIm) (vecIm) ′

(A−1 ⊗ Im

)

∂A−1

∂A= −

(A−1 ⊗ Im

)(vecIm)

[((A−1

)′ ⊗ Im

)vecIm

]′

∂A−1

∂A= −vec

(A−1

)′[vec

(A−1

)]′

Demostración. Dado que AA−1 = Im, aplicando el resultado 3a de laProposición 3.4 para cada i, j = 1, ...,m se tiene que

∂(AA−1

)

∂aij= 0m =

∂A

∂aijA−1 +A

∂A−1

∂aij

y, por tanto,

∂A−1

∂aij= −A−1 ∂A

∂aijA−1.

Como

j↓

74

Page 75: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂A−1

∂aij=

0 0 · · · 0 · · · 0...

......

...0 0 · · · 1 · · · 0...

......

...0 0 · · · 0 · · · 0

←− i

si se denota por ai• y a•j la fila i− esima y la columna j − esima de A−1,respectivamente, se obtiene

∂A−1

∂aij= −

− a1• −− a2• −

...− am• −

0 0 · · · 0 · · · 0...

......

...0 0 · · · 1 · · · 0...

......

...0 0 · · · 0 · · · 0

| |a•1 · · · a•m| |

=

−a•iaj•.

que de acuerdo con la segunda expresión alternativa y la propiedad 2 de lavectorización de matrices, resulta

∂vec(A−1

)

∂aij= vec (−a•iaj•) = − (Im ⊗ a•i) vecaj• = − (a′j• ⊗ a•i)

de donde

∂vec(A−1

)

∂a′•j=

(∂vec

(A−1

)

∂a1j,∂vec

(A−1

)

∂a2j, ...,

∂vec(A−1

)

∂amj

)

= − [a′j• ⊗ a•1, a′j• ⊗ a•2, ..., a′j• ⊗ a•m] =(a′j• ⊗A−1

),

y por tanto

∂vec(A−1

)

∂vec (A) ′ = −[a′1• ⊗A−1, a′2• ⊗A−1, ..., a′m• ⊗A−1

]=

−[(A−1

)′ ⊗A−1

]

Demostración. Si los elementos de la matriz A son función del vector x ∈Rn, entonces, para cada i, j = 1, ...,m, la derivada del elemento aij de A−1

respecto de x, en virtud de la regla de la cadena (Proposición 3.4, 5) es

∂aij∂x

=

(∂aij

∂vec (A)

)′∂vec (A)

∂x=

∂aij∂ (vecA) ′

∂vec (A)

∂x,

y por tanto

75

Page 76: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂A−1

∂x=

(∂A−1

∂ (vecA) ′ ⊗∂vec (A)

∂x

).

Ahora bien, como

∂A−1

∂ (vecA) ′ =(∂(A−1

)′

∂vec (A)

)′

y

∂(A−1

)′

∂A′ =

(∂A−1

∂A

)′

de acuerdo con las formas alternativas

∂(A−1

)′

∂vec (A)=

(∂(A−1

)′

∂A′ ⊗ Im)(Im ⊗ vec (Im)) =

[(∂A−1

∂A

)′ ⊗ Im

](Im ⊗ vec (Im)) ,

de donde

∂A−1

∂x=

{[(∂A−1

∂A

)′ ⊗ Im

](Im ⊗ vec (Im))

}′ ⊗ ∂vec (A)

∂x,

o lo que es igual

∂A−1

∂x=

[(Im ⊗ vec (Im) ′)

(∂A−1

∂A⊗ Im

)]⊗ ∂vec (A)

∂x.

Pero como de acuerdo con las expresiones alternativas

∂vec (A)

∂x=

(Im ⊗

∂A

∂x

)(vec (Im)⊗ In)

se obtiene finalmente

∂A−1 (x)

∂x=

[(Im ⊗ (vecIm) ′)

(∂A−1

∂A⊗ Im

)]⊗[(Im ⊗

∂A

∂x

)(vec (Im)⊗ In)

].

Demostración. Como ya se indicó antes

∂aij∂x

=

(∂aij

∂ (vecA) ′

)(∂vec (A)

∂x

),

76

Page 77: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

así pues, de acuerdo con la proposición 3.6, 2 resulta

∂vec(A−1

)

∂x=∂vec

(A−1

)

∂ (vecA) ′∂vec (A)

∂x= −

[(A−1

)′ ⊗A−1

] ∂vec (A)∂x

.

Proposición 3.7 sean A,B y X matrices de ordenes m×m , m×n , y n×mrespectivamente. Entonces

1. Si y (A) = tr (A) , se tiene que∂y (A)

∂A=∂tr (A)

∂A= Im

2. Si y (X) = tr (BX) , se tiene que

∂y (X)

∂X=∂tr (BX)

∂X= B′

3. Si y (X) = tr (BXA) , se tiene que

∂y (X)

∂X=∂tr (BXA)

∂X= B′A′

4. Si C es una matriz de orden n e y (X) = tr (AX′CX) , se tiene que

∂y (X)

∂X=∂tr (AX′CX)

∂X= C′XA′+CXA

y si además C es una matriz simetrica y A = /Im, entonces∂y (X)

∂X= 2CX

Demostración. Dado que tr (A) =∑m

i=1 aii, de acuerdo con la Definición3.13, es trivial obtener

∂y (A)

∂A=∂tr (A)

∂A= Im

Demostración. Si y (X) = tr (BX) , entonces y (X) =∑m

i=1

∑n

k=1bikxki

y por tanto,

∂tr (BX)

∂X=

∂X

(m∑

i=1

n∑

k=1

bikxki

)=

∂∂x1.

(m∑

i=1

n∑

k=1

bikxki

)

...∂

∂xn.

(m∑

i=1

n∑

k=1

bikxki

)

=

77

Page 78: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

b′.1...b′.n

= B′

Demostración. Teniendo en cuenta que tr (BXA) = tr (ABX) , aplicandola proposición 3.7, 2 , resulta

∂y (X)

∂X=∂tr (ABX)

∂X= (AB) ′ = B′A′

Demostración. De acuerdo con las propiedades 8 y 2 de la vectorizaciónde una matriz y la propiedad 4 del producto de Kronecker se tiene

tr (AX′CX) = [vec (AX′) ′] ′vec (CX) = [vec (XA′)] ′vec (CX)

= [(A⊗ In) vec (X)] ′ (Im ⊗C) vec (X)

= [vec (X)] ′ (A⊗C) vec (X)

La derivada de esta expresión respecto a vec (X) es, en virtud de la Proposi-ción 3.5,3

∂tr (AX′CX)∂vec (X)

=

(∂tr (AX′CX)∂ [vec (X)]

)′ = ((vec (X)) ′ [(A′ ⊗C) + (A⊗C′)]) ′

= [(A⊗C′) vec (X)] + [(A′ ⊗C) vec (X)]

= vec (C′XA′) + V EC (CXA) = vec (C′XA′+CXA)

Por ultimo, teniendo en cuenta la primera expresión alternativa, como

vec

(∂tr (AX′CX)

∂X

)=∂tr (AX′CX)∂vec (X)

= vec (C′XA′+CXA)

se concluye que

∂tr (AX′CX)∂X

= C′XA′+CXA

y, en caso de ser C simetrica y A = Im , es inmediato que

∂tr (X′CX)∂X

= 2CX

Proposición 3.8 Sea A una matriz cuadrada de orden m y X una matriz deorden m× p . Entonces

78

Page 79: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

1. Si y (A) = |A| , se tiene que∂y (A)

∂A=∂ |A|∂A

= Adj (A) ′

2. Si A es simetrica e y (X) = |X′AX| , se tiene que

∂y (X)

∂X= 2AX Adj (X′AX)

3. Si A es simetrica e y (X) = In |X′AX| con X′AX no singular, se tieneque

∂y (X)

∂X=

2

|X′AX|AX Adj (X′AX) = 2AX (X′AX)−1

Si se supone que los elementos de la matirz A son funciones de x ∈ Rn ,entonces

4. Si y (x) = |A (x)| , se tiene que

∂y (x)

∂x= [vec (Adj (A) ′)] ′

(Im ⊗

∂A (x)

∂x

)(vec (Im)⊗ In)

verificandose tambien que si A (x) es no singular

∂In |A(x)|∂x

=

[tr

((A−1)′∂A(x)

∂xi

)]

i=l,...,n

Demostración. Dada Amatriz cuadrada de ordenm, si para cada elementoaij i, j = 1, ..., n se denota por A ij su cofactor correspondiente, se tiene que

|A| =n∑

k=1

aikAik

Entonces

∂ |A|∂aij

=∂

∂aij

[n∑

k=1

aikAik

]= Aij

Teniendo en cuenta la Definición 3.12 resulta

∂ |A|∂aij

=

A11 A12 · · · A1n...

......

An1 An2 · · · Ann

= Adj (A) ′

79

Page 80: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Demostración. Si se denota por bij i, j = 1, ..., p a los elementos de la matrizB = X′AX , aplicando la regla de la cadena, resulta para cada k = 1, ...,m,7 = 1, ..., p

∂y (X)

∂xk�=

p∑

i=1

p∑

j=1

∂ |B|∂bij

∂bij∂xk�

Como para cada i, j = 1, ..., p∂ |B|∂bij

es el cofactor correspondiente Bij , se

tiene

∂y (X)

∂xk�=∂ |X′AX|∂xk�

=

p∑

i=1

p∑

j=1

Bij

∂bij∂xk�

=

[vec (Adj (X′AX))] ′vec(∂X′AX∂xk�

)

que de acuerdo con la propiedad 8 de la vectorización se puede reducir a

∂ |X′AX|∂xk�

= tr

(Adj (X′AX) ∂X′AX

∂xk�

)

Teniendo en cuenta la derivada de un producto (Proposición 3, 3a), paracada k = 1, ...,m , 7 = 1, ..., p , se verifica

∂X′AX∂xk�

=∂X′∂xk�

AX +X′A ∂X∂xk�

donde

∂X′∂xk�

= em� ep′k y

∂X

∂xk�= emk e

�′k

además, emk y epk representan dos vectores columna de m y p elementos todosellos nulos salvo el k-ésimo y el 7-esimo, respectivamente, que son iguales a launidad. En virtud de esto y teniendo en cuenta las propiedades de la traza,

∂ |X′AX|∂xk�

= tr[Adj (X′AX)

(em� e

p′k AX +X′Aemk e

p′�

)]

=(Adj (X′AX) em� e

p′k AX

)+ tr

(X′Aemk e

p′� Adj (X′AX)

)

= tr (b∗·�ak·X) + tr (X′a·kb∗�·)

= tr (ak·Xb∗·�) + tr (a

′·kXb

∗′�·)

= ak·Xb∗·� + a

′·kXb

∗′�·

80

Page 81: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

siendo b∗·� y b∗�· la 7-ésima columna y fila, respectivamente, de la matriz

Adj (B) = Adj (X′AX) y a·k y ak· la k-ésima columna y fila, respectivamente,de la matriz A

De acuerdo con la Definición 3.13,

∂x (X)

∂X=∂ |X′AX|∂X

= AX Adj (X′AX) +A′X (Adj (X′AX)) ′ =

2AXAdj (X′AX)

ya que tanto A como X′AX y, por consiguiente, Adj (X′AX) , son matricessimétricas

Demostración. Aplicando la regla de la cadena y teniendo en cuenta elapartado anterior, resulta

∂x (X)

∂X=∂In |X′AX|∂ |X′AX|

∂ |X′AX|∂X

=1

|X′AX|2AXAdj (X′AX)

= 2AX (X′AX)−1

pues por hipótesis, X′AX es simétrica y no singular

Demostración. Si y (x) = |A (x)| con x ∈ Rn , por la regla de la cadena,

∂ |A (x)|∂x

=

(∂ |A (x)|∂vecA (x)

)′∂vecA (x)

∂x=

[vec

(∂ |A (x)|∂A (x)

)]′∂vecA (x)

∂x

de donde, en virtud de la demostración 3.6 se obtiene

∂ |A (x)|∂x

= [vec (Adj (A (x)) ′)] ′(Im ⊗

∂A (x)

∂x

)(vecIm ⊗ In)

considerando ahora que A (x) es una matriz no singular para cada x ∈ Rn,por definición se tiene que

∂In |A (x)|∂x

=

(∂In |A (x)|

∂x1, · · · , ∂In |A (x)|

∂xn

)

Para cada i = 1, ..., n

∂In |A (x)|∂xi

=∂In |A (x)|∂ |A (x)|

∂ |A (x)|∂xi

=1

|A (x)|∂ |A (x)|∂xi

81

Page 82: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

y según la regla de la cadena

∂ |A (x)|∂xi

=

(∂ |A (x)|

∂vec (A (x))

)′∂vec (A (x))

∂xi= [vec (Adj (A (x)) ′)] ′∂vec (A (x))

∂xi

se tiene

∂In |A (x)|∂xi

=

[vec

(1

|A (x)|Adj (A (x)) ′)]′∂vec (A (x))

∂xi

=(vec

(A−1

))′vec

(∂A (x)

∂xi

)

y utilizando la propiedad 8 de la vectorización, se obtiene

∂In |A (x)|∂xi

= tr

(∂A (x)

∂xi

(A−1

)′)= tr

((A−1

)′∂A (x)∂xi

)

Por tanto

∂In |A (x)|∂x

=

[tr

((A−1

)′∂A (x)∂x1

), ..., tr

((A−1

)′∂A (x)∂xn

)]

Ejemplo 3.19 Sea la función y (x) = x′ Ax con A matriz simétrica y no singu-lar de orden n. Supóngase que se desea conocer si y (x) tiene máximo o mínimoglobal en algún punto x ∈ Rn. para ello habrá que estudiar si y (x) tiene puntoscríticos, lo que presupone resolver el sistema de ecuaciones

∂y (x)

∂x= 0

es decir, de acuerdo con la Proposición 3.5, 3

∂y (x)

∂x= 2x′A = 0

Cuya solución es x∗ = 0 por ser A no singular.

Si y (x) tiene máximo, mínimo o punto de silla lo alcanzará en x∗ = 0. Parapoder decidir el comportamiento de y (x) en x∗ bastará utilizar condiciones desegundo orden, y como en este caso

∂2y (x)

∂x∂x= 2A

para todo x ∈ Rn se verificará quex∗ = 0 es mínimo global si A es definida o semidefinida positivax∗ = 0 es máximo global si A es definida o semidefinida negativax∗ = 0 es punto de silla si A es indefinida

82

Page 83: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Ejemplo 3.20 Sea la matriz

A =

(a11 a12a21 a22

)

cuyos elementos dependen de x = (x1, x2, x3) de forma que

a11 = a22 = x1 + x3a12 = x1 + x2a21 = x1 − x2

De acuerdo con las proposiciones 3.6 y 3, se verifica que para todo x ∈ R3++

∂A−1 (x)

∂x=[(I2 ⊗ (vecI2) ′)

(∂A−1

∂A⊗ I2

)]⊗ ∂vec [A (x)]

∂x

dado que

a−1 =1

|A|

(a22 −a12−a21 a11

)resulta

∂A−1

∂A= −vec

((A−1

)′) (vecA−1

)′ =

−(1

|A|

)2

a22−a12−a21a11

(a22 −a21 a12 a11

)

= − 1

|A|

a222 −a21a22 −a12a22 a22a11−a12a22 a12a21 a212 −a12a11−a21a22 a221 a12a21 −a21a11a11a22 −a11a21 −a12a11 a211

Por otra parte se obtiene que

∂vec [A (x)]

∂x

∂a11(x)∂x

∂a21(x)∂x

∂a12(x)∂x

∂a22(x)∂x

=

1 0 11 −1 01 1 01 0 1

Por tanto, efectuando los correspondientes productos y teniendo en cuentala propiedad 2 del producto de Kronecker, se tiene que

∂A−1 (x)

∂x= −tr (A)

|A|2

83

Page 84: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

(a22 0 −a21 0 −a12 0 a11 00 a22 0 −a21 0 −a12 0 a11

)⊗

1 0 11 −1 01 1 01 0 1

Ejemplo 3.21 Sea la función y (x) = tr (AX) donde

A =

1 32 0−1 1

y X =

(x11 x12 x13x21 x22 x23

)

como tr (AX) = x11 + 3x21 + 2x12 − x13 + x23 entonces

∂tr (AX)

∂X=

(1 2 −13 0 1

)= A′

tal como se indica en la Proposición 3.7, 2

Ejemplo 3.22 Sea A una matriz no singular de orden n , entonces aplicandola regla de la cadena

∂In |A|∂A

=1

|A|∂ |A|∂A

y, de acuerdo con la Proposición 3.8, 1, se tiene

∂In |A|∂A

=1

|A|Adj (A) ′ = A−1

es decir, en virtud de la Definición 3.13, para cada i, j = 1, ..., n

∂In |A|∂aij

=1

|A|Aji

Ejemplo 3.23 Dada A =(a11 a12a21 a22

)

cuyos elementos dependen de x = (x1, x2) de forma que aij = ix1 + jx2 conx1 � 0 y x2 ≺ 0 , i , j = 1, 2, se verifica que

∂In |A (x)|∂x

=∂In (a11 (x)a22 (x)− a21 (x) a12 (x))

∂x

=1

|A|

[∂ (a11 (x) a22 (x)− a21 (x)a12 (x))

∂x1,∂ (a11 (x)a22 (x)− a21 (x)a12 (x))

∂x2

]

84

Page 85: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

=

(1

x1,1

x2

)

que coincide con lo que se señala en la Proposición 3.8, 4

∂In |A (x)|∂x

=

[tr

((A−1

)′∂A (x)∂x1

), tr

((A−1

)′∂A (x)∂x2

)]pues como

A (x) =

(x1 + x2 x1 + 2x22x1 + x2 2x1 + 2x2

)

entonces

A−1 =1

x1 + x2

(−2 (x1 + x2) x1 + 2x22x1 + x2 − (x1 + x2)

)

y

∂A (x)

∂x1=

(1 12 2

),∂A (x)

∂x2=

(1 21 2

)

y, por tanto

tr

((A−1

)′∂A (x)∂x1

)=

1

x1x2(2x2 − x2) =

1

x1

tr

((A−1

)′∂A (x)∂x2

)=

1

x1x2(2x1 − x1) =

1

x2

Cuando la matriz respecto de la que se deriva es simétrica, debe de tenerse encuenta esta característica pues, en caso contrario, pueden obtenerse resultadosaparentemente contradictorios [Bar98]. Por ejemplo si

y (A) = a211 + a222 + a

212, donde

A =

(a11 a21a12 a22

)

y cada elemento de la matriz A es función del vector x = (x1, x2) en la forma:

a11 = x1 + 2x2 , a22 = x1 , a12 = x1x2

al aplicar la regla de la cadena (Proposiciones 3.4, 4) resulta

∂y (A)

∂x=

(∂y (A)

∂vec (A)

)′∂vec (A (x))

∂x

85

Page 86: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

=(2a11 2a12 2a12 2a22

)

1 2x2 x1x2 x11 0

=(4x1 + 4x2 + 4xs1x

22 4x1 + 8x2 + 4x

21x2)

sustituyendo directamente y considerando que

y (A (x)) = (x1 + 2x2)2 + x21 + (x1x2)

2 = 2x21 + 4x22 + 4x1x2 + x

21x22

al calcular el gradiente se obtiene un resultado diferente, debido a que

∇y =(4x1 + 4x2 + 2x1x22, 8x2 + 4x1 + 2x

21x2)

Hay una aparente contradicción, que se debe a que tras sustituir se ha consi-derado y (A) como una función de tres variables a11, a12, a22 cuando en realidades una función de R4 −→ R, la cual está definida en puntos cuyas componentessegunda y tercera son iguales. Al tener esto en cuenta, los calculos de la derivadacoinciden. Para manejar esta aparente disparidad en los resultados al calcular laderivada respecto de una matriz simétrica A , usualmente se deriva únicamenterespecto de los elementos distintos de A, utilizando la vec (A) cuya descripciónse encuentra en la definición 3.9.

86

Page 87: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

APLICACIÓN A REDES NEURONALES

CAPA 0 CAPA 1 CAPA 2

0.1

0

1y

0

2y

1

1b

1

2b

1

3b

1

11W

1

12W

1

21W

1

22W

1

31W

1

32W

1

1S

1

2S

1

3S

( )1

1

1Sf

( )1

2

1Sf

( )1

3

1 Sf

1

1y

1

2y

1

3y

2

1b

2

2b

2

11W

2

21W

2

12W

2

22W

2

13W

2

23W

2

1S

2

2S

( )2

1

2Sf

( )2

2

2Sf

2

1y

2

2y

1d

2d

1e

2e

2

1e

2

2e

ε

Figura 2:

4. Aplicaciónes

4.1. Redes Neuronales

A continuación se expone el desarrollo completo de una aplicación típica dela derivación de funciones vectoriales y matriciales, que es el caso de la soluciónde problemas mediante las redes neuronales artificiales.Esta aplicación es untrabajo realizado por [Per07]

Utilizando notación matricial, es fácil comprobar que una red multicapacuyas funciones de activación son lineales se pueden reducir a una red de unacapa lineal; por ello es preciso utilizar funciones de activación no lineales. Elalgoritmo Backpropagation es un algoritmo iterativo que permite entrenarredesmulticapa. La figura ?? muestra una red neuronal típica, donde y son las en-tradas, S las salidas, W los pesos, e el error y f (s) la salida deseada

4.1.1. Características del Algoritmo

1. Busca el mínimo de la función error a partir de un conjunto de patronesde entrenamiento.

2. Precisa que la función de activación sea diferenciable (fácilmente).

3. Entrenar consiste en modificar los pesos de la red.

87

Page 88: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

4. Los pesos se modifican hacia la direcció descendente de la función error.

5. La red entrenada es capaz de generalizar, clasificando correctamente pa-trones ruidosos o incompletos.

6. α indica cuánto cambian los pesos.

7. Si α es muy pequeño, la velocidad de aprendizaje es muy lenta. Si α esmuy grande aparecen efectos oscilatorios.

b1 =

b11b12b13

nn(1)x1

, b2 =

[b21b22

]

nn(2)x1

, y1 =

y11y12y13

nn(1)x1

, e =

[e1e2

]

S1 =

S11S12S13

nn(1)x1

, S2 =

[S21S22

]

nn(2)x1

, y2 =

[y21y22

]

nn(2)x1

W 1 =

W 111 W 1

12

W 121 W 1

22

W 131 W 1

32

nn(1)×nn(0)

,W 2 =

W 211 W 2

12

W 221 W 2

22

W 231 W 2

32

nn(2)×nn(1)

nn (k) = número de neuronas de la capa k, nc = índice de la última capa

En general[Sk]nn(k)x1

,[yk]nn(k)x1

,[bk]nn(k)x1

,[Wk

]nn(k)xnn(k−1) ,[

e]nn(nc)x1

4.1.2. Propagación hacia adelante.

Cálculo

S11 =W111y

01 +W

112y

02 + b

11

S12 =W121y

01 +W

122y

02 + b

12

S13 =W131y

01 +W

132y

02 + b

13

Matricialmente S1 =

W111 W 1

12

W121 W 1

22

W131 W 1

32

[y01y02

]+

b11b12b13

Por lo tanto, S1 =W 1y0 + b1, y en general, Sk =Wkyk−1 + bk

y11 = f11

(S11), y12 = f

12

(S12), y13 = f

13

(S13)

88

Page 89: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

y11y12y13

=

f11(S11)

f12(S12)

f13(S13)

, haciendo F1

(S1)=

f11(S11)

f12(S12)

f13(S13)

, queda y1 = F 1

(S1)

En general:

yk = F k(Sk)

e1 = d1 − y21 e2 = d2 − y22[e1e2

]=

[d1d2

]−[y21y22

]−→ e = d− y2, en general e = d− ync

donde nc = índice de la última capa

El error cuadrático ε = e21 + e22 =

[e1 e2

] [e1e2

]= eT e

4.1.3. Propagación hacia atrás.

Escalarmente

W 2ij (n+ 1) =W

2ij (n)− α

∂ε (n)

∂W 2ij (n)

b2i (n+ 1) = b2i (n)− α

∂ε (n)

∂b2i (n)

donde n indica el número de iteración[W 211 (n+ 1) W 2

12 (n+ 1) W 213 (n+ 1)

W 221 (n+ 1) W 2

22 (n+ 1) W 223 (n+ 1)

]=

[W 211 (n) W 2

12 (n) W 213 (n)

W 221 (n) W 2

22 (n) W 223 (n)

]− α

[∂ε(n)

∂W2

11(n)

∂ε(n)∂W2

12(n)

∂ε(n)∂W2

13(n)

∂ε(n)∂W2

21(n)

∂ε(n)∂W2

22(n)

∂ε(n)∂W2

23(n)

]

Es decir, W 2 (n+ 1) =W 2 (n)− α ∂ε (n)

∂W 2 (n)

y escalarmente:

∂ε

∂W 2ij

=∂ε

∂ei

∂ei∂y2i

∂y2i∂S2i

∂S2i∂W 2

ij

=∂ε

∂S2i

∂S2i∂W 2

ij

89

Page 90: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Matricialmente

∂ε

∂W 2=∂ε

∂S2∂S2

∂W 2

∂ε

∂S2= derivada de una función escalar con respecto a un vector

∂S2

∂W 2= derivada de una función vectorial de argumento matricial con res-

pecto a una matrizEscalarmente

∂ε

∂S2i=∂ε

∂ei

∂ei∂y2i

∂y2i∂S2i

Matricialmente se debe tener en cuenta que si z es una función de p, lacual es una función de y, que a su vez es una función del vector x, entonces

dz

dx=dy

dx

∂p

∂y

∂z

∂p

Teniendo en cuenta lo anterior

∂ε

∂S2=∂y2

∂S2∂e

∂y2∂ε

∂e−→ ∂ε

∂W 2=∂y2

∂S2∂e

∂y2∂ε

∂e∗ ∂S

2

∂W 2

Teniendo en cuenta que

dAx

dA= xT −→ ∂S2

∂W 2=

∂W 2

(W 2y1 + b2

)=(y1)T

En general,

∂Sk

∂Wk=(yk−1

)T

∂y2

∂S2=

∂y21

∂S21

∂y22

∂S21

∂y21

∂S22

∂y22

∂S22

, ya que y2i = f2i

(S2i), entonces,

∂y2i∂S2j

= 0, para

∀i = j y∂y2i∂S2j

= f2i ′(S2i)

∂y2

∂S2=

∂y21

∂S21

0

0 ∂y22

∂S22

, como y2i = f

2i

(S2i)−→ ∂y2i

∂S2i= f2i ′

(S2i)

90

Page 91: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

y2 = F 2(S2)−→ se puede hacer F2′

(S2)=∂y2

∂S2

∂e

∂y2=

[∂e1∂y2

1

∂e2∂y2

1

∂e1∂y2

2

∂e2∂y2

2

], ya que ei = di − y2i , entonces

∂ei∂y2j

= 0, para ∀i = j

y∂ei∂y2i

= −1

∂e

∂y2=

[∂e1∂y2

1

0

0 ∂e2∂y2

2

]=

[−1 00 −1

]

∂ε

∂e=∂

∂e

(eT e

)= 2e = 2

[e1e2

]

Acoplando todos estos resultados

∂ε

∂W 2=

∂y21

∂S21

0

0 ∂y22

∂S22

[∂e1∂y2

1

0

0 ∂e2∂y2

2

]∗ 2[e1e2

]∗[y11 y12 y13

]

∂ε

∂W 2= 2

∂y21

∂S21

0

0 ∂y22

∂S22

[−1 00 −1

] [e1e2

] [y11 y12 y13

]

∂ε

∂W 2= 2

− ∂y

21

∂S210

0 − ∂y22

∂S22

[e1e2

] [y11 y12 y13

]

∂ε

∂W 2= 2

∂y21

∂S21

e1

− ∂y22

∂S22

e2

[y11 y12 y13

]=

−2e1

∂y21

∂S21

y11 −2e1 ∂y2

1

∂S21

y12 −2e1 ∂y2

1

∂S21

y13

−2e2 ∂y2

2

∂S22

y11 −2e2 ∂y2

2

∂S22

y12 −2e2 ∂y2

2

∂S22

y13

Si se hace

δ2 = − ∂ε

∂S2= 2

∂y21

∂S21

0

0 − ∂y22

∂S22

[e1e2

]=

2

∂y21

∂S21

e1

2∂y2

2

∂S22

e2

=

[2f21 ′

(S21)e1

2f22 ′(S22)e2

]=

[δ21δ22

]

Matricialmente

91

Page 92: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

δ2 = 2F 2′(S2)e −→ donde F 2′

(S2)=

[f21 ′(S21)

00 f22 ′

(S22)]

Entonces,

∂ε

∂W 2= −δ2

(y1)T

recordando que

W 2 (n+ 1) =W 2 (n)−α ∂ε (n)

∂W 2 (n)−→ donde n es el contador de iteraciones

W 2 (n+ 1) =W 2 (n) + αδ2 (n)(y1(n)

)T

Ahora

b2 (n+ 1) = b2 (n)− α ∂ε (n)∂b2 (n)

∂ε

∂b2=∂S2

∂b2∂ε

∂S2= −∂S

2

∂b2δ2

pero S2 =W2y1 + b2 recuérdese que yk+1 =WkSK + bk

∂S2

∂b2=

∂S2

1

∂b21

∂S22

∂b21

∂S21

∂b22

∂S22

∂b22

=

[1 00 1

]

∂ε

∂b2= −

[1 00 1

][δ21δ22

]= −

[δ21δ22

]= −δ2

Por lo tanto

b2 (n+ 1) = b2 (n) + αδ2

En general, para los pesos y el B′AS de la última capa se tieneδnc = 2Fnc′ (Snc) e

∂ε

∂Wnc= −δnc

(ync−1

)T

Wnc (n+ 1) =Wnc (n) + αδ2 (n)(ync−1(n)

)T

92

Page 93: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂ε

∂bnc= −δnc y bnc (n+ 1) = bnc (n)+δnc(n) donde nc es el número de capas

de la red

Ahora es necesario hallar la fórmula para la actualización de W 1 y b1

W 1 (n+ 1) =W 1 (n)− α ∂ε (n)

∂W 1 (n)

∂ε

∂W 1=∂ε

∂S1∂S1

∂W 1y∂ε

∂S1=∂y1

∂S1∂S2

∂y1∂y2

∂S2∂ε

∂y2∂ε

∂e=∂y1

∂S1∂S2

∂y1∂ε

∂S2=∂S2

∂S1∂ε

∂S2

∂y1

∂S1=

∂y11

∂S11

∂y12

∂S11

∂y13

∂S11

∂y11

∂S12

∂y12

∂S12

∂y13

∂S12

∂y11

∂S13

∂y12

∂S13

∂y13

∂S13

Recordando que y1i = f1i

(S1i)−→ ∂y1i

∂S1j= 0, ∀i = j −→ ∂y1i

∂S1i= f1′

(S1i)

∂y1

∂S1=

∂y11

∂S11

0 0

0∂y1

2

∂S12

0

0 0∂y1

3

∂S13

=

f11 ′(S11)

0 00 f12 ′

(S12)

00 0 f13 ′

(S13)

= F 1′

(S1)

∂S2

∂y1=

∂y1(W 2y1 + b2

)=(W 2

)T

Es decir

∂S2

∂y1=

∂S21

∂y11

∂S22

∂y11

∂S21

∂y12

∂S22

∂y12

∂S21

∂y13

∂S22

∂y13

recordando que

S21 =W2i1y

11 +W

2i2y

12 +W

2i3y

13 + b

2i −→

∂S2i∂y1j

=W2ij

∂S2

∂y1=

W 211 W 2

21

W 212 W 2

22

W 213 W 2

23

=

(W 2

)T

Recordando que∂ε

∂S2= −δ2

93

Page 94: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂ε

∂S1= −

∂y11

∂S11

0 0

0 ∂y12

∂S12

0

0 0 ∂y13

∂S13

W 211 W2

21

W 212 W2

22

W 213 W2

23

[δ21δ22

]

∂ε

∂S1= −F 1′

(S1) (W 2

)Tδ2

haciendo δ1 = F 1′(S1) (W2

)Tδ2

∂ε

∂S1= −δ1

∂S1

∂W 1=∂(W 1y0 + b1

)

∂W 1=(y0)T

en general∂Sk

∂Wk=(yk−1

)T

∂ε

∂W 1=∂ε

∂S1∂S1

∂W 1= −δ1

(y0)T

En general

∂ε

∂Wk=∂ε

∂Sk∂Sk

∂Wk

∂ε

∂Sk=∂Sk+1

∂Sk∂ε

∂Sk+1

∂Sk+1

∂Sk=∂yk

∂Sk∂Sk+1

∂yk−→ ∂yk

∂Sk= F k′

(Sk)

∂Sk+1

∂yk=∂(Wk+1yk + bk+1

)

∂yk−→ ∂Sk+1

∂yk=(Wk+1

)T

∂Sk+1

∂yk= F k′

(Sk) (Wk+1

)T

∂ε

∂Sk+1= −δk+1 −→ ∂ε

∂Sk= −F k′

(Sk) (Wk+1

)Tδk+1

Si se generaliza

δk = − ∂ε

∂Sk−→ δk = F k′

(Sk) (Wk+1

)Tδk+1 −→ δk =

(Wk+1F k′

(Sk))T

δk+1 ya que Fk′(Sk)es simétrica

94

Page 95: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

∂ε

∂Wk=∂ε

∂Sk∂Sk

∂Wk= δk

(yk−1

)T

W 1 (n+ 1) =W 1 (n) + αδ1(n)

(y0(n)

)T

y, en general

Wk (n+ 1) =Wk (n) + αδk(n)

(yk−1(n)

)T

Ahora se determina la fórmula de actualización para b1

b1 (n+ 1) = b1 (n)− α ∂ε (n)∂b1 (n)

∂ε

∂b1=∂S1

∂b1∂ε

∂S1∂ε∂S1

= −δ1

∂S1

∂b1=

∂S11

∂b11

∂S12

∂b11

∂S13

∂b11

∂S11

∂b12

∂S12

∂b12

∂S13

∂b12

∂S11

∂b13

∂S12

∂b13

∂S13

∂b13

=

1 0 00 1 00 0 1

=

[I]nn(1)

En general,

∂Sk

∂bk=[I]nn(k)

∂ε∂b1

= −

1 0 00 1 00 0 1

δ1 = −δ1

En general,

∂ε

∂bk= −

[I]nn(k)

δk = −δk

b1 (n+ 1) = b1 (n) + αδ1 (n)

bk (n+ 1) = bk (n) + αδk (n)

95

Page 96: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

4.1.4. Resumen (Algoritmo)

Datos de Entrada

Patrones de entrenamiento X con su salida deseada.

[X]nn(0)Xnp

donde np = número de patrones.

[d]nn(c)Xnp

donde nc = número de capas de la red (recuerde que la capa

de entrada no se considera como una capa de la red).

Número máximo de iteraciones: NUMIT

Valor de la tasa de aprendizaje: α

Valor de la tolerancia: TOL

Inicializar:

W 1(1),W

2(1), ...,W

nc(1)

b1(1), b2(1), ..., b

nc(1)

con valores aleatorios pequeños,

[Wk

ij

]nn(k)Xnn(k−1) ∈ [−0,5, 0,5]

[bki]nn(k)

∈ [−0,5, 0,5]

n = 0, ε = 0

Mientras que n <= NUMIT ó ε < TOL

y0(n) = X(n), donde X(n) es un vector de entrada escogido aleatoriamente

96

Page 97: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

4.1.5. Propagación hacia adelante.

Para k = 1 hasta nc

Sk(n) =Wk(n) • yk−1(n) + b

k(n)

yk(n) = Fk(Sk(n)

)

Fin para k.

e(n) = d(n)− ync(n)

ε(n) = e(n)T ∗ e(n)

4.1.6. Propagación hacia atrás.

δnc (n) = 2Fnc′ (Snc (n)) e (n)

Wnc (n+ 1) =Wnc (n) + αδnc (n)(ync−1(n)

)T

bnc (n+ 1) = bnc (n) + αδnc (n)

Para k = nc− 1 hasta 1

δk (n) = F k′(Sk (n)

) (Wk+1 (n)

)Tδk+1 (n)

Wk (n+ 1) =Wk (n) + αδk (n)(yk−1 (n)

)T

bk (n+ 1) = bk (n) + αδk (n)

Fin para k

97

Page 98: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

APLICACIÓN A REDES NEURONALES

111

1

Se

−+

121

1

Se

−+

131

1

Se

−+

1

1S

1

2S

1

3S

0

2y

0

1y

0.11

1y

1

2y

1

3y

2

1S

2

2S

2

1y

2

2y

)tanh(2

1S

)tanh(2

2S

Figura 3:

Ejemplo 4.1 Entrenar una red neuronal para aprender los siguientes patronesn x1 x2 d1 d21 −1 −1 −1 −12 −1 1 −1 13 1 −1 −1 14 1 1 1 −1

Utilice una red 2-3-2 (2 entradas, 3 neuronas en la capa oculta y dos neuronasen la capa de salida.

Utilice función logística como función de activación para todas las neuronasde la capa oculta (capa 1) y tanh para todas las neuronas de la capa de salida(capa 2).

Se va a trabajar con α = 0,5La figura ?? muestra la red propuesta.Primer Patrón n = 0Inicialización:

W 1 (1) =

0,7826 0,609−1,4372 −1,6513−2,713 −2,8013

,W 2 (1) =

[0,0636 −0,6596 −2,06390,582 −1,8127 2,2377

]

b1 (1) =

0,437−1,2982,2137

, b2 (1) =

[−0,7279−1,9579

]

98

Page 99: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

y0 (1) = X(1) =

[x1(1)x2(1)

]=

[−1−1

]

S1(1) =W 1 (1) · y0 (1) + b1 (1)

S1(1) =

0,7826 0,609−1,4372 −1,6513−2,713 −2,8013

[−1−1

]+

0,437−1,2982,2137

S1(1) =

−0,95761,79057,728

y1 (1) =

f11(S11 (1)

)

f12(S12 (1)

)

f13(S13 (1)

)

=

1

1+e−S11

1

1+e−S12

1

1+e−S13

=

0,277960670,856988570,99955987

S2(1) =W 2 (1) · y1 (1) + b2 (1)

S2(1) =

[0,0636 −0,6596 −2,06390,582 −1,8127 2,2377

]0,277960670,856988570,99955987

+

[−0,7279−1,9579

]

S2(1) =

[−3,33848298−1,11287495

]

y2 (1) =

[f21(S21 (1)

)

f22(S22 (1)

)]=

[tanh

(S21 (1)

)

tanh(S22 (1)

)]=

[tanh (−3,33848298)tanh (−1,11287495)

]

y2 (1) =

[−0,99748398−0,80507629

]

e (1) = d (1)− y2 (1)

e (1) =

[−1−1

]−[−0,99748398−0,80507629

]=

[−0,00251602−0,19492371

]

99

Page 100: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

4.1.7. Propagación hacia atrás.

Ejemplo 4.2 1. δ2 (1) = 2F 2′(S2 (1)

)e (1)

Recuerde que:

f 21

(S21 (1)

)= tanh

(S22 (1)

)= y21 (1)

f 21′(S21 (1)

)= 1−

(y21 (1)

)2

f 22

(S22 (1)

)= tanh

(S22 (1)

)= y22 (1)

f 22′(S22 (1)

)= 1−

(y22 (1)

)2

2F 2′(S2 (1)

)=

[f 21′(S21 (1)

)0

0 f 22′(S22 (1)

)]

=

[1−

(y21 (1)

)20

0 1−(y22 (1)

)2

]

δ2 (1) = 2

[1− (−0,99748398) 0

0 1− (−0,80507629)

] [−0,00251602−0,19492371

]

δ2 (1) =

[−2,52896 X 10−5

−0,13716866

]

W 2(2) =W 2(1) + αδ2 (1) ·(y1 (1)

)T

W 2(2) =

[0,0636 −0,6596 −2,06390,582 −1,8127 2,2377

]+

0,5 ∗[−2,52896 X 10−5

−0,13716866

] [0,27796067 0,85698857 0,99955987

]

W 2(2) =

[0,0636 −0,6596 −2,06390,582 −1,8127 2,2377

]+

[−3,514775 X 10−6 −1,08364 X 10−5 −1,2639 X 10−5

−0,019063746 −0,0587755987 −0,06855414

]

W 2(2) =

[0,063596485 −0,659610836 −2,0639126390,562936254 −1,871475987 2,169145856

]

b2 (2) = b2 (1) + αδ2 (1)

b2 (2) =

[−0,7279−1,9579

]+ 0,5∗

δ1 (1) = F 1′(S1(1)

) (W 2(1)

)Tδ2 (1)

δ1 (1) =

y11 (1)

(1− y11 (1)

)0 0

0 y12 (1)(1− y12 (1)

)0

0 0 y13 (1)(1− y13 (1)

)

100

Page 101: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

0,0636 0,582−0,6596 −1,8127−2,0639 2,2377

[−2,52896 X 10−5

−0,13716866

]

δ1 (1) =

−0,016022520,03047584−0,00013501

W 1(2) =W 1(1) + αδ1 (1) ·(y0 (1)

)T

W 1(2) =

0,7826 0,609−1,4372 −1,6513−2,713 −2,8013

+ 0,5 ∗

−0,016022520,03047584−0,00013501

[−1 −1

]

W 1(2) =

0,7826 0,609−1,4372 −1,6513−2,713 −2,8013

+

0,00801126 0,00801126−0,01523792 −0,015237926,7506 X 10−5 6,7506 X 10−5

W 1(2) =

0,79061126 0,61701126−1,45243792 −1,66653792−2,71293249 −2,80123249

b1 (2) = b1 (1) + αδ1 (1)

b1 (2) =

0,437−1,2982,2137

+ 0,5 ∗

−0,016022520,03047584−0,00013501

b1 (2) =

0,42898874−1,282762082,21363249

4.2. Derivadas Matriciales en Matlab.

Aprovechando las funciones básicas y las operaciones que con respecto a ma-trices se pueden utilizar en Matlab, se diseñaron unas pequeñas funciones quepermiten a través de la utilización de las propiedades de la derivación matricial,empleando la vectorización y el producto de Kronecker, resolver derivadas ma-triciales. Se adjuntan los códigos fuente de las mismas, las cuales son solo unejemplo, teniendo en cuenta que las funciones f1, f2 y demás que se presentan,pueden ser modificadas de acuerdo con la necesidad de solución.

Un exámen previo de las figuras 4 hasta la 8 puede facilitar la lectura deesta sección, ya que el lenguaje Matlab es bastante intuitivo. Inicialmente sehan creado dos funciones vec() que realiza la vectorización de una matriz porcolumnas, tal como se observa en la figura 4 y vecf() que realiza la vectorizaciónpor filas de una matriz, tal como se observa en la figura 5.

En primera instancia, se debe tener claro que es posible definir funcionesnuevas y archivos de sencuencia de comandos (script) en Matlab. De hecho, las

101

Page 102: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

function [vec] = vec(mat)function [vec] = vec(mat)function [vec] = vec(mat)function [vec] = vec(mat) %vectorizacion (columna)%vectorizacion (columna)%vectorizacion (columna)%vectorizacion (columna) %CAPTURA TAMAÑO%CAPTURA TAMAÑO%CAPTURA TAMAÑO%CAPTURA TAMAÑO [m,n] = size(mat);[m,n] = size(mat);[m,n] = size(mat);[m,n] = size(mat); %LEE ELEMENTOS Y REUBICA%LEE ELEMENTOS Y REUBICA%LEE ELEMENTOS Y REUBICA%LEE ELEMENTOS Y REUBICA for I = 1:m,for I = 1:m,for I = 1:m,for I = 1:m, for J = 1:n,for J = 1:n,for J = 1:n,for J = 1:n, pos=n*(I pos=n*(I pos=n*(I pos=n*(I----1)+J;1)+J;1)+J;1)+J; vecf(pos) = mat(I,J); vecf(pos) = mat(I,J); vecf(pos) = mat(I,J); vecf(pos) = mat(I,J); end end end end end end end end %TRANSPONE %TRANSPONE %TRANSPONE %TRANSPONE vec=vecf.'; vec=vecf.'; vec=vecf.'; vec=vecf.'; enenenendddd

Figura 4: Vectorización de una matriz.

function [vecf] = vecf(mat)function [vecf] = vecf(mat)function [vecf] = vecf(mat)function [vecf] = vecf(mat) %CAPTURA TAMAÑO%CAPTURA TAMAÑO%CAPTURA TAMAÑO%CAPTURA TAMAÑO [m,n] = size(mat);[m,n] = size(mat);[m,n] = size(mat);[m,n] = size(mat); %LEE ELEMENTOS Y REUBICA %LEE ELEMENTOS Y REUBICA %LEE ELEMENTOS Y REUBICA %LEE ELEMENTOS Y REUBICA for I = 1:m,for I = 1:m,for I = 1:m,for I = 1:m, for J = 1:n,for J = 1:n,for J = 1:n,for J = 1:n, pos=n*(Ipos=n*(Ipos=n*(Ipos=n*(I----1)+J;1)+J;1)+J;1)+J; vecf(pos) = mat(I,J); vecf(pos) = mat(I,J); vecf(pos) = mat(I,J); vecf(pos) = mat(I,J); endendendend end end end end endendendend

Figura 5: Vectorización por filas de una matriz.

% CREA VARIABLES% CREA VARIABLES% CREA VARIABLES% CREA VARIABLES syms vsyms vsyms vsyms v syms wsyms wsyms wsyms w syms xsyms xsyms xsyms x syms ysyms ysyms ysyms y syms zsyms zsyms zsyms z %CREA MATRICES IDENTICAS DE ORDEN 1 HASTA 5%CREA MATRICES IDENTICAS DE ORDEN 1 HASTA 5%CREA MATRICES IDENTICAS DE ORDEN 1 HASTA 5%CREA MATRICES IDENTICAS DE ORDEN 1 HASTA 5 I1=eye(1);I1=eye(1);I1=eye(1);I1=eye(1); I2=eye(2);I2=eye(2);I2=eye(2);I2=eye(2); I3=eye(3);I3=eye(3);I3=eye(3);I3=eye(3); I4=eye(4);I4=eye(4);I4=eye(4);I4=eye(4); I5=eye(5);I5=eye(5);I5=eye(5);I5=eye(5); returnreturnreturnreturn

Figura 6: Inicialización, crea variables simbólicas y matrices idénticas.

102

Page 103: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

% CASO:% CASO:% CASO:% CASO: % DERIVACIÓN DE f(x,y,z,...) RESPECTO DE CADA VARIABLE INDEPENDIENTE% DERIVACIÓN DE f(x,y,z,...) RESPECTO DE CADA VARIABLE INDEPENDIENTE% DERIVACIÓN DE f(x,y,z,...) RESPECTO DE CADA VARIABLE INDEPENDIENTE% DERIVACIÓN DE f(x,y,z,...) RESPECTO DE CADA VARIABLE INDEPENDIENTE % BORRA VARIABLES DE LA MEMORIA% BORRA VARIABLES DE LA MEMORIA% BORRA VARIABLES DE LA MEMORIA% BORRA VARIABLES DE LA MEMORIA clearclearclearclear % INICIALIZA VARIABLES Y CREA MATRICES UTILITARIAS% INICIALIZA VARIABLES Y CREA MATRICES UTILITARIAS% INICIALIZA VARIABLES Y CREA MATRICES UTILITARIAS% INICIALIZA VARIABLES Y CREA MATRICES UTILITARIAS iniiniiniini % USUARIO: SE DEFINEN FUNCIONES% USUARIO: SE DEFINEN FUNCIONES% USUARIO: SE DEFINEN FUNCIONES% USUARIO: SE DEFINEN FUNCIONES %EJEMPLO:%EJEMPLO:%EJEMPLO:%EJEMPLO: f1=x^2+y^3;f1=x^2+y^3;f1=x^2+y^3;f1=x^2+y^3; f2=2*x*y;f2=2*x*y;f2=2*x*y;f2=2*x*y; %Fn=...%Fn=...%Fn=...%Fn=... % USUARIO: % USUARIO: % USUARIO: % USUARIO: SE DEFINEN VECTORES O MATRICESSE DEFINEN VECTORES O MATRICESSE DEFINEN VECTORES O MATRICESSE DEFINEN VECTORES O MATRICES % EJEMPLO:% EJEMPLO:% EJEMPLO:% EJEMPLO: Y=[f1 ; f2];Y=[f1 ; f2];Y=[f1 ; f2];Y=[f1 ; f2]; X=[x y];X=[x y];X=[x y];X=[x y]; %%% PROCESANDO... %%%%%% PROCESANDO... %%%%%% PROCESANDO... %%%%%% PROCESANDO... %%% % EXTRAE EL TAMAÑO DE LOS VECTORES O MATRICES:% EXTRAE EL TAMAÑO DE LOS VECTORES O MATRICES:% EXTRAE EL TAMAÑO DE LOS VECTORES O MATRICES:% EXTRAE EL TAMAÑO DE LOS VECTORES O MATRICES: [P,N]=size(X);[P,N]=size(X);[P,N]=size(X);[P,N]=size(X); [M,Q]=size(Y);[M,Q]=size(Y);[M,Q]=size(Y);[M,Q]=size(Y); % EXPANSION:% EXPANSION:% EXPANSION:% EXPANSION: for I = 1:M,for I = 1:M,for I = 1:M,for I = 1:M, for J = 1:Q, for J = 1:Q, for J = 1:Q, for J = 1:Q, %DERIVAR CADA ELEMENTO DE Y RESPECTO A MAT%DERIVAR CADA ELEMENTO DE Y RESPECTO A MAT%DERIVAR CADA ELEMENTO DE Y RESPECTO A MAT%DERIVAR CADA ELEMENTO DE Y RESPECTO A MATRIZ X:RIZ X:RIZ X:RIZ X: for K=1:P,for K=1:P,for K=1:P,for K=1:P, for L=1:N, for L=1:N, for L=1:N, for L=1:N, %DERIVACIÓN INDIVIDUAL:%DERIVACIÓN INDIVIDUAL:%DERIVACIÓN INDIVIDUAL:%DERIVACIÓN INDIVIDUAL: R(P*(I R(P*(I R(P*(I R(P*(I----1)+K,N*(J1)+K,N*(J1)+K,N*(J1)+K,N*(J----1)+L)=diff(Y(I,J),X(K,L));1)+L)=diff(Y(I,J),X(K,L));1)+L)=diff(Y(I,J),X(K,L));1)+L)=diff(Y(I,J),X(K,L)); end end end end endendendend end end end end endendendend RRRR

Figura 7: Codigo completo para realizar una derivación matricial simple.

figuras referenciadas muestran código de cada uno de ellos. Tanto las funcionescomo los scripts pueden utilizar funciones de control de flujo para detallar laforma como se desea ejecutar una secuencia de procesos. Por ejemplo, en Matlabse dispone de los comandos: for, if, else, elseif, while, return, break, con un usobastante similar al de otros programas más conocidos, aunque con una sintaxisligeramente diferente.

De interés particular para este trabajo, se encuentran las funciones para lageneración, manipulación de matrices y operaciones con matrices. Algunas deellas son:

trace(M): calcula la traza de una matriz.M

kron(M,N) : desarrolla el producto de kronecker de las matricesM y N.

eye(M,N): devuelve una matríz idéntica de tamaño M ×N.

ones(M,N): devuelve una matríz de unos de tamaño M ×N.

103

Page 104: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

%BORRA VARIABLES DE LA MEMORIA%BORRA VARIABLES DE LA MEMORIA%BORRA VARIABLES DE LA MEMORIA%BORRA VARIABLES DE LA MEMORIA clearclearclearclear %INICIALIZA VARIABLES Y CREA IDENTICAS%INICIALIZA VARIABLES Y CREA IDENTICAS%INICIALIZA VARIABLES Y CREA IDENTICAS%INICIALIZA VARIABLES Y CREA IDENTICAS iniiniiniini %SE DEFINEN FUNCIONES%SE DEFINEN FUNCIONES%SE DEFINEN FUNCIONES%SE DEFINEN FUNCIONES f1=2*x+3*y;f1=2*x+3*y;f1=2*x+3*y;f1=2*x+3*y; f2=x^2+2*y;f2=x^2+2*y;f2=x^2+2*y;f2=x^2+2*y; f3=exp(x);f3=exp(x);f3=exp(x);f3=exp(x); f4=2*x*y;f4=2*x*y;f4=2*x*y;f4=2*x*y; f5=1/x;f5=1/x;f5=1/x;f5=1/x; f6=4*yf6=4*yf6=4*yf6=4*y----x^2;x^2;x^2;x^2; %SE DEFINEN MATRICES%SE DEFINEN MATRICES%SE DEFINEN MATRICES%SE DEFINEN MATRICES X=[f1 f2 ; f3 f4; f5 f6];X=[f1 f2 ; f3 f4; f5 f6];X=[f1 f2 ; f3 f4; f5 f6];X=[f1 f2 ; f3 f4; f5 f6]; [filas,col]=size(X);[filas,col]=size(X);[filas,col]=size(X);[filas,col]=size(X); dXrX=(vec(eye(fdXrX=(vec(eye(fdXrX=(vec(eye(fdXrX=(vec(eye(filas))*vecf(eye(col)))ilas))*vecf(eye(col)))ilas))*vecf(eye(col)))ilas))*vecf(eye(col))) R=kron(eye(col),dXrX)*kron(vec(eye(col)),eye(col))R=kron(eye(col),dXrX)*kron(vec(eye(col)),eye(col))R=kron(eye(col),dXrX)*kron(vec(eye(col)),eye(col))R=kron(eye(col),dXrX)*kron(vec(eye(col)),eye(col))

Figura 8: Desarrollo deδvec(X)

δXutilizando las propiedades.

zeros(n): devuelve una matríz idéntica de tamaño M ×N.

: (dos puntos) crea un vector espaciado regularmente.

linspace: crea un vector espaciado linealmente.

logspace: crea un vector espaciado logarítmicamente.

diag: crea o extrae diagonales.

reshape: cambia la dimensión de la matriz.

tril: extrae la matriz triangular inferior.

triu: extrae la matriz triangular superior.

det: calcula el determinante de una matriz.

eig: calcula los autovalores y autovectores.

expm: calcula la exponencial de una matriz.

logm: calcula el logaritmo de una matriz.

Se pueden consultar funciones adicionales mediante el menú de ayuda delprograma o mediante el comando help de Matlab.

El código que muestra la figura 6 tiene por objeto crear variables simbólicas,con el fin de poder utilizarlas dentro de expresiones más complejas. Además,crea un conjunto de matrices idénticas, para utilizar cuando se necesiten.

104

Page 105: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

En la figura 7, se expone el código necesario para derivar una función ma-tricial de variable matricial, aunque se ha desarrollado como primer ejemplo elcaso particular en que tanto la función como la variable son vectoriales.

En el ejemplo de la figura 8 se muestra como resolver el problema deδvec(X)

δX.

Para ello, después de observar las propiedades que cumple este desarrollo, seha planteado la solución como lo indica el código allí expuesto. Al utilizar laspropiedades de la derivación, el proceso se hace más simple y menos costosocomputacionalmente.

Los resultados de la ejecución de los ejercicios expuestos coinciden plena-mente con los desarrollos mediante otros paquetes o técnicas,siempre y cuandose definan correctamente los tipos de datos (entero, real, etc).

Mediante la aplicación iterativa de las fórmulas presentadas, se pueden ob-tener las derivadas de orden superior o la aplicación de la regla de la cadena. Enprimera instancia, hay una gran cantidad de opciones para desarrollar en estecaso, cada una de las cuales requiere que se definan correctamente las variablesdependientes e independientes, la relación funcional, y las matrices o vectoresque intervienen.

Matlab es un lenguaje de programación que facilita el trabajo con matri-ces. Dado que la representación interna de Matlab es en forma matricial, losprogramas finales son compactos y relativamente sencillos.

105

Page 106: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

5. Conclusiones

Al finalizar el trabajo, es necesario presentar algunos puntos importantes,considerados como vitales en la comprensión y realización del mismo.

Al iniciar el estudio de la derivación matricial es fundamental tener claridaden conceptos y definiciones de la teoría básica del álgebra lineal y del cálculodiferencial.

Antes de introducirse directamente en el tema, es necesario comprender lasoperaciones que complementan el álgebra lineal y que son el soporte de la deriva-ción matricial, tales como la permutación de matrices por bloques, el productode Kronecker y la vectorización de matrices por fila y por columna.

Al abordar la derivación matricial es fundamental analizar las propiedadesdel producto de Kronecker, de la vectorización de matrices, las reglas de deriva-ción matricial y las formas alternativas de derivación con el fin de minimizar lasolución de problemas, teniendo en cuenta que en algunos casos la expansión delas matyrices es bastante amplia y utilizando adecuadamnte la o las reglas enu-meradas anteriormente, el procedimiento de solución es más ágil, más eficientey esposible que la expansión de las matrices sea más reducida.

A nivel personal puedo concluir que adquirí el conocimiento de nuevas ope-raciones del álgebra lineal y el del tema central: el cálculo matricial, lo quesignifica un avance personal muy interesante, que aunque mínimo si se tiene encuenta la amplitud del campo matemático, si muy importante en el desarrolloy el conocimiento de nuevos temas relacionados con la matemática.

A nivel profesional, es como haber dado el primer paso en la profundizaciónde conceptos y conocimientos, los cuales se logran solo a través del tiempo y conla dedicación necesaria que permiten realmente formar al verdadero matemático.

Por último, espero que el trabajo haya respondido a las expectativas de lasdirectivas y docentes de la Fundación y que sirva como un aporte interesante nosolo para los matemáticos, sino para los profesionales que de una u otra formaen sus aplicaciones requieren de la derivación matricial.

106

Page 107: DerivaciónMatricial - Fundación Universitaria Konrad … de vectores en U,entonces se dice que Ues una base de V. Siunabaseconsistedeunacantidadfinitadeelementos,entocessepuede

Referencias

[Her86] I. Herstein, Álgebra Abstracta. México: Grupo Editorial Iberoamericano(1985).

[Bar98] R. Barbolla, P. Sans, Álgebra Lineal y Teoría de Matrices. Madrid:Prentice-Hall (1998).

[San94] R. Sánchez, A. Velasco, Curso Básico de Algebra Lineal. Bogotá: EdTrillas (1994).

[Mey07] C. Meyer, Matrix Analysis and Applied Linear Algebra.http://www.matrixanalysis.com/ (2007)

[Rad99] C. Radhakrishna, H. Toutenburg, Linear Models: Least Squares andAlternatives. New York: Springer (1999).

[Per07] P Rengifo. Borradores de Trabajo y Notas de Clase Sistemas Basadosen el Conocimiento. FUKL. (2007)

[Mag06] J. Magnus, Matrix Calculus and Econometrics. Tilburg University(2006)

107