algoritmo de retropropagación
DESCRIPTION
Algoritmo de Retropropagación. Conclusiones de Retropropagación. 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error . Ambas están asociadas a la neurona j. Conclusiones de Retropropagación. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/1.jpg)
Algoritmo de Retropropagación
![Page 2: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/2.jpg)
Conclusiones de Retropropagación
1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error . Ambas están asociadas a la neurona j.
)(ne j
))((' nv jj)(nj
![Page 3: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/3.jpg)
Conclusiones de Retropropagación
2. Si la neurona j es un nodo escondido, es igual al producto de la derivada asociada y la suma pesada de las calculada para las neuronas de la siguiente
capa escondida o de salida que se conectan a la neurona j.
)(nj
s))((' nv jj
![Page 4: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/4.jpg)
Conclusiones de Retropropagación
La corrección aplicada a está definida por la regla delta:
y:)(
)()(
nw
nnw
jiji
)(nw ji )(nw ji
)1()()()( nynnw ijji
![Page 5: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/5.jpg)
Conclusiones
Cuando el nodo j es de salida:
Cuando el nodo j es escondido:
))((')()( nvnen jjjj
))(('))()(()( nvnyndn jjjjj
k
kjkjj nwnnvn )()())((')(
![Page 6: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/6.jpg)
Conclusiones
![Page 7: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/7.jpg)
Logística
Ya que
10)(0
1
1))((
)(
j
j
navjj
ynv
ae
nvj
2)(
)(
1))(('
))(()(
nav
nav
jj
jjj
j
j
e
eanv
nvny
![Page 8: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/8.jpg)
Logística
Entonces
y
para una neurona de salida
))(1)(()]()([))((')()(
nOnOnOndanvnen
jjjj
jjjj
)())(1)(()]()([)( nynOnOnOndanw ijjjjji
![Page 9: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/9.jpg)
Logística
Análogamente
y, para una neurona escondida:
)()())(1)((
)()())((')(
nwnnynay
nwnnvn
Kkjkjj
Kkjkjjj
)()]()())(1)(([)( nynwnnynaynw iK
kjkjjji
![Page 10: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/10.jpg)
Logística
Nótese que es máxima en 0.5 y mínima en o (de (1)).
Para una logística, entonces, los pesos sinápticos se cambian más para aquellas neuronas en donde las señales de la función están en los rangos medios.
))((' nv jj0)( ny j 1)( ny j
![Page 11: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/11.jpg)
Tangente Hiperbólica
))())(((
))]((1[
))(())(('0),())(())((
2
nyanyaa
bnbvtanhab
nbvsechabnvba
nbvtanhanv
jj
j
j2
jj
jjj
![Page 12: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/12.jpg)
Tangente Hiperbólica
Para la capa de salida
)]()][()][()([
))((')(
nOanOanOnda
bnvn
jjjj
jjj
)()]()][()][()([)( nynOanOanOnda
bnw ijjjjji
![Page 13: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/13.jpg)
Tangente Hiperbólica
Para una capa escondida:
)()()]()][(([
)()())((')(
nwnnyanyab
a
nwnnvn
Kkjkjj
Kkjkjjj
)()]()()]()][(([)( nynwnnyanyab
anw i
Kkjkjjji
![Page 14: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/14.jpg)
Momento
El algoritmo de RP “aproxima” la trayectoria en el espacio de los pesos por el método de gradiente máximo.
A una pequeña corresponden pequeños cambios en la trayectoria del descenso y éstos son más suaves. Si es grande los cambios pueden ser inestables (oscilatorios).
![Page 15: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/15.jpg)
Momento
Una forma de incrementar y evitar inestabilidad consiste en modificar la regla delta, de esta manera:
En donde es la constante de momento. Controla el lazo de retroalimentación que se ilustra en la siguiente figura. En ésta es el operador de retardo unitario.
)2()()()1()( nynnwnw ijjiji
1z
![Page 16: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/16.jpg)
Momento
![Page 17: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/17.jpg)
Momento
Si re-escribimos (2) como una serie de tiempo con un índice t, en donde t va desde el instante 0 hasta el tiempo actual n, tenemos:
n
tij
tnji tyttw
0
)()()(
![Page 18: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/18.jpg)
Momento
Ya que
y
vemos que
)())((')()(
)(nynvne
nw
nijjj
ji
))((')()( nvnen jjjj
)(
)()()(
nw
nnyn
jiij
![Page 19: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/19.jpg)
Momento
y podemos escribir, entonces
n
t ji
tnji tw
ttw
0)(
)()(
![Page 20: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/20.jpg)
Momento
Comentarios:– El ajuste actual representa la suma
de una serie de tiempo ponderada exponen-cialmente. Para que converja:
– Cuando tiene el mismo signo en iteraciones consecutivas, crece en magnitud y se ajusta en cantidades grandes.
)(nw ji
10 )(/)( twt ji
)(nw ji)(nw ji
![Page 21: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/21.jpg)
Momento
– Cuando tiene signos diferentes en iteraciones consecutivas, la suma
– disminuye de tamaño y se ajusta en pequeñas cantidades.
El momento acelera el descenso en direcciones de bajada constantes
El momento estabiliza el proceso en direcciones que cambian de sentido
)(/)( twt ji)(nw ji
)(nw ji
![Page 22: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/22.jpg)
Heurísticos
pequeño es más lento pero permite convergen-cia más profunda
entonces produces una conver-gencia más rápida.
implica que para garantizar convergencia
0 1
1 0
![Page 23: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/23.jpg)
Heurísticos
Tamaño del conjunto de prueba– N = tamaño de conjunto de entrenamiento– W = número de pesos en la red
– (razón de entrenamiento)
– W>>1
)1(2
1121
W
Wr
Wr
2
11
![Page 24: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/24.jpg)
Heurísticos
Ejemplo: W=150 ropt=0.07 93% de los datos (140) se usan para
entrenamiento 7% de los datos (10) se usan para prueba
![Page 25: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/25.jpg)
Heurísticos
Función de Activación– Una red RP puede aprender más rápidamente si
la sigmoide es antisimétrica:
– por ejemplo
)()( vv
)()( bvtanhav
![Page 26: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/26.jpg)
Heurísticos
Valores adecuados para a y b (determinados experimentalmente) son:– a=1.7159– b=2/3
Por lo tanto:– a)– b)
1)1(1)1( y
1424.16667.07159.1
)0(
ab
![Page 27: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/27.jpg)
Heurísticos
Es decir, en el origen, la pendiente (la ganancia activa) es cercana a la unidad– c) La segunda derivada de es máxima en
v=1. )(v
![Page 28: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/28.jpg)
Heurísticos
![Page 29: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/29.jpg)
Heurísticos
Los valores objetivo deben ser elegidos en el rango de la función de activación
La respuesta deseada en la capa L debe de ser desplazada del valor límite.
Por ejemplo:
17159.0
j
jdsi
ad
![Page 30: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/30.jpg)
Heurísticos
El valor medio (sobre el conjunto de entrenamiento) debe ser 0 o pequeño comparado con
Los valores no debe estar correlacionados Las variables deben escalarse de manera que sus
covarianzas sean aproximadamente iguales.– Esto garantiza que las ws se aprendan a las
mismas velocidades aproximadamente.
![Page 31: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/31.jpg)
Heurísticos
Las variables deben ser equi-espaciadas en el intervalo de observación– Si esto no es posible, es conveniente usar un
spline natural para completar los datos faltantes
![Page 32: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/32.jpg)
Heurísticos (Inicialización)
Consideremos una RPR con tanh como función de activación. Si el umbral es 0 :
Sea
y
m
iijij ywv
1
iyE iy 0
![Page 33: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/33.jpg)
Heurísticos
Si las entradas no están correlacionadas
Tomemos las de una distribución uniforme con
ik
ikyyE ki 0
1
sw ji '0
),(0][ jipareslostodosparawE jiw
![Page 34: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/34.jpg)
Heurísticos
Entonces la media y la varianza de son:
y
jv
m
iiji
m
iiji
m
iijijv
yEwEywE
ywEvE
11
1
![Page 35: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/35.jpg)
Heurísticos
2
1
2
1 1
1 1
222 ][)(
w
m
iji
m
iki
m
kjkji
m
i
m
kkijkji
jjjv
mwE
yyEwwE
yywwE
vEvE
![Page 36: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/36.jpg)
Heurísticos
en done m es el número de conexiones sinápticas a una neurona.
Es decir, queremos inicializar de manera que esté en la transición de la parte lineal y
saturada de su función de activación tanh. Para tanh, como se especificó antes, esto se logra (a=1.7159; b=0.6667) haciendo que en
y
jiw
v
22wv m
1v 2/1mw
![Page 37: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/37.jpg)
Heurísticos
Es decir, deseamos una distribución de la cual las se tomen con y igual al
recíproco del número de conexiones sinápticas sw ji ' 0 2
mw12
![Page 38: Algoritmo de Retropropagación](https://reader036.vdocumento.com/reader036/viewer/2022062516/56812b20550346895d8f1cd4/html5/thumbnails/38.jpg)
Heurísticos