redes caos

Transmision de informacion mediante secuencias caoticas y

redes neuronales

David Arroyo Guardeno

Indice

Indice 1

1. Introduccion 2

2. Estrategias de transmision de secuencias caoticas basadas en redes neuronales 22.1. Teorema de los retrasos de Takens . . . . . . . . . . . . . . . . . . . . . . . . . . . 22.2. Diseno de la red neuronal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.1. Mapas de Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2.2. Algoritmo “neural-gas” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2.3. Prediccion de series temporales . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3. Estrategias de transmision caotica vıa redes neuronales . . . . . . . . . . . . . . . . 72.4. Simulaciones: resultados y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.1. Comparacion entre los diversos esquemas de codificacion-decodificacion paraun canal de comunicacion con ruido . . . . . . . . . . . . . . . . . . . . . . 9

3. Sistema de comunicacion basado en un esquema de multiples niveles caoticos 133.1. Eleccion del conjunto de senales caoticas a transmitir . . . . . . . . . . . . . . . . . 14

3.1.1. Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2. Clasificacion de la senal recibida: diseno de una red neuronal . . . . . . . . . . . . 17

3.2.1. Entrenamiento de las redes artificiales basadas en funciones radiales base(RBF-ANN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.3. Simulaciones: resultados y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 213.3.1. Agrupamiento mediante el algoritmo EM . . . . . . . . . . . . . . . . . . . 213.3.2. Agrupamiento mediante SOM: comparacion con los resultados generados por

el algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3.3. Eleccion de la red artificial RBF adecuada . . . . . . . . . . . . . . . . . . . 233.3.4. Eleccion de la red neuronal adecuada: comparacion entre redes RBF y redes

SOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Lista de figuras 31

Referencias 32

1

1. Introduccion

En este documento se presentan diversos metodos de transmision de informacion basados enredes neuronales y sistemas caoticos. Una secuencia caotica se caracteriza por presentar un com-portamiento cuasi aleatorio que, a su vez, se traduce en un espectro de potencia casi plano. De estemodo, si se envıa a traves del canal de comunicacion una secuencia caotica, y alguien intercepta talsenal, en principio pensarıa que no se ha transmitido informacion alguna, es decir, que la secuenciaque ha capturado no es mas que ruido. Ahora bien, ¿como enviar informacion empleando como“soporte conductor” secuencias caoticas? En este trabajo se presentan dos posibilidades:

1. Alterar la dinamica del sistema caotico de modo que esa desviacion permita inferir la infor-macion que, de forma oculta, ha sido enviada. A este efecto se presentaran diversos esquemasque parten de lo expuesto en [5].

2. Asignar a cada uno de los niveles logicos de un sistema de comunicacion una secuencia caotica.De forma mas exacta, si en un sistema de comunicacion la informacion intercambia resultade la combinacion de M posibles sımbolos, donde M = 2l (siendo l el numero de bits deinformacion por sımbolo), nuestro objetivo sera asignar a cada uno de esos sımbolos unasecuencia caotica y enviar dicha secuencia a traves del canal de comunicacion.

2. Estrategias de transmision de secuencias caoticas basadasen redes neuronales

La utilizacion de las redes neuronales como mecanismo para decodificar o codificar-decodificarla informacion caoticamente enmascarada, se basa en el concepto de reconstruccion dinamica de uncierto mapa caotico. Dada una cierta serie temporal, la reconstruccion dinamica pretende generarun modelo capaz de captar la dinamica subyacente. La serie temporal no es sino un conjunto deN muestras de una cierta caracterıstica u observable y(n). La principal motivacion para realizaruna reconstruccion dinamica es conseguir extraer el sentido fısico que la serie temporal poseeinherentemente, sin necesidad de conocer en detalle los formulismos matematicos que condensanla dinamica subyacente. Es mas, en muchas ocasiones dichos sistemas encierran una complejidadno caracterizable matematicamente. La unica informacion disponible es la derivada a partir de lasdiversas muestras de la serie temporal obtenida a partir de un cierto observable del sistema.

2.1. Teorema de los retrasos de Takens

Un resultado fundamental en la teorıa de la reconstruccion dinamica es el teorema de caractergeometrico debido a Takens [1]. Takens considero una situacion libre de ruido, basada en mapasde retrasos coordenados o modelos predictivos construidos a partir de la serie temporal que re-presentan un cierto observable de un determinado sistema dinamico. Para tener una interpretaciondel teorema de Takens desde el punto de vista de procesamiento de senal, se parte de un sistemadinamico cuya evolucion en tiempo discreto se resume en una ecuacion diferencial no linear

x(n + 1) = F (x(n)), (1)

donde x(n) es el vector de estados de d dimensiones del sistema para el instante n, mientras F (•)es una funcion cuya salida es un vector. Se asume que la tasa de muestreo esta normalizada a launidad. Llamando {y(n)} a la serie temporal observable a la salida del sistema, podemos expresarla misma como

y(n) = g(x(n)) + ν(n), (2)

donde g(•) tiene por salida un escalar, mientras que ν(n) es un ruido aditivo que modela las impre-cisiones presentes en el observable y(n). Las ecuaciones (1) y (2) caracterizan el comportamientodel espacio de estados del sistema dinamico. De acuerdo con el teorema de Takens, la estructurageometrica del sistema puede ser derivada a partir del observable y(n) con ν(n) = 0 haciendo usode un espacio D-dimensional generado a partir del vector

yR

= [y(n), y(n− τ), . . . , y(n− (D − 1)τ)]T , (3)

donde τ es un entero positivo denominado retraso embebido normalizado. Pues bien, Takens de-mostro que dado el observable y(n) para n variable, la reconstruccion dinamica del sistema esposible haciendo uso de un vector y

R(n) de dimension D tal que D ≥ 2d + 1, donde d es la

2

dimension del espacio de estados del sistema original. Tal condicion constituye una condicion su-ficiente pero no necesaria para la reconstruccion dinamica. El procedimiento mediante el cual seencuentra un valor adecuado para D recibe el nombre de embebido, mientras que el mınimo enteroque permite alcanzar la reconstruccion dinamica se designa como dimension de embebido o DE ,tanto en cuanto las caracterısticas del sistema van a ser embebidas o empotradas en un espacio dedimension DE .

El teorema de los retrasos de Takens arrastra una implicacion de gran valor: la evolucion delos puntos y

R(n) → y

R(n + 1) en el espacio de reconstruccion sigue la desconocida evolucion del

sistema original xn → x(n + 1). Es decir, muchas propiedades importantes del espacio de estadosno observable xn pueden ser reproducidas sin ambiguedad alguna en el espacio definido por y

R(n).

Sin embargo, para que este importante y satisfactorio resultado sea alcanzado es necesario estimaradecuadamente DE , ası como τ .

Desafortunadamente, el teorema de los retrasos de Takens no dice nada respecto al parametroτ . Es mas, permite la utilizacion de cualquier valor del mismo siempre y cuando el numero demuestras de la serie temporal sea suficientemente grande. En la practica, sin embargo, el tamanodel conjunto de datos observables es finito y de longitud igual a N . Una buena eleccion del retrasoτ es aquella que hace que y(n) sea independiente respecto a y(n−τ), permitiendo usar tales valorescomo coordenadas del espacio de reconstruccion. Esta circunstancia se ve satisfecha haciendo usodel valor de τ para el cual la informacion mutua entre y(n) e y(n− τ) alcanza su mınimo [2].

La condicion suficiente D ≥ 2d + 1 permite deshacer las intersecciones de una cierta orbita delatractor consigo misma, proyectando tal orbita sobre un espacio de menor dimension. La dimensionde embebido DE puede ser menor que 2d + 1, siendo recomendable estimar su valor usando losdatos observables. Un buen metodo para la estimacion de dicha dimension es el de los falsos vecinosmas proximos, introducido por [3]. Este metodo va aumentando en uno la dimension de D hastaun cierto valor maximo Dmax decidido por el usuario. Para cada valor de D, se construyen, a partirdel conjunto de N valores de la serie temporal disponibles, vectores de dimension D. Suponiendoun cierto valor para el retraso τ , el numero de vectores es V = bN/τc (es decir, el primer enteromenor que N/τ) para cada valor de D. Para D = 1, los V vectores de dimension 1 son:

v11 = y(1)

v12 = y(1 + τ)

v13 = y(1 + 2τ)

...v1

V = y(1 + (V + 1)τ).

Para D = 2 los V vectores seran:

v21 = [y(1) y(2)]T

v22 = [y(1 + τ) y(1 + 2τ)]T

...v2

V = [y(1 + (V + 1)τ) y(2 + (V + 1)τ)] .

Para D generico:

vD1 = [y(1) y(2) . . . y(D)]T

vD2 = [y(1 + τ) y(2 + τ) . . . y(D + τ)]T

...vD

V = [y(1 + (V − 1)τ y(2 + (V − 1)τ) . . . y(D + (V − 1)τ)]T ,

deduciendose que debe cumplirse Dmax < τ y (V − 1)τ + Dmax < N . Una vez construido elconjunto de V vectores asociados a un determinado valor de D, para cada uno de esos vectores sedetermina la distancia mınima patente entre el y cada uno de los restantes vectores. A continuacionse incrementa en uno el valor de D volviendose a repetir el proceso anterior. Para cada vector,se calcula diferencia entre la mınima distancia actual y la previamente calculada para dimensionD−1. Si el valor absoluto del cociente de esa diferencia partido por la antigua distancia mınima esmayor que un cierto lımite superior (0.08, por ejemplo) se dice que dicho vector presenta un falsovecino proximo (mirar figura 1). Para cada valor de D se contabiliza el numero de falsos vecinosmas proximos, de modo que el valor de DE viene dado por aquel valor de D que lleva asociado unmenor numero de falsos vecinos mas proximos.

3

−5

0

5

10

−6

−4

−2

0

2

40

2

4

6

8

10

x1

x2

x 3

@@

@@I

Vecinos para dimension 2,falsos vecinos para dimension 3

Figura 1: Falsos vecinos proximos

2.2. Diseno de la red neuronal

En esta seccion se presentan dos esquemas de codificacion-decodificacion basados en la predic-cion de series temporales. Concretamente, se emplean los mapas o redes auto-sintonizables -SOM-basados en el algoritmo “neural-gas”, tanto en cuanto la solvencia de los mismos para tal tipo deaplicacion quedo demostrada en [4]. En los siguientes puntos se presentaran los fundamentos teori-cos de las mapas autosintonizables y del algoritmo “neural-gas” para, posteriormente, desarrollarun metodo de prediccion de series temporales sustentado en tal tipo de redes y en dicho algoritmo.

2.2.1. Mapas de Kohonen

Los mapas de Kohonen o mapas auto-sintonizables (en ingles self-organizing maps -SOM-)constituyen un tipo especial de redes neuronales artificiales. Estas redes estan basadas en unaprendizaje competitivo: las salidas de las distintas neuronas de la red compiten entre ellas paraser activadas o disparadas, de modo que para una cierta entrada, la salida de la red viene dada por lasalida de una sola neurona o de una neurona por grupo. En un mapa auto-sintonizable las neuronasse encuentran localizadas en los nodos de una red que suele ser unidimensional o bidimensional.Las neuronas se ajustan selectivamente a diversos patrones o clases de entradas a lo largo delproceso competitivo de aprendizaje. En consecuencia, los mapas auto-ajustables se caracterizanpor la creacion de un mapa topografico de los patrones de entrada, en el cual la localizacion de lasneuronas en la red viene determinada por las caracterısticas estadısticas asociadas a las distintasclases de entradas. En la creacion del tipo de redes que nos ocupan podemos distinguir 4 fases:

Fase de inicializacion

Fase competitiva

Fase de cooperacion

Fase de adaptacion

Fase de inicializacion.En esta fase se inicializan los pesos asociados a las distintas neuronas. Esta inicializacion se va a

realizar de forma aleatoria, de modo que cada uno de los pesos sera un vector de dimension iguala la dimension del espacio de entradas, siendo cada una de sus componentes un numero obtenidoa partir de una funcion de distribucion uniforme entre −1 y 1.

Fase competitiva.Para cada una de las entradas, cada neurona va a computar una cierta funcion de discriminacion,

constituyendo esta funcion la base sobre la cual se lleva a cabo la competicion, ya que la neuronaganadora sera aquella que, para una determinada entrada, hace que el valor obtenido a traves dela funcion de discriminacion sea maximo (con respecto al que determinan el resto de neuronas). Si

4

denotamos como m a la dimension del espacio de entradas, una entrada concreta es un vector talque

x = [x1 x2 . . . xm]T , (4)

mientras que los pesos asociados a la neurona j son

wj = [wj1 wj2 . . . wjm] , j = 1, 2, . . . , l , (5)

donde l es el numero de neuronas en la red. Para encontrar el wj mas cercano al vector de entradax, se evalua el producto wT

j x para j = 1, 2, ..., l y nos quedamos con el maximo. Ahora bien,este criterio de emparejamiento entrada-neurona es equivalente a seleccionar aquella neurona cuyadistancia euclidiana es mınima respecto al vector de entrada. Si usamos el ındice i(x) para identificara la neurona mas parecida al vector de entrada x, dicho ındice puede ser expresado como

i(x) = arg minj

∣∣∣∣x− wj

∣∣∣∣ , j = 1, 2, . . . , l . (6)

Aquella neurona que satisface (6) se dice que es la ganadora para el vector de entrada x, con loque al proceder de este modo se lleva a cabo una aplicacion de un espacio continuo (espacio deentradas) en un espacio discreto (el de las neuronas).

Fase de cooperacion.La neurona que resulto ganadora en la fase anterior es el centro de una cierta vecindad topologica

de neuronas cooperantes. Partiendo de un modelo neuro-biologico, aquella vecindad va a ser talque existe una interaccion lateral entre un conjunto de neuronas excitadas. Con vistas a ser masprecisos, se define hj,i como la vecindad topologica con centro en la neurona i , mientras que elsubındice j se refiere a cada una de las restantes neuronas que constituyen la vecindad. La distancialateral entre la neurona ganadora y la neurona excitada j es di,j . La funcion de vecindad hj,i seasume funcion unimodal de la distancia lateral di,j y se caracteriza por

Ser una funcion simetrica respecto a su valor maximo dado para di,j = 0, el cual correspondea la neurona ganadora.

Su amplitud decrece monotonamente a medida que aumenta di,j , de modo que tiendo a cerocuando di,j →∞, siendo esta una condicion necesaria para la convergencia.

Se considerara que la funcion de vecindad viene dada por una funcion gaussiana

hi,j(x) = e−

d2i,j(x)

2(σ(n))2 , (7)

donded2

i,j(x) =∣∣∣∣∣∣wj(x) − wi

∣∣∣∣∣∣2

(8)

yσ(n) = σ0e

− nτ1 n = 0, 1, 2 . . . (9)

Es decir, la anchura de la vecindad va a ir disminuyendo con el tiempo desde un cierto valor inicialσ0 y con un ritmo marcado por la constante de tiempo τ1.

Fase de adaptacion.En esta fase se produce la adaptacion de los pesos de las neuronas en funcion de la entrada

actual. El metodo de adaptacion que se va a utilizar se basa en el postulado de aprendizaje deHebb, con la salvedad de que ahora se incorpora un termino de olvido, con el objeto de evitar quetodos las variaciones de los pesos se realicen en la misma direccion, lo que inducirıa la saturacionde los mismos. De este modo, la variacion de los pesos de las diversas neuronas es

∆wj = ηhj,i(x)(x− wj) (10)

donde el factor de olvido viene dado por ηhj,i(x)wj . De este modo, la ley de actualizacion de todaslas neuronas que caen dentro de la vecindad topologica de la neurona ganadora i, vendra dada por

wj(n + 1) = wj(n) + η(n)hj,i(x)(x− wj(n)) (11)

Con esta forma de adaptacion se consigue que los pesos de las neuronas de la red capten la forma,la distribucion de las entradas, produciendose una ordenacion topologica de la red que, en ultima

5

instancia, hace que neuronas adyacentes muestren pesos similares. Tal y como refleja (11), la tasade aprendizaje η depende del tiempo. De hecho, con el objeto de lograr una buena aproximacionestocastica, conviene que tal dependencia sea decreciente, es decir, interesa que η, partiendo de uncierto valor inicial η0, decrezca gradualmente con el numero de iteraciones. Esta exigencia quedasatisfecha a traves de un decaimiento exponencial de η(n) del tipo

η(n) = η0e− n

τ2 , n = 0, 1, 2 . . . (12)

donde τ2 representa una nueva constante de tiempo. Para concluir con la fase de adaptacion, espreciso hacer referencia a dos etapas claramente diferenciables de la misma:

Etapa de ordenacion.Es la primera etapa de la fase de ordenacion y en ella se lleva a cabo la ordenacion topologicade los pesos. Esta etapa requiere del entorno de 1000 iteraciones. Se han de tener en cuentalas siguientes precauciones respecto a la eleccion de la tasa de aprendizaje y de la funcion devecindad:

• El valor inicial η0 debe ser proximo a 0.1 y decrecer de modo que siempre este porencima de 0.01, lo que se consigue mediante η0 = 0.1 y τ2 = 1000.

• La funcion de vecindad inicialmente debe incluir casi todas las neuronas en la red centra-da en la neurona ganadora i, para despues decrecer lentamente con el tiempo. De formamas especıfica, durante aproximadamente las primeras 1000 iteraciones del algoritmo,hj,i(n) se reduce de manera que finalmente dicha funcion de vecindad abarca solo unpar de neuronas en torno a la neurona ganadora (puede que solo incluya a esta). Porconsiguiente, dado un cierto valor inicial σ0 tendremos τ2 = 1000

log σ0.

Etapa de convergencia.En esta fase se lleva a cabo una sintonizacion del mapa respecto del espacio de entradasde forma mas precisa. De forma general, esta etapa debe extenderse durante un numero deiteraciones cercano a 500 veces el numero de neuronas en la red. Por tanto, esta etapa deconvergencia puede dilatarse hasta alcanzar miles, e incluso decenas de miles de iteraciones.El siguiente par de aclaraciones merecen ser resenadas:

• Con vistas a alcanzar una cierta exactitud estadıstica, conviene que η(n) mantengadurante esta fase un valor pequeno del orden de 0.01. Bajo ninguna circunstancia debepermitirse que decrezca hasta cero, pues de lo contrario puede que la red quede atascadaen un estado meta-estable.

• La funcion de vecindad hj,i(x) debe incluir tan solo las neuronas vecinas mas proximas,las cuales se reduciran finalmente a una sola o ninguna.

2.2.2. Algoritmo “neural-gas”

Es una variante de los mapas de Kohonen y aparece recogida en [4]. Ahora cada vez que sepresenta una nueva entrada a la red, en lugar de buscar la neurona ganadora como se hacia enel anterior algoritmo, se establece un “ranking” de vecindad, es decir, se ordenan los distintospesos asociados a cada una de las neuronas del mapa de menor a mayor proximidad respecto dela actual entrada. De este modo, para una cierta entrada x el conjunto ordenado de l pesos queda(w0(i), w1(i), . . . , wl−1(i)), siendo w0(i) los pesos de la neurona mas cercana a x en el sentido dedistancia euclidiana y para la i-esima iteracion del algoritmo, w1 los pesos de la segunda neuronamas cercana a x para la i-esima iteracion del algoritmo y ası sucesivamente. Pues bien, la funcionde vecindad a emplear se define a partir del “ranking” construido como

hλ(kj(x,w)) = e−kj(x,w)/λ, j = 0, 1, . . . , l − 1 (13)

donde kj(x, w) es cero para la nuerona asociada con w0(i), 1 para la neurona asociada con w1(i), . . . ,l− 1 para la neurona asociada con wl−1(i). La constante λ va a determinar la tasa de decaimientode la funcion de densidad. Al igual que se reseno para la constante σ involucrada en el algoritmo deKohonen, resulta recomendable hacer λ dependiente del tiempo de modo que decrezca con el mismo, consiguiendo de este modo una progresiva contraccion de la vecindad. Un modo de conseguir estoes haciendo

λ(n) = λi · (λf/λi)n/nmax (14)

donde λi y λf representan el valor inicial y final, respectivamente, del parametro λ, los cuales sedeterminaran experimentalmente mediante el mecanismo de prueba-error, mientras que nmax es el

6

numero maximo de iteraciones a realizar. En consecuencia, la nueva funcion de vecindad conducea una funcion de adaptacion de los pesos dada por

∆wj(i + 1) = ε · hλ(kj(x,w)) · (x− wj(i)), j = 0, 1, . . . , l − 1 (15)wj(i + 1) = wj(i) + ∆wj(i + 1), j = 0, 1, . . . , l − 1 (16)

Teniendo en cuenta las consideraciones hechas sobre la fase de adaptacion en el caso de los mapasde Kohonen, se estima conveniente expresar la tasa de aprendizaje como

ε(n) = εi(εf/εi)n/nmax . (17)

2.2.3. Prediccion de series temporales

El objetivo es aproximar de forma adaptativa la funcion y = f(v) con v ∈ V ⊂ RD e y ∈ R.V denota la region dominio de la funcion. La red a disenar consta de S neuronas, cada una de lascuales lleva asociado un vector de pesos wi , un escalar yi y un vector D-dimensional ai. Los pesosde neuronas son los vectores de D dimensiones que resultan de aplicar el algoritmo “neural-gas” alconjunto de vectores de entrada v, los cuales se construyen a partir de la serie temporal teniendoen cuenta los valores optimos para D y τ segun lo expuesto en el apartado 2.1. De esta forma, si laserie-temporal es un mapa caotico descrito como xn+1 = g(xn, xn−1, . . . , xn−m, γ), los vectoresde entrada se construyen como:

v1 =[x1+(D−1)τ x1+(D−2)τ . . . x1+τ x1

]T

v2 =[x1+Dτ x1+(D−1)τ . . . x1+2τ x1+τ

]T

...vk =

[x1+(D+k−2)τ x1+(D+k−3)τ . . . x1+kτ x1+(k−1)τ

]T

...

Este conjunto de vectores determinan el espacio de entrada V , el cual es dividido por medio delalgoritmo “neural-gas” en S regiones Vi (conocidas como poliedros de Voronoi), a cada una delas cuales se asocia la neurona i del mapa neuronal disenado. Por su parte, los coeficientes yi ylos vectores ai permiten definir, para cada uno de los poliedros de Voronoi, una aplicacion linearRD → R mediante

y = yi + ai(v − wi) (18)

La funcion y = f(v) sera, pues, aproximada por medio de y = f(v) con

f(v) = yi(v) + ai(v)

(v − wi(v)

)(19)

denotando i(v) la unidad computacional i con su wi mas proximo a v. En orden a aprender laaplicacion entrada-salida, se llevan a cabo una serie de fases de entrenamiento presentando a lared parejas de entrada-salida (vk, y = f(vk)), donde y = x1+(D+k−1)τ . Los vectores de referenciason ajustados haciendo uso del algoritmo “neural-gas”, mientras que los parametros ai e yi sonobtenidos mediante un proceso iterativo, de modo que en cada iteracion aquellos parametros seactualizan siguiendo la direccion contraria a la dada por el gradiente, respecto de ai e yi, de lafuncion de error existente entre y e y. Pues bien, la actualizacion, cuya deduccion y justificacionse puede encontrar en [4], es:

∆yi = ε · hλ(ki(v, w))(y − yi) (20)∆ai = ε · hλ(ki(v, w)) (21)

con lo que yi+1 = yi + ∆yi, ai+1 + ∆ai.

2.3. Estrategias de transmision caotica vıa redes neuronales

Se analizaran dos esquemas de codificacion-decodificacion de la senal vıa caos y haciendo usode las redes neuronales recien presentadas:

7

Modulacion caotica (codificacion LM )/decodificacion mediante inversionResponde al esquema indicado en [5]. La codificacion de la informacion se efectua a traves del

mapa logıstico segun

xk = rkxk−1(1− xk−1) (22)rk = 3.9757 + 0.0145Ik (23)

de modo que Ik se obtiene normalizando la senal original de voz sk de forma que |Ik| < 1 paratodo k. Respecto a la decodificacion, se lleva a cabo por simple inversion:

restk = xk/(xk−1(1− xk−1)) (24)

Iestk = (rest

k − 3.9757)/0.0145. (25)

El problema de este metodo es su sensibilidad respecto al ruido existente en el canal de comuni-cacion.

Modulacion caotica/decodificacion vıa algoritmo LMSLa codificacion de la informacion tambien se efectua mediante (22). Por su parte, la decodificacion

de la informacion se consigue por medio del algoritmo LMS. Para ello se define el error como

ek =[xk+1 − rest

k xk(1− xk)], (26)

con lo que la funcion a minimizar sera

ξ =12e2k. (27)

El gradiente de (27) respecto a restk es

∇ξ = 212ek∇ek = ek [−xk(1− xk)] = − [

xk − restk xk(1− xk)

]xk(1− xk), (28)

resultando la siguiente estimacion del parametro de bifurcacion

restk+1 = rest

k + µxk−1(1− xk−1)[xk+1 − rest

k xk−1(1− xk−1)], (29)

donde se considera rest0 = 3.9757 y 0 < µ < 2/var(xk(1− xk)).

Realimentacion dinamica -Dynamic Feedback, DF-Partiendo de los resultados obtenidos en [6], se propone un sistema de codificacion que, usando

el mapa logıstico, va a modular la senal a transmitir como

xk = xk−1 · r · (1− xk−1) + 0.005 · Ik (30)

con |Ik| < 1 y r = 3.8. Para la decodificacion se hace

Iestk = 200 · (xk − xk−1 · r · (1− xk−1)). (31)

Modulacion caotica/decodificacion mediante prediccion no linear (decodificacion NLP)De nuevo la codificacion de la informacion se efectua mediante (22). Considerando τ = 1 y D = 3

(mınimo valor exigido por el teorema de Takens), se efectua una prediccion no linear del mapacaotico xpred

k+1 = fSOM−gas−NLP (xk, xk−1, xk−2), lo que permite decodificar la senal recibida medi-ante el modelo de prediccion no linear:

restk = xest

k+1/(xpredk (1− xpred

k )) k = 3, . . . (32)Iestk = (rest

k − 3.9757)/0.0145. (33)

Codificacion-decodificacion mediante realimentacion dinamica vıa SOM-gas: esquemaSOM-gas-DF

Ahora en lugar de proyectar el atractor original sobre un espacio D-dimensional, se va a generaruna serie temporal pseudocaotica haciendo uso de la aproximacion local del sistema dinamicooriginal mediante redes SOM basadas en el algoritmo “neural-gas”. El esquema de codificacion-decodificacion queda

xk = fSOM−gas−DF (xpredk−1 , xpred

k−2 , . . . , xpredk−D) + 0.3IK (34)

Iestk =

103

(xk − fSOM−gas−DF (xpredk−1 , xpred

k−2 , . . . , xpredk−D)) (35)

8

donde |Ik| < 1. Con este esquema es posible alcanzar una perfecta reconstruccion de la dinamicaasociada al atractor pseudo-caotico generado por el transmisor, consiguiendo una reduccion delruido, tanto en cuanto se lleva a cabo una proyeccion de la senal recibida sobre un espacio dedimension D finita, mientras que el espacio de estados asociado al ruido es de dimension infinita(infinitos grados de libertad). Esta proyeccion, precisamente, es la que permite usar un valor, aprimera vista elevado, para el coeficiente que multiplica la senal de voz en la codificacion.

2.4. Simulaciones: resultados y conclusiones

Siguiendo lo desarrollado en 2.1, se analizo el mapa logıstico para r = 3.97 y valor inicial 0.5. Lainformacion mutua existente entre la senal y ella misma desplazada temporalmente, para valoresde desplazamiento temporal entre 1 y 20, aparece e

0 5 10 15 20 25 30−0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

τ

Info

rmac

ión

mut

ua

Figura 2: Busqueda de τ mediante informacion mutua

Por otro lado, el analisis de los falsos vecinos conduce a los resultados sintetizados en la figura3, los cuales llevan a concluir DE = 4.

Dimension de embebido

Figura 3: Porcentaje de falsos vecinos en funcion de la dimension de embebido para el mapa logısticocon r = 3.97 y τ = 14

2.4.1. Comparacion entre los diversos esquemas de codificacion-decodificacion paraun canal de comunicacion con ruido

Se van analizar las tecnicas de codificacion-decodificacion previamente presentadas para cincosenales de voz, las cuales aparecen en la figura 4. Si denominados Ik a la senal de voz original, e ikla senal de voz estimada, la figura que se va a utilizar para medir las prestaciones de los diversosmetodos a analizar sera

SNRsig = 10 log10

{ ∑I2k∑

(ik − Ik)2

}(36)

9

es decir, SNRsig aumenta a medida que disminuye el error en la estimacion, esto es, a medidaque mejoran las prestaciones de un cierto metodo de codificacion-decodificacion. El mejor metodosera aquel para el cual (36) es maximo. Ahora bien, para determinar dicho metodo sera precisosimular el comportamiento de los diversos esquemas para varios valores de la relacion senal a ruido(SNR) en el canal de comunicacion. Los resultados que se obtuvieron para cada una de las senalesde voz previamente citadas aparecen en la figura 5.

0 1 2 3 4 5 6 7 8 9 10

x 104

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

(a)

Am

plitu

d no

rmal

izad

a

1000 2000 3000 4000

−0.5

0

0.5

1

(b)

Am

plitu

d no

rmal

izad

a

1000 2000 3000 4000−1

−0.5

0

0.5

Am

plitu

d no

rmal

izad

a

(c)

0 2000 4000 6000 8000−1

−0.5

0

0.5

1

(d)

Am

plitu

d no

rmal

izad

a

0 2000 4000 6000−1

−0.5

0

0.5

1

(e)

Am

plitu

d no

rmal

izad

a

Figura 4: Senales normalizadas empleadas en las simulaciones

En las simulaciones realizadas, la red neuronal utilizada en la prediccion temporal consta de200 neuronas, habiendose entrenado la misma durante 400 epocas, siendo una epoca la fase delentrenamiento durante la cual se presentan a la red cada una de las parejas entrada-salida, conlo que cada una de esas parejas es presentada a la red 400 veces. Los tres metodos que mejoresresultados presentan son el SOM − gas − DF , codificacion vıa mapa logıstico (LM) - decod-ificacion bien vıa algoritmo LMS bien vıa predictor no linear basado en una red SOM − gas(esquema SOM − gas−NLP ), siendo clara la superioridad del metodo basado en la codificacion-decodificacion mediante realimentacion dinamica (Dynamic Feedback) vıa redes SOM − gas (es-quema SOM − gas − DF ). Tal superioridad se da tanto para SNR baja como alta. Ademas,SNRsig para SOM − gas − DF depende linealmente de la relacion senal a ruido en el canal decomunicacion, de modo que la superioridad de este esquema respecto a los otros dos crece a medidaque se incrementa SNR, ya que en el caso de codificar mediante el mapa logıstico y decodificarusando el algoritmo LMS, SNRsig es independiente de SNR para SNR superior a unos 30 dBs,circunstancia que tambien se observa cuando se decodifica usando el esquema SOM − gas−NLPpara SNR mayor que unos 10 dBs, factor este que hace que para SNR suficientemente elevada unesquema de codificacion-decodificacion mediante realimentacion dinamica mejore las prestaciones

10

de estos dos metodos.

1 2 3 4 5 6 7 8 9−160

−140

−120

−100

−80

−60

−40

−20

0

SN

Rsi

g

SNR dBs (a)

Cod. LM / Decod. inversión

Cod. LM / Decod. LMS

Cod. DF /Decod. DF

Codif. LM/Decod. NLP−gas

Cod. DF−gas/Decod. DF−gas

1 2 3 4 5 6 7 8 9−150

−100

−50

0

SNR dBs (b)

SN

Rsi

g

1 2 3 4 5 6 7 8 9−140

−120

−100

−80

−60

−40

−20

0

20

SNR dBs (c)

SN

Rsi

g

1 2 3 4 5 6 7 8 9−140

−120

−100

−80

−60

−40

−20

0

20

SNR dBs (d)

SN

Rsi

g

1 2 3 4 5 6 7 8 9−140

−120

−100

−80

−60

−40

−20

0

20

SNR dBs (e)

SN

Rsi

g

Figura 5: Simulaciones con los distintos esquemas de codificacion-decodificacion para las cincosenales

Una vez comentada la superioridad del esquema SOM−gas−DF respecto a los cuatro restantesmetodos expuestos, es necesario realizar una puntualizacion. En las simulaciones mostradas masarriba, la red neuronal utilizada consta de 200 neuronas, las cuales se entrenaron durante 400epocas. Ahora bien, si, por ejemplo, nos centramos en los resultados obtenidos al considerar comosenal de voz la que aparece en la figura 4 (e), y aplicamos el esquema de codificacion SOM −gas − DF , se observa que conviene reducir el numero de neuronas hasta 50, tanto en cuantose consigue aumentar SNRsig (mirar figura 6). Asimismo, la figura 7 muestra la convenienciade reducir el numero de epocas en la fase de entrenamiento a tan solo 200. De este modo, conmenos neuronas y menos epocas de entrenamiento de las que se tenıa originalmente, se consiguenmejores resultados debido al efecto de lo que se conoce con el nombre de sobre-entrenamiento ysobre-dimensionamiento.

11

Figura 6: Comparativa numero de neuronas y epocas en el entrenamiento de una red SOM basadaen el algoritmo neural-gas

En efecto, el proceso de aprendizaje o entrenamiento de una red neuronal puede ser consid-erado como un problema de interpolacion no linear, de modo que la red no solo ha de ser capazde generar la salida correspondiente a cada una de las entradas empleadas en la fase de entre-namiento, sino que ademas debera determinar adecuadamente la salida correspondiente a entradasdiferentes de aquellas. Por ello se dice que la red neuronal debe realizar una interpolacion o, mejor,una generalizacion a partir de los datos que proceso durante el proceso de aprendizaje. Una buenageneralizacion exige entrenar la red durante un numero suficientemente elevado de epocas. Ahorabien, si dicho numero de epocas es excesivamente elevado, puede que la red aprenda ciertas carac-terısticas presentes en el conjunto de parejas entrada-salida empleadas en la sesion de aprendizaje,las cuales pueden ser originadas por eventos no deseados tales como el ruido. A esto es a lo que sellama problema del sobre-entrenamiento, el cual conduce a una pobre generalizacion. Por otro lado,puede que aunque el numero de epocas elegido sea el adecuado para lograr buenos resultados, lageneralizacion finalmente obtenida sea pobre debido a que el numero de neuronas es excesivamenteelevado. Esto es, si el numero de neuronas de la red neuronal es demasiado grande, la red esta ca-pacitada para “aprehender” el ruido que, de forma inherente, se halla presente en el conjunto depares entrada-salida de la fase de aprendizaje. Por tanto, a la hora de elegir el numero de neuronasde la red se aplicara el principio de la navaja de Occam: elegir la funcion de interpolacion no linearmas simple, es decir, la red con menor numero de neuronas tal que el comportamiento del sistemasea aceptable. En el caso que nos ocupa el principio de Occam se traduce en limitar a 50 el numerode neuronas de la red, mientras el problema de sobre-entrenamiento hace recomendable limitar elproceso de entrenamiento a unas 200 epocas aproximadamente.

Figura 7: Comparativa numero epocas en el entrenamiento de una red SOM basada en el algoritmoneural-gas y con 50 neuronas

12

3. Sistema de comunicacion basado en un esquema de multi-ples niveles caoticos

Sabemos que un mapa caotico viene dado por una expresion del tipo xn+1 = f(xn, xn−1, . . . , γ),donde γ representa el parametro o conjunto de parametros que determinan la dinamica del sis-tema, junto con las condiciones iniciales. Pues bien, se pretende construir un sistema de multiplesniveles logicos (M = 2l niveles logicos, siendo l el numero de bits por nivel), de modo que a cadauno de ellos se asocia una cierta senal caotica generada como xn+1 = fi(xn, xn1−, . . . , γj), coni = 1, 2, . . . , K y j = 1, 2, . . . , mk satisfaciendo m1 + m2 + . . . + mk = M . Si definimos

ck(t) =∞∑

n=n0

(m0+β+1∑m=m0

fi(xm, xm−1, . . . , γj)× rectTc(t− (n− n0)TM + (m−m0)Tc)

)

k = 1, 2, . . . , M (37)

donde

rectTC=

{1 0 ≤ t ≤ Tc

0 |t| > Tc

(38)

Por otro lado, se cumple

1 ≤ k ≤ m1 ⇒ i = 1m1 < k ≤ m2 ⇒ i = 2

... (39)mk−1 < k ≤ mk ⇒ i = K (40)

El esquema de comunicacion propuesto es el que recoge la figura 8. Receptor Símbolo decodificado p(t) n(t)

dq=`M´ dq=`2´ dq=`1´ c1(t) c2(t) cM(t)

s(t) Cálculo función autocorrelación: reseteo cada TM segundos RED NEURONAL Figura 8: Sistema de comunicacion basado en multiples niveles caoticos

Si definimos x(k)n+1 = fi(xn, xn−1, . . . , γj) como la senal caotica asociada al sımbolo ‘k’(con k

cumpliendo 40), la senal que se transmite por el canal de comunicacion correspondiente al sımboloq−esimo dq de una cierta secuencia de sımbolos es

v(q)(t) =

β−1∑u=0

x(1)u+(q−1)βrectTc (uTc + (q − 1)TM ] si dq = ‘1′

β−1∑u=0

x(2)u+(q−1)βrectTc (uTc + (q − 1)TM ] si dq = ‘1′

...β−1∑u=0

x(M)u+(q−1)βrectTc (uTc + (q − 1)TM ] si dq = ‘M ′

(41)

El receptor va a muestrear el canal de comunicacion cada Tc segundos. Si TM es el tiempo duranteel cual se transmite un sımbolo, y Tb es el tiempo asociado a un bit de informacion, tenemos queTM = l×Tb, siendo l el numero de bits por sımbolo. Por su parte, β es el factor de esparcimientoo ensanchamiento del espectro y se cumple TM = βTc, donde Tc es el tiempo de chip, es decir,el tiempo durante el cual se transmite una muestra de una cierta senal caotica. Suponiendo queexiste sincronizacion entre emisor y receptor, tras TM segundos el receptor ha recogido todas las

13

muestras de la senal caotica asociadas al sımbolo transmitido. Pues bien, a ese conjunto de βmuestras se le calcula la funcion de autocorrelacion, la cual servira de criterio para que una redneuronal, convenientemente entrenada, decida cual es el sımbolo que se transmitio. Ahora bien,¿por que utilizar una red neuronal? La respuesta es simple: el decidir que sımbolo se ha transmitidoes un problema de clasificacion, basado en la observacion de la funcion de autocorrelacion de la senalrecibida durante cada instante de tiempo TM , y la solvencia de la aplicacion de redes neuronalesa problemas de clasificacion esta mas que demostrada, pudiendo encontrarse un gran numero deejemplos en [7] y [8].

3.1. Eleccion del conjunto de senales caoticas a transmitir

Una vez presentado el esquema general, la siguiente labor a acometer es la de decidir e conjuntode M senales caoticas van a ser transmitidas a traves del canal de comunicacion. Los mapas caoticoscon los que se trabajo son

Mapa logıstico:

xn+1 = rxn(1− xn)0 ≤ r < 4 (42)

Mapa senoidal:

xn+1 = (a/4)sen (πn)0 ≤ a ≤ 4 (43)

Mapa de Henon:

xn+1 = yn + 1− ax2n (44)

yn+1 = byn (45)

Mapa de Duffing:

xn+1 = yn (46)

yn+1 = −bxn + ayn − y3n (47)

En el caso de los dos mapas bidimensionales considerados, la variable sobre la que se traba-jara sera xn.Para cada uno de aquellos mapas se determinaron los valores del parametro o parametros dinami-cos que hacen que el comportamiento del sistema fuera caotico. Para ello, se efectuo un analisisdel exponente de Lyapunov con objeto de hallar el valor mınimo que asegura un comportamientocaotico. En principio, un valor positivo de dicho exponente asegura un comportamiento como eldeseado. Ahora bien, el procedimiento aplicado para su determinacion es de corte aproximado, porlo que es preciso buscar esa cota inferior por encima de la cual estamos en condiciones de garantizarque la dinamica del sistema es caotica.

Dado que no vamos a transmitir todas las senales caoticas, lo que se trata es de establecerun criterio, un mecanismo que nos permita seleccionar M de aquellas senales. La red neuronala disenar va a clasificar las sucesivas senales recibidas examinando la funcion de autocorrelacionasociada a cada una de ellas. Por tanto, conviene de alguna manera sintetizar todas las funcionesde autocorrelacion de las senales caoticas por medio de M de ellas. Dicho de otro modo, convieneagrupar las funciones de autocorrelacion asociadas al conjunto total de senales caoticas en Mgrupos distintos. Fruto de este agrupamiento, el espacio de las funciones de autocorrelacion quedadividido en M hiper-esferas. A continuacion, para cada una de esas hiper-esferas se selecciona lasenal caotica cuya funcion de autocorrelacion esta mas proxima al centro de la misma. Se elige elcentro de la hiper-esfera para conseguir una mayor proteccion con respecto al ruido presente en elcanal de comunicacion. Al recibir la senal y calcular su funcion de autocorrelacion, el ruido presenteen el canal de comunicacion altera la misma. Ahora bien, si esa alteracion no es lo suficientementegrande como para que la funcion de autocorrelacion “salga” de la hiper-esfera a la que estaba

14

originalmente asociada, la red neuronal en principio clasificara adecuadamente la senal recibida. Ala hora de proceder con el agrupamiento de las funciones de autocorrelacion, los puntos a tener encuenta son:

Elegir un metodo adecuado. Se van a analizar 3 metodos:

• Mapas de Kohonen (ver 2.2.1).

• El algoritmo “neural-gas”(ver 2.2.2).

• El algoritmo EM.

Numero de muestras de la funcion de autocorrelacion que se van a tener en cuenta.

Numero maximo de grupos o clusters que se pueden crear.

3.1.1. Algoritmo EM

Este algoritmo considera el problema de agrupamiento como un problema de busqueda de lafuncion de distribucion de una cierta variable aleatoria x, a partir de N muestras de la misma.Dicha funcion de distribucion puede ser aproximada de 3 maneras distintas [8]:

1. Mediante una aproximacion parametricaSe asume una forma especıfica para la funcion de distribucion, la cual puede ser muy distintade la verdadera. Sin embargo, este tipo de modelos permiten evaluar de forma muy facil lafuncion de probabilidad para nuevos valores de x.

2. Mediante una aproximacion no parametricaEn este caso se trabaja con funciones de distribucion generales, lo que se traduce en un modelocuya complejidad crece con el numero de datos empleados en la fase de entrenamiento, loque hace que sea muy complejo evaluar nuevas entradas.

3. Mediante modelos mixtosEste tipo de modelos combinan las ventajas de los anteriores, de ahı que se diga que sonmetodos semi-parametricos. En un modelo mixto la funcion de distribucion de los datos deentrada es modelada como

p(x) =M∑

j=1

p(x|j)P (j) (48)

y se denomina distribucion mixta. Los coeficientes P (j) con los parametros mixtos. Estosparametros deben cumplir

M∑

j=1

P (j) = 1 (49)

0 ≤ P (j) ≤ 1 (50)∫p(x|j)dx = 1 (51)

Todos los modelos mixtos que aquı se citan se basan en el concepto de funcion de verosimilitud.Si los parametros que definen el modelo se designan como θ la funcion de verosimilitud para cadauna de las funciones base del modelo (p(x|θ) es

L(θ) ≡ p(x|θ) =N∏

n=1

p(xn|σ) (52)

El objetivo sera maximizar esta funcion para el conjunto de las M funciones base. Sin embargo, esmas habitual trabajar con la expresion equivalente

E = − ln(L(θ)) (53)

lo que lleva a

E = − ln(L) = −N∑

n=1

ln p(xn) =N∑

n=1

ln

M∑

j=1

p(xn|j)p(j)

(54)

15

Si suponemos que cada una de las funciones base es gaussiana

p(x|j) =1

(2πσ2j )d/2

e− ||x−µ

j||22σ2

j (55)

se podrıa pensar en buscar los parametros µj, σj y P (j) que minimizan la expresion (54). El

problema es que los datos de entrada no estan etiquetados, esto es, no se sabe a que clase pertenecena priori, con lo que maximizacion directa de la funcion de verosimilitud lleva a un problema deoptimizacion no lineal sin solucion analıtica. Pues bien, el algoritmo EM [9] pretende solventaresta circunstancia. Supongamos que tenemos un conjunto de datos completo, es decir, para cadaentrada xn se conoce la componente del modelo mixto que la genera. Dicho de otro modo, cadaentrada xn lleva asociada una variable zn que toma un valor entero comprendido entre 1 y M .Dicho valor indica la componente del modelo que genera la entrada en cuestion. Por tanto, la nuevafuncion de error a minimizar vendra dada por

Ecomp = − ln Lcomp = −N∑

n=1

ln pnueva(xn, zn) = −N∑

n=1

ln {pnueva(zn)pnueva(xn|zn)} . (56)

Ahora bien, el valor de pnueva(zn) no es conocido. El primer sera, pues, calcular de forma aproxi-mada lso valores de los parametros del modelo mixto (los valores “viejos”) y despues usarlos juntocon el teorema de Bayes para encontrar la probabilidad asociada a zn. Este valor sera utilizadopara determinar el valor esperado de Ecomp en la fase de calculo de esperanzas o fase E del al-goritmo EM . Despues de esto, en la fase de maximizacion o fase M el valor esperado de (56)permite encontrar los nuevos parametros del modelo. El metodo es sintetizado matematicamentea continuacion

E [Ecomp] =M∑

z1=1

· · ·M∑

zN=1

EcompN∏

n=1

pvieja(zn|xn) (57)

Ecomp = −N∑

n=1

M∑

j=1

δjzn ln {pnueva(j)pnueva(xn|j)} . (58)

Sustituyendo (58) en (??), y teniendo en cuenta

M∑z=1

pvieja(z|xn) = 1 (59)

se llega a

E [Ecomp] = −N∑

n=1

M∑

j=1

pvieja(j|xn) ln {pnueva(j)pnueva(xn|j)} (60)

cuya minimizacion conduce a los nuevos parametros del modelo

pnueva(j) =1N

N∑n=1

pvieja(j|xn) (61)

σnuevaj

2 =1p

N∑n=1

pvieja(j|xn)∣∣∣∣xn − µnueva

j

∣∣∣∣2

N∑n=1

pvieja(j|xn)(62)

µnuevaj

=

N∑n=1

pvieja(j|xn)xn

N∑n=1

pvieja(j|xn)(63)

El algoritmo EM es iterado hasta que se alcanza un cierto valor umbral mınimo para (57), ohasta que se alcance un cierto numero de iteraciones, segun se prefiera. Tras esta operacion sehabra conseguido dividir el espacio de entradas en M hiper-esferas con centro µ

jy radio σj . El

representante de la clase j es aquel vector xn1 tal que

p(j)p(xn1 |j) > p(j)p(xn|j) ∀n 6= n1 (64)

16

3.2. Clasificacion de la senal recibida: diseno de una red neuronal

Hasta este punto hemos obtenido las M senales caoticas que van a constituir el sistema decomunicacion, con lo que el siguiente paso sera crear un sistema que, observando la funcion deautocorrelacion de la senal obtenida a la entrada del receptor tras TM muestreando a una tasade Tc segundos. Tal y como se reseno anteriormente, tal problema no es mas que una problemade clasificacion donde la figura a clasificar es la funcion de autocorrelacion. Por ello, dada lasolvencia de las redes neuronales en problemas de clasificacion, esta sera la herramienta a emplearen la decodificacion de la informacion enviada a traves del canal enmascarada mediante caos. Enconcreto, se van a presentar y, posteriormente, analizar mediante simulaciones 2 tipos de redesneuronales:

1. Mapas auto-sintonizables o mapas SOM (Self-Organizing Maps).Ejemplos de la solvencia de los mapas SOM en problemas de clasificacion pueden encontrarseen [10]-[13], donde se utiliza tanto el modelo de Kohonen como el algoritmo “neural-gas”.El entrenamiento de los mapas SOM se lleva a cabo del mismo modo que se indico en 2.2.1en el caso de trabajar con mapas de Kohonen, o bien como se reseno en 2.2.2 en el caso deemplear el algoritmo “neural-gas”. De forma sucinta, se calcula un conjunto de p muestras dela funcion de autocorrelacion de un grupo suficientemente grande de senales caoticas para, acontinuacion, llevar a cabo un proceso de clustering o agrupamiento del espaciop-dimensional generado a partir de la funcion de autocorrelacion. De este modo, la “esencia”de la dinamica de aquel espacio p-dimensional queda concretada en M neuronas, cada unade las cuales lleva asociado un peso de dimension p. Tras el proceso de entrenamiento, yuna vez etiquetas las distintas neuronas del mapa, el receptor dispone de un mecanismo queva a clasificar el conjunto de β muestras recibidas durante un intervalo de duracion TM ,atendiendo a la proximidad, respecto de cada neurona, de las p primeras muestras de lafuncion de autocorrelacion asociada a aquellas β muestras de la senal recibida. Esto es, elreceptor considera que ha recibido el sımbolo i-esimo cuando la neurona i del mapa neuronales aquella cuyo vector de pesos es el mas cercano euclıdianamente al vector determinado porlos p primeros valores de la funcion de autocorrelacion de las β muestras recibidas.

2. Redes neuronales artificiales basada en funciones radiales base (redes RBF-ANN ).Las redes RBF-ANN ha sido aplicadas exitosamente en el modelado de secuencias caoticasbasadas en el mapa logıstico [14]-[16], ası como en problemas de clasificacion y quantizaciondel espacio de entradas

3.2.1. Entrenamiento de las redes artificiales basadas en funciones radiales base(RBF-ANN)

La arquitectura de este tipo de redes viene dada por la figura 9, donde

ϕi(x) = e(x−ci)T R−1

i (x−ci) i = 1, 2, . . . , S (65)

son las funciones base, con lo que el entrenamiento de la red se traduce en la busqueda de los centrosci, de las matrices Ri y de los distintos pesos. Con respecto a las matrices Ri, seran consideradasdiagonales con elementos identicos e iguales a ri, esto es, el radio de la i-esima funcion base.

ϕ1

ϕi

ϕS

x1

xj

xp

?

?

?

w11

wMS

y1

yk

yM

w10

wk0

wM0

Figura 9: Esquema redes RBF-ANN

17

Con este esquema, si una cierta entrada pertenece a la clase i-esima se esperarıa que la salidayi sea igual a 1, mientras que el resto de salidas de la red son nulas. En la practica, se dira queuna cierta entrada pertenece a la clase j-esima cuando la salida yj > yk para todo k 6= j.

Determinacion de los centros y radios de las funciones baseSe analizan tres mecanismos para calcular los centros y radios de las funciones base:

1. Mediante clustering con redes SOM segun el algoritmo de Kohonen o el “neural-gas”.Tras el proceso de agrupamiento, el mapa SOM presenta M neuronas, siendo M = S elnumero de funciones base. Pues bien, los pesos asociados a cada una de esas neuronas van aser los centros de las funciones base, mientras que para la determinacion del radio de cadafuncion base es preciso etiquetar previamente las entradas disponibles en el entrenamientode la red: una cierta entrada se considera que pertenece a la clase i si la neurona mas cercanaa ella, desde un un punto de vista euclidiano, es la asociada a la funcion base i. Hay quehacer ver que cuando se habla de neurona mas cercana, en realidad se hace mencion alvector de pesos de dicha neurona. Una vez etiquetadas todas las entradas, se construye lamatriz Xi a partir de las ni entradas usadas en el entrenamiento y que estan asociadas ala clase i. Dicha matriz es de dimensiones ni × p, y sus filas son cada uno de los vectoresp-dimensionales marcados con la etiqueta ‘i′. Pues bien, a partir de tal matriz se estima lamatriz de covarianza de la clase i, determinando previamente el vector de medias como

media(i) =1ni

ni∑

j=1

p∑

k=1

Xi(j, k) (66)

y construyendo una nueva matriz X ′i restando a cada fila de la matriz Xi el vector de mediasdado por (66), con lo que finalmente

covarianza(i) =(X ′i)T X ′i

ni − 1. (67)

El radio asociado a la funcion base i sera el maximo de los valores diagonales de la matrizde covarianzas asociada a tal funcion.

2. Construyendo redes de tipo GMM (Gaussian Mixture Models).Las funciones base de la red neuronal pueden ser interpretadas como las componentes de unmodelo mixto [8], cuyos parametros deber ser optimizados en orden a alcanzar la maximaverosimilitud. De nuevo el numero de funciones base, i.e. S, es igual al numero de niveleslogicos , i.e. M . Por consiguiente, la funcion de distribucion de las entradas a la red se modelacomo

p(x) =M∑

j=1

p(j)ϕj(x). (68)

Por tanto, la situacion que tenemos es la misma que se describio en 3.1.1. Esto es, los centrosy radios de las diversas funciones base seran los parametros µ

jy σ2

j (j = 1, 2, . . . , M)que resultan de aplicar el algoritmo EM al conjunto de entradas disponibles en la fase deentrenamiento.

3. Mediante la utilizacion de arboles de regresion.Siguiendo [19], se presenta un metodo que lleva a cabo la determinacion de los centros yradios de las funciones de base radial explotando las virtudes de los arboles de regresion. Esteesquema requiere el etiquetado de todos los datos a emplear en el proceso de entrenamiento.Este etiquetado no es sino el agrupamiento del espacio de entradas y la asignacion de cada unade las entradas a un grupo o cluster de los generados. Ello se hara considerando la mınimadistancia en sentido euclidiano de la entrada respecto al centro de los distintos grupos. Comoconsecuencia de esta clasificacion, cada entrada tiene asignado un entero que referencia elgrupo al que pertenece. De este modo, para cada entrada xi la salida yi sera el entero quedetermina el grupo al que pertenece la entrada en cuestion. Pues bien, la red de la figura 10va a ser entrenada de modo que la salida de la misma sea ese entero, esto es, el grupo al quepertenece la entrada. El proceso de entrenamiento se va a llevar a cabo dividiendo por dosel espacio de entradas de forma sucesiva. En primer lugar, se genera un nodo raız como elhiper-rectangulo mas pequeno que contiene a todo el conjunto de entradas consideradas enel entrenamiento.

18

ϕ1ϕiϕS

x1xjxp

?

w1Syw1i

w11w10

Figura 10: Red RBF mediante arboles de regresion

Para cada dimension k se define la anchura sk y el centro ck del hiper-rectangulo

sk =12

(maxi∈Q

(xik)−mın

i∈Q(xi

k))

(69)

ck =12

(maxi∈Q

(xik) + mın

i∈Q(xi

k))

(70)

donde Q = [1, 2, . . . , N ] es el conjunto de ındices asociados al grupo de entradas a emplearen el entrenamiento de la red neuronal. El nodo raız es dividido en dos subconjuntos QR yQL, estando formando cada uno de ellos por las entradas que, segun la dimension k, quedana la derecha o a la izquierda respectivamente de un cierto valor frontera b, esto es

QL ={i : xi

k ≤ b}

QR ={i : xi

k > b}

(71)

Si se define < yR > e < yL > como el valor medio de la salida a ambos lados del valorfrontera, el valor del error residual cuadratico del modelo respecto de los datos reales es

E(k, b) =1N

∑

i∈QL

(yi− < yL >)2 +∑

i∈QR

(yi− < yR >)2

(72)

La particion que genera el mınimo valor de (72) para todas las posibles elecciones de k yb es utilizada para dar lugar a los hijos del nodo raız, y es hallada mediante una busquedadiscreta sobre las p dimensiones patentes (los vectores de entrada tienen d componentes) ylas N entradas disponibles. Este procedimiento se repite iterativamente hasta que los hijosgenerados contengan menos de Nmin muestras. Una vez generado el arbol es necesario llevara cabo el diseno de la red RBF a partir del mismo. Es decir, es necesario ejecutar unaaplicacion de cada uno de los hiper-rectangulos generados -cuyo centro y anchura mitad sedeterminan a traves de las muestras contenidas en los nodos terminales del arbol y segun (69)y(70)- sobre la red RBF, para lo cual el centro c de cada uno de aquellos hyper-rectangulossera el centro de una funcion base, mientras que el radio vendra determinado por el tamanos de cada hiper-rectangulo escalado mediante un cierto parametro Λ (que es el mismo paratodos los nodos del arbol), por tanto ri = Λsi. Sin embargo, la determinacion de los radios ycentros de las funciones base no concluye aquı, tanto en cuanto puede que existan demasiadoshiper-rectangulos en el arbol generado, por lo que puede resultar conveniente seleccionar unconjunto de ellos. El metodo que selecciona el conjunto adecuado de hiper-rectangulos se basaen los conceptos de lista activa de nodos y de criterio de seleccion de modelo. En un ciertomomento del proceso de seleccion, solo los nodos incluidos en la lista activa, junto con losnodos hijos de los mismos, seran tenidos en cuenta para su inclusion o exclusion del modelo.Cada vez que una funcion base es incorporada o substraıda del modelo, la lista activa seexpande sustituyendo los nodos vinculados por sus nodos hijos. La seleccion concluira cuandola lista solo este constituida por nodos terminales. Por otro lado, el criterio de seleccion demodelo es un metodo heurıstico para predecir la calidad de una red entrenada cuando se lepresenten entradas desconocidas. Entre los distintos criterios existentes se utilizara el criteriobayesiano de informacion (BIC). En el metodo de seleccion se pueden discernir 3 fases:

19

a) Inicializar la lista activa con el nodo raız. Asimismo, dicho nodo raız constituira laprimera funcion base del modelo.

b) Para todos los nodos no terminales en la lista activa, se estima el efecto (segun el criteriode seleccion de modelo) de incorporar ambos o uno solo de sus hijos como centro y radiode nuevas funciones base. Si el padre ya ha sido utilizado para generar una funcion base,ademas se considera el efecto de primero eliminar la funcion base generada a partir deel e incorporar una o dos nuevas funciones base a partir de uno o de sus dos nodoshijos (es decir, se pueden efectuar tres modificaciones del modelo). Ademas se analizala posibilidad de eliminar sin mas el nodo padre (una cuarta posible modificacion delmodelo).

c) El numero de posibles ajustes del modelo esta entre tres o siete veces el numero de nodosactivos no terminales, dependiendo de cuantas funciones base existan en el modelo. Detodas las posibilidades se escoge aquella que hace mınimo el criterio de seleccion demodelo. A continuacion se adapta el modelo eliminando el nodo involucrado de la listaactiva e incorporando a la lista los hijos del mismo. Si ninguna de las posibilidadeshace decrecer el criterio de seleccion de modelo, entonces se elige al azar uno de losnodos activos y se sustituye por sus hijos pero dejando el modelo, esto es, el conjuntode funciones base inalterado.

Determinacion de los pesosEl primer paso en la determinacion de la red neuronal sera, en el caso de no haber sido efectuada,

la clasificacion de las N entradas. En el supuesto de haber optado por redes SOM, el etiquetadose lleva a cabo atendiendo a la proximidad, desde el punto de vista euclidiano, de cada entradade dimension p respecto a cada una de las M neuronas resultado del proceso de agrupamiento oclustering. En definitiva, a una cierta entrada se le asigna la etiqueta ‘i′ cuando el vector de pesosde la neurona ‘i′ del mapa SOM es el mas cercano a ella. Si se ha empleado el algoritmo EM,una cierta entrada x es etiquetada como perteneciente a la clase j (i.e., se le asocia la etiqueta ‘j’)cuando

p(j)p(x | j) > p(x | k) ∀k 6= j (73)

donde p(j) y p(x | j) fueron definidas al hablar del algoritmo EM.Una vez etiquetadas las entradas es posible construir las parejas entrada-salida necesarias para

llevar a cabo el entrenamiento. En el caso de estar trabajando con una red como la representadaen figura 9, si la entrada n (xn) pertenece a la clase i-esima, entonces la salida del a red sera

tn = [tn1 tn2 . . . tnM ]T (74)

mientras que si la red el del tipo representado en la figura 10

tn = i (75)

Por otro lado, la salida de la red neuronal viene dada por

yk(x) =S∑

j=0

wkjϕj(x) (76)

con k = 1, 2, . . . , M en el caso de una red com la de la figura 9, mientras que si la red es del tipodefinido en la figura 10 se tiene k = 1 (una sola salida). En (76) se ha anadido una funcion baseextra dada por ϕ0 = 1. De forma matricial se puede expresar

y = Wϕ (77)

donde W = (wkj) y ϕ = (ϕj) con j = 1, 2, . . . , S ,con lo que ϕ es un vector columna de longitud S,mientras que W es una matriz con tantas filas como salidas presenta la red neuronal y S columnas.De este modo, la funcion suma de errores cuadraticos es

E = 1/2N∑

n=1

M∑

k=1

[yk(xn)− tnk ] (78)

Pues bien, los pesos de la red neuronal se determinaran minimizando (78), es decir, son la solucionde un problema de mınimos cuadrados, con lo que vendran dados como

WT = ϕ#T (79)

20

donde ϕ# es la matriz pseudoinversa de ϕ (i.e., ϕ# = (ϕT ϕ)−1ϕT ) y (T )nk=tnk , (ϕ)nj = ϕ(xn),con n = 1, 2, . . . , N y j = 0, 1, 2, . . . , S (N es el numero de parejas entrada-salida empleadas enel entrenamiento de la red neuronal). Esto es, ϕ es una matriz N filas y S + 1 columnas, mientrasque T tiene N filas y tantas columnas como salidas presenta la red neuronal.

3.3. Simulaciones: resultados y conclusiones

3.3.1. Agrupamiento mediante el algoritmo EM

Se van a analizar las prestaciones del algoritmo EM cuando es aplicado al agrupamiento oclustering del conjunto de vectores de dimension p construidos mediante las p primeras muestrasde la funcion de autocorrelacion de los mapas caoticos presentados en 3.1. Se determinaron lasregiones (los valores del parametro que controla la dinamica del sistema) en las que los distintosmapas generaban un comportamiento caotico. Utilizando aquellos resultados se genero un conjuntode 7323 senales caoticas (N = 7323), que constituira de aquı en adelante el grupo de senalessobre las que se va a trabajar. Pues bien, a cada una de esas senales se le calculo su funcion deautocorrelacion, que sera el elemento sobre el cual se construye el mecanismo de decodificacion enel receptor. La primera cuestion a resolver sera, consiguientemente, el numero de muestras p de lafuncion de autocorrelacion a tener en cuenta, mientras que el segundo aspecto a analizar sera elcomportamiento del sistema de agrupamiento para diversos numero de niveles M . Por tanto, esnecesario establecer algun criterio que permita juzgar la calidad del sistema, ası como los valores dep y de M mas convenientes. Lo que interesa es que el conjunto de M senales elegidas de entre el totalde 7323 posibles constituya un sistema lo mas robusto posible. Dicho de otro modo, conviene que,elegidos los M representantes, variaciones respecto a las funciones de autocorrelacion originalesno alteren, en la medida de lo posible, el proceso de clasificacion, esto es, que el representantenumero i siga siendo clasificado como perteneciente a la clase i cuando, fruto de la presencia deruido, su funcion de autocorrelacion se ve alterada. Recordando que el representante de la clase j,en el caso de emplear el algoritmo EM para el agrupamiento, venıa dado por (64), se va a sumara cada una de las p primeras muestras de la funcion de autocorrelacion asociada a cada uno delos M representantes, un numero aleatorio generado a partir de funcion de distribucion uniformeentre −A y A, considerando que A puede tomar los valores 0.001 + 0.01K con K = 0, 1, . . . , 9.Para cada uno de los valores de K se verificara si el sistema sigue clasificando o etiquetando alrepresentante j como perteneciente a dicha clase, comprobacion que se efectuara 1000 veces (esdecir, se realizaran 1000K tests). En la figura 11 aparecen recogidos los resultados obtenidos parap = 4, 5, 6 y 7, y valores de M = 16, 32, 64, 128, 256 (es decir, de 4 a 8 bits de informacion porsımbolo).

4 5 6 7 80.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Numero de bits por símbolo

Pre

cisi

ón m

edia

p=4p=5p=6p=7

Figura 11: Precision para el algoritmo EM para distintos valores de p y M

Ahora bien, tambien conviene analizar la carga computacional asociada a los diversos valoresde p y M . Dicha carga computacional se medira como el numero medio de operaciones en precisionflotante por epoca, siendo una epoca el tiempo que tarda el algoritmo en procesar los N datos a

21

agrupar. En el caso que nos ocupa, el algoritmo EM se aplico para 100 epocas (100×N iteraciones)en todas las situaciones, observandose que para valroes de M superiores a 256 y p superior a 4el parametro σj se hacia demasiado pequeno, si el numero de epocas era demasiado elevado. Demodo que, debido a problemas de precision, en lugar de disminuir la verosimilitud, esta divergıa.Por ello, el proceso se restringio a 20 epocas para p = 5, a 4 epocas para p = 6 y a 3 epocas parap = 7. Siguiendo estos requisitos, la carga computacional observada aparece resumida en la figura12.

Numero de niveles (M = 2l)

Num

ero

de

opera

cio

nes

flota

nte

spor

epoca

Figura 12: Complejidad del algoritmo EM para distintos valores de p y de M

A la vista de las graficas se concluye que una buena eleccion de la dimension de entrada serıap = 5 para valores pequenos de M , y p = 6 para M > 32. Se comprueba que al aumentar p crececonsiderablemente la carga computacional asociada al algoritmo, mientras que la mejora, en cuantoa precision, no es tan destacable.

3.3.2. Agrupamiento mediante SOM: comparacion con los resultados generados porel algoritmo EM

Partiendo de los resultados del apartado anterior, se procedio a agrupar el espacio determinadopor las 5 primeras muestras de la funcion de autocorrelacion de cada una de las senales caoticas.El primer factor observado fue la ventaja del algoritmo “neural-gas” sobre los mapas de Kohonen,tanto en cuanto estos ultimos requieren un numero mucho mas elevado de epocas para conseguirseleccionar un conjunto M de representantes. De este modo, para M > 16 se requiere un numerode epocas superior a 6000 para poder seleccionar M c representantes adecuados. En consecuencia,las mapas de Kohonen se descartaron como mecanismo de agrupamiento, quedandoreducido el posterior analisis al algoritmo “neural-gas”. En este caso la robustez del sistema deagrupamiento se calcula observando que neurona (el vector de pesos asociado a la neurona, paraser mas exactos) esta mas cerca del vector que se obtiene al sumar a las p primeras muestras dela funcion de autocorrelacion del representante de una cierta clase, un ruido del mismo tipo que elutilizado en la seccion anterior.Para el representante de la clase j, con j = 1, . . . , M , se realizanun total de 1000K tests, contabilizando el numero de situaciones favorables, esto es, aquellas enlas que la neurona mas proxima al vector de entrada (funcion de autocorrelacion + ruido) es laasociada a la clase j. Como resultado de este analisis. Los resultados obtenidos para p=5 aparecenen la figura 13, donde estos son comparados con los obtenidos mediante el algoritmo EM paradiversos valores de p. A la vista de dicha grafica se concluye que interesa utilizar el algoritmo“neural-gas” como metodo para la eleccion de los M representantes que se enviaran a travesdel canal de comunicacion.

22

Numero de sımbolos (M)

Pre

cis

ion

media

Figura 13: Comparativa algoritmo EM y “neural-gas”

3.3.3. Eleccion de la red artificial RBF adecuada

En este apartado se va a comparar los distintos metodos descritos en 3.2.1 para el diseno de lasredes artificiales basadas en funciones de base radial. Para ello, las senales sobre las se desplegaranlas distintas pruebas y simulaciones son obtenidos a partir unicamente del mapa logıstico. En primerlugar se considera el caso en el que se trata de aproximar la funcion de distribucion asociada alespacio de entradas por medio del algoritmo EM . Como resultado de tal aproximacion, el espaciode entradas queda dividido en M hiper-esferas de radios y centros conocidos, con lo que se sabea que clase pertenece cada entrada. Tras el etiquetado, el siguiente paso es determinar el numerode neuronas, ası como el centro y radio de cada una de ellas. Si se utilizan redes GMM, el numerode neuronas viene dado por el numero de niveles logicos M , mientras que el centro y radio decada neurona se obtiene mediante el algoritmo EM . Ahora bien, en el caso de utilizar arboles deregresion, el numero de neuronas no es conocido hasta concluir con el diseno y posterior analisis delcitado arbol de regresion, siendo en general distinto y superior a M . Otro factor a tener en cuentaes el caracter aleatorio de la determinacion de los parametros del modelo mixto al aplicar el metodoEM , lo que obliga a simular las redes disenadas para distintos modelos o resultados del etiquetadoo agrupamiento del espacio de entradas. En concreto, se realizaron 30 analisis distintos del espaciode entradas, cada uno de los cuales se utilizo para contrastar el comportamiento de los dos tiposde redes citados, realizandose un total de 100 experimentos por modelo, esto es, se llevaron a cabo3000 tests sobre cada uno de los dos tipos de redes desarrollados a partir de un etiquetado delespacio de entradas fundamentado en el algoritmo EM . Antes de mostrar los resultados de lassimulaciones, es conveniente decir que el algortimo EM , en el caso que nos ocupa, fue iterado unmaximo de 1000 veces, lo que llevo a un proceso de diseno muy lento, pero muy preciso. Ademas,para M mayor o igual a 64 se plantearon problemas de convergencia del algoritmo de la mismanaturaleza que los citados en 3.3.1, con lo que se concluye que es conveniente iterar el algoritmoEM un numero de veces no excesivamente elevado. Dicho de otro modo, es necesario buscar uncompromiso entre rapidez y precision.

En primer lugar, se decidira que tipo de red conviene emplear. Para ello, se llevaron a cabouna serie de pruebas con los dos modelos de redes RBF propuestos, esto es, las redes GMM y lasredes basadas en arboles de regresion. Dichas pruebas partıan de los valores de parametros M = 16,β = 400. En la grafica 14 aparecen los resultados obtenidos para diversos valores de la dimension delas entradas p. A la vista de dicha figura, se concluye la superioridad de las redes GMM frentea los arboles de regresion. Por otro lado, las figuras 15 y 16 muestran los resultados obtenidosal trabajar con redes GMM para M = 32 y M = 64 respectivamente. Antes de continuar, cabedestacar que en las graficas que se iran presentado, la escala del eje de ordenadas es logarıtmica.Por tanto, cuando se tenga un valor nulo de probabilidad de error en la grafica correspondiente noaparece punto alguno, pues en escala logarıtmico un valor nulo toma valor infinito. Dicho esto, lasgraficas que se acaban de mencionar muestran que se logra reducir la probabilidad de error sin masque aumentar la dimension del espacio de entradas. Ahora bien, esto se cumple siempre que p < 7,

23

0 10 20 30 40 50 60 700

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

Red árbol de regresiónRed GMM

(a) p = 2

0 10 20 30 40 50 60 700

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(b) p = 3

0 10 20 30 40 50 60 700

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(c) p = 4

Figura 14: Comparativa redes GMM con redes de arboles de regresion para M = 16

pues para valores superiores se constata una degradacion en el comportamiento de nuestro sistema.Esto es debido a lo que se conoce como maldicion de la dimension. En efecto, para valores de psuperiores a 7 el modelo no solo crece en complejidad (aumenta la carga computacional asociadatanto al proceso de agrupamiento como al diseno y calculo de salidas de la red neuronal), sinoque ademas aumenta la influencia del ruido. Es decir, para valores de la dimension del espacio deentradas demasiado elevados el sistema aprehende defectos presentes en el conjunto de datos deentrada, lo que se traduce en un deterioro de sus prestaciones.

El siguiente paso sera decidir respecto al metodo de busqueda de centros y radios de las funcionesde base radial. Los dos metodos propuestos son los algoritmos EM y “neural-gas”. Con este finse efectuaron 3000 pruebas sobre la red construida segun la arquitectura referenciada en la figura9 y utilizando el algoritmo “neural-gas”, considerandose diversos valores de la relacion senal aruido en el canal de comunicacion y para M = 16, 32. En las figuras 17 y 18 se comparan los dosprocedimientos, comprobandose la superioridad de las redes GMM con centros y radios dadospor un agrupamiento del espacio de entradas fundamentado en el algoritmo “neural-gas”.

24

0 10 20 30 40 50 60 7010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=2p=3p=4p=5

(a)

0 5 10 15 20 25 30 35 40 45 5010

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=6p=7p=8p=9

(b)

Figura 15: Comportamiento de una red GMM para M = 32 y distintos valores de dimension deentrada

0 10 20 30 40 50 60 7010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=2p=3p=4p=5p=7

Figura 16: Comportamiento de una red GMM para M = 64 y distintos valores de dimension deentrada

0 2 4 6 8 10 12 14 16 18 20

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=4 ’neural−gas’p=4 EM

Figura 17: Comparativa entre la determinacion de centros y radios mediante los algoritmos EM y“neural-gas” para p = 4 y M = 16

25

0 10 20 30 40 50 6010

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=6 ’neural−gas’p=6 EM

Figura 18: Comparativa entre la determinacion de centros y radios mediante los algoritmos EM y“neural-gas” para p = 6 y M = 32

0 5 10 15 20 2510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=3p=4p=5

(a) M = 16

0 5 10 15 20 25 3010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=3p=4p=5

(b) M = 32

0 5 10 15 20 25 30 3510

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=3p=4p=5

(c) M = 64

Figura 19: Redes GMM con centros y radios mediante el algoritmo “neural-gas” para distintosvalores de M y p

3.3.4. Eleccion de la red neuronal adecuada: comparacion entre redes RBF y redesSOM

Hasta este punto se tiene que las M senales a enviar como representantes de los distintosniveles logicos se obtendran vıa agrupamiento mediante el algoritmo “neural-gas”, el cual tambien

26

sera empleado para la seleccion de los centros y radios de las funciones base de las redes neuronalesRBF. El siguiente punto a satisfacer es determinar si conviene emplear la arquitectura dada porla figura 9 -arquitectura GMM-, o bien es preferible hacer uso de una red SOM, en este casoentrenada mediante el algoritmo “neural-gas”. Con este objetivo se analizo el comportamiento delos dos tipos de redes recien citados, para distintos valores de M (i.e., el numero de niveles logicos),distintos valores de p y diversos valores de la relacion senal a ruido en el canal de comunicacion.Del analisis se concluyo que solo cuando la dimension del espacio de entradas, esto es, el numerode muestras de la funcion autocorrelacion es igual a 5 se lograba alcanzar 128 niveles logicos,siendo imposible aumentar tal numero con el numero de senales caoticas disponibles. Sin embargo,esto no es un problema, ya que el numero de senales caoticas de partida (antes del proceso deagrupamiento) puede ser aumentado tanto como se desee. Hecha esta aclaracion, la figura 20 recogeel comportamiento de una red SOM basada en el algoritmo “neural-gas” para distintos valores deM y de p. Se verifica que la eleccion de un espacio de entradas de dimension 5 (i.e., p = 5) garantizaunas buenas prestaciones, pues para relaciones de senal a ruido no muy elevadas (bastan 30 dBspara M ≤ 64) se clasifican de forma correcta todas las senales previamente enviadas a traves delcanal de comunicacion. En la figuras 21, 22, 23 y 24 estos resultados son contrastados con losobtenidos al usar redes GMM con centros y radios calculados mediante el algoritmo “neural-gas”.Las graficas indican la superioridad de las redes SOM , sobre todo cuando se trabaja con 128niveles logicos. Por ultimo, en base a los diversas graficas, se concluye que una buena eleccion encuanto a la dimension del espacio de entradas es p = 5.

0 5 10 15 20 2510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=3p=4p=5

(a) M = 16

0 5 10 15 20 25 3010

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=3p=4p=5

(b) M = 32

0 5 10 15 20 25 30 3510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

p=3p=4p=5

(c) M = 64

Figura 20: Redes SOM entrenadas mediante el algoritmo “neural-gas” para distintos valores de My p

27

0 5 10 15 20 2510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

SOM ’neural−gas’GMM ’neural−gas’

(a) p = 3

0 5 10 15 20 2510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(b) p = 4

0 5 10 15 20 2510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(c) p = 5

0 5 10 15 20 2510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

SOM gas p=5GMM gas p=4

(d) p optima

Figura 21: Comparativa entre redes SOM y redes GMM basadas en el algoritmo “neural-gas” paraM = 16

0 5 10 15 20 25 3010

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(a) p = 3

0 5 10 15 20 25 3010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(b) p = 4

0 5 10 15 20 25 3010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(c) p = 5


28

0 5 10 15 20 25 30 3510

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(a) p = 3

0 5 10 15 20 25 30 3510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(b) p = 4

0 5 10 15 20 25 30 3510

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


(c) p = 5


0 5 10 15 20 25 30 35 4010

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror


Figura 24: Comparativa entre redes SOM y redes GMM basadas en el algoritmo “neural-gas” paraM = 128 y p = 5

El estudio practicado nos ha permitido dilucidar la dimension del espacio de entradas y el tipode red neuronal a utilizar. Sin embargo, no se ha realizado comentario alguno respecto al parametrode ensanchamiento de espectro. En efecto, en todos las simulaciones que han sido mostradas setiene β = 100. La pregunta: ¿conviene aumentar o disminuir el valor de este parametro? De formaintuitiva, si se aumenta el valor de β cabrıa esperar esperar una mejora en el comportamiento dela red seleccionada para la decodificacion, ya que, al enviar mas muestras a traves del canal decomunicacion, la influencia del ruido sobre las p primeras muestras de la funcion de autocorrelaciondisminuye, es decir, el efecto global del ruido se reduce. De forma teorica se puede demostrar que lasenal recibida al aumentar el valor de β hace disminuir la varianza de la funcion de autocorrelacionobtenida en el receptor [20], lo que, en definitiva, se traduce en una mayor robustez del proceso

29

de clasificacion respecto del ruido presente en el canal de comunicacion. Ahora bien, el aumentode β es concomitante con el del ancho de banda de la senal transmitida, circunstancia del todocontraproducente en el caso de que existan limitaciones al respecto del ancho de banda disponiblepara el intercambio de informacion. La figura 25 compara el rendimiento del sistema para β = 100con el del sistema para β = 1000. Para valores inferiores a 5 dBs no se consigue practicamentemejora alguna, pero a medida que SNR crece por encima de 5 dBs no se observa practicamentemejora alguna, pero a medida que SNR crece por encima de aquel valor la mejora derivada delaumento del factor de ensanchamiento es ostensible. De hecho, para los diversos valores de M elvalor mınimo de SNR a partir de la cual la probabilidad de error se reduce practicamente a cero,disminuye practicamente en unos 5 dBs. Ası, cuando β = 1000 y M = 16 se requiere en el canal unaSNR de unos 15 dBs para que la probabilidad de error tienda a cero (para SNR = 20 dBs se obtuvouna probabilidad de error aproximadamente nula), mientras que para β = 100 se requerıan al menos20 dBs. Esta misma circunstancia se aprecia para M = 32, M = 64 y M = 128, concluyendoseque un aumento del coeficiente de ensanchamiento lleva asociado una reduccion de la probabilidadde error en el receptor, siendo conveniente hacer β tan grande como las caracterısticas espectralesdel sistema nos permitan.

0 2 4 6 8 10 12 14 16 18 2010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

β=100, p=5β=1000, p=5

(a) M = 16

0 5 10 15 20 25 3010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

β=100, p=5β=1000, p=5

(b) M = 32

0 5 10 15 20 25 3010

−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

β=100, p=5β=1000, p=5

(c) M = 64

0 5 10 15 20 25 30 3510

−4

10−3

10−2

10−1

100

SNR dBs

Pro

babi

lidad

med

ia d

e er

ror

β=100, p=5β=1000, p=5

(d) M = 128

Figura 25: Comparativa entre redes SOM con β = 100 y β = 1000

30

Lista de figuras

1. Falsos vecinos proximos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42. Busqueda de τ mediante informacion mutua . . . . . . . . . . . . . . . . . . . . . . 93. Porcentaje de falsos vecinos en funcion de la dimension de embebido para el mapa

logıstico con r = 3.97 y τ = 14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94. Senales normalizadas empleadas en las simulaciones . . . . . . . . . . . . . . . . . 105. Simulaciones con los distintos esquemas de codificacion-decodificacion para las cinco

senales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116. Comparativa numero de neuronas y epocas en el entrenamiento de una red SOM

basada en el algoritmo neural-gas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127. Comparativa numero epocas en el entrenamiento de una red SOM basada en el

algoritmo neural-gas y con 50 neuronas . . . . . . . . . . . . . . . . . . . . . . . . 128. Sistema de comunicacion basado en multiples niveles caoticos . . . . . . . . . . . . 139. Esquema redes RBF-ANN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1710. Red RBF mediante arboles de regresion . . . . . . . . . . . . . . . . . . . . . . . . 1911. Precision para el algoritmo EM para distintos valores de p y M . . . . . . . . . . . 2112. Complejidad del algoritmo EM para distintos valores de p y de M . . . . . . . . . 2213. Comparativa algoritmo EM y “neural-gas” . . . . . . . . . . . . . . . . . . . . . . 2314. Comparativa redes GMM con redes de arboles de regresion para M = 16 . . . . . . 2415. Comportamiento de una red GMM para M = 32 y distintos valores de dimension

de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2516. Comportamiento de una red GMM para M = 64 y distintos valores de dimension

de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2517. Comparativa entre la determinacion de centros y radios mediante los algoritmos EM

y “neural-gas” para p = 4 y M = 16 . . . . . . . . . . . . . . . . . . . . . . . . . . 2518. Comparativa entre la determinacion de centros y radios mediante los algoritmos EM

y “neural-gas” para p = 6 y M = 32 . . . . . . . . . . . . . . . . . . . . . . . . . . 2619. Redes GMM con centros y radios mediante el algoritmo “neural-gas” para distintos

valores de M y p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2620. Redes SOM entrenadas mediante el algoritmo “neural-gas” para distintos valores de

M y p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2721. Comparativa entre redes SOM y redes GMM basadas en el algoritmo “neural-gas”

para M = 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2822. Comparativa entre redes SOM y redes GMM basadas en el algoritmo “neural-gas”



para M = 128 y p = 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2925. Comparativa entre redes SOM con β = 100 y β = 1000 . . . . . . . . . . . . . . . . 30

31

Referencias

[1] Takens, F., On the numerical determination of the dimension of an attractor, D. Rand, L.S.Young, eds., Dynamical Systems and Turbulence, Annual Notes in Mathematics, vol. 898,pp.366-381, Berlin: Springler-Verlag, 1981.

[2] Fraser, A.M., Information and entropy in strange attractors, IEEE Trans. Information Theory,vol. 35, pp. 245-262, 1989.

[3] Abarbanel, H.D.I., Analysis of observed chaotic data, New-York: Springler-Verlag, 1996.

[4] T.M. Martinetz, S.G. Berkovich, K.J. Schulten, “Neural-Gas” Network for Vector Quantiza-tion and its Application to Time-Series Prediction, IEEE Transactions on Neural Networks,Vol.4, No. 4, Julio 1993.

[5] J.M.H. Elmirghani, S.H. Milner, R.A. Cryan, Experimental evaluation of echo path modellingwith chaotic coded speech, IEEE Trans. Signal Processing, vol.45, pp. 2600-2604, Oct. 1997.

[6] J.B. Kadtke, J.B. Brush, Adaptive methods for cahotic communication systems, Proc. SPIE,Chaos in Communications, 1993, vol. 2038, pp. 182-193.

[7] S. Haykin, Neural Networks. A comprehensive foundation, 2a edicion, Prentice-Hall, 1999.

[8] C.M. Bishop, Neural Networks for Pattern Recognition, Clarendon Press-Oxford,1995.

[9] A.P. Dempster, N.M. Laird and D.B. Rubin, Maximum likelihood for incomplete data via theEM algorithm, Journal of the Royal Statistical Society, B 39 (1), pp.1-38.

[10] Ritter, H., Schulten, K., Topology conserving mapping for learning motor tasks, Neural Net-works for Computing, J.S. Denker, Ed., AIP Conf. Proc. 151, UT, pp.376-380, 1986.

[11] Ritter, H., Martinetz, T., Schulten, K., Topology-conserving maps for learning visuomotor-coordination, Neural Networks, vol.2, pp. 159-168, 1988.

[12] Martinetz, T., Ritter, H., Schulten, K., Three-dimensional neural net for learning visuomotor-coordination of a robot arm, IEEE Trans. Neural Networks, vol.1, no.1, pp.131-136, 1990.

[13] Martinetz, T., Ritter, H., Schulten, K., Learning of visuomotor coordination of a robot armwith redundant degrees of freedom, Proc. Int. Conf. On Parallel Processing in Neural Systemsand Computers, R. Eckmiller, G. Hartmann, G. Hauske, Eds., pp. 431-434, 1990.

[14] A..Muller, and J.M.H. Elmirghani, Artificial neural networks for the generation and estimationof chaotic signals, Proc. IEEE Global telecommunications conference, GLOBECOM’98, vol.4, pp. 2469-2473, 8-12, Nov.,1998.

[15] A. Muller, and J.M.H. Elmirghani,, Novel approaches to signal transmission based on chaoticsignals and artificial neural networks, IEEE Transactions on Communication, vol. 50, No. 3,pp. 384-390, March 2002.

[16] A. Muller, J.M.H. Elmirghani, A chaotic spreading code and its application to blind channelestimation, Proc. IEEE Global telecommunications conference, GLOBECOM’01, San Antonio,pp., Nov. 01.

[17] S.J. Nowlan, Maximum likelihood competitive learning, Advances in Neural Information Pro-cessing Systems 2, D.Touretzky, Ed. New York: Morgan Kauffman, 1990, pp.574-582.

[18] J. Moody, C.J. Darken, Fast learning in networks of locally tuned processing units, NeuralComputation, vol.1, pp.281-294, 1989.

[19] M.J.L. Orr, Recent advances in radial basis functions networks, http:\\www.anc.ed.ac.uk\~mjo\papers\recad.ps, 1999.

[20] Tam, W.M., Lau, C.M., Tse, C.K., Yip, M.M., An approach to Calculating the Bit-ErrorRate of a Coherent Chaos-Shift-Keying Digital Communication System Under a Noisy Mul-tiuser Environment, IEEE Transactions on Circuits and Systems, I Fundamental Theory andApplications, vol.49, no.2, pp.210-223, Feb. 2002.

32

redes caos

Business