ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE
LA VOZ EN CONDICIONES NORMALES Y ANTE LA
PRESENCIA DE AFECCIONES EN LAS CUERDAS
VOCALES
MARÍA DEL PILAR GALEANO CARRILLO
PREGRADO EN INGENIERÍA ELECTRÓNICA
FACULTAD DE INGENIERÍA
UNIVERSIDAD DE LOS ANDES
2003
1
ANÁLISIS DE LAS VARIACIONES EN LAS SEÑALES DE LA VOZ
EN CONDICIONES NORMALES Y ANTE LA PRESENCIA DE
AFECCIONES EN LAS CUERDAS VOCALES
MARÍA DEL PILAR GALEANO CARRILLO
Director: ING. ALFREDO RESTREPO PALACIOS
PREGRADO EN INGENIERÍA ELECTRÓNICA
FACULTAD DE INGENIERÍA
UNIVERSIDAD DE LOS ANDES
2003
2
A
MARYLAND, JAIRO
NEGRO, SANTIAGO
3
DEPRONTO SENTÍ ESE LLAMADO QUE ME
PERSIGUE COMO SI DEPENDIERA DE MI,
PARECE NO QUERER DESPRENDERSE DE LO SUYO
NI TENER QUE ENFRENTARSE A LO DECISIVO.
AÚN NO LO COMPRENDO , NO ME ASUSTA, NI ME CONDENA,
PERO ME SIGUE RECORDANDO
A MÍ MISMA Y A TODOS LOS QUE HAN CONTRIBUIDO A COLOCAR
LAS PIEZAS DE MI FORMACIÓN EN SU LUGAR.
GRACIA SEÑOR POR PONER EN MI CAMINO
TANTA GENTE MARAVILLOSA QUE
SIEMPRE LLEVARÉ EN EL CORAZÓN
4
1. INTRODUCCIÓN
Dentro de la rama de la otorrinolaringología, en medicina, los profesionales especializados
en la materia, se ven enfrentados a solucionar, o bien, dar mejoría a problemas en la voz,
causados por afecciones en la laringe. Nombrando algunas de ellas, se encuentran el cáncer
de laringe, el reflujo nasal, papilomatosis, entre otras [5].
Una de las prácticas usadas para comprobar la mejoría del paciente después de someterlo a
una cirugía o tratamiento, consiste en grabar la voz en diferentes etapas y realizar un
análisis auditivo [2] (y por lo tanto subjetivo) del “ antes y el después”.
Es allí donde nace la idea de caracterizar la voz , pretendiendo crear criterios cuantificables,
con ayuda de técnicas matemáticas y de programación para llegar a calificar diferentes
voces no patológicas y diferenciar entre una voz enferma y una que no lo está.
Así pues, el proyecto de grado que presento, tiene como objetivo principal mostrar los
resultados de un proceso analítico que persigue caracterizar y cuantificar las señales
correspondientes a los fonemas vocálicos (a e i o u) producidos por la voz, bajo condiciones
normales y en presencia de afecciones en el área de la laringe, que perturban el
funcionamiento normal de las cuerdas vocales.
Este proceso de caracterización, consiste en el desarrollo y optimización de un programa en
matlab, el cual se encarga tanto de capturar y archivar el sonido de las vocales y algunas de
sus combinaciones (diptongos, triptongos); como de procesarlo, realizando observaciones
en el dominio del tiempo y de la frecuencia. Para las pruebas del programa, se utilizó mi
voz (autora), por simplicidad y disposición.
Las siguientes pruebas se realizaron con dos voces femeninas y tres masculinas sin
síntomas patológicos y por último tres pacientes con padecimientos en el área de la laringe
(reflujo nasal, papilomas y cáncer en la laringe).
5
2. ALCANCES DEL ESTUDIO
Crear un programa en Matlab que permita archivar señales (fonemas) de voz
pronunciadas a través de un micrófono unidireccional conectado a la tarjeta de sonido y
analizarlas en el dominio del tiempo y la frecuencia.
Caracterizar y calificar fonemas vocálicos femeninos y masculinos, para
determinar sus similitudes y diferencias.
Caracterizar y calificar fonemas vocálicos pertenecientes a señales de voz
con síntomas patológicos.
Observar comportamiento de las señales obtenidas en el dominio del tiempo,
determinando así su periodicidad o no periodicidad.
Observar el comportamiento de las señales obtenidas en el dominio de la
frecuencia, aplicando FFT a cada una de ellas, ver su distribución en el plano complejo
y en el eje de frecuencia.
Determinar las diferencias en las gráficas al multiplicar las señales en el
tiempo por diferentes tipos de ventanas y volver a aplicar FFT.
Indicar los cambios que se pueden presentar en las gráficas de
espectrogramas ante signos patológicos.
6
3. PRIMERA ETAPA: PROGRAMACIÓN Para el desarrollo e implementación de la primera etapa se utilizó mi voz (autora).
3.1. GRABACIÓN El software elegido para realizar la digitalización y estudio de las señales vocálicas fue
Matlab [3].
El programa como primera medida, recoge la señal de voz proveniente de un micrófono
unidireccional, conectado a la tarjeta de sonido del computador y lo guarda en un archivo
.wav.
Los parámetros de grabación fueron: frecuencia de muestreo de 44100Hz, con una
resolución de 16 bits, monofónico, el tiempo de muestra fueron 8 segundos con variaciones
dependiendo de cada persona, el resto de parámetros prevalecieron.
La Rutina 1 graba la señal de voz, la convierte en un arreglo (a_u) y la guarda en
un archivo .wav.
La
clear all; FS=44100; Seconds=8; bits=16; a_u=wavrecord(FS*Seconds,FS); wavwrite(a_u,FS,bits,'C:\prueba\María\AmatlabMaría.wav');
Rutina 2 lee el archivo .wav, lo grafica y lo sonoriza.
7
Rutina 1
n=352800 [vocal]=wavread('C:\prueba\María\AmatlabMaría.wav',n); plot(vocal) wavplay(vocal,FS);Rutina 2
En la figura 3.1, correspondiente a una “a”, se hace evidente la introducción de un nivel DC que no permite que la señal sea simétrica respecto al eje de tiempo.
figura 3.1
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
3.2. FILTRO
Los archivos grabados se sometieron a un proceso de filtraje, para rechazar cualquier tipo
de información por fuera del rango de frecuencias de interés que pudiesen afectar al
análisis.
Se eligió un filtro digital Butterworth de grado 6 entre 20 Hz y 9 KHz,
A este tipo de filtro también se le conoce como filtro máximamente plano o planoplano y
evita distorsiones en la amplitud [1].
La Rutina 3 corresponde a un filtro Butterworth de grado 6, por el cual pasa la
señal de voz.
La figura 3.2 grafica el filtro diseñado.
Rutina 3 ff=2000/(2*512)*(0:512-1); passband=[.01 .96]; [b,a]=butter(6,passband); h=abs(freqz(b,a,512)); plot(ff,h) A=filter(b,a,vocal); plot(A)
8
figura 3.2
F. BUTTERWORTH, GRADO 6
La figura 3.3 muestra la corrección en la señal de la ”a” después de pasar por el filtro.
figura 3.3
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 3.4: Señales de las vocales en el dominio del tiempo.
9
figura 3.4
A E I O U
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 3.5: Cambios en la señal ante la presencia de diptongos y triptongos.
figura 3.5
AE IO AEI
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
3.3. TRANSFORMADA RÁPIDA DE FOURIER (FFT) A la señal filtrada se le aplicó una fft para pasarla al dominio de la frecuencia con una
ventana rectangular de ancho N=32768=2exp(15).
Normalmente el resultado X(k) de una FFT se muestra graficando magnitud y fase contra k;
en este caso se consideró conveniente mostrar todos los valores X(k) en el plano complejo.
La rutina 4 grafica los coeficientes de la FFT en el plano complejo
N1=32768; VA=fft(A,N1); plot(VA,'ro')
Figura 3.6: Coeficientes de la FFT en el plano complejo
10
Rutina 4
figura 3.6
A E I O U
(P. IMAGINARIA VRS. P. REAL)
La forma estándar de representación de la FFT (representación en el eje de frecuencia)
permite visualizar el comportamiento de los armónicos a lo largo de las frecuencias.
De esta manera, determinar la frecuencia en que se presenta el primero de ellos, la misma a
la que vibran las cuerdas vocales al producir el sonido del fonema.
La rutina 5 grafica la FFT en el eje de frecuencia.
Rutina 5 ABS_VAf=abs(VA(1:FS/2)); freq=0:1:(FS-1)/2; plot(freq,ABS_VAf)
Figura 3.7: FFT en el eje de frecuencia.
figura 3.7
A E I O U
(MAGNITUD VRS. FRECUENCIA)
11
3.4. VENTANAS La más simple y más comúnmente usada es la rectangular que implica oscilaciones en el
dominio de la frecuencia debido al fenómeno de Gibbs trae consigo oscilaciones en la
función de transferencia [4][6].
Para eliminar dicho fenómeno se utilizan las llamadas ventanas espectrales que suavizan la
reconstrucción de la función. [7] [6].
3.4.1. Ventana de Gauss Las señales filtradas (a excepción de los triptongos) se multiplicaron por una campana de
Gauss. Para las vocales (a e i o u), la ventana se centró en 15000 y en los diptongos en el
instante de cambio de vocal que varió el rango de 88200 y 350000 .
Para todos, el ancho de la ventana (desviación estándar) fue de 1000.
La rutina 6 crea una campana de Gauss que multiplica las señales de voz en el
dominio del tiempo
media=150000; desvia=10000; for i=n:-1:1 x(i)=i; end for j=n:-1:1 campana(j)=12500*(1/(2*pi*desvia^2)^(1/2))*(exp(-(media-x(j))^2/(2*des end plot(x,campana) for j=n:-1:1 gauss(j)=campana(j)*A(j); end plot(gauss)
Figura 3.8: Campana de Gauss
12
Rutina 6
via^2)));
figura 3.8
CAMPANA DE GAUSS ~N (15000,1000)
Figura 3.9: Señales multiplicadas por la ventana de Gauss
figura 3.9
A E I O U
AE EI
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
La Rutina 7 realiza la FFT de la señal multiplicada por la ventana de Gauss y grafica los coeficientes en el plano complejo.
Fig
VHA=fft(gauss,N1); plot(VHA,'ro')
ura 3.10: Coeficientes de la FFT en el plano complejo.
13
Rutina 7
figura 3.10
A E I O U
(P. IMAGINARIA VRS. P. REAL)
La Rutina 8 realiza la FFT de la señal multiplicada por la ventana de Gauss y grafica sobre el eje de frecuencia.
Rutina 8 ABS_VHAf=abs(VHA(1:FS/2)); freq=0:1:(FS-1)/2; plot(freq,ABS_VHAf)
Figura 3.11:FFT en el eje de frecuencia.
figura 3.11
A E I O U
(MAGNITUD VRS. FRECUENCIA)
14
3.4.2. Ventana Hamming Cada una de las señales filtradas se multiplicó por una ventana Hamming, que no es más
que un coseno y trunca suavemente la respuesta impulso deseada, produciendo una función
de transferencia bastante aceptable [6].
La Rutina 9 crea una ventana Hamming que multiplica las señales filtradas.
for i=n:-1:1 hamming(i)=0.54-0.46*cos(2*pi*i/(n-1));end plot(hamming) for j=n:-1:1 ventana(j)=hamming(j)*A(j); end plot(ventana)
Figura 3.12: Ventana Hamming
figura 3.12
VENTANA HAMMING
Figura 3.13: Señales multiplicadas por la ventana Hamming.
15
Rutina 9
figura 3.13
A E I O U
AE IO
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
La Rutina 10 realiza la FFT de la señal multiplicada por la ventana Hamming y grafica los coeficientes en el plano complejo.
Rutina 10 VHA=fft(ventana,N1); plot(VHA,'ro')
Figura 3.14: Coeficientes de la FFT en el plano complejo
figura 3.14
A E I O U
(P. IMAGINARIA VRS. P. REAL)
La Rutina 11 realiza la FFT de la señal multiplicada por la ventana Hamming y grafica sobre el eje de frecuencia.
Rutina 11 ABS_VHAf=abs(VHA(1:FS/2)); freq=0:1:(FS-1)/2; plot(freq,ABS_VHAf)
16
Figura 3.15: FFT en el eje de frecuencia.
figura 3.15
A E I O U
(MAGNITUD VRS. FRECUENCIA)
3.4.3. Espectrograma en dos dimensiones El espectrograma permite ver la concentración de las frecuencias, en las diferentes etapas
de la grabación.
Para una mejor visualización, se hizo uso de la señal obtenida con la ventana Hamming. La Rutina12 grafica el espectrograma en dos dimensiones.
%A=filter(b,a,vocal); specgram(ventana,N1,FS);
Figura 3.16:Espectrogramas en dos dimensiones de las señales en un diptongo
figura 3.16
A E I O
17
Rutina 12
vocálicas y el efecto
U
EI
(FRECUENCIA VRS. TIEMPO)
3.4.4. Espectrograma en tres dimensiones El espectrograma en tres dimensiones tiene como función observar el comportamiento
dinámico de la señal a lo largo del tiempo y las frecuencias; el tercer componente es la
magnitud de los armónicos.
La Rutina 13 grafica el espectrograma en tres dimensiones de las señales vocálicas,
con ayuda de una ventana Kaiser.
[S, f, t] = specgram(A,N1,FS,kaiser(N1/2,5),2000); mesh(t,f,abs(S));
Figura 3.17: Espectrograma en tres dimensiones.
figura 3.17
A E I O
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
18
Rutina 13
U
3.5. ANÁLISIS PRIMERA ETAPA
Las gráficas de amplitud contra tiempo muestran periodicidad en las señales.
En el caso de la ventana rectangular, cada fonema tiene una distribución
diferente en el plano complejo, tanto en el eje real como en el imaginario. La mayor
concentración de coeficientes están alrededor del punto 0+j0.
A es la vocal con mayor cantidad de valores diferentes en los coeficientes
tiene, e I la de menor variedad.
Teniendo en cuenta la tabla 3.1: De menor a mayor frecuencia, el orden en
que aparece el primer armónico en cada una de las vocales es: E A O I U y sus
combinaciones: AEI OI EI AE EA OU IOU IE IO UO.
Tabla 3.1
Fonema Frecuencia Primer
armónico A 170 E 168
I 180 O 170 U 185
AE 169 EA 172 EI 165 IE 174 IO 177 OI 165 OU 172 UO 183 AEI 163 IOU 173
19
La distribución de coeficientes de la FFT en el plano complejo de la ventana
gaussiana, para todas las vocales, describe anillos de diferentes tamaños, cuyo lugar de
encuentro es el punto 0+j0.
Los armónicos de la FFT a lo largo del eje de frecuencia, de la ventana
gaussiana, tienen un aspecto “montañoso”, ya que la transformada de una campana de
Gauss, es otra campana de Gauss.
La distribución de los coeficientes en el plano complejo en la ventana
Hamming, muestran en la A la mayor dispersión y en la I menor. La mayoría de valores
están cercanos a 0+j0, para todas las vocales.
Los armónicos a lo largo del eje de frecuencia en la ventana Hamming,
tienen un aspecto de tipo “alfiler”. De acuerdo a la tabla 3.2: La vocal con mayor
número de armónicos es la A y la de menor número la I, la que presenta el armónico de
mayor magnitud es la I y el de menor magnitud la O.
Tabla 3.2
Fonema Máx. amp. de
armónicos N. Arm. más del 10%
de amp. Máx Frecuencia
Último armónico
A 0.57 6 1018 E 0.828 3 507 I 0.973 2 362 O 0.089 4 680 U 0.871 3 556
Los colores cálidos en los espectrogramas de dos dimensiones muestran altas
concentraciones de las frecuencias a lo largo del tiempo, en las frecuencias más bajas
(entre 0 y 2Khz) el espectrograma muestra manchas horizontales rojas, en el caso de los
diptongos, en el tiempo en que estos ocurren hay una pequeña muestra vertical del
cambio, también en rojo.
20
Los espectrogramas de tres dimensiones dan la impresión de ver cordilleras
separadas por llanura, con variaciones a lo largo del tiempo y diferenciación entre los
armónicos, no hay sobrelapo.
21
4. SEGUNDA ETAPA: ANÁLISIS DE VOCES FEMENINAS Y MASCULINAS
En esta etapa se sometieron al mismo proceso de la primera, dos voces femeninas y tres masculinas sin síntomas patológicos.
4.1 . VOCES FEMENINAS La primera de ellas es auditivamente similar a la de la primera etapa, la segunda es diferente.
4.1.1. Voz femenina 1
Figura 4.1: Señales en el tiempo
figura 4.1 A E I O U
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 4.2: Coeficientes FFT
figura 4.2 A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.3: FFT en el eje de frecuencia.
22
figura 4.3
A E I O U
(MAGNITUD VRS. FRECUENCIA)
De acuerdo a la tabla 4.1 Orden de menor a mayor frecuencia en el primer armónico:
Vocales:
E A O I U
Combinaciones:
AEI IOU AE OI EI EA OU IE IO UO.
Tabla 4.1
Fonema Frecuencia
Primer armónico A 170 E 166 I 193 O 174 U 198
AE 167 EA 172 EI 171 IE 183 IO 183 OI 170 OU 173 UO 188 AEI 160 IOU 164
Figura 4.4: Coeficientes de la FFT en el plano complejo, ventana Gauss.
23
figura 4.4
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.5:FFT en el eje de frecuencia, ventana Gauss.
figura 4.5
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 4.6: Coeficientes de la FFT en el plano complejo, ventana Hamming.
figura 4.6 A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.7: FFT en el eje de frecuencia, ventana Hamming.
24
figura 4.7
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Tabla 4.2
Fonema Máxima amplitud
de armónicos N. Arm. más del 10% de
amp. Máx
Frecuencia Último
armónico A 0.688 8 1706 E 0.906 3 496 I 0.96 2 385 O 0.810 4 696 U 0.811 3 594
Figura 4.8:Espectrogramas en dos dimensiones
figura 4.8
A E I O U
(FRECUENCIA VRS. TIEMPO) Figura 4.9: Espectrograma en tres dimensiones.
25
figura 4.9
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
4.1.2. Voz femenina 2
Figura 4.10: Señales en el tiempo
figura 4.12
A E I O U
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 4.11: Coeficientes FFT
figura 4.11 A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.12: FFT en el eje de frecuencia.
26
figura 4.12
A E I O U
(MAGNITUD VRS. FRECUENCIA)
De acuerdo a la tabla 4.3 Orden de menor a mayor frecuencia en el primer armónico:
Vocales:
A E O U I
Combinaciones:
AEI EA OU AE OI EI IOU IE UO IO.
Tabla 4.3
Fonema Frecuencia
Primer armónico A 143 E 154 I 200 O 175 U 195
AE 162 EA 160 EI 164 IE 178 IO 185 OI 163 OU 160 UO 182 AEI 157 IOU 169
Figura 4.13: Coeficientes de la FFT en el plano complejo, ventana Gauss.
27
figura 4.13
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.14:FFT en el eje de frecuencia, ventana Gauss.
figura 4.14 A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 4.15: Coeficientes de la FFT en el plano complejo, ventana Hamming.
figura 4.15
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.16: FFT en el eje de frecuencia, ventana Hamming.
28
figura 4.16
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Tabla 4.4
Fonema Máxima amplitud
de armónicos N. Arm. más del 10% de
amp. Máx
Frecuencia Último
armónico A 0.531 9 1286 E 0.794 4 617 I 0.989 2 402 O 0.769 4 699 U 0.905 3 594
Figura 4.17:Espectrogramas en dos dimensiones
figura 4.17
A E I O U
(FRECUENCIA VRS. TIEMPO)
Figura 4.18: Espectrograma en tres dimensiones.
29
figura 4.18
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
4.2. VOCES MASCULINAS Se eligieron tres voces diferentes la primera de ellas corresponde a un niño de siete años, la segunda a un adulto de 48 años y la tercera a un adulto de 21 años.
4.2.1. Voz masculina 1:
Figura 4.19: Señales en el tiempo
figura 4.19
(AMPLITUD VRS. Nº. DE MUESTRAS (t)) Figura 4.20: Coeficientes FFT
figura 4.20
A E I O U
(P. IMAGINARIA VRS. P. REAL)
30
Figura 4.21: FFT en el eje de frecuencia.
figura 4.21
A E I O U
(MAGNITUD VRS. FRECUENCIA)
De acuerdo a la tabla 4.5 Orden de menor a mayor frecuencia en el primer armónico:
Vocales:
E A O I U
Combinaciones:
EI EA OI OU UO AEI AE IO IE IOU.
Tabla 4.5
Fonema Frecuencia
Primer armónico A 171 E 167 I 183 O 175 U 197
AE 175 EA 152 EI 151 IE 183 IO 181 OI 160 OU 160 UO 162 AEI 163 IOU 189
31
Figura 4.22: Coeficientes de la FFT en el plano complejo, ventana Gauss.
figura 4.22
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.23:FFT en el eje de frecuencia, ventana Gauss.
figura 4.23
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 4.24: Coeficientes de la FFT en el plano complejo, ventana Hamming.
figura 4.24
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.25: FFT en el eje de frecuencia, ventana Hamming.
32
figura 4.25
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Tabla 4.6
Fonema
Máxima amplitud de armónicos
N. Arm. más del 10% de amp. Máx
Frecuencia Último
armónico A 0.621 8 1365 E 0.908 2 331 I 0.955 2 364 O 0.545 4 633 U 0.96 2 394
Figura 4.26:Espectrogramas en dos dimensiones
figura 4.26
A E I O U
(FRECUENCIA VRS. TIEMPO)
Figura 4.27: Espectrograma en tres dimensiones.
33
figura 4.27
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
4.2.2. Voz masculina 2:
Figura 4.28: Señales en el tiempo
figura 4.29
A E I O U
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 4.29: Coeficientes FFT
figura 4.29
A E I O U
(P. IMAGINARIA VRS. P. REAL)
34
Figura 4.30: FFT en el eje de frecuencia.
figura 4.30
A E I O U
(MAGNITUD VRS. FRECUENCIA)
De acuerdo a la tabla 4.7 Orden de menor a mayor frecuencia en el primer armónico:
Vocales:
A E O I U.
Combinaciones:
AEI EI IOU IO AE OI OU UO EA IE.
Tabla 4.7
Fonema Frecuencia
Primer armónico A 169 E 170 I 182 O 177 U 200
AE 157 EA 161 EI 153 IE 168 IO 154 OI 157 OU 157 UO 158 AEI 151 IOU 154
35
Figura 4.31: Coeficientes de la FFT en el plano complejo, ventana Gauss.
figura 4.31
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.32:FFT en el eje de frecuencia, ventana Gauss.
figura 4.32
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 4.33: Coeficientes de la FFT en el plano complejo, ventana Hamming.
figura 4.33
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.34: FFT en el eje de frecuencia, ventana Hamming.
36
figura 4.34
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Tabla 4.8
Fonema
Máxima amplitud de armónicos
N. Arm. más del 10% de amp. Máx
Frecuencia Último
armónico A 0.484 12 1093 E 0.472 4 425 I 0.948 2 273 O 0.764 4 443
Figura 4.35:Espectrogramas en dos dimensiones
figura 4.35
A E I O U
(FRECUENCIA VRS. TIEMPO)
Figura 4.36: Espectrograma en tres dimensiones.
37
figura 4.36
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
4.2.3. Voz masculina 3:
Figura 4.37: Señales en el tiempo
figura 4.37
A E I O U
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 4.38: Coeficientes FFT
figura 4.38
A E I O U
(P. IMAGINARIA VRS. P. REAL)
38
Figura 4.39: FFT en el eje de frecuencia.
figura 4.39
1 A E I O U
(MAGNITUD VRS. FRECUENCIA)
De acuerdo a la tabla 4.7 Orden de menor a mayor frecuencia en el primer armónico:
Vocales:
A E O I U.
Combinaciones:
AEI OU UO IO AE EA OI IOU EI IE.
Tabla 4.9
Fonema Frecuencia
Primer armónico A 171 E 175 I 203 O 178 U 209
AE 168 EA 168 EI 173 IE 181 IO 167 OI 169 OU 166 UO 169 AEI 158 IOU 171
39
Figura 4.40: Coeficientes de la FFT en el plano complejo, ventana Gauss.
figura 4.40
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.41:FFT en el eje de frecuencia, ventana Gauss.
figura 4.41
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 4.42: Coeficientes de la FFT en el plano complejo, ventana Hamming.
figura 4.42
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 4.43: FFT en el eje de frecuencia, ventana Hamming.
40
figura 4.43
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Tabla 4.10
Fonema
Máxima amplitud de armónicos
N. Arm. más del 10% de amp. Máx
Frecuencia Último
armónico A 0.685 11 1026 E 0.911 3 351 I 0.978 2 301 O 0.758 6 621 U 0.825 4 522
Figura 4.44:Espectrogramas en dos dimensiones
figura 4.44
A E I O U
(FRECUENCIA VRS. TIEMPO)
Figura 4.45: Espectrograma en tres dimensiones.
41
figura 4.45
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
4.3. ANÁLISIS SEGUNDA ETAPA
Las gráficas de amplitud contra tiempo muestran periodicidad en las señales.
En el caso de la ventana rectangular, cada fonema tiene una distribución
diferente en el plano complejo, tanto en el eje real como en el imaginario. La mayor
concentración de coeficientes están alrededor del punto 0+j0.
A es la vocal con mayor cantidad de valores diferentes en los coeficientes
tiene, e I la de menor variedad.
En todos los casos, el primer armónico de las vocales abiertas tiene menor
frecuencia que la cerradas.
La distribución de coeficientes de la FFT en el plano complejo de la ventana
gaussiana, para todas las vocales, describe anillos de diferentes tamaños, cuyo lugar de
encuentro es el punto 0+j0.
Los armónicos de la FFT a lo largo del eje de frecuencia, de la ventana
gaussiana, tienen un aspecto “montañoso”, ya que la transformada de una campana de
Gauss, es otra campana de Gauss.
La distribución de los coeficientes en el plano complejo en la ventana
Hamming, muestran en la A la mayor dispersión y en la I menor. La mayoría de valores
están cercanos a 0+j0, para todas las vocales.
Los armónicos a lo largo del eje de frecuencia en la ventana Hamming,
tienen un aspecto de tipo “alfiler”. La vocal con mayor número de armónicos es la A y
42
la de menor número la I, la que presenta el armónico de mayor magnitud es la I y el de
menor magnitud la O en la mayoría de los casos.
Los colores cálidos en los espectrogramas de dos dimensiones muestran altas
concentraciones de las frecuencias a lo largo del tiempo, en las frecuencias más bajas
(entre 0 y 2Khz) el espectrograma muestra manchas horizontales rojas.
Los espectrogramas de tres dimensiones dan la impresión de ser cordilleras
separadas por llanura, con variaciones a lo largo del tiempo y diferenciación entre los
armónicos, no hay sobrelapo.
43
5. TERCERA ETAPA: ANÁLISIS DE VOCES PATOLÓGICAS
Las voces patológicas elegidas tienen diferentes grados gravedad, que se presentarán en su orden.
5.1. REFLUJO NASAL
Figura 5.1: Señales en el tiempo
figura 5.1
A E I O U
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 5.2: Coeficientes FFT
figura 5.2 A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.3: FFT en el eje de frecuencia.
44
figura 5.3
A E I O U
(MAGNITUD VRS. FRECUENCIA)
De acuerdo a la tabla 5.1 Orden de menor a mayor frecuencia en el primer armónico:
Vocales:
A E O U I
Tabla 5.1
Fonema
Frecuencia Primer
armónico A 156 E 157 I 160 O 158 U 159
Figura 5.4: Coeficientes de la FFT en el plano complejo, ventana Gauss.
figura 5.4
A E I O U
(P. IMAGINARIA VRS. P. REAL)
45
Figura 5.5:FFT en el eje de frecuencia, ventana Gauss.
figura 5.5
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 5.6: Coeficientes de la FFT en el plano complejo, ventana Hamming.
figura 5.6
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.7: FFT en el eje de frecuencia, ventana Hamming.
figura 5.7
A E I O U
(MAGNITUD VRS. FRECUENCIA)
46
Tabla 5.2
Fonema
Máxima amplitud de armónicos
N. Arm. más del 10% de amp. Máx
Frecuencia Último
armónico A 0.571 10 859 E 0.632 5 468 I 0.881 3 321 O 0.963 7 632 U 0.848 6 542
Figura 5.8:Espectrogramas en dos dimensiones
figura 5.8
A E I O U
(FRECUENCIA VRS. TIEMPO)
Figura 5.9: Espectrograma en tres dimensiones.
figura 5.9
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
47
5.2. PAPILOMAS
Figura 5.10: Señales en el tiempo
figura 5.11
A E I O U
1.1.1 (AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 5.11: Coeficientes FFT
figura 5.11 A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.12: FFT en el eje de frecuencia.
figura 5.12
A E I O U
(MAGNITUD VRS. FRECUENCIA)
De acuerdo a la tabla 5.3 Orden de menor a mayor frecuencia en el primer armónico:
48
Vocales:
A E O U I
Tabla 5.3
Fonema Frecuencia Primer
armónico A 161 E 168 I 193 O 168 U 176
Figura 5.13: Coeficientes de la FFT en el plano complejo, ventana Gauss.
figura 5.13
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.14:FFT en el eje de frecuencia, ventana Gauss.
figura 5.14
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 5.15: Coeficientes de la FFT en el plano complejo, ventana Hamming.
49
figura 5.15
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.16: FFT en el eje de frecuencia, ventana Hamming.
figura 5.16
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Tabla 5.4
Fonema
Máxima amplitud de armónicos
N. Arm. más del 10% de amp. Máx
Frecuencia Último
armónico A 0.078 10 891 E 0.744 4 424 I 0.98 2 276 O 0.871 6 588 U 0.846 4 439
Figura 5.17:Espectrogramas en dos dimensiones
50
figura 5.17
A E I O U
(FRECUENCIA VRS. TIEMPO)
Figura 5.18: Espectrograma en tres dimensiones.
figura 5.18
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
5.3. CÁNCER
Figura 5.19: Señales en el tiempo
figura 5.19 A E I O U
(AMPLITUD VRS. Nº. DE MUESTRAS (t))
Figura 5.20: Coeficientes FFT
51
figura 5.20 A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.21: FFT en el eje de frecuencia.
figura 5.21
A E I O U
(MAGNITUD VRS. FRECUENCIA)
La ventana rectangular no permite diferenciar unos armónicos de otros en varias regiones, por lo tanto no fue posible determinar la frecuencia fundamental de las vocales.
Figura 5.22: Coeficientes de la FFT en el plano complejo, ventana Gauss.
figura 5.22
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.23:FFT en el eje de frecuencia, ventana Gauss.
52
figura 5.23
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 5.24: Coeficientes de la FFT en el plano complejo, ventana Hamming.
figura 5.24
A E I O U
(P. IMAGINARIA VRS. P. REAL)
Figura 5.25: FFT en el eje de frecuencia, ventana Hamming.
figura 5.25
A E I O U
(MAGNITUD VRS. FRECUENCIA)
Figura 5.26:Espectrogramas en dos dimensiones
53
figura 5.26
A E I O U
(FRECUENCIA VRS. TIEMPO)
Figura 5.27: Espectrograma en tres dimensiones.
figura 5.27
A E I O U
(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )
5.4. ANÁLISIS TERCERA ETAPA
Las gráficas de amplitud contra tiempo pierden peridiocidad a medida que la
enfermedad en más grave.
En el caso de la ventana rectangular, cada fonema tiene una distribución
diferente en el plano complejo, tanto en el eje real como en el imaginario. La mayor
concentración de coeficientes están alrededor del punto 0+j0.
A es la vocal con mayor cantidad de valores diferentes en los coeficientes
tiene, e I la de menor variedad.
La frecuencia del primer armónico de las vocales abiertas es menor que la de
las cerradas.
54
La distribución de coeficientes de la FFT en el plano complejo de la ventana
gaussiana, para todas las vocales, describe anillos de diferentes tamaños, cuyo lugar de
encuentro es el punto 0+j0. Presenta más variedad de valores que las voces no
patológicas .
Los armónicos de la FFT a lo largo del eje de frecuencia, van perdiendo
orden y separación a medida que la enfermedad de la voz es más delicada.
La distribución de los coeficientes en el plano complejo en la ventana
Hamming, muestran en la A la mayor dispersión y en la I menor. La mayoría de valores
están cercanos a 0+j0, para todas las vocales.
Los armónicos a lo largo del eje de frecuencia en la ventana Hamming,
tienen un aspecto de tipo “alfiler”. En el paciente con cáncer en la laringe el orden en
los armónicos se pierde en su totalidad.
El espectrograma va mostrando más tonos cálidos (rojizos) en las bandas de
separación, lo que indica que hay mayor concentración de energía en todo el plano,
debido a la desorganización en los armónicos.
Los espectrogramas de tres dimensiones, los valles van perdiendo área a
medida que la enfermedad es más grave. Hay sobrelapo entre montañas.
55
6. ANÁLISIS DE GRÁFICAS Y DATOS
Las señales de voz sin síntomas patológicos en el dominio del tiempo, tienen
un comportamiento periódico; en las gráficas de voz patológica esto varía, las señales
no se muestran periódicas y aparece una envolvente en ciertos rangos, particularmente
en el paciente con cáncer en la laringe.
En las gráficas de coeficientes en el plano complejo de la fft en la ventana
rectangular, se observó que a pesar de que el plano de la A es el de menor longitud en
ambos ejes, es la que muestra mayor dispersión de los coeficientes; las vocales I y U
tienen más desplazamiento en el eje de los valores reales, que en el de los imaginarios;
comportamiento que varía en las gráficas de voces enfermas, volviéndose más
simétricas (más variedad de valores en los ejes, particularmente el real).
En las gráficas de fft con eje de frecuencia, después de hallar el primer
armónico de cada una de las señales. De acuerdo a la tabla 6.1, se observó que la
organización de las vocales (de menor a mayor) siempre van de las abiertas a las
cerradas, en las combinaciones no se encontraron parámetros de comportamiento, la
única que en la mayoría de los casos se presentó en la misma ubicación (menor
frecuencia) fue AEI.
tabla 6.1.
VOCES VOCALES COMBINACIONES
V. femenina 1 e a o i u aei oi ei ae ea ou iou ie io uo
V. femenina 2 e a o i u aei ea ou ae oi ei iou ie uo io
V. femenina 3 e a o i u ei ea oi ou uo aei ae io ie iou
V. masculina 1 a e o i u aei ei iou io ae oi ou uo ea ie
V. masculina 2 e a o i u ei ea oi ou uo aei ae io ie iou
V. masculina 3 e a o i u aei ou uo io ae ea oi iou ei ie
V. patológica 1 a e o u i
V. patológica 2 a e o u i
V. patológica 3
56
La frecuencia del primer armónico de los fonemas vocálicos en las voces
patológicas aparece antes que las de las voces sanas, es decir la frecuencia fundamental
es más baja; adicionalmente no fue posible determinar la distribución de los armónicos
de la tercera voz patológica (cáncer de laringe).
Las gráficas de coeficientes en el plano complejo de la fft de ventana de
Gauss, muestra anillos no concéntricos que pasan por el punto 0+j0.
La fft, de la ventana gaussiana, respeta las frecuencias en que deben aparecer
los armónicos, pero no brinda ninguna información adicional.
En las gráficas de coeficientes de la fft de ventana Hamming, el plano de la
vocal A, a pesar de ser el de menor longitud en ambos ejes, es el que mayor dispersión
presenta en la mayoría de los casos y los de menor dispersión de valores son los de la A
y la U.
De acuerdo con los datos tomados de la fft (eje de frecuencia) de la ventana
Hamming y con el fin de observar la distribución de los fonemas vocálicos procesados,
unos respecto de otros, se ubicaron en un plano tri-dimensional cuyos ejes están
distribuidos de la siguiente manera: x: Magnitud máxima normalizada de los armónicos,
y: Frecuencia en que se verificó el último armónico y z: Nº. De armónicos (cuya
magnitud normalizada sea mayor o igual al 10% del mayor) los armónicos.
Voces femeninas :
57
figura 6.1
A E I O U
O Voz 1 * Voz 2 + Voz 3
(X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO
ARMÓNICO)
58
Voces masculinas :
figura 6.2
A E I O U
(
A
O Voz 1 * Voz 2 + Voz 3
X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO
RMÓNICO)
59
Voces patológicas:
figura 6.3
U
A E I OO Reflujo * Papilomas
(X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO
ARMÓNICO)
60
Comparación de voces:
figura 6.4
A E I O UO Voz sana 1 * Papilomas
(X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO
ARMÓNICO)
Se deduce que: las voces masculinas tienen más armónicos (particularmente en la A), que
las voces femeninas y la infantil.
Le frecuencia en que aparece el último armónico es menor en las voces patológicas que en
las sanas.
El espectrograma de dos dimensiones en las voces patológicas muestra mayor
concentración de energía en las bandas de separación y las líneas que representan los
armónicos a lo largo de tiempo van perdiendo su organización hasta confundirse con el
fondo como en el caso del paciente con cáncer en la laringe.
El espectrograma en tres dimensiones, corrobora lo observado en el de dos
dimensiones, y es la pérdida en el orden de ubicación de los armónicos a lo largo del
tiempo, dependiendo del estado de gravedad del paciente.
Hipótesis: Teniendo en cuenta que las voces sanas registraron un comportamiento
periódico y las patológicas fueron perdiendo periodicidad, dependiendo del nivel de
61
gravedad (reflujo, papilomas, cáncer en su orden), se observó al aplicar la fft y analizarla a
lo largo del eje de frecuencia, que los armónicos fueron perdiendo su organización hasta
sobrelaparse unos con otros. Por lo tanto a medida que el área de la laringe se vea más
afectada, las cuerdas vocales pierden su funcionamiento normal, provocando desorden en la
localización de los armónicos.
62
7. RECOMENDACIONES
Ante el hecho de que las gráficas de distribución de coeficientes en el plano
complejo de la fft presentó diferencias importantes, principalmente en las ventanas de
Gauss y Hamming, sería importante revisar las líneas de código de matlab para
corroborar en buen funcionamiento de estas, eliminando así cualquier posible error en
ellas.
Realizar grabaciones de voces patológicas en diferentes etapas, partiendo del
momento previo a ser los pacientes sometidos a intervención quirúrgica o tratamiento
médico, hasta llegar a su recuperación y de acuerdo a los parámetros de análisis
propuestos en este proyecto, observar dicho comportamiento y determinar de manera
más precisa los cambios, para así continuar con el objetivo de cuantificar criterios para
determinar la mejoría en la calidad de la voz.
63
8. CONCLUSIONES
Dentro de los análisis realizados, se llegan a las siguientes conclusiones:
En este artículo se mostró paso a paso el proceso que se realizó a la
obtención de las señales proveniente de la voz, digitalización y procesamiento.
Las señales en tiempo de voces patológicas van perdiendo las características
de periodicidad que se observaron en las voces sanas.
Las gráficas de coeficientes de la fft (ventana rectangular) en el plano
complejo, permiten dar una primera idea de las diferencias entre los diferente fonemas
vocálicos, dependiendo de la forma en como se organizaron en el plano.
Las gráficas de eje de frecuencia de la fft muestran la manera en que se
distribuyen los armónicos a lo largo de este, de esta manera es posible determinar
diferencias entre los fonemas vocálicos y sus combinaciones.
Las gráficas de distribución de coeficientes en el plano complejo de la fft de
la ventana de Gauss, ofrece una manera distinta de observación, especialmente en
vocales como la A y la I, ya que la primera de ellas tiene mayor número de anillos que
la segunda, para el resto de vocales, es un poco más complejo realizar la distinción.
En la gráfica de coeficientes de la fft de la ventana Hamming, el
comportamiento de las vocales es similar a la de la ventana rectangular.
Las gráficas de eje de frecuencia de la fft de la ventana Hamming, son las
más útiles para extraer información del comportamiento de los armónicos, ya que
respetando la organización frecuencial, son más delgados y sus llanuras son más
planas.
Los espectrogramas en dos y tres dimensiones son herramientas útiles para
observar el comportamiento dinámico de los armónicos a lo largo del tiempo y de esta
manera determinar diferencias entre voces sanas y patológicas.
64
9. REFERENCIAS
[1] Filtros, introducción al filtro butterworth
http://quantum.ucting.udg.mx/~yvg61925/Filtros/filtros.html, marzo 2003.
[2] Lucent Technologies provides speech recognition software
www.bell-labs.com/press/1101/011105.bla.html, diciembre 2002.
[3] MATLAB Functions
www.mathworks.com/access/helpdesk/help/techdoc, abril 2003.
[4] Medidas en telecomunicaciones
http://einstein.univalle.edu.co/~ctelecom/Transmission/Medidas%20en%20Telecomunicaci
ones.doc
marzo 2003.
[5] Otolaryngology - Vocal Cord
Disorderswww.uuhsc.utah.edu/healthinfo/spanish/Ent/vocal.htm, diciembre 2003.
[6] Restrepo, Alfredo, "FILTROS DIGITALES Lineales y no lineales",
UNIVERSIDAD DE LOS ANDES. Bogotá, 2001, marzo 2003.
[7] SERIES Y TRANSFORMADA DE FOURIER
http://www.tecnun.com/asignaturas/tratamiento%20digital/tema3.pdf, enero 2003
65
TABLA DE CONTENIDO
1. INTRODUCCIÓN ........................................................................5 2. ALCANCES DEL ESTUDIO..........................................................6 3. PRIMERA ETAPA: PROGRAMACIÓN...........................................7
3.1. GRABACIÓN ........................................................................7 3.2. FILTRO ...............................................................................8 3.3. TRANSFORMADA RÁPIDA DE FOURIER (FFT)....................10 3.4. VENTANAS ........................................................................12
3.4.1. Ventana de Gauss........................................................12 3.4.2. Ventana Hamming.......................................................15 3.4.3. Espectrograma en dos dimensiones .............................17 3.4.4. Espectrograma en tres dimensiones ............................18
3.5. ANÁLISIS PRIMERA ETAPA ...............................................19 4. SEGUNDA ETAPA: ANÁLISIS DE VOCES FEMENINAS Y MASCULINAS ...................................................................................22
4.1 . VOCES FEMENINAS............................................................22 4.1.1. Voz femenina 1 ...........................................................22 4.1.2. Voz femenina 2 ...........................................................26
4.2. VOCES MASCULINAS.........................................................30 4.2.1. Voz masculina 1: .........................................................30 4.2.2. Voz masculina 2: .........................................................34 4.2.3. Voz masculina 3 ..........................................................38
5. TERCERA ETAPA: ANÁLISIS DE VOCES PATOLÓGICAS ...........44 5.1. REFLUJO NASAL ...............................................................44 5.2. PAPILOMAS.......................................................................48 5.3. CÁNCER............................................................................51 5.4. ANÁLISIS TERCERA ETAPA...............................................54
6. ANÁLISIS DE GRÁFICAS Y DATOS...........................................56 7. RECOMENDACIONES ..............................................................63 8. CONCLUSIONES ......................................................................64 9. REFERENCIAS ........................................................................65
66