procesamiento de señales de voz

Post on 30-Jan-2016

61 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Procesamiento de señales de voz. La comunicación oral. ¿Qué es la voz?. Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes). Cuestiones varias:. ¿Qué relación hay entre los fonemas y la señal de voz? - PowerPoint PPT Presentation

TRANSCRIPT

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR1

Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR2

La comunicación oral

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR3

¿Qué es la voz?

• Onda de sonido (onda de presión)

• Producida por el aparato fonador

• Utilizada para comunicación (para transmisión de mensajes)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR4

Cuestiones varias:

• ¿Qué relación hay entre los fonemas y la señal de voz?• ¿Y entre otras características y la señal de voz?• ¿Cómo podemos analizar las características de la voz?• ¿Cómo se manifiesta una patología de la voz en la

señal?• ¿Cómo podemos ajustar un sistema de ayuda a la

audición para optimizar la comprensión de la voz?• ¿Cómo podemos interpretar un error en la producción

de un fonema?• ¿Cómo podemos interpretar un error en detección o

identificación de fonemas?

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR5

Procesamiento de voz

• Análisis de voz• Codificación y comprensión de voz• Síntesis de voz• Reconocimiento automático de voz• Reconocimiento y verificación de

locutores• Detección de patologías• Diseño de ayudas para la audición

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR6

¿Qué es la voz?

• Producción de la voz

• Percepción de la voz

• Procesamiento de señales

Dificultades al intentar relacionar la señal con las características

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR7

Problemas del procesamiento de voz

• Variabilidad– Intra-locutor (estado salud / ánimo, velocidad)– Inter-locutor– Adquisición

• Continuidad: concatenación y coarticulación• Información contenida en la señal de voz muy

redundante• Multi-interactividad entre niveles:

– Nivel fonético– Características suprasegmentales– Nivel semántico: contexto – suplencia mental

• Ruido: perturbación + efecto Lombard

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR8

• Variabilidad de las señales de voz

• 40 ms correspondientes al fonema /a/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR9

Modelos de producción de voz

• Órganos de producción de voz– Cavidades infraglóticas– Cavidad laríngea (cuerdas vocales)– Cavidades supraglóticas

Provisión de aireGeneración de la “onda glotal”Filtrado de la onda glotal (diversificación

fonética)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR10

Modelo acústico de producción de voz

• Onda acústica: onda de presión en el aire con c = 350 m/s

• Longitud de onda = c / f– Para 100 Hz, = 3.5 m– Para 4 kHz, = 8.75 cm

• Producción de sonido:– Fonemas sonoros: vibración cuerdas vocales– Fonemas sordos: flujo turbulento– Fonemas oclusivos: obstrucción + apertura

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR11

• Paredes no rígidas:– Pérdidas onda acústica

• Forma y sección del tracto vocal varía en el tiempo:– Se producen entre 5 y 20 fonemas por segundo

• Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar

Modelo acústico de producción de voz (II)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR12

Simplificaciones

• Tracto vocal tubo rígido descrito por la “función de área” A(x,t)

• Como > radio del tubo, aproximación de onda plana – (El problema de contorno tridimensional se puede

reducir a un problema unidimensional)

• Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR13

Función de área

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR14

Ecuaciones de onda

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR15

Condiciones de contorno• Glotis: vibración cuerdas vocales• Labios: p(L)=0• Onda proporcional a u(L)

Solución de las ecuaciones de onda• A se puede suponer constante en el tiempo

(condición de quasi-estacionariedad)• Para A(x) sencilla, soluciones analíticas• Para A(x) compleja, métodos numéricos• Medidas de A(x): Rx, TAC, RMN, articulógraf.

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR16

Pérdidas por elasticidad

• mw masa/unid.long;• bw cte. amortiguación• kw cte. recuperación elástica

• Solución para:• L = 17.5 cm• A = cte = 5.0 cm2

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR17

u(L,f) / uG(f)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR18

Formantes

• Formantes: resonancias del tracto vocal

• Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz

• El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR19

Pérdidas por radiación de onda

• p(L) = 0 no es cierto• Impedancia acústica Z• Impedancia para abertura circular

de radio a en plano infinito

• El filtrado del tracto vocal considerando las perdidas por radiación es distinto:• Caída para altas frecuencias• 6 dB / década

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR20

u(L,f) / uG(f)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR21

Solución numérica para función de área correspondiente a fonema /a/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR22

Acoplamiento del tracto nasal

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR23

Modelo acústico de producción de voz

• Excitación– Fonemas sonoros– Fonemas sordos– Fonemas oclusivos

• Filtrado por tracto vocal / nasal– Formantes (1 por kHz)– Caída 6 dB/década

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR24

Modelo digital de producción de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR25

Características de la voz

• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR26

Características de la voz

• Excitación:– Sonoro (freq. fundamental o pitch)– Sordo– Oclusivo– Combinación

• Formantes:– Cavidad buco-nasal– Envolvente espectral

• Energía: presión de aire• Evolución en el tiempo de los parámetros

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR27

Clasificación de los fonemas(desde el punto de vista de la producción)

• Actividad de cuerdas vocales– Vocales– Consonantes sonoras– Consonantes sordas

• Modo de articulación– Vocales– Consonantes

• Lugar de articulación– Vocales– Consonantes

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR28

Clasificación de vocales

• Modo de articulación (formante 1)– Cerradas (i,u)– Medias (e,o)– Abiertas (a)

• Lugar de articulación (formante 2)– Anteriores (i,e)– Centrales (a)– Posteriores (o,u)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR29

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

fre

q. 2

o fo

rma

nte

(H

z)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR30

Modo de articulación (cons.)

• Oclusivas (b,d,g,p,t,k)

• Fricativas (s,f,z,x,y)

• Africadas (ch)

• Nasales (m,n,ñ)

• Líquidas:– Laterales (l, ll)– Vibrantes (r, R)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR31

Lugar de articulación (cons.)

• Bilabiales (b,p,m)

• Labiodentales (f)

• Linguodentales (t,d)

• Linguointerdentales (z)

• Linguoalveolares (s,n,l,r,R)

• Linguopalatales (y,ch,ñ,ll)

• Linguovelares (k,g,x)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR32

Fonemas del español

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR33

Análisis de señales de voz

• Conceptos de procesado de señales– Transformada de Fourier– Componentes de frecuencia– Espectro de potencia– Filtrado– Ventanas– Muestreo– Espectrogramas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR34

Transformada de Fourier

• Transformada (FT): – Cambio de representación– Misma información (otra representación)– Existe transformada inversa (FT-1)– Transforma señal compleja en señal

compleja:

Re(z)

Im(z)

x

yr

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR35

Espectro de potencia (1)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR36

Espectro de potencia (2)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR37

Descomposición en componentes freq.

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR38

Linealidad de la Transformada de Fourier

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR39

Linealidad de la Transformada de Fourier

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR40

Filtrado

• Caracterización del filtro:– Tiempo: respuesta impulsiva– Frecuencia: función de transferencia (o

respuesta en frecuencia)

filtroexcitación señal filtrada

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR41

Filtrado en el tiempo: convolución

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR42

Filtrado en frecuencia: multiplicación

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR43

Ventanas (multiplicación en tiempo)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR44

Ventanas (multiplicación en tiempo)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR45

Transformada de un tren de pulsos

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR46

Transformada de señal periódica

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR47

Muestreo de señales: T. de muestreo

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR48

Transformada Fourier: Resumen

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR49

DFT y FFT

• Transformada discreta de Fourier (DFT)• Transformada rápida de Fourier (FFT)

• Señales discretas (muestreadas)• Ventana (resolución espectral)• N muestras en t => N muestras en f• FFT: Muy utilizada en procesamiento

digital de señales

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR50

La señal de voz

/sal/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR51

La señal de voz

/s/ /a/ /l/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR52

Estacionariedad de la voz

• La señal de voz es “estacionaria a trozos”– Durante la pronunciación de un fonema es quasi-

estacionaria– Velocidad cambios tracto vocal– Velocidad cambios cuerdas vocales

– Estacionaria durante 20 – 40 ms– Velocidad de pronunciación: 5-20 fonemas / seg– Análisis de “trozos de voz estacionarios”:

ventanas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR53

Análisis con ventanas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR54

Análisis con ventanas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR55

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR56

Espectro de las vocales

/a/

/e/

/a/ cerrada

/i/

/o/

/u/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR57

Formantes 1º y 2º en vocales

500

1000

1500

2000

2500

3000

200 300 400 500 600 700 800 900 1000

fre

q. 2

o fo

rma

nte

(H

z)

freq. 1er formante (Hz)

/a//o//u/

/i/ /e/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR58

Espectro de consonantes sonoras

/l/

/R/

/y/

/m/

/n/

/ñ/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR59

Espectro de consonantes fricativas

/s/

/ss/

/sh/

/z/

/f/

/j/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR60

Fonemas no estacionarios

• Fonemas estacionarios:– vocales: /a/ /e/ /i/ /o/ /u/– consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/– consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/

• Fonemas no estacionarios:– Plosivas sordas: /p/ /t/ /k/– Plosivas sonoras: /b/ /d/ /g/– Otras consonantes: /ch/ /r/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR61

Espectrograma (representación tiempo - frecuencia)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR62

Espectrograma (representación tiempo - frecuencia)

m b o i a kom p r a R p a n

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR63

Ventana en el espectrograma: 64ms / 8 ms

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR64

Información relevante de la señal de voz:

• Para reconocimiento de voz:– Envolvente espectral (formantes)– Evolución temporal de los formantes

Información espectral de tiempo corto

• Información complementaria:– Tono fundamental– Estructura fina del espectro

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR65

Cómo funciona el oído

• Extrae información de la señal de audio.

• Envía la información al cerebro en forma de estímulos nerviosos.

• El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR66

Características del oído humano

• Configuración de la cóclea:6.000 células ciliadas internas40.000 terminaciones nerviosasRepolarización: 2 ms (400 - 500 disparos/seg)Conexión sináptica: sin interacción entre

canales

• Capacidad de un oído entrenado:– Resolución espectral: 1/9 tono– Resolución temporal: 400 - 500 Hz– Resolución de intensidad: 1 dB

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR67

Capacidad del oído humano

• Resolución en frecuencia: 1/9 tono:– fo - 1.013*fo 450 Hz - 456 Hz– rango de frecuencia: 20 Hz - 20.000 Hz

• Resolución en el tiempo:– limitado por tiempo relajación de células ciliadas y

terminaciones nerviosas (~400 disparos por seg.)

• Resolución en intensidad:– Mejor de 1 dB

• Mecanismos de adaptación.

top related