reconocimiento de voz

5/24/2018 Reconocimiento de Voz

1/90


2/90

Qu es?

El reconocimiento de vozes una disciplina de

la inteligencia artificial que tiene como

objetivo permitir la comunicacin hablada

entre seres humanos y computadoras.


3/90

Un sistema de reconocimiento de voz es una herramienta computacionalcapaz de procesar la seal de voz emitida por el ser humano y reconocer lainformacin contenida en sta, convirtindola en texto o emitiendo rdenesque actan sobre un proceso. En su desarrollo intervienen diversasdisciplinas, tales como: la fisiologa, la acstica, el procesamiento deseales, la inteligencia artificial y la ciencia de la computacin.


4/90

Historia de las seales acsticas y de la

computacin


5/90

Digital vs. Analgica


6/90

Historia de la Inteligencia Artificial Cerca de 300 a. C.

: Aristteles descubri, de manera estructurada, unconjunto de reglas que describen una parte del funcionamiento de lamente. Al seguirlas paso a paso, producen conclusiones racionales a partirde premisas dadas.

250 a. C.:Ctesibio de Alejandra construy la primera mquinaautocontrolada: un regulador del flujo de agua que actuaba modificandosu comportamiento pero claramente sin razonamiento.

1315:Ramon Llull tuvo la idea de que el razonamiento poda serefectuado de manera artificial.

1847:George Boole estableci la lgica proposicional, mucho mscompleta que los silogismos de Aristteles, pero an algo poco potente.

1879:Gottlob Frege obtiene la Lgica de Primer Orden la cual cuenta conun mayor poder de expresin y es utilizada universalmente en laactualidad.

1903:Lee De Forest inventa el trodo.


7/90

Aportaciones de Alan Turing

Public un artculo sobre los "Nmeros Calculables", el que estableci las bases para todas

las ciencias de computacin. Fij los lmites de las ciencias de la computacin porque

demostr que no es posible resolver problemas con ningn tipo de computador.

En este artculo introdujo el concepto de Mquina de Turing, una entidad matemtica

abstracta que formaliz el concepto de algoritmo y result ser la precursora de las

computadoras digitales. Poda conceptualmente leer instrucciones de una cinta de papel

perforada y ejecutar todas las operaciones crticas de un computador.

Se le considera el padre de la teora de la computabilidad, ya que demostr que existen

problemas irresolubles que ningn computador es capaz de obtener solucin.

Alan Turing y su equipo construyeron el primer computador electromecnico.

Turing consolid el campo de la inteligencia artificial con su artculo Computing Machinery

and Intelligence, en el que propuso una prueba concreta para determinar si una mquina

era inteligente o no, su famosa Prueba de Turing por lo que se le considera el padre de laInteligencia Artificial.

Turing se convirti en el adalid que quienes defendan la posibilidad de emular el

pensamiento humano a travs de la computacin y fue coautor del primer programa para

jugar ajedrez.


8/90

El resto de la historia

En 1951 William Shockley inventa el transistor de unin. El invento hizoposible una nueva generacin de computadoras mucho ms rpidas ypequeas.

En 1956 se dio el trmino "inteligencia artificial" en Dartmouth duranteuna conferencia.

En 1980 la historia se repiti con el desafo japons de la quintageneracin, que dio lugar al auge de los sistemas expertos pero que noalcanz muchos de sus objetivos, por lo que este campo sufri una nuevainterrupcin en los aos noventa.

En 1987 Martin Fischles y Oscar Firschein describieron los atributos de unagente inteligente.

En los 90s surgen los agentes inteligentes

En la actualidad se est tan lejos de cumplir la famosa prueba deTuring como cuando se formul: Existir Inteligencia Artificial cuando noseamos capaces de distinguir entre un ser humano y un programa decomputadora en una conversacin a ciegas.


9/90

Visin y audicin artificial:

reconocimiento de patrones y sonidos


10/90

Sntesis del sonido


11/90

Vibraciones en cuerpos diversos


12/90

Transmisin del sonido, resonadores y

filtros


13/90

Generacin natural de la voz La voz se produce en la laringe, que es una estructura con

unos cartlagos flexibles que son el soporte de las cuerdas

vocales. Estas cuerdas vocales estn formadas por unos

msculos finos, que dispuestos en posicin horizontal

forman una 'V'.

Para producir un sonido en concreto, las cuerdas vocales se

contraen o se alargan. Por otro lado, tambin se da un

cambio en la presin del aire al salir a travs de los plieguesvocales. Todo ello produce una vibracin que al resonar por

la laringe produce el sonido.

Un sonido tiene tres cualidades bsicas:

1)el tono o altura

2)el volumen o intensidad

3)el timbre o resonancia

Al espacio situado entre dos cuerdas vocales se llamaglotis. Variando este espacio (la glotis) el cuerpo consigue

dar al sonido las cualidades adecuadas de tono y volumen.

La cualidad del timbre la determina la posicin resonadora

de la garganta, boca y nariz, que son cavidades que

modulan y amplifican el sonido de la laringe.


14/90

Ruido de fondo


15/90

Dinmica del proceso de la escucha de

la vozEl acto de audicin de un mensaje porparte de un interlocutor-receptor es la

suma de la percepcin del sonido, su

conversin en impulsos nerviosos

trasmitidos al cerebro y la descodificacin

lingstica del mensaje.

Las ondas acsticas recorren los siguientes

rganos del odo:

Pabelln de la oreja. Odo externo.

Tmpano.

Cadena de huesecillos del odo medio.

Trompa de Eustaquio.

Ventana oval y ventana redonda (odo

interno).

Canales semicirculares.

Caracol seo.

Peasco.


16/90

Transformada de Fourier

El cepstrum de una seal es el resultado de calcular la transformada de Fourier delespectro de la seal estudiada en escala logartmica. El nombre cepstrumderiva de

invertir las cuatro primeras letras de spectrum. El cepstrum es complejo y, por tanto,

tiene su parte real y su parte imaginaria.

Muchos de los sistemas de reconocimiento de voz actuales representan la seal de

voz como un conjunto de coeficientes cepstrales calculados a una velocidad de trama

fija. Adems, tambin se han utilizado las derivadas temporales de los coeficientescepstrales.


17/90

Anlisis cepstral de la voz

Normalmente se supone que la seal de vozes la salida de un sistema LTI; ej., es lacircunvolucin de la entrada y de la respuesta

de impulso. Si queremos caracterizar la seal en funcin

de los parmetros de un modelo as, debemospasar por el proceso de desconvolucin.

El anlisis cepstral es un procedimientoutilizado para tal desconvolucin.


18/90


19/90

Sntesis de forma de onda


20/90

Sntesis de voz


21/90

Anlisis de voz por espectrogramas

El espectrogramaes el resultado de calcular el espectro de tramasenventanadas de una seal. Resulta una grfica tridimensional querepresenta la energa del contenido frecuencial de la seal segn vavariando sta a lo largo del tiempo.

Se usa, por ejemplo, para identificar sonidos fonticos y procesado

del habla, para el radar/sonar. El instrumento que generaespectrogramas es llamado espectrmetro


22/90

HARDWARE Y COMPUTADORAS

DIGITALES


23/90

Para el reconocimiento de voz el hardware

necesario no va ms all de un micrfono, unacomputadora y si es posible o cuando se est

estudiando sobre l, una mezcladora con la

cual podamos introducir una grabacin ms

limpia.


24/90

Para la sntesis de voz, es necesaria unacomputadora desde la cual vamos a estargenerando la sntesis y una bocina, para

escucharla.


25/90

Sistemas de entorno y lenguaje

asociado


26/90

Los sistemas en los cuales se pueden accesar a

este tipo de software para estudiar elreconocimiento de voz son:

Linux

UNIX

WIN32


27/90

El lenguaje que se emplea es:

C

C++

C#

Java


28/90

EL reconocimiento de voz y la

inteligencia artificial

Es una parte esencial de la InteligenciaArtificial y tiene como finalidad la

comunicacin hablada entre seres humanos y

computadoras.


29/90

El gran problema

Analizar adecuadamente un conjunto de

informaciones que proceden de diferentes

fuentes de conocimiento (lxica, sintctica,

semntica, pragmtica, acstica, fontica yfonolgica), teniendo en cuenta que pueden

existir ambigedades, incertidumbres y

errores para llegar a conseguir unainterpretacin apropiada del mensaje acstico

recibido.


30/90

Interface hombre maquina

En celulares En otros dispositivos

Esta plataforma es el software que permitir lacomunicacin hombre-mquina.


31/90

Anlisis a la hora del reconocimiento

de voz


32/90

Caracterizacin de los Sistemas de

Reconocimiento de Voz

Los sistemas de reconocimiento automtico de voz secaracterizan teniendo en cuenta diferentes aspectos:

Palabra Aislada: el usuario habla palabras individuales (ofrases) tomadas de un vocabulario determinado.

Palabras Conectadas: el usuario habla en forma fluida unasucesin de palabras pertenecientes a un vocabulario

restringido (e.j. dgitos telefnicos).

Habla continua: el usuario habla fluidamente usando palabrasde un vocabulario grande (usualmente ilimitado).


33/90

2. Tamao del vocabulario de reconocimiento Pequeo: capaz de reconocer hasta 100 palabras.

Mediano: entre 100 y 1000 palabras. Grande: ms de 1000 palabras.

3. El conocimiento de los patrones de voz del

usuario Sistemas dependientes del locutor: adaptados alocutores

particulares.

Sistemas independientes de locutor:trabajan con un

poblacin de locutores grande, la mayora de los cualesson desconocidos para el sistema.

Sistemas adaptables: se adaptan al locutor particularmientras el sistema est en uso.


34/90

3. El conocimiento de los patrones de voz del usuario Sistemas dependientes del locutor: adaptados a locutores

particulares.

Sistemas independientes de locutor: trabajan con un poblacin delocutores grande, la mayora de los cuales son desconocidos para elsistema.

Sistemas adaptables: se adaptan al locutor particular mientras elsistema est en uso.

4. Grado de conocimiento acstico-lingstico usadopor el sistema.

Slo conocimiento acstico. No usan conocimiento lingstico.

Integracin de conocimiento acstico y lingstico. El conocimiento

lingstico est usualmente representado por restriccionessintcticas y semnticas sobre la salida del sistema dereconocimiento.


35/90

Fuentes de Variabilidad de las Seales

de VozEl reconocimiento automtico de voz es una tarea inherentementedifcil debido a la variabilidad de las seales de voz. Algunas

fuentes de variabilidad incluyen:

Variabilidad en un locutor en mantener una pronunciacin consistente y

en el uso de palabras y frases. Variabilidad entre locutores debido a diferencias fisiolgicos (e.j. diferente

longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc.

Variabilidad entre transductores cuando se habla frente a diferentesmicrfonos o aparatos telefnicos.

Variabilidad introducida por el sistema de transmisin (redes de

comunicacin telfonos celulares, etc.). Variabilidad en el ambiente, que incluyen conversaciones extraas y

eventos acsticos de fondo, como ruidos, etc.


36/90

Enfoques de Reconocimiento

Automtico de Voz


37/90

1. Enfoque Acstico 1. Enfoque

Acstico-Fontico --Fontico

Consiste en detectar sonidos elementales y asignarlesdeterminados rtulos. La base de este enfoque es la hiptesisde que en el lenguaje hablado existe un nmero finito de

unidades fonticas distintas (fonemas) y que estas unidadespueden caracterizarse por un conjunto de propiedadesacsticas que se manifiestan en la seal hablada en funcindel tiempo.

Si bien las propiedades acsticas de los fonemas sonaltamente variables con el locutor y con los fonemas vecinos

(co-articulacin de sonidos), se asume que las reglas quegobiernan la variabilidad son simples y pueden ser aprendidasfcilmente por el sistema de reconocimiento


38/90

El reconocimiento consiste

bsicamente de dos pasos:

Primer paso: segmentacin y rotulado. La seales dividida en regiones acsticas a las que sonasignados uno o ms fonemas, resultando en unacaracterizacin de la seal de voz mediante un

reticulado de fonemas. Segundo paso: se trata de determinar una

palabra (o conjunto de palabras) vlida a partir dela secuencia de fonemas rotulados en el primer

paso. Se introducen en esta etapa restriccioneslingsticas (vocabulario, sintaxis, y reglassemnticas)


39/90


40/90

2. Enfoque de Reconocimiento de

patrones

Consiste bsicamente en dos pasos:

* Primer Paso: entrenamiento de patrones

*Segundo Paso: comparacin de patrones


41/90

En la etapa de comparacin de patrones se realiza una

comparacin directa entre la seal de voz desconocida (a

reconocer) y todos los posibles patrones aprendidos en la

etapa de entrenamiento, de manera de determinar el

mejor ajuste de acuerdo a algn criterio.


42/90

Tipos de Sintesis de Voz y Aplicaciones

Principios bsicos de Sistemas de


43/90

Principios bsicos de Sistemas deConversin de Texto a Voz (TTS

systems)


44/90

Principios bsicos de sistemas de

conversin de texto a voz

Proceso Lingstico-Prosdico: Anlisis del

Texto

Componentes:


45/90

Principios bsicos de sistemas de conversin

de texto a voz

Proceso Lingstico-Prosdico: AnlisisFontico

Componentes:

P i i i b i d i d i


46/90

Principios bsicos de sistemas de conversin

de texto a voz

Proceso Lingstico-Prosdico: AnlisisProsdico

Componentes:


47/90

ARQUITECTURAS NEURONALES

Caractersticas de las Redes Neuronales

Existen cuatro elementos que caracterizan una redneuronal: su topologa, el mecanismo de aprendizaje,

tipo de asociacin realizada ente la informacin de

entrada y salida y la forma de representacin de estas

informaciones.


48/90

Topologa de las Redes Neuronales

Consiste en la organizacin de las neuronas en la redformando capas o agrupaciones de neuronas ms omenos alejadas de la entrada y salida de la red. Losparmetros fundamentales de la red son: el nmero decapas, el nmero de neuronas por capa, el grado de

conectividad y el tipo de conexiones ente neuronas.En trminos topolgicos podemos clasificar las redesentre: redes de una sola capa y las redes con mltiplescapas.



49/90


Redes neuronales mono capas

Corresponde con la red neuronal ms sencilla ya que setiene una capa de neuronas que proyectan las entradas

a una capa de neuronas de salida donde se realizan

diferentes clculos.


50/90

Redes neuronales multicapa

Es una generalizacin de la anterior existiendo unconjunto de capas intermedias entre la entrada y la

salida (capas ocultas). Este tipo de red puede estar total

o parcialmente conectada.


51/90

Redes neuronales no recurrentes

En esta red la propagacin de las seales se produce enun sentido solamente, no existiendo la posibilidad de

realimentaciones. Lgicamente estas estructuras no

tienen memoria.


52/90

Redes neuronales recurrentes

Esta red viene caracterizada por la existencia de lazos

de realimentacin. Estos lazos pueden ser entreneuronas de diferentes capas, neuronas de la misma

capa o, ms sencillamente, entre una misma neurona.

Esta estructura estudia principalmente la dinmica de

sistemas no lineales.


53/90

Redes con conexiones hacia delante (feedforward)

Las seales travs de se propagan hacia adelante a

travs de las capas de la red. No existen conexiones

hacia atrs, y normalmente tampoco auto recurrentes,

ni laterales, excepto los modelos de red propuestos por

Kohonen.Las redes feedforward ms conocidas son:

PERCEPTRON, ADALINE, MADALINE, LINEAR

ADAPTATIVE MEMORY, DRIVE-REINFORCEMENT,

BACKPROPAGATION. Todas ellas son tiles enaplicaciones de reconocimiento o clasificacin de

patrones.


54/90

Redes con conexiones hacia adelante y hacia atrs

(feedforward/feedback)

En ste tipo de redes circula informacin tanto hacia delante

como hacia atrs durante el funcionamiento de la red. Para queeso sea posible existen conexiones feedforward y feedback entre

las neuronas.

En general, suelen ser bicapas, existiendo por lo tanto dos

conjuntos de pesos: los correspondientes a las conexionesfeedforward de la primera capa ( capa de entrada) hacia la

segunda (capa de salida) y los de las conexiones feedback de la

segunda a la primera. Los valores de los pesos de estos tipos de

conexiones no tienen porqu coincidir, siendo diferentes en lamayor parte de los casos.


55/90

Algunas redes tienen un funcionamiento basado en lo

que se denomina resonancia, de tal forma que las

informaciones en la primera y segundas capasinteracten entre s hasta que alcanzan un estado

estable. Esto permite un mejor acceso a las

informaciones almacenadas en la red.

Los dos modelos de red de dos capas ms conocidos

son la red ART(Adaptative Resonante Theory) y la red

BAM (Bidirectional Associative Memory).


56/90

Redes con aprendizaje supervisado

El proceso de aprendizaje se realiza mediante un entrenamiento

controlado por un agente externo (supervisor o maestro) quedetermina la respuesta que debera generar la red a partir de

una entrada determinada. El supervisor comprueba la salida de

la red y en caso de que sta no coincida con la deseada, se

proceder a modificar los pesos de las conexiones, con el fin deque la salida obtenida se aproxime a la deseada.


57/90

Redes con aprendizaje no supervisado

Las redes con dicho aprendizaje no requieren deinfluencia externa para ajustar los pesos de las

conexiones entre sus neuronas. La red no recibeninguna informacin por parte del entorno que leindique si la salida generada en respuesta de unaentrada es o no correcta. Suele decirse que estas redes

son capaces deauto organizarse.

Estas redes deben encontrar las caractersticas,regularidades, correlaciones o categoras que sepueden establecer entre los datos que se presentan ensu entrada.


58/90

Algoritmo gentico

Un algoritmo gentico es un mtodo de bsqueda que

imita la teora de la evolucin biolgica de Darwin parala resolucin de problemas. Para ello, se parte de una

poblacin inicial de la cual se seleccionan los individuos

ms capacitados para luego reproducirlos y mutarlos

para finalmente obtener la siguiente generacin deindividuos que estarn ms adaptados que la anterior

generacin.


59/90


60/90

Procesamiento de Seales Digitales

Arquitectura de los Procesadores Digitales de Seales (PDS)


61/90

Arquitectura de los Procesadores Digitales de Seales (PDS)

Los PDS son microprocesadores que comparten una arquitectura baseoptimizada. El procesamiento digital de la seal se basa en la manipulacin

matemtica de las seales representadas en un formato digital, esteanlisis matemtico conlleva un volumen de operaciones numricas muyelevado. Por esto, la arquitectura de los DSP debe responder a lasnecesidades de las operaciones que soportan, fundamentalmente: filtrado,convolucin, anlisis de espectros, correlacin, etc.

La arquitectura fundamental de los PDS es la Harvard:

Arquitectura Harvard


62/90

Arquitectura Harvard

*La instruccin que con ms frecuencia realiza un PDS estndar es lamultiplicacin y acumulacin. sta debe ser realizada con eficiencia, y para

ello debera ser completada en un ciclo de instruccin. Esto implica quedos valores deben ser ledos desde memoria y (dependiendo de laorganizacin) un valor debe ser escrito, o dos o ms registros dedirecciones deben ser actualizados, en ese ciclo. Por lo tanto, una longitudgrande en la memoria es tan importante como la operacin de

multiplicacinacumulacin.

*Varios buses y memorias incluidas en el chip son utilizadas de forma quelecturas y escrituras a diferentes unidades de memoria pueden ser hechasa la vez. Dos memorias son utilizadas en la arquitectura Harvard clsica.

Una de ellas es utilizada exclusivamente para datos, mientras que la otraes utilizada para instrucciones. Esta arquitectura alcanza un alto grado deconcurrencia (lecturas y escrituras simultneas).


63/90

Ejemplo de un PDS

Programacin de un PDS


64/90

Programacin de un PDS

Un PDS se puede programar tanto en ensamblador como en C. Cadafamilia de PDS tienen su propio lenguaje ensamblador y sus propias

herramientas suministradas por el fabricante. Gracias a la colaboracinentre fabricantes, existen lenguajes de ms alto nivel (y por lo tanto, mssencillos y rpidos de usar) que incorporan la capacidad de programar losPDS, en general pasando por un precompilado automtico en C. Son loscasos de LabVIEW y Matlab.

Ejemplo de un filtro con script m compatible con LabVIEW MathScript


65/90

Ejemplo de un filtro con script m compatible con LabVIEW MathScript

y con Matlab

En el siguiente ejemplo se presenta la programacin de un filtro digital en

script m. El parmetro "entrada" es un valor que hay que darle al programa.Los coeficientes del filtro estn en los arrays den y num. Todas las

operaciones son sumas (o restas), multiplicaciones y almacenamiento enmemoria (variable w).

w=[0 0 0 0 0];

y=zeros(1,length(entrada));for i=1:length(entrada)

w(5)=entrada(i)-den(2)*w(4)-den(3)*w(3)-den(4)*w(2)-den(5)*w(1);

y(i)= num(1)*w(5)+num(2)*w(4)+num(3)*w(3)+num(4)*w(2);

w(1)=w(2);w(2)=w(3);

w(3)=w(4);

w(4)=w(5);

end;

Filtro digital usando un PDS


66/90

Filtro digital usando un PDS

Detector de tono


67/90

Es usado para supervisar una seal de audio para un tono de frecuencia especficao mltiples tonos. A pesar que puede detectar cualquier frecuencia de audio, por lo

general, se utiliza para detectar los tonos de muy baja frecuencia que no puedenser odos por los seres humanos. Los usos tpicos incluyen la difusin de

programas de radio en la red (activar automticamente pausas publicitarias),sistemas de control (controlar la eliminacin de sistemas en un sistema de audio),

interruptores de audio remotos (cambiar las seales de encendido y apagadousando tonos), transmisin sub-banda de informacin (transmitir informacin a

travs de una transmisin de audio) y muchos otros usos relacionados.

E l i d l i d


68/90

Evolucin de la sntesis de voz.

La sntesis de voz es la produccin artificial de habla

humana. Un sistema usado con este propsito recibe el

nombre de sintetizador de habla y puede llevarse a

cabo en software o en hardware.

Un sistema texto a voz se compone de dos partes:

un front-end y un back-end. A grandes rasgos, el front-

end toma como entrada texto y produce

una representacin lingstica fontica. El back-endtoma como entrada la representacin lingstica

simblica y produce una forma de onda sintetizada.


69/90

En los aos 30, los laboratorios Bell Labs desarrollaron

el VOCODER, un analizador y sintetizador del habla operado por

teclado que era claramente inteligible. Homer Dudley refin estedispositivo y creo VODER.

Los primeros sintetizadores de voz sonaban muy robticos y eran

a menudo inteligibles a duras penas. Sin embargo, la calidad del

habla sintetizada ha mejorado en gran medida, y el resultado de

los sistemas de sntesis contemporneos es, en ocasiones,

indistinguible del habla humana real.


70/90

Codificador de voz

Es un analizador y sintetizador de voz. La voz

humana consiste en sonidos generados por la apertura

y cierre de la glotis (cuerdas vocales), lo que produce

una onda peridica con muchos sonidos armnicos.

Este sonido bsico es entonces filtrado por la nariz y lagarganta (un complicado sistema resonante conocido

como el tracto vocal) de forma controlada, creando la

amplia variedad de timbres del habla. Hay otro

conjunto de sonidos, conocidos como sordos, que noson generados por la vibracin de las cuerdas vocales.

El d i l h bl t d d


71/90

El vocoder examina el habla encontrando su ondabsica, que es la frecuencia fundamental, y midiendocmo cambian en el tiempo las caractersticas

espectrales, es decir los formantes, que son bandas defrecuencia donde se concentra la mayor parte de laenerga sonora de un sonido, grabando el habla. Estoda como resultado una serie de nmerosrepresentando esas frecuencias modificadas en un

tiempo particular a medida que el usuario habla. Alhacer esto, el vocoder reduce en gran medida lacantidad de informacin necesaria para almacenar elhabla. Para recrear el habla, el vocoder simplementerevierte el proceso, creando la frecuencia fundamentalen un oscilador electrnico y pasando su resultado poruna serie de filtros basado en la secuencia original desmbolos.


72/90

Vocoders analgicos

Crea sonidos mediante manipulacin directa de

corrientes elctricas.

V d di it l


73/90

Vocoders digitales

Crea sonidos mediante la manipulacin de una onda

FM digital.

Inteligencia artificial en la sntesis de voz


74/90

Inteligencia artificial en la sntesis de voz

El reconocimiento automtico del habla (RAH)

o reconocimiento automtico de voz es una disciplina

de la inteligencia artificial que tiene como objetivo

permitir la comunicacin hablada entre seres humanos

y computadoras. Es una herramienta computacional

capaz de procesar la seal de voz emitida por el serhumano y reconocer la informacin contenida en sta,

convirtindola en texto o emitiendo rdenes que

actan sobre un proceso.


75/90

Anlisis espectral de voz CEPSTRUM.


76/90

p

El cepstrum c(n) de la seal de voz se define

como la transformada inversa de Fourier dellogaritmo de su espectro localizado S(co), es

decir,

c(n) = F'1 {In S(co)}

El trmino cepstrum es indicativo de haber

realizado una transformacin inversa del

spectrum (espectro). La variable independiente

del cepstrum se denomina cuefrencia, trmino

formado a partir de la palabra frecuencia, y

tiene carcter temporal.


77/90

La principal caracterstica del cepstrum es que permite

separar del espectro de la seal de voz la estructura

fina y los formantes.


78/90


79/90

Desarrollo de un proyecto dereconocimiento de voz

Instrumento Musical


80/90

Un instrumento musical es un objeto compuesto por la combinacin de unoo ms sistemas resonantes y los medios para su vibracin, construido con

el fin de reproducir sonido en uno o ms tonos que puedan ser combinadospor un intrprete para producir msica.

Erich von Hornbostel y Curt Sachs publicaron en 1914 una clasificacin delos instrumentos musicales que es ampliamente seguida en la actualidad.

Establecieron cuatro clases o categoras principales de instrumentos

musicales (a la que aadieron una quinta posteriormente), que a su vez sedividen en grupos y subgrupos, segn el modo de generacin del sonido:

Idifonos

Membranfonos Aeronfonos

Cordfonos

Instrumentos idifonos


81/90

Son aquellos instrumentos en los que el sonido procede de un cuerposlido y es generado por vibracin del instrumento mismo mediantepercusin, frotacin o pulsacin, como en el caso de las claves, xilfono,

campana.

Instrumentos membranfonos

Los membranfonos son aquellos en los cuales el sonido es generado porla vibracin de una membrana por percusin o frotacin, como es el casodel timbal, tambor, conga.

Instrumentos aerfonos


82/90

Son los llamados instrumentos de viento, donde el sonido es generado porla vibracin del aire, a causa del roce con una lengeta, labios o cuerdasvocales, como es en el caso de la flauta, trompeta, saxofn.

Instrumentos cordfonosSon los llamados instrumentos de cuerda, donde el sonido es generado porla vibracin de una cuerda mediante percusin, frotacin o pinzamiento,como en el caso del arpa, guitarra, violn, piano.

Sntesis de voz


83/90

La sntesis de voz es la produccin artificial de habla humana. Un sistemausado con este propsito recibe el nombre de sintetizador de habla y

puede llevarse a cabo en software o en hardware. La sntesis de voz sellama a menudo en ingls text-to-speech (TTS), en referencia a sucapacidad de convertir texto en habla.

Un sistema de sntesis de voz se compone de dos etapas: la primera tomauna entrada como texto y produce una representacin lingstica fontica,

la segunda toma como entrada la representacin lingstica simblica yproduce una forma de onda sintetizada.

La primera etapa se encarga de dos tareas principales. En primer lugar toma eltexto y convierte partes problemticas como nmeros y abreviaturas en palabras


84/90

texto y convierte partes problemticas como nmeros y abreviaturas en palabrasequivalentes. Este proceso se llama a menudo normalizacin de texto opreprocesado. Entonces asigna una transcripcin fontica a cada palabra, y dividey marca el texto en varias unidades prosdicas, como frases y oraciones. El

proceso de asignar transcripciones fonticas a las palabras recibe el nombre deconversin texto a fonema (TTP en ingls) o grafema a fonema (GTP en ingls). Lacombinacin de transcripciones fonticas e informacin prosdica constituye larepresentacin lingstica fontica.


85/90

La segunda etapa, toma la representacin lingstica simblica y laconvierte en sonido, esta segunda etapa suele ser llamada sintetizador.

Aplicacin de la sntesis de la voz a la msica


86/90

Dentro del campo de la creacin musical encontramos software quemediante este sistema genera voces similares a la de las humanas

capaces de interpretar canciones con gran realismo. Un ejemplo actual esel caso del sistema Vocaloid, desarrollado por Yamaha Corporation, estesistema es capaz de reproducir voces humanas con una naturalidad y unainteligibilidad muy altas utilizando muestras de voz. Para ello el usuariodebe indicar la letra de las canciones y al entonacin con la que desea que

sean cantadas. Tambin es posible modificar otros parmetros de la voz.

Vocoder

Un vocoder (nombre derivado de voice coder, codificador de voz) es unanalizador y sintetizador de voz.

Para su uso como sintetizador de voz el vocoder examina el hablaencontrando su onda bsica, que es la frecuencia fundamental, y midiendocmo cambian las caractersticas espectrales con el tiempo grabando elhabla.


87/90

Esto da como resultado una serie de nmeros representando esasfrecuencias modificadas en un tiempo particular a medida que el usuariohabla. Al hacer esto, el vocoder reduce en gran medida la cantidad de

informacin necesaria para almacenar el habla. Para recrear el habla, elvocoder simplemente revierte el proceso, creando la frecuenciafundamental en un oscilador electrnico y pasando su resultado por unaserie de filtros basado en la secuencia original de smbolos. Para lasaplicaciones musicales, una fuente de sonidos musicales se usa como

portadora, en lugar de extraer la frecuencia fundamental.

Reconocimiento de partituras musicales


88/90

Para el reconocimiento de partituras por parte de un computador se utilizanlos sistemas OMR (Optical Music Recognition) que son una aplicacin del

reconocimiento de caracteres (OCR o Optical Character Recognition) apartir de imgenes digitales.

Utilizando estos sistemas podemos, a partir de una partitura escrita (amano o por ordenador) en papel, escanearla y obtener un archivo quecontenga informacin sobre esa partitura, en formatos como MIDI, NIFF o

XML, lo que permite despus reproducirlo en un ordenador, cambiar laafinacin a la que se debe tocar la cancin automticamente o realizarhacer cualquier otra modificacin con facilidad gracias a programasespeciales para la edicin de partituras o simplemente almacenarlas eimprimirlas en cualquier momento.

Los sistemas OMR suelen seguir cuatro etapas en el proceso dereconocimiento estas son:


89/90

reconocimiento, estas son:

Identificacin del pentagrama. En esta etapa se identifica la posicin delas lneas del pentagrama y se generalmente se eliminan, dejando

nicamente los smbolos musicales superpuestos a estas.

Localizacin de objetos musicales. Se localizan los smbolos que seencuentran sobre el pentagrama.

Identificacin de smbolos. Se determina de que tipo es cada smbolo.


90/90

Paso a notacin musical. Por ltimo se determina la relacin existenteentre los smbolos y se almacena esta informacin de manera que losprogramas como secuenciadores o editores de msica puedan

reconocer, en forma de ficheros como los mencionados anteriormente.

reconocimiento de voz

Documents