reconocimiento de voz
TRANSCRIPT
-
5/24/2018 Reconocimiento de Voz
1/90
-
5/24/2018 Reconocimiento de Voz
2/90
Qu es?
El reconocimiento de vozes una disciplina de
la inteligencia artificial que tiene como
objetivo permitir la comunicacin hablada
entre seres humanos y computadoras.
-
5/24/2018 Reconocimiento de Voz
3/90
Un sistema de reconocimiento de voz es una herramienta computacionalcapaz de procesar la seal de voz emitida por el ser humano y reconocer lainformacin contenida en sta, convirtindola en texto o emitiendo rdenesque actan sobre un proceso. En su desarrollo intervienen diversasdisciplinas, tales como: la fisiologa, la acstica, el procesamiento deseales, la inteligencia artificial y la ciencia de la computacin.
-
5/24/2018 Reconocimiento de Voz
4/90
Historia de las seales acsticas y de la
computacin
-
5/24/2018 Reconocimiento de Voz
5/90
Digital vs. Analgica
-
5/24/2018 Reconocimiento de Voz
6/90
Historia de la Inteligencia Artificial Cerca de 300 a. C.
: Aristteles descubri, de manera estructurada, unconjunto de reglas que describen una parte del funcionamiento de lamente. Al seguirlas paso a paso, producen conclusiones racionales a partirde premisas dadas.
250 a. C.:Ctesibio de Alejandra construy la primera mquinaautocontrolada: un regulador del flujo de agua que actuaba modificandosu comportamiento pero claramente sin razonamiento.
1315:Ramon Llull tuvo la idea de que el razonamiento poda serefectuado de manera artificial.
1847:George Boole estableci la lgica proposicional, mucho mscompleta que los silogismos de Aristteles, pero an algo poco potente.
1879:Gottlob Frege obtiene la Lgica de Primer Orden la cual cuenta conun mayor poder de expresin y es utilizada universalmente en laactualidad.
1903:Lee De Forest inventa el trodo.
-
5/24/2018 Reconocimiento de Voz
7/90
Aportaciones de Alan Turing
Public un artculo sobre los "Nmeros Calculables", el que estableci las bases para todas
las ciencias de computacin. Fij los lmites de las ciencias de la computacin porque
demostr que no es posible resolver problemas con ningn tipo de computador.
En este artculo introdujo el concepto de Mquina de Turing, una entidad matemtica
abstracta que formaliz el concepto de algoritmo y result ser la precursora de las
computadoras digitales. Poda conceptualmente leer instrucciones de una cinta de papel
perforada y ejecutar todas las operaciones crticas de un computador.
Se le considera el padre de la teora de la computabilidad, ya que demostr que existen
problemas irresolubles que ningn computador es capaz de obtener solucin.
Alan Turing y su equipo construyeron el primer computador electromecnico.
Turing consolid el campo de la inteligencia artificial con su artculo Computing Machinery
and Intelligence, en el que propuso una prueba concreta para determinar si una mquina
era inteligente o no, su famosa Prueba de Turing por lo que se le considera el padre de laInteligencia Artificial.
Turing se convirti en el adalid que quienes defendan la posibilidad de emular el
pensamiento humano a travs de la computacin y fue coautor del primer programa para
jugar ajedrez.
-
5/24/2018 Reconocimiento de Voz
8/90
El resto de la historia
En 1951 William Shockley inventa el transistor de unin. El invento hizoposible una nueva generacin de computadoras mucho ms rpidas ypequeas.
En 1956 se dio el trmino "inteligencia artificial" en Dartmouth duranteuna conferencia.
En 1980 la historia se repiti con el desafo japons de la quintageneracin, que dio lugar al auge de los sistemas expertos pero que noalcanz muchos de sus objetivos, por lo que este campo sufri una nuevainterrupcin en los aos noventa.
En 1987 Martin Fischles y Oscar Firschein describieron los atributos de unagente inteligente.
En los 90s surgen los agentes inteligentes
En la actualidad se est tan lejos de cumplir la famosa prueba deTuring como cuando se formul: Existir Inteligencia Artificial cuando noseamos capaces de distinguir entre un ser humano y un programa decomputadora en una conversacin a ciegas.
-
5/24/2018 Reconocimiento de Voz
9/90
Visin y audicin artificial:
reconocimiento de patrones y sonidos
-
5/24/2018 Reconocimiento de Voz
10/90
Sntesis del sonido
-
5/24/2018 Reconocimiento de Voz
11/90
Vibraciones en cuerpos diversos
-
5/24/2018 Reconocimiento de Voz
12/90
Transmisin del sonido, resonadores y
filtros
-
5/24/2018 Reconocimiento de Voz
13/90
Generacin natural de la voz La voz se produce en la laringe, que es una estructura con
unos cartlagos flexibles que son el soporte de las cuerdas
vocales. Estas cuerdas vocales estn formadas por unos
msculos finos, que dispuestos en posicin horizontal
forman una 'V'.
Para producir un sonido en concreto, las cuerdas vocales se
contraen o se alargan. Por otro lado, tambin se da un
cambio en la presin del aire al salir a travs de los plieguesvocales. Todo ello produce una vibracin que al resonar por
la laringe produce el sonido.
Un sonido tiene tres cualidades bsicas:
1)el tono o altura
2)el volumen o intensidad
3)el timbre o resonancia
Al espacio situado entre dos cuerdas vocales se llamaglotis. Variando este espacio (la glotis) el cuerpo consigue
dar al sonido las cualidades adecuadas de tono y volumen.
La cualidad del timbre la determina la posicin resonadora
de la garganta, boca y nariz, que son cavidades que
modulan y amplifican el sonido de la laringe.
-
5/24/2018 Reconocimiento de Voz
14/90
Ruido de fondo
-
5/24/2018 Reconocimiento de Voz
15/90
Dinmica del proceso de la escucha de
la vozEl acto de audicin de un mensaje porparte de un interlocutor-receptor es la
suma de la percepcin del sonido, su
conversin en impulsos nerviosos
trasmitidos al cerebro y la descodificacin
lingstica del mensaje.
Las ondas acsticas recorren los siguientes
rganos del odo:
Pabelln de la oreja. Odo externo.
Tmpano.
Cadena de huesecillos del odo medio.
Trompa de Eustaquio.
Ventana oval y ventana redonda (odo
interno).
Canales semicirculares.
Caracol seo.
Peasco.
-
5/24/2018 Reconocimiento de Voz
16/90
Transformada de Fourier
El cepstrum de una seal es el resultado de calcular la transformada de Fourier delespectro de la seal estudiada en escala logartmica. El nombre cepstrumderiva de
invertir las cuatro primeras letras de spectrum. El cepstrum es complejo y, por tanto,
tiene su parte real y su parte imaginaria.
Muchos de los sistemas de reconocimiento de voz actuales representan la seal de
voz como un conjunto de coeficientes cepstrales calculados a una velocidad de trama
fija. Adems, tambin se han utilizado las derivadas temporales de los coeficientescepstrales.
-
5/24/2018 Reconocimiento de Voz
17/90
Anlisis cepstral de la voz
Normalmente se supone que la seal de vozes la salida de un sistema LTI; ej., es lacircunvolucin de la entrada y de la respuesta
de impulso. Si queremos caracterizar la seal en funcin
de los parmetros de un modelo as, debemospasar por el proceso de desconvolucin.
El anlisis cepstral es un procedimientoutilizado para tal desconvolucin.
-
5/24/2018 Reconocimiento de Voz
18/90
-
5/24/2018 Reconocimiento de Voz
19/90
Sntesis de forma de onda
-
5/24/2018 Reconocimiento de Voz
20/90
Sntesis de voz
-
5/24/2018 Reconocimiento de Voz
21/90
Anlisis de voz por espectrogramas
El espectrogramaes el resultado de calcular el espectro de tramasenventanadas de una seal. Resulta una grfica tridimensional querepresenta la energa del contenido frecuencial de la seal segn vavariando sta a lo largo del tiempo.
Se usa, por ejemplo, para identificar sonidos fonticos y procesado
del habla, para el radar/sonar. El instrumento que generaespectrogramas es llamado espectrmetro
-
5/24/2018 Reconocimiento de Voz
22/90
HARDWARE Y COMPUTADORAS
DIGITALES
-
5/24/2018 Reconocimiento de Voz
23/90
Para el reconocimiento de voz el hardware
necesario no va ms all de un micrfono, unacomputadora y si es posible o cuando se est
estudiando sobre l, una mezcladora con la
cual podamos introducir una grabacin ms
limpia.
-
5/24/2018 Reconocimiento de Voz
24/90
Para la sntesis de voz, es necesaria unacomputadora desde la cual vamos a estargenerando la sntesis y una bocina, para
escucharla.
-
5/24/2018 Reconocimiento de Voz
25/90
Sistemas de entorno y lenguaje
asociado
-
5/24/2018 Reconocimiento de Voz
26/90
Los sistemas en los cuales se pueden accesar a
este tipo de software para estudiar elreconocimiento de voz son:
Linux
UNIX
WIN32
-
5/24/2018 Reconocimiento de Voz
27/90
El lenguaje que se emplea es:
C
C++
C#
Java
-
5/24/2018 Reconocimiento de Voz
28/90
EL reconocimiento de voz y la
inteligencia artificial
Es una parte esencial de la InteligenciaArtificial y tiene como finalidad la
comunicacin hablada entre seres humanos y
computadoras.
-
5/24/2018 Reconocimiento de Voz
29/90
El gran problema
Analizar adecuadamente un conjunto de
informaciones que proceden de diferentes
fuentes de conocimiento (lxica, sintctica,
semntica, pragmtica, acstica, fontica yfonolgica), teniendo en cuenta que pueden
existir ambigedades, incertidumbres y
errores para llegar a conseguir unainterpretacin apropiada del mensaje acstico
recibido.
-
5/24/2018 Reconocimiento de Voz
30/90
Interface hombre maquina
En celulares En otros dispositivos
Esta plataforma es el software que permitir lacomunicacin hombre-mquina.
-
5/24/2018 Reconocimiento de Voz
31/90
Anlisis a la hora del reconocimiento
de voz
-
5/24/2018 Reconocimiento de Voz
32/90
Caracterizacin de los Sistemas de
Reconocimiento de Voz
Los sistemas de reconocimiento automtico de voz secaracterizan teniendo en cuenta diferentes aspectos:
Palabra Aislada: el usuario habla palabras individuales (ofrases) tomadas de un vocabulario determinado.
Palabras Conectadas: el usuario habla en forma fluida unasucesin de palabras pertenecientes a un vocabulario
restringido (e.j. dgitos telefnicos).
Habla continua: el usuario habla fluidamente usando palabrasde un vocabulario grande (usualmente ilimitado).
-
5/24/2018 Reconocimiento de Voz
33/90
2. Tamao del vocabulario de reconocimiento Pequeo: capaz de reconocer hasta 100 palabras.
Mediano: entre 100 y 1000 palabras. Grande: ms de 1000 palabras.
3. El conocimiento de los patrones de voz del
usuario Sistemas dependientes del locutor: adaptados alocutores
particulares.
Sistemas independientes de locutor:trabajan con un
poblacin de locutores grande, la mayora de los cualesson desconocidos para el sistema.
Sistemas adaptables: se adaptan al locutor particularmientras el sistema est en uso.
-
5/24/2018 Reconocimiento de Voz
34/90
3. El conocimiento de los patrones de voz del usuario Sistemas dependientes del locutor: adaptados a locutores
particulares.
Sistemas independientes de locutor: trabajan con un poblacin delocutores grande, la mayora de los cuales son desconocidos para elsistema.
Sistemas adaptables: se adaptan al locutor particular mientras elsistema est en uso.
4. Grado de conocimiento acstico-lingstico usadopor el sistema.
Slo conocimiento acstico. No usan conocimiento lingstico.
Integracin de conocimiento acstico y lingstico. El conocimiento
lingstico est usualmente representado por restriccionessintcticas y semnticas sobre la salida del sistema dereconocimiento.
-
5/24/2018 Reconocimiento de Voz
35/90
Fuentes de Variabilidad de las Seales
de VozEl reconocimiento automtico de voz es una tarea inherentementedifcil debido a la variabilidad de las seales de voz. Algunas
fuentes de variabilidad incluyen:
Variabilidad en un locutor en mantener una pronunciacin consistente y
en el uso de palabras y frases. Variabilidad entre locutores debido a diferencias fisiolgicos (e.j. diferente
longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc.
Variabilidad entre transductores cuando se habla frente a diferentesmicrfonos o aparatos telefnicos.
Variabilidad introducida por el sistema de transmisin (redes de
comunicacin telfonos celulares, etc.). Variabilidad en el ambiente, que incluyen conversaciones extraas y
eventos acsticos de fondo, como ruidos, etc.
-
5/24/2018 Reconocimiento de Voz
36/90
Enfoques de Reconocimiento
Automtico de Voz
-
5/24/2018 Reconocimiento de Voz
37/90
1. Enfoque Acstico 1. Enfoque
Acstico-Fontico --Fontico
Consiste en detectar sonidos elementales y asignarlesdeterminados rtulos. La base de este enfoque es la hiptesisde que en el lenguaje hablado existe un nmero finito de
unidades fonticas distintas (fonemas) y que estas unidadespueden caracterizarse por un conjunto de propiedadesacsticas que se manifiestan en la seal hablada en funcindel tiempo.
Si bien las propiedades acsticas de los fonemas sonaltamente variables con el locutor y con los fonemas vecinos
(co-articulacin de sonidos), se asume que las reglas quegobiernan la variabilidad son simples y pueden ser aprendidasfcilmente por el sistema de reconocimiento
-
5/24/2018 Reconocimiento de Voz
38/90
El reconocimiento consiste
bsicamente de dos pasos:
Primer paso: segmentacin y rotulado. La seales dividida en regiones acsticas a las que sonasignados uno o ms fonemas, resultando en unacaracterizacin de la seal de voz mediante un
reticulado de fonemas. Segundo paso: se trata de determinar una
palabra (o conjunto de palabras) vlida a partir dela secuencia de fonemas rotulados en el primer
paso. Se introducen en esta etapa restriccioneslingsticas (vocabulario, sintaxis, y reglassemnticas)
-
5/24/2018 Reconocimiento de Voz
39/90
-
5/24/2018 Reconocimiento de Voz
40/90
2. Enfoque de Reconocimiento de
patrones
Consiste bsicamente en dos pasos:
* Primer Paso: entrenamiento de patrones
*Segundo Paso: comparacin de patrones
-
5/24/2018 Reconocimiento de Voz
41/90
En la etapa de comparacin de patrones se realiza una
comparacin directa entre la seal de voz desconocida (a
reconocer) y todos los posibles patrones aprendidos en la
etapa de entrenamiento, de manera de determinar el
mejor ajuste de acuerdo a algn criterio.
-
5/24/2018 Reconocimiento de Voz
42/90
Tipos de Sintesis de Voz y Aplicaciones
Principios bsicos de Sistemas de
-
5/24/2018 Reconocimiento de Voz
43/90
Principios bsicos de Sistemas deConversin de Texto a Voz (TTS
systems)
-
5/24/2018 Reconocimiento de Voz
44/90
Principios bsicos de sistemas de
conversin de texto a voz
Proceso Lingstico-Prosdico: Anlisis del
Texto
Componentes:
-
5/24/2018 Reconocimiento de Voz
45/90
Principios bsicos de sistemas de conversin
de texto a voz
Proceso Lingstico-Prosdico: AnlisisFontico
Componentes:
P i i i b i d i d i
-
5/24/2018 Reconocimiento de Voz
46/90
Principios bsicos de sistemas de conversin
de texto a voz
Proceso Lingstico-Prosdico: AnlisisProsdico
Componentes:
-
5/24/2018 Reconocimiento de Voz
47/90
ARQUITECTURAS NEURONALES
Caractersticas de las Redes Neuronales
Existen cuatro elementos que caracterizan una redneuronal: su topologa, el mecanismo de aprendizaje,
tipo de asociacin realizada ente la informacin de
entrada y salida y la forma de representacin de estas
informaciones.
-
5/24/2018 Reconocimiento de Voz
48/90
Topologa de las Redes Neuronales
Consiste en la organizacin de las neuronas en la redformando capas o agrupaciones de neuronas ms omenos alejadas de la entrada y salida de la red. Losparmetros fundamentales de la red son: el nmero decapas, el nmero de neuronas por capa, el grado de
conectividad y el tipo de conexiones ente neuronas.En trminos topolgicos podemos clasificar las redesentre: redes de una sola capa y las redes con mltiplescapas.
ARQUITECTURAS NEURONALES
-
5/24/2018 Reconocimiento de Voz
49/90
ARQUITECTURAS NEURONALES
Redes neuronales mono capas
Corresponde con la red neuronal ms sencilla ya que setiene una capa de neuronas que proyectan las entradas
a una capa de neuronas de salida donde se realizan
diferentes clculos.
-
5/24/2018 Reconocimiento de Voz
50/90
Redes neuronales multicapa
Es una generalizacin de la anterior existiendo unconjunto de capas intermedias entre la entrada y la
salida (capas ocultas). Este tipo de red puede estar total
o parcialmente conectada.
-
5/24/2018 Reconocimiento de Voz
51/90
Redes neuronales no recurrentes
En esta red la propagacin de las seales se produce enun sentido solamente, no existiendo la posibilidad de
realimentaciones. Lgicamente estas estructuras no
tienen memoria.
-
5/24/2018 Reconocimiento de Voz
52/90
Redes neuronales recurrentes
Esta red viene caracterizada por la existencia de lazos
de realimentacin. Estos lazos pueden ser entreneuronas de diferentes capas, neuronas de la misma
capa o, ms sencillamente, entre una misma neurona.
Esta estructura estudia principalmente la dinmica de
sistemas no lineales.
-
5/24/2018 Reconocimiento de Voz
53/90
Redes con conexiones hacia delante (feedforward)
Las seales travs de se propagan hacia adelante a
travs de las capas de la red. No existen conexiones
hacia atrs, y normalmente tampoco auto recurrentes,
ni laterales, excepto los modelos de red propuestos por
Kohonen.Las redes feedforward ms conocidas son:
PERCEPTRON, ADALINE, MADALINE, LINEAR
ADAPTATIVE MEMORY, DRIVE-REINFORCEMENT,
BACKPROPAGATION. Todas ellas son tiles enaplicaciones de reconocimiento o clasificacin de
patrones.
-
5/24/2018 Reconocimiento de Voz
54/90
Redes con conexiones hacia adelante y hacia atrs
(feedforward/feedback)
En ste tipo de redes circula informacin tanto hacia delante
como hacia atrs durante el funcionamiento de la red. Para queeso sea posible existen conexiones feedforward y feedback entre
las neuronas.
En general, suelen ser bicapas, existiendo por lo tanto dos
conjuntos de pesos: los correspondientes a las conexionesfeedforward de la primera capa ( capa de entrada) hacia la
segunda (capa de salida) y los de las conexiones feedback de la
segunda a la primera. Los valores de los pesos de estos tipos de
conexiones no tienen porqu coincidir, siendo diferentes en lamayor parte de los casos.
-
5/24/2018 Reconocimiento de Voz
55/90
Algunas redes tienen un funcionamiento basado en lo
que se denomina resonancia, de tal forma que las
informaciones en la primera y segundas capasinteracten entre s hasta que alcanzan un estado
estable. Esto permite un mejor acceso a las
informaciones almacenadas en la red.
Los dos modelos de red de dos capas ms conocidos
son la red ART(Adaptative Resonante Theory) y la red
BAM (Bidirectional Associative Memory).
-
5/24/2018 Reconocimiento de Voz
56/90
Redes con aprendizaje supervisado
El proceso de aprendizaje se realiza mediante un entrenamiento
controlado por un agente externo (supervisor o maestro) quedetermina la respuesta que debera generar la red a partir de
una entrada determinada. El supervisor comprueba la salida de
la red y en caso de que sta no coincida con la deseada, se
proceder a modificar los pesos de las conexiones, con el fin deque la salida obtenida se aproxime a la deseada.
-
5/24/2018 Reconocimiento de Voz
57/90
Redes con aprendizaje no supervisado
Las redes con dicho aprendizaje no requieren deinfluencia externa para ajustar los pesos de las
conexiones entre sus neuronas. La red no recibeninguna informacin por parte del entorno que leindique si la salida generada en respuesta de unaentrada es o no correcta. Suele decirse que estas redes
son capaces deauto organizarse.
Estas redes deben encontrar las caractersticas,regularidades, correlaciones o categoras que sepueden establecer entre los datos que se presentan ensu entrada.
-
5/24/2018 Reconocimiento de Voz
58/90
Algoritmo gentico
Un algoritmo gentico es un mtodo de bsqueda que
imita la teora de la evolucin biolgica de Darwin parala resolucin de problemas. Para ello, se parte de una
poblacin inicial de la cual se seleccionan los individuos
ms capacitados para luego reproducirlos y mutarlos
para finalmente obtener la siguiente generacin deindividuos que estarn ms adaptados que la anterior
generacin.
-
5/24/2018 Reconocimiento de Voz
59/90
-
5/24/2018 Reconocimiento de Voz
60/90
Procesamiento de Seales Digitales
Arquitectura de los Procesadores Digitales de Seales (PDS)
-
5/24/2018 Reconocimiento de Voz
61/90
Arquitectura de los Procesadores Digitales de Seales (PDS)
Los PDS son microprocesadores que comparten una arquitectura baseoptimizada. El procesamiento digital de la seal se basa en la manipulacin
matemtica de las seales representadas en un formato digital, esteanlisis matemtico conlleva un volumen de operaciones numricas muyelevado. Por esto, la arquitectura de los DSP debe responder a lasnecesidades de las operaciones que soportan, fundamentalmente: filtrado,convolucin, anlisis de espectros, correlacin, etc.
La arquitectura fundamental de los PDS es la Harvard:
Arquitectura Harvard
-
5/24/2018 Reconocimiento de Voz
62/90
Arquitectura Harvard
*La instruccin que con ms frecuencia realiza un PDS estndar es lamultiplicacin y acumulacin. sta debe ser realizada con eficiencia, y para
ello debera ser completada en un ciclo de instruccin. Esto implica quedos valores deben ser ledos desde memoria y (dependiendo de laorganizacin) un valor debe ser escrito, o dos o ms registros dedirecciones deben ser actualizados, en ese ciclo. Por lo tanto, una longitudgrande en la memoria es tan importante como la operacin de
multiplicacinacumulacin.
*Varios buses y memorias incluidas en el chip son utilizadas de forma quelecturas y escrituras a diferentes unidades de memoria pueden ser hechasa la vez. Dos memorias son utilizadas en la arquitectura Harvard clsica.
Una de ellas es utilizada exclusivamente para datos, mientras que la otraes utilizada para instrucciones. Esta arquitectura alcanza un alto grado deconcurrencia (lecturas y escrituras simultneas).
-
5/24/2018 Reconocimiento de Voz
63/90
Ejemplo de un PDS
Programacin de un PDS
-
5/24/2018 Reconocimiento de Voz
64/90
Programacin de un PDS
Un PDS se puede programar tanto en ensamblador como en C. Cadafamilia de PDS tienen su propio lenguaje ensamblador y sus propias
herramientas suministradas por el fabricante. Gracias a la colaboracinentre fabricantes, existen lenguajes de ms alto nivel (y por lo tanto, mssencillos y rpidos de usar) que incorporan la capacidad de programar losPDS, en general pasando por un precompilado automtico en C. Son loscasos de LabVIEW y Matlab.
Ejemplo de un filtro con script m compatible con LabVIEW MathScript
-
5/24/2018 Reconocimiento de Voz
65/90
Ejemplo de un filtro con script m compatible con LabVIEW MathScript
y con Matlab
En el siguiente ejemplo se presenta la programacin de un filtro digital en
script m. El parmetro "entrada" es un valor que hay que darle al programa.Los coeficientes del filtro estn en los arrays den y num. Todas las
operaciones son sumas (o restas), multiplicaciones y almacenamiento enmemoria (variable w).
w=[0 0 0 0 0];
y=zeros(1,length(entrada));for i=1:length(entrada)
w(5)=entrada(i)-den(2)*w(4)-den(3)*w(3)-den(4)*w(2)-den(5)*w(1);
y(i)= num(1)*w(5)+num(2)*w(4)+num(3)*w(3)+num(4)*w(2);
w(1)=w(2);w(2)=w(3);
w(3)=w(4);
w(4)=w(5);
end;
Filtro digital usando un PDS
-
5/24/2018 Reconocimiento de Voz
66/90
Filtro digital usando un PDS
Detector de tono
-
5/24/2018 Reconocimiento de Voz
67/90
Es usado para supervisar una seal de audio para un tono de frecuencia especficao mltiples tonos. A pesar que puede detectar cualquier frecuencia de audio, por lo
general, se utiliza para detectar los tonos de muy baja frecuencia que no puedenser odos por los seres humanos. Los usos tpicos incluyen la difusin de
programas de radio en la red (activar automticamente pausas publicitarias),sistemas de control (controlar la eliminacin de sistemas en un sistema de audio),
interruptores de audio remotos (cambiar las seales de encendido y apagadousando tonos), transmisin sub-banda de informacin (transmitir informacin a
travs de una transmisin de audio) y muchos otros usos relacionados.
E l i d l i d
-
5/24/2018 Reconocimiento de Voz
68/90
Evolucin de la sntesis de voz.
La sntesis de voz es la produccin artificial de habla
humana. Un sistema usado con este propsito recibe el
nombre de sintetizador de habla y puede llevarse a
cabo en software o en hardware.
Un sistema texto a voz se compone de dos partes:
un front-end y un back-end. A grandes rasgos, el front-
end toma como entrada texto y produce
una representacin lingstica fontica. El back-endtoma como entrada la representacin lingstica
simblica y produce una forma de onda sintetizada.
-
5/24/2018 Reconocimiento de Voz
69/90
En los aos 30, los laboratorios Bell Labs desarrollaron
el VOCODER, un analizador y sintetizador del habla operado por
teclado que era claramente inteligible. Homer Dudley refin estedispositivo y creo VODER.
Los primeros sintetizadores de voz sonaban muy robticos y eran
a menudo inteligibles a duras penas. Sin embargo, la calidad del
habla sintetizada ha mejorado en gran medida, y el resultado de
los sistemas de sntesis contemporneos es, en ocasiones,
indistinguible del habla humana real.
-
5/24/2018 Reconocimiento de Voz
70/90
Codificador de voz
Es un analizador y sintetizador de voz. La voz
humana consiste en sonidos generados por la apertura
y cierre de la glotis (cuerdas vocales), lo que produce
una onda peridica con muchos sonidos armnicos.
Este sonido bsico es entonces filtrado por la nariz y lagarganta (un complicado sistema resonante conocido
como el tracto vocal) de forma controlada, creando la
amplia variedad de timbres del habla. Hay otro
conjunto de sonidos, conocidos como sordos, que noson generados por la vibracin de las cuerdas vocales.
El d i l h bl t d d
-
5/24/2018 Reconocimiento de Voz
71/90
El vocoder examina el habla encontrando su ondabsica, que es la frecuencia fundamental, y midiendocmo cambian en el tiempo las caractersticas
espectrales, es decir los formantes, que son bandas defrecuencia donde se concentra la mayor parte de laenerga sonora de un sonido, grabando el habla. Estoda como resultado una serie de nmerosrepresentando esas frecuencias modificadas en un
tiempo particular a medida que el usuario habla. Alhacer esto, el vocoder reduce en gran medida lacantidad de informacin necesaria para almacenar elhabla. Para recrear el habla, el vocoder simplementerevierte el proceso, creando la frecuencia fundamentalen un oscilador electrnico y pasando su resultado poruna serie de filtros basado en la secuencia original desmbolos.
-
5/24/2018 Reconocimiento de Voz
72/90
Vocoders analgicos
Crea sonidos mediante manipulacin directa de
corrientes elctricas.
V d di it l
-
5/24/2018 Reconocimiento de Voz
73/90
Vocoders digitales
Crea sonidos mediante la manipulacin de una onda
FM digital.
Inteligencia artificial en la sntesis de voz
-
5/24/2018 Reconocimiento de Voz
74/90
Inteligencia artificial en la sntesis de voz
El reconocimiento automtico del habla (RAH)
o reconocimiento automtico de voz es una disciplina
de la inteligencia artificial que tiene como objetivo
permitir la comunicacin hablada entre seres humanos
y computadoras. Es una herramienta computacional
capaz de procesar la seal de voz emitida por el serhumano y reconocer la informacin contenida en sta,
convirtindola en texto o emitiendo rdenes que
actan sobre un proceso.
-
5/24/2018 Reconocimiento de Voz
75/90
Anlisis espectral de voz CEPSTRUM.
-
5/24/2018 Reconocimiento de Voz
76/90
p
El cepstrum c(n) de la seal de voz se define
como la transformada inversa de Fourier dellogaritmo de su espectro localizado S(co), es
decir,
c(n) = F'1 {In S(co)}
El trmino cepstrum es indicativo de haber
realizado una transformacin inversa del
spectrum (espectro). La variable independiente
del cepstrum se denomina cuefrencia, trmino
formado a partir de la palabra frecuencia, y
tiene carcter temporal.
-
5/24/2018 Reconocimiento de Voz
77/90
La principal caracterstica del cepstrum es que permite
separar del espectro de la seal de voz la estructura
fina y los formantes.
-
5/24/2018 Reconocimiento de Voz
78/90
-
5/24/2018 Reconocimiento de Voz
79/90
Desarrollo de un proyecto dereconocimiento de voz
Instrumento Musical
-
5/24/2018 Reconocimiento de Voz
80/90
Un instrumento musical es un objeto compuesto por la combinacin de unoo ms sistemas resonantes y los medios para su vibracin, construido con
el fin de reproducir sonido en uno o ms tonos que puedan ser combinadospor un intrprete para producir msica.
Erich von Hornbostel y Curt Sachs publicaron en 1914 una clasificacin delos instrumentos musicales que es ampliamente seguida en la actualidad.
Establecieron cuatro clases o categoras principales de instrumentos
musicales (a la que aadieron una quinta posteriormente), que a su vez sedividen en grupos y subgrupos, segn el modo de generacin del sonido:
Idifonos
Membranfonos Aeronfonos
Cordfonos
Instrumentos idifonos
-
5/24/2018 Reconocimiento de Voz
81/90
Son aquellos instrumentos en los que el sonido procede de un cuerposlido y es generado por vibracin del instrumento mismo mediantepercusin, frotacin o pulsacin, como en el caso de las claves, xilfono,
campana.
Instrumentos membranfonos
Los membranfonos son aquellos en los cuales el sonido es generado porla vibracin de una membrana por percusin o frotacin, como es el casodel timbal, tambor, conga.
Instrumentos aerfonos
-
5/24/2018 Reconocimiento de Voz
82/90
Son los llamados instrumentos de viento, donde el sonido es generado porla vibracin del aire, a causa del roce con una lengeta, labios o cuerdasvocales, como es en el caso de la flauta, trompeta, saxofn.
Instrumentos cordfonosSon los llamados instrumentos de cuerda, donde el sonido es generado porla vibracin de una cuerda mediante percusin, frotacin o pinzamiento,como en el caso del arpa, guitarra, violn, piano.
Sntesis de voz
-
5/24/2018 Reconocimiento de Voz
83/90
La sntesis de voz es la produccin artificial de habla humana. Un sistemausado con este propsito recibe el nombre de sintetizador de habla y
puede llevarse a cabo en software o en hardware. La sntesis de voz sellama a menudo en ingls text-to-speech (TTS), en referencia a sucapacidad de convertir texto en habla.
Un sistema de sntesis de voz se compone de dos etapas: la primera tomauna entrada como texto y produce una representacin lingstica fontica,
la segunda toma como entrada la representacin lingstica simblica yproduce una forma de onda sintetizada.
La primera etapa se encarga de dos tareas principales. En primer lugar toma eltexto y convierte partes problemticas como nmeros y abreviaturas en palabras
-
5/24/2018 Reconocimiento de Voz
84/90
texto y convierte partes problemticas como nmeros y abreviaturas en palabrasequivalentes. Este proceso se llama a menudo normalizacin de texto opreprocesado. Entonces asigna una transcripcin fontica a cada palabra, y dividey marca el texto en varias unidades prosdicas, como frases y oraciones. El
proceso de asignar transcripciones fonticas a las palabras recibe el nombre deconversin texto a fonema (TTP en ingls) o grafema a fonema (GTP en ingls). Lacombinacin de transcripciones fonticas e informacin prosdica constituye larepresentacin lingstica fontica.
-
5/24/2018 Reconocimiento de Voz
85/90
La segunda etapa, toma la representacin lingstica simblica y laconvierte en sonido, esta segunda etapa suele ser llamada sintetizador.
Aplicacin de la sntesis de la voz a la msica
-
5/24/2018 Reconocimiento de Voz
86/90
Dentro del campo de la creacin musical encontramos software quemediante este sistema genera voces similares a la de las humanas
capaces de interpretar canciones con gran realismo. Un ejemplo actual esel caso del sistema Vocaloid, desarrollado por Yamaha Corporation, estesistema es capaz de reproducir voces humanas con una naturalidad y unainteligibilidad muy altas utilizando muestras de voz. Para ello el usuariodebe indicar la letra de las canciones y al entonacin con la que desea que
sean cantadas. Tambin es posible modificar otros parmetros de la voz.
Vocoder
Un vocoder (nombre derivado de voice coder, codificador de voz) es unanalizador y sintetizador de voz.
Para su uso como sintetizador de voz el vocoder examina el hablaencontrando su onda bsica, que es la frecuencia fundamental, y midiendocmo cambian las caractersticas espectrales con el tiempo grabando elhabla.
-
5/24/2018 Reconocimiento de Voz
87/90
Esto da como resultado una serie de nmeros representando esasfrecuencias modificadas en un tiempo particular a medida que el usuariohabla. Al hacer esto, el vocoder reduce en gran medida la cantidad de
informacin necesaria para almacenar el habla. Para recrear el habla, elvocoder simplemente revierte el proceso, creando la frecuenciafundamental en un oscilador electrnico y pasando su resultado por unaserie de filtros basado en la secuencia original de smbolos. Para lasaplicaciones musicales, una fuente de sonidos musicales se usa como
portadora, en lugar de extraer la frecuencia fundamental.
Reconocimiento de partituras musicales
-
5/24/2018 Reconocimiento de Voz
88/90
Para el reconocimiento de partituras por parte de un computador se utilizanlos sistemas OMR (Optical Music Recognition) que son una aplicacin del
reconocimiento de caracteres (OCR o Optical Character Recognition) apartir de imgenes digitales.
Utilizando estos sistemas podemos, a partir de una partitura escrita (amano o por ordenador) en papel, escanearla y obtener un archivo quecontenga informacin sobre esa partitura, en formatos como MIDI, NIFF o
XML, lo que permite despus reproducirlo en un ordenador, cambiar laafinacin a la que se debe tocar la cancin automticamente o realizarhacer cualquier otra modificacin con facilidad gracias a programasespeciales para la edicin de partituras o simplemente almacenarlas eimprimirlas en cualquier momento.
Los sistemas OMR suelen seguir cuatro etapas en el proceso dereconocimiento estas son:
-
5/24/2018 Reconocimiento de Voz
89/90
reconocimiento, estas son:
Identificacin del pentagrama. En esta etapa se identifica la posicin delas lneas del pentagrama y se generalmente se eliminan, dejando
nicamente los smbolos musicales superpuestos a estas.
Localizacin de objetos musicales. Se localizan los smbolos que seencuentran sobre el pentagrama.
Identificacin de smbolos. Se determina de que tipo es cada smbolo.
-
5/24/2018 Reconocimiento de Voz
90/90
Paso a notacin musical. Por ltimo se determina la relacin existenteentre los smbolos y se almacena esta informacin de manera que losprogramas como secuenciadores o editores de msica puedan
reconocer, en forma de ficheros como los mencionados anteriormente.