reconocimiento de voz

Upload: carlos-gomez

Post on 14-Oct-2015

62 views

Category:

Documents


0 download

TRANSCRIPT

  • 5/24/2018 Reconocimiento de Voz

    1/90

  • 5/24/2018 Reconocimiento de Voz

    2/90

    Qu es?

    El reconocimiento de vozes una disciplina de

    la inteligencia artificial que tiene como

    objetivo permitir la comunicacin hablada

    entre seres humanos y computadoras.

  • 5/24/2018 Reconocimiento de Voz

    3/90

    Un sistema de reconocimiento de voz es una herramienta computacionalcapaz de procesar la seal de voz emitida por el ser humano y reconocer lainformacin contenida en sta, convirtindola en texto o emitiendo rdenesque actan sobre un proceso. En su desarrollo intervienen diversasdisciplinas, tales como: la fisiologa, la acstica, el procesamiento deseales, la inteligencia artificial y la ciencia de la computacin.

  • 5/24/2018 Reconocimiento de Voz

    4/90

    Historia de las seales acsticas y de la

    computacin

  • 5/24/2018 Reconocimiento de Voz

    5/90

    Digital vs. Analgica

  • 5/24/2018 Reconocimiento de Voz

    6/90

    Historia de la Inteligencia Artificial Cerca de 300 a. C.

    : Aristteles descubri, de manera estructurada, unconjunto de reglas que describen una parte del funcionamiento de lamente. Al seguirlas paso a paso, producen conclusiones racionales a partirde premisas dadas.

    250 a. C.:Ctesibio de Alejandra construy la primera mquinaautocontrolada: un regulador del flujo de agua que actuaba modificandosu comportamiento pero claramente sin razonamiento.

    1315:Ramon Llull tuvo la idea de que el razonamiento poda serefectuado de manera artificial.

    1847:George Boole estableci la lgica proposicional, mucho mscompleta que los silogismos de Aristteles, pero an algo poco potente.

    1879:Gottlob Frege obtiene la Lgica de Primer Orden la cual cuenta conun mayor poder de expresin y es utilizada universalmente en laactualidad.

    1903:Lee De Forest inventa el trodo.

  • 5/24/2018 Reconocimiento de Voz

    7/90

    Aportaciones de Alan Turing

    Public un artculo sobre los "Nmeros Calculables", el que estableci las bases para todas

    las ciencias de computacin. Fij los lmites de las ciencias de la computacin porque

    demostr que no es posible resolver problemas con ningn tipo de computador.

    En este artculo introdujo el concepto de Mquina de Turing, una entidad matemtica

    abstracta que formaliz el concepto de algoritmo y result ser la precursora de las

    computadoras digitales. Poda conceptualmente leer instrucciones de una cinta de papel

    perforada y ejecutar todas las operaciones crticas de un computador.

    Se le considera el padre de la teora de la computabilidad, ya que demostr que existen

    problemas irresolubles que ningn computador es capaz de obtener solucin.

    Alan Turing y su equipo construyeron el primer computador electromecnico.

    Turing consolid el campo de la inteligencia artificial con su artculo Computing Machinery

    and Intelligence, en el que propuso una prueba concreta para determinar si una mquina

    era inteligente o no, su famosa Prueba de Turing por lo que se le considera el padre de laInteligencia Artificial.

    Turing se convirti en el adalid que quienes defendan la posibilidad de emular el

    pensamiento humano a travs de la computacin y fue coautor del primer programa para

    jugar ajedrez.

  • 5/24/2018 Reconocimiento de Voz

    8/90

    El resto de la historia

    En 1951 William Shockley inventa el transistor de unin. El invento hizoposible una nueva generacin de computadoras mucho ms rpidas ypequeas.

    En 1956 se dio el trmino "inteligencia artificial" en Dartmouth duranteuna conferencia.

    En 1980 la historia se repiti con el desafo japons de la quintageneracin, que dio lugar al auge de los sistemas expertos pero que noalcanz muchos de sus objetivos, por lo que este campo sufri una nuevainterrupcin en los aos noventa.

    En 1987 Martin Fischles y Oscar Firschein describieron los atributos de unagente inteligente.

    En los 90s surgen los agentes inteligentes

    En la actualidad se est tan lejos de cumplir la famosa prueba deTuring como cuando se formul: Existir Inteligencia Artificial cuando noseamos capaces de distinguir entre un ser humano y un programa decomputadora en una conversacin a ciegas.

  • 5/24/2018 Reconocimiento de Voz

    9/90

    Visin y audicin artificial:

    reconocimiento de patrones y sonidos

  • 5/24/2018 Reconocimiento de Voz

    10/90

    Sntesis del sonido

  • 5/24/2018 Reconocimiento de Voz

    11/90

    Vibraciones en cuerpos diversos

  • 5/24/2018 Reconocimiento de Voz

    12/90

    Transmisin del sonido, resonadores y

    filtros

  • 5/24/2018 Reconocimiento de Voz

    13/90

    Generacin natural de la voz La voz se produce en la laringe, que es una estructura con

    unos cartlagos flexibles que son el soporte de las cuerdas

    vocales. Estas cuerdas vocales estn formadas por unos

    msculos finos, que dispuestos en posicin horizontal

    forman una 'V'.

    Para producir un sonido en concreto, las cuerdas vocales se

    contraen o se alargan. Por otro lado, tambin se da un

    cambio en la presin del aire al salir a travs de los plieguesvocales. Todo ello produce una vibracin que al resonar por

    la laringe produce el sonido.

    Un sonido tiene tres cualidades bsicas:

    1)el tono o altura

    2)el volumen o intensidad

    3)el timbre o resonancia

    Al espacio situado entre dos cuerdas vocales se llamaglotis. Variando este espacio (la glotis) el cuerpo consigue

    dar al sonido las cualidades adecuadas de tono y volumen.

    La cualidad del timbre la determina la posicin resonadora

    de la garganta, boca y nariz, que son cavidades que

    modulan y amplifican el sonido de la laringe.

  • 5/24/2018 Reconocimiento de Voz

    14/90

    Ruido de fondo

  • 5/24/2018 Reconocimiento de Voz

    15/90

    Dinmica del proceso de la escucha de

    la vozEl acto de audicin de un mensaje porparte de un interlocutor-receptor es la

    suma de la percepcin del sonido, su

    conversin en impulsos nerviosos

    trasmitidos al cerebro y la descodificacin

    lingstica del mensaje.

    Las ondas acsticas recorren los siguientes

    rganos del odo:

    Pabelln de la oreja. Odo externo.

    Tmpano.

    Cadena de huesecillos del odo medio.

    Trompa de Eustaquio.

    Ventana oval y ventana redonda (odo

    interno).

    Canales semicirculares.

    Caracol seo.

    Peasco.

  • 5/24/2018 Reconocimiento de Voz

    16/90

    Transformada de Fourier

    El cepstrum de una seal es el resultado de calcular la transformada de Fourier delespectro de la seal estudiada en escala logartmica. El nombre cepstrumderiva de

    invertir las cuatro primeras letras de spectrum. El cepstrum es complejo y, por tanto,

    tiene su parte real y su parte imaginaria.

    Muchos de los sistemas de reconocimiento de voz actuales representan la seal de

    voz como un conjunto de coeficientes cepstrales calculados a una velocidad de trama

    fija. Adems, tambin se han utilizado las derivadas temporales de los coeficientescepstrales.

  • 5/24/2018 Reconocimiento de Voz

    17/90

    Anlisis cepstral de la voz

    Normalmente se supone que la seal de vozes la salida de un sistema LTI; ej., es lacircunvolucin de la entrada y de la respuesta

    de impulso. Si queremos caracterizar la seal en funcin

    de los parmetros de un modelo as, debemospasar por el proceso de desconvolucin.

    El anlisis cepstral es un procedimientoutilizado para tal desconvolucin.

  • 5/24/2018 Reconocimiento de Voz

    18/90

  • 5/24/2018 Reconocimiento de Voz

    19/90

    Sntesis de forma de onda

  • 5/24/2018 Reconocimiento de Voz

    20/90

    Sntesis de voz

  • 5/24/2018 Reconocimiento de Voz

    21/90

    Anlisis de voz por espectrogramas

    El espectrogramaes el resultado de calcular el espectro de tramasenventanadas de una seal. Resulta una grfica tridimensional querepresenta la energa del contenido frecuencial de la seal segn vavariando sta a lo largo del tiempo.

    Se usa, por ejemplo, para identificar sonidos fonticos y procesado

    del habla, para el radar/sonar. El instrumento que generaespectrogramas es llamado espectrmetro

  • 5/24/2018 Reconocimiento de Voz

    22/90

    HARDWARE Y COMPUTADORAS

    DIGITALES

  • 5/24/2018 Reconocimiento de Voz

    23/90

    Para el reconocimiento de voz el hardware

    necesario no va ms all de un micrfono, unacomputadora y si es posible o cuando se est

    estudiando sobre l, una mezcladora con la

    cual podamos introducir una grabacin ms

    limpia.

  • 5/24/2018 Reconocimiento de Voz

    24/90

    Para la sntesis de voz, es necesaria unacomputadora desde la cual vamos a estargenerando la sntesis y una bocina, para

    escucharla.

  • 5/24/2018 Reconocimiento de Voz

    25/90

    Sistemas de entorno y lenguaje

    asociado

  • 5/24/2018 Reconocimiento de Voz

    26/90

    Los sistemas en los cuales se pueden accesar a

    este tipo de software para estudiar elreconocimiento de voz son:

    Linux

    UNIX

    WIN32

  • 5/24/2018 Reconocimiento de Voz

    27/90

    El lenguaje que se emplea es:

    C

    C++

    C#

    Java

  • 5/24/2018 Reconocimiento de Voz

    28/90

    EL reconocimiento de voz y la

    inteligencia artificial

    Es una parte esencial de la InteligenciaArtificial y tiene como finalidad la

    comunicacin hablada entre seres humanos y

    computadoras.

  • 5/24/2018 Reconocimiento de Voz

    29/90

    El gran problema

    Analizar adecuadamente un conjunto de

    informaciones que proceden de diferentes

    fuentes de conocimiento (lxica, sintctica,

    semntica, pragmtica, acstica, fontica yfonolgica), teniendo en cuenta que pueden

    existir ambigedades, incertidumbres y

    errores para llegar a conseguir unainterpretacin apropiada del mensaje acstico

    recibido.

  • 5/24/2018 Reconocimiento de Voz

    30/90

    Interface hombre maquina

    En celulares En otros dispositivos

    Esta plataforma es el software que permitir lacomunicacin hombre-mquina.

  • 5/24/2018 Reconocimiento de Voz

    31/90

    Anlisis a la hora del reconocimiento

    de voz

  • 5/24/2018 Reconocimiento de Voz

    32/90

    Caracterizacin de los Sistemas de

    Reconocimiento de Voz

    Los sistemas de reconocimiento automtico de voz secaracterizan teniendo en cuenta diferentes aspectos:

    Palabra Aislada: el usuario habla palabras individuales (ofrases) tomadas de un vocabulario determinado.

    Palabras Conectadas: el usuario habla en forma fluida unasucesin de palabras pertenecientes a un vocabulario

    restringido (e.j. dgitos telefnicos).

    Habla continua: el usuario habla fluidamente usando palabrasde un vocabulario grande (usualmente ilimitado).

  • 5/24/2018 Reconocimiento de Voz

    33/90

    2. Tamao del vocabulario de reconocimiento Pequeo: capaz de reconocer hasta 100 palabras.

    Mediano: entre 100 y 1000 palabras. Grande: ms de 1000 palabras.

    3. El conocimiento de los patrones de voz del

    usuario Sistemas dependientes del locutor: adaptados alocutores

    particulares.

    Sistemas independientes de locutor:trabajan con un

    poblacin de locutores grande, la mayora de los cualesson desconocidos para el sistema.

    Sistemas adaptables: se adaptan al locutor particularmientras el sistema est en uso.

  • 5/24/2018 Reconocimiento de Voz

    34/90

    3. El conocimiento de los patrones de voz del usuario Sistemas dependientes del locutor: adaptados a locutores

    particulares.

    Sistemas independientes de locutor: trabajan con un poblacin delocutores grande, la mayora de los cuales son desconocidos para elsistema.

    Sistemas adaptables: se adaptan al locutor particular mientras elsistema est en uso.

    4. Grado de conocimiento acstico-lingstico usadopor el sistema.

    Slo conocimiento acstico. No usan conocimiento lingstico.

    Integracin de conocimiento acstico y lingstico. El conocimiento

    lingstico est usualmente representado por restriccionessintcticas y semnticas sobre la salida del sistema dereconocimiento.

  • 5/24/2018 Reconocimiento de Voz

    35/90

    Fuentes de Variabilidad de las Seales

    de VozEl reconocimiento automtico de voz es una tarea inherentementedifcil debido a la variabilidad de las seales de voz. Algunas

    fuentes de variabilidad incluyen:

    Variabilidad en un locutor en mantener una pronunciacin consistente y

    en el uso de palabras y frases. Variabilidad entre locutores debido a diferencias fisiolgicos (e.j. diferente

    longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc.

    Variabilidad entre transductores cuando se habla frente a diferentesmicrfonos o aparatos telefnicos.

    Variabilidad introducida por el sistema de transmisin (redes de

    comunicacin telfonos celulares, etc.). Variabilidad en el ambiente, que incluyen conversaciones extraas y

    eventos acsticos de fondo, como ruidos, etc.

  • 5/24/2018 Reconocimiento de Voz

    36/90

    Enfoques de Reconocimiento

    Automtico de Voz

  • 5/24/2018 Reconocimiento de Voz

    37/90

    1. Enfoque Acstico 1. Enfoque

    Acstico-Fontico --Fontico

    Consiste en detectar sonidos elementales y asignarlesdeterminados rtulos. La base de este enfoque es la hiptesisde que en el lenguaje hablado existe un nmero finito de

    unidades fonticas distintas (fonemas) y que estas unidadespueden caracterizarse por un conjunto de propiedadesacsticas que se manifiestan en la seal hablada en funcindel tiempo.

    Si bien las propiedades acsticas de los fonemas sonaltamente variables con el locutor y con los fonemas vecinos

    (co-articulacin de sonidos), se asume que las reglas quegobiernan la variabilidad son simples y pueden ser aprendidasfcilmente por el sistema de reconocimiento

  • 5/24/2018 Reconocimiento de Voz

    38/90

    El reconocimiento consiste

    bsicamente de dos pasos:

    Primer paso: segmentacin y rotulado. La seales dividida en regiones acsticas a las que sonasignados uno o ms fonemas, resultando en unacaracterizacin de la seal de voz mediante un

    reticulado de fonemas. Segundo paso: se trata de determinar una

    palabra (o conjunto de palabras) vlida a partir dela secuencia de fonemas rotulados en el primer

    paso. Se introducen en esta etapa restriccioneslingsticas (vocabulario, sintaxis, y reglassemnticas)

  • 5/24/2018 Reconocimiento de Voz

    39/90

  • 5/24/2018 Reconocimiento de Voz

    40/90

    2. Enfoque de Reconocimiento de

    patrones

    Consiste bsicamente en dos pasos:

    * Primer Paso: entrenamiento de patrones

    *Segundo Paso: comparacin de patrones

  • 5/24/2018 Reconocimiento de Voz

    41/90

    En la etapa de comparacin de patrones se realiza una

    comparacin directa entre la seal de voz desconocida (a

    reconocer) y todos los posibles patrones aprendidos en la

    etapa de entrenamiento, de manera de determinar el

    mejor ajuste de acuerdo a algn criterio.

  • 5/24/2018 Reconocimiento de Voz

    42/90

    Tipos de Sintesis de Voz y Aplicaciones

    Principios bsicos de Sistemas de

  • 5/24/2018 Reconocimiento de Voz

    43/90

    Principios bsicos de Sistemas deConversin de Texto a Voz (TTS

    systems)

  • 5/24/2018 Reconocimiento de Voz

    44/90

    Principios bsicos de sistemas de

    conversin de texto a voz

    Proceso Lingstico-Prosdico: Anlisis del

    Texto

    Componentes:

  • 5/24/2018 Reconocimiento de Voz

    45/90

    Principios bsicos de sistemas de conversin

    de texto a voz

    Proceso Lingstico-Prosdico: AnlisisFontico

    Componentes:

    P i i i b i d i d i

  • 5/24/2018 Reconocimiento de Voz

    46/90

    Principios bsicos de sistemas de conversin

    de texto a voz

    Proceso Lingstico-Prosdico: AnlisisProsdico

    Componentes:

  • 5/24/2018 Reconocimiento de Voz

    47/90

    ARQUITECTURAS NEURONALES

    Caractersticas de las Redes Neuronales

    Existen cuatro elementos que caracterizan una redneuronal: su topologa, el mecanismo de aprendizaje,

    tipo de asociacin realizada ente la informacin de

    entrada y salida y la forma de representacin de estas

    informaciones.

  • 5/24/2018 Reconocimiento de Voz

    48/90

    Topologa de las Redes Neuronales

    Consiste en la organizacin de las neuronas en la redformando capas o agrupaciones de neuronas ms omenos alejadas de la entrada y salida de la red. Losparmetros fundamentales de la red son: el nmero decapas, el nmero de neuronas por capa, el grado de

    conectividad y el tipo de conexiones ente neuronas.En trminos topolgicos podemos clasificar las redesentre: redes de una sola capa y las redes con mltiplescapas.

    ARQUITECTURAS NEURONALES

  • 5/24/2018 Reconocimiento de Voz

    49/90

    ARQUITECTURAS NEURONALES

    Redes neuronales mono capas

    Corresponde con la red neuronal ms sencilla ya que setiene una capa de neuronas que proyectan las entradas

    a una capa de neuronas de salida donde se realizan

    diferentes clculos.

  • 5/24/2018 Reconocimiento de Voz

    50/90

    Redes neuronales multicapa

    Es una generalizacin de la anterior existiendo unconjunto de capas intermedias entre la entrada y la

    salida (capas ocultas). Este tipo de red puede estar total

    o parcialmente conectada.

  • 5/24/2018 Reconocimiento de Voz

    51/90

    Redes neuronales no recurrentes

    En esta red la propagacin de las seales se produce enun sentido solamente, no existiendo la posibilidad de

    realimentaciones. Lgicamente estas estructuras no

    tienen memoria.

  • 5/24/2018 Reconocimiento de Voz

    52/90

    Redes neuronales recurrentes

    Esta red viene caracterizada por la existencia de lazos

    de realimentacin. Estos lazos pueden ser entreneuronas de diferentes capas, neuronas de la misma

    capa o, ms sencillamente, entre una misma neurona.

    Esta estructura estudia principalmente la dinmica de

    sistemas no lineales.

  • 5/24/2018 Reconocimiento de Voz

    53/90

    Redes con conexiones hacia delante (feedforward)

    Las seales travs de se propagan hacia adelante a

    travs de las capas de la red. No existen conexiones

    hacia atrs, y normalmente tampoco auto recurrentes,

    ni laterales, excepto los modelos de red propuestos por

    Kohonen.Las redes feedforward ms conocidas son:

    PERCEPTRON, ADALINE, MADALINE, LINEAR

    ADAPTATIVE MEMORY, DRIVE-REINFORCEMENT,

    BACKPROPAGATION. Todas ellas son tiles enaplicaciones de reconocimiento o clasificacin de

    patrones.

  • 5/24/2018 Reconocimiento de Voz

    54/90

    Redes con conexiones hacia adelante y hacia atrs

    (feedforward/feedback)

    En ste tipo de redes circula informacin tanto hacia delante

    como hacia atrs durante el funcionamiento de la red. Para queeso sea posible existen conexiones feedforward y feedback entre

    las neuronas.

    En general, suelen ser bicapas, existiendo por lo tanto dos

    conjuntos de pesos: los correspondientes a las conexionesfeedforward de la primera capa ( capa de entrada) hacia la

    segunda (capa de salida) y los de las conexiones feedback de la

    segunda a la primera. Los valores de los pesos de estos tipos de

    conexiones no tienen porqu coincidir, siendo diferentes en lamayor parte de los casos.

  • 5/24/2018 Reconocimiento de Voz

    55/90

    Algunas redes tienen un funcionamiento basado en lo

    que se denomina resonancia, de tal forma que las

    informaciones en la primera y segundas capasinteracten entre s hasta que alcanzan un estado

    estable. Esto permite un mejor acceso a las

    informaciones almacenadas en la red.

    Los dos modelos de red de dos capas ms conocidos

    son la red ART(Adaptative Resonante Theory) y la red

    BAM (Bidirectional Associative Memory).

  • 5/24/2018 Reconocimiento de Voz

    56/90

    Redes con aprendizaje supervisado

    El proceso de aprendizaje se realiza mediante un entrenamiento

    controlado por un agente externo (supervisor o maestro) quedetermina la respuesta que debera generar la red a partir de

    una entrada determinada. El supervisor comprueba la salida de

    la red y en caso de que sta no coincida con la deseada, se

    proceder a modificar los pesos de las conexiones, con el fin deque la salida obtenida se aproxime a la deseada.

  • 5/24/2018 Reconocimiento de Voz

    57/90

    Redes con aprendizaje no supervisado

    Las redes con dicho aprendizaje no requieren deinfluencia externa para ajustar los pesos de las

    conexiones entre sus neuronas. La red no recibeninguna informacin por parte del entorno que leindique si la salida generada en respuesta de unaentrada es o no correcta. Suele decirse que estas redes

    son capaces deauto organizarse.

    Estas redes deben encontrar las caractersticas,regularidades, correlaciones o categoras que sepueden establecer entre los datos que se presentan ensu entrada.

  • 5/24/2018 Reconocimiento de Voz

    58/90

    Algoritmo gentico

    Un algoritmo gentico es un mtodo de bsqueda que

    imita la teora de la evolucin biolgica de Darwin parala resolucin de problemas. Para ello, se parte de una

    poblacin inicial de la cual se seleccionan los individuos

    ms capacitados para luego reproducirlos y mutarlos

    para finalmente obtener la siguiente generacin deindividuos que estarn ms adaptados que la anterior

    generacin.

  • 5/24/2018 Reconocimiento de Voz

    59/90

  • 5/24/2018 Reconocimiento de Voz

    60/90

    Procesamiento de Seales Digitales

    Arquitectura de los Procesadores Digitales de Seales (PDS)

  • 5/24/2018 Reconocimiento de Voz

    61/90

    Arquitectura de los Procesadores Digitales de Seales (PDS)

    Los PDS son microprocesadores que comparten una arquitectura baseoptimizada. El procesamiento digital de la seal se basa en la manipulacin

    matemtica de las seales representadas en un formato digital, esteanlisis matemtico conlleva un volumen de operaciones numricas muyelevado. Por esto, la arquitectura de los DSP debe responder a lasnecesidades de las operaciones que soportan, fundamentalmente: filtrado,convolucin, anlisis de espectros, correlacin, etc.

    La arquitectura fundamental de los PDS es la Harvard:

    Arquitectura Harvard

  • 5/24/2018 Reconocimiento de Voz

    62/90

    Arquitectura Harvard

    *La instruccin que con ms frecuencia realiza un PDS estndar es lamultiplicacin y acumulacin. sta debe ser realizada con eficiencia, y para

    ello debera ser completada en un ciclo de instruccin. Esto implica quedos valores deben ser ledos desde memoria y (dependiendo de laorganizacin) un valor debe ser escrito, o dos o ms registros dedirecciones deben ser actualizados, en ese ciclo. Por lo tanto, una longitudgrande en la memoria es tan importante como la operacin de

    multiplicacinacumulacin.

    *Varios buses y memorias incluidas en el chip son utilizadas de forma quelecturas y escrituras a diferentes unidades de memoria pueden ser hechasa la vez. Dos memorias son utilizadas en la arquitectura Harvard clsica.

    Una de ellas es utilizada exclusivamente para datos, mientras que la otraes utilizada para instrucciones. Esta arquitectura alcanza un alto grado deconcurrencia (lecturas y escrituras simultneas).

  • 5/24/2018 Reconocimiento de Voz

    63/90

    Ejemplo de un PDS

    Programacin de un PDS

  • 5/24/2018 Reconocimiento de Voz

    64/90

    Programacin de un PDS

    Un PDS se puede programar tanto en ensamblador como en C. Cadafamilia de PDS tienen su propio lenguaje ensamblador y sus propias

    herramientas suministradas por el fabricante. Gracias a la colaboracinentre fabricantes, existen lenguajes de ms alto nivel (y por lo tanto, mssencillos y rpidos de usar) que incorporan la capacidad de programar losPDS, en general pasando por un precompilado automtico en C. Son loscasos de LabVIEW y Matlab.

    Ejemplo de un filtro con script m compatible con LabVIEW MathScript

  • 5/24/2018 Reconocimiento de Voz

    65/90

    Ejemplo de un filtro con script m compatible con LabVIEW MathScript

    y con Matlab

    En el siguiente ejemplo se presenta la programacin de un filtro digital en

    script m. El parmetro "entrada" es un valor que hay que darle al programa.Los coeficientes del filtro estn en los arrays den y num. Todas las

    operaciones son sumas (o restas), multiplicaciones y almacenamiento enmemoria (variable w).

    w=[0 0 0 0 0];

    y=zeros(1,length(entrada));for i=1:length(entrada)

    w(5)=entrada(i)-den(2)*w(4)-den(3)*w(3)-den(4)*w(2)-den(5)*w(1);

    y(i)= num(1)*w(5)+num(2)*w(4)+num(3)*w(3)+num(4)*w(2);

    w(1)=w(2);w(2)=w(3);

    w(3)=w(4);

    w(4)=w(5);

    end;

    Filtro digital usando un PDS

  • 5/24/2018 Reconocimiento de Voz

    66/90

    Filtro digital usando un PDS

    Detector de tono

  • 5/24/2018 Reconocimiento de Voz

    67/90

    Es usado para supervisar una seal de audio para un tono de frecuencia especficao mltiples tonos. A pesar que puede detectar cualquier frecuencia de audio, por lo

    general, se utiliza para detectar los tonos de muy baja frecuencia que no puedenser odos por los seres humanos. Los usos tpicos incluyen la difusin de

    programas de radio en la red (activar automticamente pausas publicitarias),sistemas de control (controlar la eliminacin de sistemas en un sistema de audio),

    interruptores de audio remotos (cambiar las seales de encendido y apagadousando tonos), transmisin sub-banda de informacin (transmitir informacin a

    travs de una transmisin de audio) y muchos otros usos relacionados.

    E l i d l i d

  • 5/24/2018 Reconocimiento de Voz

    68/90

    Evolucin de la sntesis de voz.

    La sntesis de voz es la produccin artificial de habla

    humana. Un sistema usado con este propsito recibe el

    nombre de sintetizador de habla y puede llevarse a

    cabo en software o en hardware.

    Un sistema texto a voz se compone de dos partes:

    un front-end y un back-end. A grandes rasgos, el front-

    end toma como entrada texto y produce

    una representacin lingstica fontica. El back-endtoma como entrada la representacin lingstica

    simblica y produce una forma de onda sintetizada.

  • 5/24/2018 Reconocimiento de Voz

    69/90

    En los aos 30, los laboratorios Bell Labs desarrollaron

    el VOCODER, un analizador y sintetizador del habla operado por

    teclado que era claramente inteligible. Homer Dudley refin estedispositivo y creo VODER.

    Los primeros sintetizadores de voz sonaban muy robticos y eran

    a menudo inteligibles a duras penas. Sin embargo, la calidad del

    habla sintetizada ha mejorado en gran medida, y el resultado de

    los sistemas de sntesis contemporneos es, en ocasiones,

    indistinguible del habla humana real.

  • 5/24/2018 Reconocimiento de Voz

    70/90

    Codificador de voz

    Es un analizador y sintetizador de voz. La voz

    humana consiste en sonidos generados por la apertura

    y cierre de la glotis (cuerdas vocales), lo que produce

    una onda peridica con muchos sonidos armnicos.

    Este sonido bsico es entonces filtrado por la nariz y lagarganta (un complicado sistema resonante conocido

    como el tracto vocal) de forma controlada, creando la

    amplia variedad de timbres del habla. Hay otro

    conjunto de sonidos, conocidos como sordos, que noson generados por la vibracin de las cuerdas vocales.

    El d i l h bl t d d

  • 5/24/2018 Reconocimiento de Voz

    71/90

    El vocoder examina el habla encontrando su ondabsica, que es la frecuencia fundamental, y midiendocmo cambian en el tiempo las caractersticas

    espectrales, es decir los formantes, que son bandas defrecuencia donde se concentra la mayor parte de laenerga sonora de un sonido, grabando el habla. Estoda como resultado una serie de nmerosrepresentando esas frecuencias modificadas en un

    tiempo particular a medida que el usuario habla. Alhacer esto, el vocoder reduce en gran medida lacantidad de informacin necesaria para almacenar elhabla. Para recrear el habla, el vocoder simplementerevierte el proceso, creando la frecuencia fundamentalen un oscilador electrnico y pasando su resultado poruna serie de filtros basado en la secuencia original desmbolos.

  • 5/24/2018 Reconocimiento de Voz

    72/90

    Vocoders analgicos

    Crea sonidos mediante manipulacin directa de

    corrientes elctricas.

    V d di it l

  • 5/24/2018 Reconocimiento de Voz

    73/90

    Vocoders digitales

    Crea sonidos mediante la manipulacin de una onda

    FM digital.

    Inteligencia artificial en la sntesis de voz

  • 5/24/2018 Reconocimiento de Voz

    74/90

    Inteligencia artificial en la sntesis de voz

    El reconocimiento automtico del habla (RAH)

    o reconocimiento automtico de voz es una disciplina

    de la inteligencia artificial que tiene como objetivo

    permitir la comunicacin hablada entre seres humanos

    y computadoras. Es una herramienta computacional

    capaz de procesar la seal de voz emitida por el serhumano y reconocer la informacin contenida en sta,

    convirtindola en texto o emitiendo rdenes que

    actan sobre un proceso.

  • 5/24/2018 Reconocimiento de Voz

    75/90

    Anlisis espectral de voz CEPSTRUM.

  • 5/24/2018 Reconocimiento de Voz

    76/90

    p

    El cepstrum c(n) de la seal de voz se define

    como la transformada inversa de Fourier dellogaritmo de su espectro localizado S(co), es

    decir,

    c(n) = F'1 {In S(co)}

    El trmino cepstrum es indicativo de haber

    realizado una transformacin inversa del

    spectrum (espectro). La variable independiente

    del cepstrum se denomina cuefrencia, trmino

    formado a partir de la palabra frecuencia, y

    tiene carcter temporal.

  • 5/24/2018 Reconocimiento de Voz

    77/90

    La principal caracterstica del cepstrum es que permite

    separar del espectro de la seal de voz la estructura

    fina y los formantes.

  • 5/24/2018 Reconocimiento de Voz

    78/90

  • 5/24/2018 Reconocimiento de Voz

    79/90

    Desarrollo de un proyecto dereconocimiento de voz

    Instrumento Musical

  • 5/24/2018 Reconocimiento de Voz

    80/90

    Un instrumento musical es un objeto compuesto por la combinacin de unoo ms sistemas resonantes y los medios para su vibracin, construido con

    el fin de reproducir sonido en uno o ms tonos que puedan ser combinadospor un intrprete para producir msica.

    Erich von Hornbostel y Curt Sachs publicaron en 1914 una clasificacin delos instrumentos musicales que es ampliamente seguida en la actualidad.

    Establecieron cuatro clases o categoras principales de instrumentos

    musicales (a la que aadieron una quinta posteriormente), que a su vez sedividen en grupos y subgrupos, segn el modo de generacin del sonido:

    Idifonos

    Membranfonos Aeronfonos

    Cordfonos

    Instrumentos idifonos

  • 5/24/2018 Reconocimiento de Voz

    81/90

    Son aquellos instrumentos en los que el sonido procede de un cuerposlido y es generado por vibracin del instrumento mismo mediantepercusin, frotacin o pulsacin, como en el caso de las claves, xilfono,

    campana.

    Instrumentos membranfonos

    Los membranfonos son aquellos en los cuales el sonido es generado porla vibracin de una membrana por percusin o frotacin, como es el casodel timbal, tambor, conga.

    Instrumentos aerfonos

  • 5/24/2018 Reconocimiento de Voz

    82/90

    Son los llamados instrumentos de viento, donde el sonido es generado porla vibracin del aire, a causa del roce con una lengeta, labios o cuerdasvocales, como es en el caso de la flauta, trompeta, saxofn.

    Instrumentos cordfonosSon los llamados instrumentos de cuerda, donde el sonido es generado porla vibracin de una cuerda mediante percusin, frotacin o pinzamiento,como en el caso del arpa, guitarra, violn, piano.

    Sntesis de voz

  • 5/24/2018 Reconocimiento de Voz

    83/90

    La sntesis de voz es la produccin artificial de habla humana. Un sistemausado con este propsito recibe el nombre de sintetizador de habla y

    puede llevarse a cabo en software o en hardware. La sntesis de voz sellama a menudo en ingls text-to-speech (TTS), en referencia a sucapacidad de convertir texto en habla.

    Un sistema de sntesis de voz se compone de dos etapas: la primera tomauna entrada como texto y produce una representacin lingstica fontica,

    la segunda toma como entrada la representacin lingstica simblica yproduce una forma de onda sintetizada.

    La primera etapa se encarga de dos tareas principales. En primer lugar toma eltexto y convierte partes problemticas como nmeros y abreviaturas en palabras

  • 5/24/2018 Reconocimiento de Voz

    84/90

    texto y convierte partes problemticas como nmeros y abreviaturas en palabrasequivalentes. Este proceso se llama a menudo normalizacin de texto opreprocesado. Entonces asigna una transcripcin fontica a cada palabra, y dividey marca el texto en varias unidades prosdicas, como frases y oraciones. El

    proceso de asignar transcripciones fonticas a las palabras recibe el nombre deconversin texto a fonema (TTP en ingls) o grafema a fonema (GTP en ingls). Lacombinacin de transcripciones fonticas e informacin prosdica constituye larepresentacin lingstica fontica.

  • 5/24/2018 Reconocimiento de Voz

    85/90

    La segunda etapa, toma la representacin lingstica simblica y laconvierte en sonido, esta segunda etapa suele ser llamada sintetizador.

    Aplicacin de la sntesis de la voz a la msica

  • 5/24/2018 Reconocimiento de Voz

    86/90

    Dentro del campo de la creacin musical encontramos software quemediante este sistema genera voces similares a la de las humanas

    capaces de interpretar canciones con gran realismo. Un ejemplo actual esel caso del sistema Vocaloid, desarrollado por Yamaha Corporation, estesistema es capaz de reproducir voces humanas con una naturalidad y unainteligibilidad muy altas utilizando muestras de voz. Para ello el usuariodebe indicar la letra de las canciones y al entonacin con la que desea que

    sean cantadas. Tambin es posible modificar otros parmetros de la voz.

    Vocoder

    Un vocoder (nombre derivado de voice coder, codificador de voz) es unanalizador y sintetizador de voz.

    Para su uso como sintetizador de voz el vocoder examina el hablaencontrando su onda bsica, que es la frecuencia fundamental, y midiendocmo cambian las caractersticas espectrales con el tiempo grabando elhabla.

  • 5/24/2018 Reconocimiento de Voz

    87/90

    Esto da como resultado una serie de nmeros representando esasfrecuencias modificadas en un tiempo particular a medida que el usuariohabla. Al hacer esto, el vocoder reduce en gran medida la cantidad de

    informacin necesaria para almacenar el habla. Para recrear el habla, elvocoder simplemente revierte el proceso, creando la frecuenciafundamental en un oscilador electrnico y pasando su resultado por unaserie de filtros basado en la secuencia original de smbolos. Para lasaplicaciones musicales, una fuente de sonidos musicales se usa como

    portadora, en lugar de extraer la frecuencia fundamental.

    Reconocimiento de partituras musicales

  • 5/24/2018 Reconocimiento de Voz

    88/90

    Para el reconocimiento de partituras por parte de un computador se utilizanlos sistemas OMR (Optical Music Recognition) que son una aplicacin del

    reconocimiento de caracteres (OCR o Optical Character Recognition) apartir de imgenes digitales.

    Utilizando estos sistemas podemos, a partir de una partitura escrita (amano o por ordenador) en papel, escanearla y obtener un archivo quecontenga informacin sobre esa partitura, en formatos como MIDI, NIFF o

    XML, lo que permite despus reproducirlo en un ordenador, cambiar laafinacin a la que se debe tocar la cancin automticamente o realizarhacer cualquier otra modificacin con facilidad gracias a programasespeciales para la edicin de partituras o simplemente almacenarlas eimprimirlas en cualquier momento.

    Los sistemas OMR suelen seguir cuatro etapas en el proceso dereconocimiento estas son:

  • 5/24/2018 Reconocimiento de Voz

    89/90

    reconocimiento, estas son:

    Identificacin del pentagrama. En esta etapa se identifica la posicin delas lneas del pentagrama y se generalmente se eliminan, dejando

    nicamente los smbolos musicales superpuestos a estas.

    Localizacin de objetos musicales. Se localizan los smbolos que seencuentran sobre el pentagrama.

    Identificacin de smbolos. Se determina de que tipo es cada smbolo.

  • 5/24/2018 Reconocimiento de Voz

    90/90

    Paso a notacin musical. Por ltimo se determina la relacin existenteentre los smbolos y se almacena esta informacin de manera que losprogramas como secuenciadores o editores de msica puedan

    reconocer, en forma de ficheros como los mencionados anteriormente.