trabajo traductores equipo 4 reconocimiento de voz

16
 REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA EDUCACION SUPERIOR UNIVERSIDAD RÓMULO GALLEGOS ÁREA DE INGENIERIA DE SISTEMAS SAN JUAN DE LOS MORROS ESTADO GUÁRICO  RECONOCIMIENTO DE VOZ Facilitador: Realizado por: Prof. Cesar Montilla Barletta Antonio C.I: 23.952.384  ar!"ez #l$a C.I: 22.%&4.984  Rodr'$(ez )ac*eline C.I: 2+.%5+.%4& ,ecci-n &/  +0 de o!ie1re del 2+&4 1

Upload: antonio-michelle-barletta

Post on 04-Nov-2015

217 views

Category:

Documents


0 download

DESCRIPTION

Trabajo Traductores Reconocimiento de Voz

TRANSCRIPT

REPBLICA BOLIVARIANA DE VENEZUELAMINISTERIO DEL PODER POPULAR PARA LA EDUCACION SUPERIORUNIVERSIDAD RMULO GALLEGOSREA DE INGENIERIA DE SISTEMASSAN JUAN DE LOS MORROSESTADO GURICO

RECONOCIMIENTO DE VOZ

Facilitador: Realizado por:Prof. Cesar Montilla Barletta Antonio C.I: 23.952.384 Narvez Olga C.I: 22.614.984 Rodrguez Jackeline C.I: 20.650.641 Seccin 1

07 de Noviembre del 2014

INDICE

INTRODUCCION..EL LENGUAJE HABLADO...4-5RECONOCEDORES DE VOZ.5-6CLASIFICACIN7-8DATOS UTILIZADOS PARA CONSTRUIR RECONOCEDORES8-9PROCESO DE RECONOCIMIENTO DE VOZ.....9-10REDES NEURONALES ARTIFICIALES......10-11MODELOS OCULTOS DE MARKOV...12-13CONCLUSION..14-15BIBLIOGRAFIA..16

INTRODUCCIN

Desde el momento en que los ordenadores han llegado a ser parte importante en muchos aspectos de la sociedad actual se ha visto muy claro que mucha gente tiene serias dificultades en trabajar con ellos. Esto lleva a la necesidad de crear nuevos entornos de comunicacin que sean ms naturales, sencillos e intuitivos, pudiendo relacionarlos con las caractersticas del trabajo que se ha de hacer y que permitan prescindir del manejo a travs de las manos.En las formas de comunicacin que el ser humano usa, se ve claramente que el sistema conversacional es el ms sencillo, claro y rpido. No parece una labor demasiado transformar los sonidos en rdenes precisas para los equipos informticos ya que disponemos de distintos dispositivos, como: micrfonos y captadores de sonido, analizadores de sonidos y otros; sin embargo, lo que se desea no es algo tan simple como el reconocimiento de unos cuantos s o no, sino tener un completo abanico de posibles comandos compuestos de frases, cuyo significado debe comprender el ordenador; ste debe entender lo que se le dice y responder a ello ejecutando la correspondiente orden.El objetivo del reconocimiento de voz es que las computadoras tengan la capacidad para comprender el lenguaje hablado y una vez entendido puedan ejecutar funciones especficas o almacenar datos.No hay que olvidar que el ser humano es capaz de decir lo mismo (en la misma lengua) de mltiples formas. Ante esto el ordenador debe reaccionar ejecutando lo que se le indica, sea con una u otra frase. Se podra decir que lo que se busca no es ya que el ordenador ejecute lo que se le dice sino lo que se le quiere decir. O sea, debe ser capaz de comprender la orden dada y obrar en consecuencia.

EL LENGUAJE HABLADO

El lenguaje es una forma convencional utilizada para la comunicacin de pensamientos y sentimientos entre los seres humanos. El lenguaje es representado por smbolos ya sean escritos o hablados. En el lenguaje hablado se utiliza la capacidad de articular sonidos generalmente conocidos como la voz.

La voz es parte integral de nuestras vidas. Las personas con capacidades fsicas y mentales normales e incluso discapacitados como los invidentes, utilizan la voz como el principal medio de comunicacin. A diferencia del lenguaje escrito, el habla puede comunicar necesidades inmediatas.

La voz o tambin conocida como fonacin es el resultado del sonido producido por la salida del aire que, al atravesar las cuerdas vocales de la laringe, las hace vibrar. La voz se define en cuanto a su tono, calidad e intensidad. El tono ptimo y su rango de variacin dependen de cada individuo y estn determinados por la longitud y masa de las cuerdas vocales. El tono puede alterarse, variando la presin del aire exhalado y la tensin sobre las cuerdas vocales. Esta combinacin determina la frecuencia a la que vibran las cuerdas: a mayor frecuencia de vibracin, ms alto es el tono.

Otro aspecto asociado a la voz es la resonancia. Esta se define como la habilidad que tiene una fuente vibrante de sonido para causar que otro objeto vibre. El pecho, garganta, boca y nariz son cmaras de resonancia que amplifican las bandas o frecuencias (nmero de vibraciones del tono por segundo) formantes contenidas en el sonido generado por las cuerdas vocales. La calidad de la voz depende de la resonancia y de la manera en que vibran las cuerdas vocales, mientras que la intensidad depende de la resonancia y de la fuerza de vibracin de las cuerdas [8].

La articulacin se refiere a los sonidos del habla que se producen para formar las palabras del lenguaje. La articulacin centra su atencin en el aparato vocal: garganta (contiene las cuerdas vocales, cuya vibracin produce los fonemas), boca-nariz(cavidades de resonancia, refuerzan ciertas frecuencias sonoras), en donde se producen los sonidos del habla. El habla se articula mediante la interrupcin o modelacin de los flujos de aire, vocalizados y no vocalizados, a travs del movimiento de la lengua, los labios la mandbula inferior y el paladar. Los dientes se usan para producir algunos sonidos especficos.

RECONOCEDORES DE VOZ

Reconocimiento de voz es el proceso automtico de conversin de palabras habladas a palabras escritas. El objetivo del reconocimiento de voz es que las computadoras tengan la capacidad para comprender el lenguaje hablado y una vez entendido puedan ejecutar funciones especficas o almacenar datos. El campo de aplicacin de los reconocedores de voz son: la telefona, sistemas de seguridad, interaccin con computadoras, etc.

El reconocimiento de voz generalmente es utilizado como una interfaz entre humano y computadora para algn software. Debe cumplir 3 tareas:Preprocesamiento: Convierte la entrada de voz a una forma que el reconocedor pueda procesar, es decir, convertir la seal anloga a digital. Reconocimiento: Identifica lo que se dijo (traduccin de seal a texto).

Comunicacin: Enva lo reconocido al sistema software de aplicacin

Existe una comunicacin bilateral en aplicaciones, en las que la interfaz de voz est ntimamente relacionada al resto de la aplicacin. Estas pueden guiar al reconocedor especificando las palabras o estructuras que el sistema puede utilizar. Otros sistemas slo tienen una comunicacin unilateral.

Componentes en una aplicacinLos procesos de pre-procesamiento, reconocimiento y comunicacin deberan ser invisibles al usuario de la interfaz. El usuario lo nota de manera indirecta como: certeza en el reconocimiento y velocidad. Estas caractersticas las utiliza para evaluar una interfaz de reconocimiento de voz.

CLASIFICACIN

Los reconocedores se clasifican de varias maneras, dos de estas clasificaciones son:

De acuerdo a su propsito.

Los reconocedores de voz se clasifican de acuerdo al fin para el que estn destinados; pueden ser de propsito general (cuando se reconocen palabras de cualquier dominio) y de propsito especfico (cuando se reconocen palabras de un dominio en particular) . De acuerdo al tipo de habla.

Otro tipo de clasificacin es de acuerdo al tipo de habla que reconocen:

Reconocedores de habla aislada: Este tipo de reconocedor obliga al locutor a hacer pausas entre las palabras para hacer ms fcil el trabajo del reconocedor, ya que as puede saber el principio y el comienzo de una palabra. Reconocedores de habla continua: En estos reconocedores se trata de emplear la forma ms comn del habla, la forma continua. Aunque para el reconocedor suele ser ms difcil ya que se puede perder entre palabra y palabra.

Ventajas:

Algunas de las ventajas que se tienen al utilizar un reconocedor de voz son: una manera ms rpida para la introduccin de datos, comodidad al no tener que estar utilizando el teclado o el ratn (mouse), no es necesario tener una parte visual es decir no hay que estar pegados viendo un monitor, poder estar realizando otras actividades manuales o visuales mientras se utiliza la computadora.

Desventajas:

Algunas de las desventajas que se podran presentar en el reconocimiento de voz pueden ser los problemas de entendimiento en ambientes en donde existe ruido, la prdida de frecuencias del sonido en el ancho de banda del canal de audio, la fluidez en el habla de las personas ya que esto puede afectar el entendimiento de las palabras y especficamente en el caso de reconocedores de voz de propsito general el vocabulario puede ser inmensamente Extenso, sobre todo en el espaol y existen muchos modismos lo cual puede crear confusin de palabras.

DATOS UTILIZADOS PARA CONSTRUIR RECONOCEDORES

Existen tres tipos de datos utilizados para construir reconocedores:

Datos del entrenamiento. Se utilizan para construir el reconocedor y ajustar sus parmetros. Dependiendo de la cantidad de informacin que se tenga, ser el resultado del reconocimiento. A mayor informacin, mayor precisin en el resultado.

Datos de las pruebas. Se usan para evaluar nuevos algoritmos en la fase de desarrollo del reconocedor.

Datos de la evaluacin. Sirven para medir el funcionamiento del sistema, por lo que esta informacin debe ser oculta; es decir, que ninguna parte del sistema ha trabajado con este tipo de informacin. La cantidad de informacin de pruebas y de evaluacin influye en la fiabilidad de los resultados. Por ello, hay que esperar una desviacin mxima de los resultados originales cuando se pruebe con un grupo de pruebas distinto.

PROCESO DE RECONOCIMIENTO DE VOZ

El proceso de reconocimiento de voz consiste bsicamente en transformar una seal a smbolos y darle algn significado al reconocimiento para realizar una accin

Sistema de Reconocimiento de Voz

Los pasos para llevar a cabo este reconocimiento son:

1 Obtener los archivos de voz (la seal de voz) y digitalizarlos.

2Extraer un conjunto de caractersticas esenciales de la seal (este conjunto de caractersticas ser la entrada al clasificador).3Introducir el conjunto de caractersticas a un clasificador para obtener probabilidades.4Bsqueda para encontrar la secuencia permitida ms probable. Ya que se tiene las probabilidades y con la ayuda de una estructura que tenga las pronunciaciones posibles, se aplique el algoritmo de bsqueda que dar como resultado el reconocimiento de la palabra.

Estos pasos describen de manera general como funciona un reconocedor de voz independientemente de la tecnologa que utilice. Existen varias metodologas para desarrollar reconocedores de voz, dos de las ms importantes son las Redes Neuronales Artificiales y los Modelos Ocultos de Markov las cuales las describiremos de manera general a continuacin.

REDES NEURONALES ARTIFICIALES.

Las redes neuronales artificiales son modelos matemticos inspirados en sistemas biolgicos que son simulados en computadoras convencionales. Estn compuestos de varios nodos simples que operan en paralelo y son arreglados en patrones que simulan redes neuronales biolgicas .

Las caractersticas de las redes neuronales son :

Habilidad de aprendizaje. (Modifican su comportamiento de acuerdo al medio ambiente). Capacidad de generalizar a partir de ejemplos previos.

Capacidad de abstraer la esencia de una serie de entradas

Opcin de no linealidad.

Procesan los datos de entrada en paralelo.

Nmero y tipo de entradas

Conectividad de la red.

Opcin de compensacin

Ventajas

Modelos robustos.

Modelos tolerantes al fallo. Pesos de conexin a red no restringidos.

Implementacin rpida (computacin en paralelo).

Desventajas:

Requieren la definicin de muchos parmetros antes de poder aplicar la metodologa mientras que las tcnicas estadsticas convencionales, slo requieren la extraccin y normalizacin de una muestra de datos.

MODELOS OCULTOS DE MARKOV.

Los modelos ocultos de Markov son modelos matemticos basados en probabilidades que pueden ser adaptados para resolver problemas de reconocimiento de voz. Modelo capaz de describir hechos acsticos del habla y que se queda completamente definido por medio de una serie de variables estadsticas. Hay que tener en cuenta una serie de consideraciones previas antes de definir estas variables:

Un modelo de Markov est constituido por un cierto nmero de estados, N, que depender del fenmeno que se quiere modelar En cada estado, el modelo genera un smbolo perteneciente a un alfabeto finito.

Las transiciones entre estados pueden producirse cada vez que transcurre un intervalo de tiempo finito igual a la duracin de una trama. Los modelos de Markov estn constituidos por dos procesos estocsticos: el oculto, que es el paso de unos estados a otros y el no oculto, que es la generacin de smbolos que se produce en cada estado.

Ventajas

Requieren menos memoria fsica que los de redes neuronales

Ofrecen un mejor tiempo de respuesta que los de redes neuronales.

Desventajas

Fase de entrenamiento lenta

Fase de entrenamiento costosa. Pero como esta tarea se realiza una sola vez, vale la pena utilizarlo.

CONCLUSIN

La tecnologa de reconocimiento de voz ha alcanzado un nivel que permite su explotacin en servicios reales, nos permite hablar con un ordenador, convirtiendo las palabras en texto, pero ahora sabemos que el campo del reconocimiento de voz es mucho ms amplio.

Ha avanzado mucho desde su concepcin, pero todava no ha alcanzado un 100% de precisin, prximamente el reconocimiento de voz podra ser lo ms grande en cuanto a bsqueda ya que nos ahorra mucho tiempo, inclusive la bsqueda en los celulares ser ms accesible, pero no solo en los celulares sino tambin en otros dispositivos, todo esto ha ayudado a muchas personas con discapacidades fsicas. De repente, en unos cuantos aos el teclado sea un objeto a desaparecer en el mundo de los ordenadores.

Podemos decir que si deseamos realizar un sistema que sea capaza de procesar seales de voz y ejecutarlos debemos tener en cuenta muchos parmetros como por ejemplo el ruido, el ambiente en el que estamos, la rapidez con la que hablamos va a tener mucha influencia al momento de captar la seal ya que si el algoritmo de reconocimiento no es eficiente al momento en el que nosotros diramos una orden hablando rpidamente el sistema no respondera, el ruido es otro factor importante ya que los algoritmos pueden trabajar perfectamente eliminando el ruido pero al momento que se encuentran en ambientes en donde existe mucho ruido su eficiencia se ve afectada negativamente, por todo esto siempre se trata de implementar nuevas ideas para mejorar los algoritmos de reconocimiento y ya vimos el caso de que haba software para las computadoras que aparte de procesar la voz tena la capacidad de seguir los movimientos de la boca y de esta manera realizar un trabajo mucho ms preciso y eficiente ya que las posibilidades de error son mucho menores.

BIBLIOGRAFA

FRANCISCO CASACUBERTA NOLLA. Congreso de la lengua espaola, sevilla, 1992.

Reconocimiento de voz y fontica acstica, JESUS BERNAL BERMUDEZ; JESUS BOBADILLA SANCHO; PEDRO GOMEZ VILDA , RA-MA, 2000.

http://es.wikipedia.org/wiki/Reconocimiento_del_habla14