digitalizacion seÑal voz humana

7
UNIVERSIDAD NACIONAL EXPERIMENTAL POLITECNICA DE LA FUERZA ARMADA BOLIVARIANA NUCLEO ANZOATEGUI / EXTENSION PUERTO PIRITU SEDE TEMPORAL “PEDRO C. MUÑOZ” ING. EN TELECOMUNICACIONES CÁTEDRA: DIFUSIÓN Y MULTIMEDIA IX SEMESTRE REGIMEN NOCTURNO ALUMNOS: MONZÓN WILFREDO C.I. Nº 17.388.365 SANTAMARÍA MARIANA C.I. Nº 8.257.440 PROCESO DE DIGITALIZACIÓN HUMANA (P.C.M.) Pronunciar un sonido cualquiera; por ejemplo, el sonido producido por nuestra propia voz al pronunciar la vocal “A”. Este sonido es, básicamente, una vibración que se propaga en forma de ondas a través de algún medio, generalmente el aire. Cuando esa onda llega a un oído humano, produce una vibración del tímpano que el cerebro del oyente interpreta. Al suponer que se pronuncia la vocal “A” ininterrumpidamente durante 5 segundos la onda, o señal, que se estará transmitiendo por el aire tendrá más o menos este aspecto: El eje X representa el tiempo (de 0 a 5 segundos) y el eje Y la amplitud de la onda sonora. Cuando más fuerte sea el sonido, más amplitud; cuanto más débil, menos amplitud. También se puede representar la variación de la frecuencia del sonido con

Upload: maringt-santamaria

Post on 04-Jul-2015

986 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DIGITALIZACION SEÑAL VOZ HUMANA

UNIVERSIDAD NACIONAL EXPERIMENTAL POLITECNICA

DE LA FUERZA ARMADA BOLIVARIANA

NUCLEO ANZOATEGUI / EXTENSION PUERTO PIRITU

SEDE TEMPORAL “PEDRO C. MUÑOZ”

ING. EN TELECOMUNICACIONES

CÁTEDRA: DIFUSIÓN Y MULTIMEDIA

IX SEMESTRE REGIMEN NOCTURNO

ALUMNOS:

MONZÓN WILFREDO C.I. Nº 17.388.365

SANTAMARÍA MARIANA C.I. Nº 8.257.440

PROCESO DE DIGITALIZACIÓN HUMANA (P.C.M.)

Pronunciar un sonido cualquiera; por ejemplo, el sonido producido por

nuestra propia voz al pronunciar la vocal “A”. Este sonido es, básicamente, una

vibración que se propaga en forma de ondas a través de algún medio, generalmente el

aire. Cuando esa onda llega a un oído humano, produce una vibración del tímpano que

el cerebro del oyente interpreta.

Al suponer que se pronuncia la vocal “A” ininterrumpidamente durante 5

segundos la onda, o señal, que se estará transmitiendo por el aire tendrá más o menos

este aspecto:

El eje X representa el tiempo (de 0 a 5 segundos) y el eje Y la amplitud de la

onda sonora. Cuando más fuerte sea el sonido, más amplitud; cuanto más débil, menos

amplitud. También se puede representar la variación de la frecuencia del sonido con

Page 2: DIGITALIZACION SEÑAL VOZ HUMANA

2

el tiempo: los sonidos agudos tienen frecuencias altas, y los graves, frecuencias bajas.

En cualquier caso, se tiene una representación gráfica absolutamente fiel del sonido.

Que pasará: si, de esa señal, se escucha sólo los dos primeros segundos, ¿se

corresponderá la onda con la de la vocal “A”?

La respuesta es sí. Sería como si usted hubiera dicho “A” durante sólo 2

segundos. Si escuchamos sólo el primer segundo, la señal sigue siendo una “A”. Y si

reducimos aún más el tiempo, y nos escuchamos sólo medio segundo, o con una

décima o con una mil millonésima de segundo, se seguirá teniendo una pequeñísima

parte de la señal de la vocal “A”. Se puede tomar una parte infinitamente pequeña de

la señal, y seguirá siendo una “A” (infinitamente corta).

Una señal es continua, al referirse precisamente a eso: entre dos instantes de

tiempo cualquiera, por muy cercanos que sean, la señal no se interrumpe, sino que se

extiende de manera continua en el tiempo.

Cuando se pretende grabar una señal continua, como el sonido, en un

ordenador, se enfrenta un problema sin posibilidad de solución. El ordenador sólo

entiende números (binarios). Luego la señal debe ser convertida a números. Así, para

grabar en el ordenador la señal de 5 segundos de la vocal “A”, lo único que puede

hacerse es transmitirle a la máquina esta información:

Page 3: DIGITALIZACION SEÑAL VOZ HUMANA

3

Al principio de la señal, tiene una amplitud de, por ejemplo, 50.

Un instante después, la señal tiene una amplitud de 52.

Un instante después, la amplitud es de 54.

Y así sucesivamente, hasta que, instante tras instante, se recorre la señal desde

el segundo 0 hasta el segundo 5. Al final, el ordenador entenderá que la vocal “A” tiene

esta señal:

Cada punto de la señal se denomina muestra. El resultado depende de lo

próximas entre sí que estén las muestras. Al enviar al ordenador el valor de la señal

con las muestras separadas 0,01 segundos, se obtiene puntos más juntos. Si

separamos las muestras 1 segundo, obtendremos puntos más dispersos, como aquí:

Page 4: DIGITALIZACION SEÑAL VOZ HUMANA

4

Pues bien, lo observado en estos gráficos son señales digitales, también

llamadas señales discontinuas. La señal digital se parece a la señal analógica, pero no

es igual. Por lo tanto, cualquier sonido grabado en un ordenador no es igual que el

sonido real que produjo la grabación. Y esto es aplicable a cualquier otra señal del

mundo real, como, por ejemplo, las imágenes.

Se observa que no importa lo próximas que estén entre sí las muestras: nunca

se conseguirá que la señal sea continua. Siempre se compondrá de puntos dispersos.

Para conseguir una réplica exacta de la señal continua, se necesita tomar muestras

infinitamente próximas entre sí o, lo que es lo mismo, se necesitaria tomar un número

infinito de muestras. Pero eso es imposible, porque los ordenadores son máquinas

finitas: tienen una cantidad limitada de memoria y una capacidad limitada de proceso.

Se denomina digitalización al proceso de conversión de una señal analógica

(continua) en digital (discontinua). Las señales digitales no son exactamente iguales a

las analógicas, sólo parecidas. Así, por ejemplo, el sonido digital grabado en un CD de

música no es exactamente el mismo sonido que produjo el cantante durante la

grabación. Si en un CD, lo que hay grabado en ellos no es más que una mala copia

discontinua de la señal de sonido original, por qué se convierte en continua. La

respuesta está en la frecuencia de muestreo, es decir, la cantidad de muestras (o

puntos) de la señal que se toman por unidad de tiempo. Cuantas más muestras se

recojan por segundo, más próximos estarán los puntos entre sí, y más se parecerá la

señal digital a la analógica. La frecuencia de muestreo se mide en Hertzios (Hz). Por

ejemplo, una frecuencia de muestreo de 100 Hz equivale a tomar 100 muestras en

cada segundo.

Existe un teorema físico denominado teorema del muestreo (o teorema de

Nyquist – Shannon), el teorema establece cuál es la frecuencia de muestreo necesaria

para cada señal de manera que no se note la digitalización. Establece que esa

frecuencia crítica es exactamente el doble de la frecuencia máxima que se quiere

reproducir con fidelidad.

Page 5: DIGITALIZACION SEÑAL VOZ HUMANA

5

El oído humano puede percibir sonidos de una frecuencia entre 20 y 20.000 Hz,

más o menos. Si se usa una frecuencia de muestreo de 40.000 Hz, se conservarán con

absoluta precisión todos los sonidos de hasta 20.000 Hz y, por lo tanto, el oído

humano será totalmente incapaz de percibir la diferencia entre la señal digital y la

analógica. En cambio, si se muestrea con una frecuencia de 20.000 Hz, sólo se

conservarán los sonidos por debajo de 10.000 Hz. Las frecuencias por encima de ésa

(las componentes más agudas del sonido) se deformarán al digitalizarse, y el sonido

digital perderá calidad con respecto al analógico.

Un sonido digitalizado a 40.000 Hz, se escucha ya que los CDs de música

contienen el sonido muestreado a 44.000 Hz. Por eso la música digital grabada en ese

soporte se oye tan limpia, tan perfecta, aunque la señal es discontinua. El sonido

digitalizado a 20.000 Hz se oye, aproximadamente, como una emisora de radio en FM.

El sonido digitalizado a 10.000 Hz, en cambio, se empieza a oír claramente mal (sólo

reproducirá con fidelidad las frecuencias por debajo de 5.000 Hz), con un sonido

metálico parecido al de la línea telefónica.

Al digitalizar una señal continua, además de “recortar” la señal en el tiempo,

recogiendo sólo unas cuantas muestras de las infinitas disponibles, es necesario darle

un valor a esas muestras. A esto se le llama cuantificar la señal.

Por ejemplo, las señales de sonido: si se muestrea una señal que dura 5

segundos con una frecuencia de 10 Hz, se tomará 10 muestras por segundo, es decir,

una muestra cada 0,1 segundos. Al ordenador, por lo tanto, se le transmite esta

información:

En el segundo 0.0, la energía de la señal es 82 (por ejemplo)

En el segundo 0.1, la energía de la señal es 67

El en segundo 0.2, la energía de la señal es 75

Y así sucesivamente, hasta llegar al segundo 5.

Page 6: DIGITALIZACION SEÑAL VOZ HUMANA

6

Pues bien, la cuantificación consiste en dar un valor numérico a la energía de la

señal en cada muestra (en el ejemplo, 82, 67, 75, etc.). Esos números, en realidad,

deben ser binarios, que son los únicos que entiende el ordenador. La cantidad de

números diferentes disponibles dependerá del número de bits que se use.

Si se cuantifica con 2 bits, se tendrá sólo 4 valores posibles para la energía de la

señal: 00, 01, 10 y 10 (es decir, 0, 1, 2 y 3).

Si se cuantifica con 8 bits, se tendrá 256 valores posibles: 00000000, 00000001,

00000010, hasta 1111111.

Si se cuantifica con 16 bits, se tendrá 65.536 valores posibles.

Lógicamente, cuantos más bits se utilicen en la cuantificación, más “fino” y

aproximado a la realidad será el resultado final. Por ejemplo, en los CDs de música se

utiliza una cuantificación de 16 bits.

Para guardar una señal digital en el ordenador, se almacenan en un archivo

todas las muestras con su valor numérico. Por lo tanto, cuantas más muestras se

tomen, es decir, cuanto mayor sea la frecuencia de muestreo, más espacio ocupará el

archivo. Como para cada muestra se guarda su valor numérico, cuantos más bits se

empleen en la cuantificación, más espacio ocupará el archivo.

De aquí se deduce que, conforme crece la calidad de una señal digitalizada, más

memoria ocupa y, por lo tanto, más recursos del ordenador consumen. Además, si el

archivo de sonido es estéreo, contiene realmente dos señales diferentes, una para ser

reproducida por el altavoz izquierdo y otra para el derecho, con lo que ocupa el doble

de espacio que un archivo no estéreo. Por eso, los ordenadores multimedia, además

del hardware específico del que ya se ha mencionado, deben ser en general equipos

muy potentes, con gran cantidad de espacio en el disco duro y gran cantidad de

memoria RAM. Éste también es el motivo por el que son tan populares los formatos de

archivo donde el sonido se almacena de forma comprimida, como el MP3: la misma

señal digitalizada puede ocupar mucho menos espacio si se la comprime, a costa de

perder calidad.

Page 7: DIGITALIZACION SEÑAL VOZ HUMANA

7

Con las imágenes no pasa nada en particular. Son señales continuas, como el

sonido, pero más complejas. Se digitalizan del mismo modo, es decir, por

aproximación a las imágenes reales: nunca son reproducciones exactas. En los sonidos

se toma una muestra de la señal sonora cada cierto tiempo, componiendo una señal

discontinua que se parecía a la original. En las imágenes, se tomará una muestra cada

cierto espacio (no cada cierto tiempo) de la señal luminosa original, componiendo una

señal luminosa discontinua parecida a la original.

Por lo tanto, lo que se hace al digitalizar imágenes reales es pasarle al

ordenador el color de puntos luminosos muy próximos entre sí. A esos puntos se les

llama píxeles. Cuanto más próximos estén los píxeles, menos se notarán las

discontinuidades. Las imágenes digitales también necesitan mucha memoria (sobre

todo si son imágenes en movimiento, es decir, vídeos). Por ese motivo los formatos de

archivo más populares utilizan técnicas de compresión, ya sea con pérdida de calidad

(como el formato JPEG) o sin pérdida (como PNG o GIF).

Fuente:

http://profeblog.es/blog/alfredo/2008/05/19/la-digitalizacion-de-senales-analogicas-contada-

para-que-su-abuela-lo-entienda/