Download - Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting
ANÁLISIS DE LAS PRESTACIONES DE DISTINTAS TÉCNICAS DE PREPROCESADO
EN AUDIO FINGERPRINTING
José Serradilla ArellanoMayo 2007
Índice
• Audio Fingerprinting: Generalidades• Uso de Audio Fingerprinting para
Identificación• El sistema de Philips• Mejoras propuestas en preprocesado:
– Filtrado– Algoritmo DDA
Generalidades
• Concepto: Firma compacta basada en el contenido que resume una grabación de audio.
• La señal de audio en sí no es modificada, en particular no se le añade ninguna información adicional (al contrario que Audio Watermarking).
• El factor decisivo para la implementación de un proceso de “Audio Fingerprinting” es la selección de las características a investigar.
Generalidades: Propiedades
• La huella debería ser:
– Un resumen perceptual de la grabación – Invariante a las distorsiones – Compacta– Fácilmente computable
Generalidades: Modos de Uso
• Identificación (para lo que se usará en este proyecto)• Verificación de la integridad • Apoyo al “Watermarking” • Recuperación y procesamiento de audio basados
en el contenido
Generalidades: Aplicaciones
• Monitorización y Seguimiento del contenido de audio
• Servicios de valor añadido • Sistemas de verificación de Integridad
La mayoría de ellos son casos particulares del modo de uso de identificación
Generalidades: Watermarking
• La idea básica consiste en añadir una señal, la marca de agua, a la señal original de audio.
• Ambas metodologías tienen muchas aplicaciones en común y también muchas específicas de cada una:
– “audio watermarking” aunque en un principio estaba pensado para protección de copyright, también es útil para otros muchos propósitos, particularmente para transporte de información de propósito general
– “audio fingerprinting” se usa sobre todo para identificar señales de audio, no solo en aplicaciones de copyright, sino también en reconocimiento de anuncios, por ejemplo.
Identificación
• 3 procesos principales– Extracción de Huellas – Algoritmo de búsqueda de coincidencias.– Comprobación de Hipótesis
Identificación: Extracción
• Dos partes:– Front-End: Convierte
una señal de audio en una secuencia de características relevantes.
– Bloque de modelado de huellas: define la representación final de la huella
Id.: Extracción: Front-End
• Distintos bloques, no todos obligatorios:
– Preprocesado– Framing & Overlap ( y enventanado) – Tranformaciones lineales: Estimaciones
espectrales – Extracción de características – Post-Procesado
Id.: Extracción: Modelado
• Normalmente recibe una secuencia de vectores de características calculados teniendo en cuenta todas las tramas una por una y explota redundancias entre tramas vecinas
• Varias opciones:
– Huella como resumen de las secuencias de vectores multidimensionales de una canción completa (o de una parte de ella) en un vector simple.
– Huella como secuencias de vectores binarios – Secuencia de vectores aproximada por un libro de código– Huella como secuencias de índices a un conjunto de clases de
sonidos representativo de una colección de elementos de audio
Id.: Métodos de búsqueda
• Fundamental saber cómo de eficientemente realiza las comparaciones entre el audio y millones de huellas
• Fuerza bruta inviable, otras opciones:– Pre-computar distancias offline – Filtrado de candidatos improbables con una
medida de similaridad simple– Indexado de archivos inverso – Reducción de candidatos – Otros enfoques
El Sistema de Philips
• Se usarán características no semánticas• Huella como cadena de unos pocos
miles de bits• Segmentación en tramas, cada trama -
>sub-huella• Bloques de 256 sub-huellas
El Sistema de Philips: Algoritmo
Tramas 0,37 sgOverlap 31/3232 bits en 11,6 ms256x32 en 3 sg.
33 bandas no solapadas300 y 2000 HzLog. espaciadas
01,1,1)1,(,,0
01,1,1)1,(,,1),(
mnEmnEmnEmnE
mnEmnEmnEmnEmnF
El Sistema de Philips: Algoritmo
Esta va a ser la medida de similaridad
Sist. de Philips: Análisis falso positivo
• Falso positivo: BER entre dos trozos distintos < umbral T=0.35
• Teóricamente FPR del orden de 10-20, habrá que estimarla estadísticamente
• Distribución de la BER:
NORMAL
0.44 0.46 0.48 0.5 0.52 0.54 0.56
0.0010.0030.01 0.02 0.05 0.10
0.25
0.50
0.75
0.90 0.95 0.98 0.99 0.9970.999
Data
Prob
abilit
y
Normal Probability Plot
Sist. de Philips: Análisis falso positivo
• BER distribuida [0,∞) Usamos una lognormal
FPR=3.82612e-30
Sist. de Philips: Análisis de robustez
• BER entre un trozo de audio y su versión distorsionada deber ser < T=0.35
• Las distorsiones las aplicamos con Adobe Audition
Sist. de Philips: Análisis de robustez
• Se ha trabajado con 4 canciones y estos han sido los resultados:
Mejoras propuestas en preprocesado
• En general lo que haremos es:
• Vamos a trabajar con 3 esquemas
distintos
Mejoras preprocesado: Filtrado
• La señal pasa por el filtro:
1
1
98.01
199.0)(
z
zzH
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Mejoras preprocesado: Filtrado
• Respecto al falso positivo:
FPR’= 3.80196e-30
Mejoras preprocesado: Filtrado
• Respecto a la robustez:
Mejoras preprocesado: Filtrado
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Mejoras preprocesado: DDA
• DDA: Sistema distinto al de Philips. Lo que haremos es mezclar su preprocesado con nuestro sistema.
• Se submuestrea a 11025 Hz, se divide en tramas de 372 ms que se superponen por la mitad y se hace la MCLT de cada trama
• Y ahora se aplican 2 pasos por separado
Mejoras preprocesado: DDA (1er paso)
• Filtrado paso bajo del espectro logarítmico
• A: espectro filtrado• Resultado x(i):
e.o.c 0
0A(i)-spect(i) si )()()(
iAispectix
Mejoras preprocesado: DDA (1er paso)
• Respecto al falso positivo:
FPR’= 8.1111e-27
Mejoras preprocesado: DDA (1er paso)
• Respecto a la robustez:
Mejoras preprocesado: DDA (1er paso)
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Mejoras preprocesado: DDA (2º paso)
• Se genera un umbral auditivo dependiente de la frecuencia
• thr: umbral auditivo en dB• Resultado x(i):
e.o.c 0
0thr(i)-spect(i) si )()()(
ithrispectix
Mejoras preprocesado: DDA (2º paso)
• Respecto al falso positivo:
FPR’= 5.03071e-29
Mejoras preprocesado: DDA (1er paso)
• Respecto a la robustez:
Mejoras preprocesado: DDA (1er paso)
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Conclusiones
• Se puede decir que los resultados no han sido completamente satisfactorios
• Hay mejoras para algunas distorsiones y tipos de archivos concretos, pero no generales
• ¿Motivos?