análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting
TRANSCRIPT
![Page 1: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/1.jpg)
ANÁLISIS DE LAS PRESTACIONES DE DISTINTAS TÉCNICAS DE PREPROCESADO
EN AUDIO FINGERPRINTING
José Serradilla ArellanoMayo 2007
![Page 2: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/2.jpg)
Índice
• Audio Fingerprinting: Generalidades• Uso de Audio Fingerprinting para
Identificación• El sistema de Philips• Mejoras propuestas en preprocesado:
– Filtrado– Algoritmo DDA
![Page 3: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/3.jpg)
Generalidades
• Concepto: Firma compacta basada en el contenido que resume una grabación de audio.
• La señal de audio en sí no es modificada, en particular no se le añade ninguna información adicional (al contrario que Audio Watermarking).
• El factor decisivo para la implementación de un proceso de “Audio Fingerprinting” es la selección de las características a investigar.
![Page 4: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/4.jpg)
Generalidades: Propiedades
• La huella debería ser:
– Un resumen perceptual de la grabación – Invariante a las distorsiones – Compacta– Fácilmente computable
![Page 5: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/5.jpg)
Generalidades: Modos de Uso
• Identificación (para lo que se usará en este proyecto)• Verificación de la integridad • Apoyo al “Watermarking” • Recuperación y procesamiento de audio basados
en el contenido
![Page 6: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/6.jpg)
Generalidades: Aplicaciones
• Monitorización y Seguimiento del contenido de audio
• Servicios de valor añadido • Sistemas de verificación de Integridad
La mayoría de ellos son casos particulares del modo de uso de identificación
![Page 7: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/7.jpg)
Generalidades: Watermarking
• La idea básica consiste en añadir una señal, la marca de agua, a la señal original de audio.
• Ambas metodologías tienen muchas aplicaciones en común y también muchas específicas de cada una:
– “audio watermarking” aunque en un principio estaba pensado para protección de copyright, también es útil para otros muchos propósitos, particularmente para transporte de información de propósito general
– “audio fingerprinting” se usa sobre todo para identificar señales de audio, no solo en aplicaciones de copyright, sino también en reconocimiento de anuncios, por ejemplo.
![Page 8: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/8.jpg)
Identificación
• 3 procesos principales– Extracción de Huellas – Algoritmo de búsqueda de coincidencias.– Comprobación de Hipótesis
![Page 9: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/9.jpg)
Identificación: Extracción
• Dos partes:– Front-End: Convierte
una señal de audio en una secuencia de características relevantes.
– Bloque de modelado de huellas: define la representación final de la huella
![Page 10: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/10.jpg)
Id.: Extracción: Front-End
• Distintos bloques, no todos obligatorios:
– Preprocesado– Framing & Overlap ( y enventanado) – Tranformaciones lineales: Estimaciones
espectrales – Extracción de características – Post-Procesado
![Page 11: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/11.jpg)
Id.: Extracción: Modelado
• Normalmente recibe una secuencia de vectores de características calculados teniendo en cuenta todas las tramas una por una y explota redundancias entre tramas vecinas
• Varias opciones:
– Huella como resumen de las secuencias de vectores multidimensionales de una canción completa (o de una parte de ella) en un vector simple.
– Huella como secuencias de vectores binarios – Secuencia de vectores aproximada por un libro de código– Huella como secuencias de índices a un conjunto de clases de
sonidos representativo de una colección de elementos de audio
![Page 12: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/12.jpg)
Id.: Métodos de búsqueda
• Fundamental saber cómo de eficientemente realiza las comparaciones entre el audio y millones de huellas
• Fuerza bruta inviable, otras opciones:– Pre-computar distancias offline – Filtrado de candidatos improbables con una
medida de similaridad simple– Indexado de archivos inverso – Reducción de candidatos – Otros enfoques
![Page 13: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/13.jpg)
El Sistema de Philips
• Se usarán características no semánticas• Huella como cadena de unos pocos
miles de bits• Segmentación en tramas, cada trama -
>sub-huella• Bloques de 256 sub-huellas
![Page 14: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/14.jpg)
El Sistema de Philips: Algoritmo
Tramas 0,37 sgOverlap 31/3232 bits en 11,6 ms256x32 en 3 sg.
33 bandas no solapadas300 y 2000 HzLog. espaciadas
01,1,1)1,(,,0
01,1,1)1,(,,1),(
mnEmnEmnEmnE
mnEmnEmnEmnEmnF
![Page 15: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/15.jpg)
El Sistema de Philips: Algoritmo
Esta va a ser la medida de similaridad
![Page 16: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/16.jpg)
Sist. de Philips: Análisis falso positivo
• Falso positivo: BER entre dos trozos distintos < umbral T=0.35
• Teóricamente FPR del orden de 10-20, habrá que estimarla estadísticamente
• Distribución de la BER:
NORMAL
0.44 0.46 0.48 0.5 0.52 0.54 0.56
0.0010.0030.01 0.02 0.05 0.10
0.25
0.50
0.75
0.90 0.95 0.98 0.99 0.9970.999
Data
Prob
abilit
y
Normal Probability Plot
![Page 17: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/17.jpg)
Sist. de Philips: Análisis falso positivo
• BER distribuida [0,∞) Usamos una lognormal
FPR=3.82612e-30
![Page 18: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/18.jpg)
Sist. de Philips: Análisis de robustez
• BER entre un trozo de audio y su versión distorsionada deber ser < T=0.35
• Las distorsiones las aplicamos con Adobe Audition
![Page 19: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/19.jpg)
Sist. de Philips: Análisis de robustez
• Se ha trabajado con 4 canciones y estos han sido los resultados:
![Page 20: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/20.jpg)
Mejoras propuestas en preprocesado
• En general lo que haremos es:
• Vamos a trabajar con 3 esquemas
distintos
![Page 21: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/21.jpg)
Mejoras preprocesado: Filtrado
• La señal pasa por el filtro:
1
1
98.01
199.0)(
z
zzH
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
![Page 22: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/22.jpg)
Mejoras preprocesado: Filtrado
• Respecto al falso positivo:
FPR’= 3.80196e-30
![Page 23: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/23.jpg)
Mejoras preprocesado: Filtrado
• Respecto a la robustez:
![Page 24: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/24.jpg)
Mejoras preprocesado: Filtrado
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
![Page 25: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/25.jpg)
Mejoras preprocesado: DDA
• DDA: Sistema distinto al de Philips. Lo que haremos es mezclar su preprocesado con nuestro sistema.
• Se submuestrea a 11025 Hz, se divide en tramas de 372 ms que se superponen por la mitad y se hace la MCLT de cada trama
• Y ahora se aplican 2 pasos por separado
![Page 26: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/26.jpg)
Mejoras preprocesado: DDA (1er paso)
• Filtrado paso bajo del espectro logarítmico
• A: espectro filtrado• Resultado x(i):
e.o.c 0
0A(i)-spect(i) si )()()(
iAispectix
![Page 27: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/27.jpg)
Mejoras preprocesado: DDA (1er paso)
• Respecto al falso positivo:
FPR’= 8.1111e-27
![Page 28: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/28.jpg)
Mejoras preprocesado: DDA (1er paso)
• Respecto a la robustez:
![Page 29: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/29.jpg)
Mejoras preprocesado: DDA (1er paso)
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.
![Page 30: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/30.jpg)
Mejoras preprocesado: DDA (2º paso)
• Se genera un umbral auditivo dependiente de la frecuencia
• thr: umbral auditivo en dB• Resultado x(i):
e.o.c 0
0thr(i)-spect(i) si )()()(
ithrispectix
![Page 31: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/31.jpg)
Mejoras preprocesado: DDA (2º paso)
• Respecto al falso positivo:
FPR’= 5.03071e-29
![Page 32: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/32.jpg)
Mejoras preprocesado: DDA (1er paso)
• Respecto a la robustez:
![Page 33: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/33.jpg)
Mejoras preprocesado: DDA (1er paso)
Pictures
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Beatles
00,050,1
0,150,2
0,250,3
0,350,4
0,450,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Jimmy
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
Vangelis
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Sin preproc
Con preproc.1
Con preproc.2
![Page 34: Análisis de las prestaciones de distintas técnicas de preprocesado en audio fingerprinting](https://reader035.vdocumento.com/reader035/viewer/2022062710/559338b41a28ab301e8b459e/html5/thumbnails/34.jpg)
Conclusiones
• Se puede decir que los resultados no han sido completamente satisfactorios
• Hay mejoras para algunas distorsiones y tipos de archivos concretos, pero no generales
• ¿Motivos?