motores de bÚsqueda semÁnticos: ¿tu motor de
TRANSCRIPT
MOTORES DE BÚSQUEDA SEMÁNTICOS:
¿TU MOTOR DE BÚSQUEDA TE ENTIENDE?
Madrid, Octubre de 2009
AVSAsistente Virtual Semántico
AGENDA
¿Hay problemas en los motores de búsqueda actuales?
Procesamiento del lenguaje natural: PLN
Ontologías
Precision vs. Recall
Mejoras propuestas
Preguntas
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
¿HAY PROBLEMAS?
Algunos cifran en casi un 80% el porcentaje de usuarios no satisfechos con sus búsquedas
Los interfaces de los motores de búsqueda nos obligan a utilizar un elemento que no solemos utilizar en el día a día: el keyword
Si nuestro cerebro almacena sus ideas relacionando neuronas…
…Por qué tenemos que hacer búsquedas en una caja de keywords
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
¿HAY PROBLEMAS…? Y SOLUCIONES
Necesitamos motores de búsqueda que: Nos permitan utilizar la expresividad habitual de los humanos: PLN
Que entiendan los documentos que indizan
… y que entiendan nuestras necesidades de información: Ontologías
Soporte a múltiples posibilidades en función de los resultados obtenidos por el motor clásico:
Más documentos, muchos más, más precisión…
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
Motores de búsqueda
tradicionales
¿HAY PROBLEMAS…? Y SOLUCIONES
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
Ontologías
PLN
Mayor expresividad
Aumento de hits de
búsqueda
Más precisiónConsultas
estructuradas
Mejora de la experiencia de
búsqueda
PROCESAMIENTO DEL LENGUAJE NATURAL
PLN pasa por entender el papel de cada término en la frase
Localizando aquellos conceptos que no aportan semántica
Desambiguando el papel de los términos en la mayoría de los casos: “Mi empresa factura a la tuya”: Factura como verbo
“Mándame la factura por favor” Factura es sustantivo
Apoyado en las ontologías, una factura no es una secuencia de 7 caracteres, sino la idea de factura
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
ONTOLOGÍAS
Objetivo: Desarrollar un lenguaje común o “semántica común” que hace disminuir la ambigüedad en la comunicación y facilita el consenso, la interoperatividad y la integración
¿Cómo se construyen?: utilizando técnicas basadas en Procesamiento de Lenguaje Natural con el objetivo de: Reducir tiempos
Adecuarla al negocio concreto del cliente
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
Fácil
RápidoPreciso
ONTOLOGÍAS
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
Emisión de contaminantes
Motores diesel
Vehículos a motor
Motores diesel
Motores de gasolina
Motores eléctricos
Motores
Vehículos
Control de emisiones
Emisión de contaminantes
Protocolos de actuación
Seguridad y salud
Análisis de accidentes
Evaluación de impacto
ambiental
Legislación
Ruido y vibración
Control de
explosiones
Incendios
Herramientas de
seguridad
Motores híbridos
PLN + ONTOLOGÍAS
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
Cómo solicito mi nómina de Septiembre
A quién tengo que solicitar la nomina de septiembre
A quién le pido la nomina del pasado Septiembre
Qué tengo que hacer para pedir mi nomina de septiembre
Cómo puedo demandar la nómina de septiembre
…
<<Solicitar>>
Nómina Septiembre
Cómo puedo borrar un pedido?
Cómo se borra un pedido?
Dime cómo puedo eliminar pedidos
No sé borrar pedidos
Cómo hago para eliminar comandas de la aplicación
Cómo se dan de baja pedidos del sistema
...
<<Borrar>>
Pedido ?
PRECISION VS. RECALL
Precision y Recall son dos variables ampliamente utilizadas para la medición de la calidad de motores de recuperación
Habitualmente, mejorar una de las variables implica perjudicar la otra
Las técnicas descritas a continuación permitirán aumentar enormemente el Recall sin afectar al Precision
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
relevantesdocumentosdetotaln
srecuperadorelevantesdocumentosncall
º
ºRe
srecuperadodocumentosdetotaln
srecuperadorelevantesdocumentosnecision
º
ºPr
Documentos
relevantes
recuperados
Total de
documentos
recuperadosTotal de
documentos
relevantes
Colección
INTEGRACIÓN
La integración semántica con Exalead no tiene ninguna repercusión: No se indexan dos veces los documentos, no se busca en
paralelo…
Es sencilla y transparente para el usuario
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
INTEGRACIÓN: A PROBLEMAS DIFERENTES…
… Soluciones diferentes: El módulo semántico incorpora cuatro vistas basadas en PLN
Dos de ellas se emplean para resolver el problema del silencio: ausencia de resultados
En este momento se emplean las ontologías para propagar sinónimos, términos afines…
Otras dos se emplean para resolver el problema del ruido: exceso de resultados
Inclusión automática de operadores de proximidad, inclusión de otros términos afines para dar más precisión al resultado…
Objetivo: localizar la información que precisa en cada momento el usuario
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
EXPANSIÓN DE TÉRMINOS
Las relaciones que posee una ontología son una fuente excepcional para mejorar, de forma automática, las consultas de los usuarios
Sinónimos y específicos serán las relaciones empleadas
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
(Empleado OR Trabajador) AND (Prestación OR Bonificación OR Subvención)
Empleado TrabajadorPrestación
Bonificación Subvención
Empleado Prestación
NORMALIZACIÓN DE VERBOS
La mayoría de motores ya incluye por defecto el tratamiento de singular/plural y masculino/femenino en sustantivos
Sin embargo, las variantes morfológicas de los verbos son aún más numerosas que en el caso de los sustantivos
¿Será ésta la razón por la cuál entre los términos más frecuentes de los motores de búsqueda no hay verbos?
El sistema podrá detectar los verbos conjugados, e incluir sus correspondientes infinitivos
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
(Solicitará OR Solicitar) AND (Nóminas OR Nómina)
Solicitará Nóminas
EXPANSIÓN DE VERBOS
A diferencia de las ontologías y tesauros clásicos, nuestras ontologías incluyen clusters semánticos de verbos
Esto permite que, de forma automática, se puedan incluir en la consulta
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
(Solicitará OR Solicitar OR Demandar OR Requerir OR Pedir) AND (Nóminas OR Nómina)
Solicitará Nóminas
AUTOMATIZACIÓN DEL LEMATIZACIÓN VERBAL
El concepto lematización implica la localización de la raíz de un determinado término o, en este caso, un verbo
El sistema puede localizar automáticamente la raíz (lema) y utilizar el operador comodín (*) para dotar de mayor expresividad a la consulta
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
(Solicit* OR Demand* OR Requer*) AND (Nóminas OR Nómina)
Solicitará Nóminas
CONSULTAS EN LENGUAJE NATURAL
Las técnicas PLN nos permiten consultar tal y como le preguntaríamos a un humano, y no con los mecanismos tradicionales basados en keywords
De forma automática se eliminan las palabras vacías y se normalizan y expanden los términos involucrados
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
(Empleado OR Trabajador) NEAR (Solicit* OR Demand* OR Requer*) NEAR Nómina
El empleado solicita sus nóminas
CONSULTAS EN LENGUAJE NATURAL (II)
Estas mismas técnicas PLN también permiten utilizar lenguaje natural para expresar restricciones de búsqueda
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
Estoy interesado en documentos pdf escritos el mes pasado que hablen sobre alojamientos en Andalucía, pero no en Sevilla ni Jaén
(Alojamiento OR Hotel OR “casa rural”) NEAR (Andalucía OR Córdoba OR Granada…) –(Sevilla OR Sevillano) -(Jaén OR Jienense) filetype:pdf after:01/04/2009 before:30/04/2009
CONSULTAS EN LENGUAJE NATURAL (III)
Además de mejorar los resultados contra motores de búsqueda, también puede conectarse a cualquier base de datos
Cada consulta en lenguaje natural se transforma automáticamente en una consulta contra su base de datos
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
CONSULTAS EN LENGUAJE NATURAL (III)
Asistente Virtual Semántico - http://www.asistentevirtual.es
Cuál es el seguro más barato?
Busco un oftalmólogo en Madrid cerca de Atocha
BD de su negocio
Consulta SQL
Consulta SQL
Producto Coste Stock
Xxx 11 111
Xxx 22 222
Respuesta
en
tiempo real
MÁS SEMÁNTICA: SENTIMENT MINING
Asistente Virtual Semántico - http://www.asistentevirtual.es
La Web 2.0 está diseñada al servicio del consumidor, ¿pero pueden las compañías también sacarle partido?
El análisis automático de blogs y foros permite reducir drásticamente el coste de los antiguos estudios de mercado
Saber qué se dice de nuestra compañía en la Web permite ‘anticipar’ movimientos: optimización de recursos
Las técnicas de análisis clásicas permiten identificar dónde se habla de nosotros: nubes de términos
CalidadServicioAtención
Gustó Caro
Lento
Excelente Carísimo Lejano
Expléndido Gustado
NegativoPositivo
MÁS SEMÁNTICA: SENTIMENT MINING
Las técnicas semánticas permiten: Determinar qué conceptos/adjetivos acompañan con mayor frecuencia al
nombre de nuestra compañía o marca (unificando los de forma múltiple)
Comparar esta frecuencia con la misma en la documentación interna
Entender el significado de cada entrada, decidiendo cuándo se habla bien o mal de nuestra compañía o marca
Asistente Virtual Semántico - http://www.asistentevirtual.es
El producto es de gran
calidadSu calidad es impresio-
nanteSu calidad es decepcio-
nanteNo me gustó su calidadEl producto
es fenomenal
Producto es de lo peor
MÁS SEMÁNTICA: ASISTENTES VIRTUALES SEMÁNTICOS
Aparte del motor de búsqueda, se puede integrar un Asistente Virtual Semántico que responda las preguntas concretas de los usuarios del sistema
Sus principales ventajas: Respuestas concretas ante cada pregunta
Permiten que el usuario se exprese utilizando lenguaje natural
Uso completo de la capacidad semántica del sistema
Estadísticas de términos y consultas más frecuentes
En caso de que el Asistente no tenga una respuesta concreta, puede invocarse automáticamente al motor de búsqueda
+info: http://www.asistentevirtual.es
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
AVSAsistente Virtual Semántico
MÁS SEMÁNTICA: ASISTENTES VIRTUALES SEMÁNTICOS
Aparte del motor de búsqueda, se puede integrar un Asistente Virtual Semántico que responda las preguntas concretas de los usuarios del sistema
Sus principales ventajas: Respuestas concretas ante cada pregunta
Permiten que el usuario se exprese utilizando lenguaje natural
Uso completo de la capacidad semántica del sistema
Estadísticas de términos y consultas más frecuentes
En caso de que el Asistente no tenga una respuesta concreta, puede invocarse automáticamente al motor de búsqueda
+info: http://www.asistentevirtual.es
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
AVSAsistente Virtual Semántico
PREGUNTAS Y COMENTARIOS
Integración de capacidad semántica en motores de búsqueda convencionales. © dTinf - The REUSE Company, 2009
The REUSE Company
José Miguel Fuentes
http://www.reusecompany.com | http://www.asistentevirtual.es