caracterización de una entidad basada en opiniones: un estudio de caso

Post on 30-Jun-2015

195 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Slides for the paper presentation at SEPLN 2009 Conference. San Sebastián, Spain.

TRANSCRIPT

Caracterización de una entidad

basada en opiniones:

un estudio de caso

Damiano Spina, Enrique Amigó,

Julio Gonzalo

Grupo PLN y RI de la UNED

{damiano,enrique,julio}@lsi.uned.es

nlp.uned.es

Bernardino Beotas

Grupo ALMA

b.beotas@almatech.es

www.grupoalma.com

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Informe de reputación de la UNED ?

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Informe de reputación de la UNED

Desventajas

Ventajas

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Caracterización de una entidad basada

en opiniones (opinion-based entity profiling)

– Cuáles son los comentarios (positivos y negativos)

más recurrentes de los usuarios

– Esencial para una buena gestión de reputación

• Reflejan la imagen que los usuarios tienen de la entidad

– No se trata de forma explícita en el área de las

tecnologías de la lengua

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Índice

• Tecnologías relacionadas

• Estudio de caso

• Aproximación baseline: clustering

• ¿Puede Wordnet contribuir a solucionar el

problema?

• Conclusiones y posibilidades futuras

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Gestión de la reputación online

Monitorización

AnálisisGestión

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Tecnologías relacionadas

Minería de opiniones

(análisis de sentimientos)

Detección de subjetividad

Polaridad, orientación semántica

Extracción de emociones en

texto

Extracción del opinante

Resumen de opiniones

Análisis basado en

características

(Pang y Lee, 2008)

(Wiebe, Wilson y Cardie, 2005)

(Turney, 2002)(Strapparava y Mihalcea, 2008)

(Kim y Hovy, 2005)

(Strapparava y Mihalcea, 2008)

(Hu y Liu, 2004; Liu, Hu, y Cheng, 2005; Gamon et al., 2005)

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Tecnologías relacionadas

Análisis de blogs

Descubrimiento de tendencias

Influencia en blogs

Búsqueda y filtrado de blogs

Resumen de posts

(Agarwal y Liu, 2008)

(Glance, Hurst y Tomokiyo, 2004) (Java et al., 2006)

(Mishne y de Rijke, 2006) (Hu, Sun y Lim, 2007)

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Tecnologías relacionadas

Opinion-based entity profiling

Minería de opiniones (análisis de sentimientos)

Resumen de opiniones

Análisis basado en características

Análisis de blogs

Descubrimiento de tendencias …

(Glance, Hurst y Tomokiyo, 2004)

(Agarwal y Liu, 2008)(Pang y Lee, 2008)

(Strapparava y Mihalcea, 2008)(Hu y Liu, 2004; Liu, Hu, y Cheng,

2005; Gamon et al., 2005)

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Estudio de caso: UNED

• Universidad Nacional de Educación a

Distancia (UNED)

• Más del 50% recolectadas en el estudio

pertenecen a sitios de valoraciones

– Sólo hay opiniones

• detección de subjetividad

– Ventajas y desventajas

• polaridad

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Estudio de caso: UNED

Ventajas f

trabajar y estudiar a la vez 21

Flexibilidad de horarios 23

Desventajas f

Más difícil que la presencial 15

Algunos problemas técnicos y administrativos

1

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Estudio de caso: UNED

Ventajas f

trabajar y estudiar a la vez 21

Flexibilidad de horarios 24

Desventajas f

Más difícil que la presencial 15

Algunos problemas técnicos y administrativos

2

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Estudio de caso: UNED

Ventajas f

trabajar y estudiar a la vez 21

Flexibilidad de horarios 25

Desventajas f

Más difícil que la presencial 15

Algunos problemas técnicos y administrativos

5

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Estudio de caso: UNED

Ventajas f

trabajar y estudiar a la vez 21

Flexibilidad de horarios 26

Desventajas f

Más difícil que la presencial 15

Algunos problemas técnicos y administrativos

4

Esfuerzo8 personas-hora 206 opiniones

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Estudio de caso: UNED

Desventajas

Ventajas

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Dificultades de la tarea

Ventaja Expresiones

Flexibilidad de horarios Libertad de horarios, estudias a tu ritmo, adaptabilidad a tiempos, gestionas tu propio tiempo, vas a tu aire

No tener que asistir a clase Estudias en casa, no hay que ir a clase, no requiere desplazarse, no presencial

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Dificultades de la tarea

Ventaja Expresiones

Flexibilidad de horarios Libertad de horarios, estudias a tu ritmo, adaptabilidad a tiempos, gestionas tu propio tiempo, vas a tu aire

No tener que asistir a clase Estudias en casa, no hay que ir a clase, no requiere desplazarse, no presencial

Desventaja Expresiones

Estudiar por cuenta propia Has de ser muy constante, soledad, saber organizarse

Más difícil que la presencial Es mucho más difícil, muy dura

Precio Gasto económico, qué cara

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Aproximación baseline: clustering

• Algoritmo de clustering Lingo– Pensado para agrupar resultados de un motor de búsqueda (snippets)

– Latent Semantic Indexing

• Adaptación al castellano– Extensión de la lista de palabras vacías

• 146 -> 446 palabras

– Eliminación de tildes

– Penalización para los descriptores compuestos por un solo término

• Ventajas y desventajas consideradas de forma independiente

• Entrenamiento de los umbrales– De forma cruzada

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Aproximación baseline: clustering

• Evaluación

– Precisión y cobertura BCubed

• Cumple todas las restricciones formales descritas en Amigó et al. (2009)

– Pureza y pureza inversa

– Medida F con α=0.5

– Baselines

• Uno en uno: cada documento forma un cluster

• Todos en uno: todos los documentos se agrupan en un único cluster

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Resultados

PurezaPureza Inversa

F(P,PI)Precisión BCubed

CoberturaBCubed

F BCubed

Ventajas

Uno en uno 1.00 0.14 0.25 1.00 0.14 0.25

Todos en uno 0.25 1.00 0.40 0.12 1.00 0.22

Lingo 0.59 0.59 0.59 0.46 0.50 0.48

PurezaPureza Inversa

F(P,PI)Precisión BCubed

CoberturaBCubed

F BCubed

Desventajas

Uno en uno 1.00 0.18 0.31 1.00 0.18 0.31

Todos en uno 0.16 1.00 0.27 0.07 1.00 0.13

Lingo 0.48 0.61 0.54 0.34 0.50 0.40

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Resultados

PurezaPureza Inversa

F(P,PI)Precisión BCubed

CoberturaBCubed

F BCubed

Ventajas

Uno en uno 1.00 0.14 0.25 1.00 0.14 0.25

Todos en uno 0.25 1.00 0.40 0.12 1.00 0.22

Lingo 0.59 0.59 0.59 0.46 0.50 0.48

PurezaPureza Inversa

F(P,PI)Precisión BCubed

CoberturaBCubed

F BCubed

Desventajas

Uno en uno 1.00 0.18 0.31 1.00 0.18 0.31

Todos en uno 0.16 1.00 0.27 0.07 1.00 0.13

Lingo 0.48 0.61 0.54 0.34 0.50 0.40

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Análisis de fallos

• Errores de precisión– “permiten”, “pueden”

– “estudiar a distancia” vs. “hay que estudiar más”

• Errores de cobertura– Sesgo positivo: clusters que asocian aspectos menos

comentados

– Los aspectos más comentados tienden a dispersarse en varios clusters• “no tener que asistir a clase “ se agrupa en los clusters “No

hay que ir a clase”, “No tienes que desplazarte”, “No requiere presencia”, “comodidad” y “no acudir a clases”

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

¿Puede WordNet contribuir a

solucionar el problema?Precio

Gasto económico

{importe1, precio1}

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

¿Puede WordNet contribuir a

solucionar el problema?Precio

Gasto económico

{importe1, precio1}

{coste1, costo1}

hipónimo

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

¿Puede WordNet contribuir a

solucionar el problema?Precio

Gasto económico

{importe1, precio1}

{coste1, costo1}

{gastos1, gasto1, desembolso2}

hipónimo

hipónimo

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

¿Puede WordNet contribuir a

solucionar el problema?Precio

Gasto económico

{importe1, precio1}

{coste1, costo1}

{gastos1, gasto1, desembolso2}

hipónimo

hipónimo

Muy difícil

Requiere mucho esfuerzo {esfuerzo1, afán1, dedicación1, desvelo1}

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

¿Puede WordNet contribuir a

solucionar el problema?Precio

Gasto económico

{importe1, precio1}

{coste1, costo1}

{gastos1, gasto1, desembolso2}

hipónimo

hipónimo

Muy difícil

Requiere mucho esfuerzo {esfuerzo1, afán1, dedicación1, desvelo1}

{dificultad2}

hipónimo

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

¿Puede WordNet contribuir a

solucionar el problema?

Ejemplo Expresión 1 Expresión 2

7 Estudiar a tu ritmo Gestionas tu propio tiempo

8 Gestionas tu propio tiempo Libertad de horarios

9 Adquisición efectiva de conocimientos

Se aprende de verdad

10 Soledad Debe de gustarte hablarte a ti mismo

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Conclusiones

• Caracterización (profiling) de una entidad

basada en opiniones

• Costosa de realizar manualmente

• Difícil de abordar automáticamente

– Expresiones cortas

– Paráfrasis

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Posibilidades futuras

• Creación de corpus de opiniones– Entidades de distintos dominios

– Incluyendo otras fuentes de información• Foros, blogs, redes sociales

• Evaluación comparativa de distintos algoritmos de clustering

• Uso de otras bases de conocimiento– eXtended WordNet

– WordNet Domains

– SUMO

• Uso de algoritmos de desambiguación (Agirre y Sora, 2009)

• Estudiar la agrupación de opiniones considerando la variable temporal– Qué se dice de la entidad

– Cómo varía en función del tiempo

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

¡Muchas gracias!

Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Naturalnlp.uned.es

Grupo ALMAwww.grupoalma.com

Métricas BCubed

top related