los diccionarios como fuente de conocimiento lexicografía luis villaseñor pineda laboratorio de...

52
Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica

Upload: feliciano-bueno

Post on 11-Apr-2015

116 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Los diccionarios como fuente de conocimiento

Lexicografía

Luis Villaseñor Pineda

Laboratorio de Tecnologías del LenguajeCoordinación de Ciencias Computacionales,

Instituto Nacional de Astrofísica, Óptica y Electrónica

Page 2: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 2

Contenido

¿Qué es un diccionario? ¿Qué es una definición? Relaciones semánticas entre palabras Descubriendo semi-automáticamente

relaciones entre palabras

Page 3: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 3

¿Qué es un diccionario?

Diccionario: libro en el que se recogen y explican de forma ordenada voces de una o más lenguas, de una ciencia o de una materia determinada.

Lexicón = diccionario

Lexicografía: parte de la lingüística que se ocupa de los principios teóricos en que se basa la composición de diccionarios.

Page 4: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 4

¿Para qué la lexicografía?

Dos aspectos nos interesan computacionalmente

Reestructuración y explotación de diccionarios humanos para propósitos computacionales

Uso de técnicas computacionales para compilar nuevos diccionarios

Page 5: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 5

Lexicografía

Definición: Atendiendo a su cometido práctico, la lexicografía se ha venido

definiendo como el arte o la técnica de componer léxicos o diccionarios.

A diferenciar de Lexicología su contraparte, en el plano teórico, encargada del estudio

científico del léxico.

Page 6: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 6

Léxico

Léxico y vocabulario son intercambiables, sin embargo: Léxico – se reserva para aludir al conjunto de clases abiertas

portadoras de significado mientras vocabulario se aplica a las clases cerradas, puesto que no se puede hacer una descripción lingüística sin que se reduzcan las clases abiertas a cerradas. Clases abiertas: nombres, verbos, adjetivos, adverbios se definen por

intensión Clases cerradas: pronombres, artículos, conjunciones y preposiciones se

definen por extensión.

Page 7: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 7

Léxico - Vocabulario

El léxico estaría en la Lengua – el vocabulario en el Habla

El vocabulario es la puesta en uso de un determinado número de unidades léxicas por un grupo o un individuo. El vocabulario de una persona, con sus rasgos específicos, sería

su idiolecto Y el de un grupo regional, profesional o social, su dialecto

Page 8: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 8

Léxico - Vocabulario

El léxico, como clase abierta, está enriqueciéndose constantemente por medio de la creatividad que el uso imprime al lenguaje.

Este enriquecimiento produce tensiones que se manifiestan en vacilaciones, oscilaciones e inestabilidad, especialmente cuando aparece un nuevo término y desplaza a otro.

Page 9: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 9

Construyendo un diccionario

Los lexicógrafos recopilan los usos de las palabras y crean las explicaciones de su uso. Raíces de la palabra Contexto Tipo de fuente

Dos enfoques: Un erudito o grupo de eruditos dictan el significado y por ende el

uso correcto de las palabras El estudio del uso de las palabras a través de corpus fijan su

significado

Page 10: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 10

¿Qué es una definición?

Andrés Manuel López Obrador Ser humano Tabasqueño Padre de familia Ex-jefe de gobierno

Luchador de los derechos sociales Próximo presidente de México Desaforado injustamente

Proposición que expone con claridad y exactitud los caracteres genérico y diferenciales de algo material o inmaterial. Defecto. Carencia de alguna cualidad propia de algo

Page 11: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 11

Un lexicón computacional ¿Qué deseamos incluir en un lexicón

computacional? Su definición Su(s) significado(s) El uso de una palabra (sus colocaciones o co-ocurrencias con

otras palabras) Sinónimos, Antónimos En general su relación semántica con otras palabras

Cómo usamos una palabra y cómo se relaciona con otras palabras (tesauro – tesoro)

Page 12: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 12

Relaciones semánticas

Ontología. Parte de la metafísica que trata del ser en general y de sus propiedades trascendentales.

Por un abuso del vocablo: Descripción del objeto a partir de sus propiedades Propiedades o relaciones con otras palabras

Page 13: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 13

Relaciones semánticas

SinonimiaLos sinónimos son palabras con distinto significante, pero un

significado común. (p. e. extraer y sacar) Polisemia

Es al contrario que la sinonimia. A un significante le corresponden varios significados.

/Gato/: animal felino, herramienta. Antonimia.

Consiste en una oposición de significados. (alto/bajo, comprar/vender.)

Page 14: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 14

Relaciones semánticas

Hiperonimiaun hiperónimo es el término cuyo significado comprende a otro grupo

de términos. A éstos últimos se les llama hipónimos. Hiperónimo: Árbol. Hipónimos: Olivo, Roble, Castaño...

Page 15: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 15

Relaciones semánticas

Meronimia Un merónimo es el nombre atribuido a un constituyente que forma

parte de, que es substancia de o que es miembro de algo. Meronimia es lo opuesto a la holonimia.

X es merónimo de Y si X forma parte de Y. X es merónimo de Y si X es una sustancia de Y. X es merónimo de Y si X es un miembro de Y.

'azul' es merónimo de 'color'. 'Doctor' es merónimo de 'oficio'. 'auto' es un holónimo de 'llanta'.

Page 16: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje

Ejemplos

Page 17: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 17

WordNet

tomado de:

Climent S. (1999) Individuación e información Parte-Todo. Representación para el procesamiento computacional del lenguaje. Estudios de Lingüística Española (ELiEs).

http://elies.rediris.es/elies8/

Page 18: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 18

WordNet Sistema de referencia combinando un diccionario, un tesauro

con el potencial de una base de datos ontológica. WordNet en desarrollo desde los años 80 bajo la dirección

del psicolingüista George Miller en la Universidad de Princeton.

La última versión hecha pública es WordNet 1.5, la cual consta de 126.000 entradas categorías abiertas: nombres (70%), adjetivos (15%), verbos (10%) y

adverbios (5%). categorías cerradas (preposiciones, conjunciones, etc.) no se representan

en WordNet

Page 19: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 19

WordNet

En WordNet un concepto se define por el conjunto de formas léxicas que sirven para representarlo en el lenguaje.

Se utiliza una noción débil de sinonimia: la sinonimia en contexto dos unidades léxicas son sinónimas si la sustitución de una por la otra no

produce en ningún caso alteración del valor de verdad de la proposición en la que aparecen.

Esto no es cierto, generalmente, bajo la noción tradicional de sinonimia. La unidad básica en la que se estructura WordNet es el synset

o conjunto de sinónimos

Page 20: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 20

WordNet

Las 126.000 entradas = 91.000 conceptos o synsets. el nombre board, traducible según su sentido por 'tabla', 'mesa'

(en su sentido de 'manjar') o 'consejo' aparece en los siguientes synsets:

(1) {board , plank} 'tabla', 'plancha' (2) {board} 'consejo' (3) {board, table} 'mesa', 'manjar'

lo cual debe interpretarse como que board-1 es sinónimo de plank; y board-3 sinónimo de table.

Page 21: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 21

WordNet

El synset no es una unidad explícitamente explicativa de la entidad del concepto, tan sólo es indicativo de la existencia del mismo.

El significado en WordNet es diferencial: el significado de un concepto viene dado por contraposición al del resto de conceptos de la base de datos.

Page 22: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 22

Ejemplo

El significado de cada sentido de board puede ser deducido en principio a la vista de sus hiperónimos directos, {lumber,timber}('maderaje'), {committee} ('comité') y {fare} ('alimentos'):

(1) {board , plank} (a stout length of sawn timber; made in a wide variety of sizes and used...) HIPERÓNIMO ® {lumber, timber}

(2) {board}(a committee having supervisory powers; "the board has seven members")

HIPERÓNIMO ® {committee} (3) {board, table} (food or meals in general; "she sets a fine table"; "room and board")

HIPERÓNIMO ® {fare}

Page 23: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 23

Alcance de una ontología

Es prácticamente imposible construir una ontología “global” Dependiente del dominio Del idioma De su aplicación

Page 24: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 24

En resumen

“Todo intento de establecer una descripción estructural de un vocabulario parece destinada al fracaso así que todo queda reducido a una lexicografía o la simple enumeración de fenómenos inestables mal definidos.” (Hjelmskev, 1959)

Page 25: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 25

Su uso, no su estructura Sin embargo, si admitimos que una lengua es un sistema, es

necesario considerar el léxico como un conjunto donde sus elementos se relacionan, así como la existencia de subconjuntos ligados los unos a los otros por diferentes relaciones.

Dos enfoques: Lingüístico: la estructura es inherente a la lengua Psicológico: la estructuración del locutor

Así el estudio del léxico puede apoyarse sobre su uso y no sobre su estructura

Page 26: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 26

La lexicometría

Serie de métodos que permiten la reorganización de la secuencia textual y los análisis estadísticos sobre el vocabulario.

Page 27: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 27

Antes de contar hay que saber que contar

Una serie de caracteres delimitados por dos caracteres delimitadores es una ocurrencia.

Dos secuencias idénticas constituyen dos ocurrencias de una misma forma gráfica

Los signos de puntuación: El guión puede ser el signo de menos, la ruptura de una palabra en

sílabas o una palabra compuesta El punto puede ser un punto final, un punto decimal o un punto en una

abreviatura. El uso de mayúsculas Precaución con las palabras acentuadas

Page 28: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 28

Conceptos básicos El conjunto de formas gráficas es el vocabulario (formas

léxicas)

El número total de ocurrencias en un texto es su tamaño

Estas nociones son la base para el cálculo de riqueza de vocabulario Tamaño del vocabulario entre el tamaño del documento

Page 29: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 29

Riqueza del vocabulario Una forma gráfica con frecuencia de 1 es llamada “hapax”

En número total de hapax nos da una idea de la riqueza del vocabulario

Dividir el tamaño del vocabulario entre el tamaño del documento Problema: depende de la longitud del texto Razón D: D = Σr r(r-1)Vr /T(T-1) donde Vr es el número de formas distintas

apareciendo exactamente r veces en el texto

Page 30: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 30

La ley de Zipf“La mayor parte de las palabras tienen una frecuencia muy baja, mientras

que tan sólo algunas son muy abundantes”

Si medimos las frecuencias de las palabras de una obra de un buen escritor cuyo vocabulario activo sea de, digamos, unas 100 000 palabras, las palabras que ocupan los primeros 10 lugares en la lista llenan alrededor de 25% del texto.

Si lo medimos en un texto en el que se usara una décima parte de aquel vocabulario (unas 10 000 palabras), como el de un periódico, el porcentaje apenas crece a 30%.

Esto se debe principalmente a que el escritor no podría evitar el uso de palabras como "de", "el", "y", "a", etc., las que generalmente ocupan los primeros rangos en cualquier texto.

Page 31: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 31

La ley de Zipf

Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F

El número de orden de cada palabra es su rango, R

R F Palabras / Descriptores

1 36 WATER

2 25 SURFACTANTS

3 22 NONIONIC-SURFACTANTS

4 21 SYSTEMS

5 19 AQUEOUS-SOLUTIONS

6 15 MICELLIZATION

VOCABULARIO ORDENADO POR FRECUENCIAS

kRF frecuencia (F) por el rango

(R) igual a constante (k)

Page 32: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 32

La ley de Zipf

0

5

10

15

20

25

30

35

40

45

0 200 400 600

Rango, R

Fre

cuen

cia,

F

Page 33: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 33

Ajuste de la ley de Zipf

1

10

100

1 10 100 1000

Rango, R

Fre

cuen

cia,

F

RmkF lnlnln

Page 34: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 34

Punto de transición

Se trata de una región crítica en la que ocurre la transición de las palabras de alta frecuencia y las palabras de baja frecuencia. Las palabras frecuentes son palabras vacías (arriba del punto de

transición) Las palabras inusuales son expresiones personales dependientes

del autor Las palabras en esta región crítica son las palabras que

representan/capturan el tema del documento

Page 35: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 35

Punto de transición

Cálculo del punto de transición [Urbizagastegui-Alvarado, 1999] :

Donde I1 es el número de palabras con frecuencia 1

Page 36: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 36

Clasificando documentos por estilo

Proponer un método para la clasificación de textos considerando el estilo de redacción

Objetivos Específicos Determinar los atributos adecuados para la clasificación de

textos por estilo de redacción. Determinar cual es la mejor configuración si se usan varios

clasificadores. Aplicar el método propuesto en la clasificación de textos

orientados a niños en educación básica

Page 37: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 37

Corpus utilizados Corpus Cuentos

Corpus Poemas

Corpus Poetas

Corpus Desastres

Poeta Instancias Vocabulario

Octavio Paz 1914 - 1998 75 13.031Rosario Castellanos 1925 - 1974 80 12,156Rubén Bonifaz Nuño 1923 - 70 12,890Jaime Sabines 1926 - 1999 80 12.885Efraín Huerta 1914 - 1982 48 12.423

Cuentos Instancias Vocabulario

Infantiles 87 39,365Adultos 45 121,812

Poemas Instancias Vocabulario

Infantiles 85 10,889Adultos 83 9,978

Desastres Instancias Vocabulario

Forestal 92 27,494Huracan 76 26,097Inundación 87 27,086Sequía 41 13,056Sismo 143 33,413

Page 38: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 38

Experimentos

Temático usando Corpus Desastres (5 clases). Estilo usando Corpus Cuentos Adultos, Poetas y Desastres

(3 clases). Autoría usando Corpus Poetas (5 clases).

Caracterizando: Todas las palabras con excepción de palabras vacías (método tradicional) Con únicamente palabras vacías Todas las palabras incluyendo las palabras vacías Con medidas lexicométricas

Page 39: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 39

Medidas lexicográficas usadas Promedio de palabras por oración

Número de palabras / Número de oraciones Desviación estándar del promedio Relación entre la cantidad de oraciones y palabras

Número de oraciones / Número de palabras Número de oraciones / Tamaño del vocabulario

Riqueza del vocabulario Número de palabras / tamaño del vocabulario

Hapax con respecto al vocabulario Número de Hapax / Tamaño del vocabulario

Palabras en mayúsculas (entidades nombradas) (Número de palabras con mayúscula inicial – Número de oraciones) / Número de

oraciones Tamaño promedio de las palabras

Total de caracteres / Número de palabras

Page 40: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 40

Al clasificar por temas (5 clases)

Palabras (sin palabras vacías)Atributos 12,038

95.2164%

IG > 0 566 Atributos

sólo palabras vacíasAtributos 193

55.1253%

IG > 0 56 Atributos

todas las palabrasAtributos 12,231

95.4442%

IG > 0 618 Atributos

medidas lexicográficasAtributos 10

25.5320%

IG > 0 1 Atributos

Page 41: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 41

Al clasificar por autoría (5 clases)

Palabras (sin palabras vacías)Atributos 9,909

70.5382%

IG > 0 158 Atributos

sólo palabras vacíasAtributos 224

56.3739%

IG > 0 50 Atributos

todas las palabrasAtributos 10,133

71.1048%

IG > 0 213 Atributos

medidas lexicográficasAtributos 10

25.0000%

IG > 0 8 Atributos

Page 42: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 42

Al clasificar por estilo (3 clases)

Palabras (sin palabras vacías)Atributos 22,166

97.9661%

IG > 0 2,958 Atributos

sólo palabras vacíasAtributos 212

90.5085%

IG > 0 180 Atributos

todas las palabrasAtributos 22,242

98.8136%

IG > 0 3,036 Atributos

medidas lexicográficasAtributos 10

92.7800%

IG > 0 10 Atributos

Page 43: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 43

Paréntesis sobre las medidas de evaluación

Precisión

Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance)

F-mesure

alcanceprecisión

alcancepresiciónF

2

21

Page 44: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 44

Otro vistazo a los resultados

Page 45: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 45

Creando catálogos específicos

Problema: Responder preguntas de definición “sencillas”

¿Quién es Vicente Fox? ¿Qué es PRI?

Solución: Crear catálogos a partir de patrones léxicos superficiales 1er paso – descubrir los patrones léxicos superficiales específicos para una

relación semántica (definición) 2do paso – aplicar los patrones a una colección de documentos específica 3er paso – dada la pregunta buscar evidencia para responder con la mayor

precisión posible

Page 46: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 46

Creando catálogos específicos

WEBDefinitionSearching

Definitioninstances

PatternMining

DefinitionPatters

CatalogConstruction

DefinitionCatalog

DescriptionFiltering

ConceptDescriptions

PatternMining

DocumentCollection

Seeddefinitions

Question Answer

Pat

tern

Dis

cove

ry

An

swer

Ext

rac

tio

n

WEBDefinitionSearching

DefinitioninstancesDefinitioninstances

PatternMining

DefinitionPatters

CatalogConstruction

DefinitionCatalog

DefinitionCatalog

DescriptionFiltering

ConceptDescriptions

PatternMining

DocumentCollection

Seeddefinitions

Question Answer

Pat

tern

Dis

cove

ry

An

swer

Ext

rac

tio

n

Page 47: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 47

Descubriendo los patrones

Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México

... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.

, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.

Seed pairs

Definition instances

Normalized instances

Surface definition pattern

Pro

cess

of

pat

tern

dis

cove

ry

... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.

Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México

... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.

, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.

Seed pairs

Definition instances

Normalized instances

Surface definition pattern

Pro

cess

of

pat

tern

dis

cove

ry

... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.

Page 48: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 48

Descubriendo los patrones

Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México

... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.

, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.

Seed pairs

Definition instances

Normalized instances

Surface definition pattern

Pro

cess

of

pat

tern

dis

cove

ry

... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.

Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México

... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.

, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.

Seed pairs

Definition instances

Normalized instances

Surface definition pattern

Pro

cess

of

pat

tern

dis

cove

ry

... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.

No es trivial determinar las semillas

Page 49: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 49

¿Qué es una secuencia frecuente maximal?

Secuencia Frecuente Una Secuencia se considera frecuente si aparece por lo menos en n

documentos o frases donde n es el umbral de frecuencia dado.

Secuencia Maximal Secuencia de palabras que no esté contenida en ninguna secuencia más

larga.

Page 50: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 50

Respondiendo a una pregunta

supuesto dopaje por consumo de efedrina de la estrella de la selecciónargentina

nada agradable" la actitud del capitán de la selección Argentinaefedrina de la estrella de la selección argentina la selección argentina de fútbolcapitán de la selección argentinafutbolista argentino presunto dopaje por consumo de efedrina de la estrella de la selección

argentinadirigente del club Bolívar Walter Zuleta anunció hoy la visita a La Paz del

capitánde la selección argentina de fútbol :la selección argentina de fútbol capitán de la selecciónequipo albicelestecapitán de la selección argentina de fútbolastro argentinoex capitán de la selección argentina de fútbol

argentinocapitán de la selección argentina de fútbol dopaje por consumo de efedrina de la estrella de la selección argentina

Question ¿quién es Diego Armando Maradona?

Concept Descriptions(25 occurrences)

Candidate answers (word sequences; σ = 3)

Ranked answers

0.136 capitán de la selección argentina de fútbol0.133 dopaje por consumo de efedrina de la estrella de la selección

argentina 0.018 Argentino

Pro

cess

of

answ

er e

xtra

ctio

n

supuesto dopaje por consumo de efedrina de la estrella de la selecciónargentina

nada agradable" la actitud del capitán de la selección Argentinaefedrina de la estrella de la selección argentina la selección argentina de fútbolcapitán de la selección argentinafutbolista argentino presunto dopaje por consumo de efedrina de la estrella de la selección

argentinadirigente del club Bolívar Walter Zuleta anunció hoy la visita a La Paz del

capitánde la selección argentina de fútbol :la selección argentina de fútbol capitán de la selecciónequipo albicelestecapitán de la selección argentina de fútbolastro argentinoex capitán de la selección argentina de fútbol

argentinocapitán de la selección argentina de fútbol dopaje por consumo de efedrina de la estrella de la selección argentina

Question ¿quién es Diego Armando Maradona?

Concept Descriptions(25 occurrences)

Candidate answers (word sequences; σ = 3)

Ranked answers

0.136 capitán de la selección argentina de fútbol0.133 dopaje por consumo de efedrina de la estrella de la selección

argentina 0.018 Argentino

Pro

cess

of

answ

er e

xtra

ctio

n

Page 51: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 51

Sobre el descubrimiento de patrones

QuestionType

SeedDefinitions

CollectedSnippets

MaximalFrequentSequences

SurfaceDefinitionPatterns

Positions 10 6523 875 78

Acronym 10 10526 1504 122

Position related patterns Acronym related patterns

El <DESCRIPTION>, <CONCEPT>, hadel <DESCRIPTION>, <CONCEPT>.

El ex <DESCRIPTION>, <CONCEPT>,por el <DESCRIPTION>, <CONCEPT>.El <DESCRIPTION>, <CONCEPT>, se

del <DESCRIPTION> (<CONCEPT>).que la <DESCRIPTION> (<CONCEPT>)de la <DESCRIPTION> (<CONCEPT>) en del <DESCRIPTION> (<CONCEPT>) yen el <DESCRIPTION> (<CONCEPT>)

Page 52: Los diccionarios como fuente de conocimiento Lexicografía Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales,

Laboratorio de Tecnologías del Lenguaje 52

Resultados sobre el CLEF 05

Answer Selection

QuestionType

MoreFrequentSequence

HighestRanking

Score

Positions 64% 88%

Acronym 80% 80%

Total 72% 84%