los diccionarios como fuente de conocimiento lexicografía luis villaseñor pineda laboratorio de...
TRANSCRIPT
Los diccionarios como fuente de conocimiento
Lexicografía
Luis Villaseñor Pineda
Laboratorio de Tecnologías del LenguajeCoordinación de Ciencias Computacionales,
Instituto Nacional de Astrofísica, Óptica y Electrónica
Laboratorio de Tecnologías del Lenguaje 2
Contenido
¿Qué es un diccionario? ¿Qué es una definición? Relaciones semánticas entre palabras Descubriendo semi-automáticamente
relaciones entre palabras
Laboratorio de Tecnologías del Lenguaje 3
¿Qué es un diccionario?
Diccionario: libro en el que se recogen y explican de forma ordenada voces de una o más lenguas, de una ciencia o de una materia determinada.
Lexicón = diccionario
Lexicografía: parte de la lingüística que se ocupa de los principios teóricos en que se basa la composición de diccionarios.
Laboratorio de Tecnologías del Lenguaje 4
¿Para qué la lexicografía?
Dos aspectos nos interesan computacionalmente
Reestructuración y explotación de diccionarios humanos para propósitos computacionales
Uso de técnicas computacionales para compilar nuevos diccionarios
Laboratorio de Tecnologías del Lenguaje 5
Lexicografía
Definición: Atendiendo a su cometido práctico, la lexicografía se ha venido
definiendo como el arte o la técnica de componer léxicos o diccionarios.
A diferenciar de Lexicología su contraparte, en el plano teórico, encargada del estudio
científico del léxico.
Laboratorio de Tecnologías del Lenguaje 6
Léxico
Léxico y vocabulario son intercambiables, sin embargo: Léxico – se reserva para aludir al conjunto de clases abiertas
portadoras de significado mientras vocabulario se aplica a las clases cerradas, puesto que no se puede hacer una descripción lingüística sin que se reduzcan las clases abiertas a cerradas. Clases abiertas: nombres, verbos, adjetivos, adverbios se definen por
intensión Clases cerradas: pronombres, artículos, conjunciones y preposiciones se
definen por extensión.
Laboratorio de Tecnologías del Lenguaje 7
Léxico - Vocabulario
El léxico estaría en la Lengua – el vocabulario en el Habla
El vocabulario es la puesta en uso de un determinado número de unidades léxicas por un grupo o un individuo. El vocabulario de una persona, con sus rasgos específicos, sería
su idiolecto Y el de un grupo regional, profesional o social, su dialecto
Laboratorio de Tecnologías del Lenguaje 8
Léxico - Vocabulario
El léxico, como clase abierta, está enriqueciéndose constantemente por medio de la creatividad que el uso imprime al lenguaje.
Este enriquecimiento produce tensiones que se manifiestan en vacilaciones, oscilaciones e inestabilidad, especialmente cuando aparece un nuevo término y desplaza a otro.
Laboratorio de Tecnologías del Lenguaje 9
Construyendo un diccionario
Los lexicógrafos recopilan los usos de las palabras y crean las explicaciones de su uso. Raíces de la palabra Contexto Tipo de fuente
Dos enfoques: Un erudito o grupo de eruditos dictan el significado y por ende el
uso correcto de las palabras El estudio del uso de las palabras a través de corpus fijan su
significado
Laboratorio de Tecnologías del Lenguaje 10
¿Qué es una definición?
Andrés Manuel López Obrador Ser humano Tabasqueño Padre de familia Ex-jefe de gobierno
Luchador de los derechos sociales Próximo presidente de México Desaforado injustamente
Proposición que expone con claridad y exactitud los caracteres genérico y diferenciales de algo material o inmaterial. Defecto. Carencia de alguna cualidad propia de algo
Laboratorio de Tecnologías del Lenguaje 11
Un lexicón computacional ¿Qué deseamos incluir en un lexicón
computacional? Su definición Su(s) significado(s) El uso de una palabra (sus colocaciones o co-ocurrencias con
otras palabras) Sinónimos, Antónimos En general su relación semántica con otras palabras
Cómo usamos una palabra y cómo se relaciona con otras palabras (tesauro – tesoro)
Laboratorio de Tecnologías del Lenguaje 12
Relaciones semánticas
Ontología. Parte de la metafísica que trata del ser en general y de sus propiedades trascendentales.
Por un abuso del vocablo: Descripción del objeto a partir de sus propiedades Propiedades o relaciones con otras palabras
Laboratorio de Tecnologías del Lenguaje 13
Relaciones semánticas
SinonimiaLos sinónimos son palabras con distinto significante, pero un
significado común. (p. e. extraer y sacar) Polisemia
Es al contrario que la sinonimia. A un significante le corresponden varios significados.
/Gato/: animal felino, herramienta. Antonimia.
Consiste en una oposición de significados. (alto/bajo, comprar/vender.)
Laboratorio de Tecnologías del Lenguaje 14
Relaciones semánticas
Hiperonimiaun hiperónimo es el término cuyo significado comprende a otro grupo
de términos. A éstos últimos se les llama hipónimos. Hiperónimo: Árbol. Hipónimos: Olivo, Roble, Castaño...
Laboratorio de Tecnologías del Lenguaje 15
Relaciones semánticas
Meronimia Un merónimo es el nombre atribuido a un constituyente que forma
parte de, que es substancia de o que es miembro de algo. Meronimia es lo opuesto a la holonimia.
X es merónimo de Y si X forma parte de Y. X es merónimo de Y si X es una sustancia de Y. X es merónimo de Y si X es un miembro de Y.
'azul' es merónimo de 'color'. 'Doctor' es merónimo de 'oficio'. 'auto' es un holónimo de 'llanta'.
Laboratorio de Tecnologías del Lenguaje
Ejemplos
Laboratorio de Tecnologías del Lenguaje 17
WordNet
tomado de:
Climent S. (1999) Individuación e información Parte-Todo. Representación para el procesamiento computacional del lenguaje. Estudios de Lingüística Española (ELiEs).
http://elies.rediris.es/elies8/
Laboratorio de Tecnologías del Lenguaje 18
WordNet Sistema de referencia combinando un diccionario, un tesauro
con el potencial de una base de datos ontológica. WordNet en desarrollo desde los años 80 bajo la dirección
del psicolingüista George Miller en la Universidad de Princeton.
La última versión hecha pública es WordNet 1.5, la cual consta de 126.000 entradas categorías abiertas: nombres (70%), adjetivos (15%), verbos (10%) y
adverbios (5%). categorías cerradas (preposiciones, conjunciones, etc.) no se representan
en WordNet
Laboratorio de Tecnologías del Lenguaje 19
WordNet
En WordNet un concepto se define por el conjunto de formas léxicas que sirven para representarlo en el lenguaje.
Se utiliza una noción débil de sinonimia: la sinonimia en contexto dos unidades léxicas son sinónimas si la sustitución de una por la otra no
produce en ningún caso alteración del valor de verdad de la proposición en la que aparecen.
Esto no es cierto, generalmente, bajo la noción tradicional de sinonimia. La unidad básica en la que se estructura WordNet es el synset
o conjunto de sinónimos
Laboratorio de Tecnologías del Lenguaje 20
WordNet
Las 126.000 entradas = 91.000 conceptos o synsets. el nombre board, traducible según su sentido por 'tabla', 'mesa'
(en su sentido de 'manjar') o 'consejo' aparece en los siguientes synsets:
(1) {board , plank} 'tabla', 'plancha' (2) {board} 'consejo' (3) {board, table} 'mesa', 'manjar'
lo cual debe interpretarse como que board-1 es sinónimo de plank; y board-3 sinónimo de table.
Laboratorio de Tecnologías del Lenguaje 21
WordNet
El synset no es una unidad explícitamente explicativa de la entidad del concepto, tan sólo es indicativo de la existencia del mismo.
El significado en WordNet es diferencial: el significado de un concepto viene dado por contraposición al del resto de conceptos de la base de datos.
Laboratorio de Tecnologías del Lenguaje 22
Ejemplo
El significado de cada sentido de board puede ser deducido en principio a la vista de sus hiperónimos directos, {lumber,timber}('maderaje'), {committee} ('comité') y {fare} ('alimentos'):
(1) {board , plank} (a stout length of sawn timber; made in a wide variety of sizes and used...) HIPERÓNIMO ® {lumber, timber}
(2) {board}(a committee having supervisory powers; "the board has seven members")
HIPERÓNIMO ® {committee} (3) {board, table} (food or meals in general; "she sets a fine table"; "room and board")
HIPERÓNIMO ® {fare}
Laboratorio de Tecnologías del Lenguaje 23
Alcance de una ontología
Es prácticamente imposible construir una ontología “global” Dependiente del dominio Del idioma De su aplicación
Laboratorio de Tecnologías del Lenguaje 24
En resumen
“Todo intento de establecer una descripción estructural de un vocabulario parece destinada al fracaso así que todo queda reducido a una lexicografía o la simple enumeración de fenómenos inestables mal definidos.” (Hjelmskev, 1959)
Laboratorio de Tecnologías del Lenguaje 25
Su uso, no su estructura Sin embargo, si admitimos que una lengua es un sistema, es
necesario considerar el léxico como un conjunto donde sus elementos se relacionan, así como la existencia de subconjuntos ligados los unos a los otros por diferentes relaciones.
Dos enfoques: Lingüístico: la estructura es inherente a la lengua Psicológico: la estructuración del locutor
Así el estudio del léxico puede apoyarse sobre su uso y no sobre su estructura
Laboratorio de Tecnologías del Lenguaje 26
La lexicometría
Serie de métodos que permiten la reorganización de la secuencia textual y los análisis estadísticos sobre el vocabulario.
Laboratorio de Tecnologías del Lenguaje 27
Antes de contar hay que saber que contar
Una serie de caracteres delimitados por dos caracteres delimitadores es una ocurrencia.
Dos secuencias idénticas constituyen dos ocurrencias de una misma forma gráfica
Los signos de puntuación: El guión puede ser el signo de menos, la ruptura de una palabra en
sílabas o una palabra compuesta El punto puede ser un punto final, un punto decimal o un punto en una
abreviatura. El uso de mayúsculas Precaución con las palabras acentuadas
Laboratorio de Tecnologías del Lenguaje 28
Conceptos básicos El conjunto de formas gráficas es el vocabulario (formas
léxicas)
El número total de ocurrencias en un texto es su tamaño
Estas nociones son la base para el cálculo de riqueza de vocabulario Tamaño del vocabulario entre el tamaño del documento
Laboratorio de Tecnologías del Lenguaje 29
Riqueza del vocabulario Una forma gráfica con frecuencia de 1 es llamada “hapax”
En número total de hapax nos da una idea de la riqueza del vocabulario
Dividir el tamaño del vocabulario entre el tamaño del documento Problema: depende de la longitud del texto Razón D: D = Σr r(r-1)Vr /T(T-1) donde Vr es el número de formas distintas
apareciendo exactamente r veces en el texto
Laboratorio de Tecnologías del Lenguaje 30
La ley de Zipf“La mayor parte de las palabras tienen una frecuencia muy baja, mientras
que tan sólo algunas son muy abundantes”
Si medimos las frecuencias de las palabras de una obra de un buen escritor cuyo vocabulario activo sea de, digamos, unas 100 000 palabras, las palabras que ocupan los primeros 10 lugares en la lista llenan alrededor de 25% del texto.
Si lo medimos en un texto en el que se usara una décima parte de aquel vocabulario (unas 10 000 palabras), como el de un periódico, el porcentaje apenas crece a 30%.
Esto se debe principalmente a que el escritor no podría evitar el uso de palabras como "de", "el", "y", "a", etc., las que generalmente ocupan los primeros rangos en cualquier texto.
Laboratorio de Tecnologías del Lenguaje 31
La ley de Zipf
Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F
El número de orden de cada palabra es su rango, R
R F Palabras / Descriptores
1 36 WATER
2 25 SURFACTANTS
3 22 NONIONIC-SURFACTANTS
4 21 SYSTEMS
5 19 AQUEOUS-SOLUTIONS
6 15 MICELLIZATION
VOCABULARIO ORDENADO POR FRECUENCIAS
kRF frecuencia (F) por el rango
(R) igual a constante (k)
Laboratorio de Tecnologías del Lenguaje 32
La ley de Zipf
0
5
10
15
20
25
30
35
40
45
0 200 400 600
Rango, R
Fre
cuen
cia,
F
Laboratorio de Tecnologías del Lenguaje 33
Ajuste de la ley de Zipf
1
10
100
1 10 100 1000
Rango, R
Fre
cuen
cia,
F
RmkF lnlnln
Laboratorio de Tecnologías del Lenguaje 34
Punto de transición
Se trata de una región crítica en la que ocurre la transición de las palabras de alta frecuencia y las palabras de baja frecuencia. Las palabras frecuentes son palabras vacías (arriba del punto de
transición) Las palabras inusuales son expresiones personales dependientes
del autor Las palabras en esta región crítica son las palabras que
representan/capturan el tema del documento
Laboratorio de Tecnologías del Lenguaje 35
Punto de transición
Cálculo del punto de transición [Urbizagastegui-Alvarado, 1999] :
Donde I1 es el número de palabras con frecuencia 1
Laboratorio de Tecnologías del Lenguaje 36
Clasificando documentos por estilo
Proponer un método para la clasificación de textos considerando el estilo de redacción
Objetivos Específicos Determinar los atributos adecuados para la clasificación de
textos por estilo de redacción. Determinar cual es la mejor configuración si se usan varios
clasificadores. Aplicar el método propuesto en la clasificación de textos
orientados a niños en educación básica
Laboratorio de Tecnologías del Lenguaje 37
Corpus utilizados Corpus Cuentos
Corpus Poemas
Corpus Poetas
Corpus Desastres
Poeta Instancias Vocabulario
Octavio Paz 1914 - 1998 75 13.031Rosario Castellanos 1925 - 1974 80 12,156Rubén Bonifaz Nuño 1923 - 70 12,890Jaime Sabines 1926 - 1999 80 12.885Efraín Huerta 1914 - 1982 48 12.423
Cuentos Instancias Vocabulario
Infantiles 87 39,365Adultos 45 121,812
Poemas Instancias Vocabulario
Infantiles 85 10,889Adultos 83 9,978
Desastres Instancias Vocabulario
Forestal 92 27,494Huracan 76 26,097Inundación 87 27,086Sequía 41 13,056Sismo 143 33,413
Laboratorio de Tecnologías del Lenguaje 38
Experimentos
Temático usando Corpus Desastres (5 clases). Estilo usando Corpus Cuentos Adultos, Poetas y Desastres
(3 clases). Autoría usando Corpus Poetas (5 clases).
Caracterizando: Todas las palabras con excepción de palabras vacías (método tradicional) Con únicamente palabras vacías Todas las palabras incluyendo las palabras vacías Con medidas lexicométricas
Laboratorio de Tecnologías del Lenguaje 39
Medidas lexicográficas usadas Promedio de palabras por oración
Número de palabras / Número de oraciones Desviación estándar del promedio Relación entre la cantidad de oraciones y palabras
Número de oraciones / Número de palabras Número de oraciones / Tamaño del vocabulario
Riqueza del vocabulario Número de palabras / tamaño del vocabulario
Hapax con respecto al vocabulario Número de Hapax / Tamaño del vocabulario
Palabras en mayúsculas (entidades nombradas) (Número de palabras con mayúscula inicial – Número de oraciones) / Número de
oraciones Tamaño promedio de las palabras
Total de caracteres / Número de palabras
Laboratorio de Tecnologías del Lenguaje 40
Al clasificar por temas (5 clases)
Palabras (sin palabras vacías)Atributos 12,038
95.2164%
IG > 0 566 Atributos
sólo palabras vacíasAtributos 193
55.1253%
IG > 0 56 Atributos
todas las palabrasAtributos 12,231
95.4442%
IG > 0 618 Atributos
medidas lexicográficasAtributos 10
25.5320%
IG > 0 1 Atributos
Laboratorio de Tecnologías del Lenguaje 41
Al clasificar por autoría (5 clases)
Palabras (sin palabras vacías)Atributos 9,909
70.5382%
IG > 0 158 Atributos
sólo palabras vacíasAtributos 224
56.3739%
IG > 0 50 Atributos
todas las palabrasAtributos 10,133
71.1048%
IG > 0 213 Atributos
medidas lexicográficasAtributos 10
25.0000%
IG > 0 8 Atributos
Laboratorio de Tecnologías del Lenguaje 42
Al clasificar por estilo (3 clases)
Palabras (sin palabras vacías)Atributos 22,166
97.9661%
IG > 0 2,958 Atributos
sólo palabras vacíasAtributos 212
90.5085%
IG > 0 180 Atributos
todas las palabrasAtributos 22,242
98.8136%
IG > 0 3,036 Atributos
medidas lexicográficasAtributos 10
92.7800%
IG > 0 10 Atributos
Laboratorio de Tecnologías del Lenguaje 43
Paréntesis sobre las medidas de evaluación
Precisión
Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance)
F-mesure
alcanceprecisión
alcancepresiciónF
2
21
Laboratorio de Tecnologías del Lenguaje 44
Otro vistazo a los resultados
Laboratorio de Tecnologías del Lenguaje 45
Creando catálogos específicos
Problema: Responder preguntas de definición “sencillas”
¿Quién es Vicente Fox? ¿Qué es PRI?
Solución: Crear catálogos a partir de patrones léxicos superficiales 1er paso – descubrir los patrones léxicos superficiales específicos para una
relación semántica (definición) 2do paso – aplicar los patrones a una colección de documentos específica 3er paso – dada la pregunta buscar evidencia para responder con la mayor
precisión posible
Laboratorio de Tecnologías del Lenguaje 46
Creando catálogos específicos
WEBDefinitionSearching
Definitioninstances
PatternMining
DefinitionPatters
CatalogConstruction
DefinitionCatalog
DescriptionFiltering
ConceptDescriptions
PatternMining
DocumentCollection
Seeddefinitions
Question Answer
Pat
tern
Dis
cove
ry
An
swer
Ext
rac
tio
n
WEBDefinitionSearching
DefinitioninstancesDefinitioninstances
PatternMining
DefinitionPatters
CatalogConstruction
DefinitionCatalog
DefinitionCatalog
DescriptionFiltering
ConceptDescriptions
PatternMining
DocumentCollection
Seeddefinitions
Question Answer
Pat
tern
Dis
cove
ry
An
swer
Ext
rac
tio
n
Laboratorio de Tecnologías del Lenguaje 47
Descubriendo los patrones
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
Laboratorio de Tecnologías del Lenguaje 48
Descubriendo los patrones
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
Wolfgang Clement Ministro Alemán de Economía y Trabajo:Vicente Fox presidente de México
... Por otra parte, el ministro alemán de Economía y Trabajo,Wolfgang Clement, dijo tras la reunión -en la que se abordaronasuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el Ministro alemán de Economíay Trabajo, Wolfgang Clement. :… deportistas ganadores, el presidente de México, Vicente Fox,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el presidente de México,Vicente Fox.
, el <DESCRIPTION>, <CONCEPT>, dijoy el <DESCRIPTION>, <CONCEPT>.
Seed pairs
Definition instances
Normalized instances
Surface definition pattern
Pro
cess
of
pat
tern
dis
cove
ry
... Por otra parte, el <DESCRIPTION>, <CONCEPT>, dijo tras lareunión -en la que se abordaron asuntos como la competencia entre ... ... con Michel Barnier y otras personalidades, como el Alcaldede Leipzig, Wolfgang Tiefensee, y el <DESCRIPTION>, <CONCEPT>. :… deportistas ganadores, el <DESCRIPTION>, <CONCEPT>,dijo a los jugadores, cuerpo técnico y ...… reunion entre el mandatario cubano y el <DESCRIPTION>,<CONCEPT>.
No es trivial determinar las semillas
Laboratorio de Tecnologías del Lenguaje 49
¿Qué es una secuencia frecuente maximal?
Secuencia Frecuente Una Secuencia se considera frecuente si aparece por lo menos en n
documentos o frases donde n es el umbral de frecuencia dado.
Secuencia Maximal Secuencia de palabras que no esté contenida en ninguna secuencia más
larga.
Laboratorio de Tecnologías del Lenguaje 50
Respondiendo a una pregunta
supuesto dopaje por consumo de efedrina de la estrella de la selecciónargentina
nada agradable" la actitud del capitán de la selección Argentinaefedrina de la estrella de la selección argentina la selección argentina de fútbolcapitán de la selección argentinafutbolista argentino presunto dopaje por consumo de efedrina de la estrella de la selección
argentinadirigente del club Bolívar Walter Zuleta anunció hoy la visita a La Paz del
capitánde la selección argentina de fútbol :la selección argentina de fútbol capitán de la selecciónequipo albicelestecapitán de la selección argentina de fútbolastro argentinoex capitán de la selección argentina de fútbol
argentinocapitán de la selección argentina de fútbol dopaje por consumo de efedrina de la estrella de la selección argentina
Question ¿quién es Diego Armando Maradona?
Concept Descriptions(25 occurrences)
Candidate answers (word sequences; σ = 3)
Ranked answers
0.136 capitán de la selección argentina de fútbol0.133 dopaje por consumo de efedrina de la estrella de la selección
argentina 0.018 Argentino
Pro
cess
of
answ
er e
xtra
ctio
n
supuesto dopaje por consumo de efedrina de la estrella de la selecciónargentina
nada agradable" la actitud del capitán de la selección Argentinaefedrina de la estrella de la selección argentina la selección argentina de fútbolcapitán de la selección argentinafutbolista argentino presunto dopaje por consumo de efedrina de la estrella de la selección
argentinadirigente del club Bolívar Walter Zuleta anunció hoy la visita a La Paz del
capitánde la selección argentina de fútbol :la selección argentina de fútbol capitán de la selecciónequipo albicelestecapitán de la selección argentina de fútbolastro argentinoex capitán de la selección argentina de fútbol
argentinocapitán de la selección argentina de fútbol dopaje por consumo de efedrina de la estrella de la selección argentina
Question ¿quién es Diego Armando Maradona?
Concept Descriptions(25 occurrences)
Candidate answers (word sequences; σ = 3)
Ranked answers
0.136 capitán de la selección argentina de fútbol0.133 dopaje por consumo de efedrina de la estrella de la selección
argentina 0.018 Argentino
Pro
cess
of
answ
er e
xtra
ctio
n
Laboratorio de Tecnologías del Lenguaje 51
Sobre el descubrimiento de patrones
QuestionType
SeedDefinitions
CollectedSnippets
MaximalFrequentSequences
SurfaceDefinitionPatterns
Positions 10 6523 875 78
Acronym 10 10526 1504 122
Position related patterns Acronym related patterns
El <DESCRIPTION>, <CONCEPT>, hadel <DESCRIPTION>, <CONCEPT>.
El ex <DESCRIPTION>, <CONCEPT>,por el <DESCRIPTION>, <CONCEPT>.El <DESCRIPTION>, <CONCEPT>, se
del <DESCRIPTION> (<CONCEPT>).que la <DESCRIPTION> (<CONCEPT>)de la <DESCRIPTION> (<CONCEPT>) en del <DESCRIPTION> (<CONCEPT>) yen el <DESCRIPTION> (<CONCEPT>)
Laboratorio de Tecnologías del Lenguaje 52
Resultados sobre el CLEF 05
Answer Selection
QuestionType
MoreFrequentSequence
HighestRanking
Score
Positions 64% 88%
Acronym 80% 80%
Total 72% 84%