adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 ·...

62
Adquisici´ on de conocimiento usando t´ ecnicas de procesamiento de texto y red sem´ antica Sesi´ on 2: Parsing Dra. Olivia S´ anchez Graillet 7 de marzo de 2012 Dra. Olivia S´ anchez Graillet (IIMAS) Seminario de Divulgaci´ on 7 de marzo de 2012 1 / 62

Upload: others

Post on 17-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Adquisicion de conocimiento usando tecnicas deprocesamiento de texto y red semantica

Sesion 2: Parsing

Dra. Olivia Sanchez Graillet

7 de marzo de 2012

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 1 / 62

Page 2: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Temas

Parsing con CFG (Gramaticas libres de contexto)

Parsers con CFG probabilıstica

Parsing con programacion dinamica

Parsing con DG (Gramaticas de dependencias)

Shallow parsers

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 2 / 62

Page 3: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Objetivos del analisis sintactico

Para un entendimiento profundo

Identificacion de TERMINOS (e.g., en IR)

En adquisicion lexica, para identificar RELACIONESGRAMATICALES

Para revision de gramatica

Para generacion de texto

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 3 / 62

Page 4: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsing con CFG

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 4 / 62

Page 5: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

CFG

La DERIVACION de una cadena es una secuencia de aplicaciones dereglas

Ejemplo: la cadena “a flight” se puede derivar de la gramaticaanterior y el sımbolo NP por la derivacion:NP ⇒ Det Nominal ⇒ a Nominal ⇒ a Noun⇒ a flight

Las derivaciones se pueden visualizar como arboles de parseo (PARSETREES)

Los lenguajes definidos por CFGs son conjuntos de cadenas derivadasdel sımbolo de inicio S (Sentence: oracion)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 5 / 62

Page 6: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

CFG

Una CFG es una cuadrupla < N,Σ,P, S > que consiste en:

un conjunto de sımbolos no-terminales N

un conjunto de sımbolos terminales Σ

un conjunto de producciones PI A −→ αI A es un non-terminalI α es una cadena de sımbolos del conjunto infinito de cadenas (Σ ∪N)∗I S es el sımbolo inicial

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 6 / 62

Page 7: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Significado de “Libre de contexto”

El sımbolo no-terminal del lado izquierdo de la regla no depende denada mas

A −→ BCSe puede escribir A como BC sin importar el contexto en el que seencuentra A

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 7 / 62

Page 8: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsing con CFG

Parsing es el proceso de reconocer y asignar una ESTRUCTURA

Analizar una cadena con una CFG

Encontrar la derivacion de la cadena consistente con la gramatica

La derivacion da un arbol de parseo (PARSE TREE)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 8 / 62

Page 9: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 9 / 62

Page 10: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsing visto como busqueda

Como en el caso de expresiones regulares no-determinısticas, elproblema principal con parsing es la existencia de PUNTOS deELECCION

Se necesita una extrategia de busqueda que determine el orden en elque se consideran las alternativas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 10 / 62

Page 11: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Estrategias de busqueda Top-down y Bottom-up

TOP-DOWN: trata de construir arboles de parseo desde el sımbolo deinicio S hacia abajo (a las hojas) de acuerdo a la gramatica. Tipo deparseo EXPECTATION-DRIVEN

BOTTOM-UP: genera arboles de parseo a partir de las palabras de laoracion de entrada hacia arriba, aplicando las reglas de la gramatica.Tipo de parseo DATA-DRIVEN

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 11 / 62

Page 12: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de busqueda Top-Down (en paralelo)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 12 / 62

Page 13: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de busqueda Bottom-up

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 13 / 62

Page 14: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Top-down vs Bottom-up

TOP-DOWN:

No pierde tiempo buscando en arboles que no empiezan en S

Pierde tiempo en arboles que no son consistentes con la entrada

Sufre de recursion a la izquierda (left-recursion)

BOTTOM-UP:

Desperdicia tiempo y recursos en arboles que no llegan a S

Forma arboles consistentes con la entrada

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 14 / 62

Page 15: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Busqueda no-en-paralelo

Cuando no es posible examinar todas las alternativas en paralelo (e.g.cantidad de memoria insuficiente), se consideran otras alternativas:

1 Que nodo en el espacio de busqueda se expande primero

2 Que regla gramatical aplicable se expande primero

3 Que nodo hoja en un arbol de parseo se expande a continuacion

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 15 / 62

Page 16: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsing Top-down, Depth-first, Left-to-right

1 Depth-first: cuando el arbol explorado es inconsistente con lagramatica, se regresa al ultimo arbol generado no explorado

2 Las regla gramaticales aplicables se expanden de acuerdo a su ordentextual en la gramatica definida

3 Left-most: el nodo hoja mas a la izquierda no expandido del arbolexplorado, se expande primero

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 16 / 62

Page 17: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo Top-down, Depth-first, Left-to-right (1)

Does this flight include a meal?

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 17 / 62

Page 18: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Top-down, Depth-first, Left-to-right (2)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 18 / 62

Page 19: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Top-down, Depth-first, Left-to-right (3)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 19 / 62

Page 20: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Top-down, Depth-first, Left-to-right (4)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 20 / 62

Page 21: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Problemas en parseo

Ambiguedad

Analizar mas de una vez (reparsing)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 21 / 62

Page 22: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ambiguedades estructurales comunes

Ambiguedad en COORDINACIONI old (men and women)I (old men) and women

Ambiguedad en COLOCACION (ATTACHMENT)I Ambiguedad en la colocacion del gerundio VP

I saw the Eiffel Tower flying to Paris

I Ambiguedad en la colocacion de PPI shot an elephant in my pajamas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 22 / 62

Page 23: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ambiguedad en colocacion (PP)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 23 / 62

Page 24: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Reparsing

Ejemplo: Analizar con un parser top-down la NP:A flight from Indianapolis to Houston on TWA

Con la gramatica:I NP ⇒ Det NominalI NP ⇒ NP PPI NP ⇒ ProperNoun

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 24 / 62

Page 25: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Reparsing (2)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 25 / 62

Page 26: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Soluciones al problema de ambiguedad

Parsers estadısticos

Uso de semantica

Programacion dinamica

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 26 / 62

Page 27: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Gramatica libre de contexto probabilıstica (PCFG)

PCFG se define como < N,Σ,P, S ,D >

D es una funcion que agrega una probabilidad condicional a cadaregla en P: A→ β[p]

D expresa la probabilidad p de que un sımbolo no-terminal A seaexpandido a la secuencia β: P(A→ β|A)

Esto es la probabilidad condicional de una expansion dado elno-terminal A

Todas las posibles expansiones de un no-terminal deben sumar 1

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 27 / 62

Page 28: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo PCFG

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 28 / 62

Page 29: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

PCFG

La probabilidad de un parseo T es el producto de las probabilidadesde todas las reglas r usadas para expandir cada nodo n en el arbol deparseo:

P(T ,S) =∏n∈T

p(r(n))

Se escoge el parseo con la probabilidad mas alta: el mejor arbol parala oracion S del conjunto de arboles de parseo para S

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 29 / 62

Page 30: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo arboles PCFG

“astronomers saw stars with ears”

http://www.mpi-inf.mpg.de/departments/d5/teaching/ss11/ie/slides/dat_ba_nguyen.pdf

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 30 / 62

Page 31: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

PCFG: creacion de probabilidades

Se puede extraer una gramatica de un treebank comprimiendo losarboles de estructuras de frases con elementos etiquetados, junto coninformacion estadıstica asociada para eliminar la ambiguedad delanalisis

Para obtener una PCFG:I se crea una regla para cada arbol en el treebankI se estima la probabilidad de cada regla directamente del treebank:

F se acumula el conteo de la frecuencia para cada reglaF al final, se normalizan los conteos de forma que cada conjunto de reglas

con la misma categorıa a la izquierda sumen 1

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 31 / 62

Page 32: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Desventajas de PCFG

PCFG ignora la influencia del contexto sintactico y la seleccion depalabras

En Ingles, prevalecen mas las estructuras sintacticas en las ramasderechas que en las ramas izquierdas, pero PCFG no puede capturaresto mediante probabilidades

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 32 / 62

Page 33: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Desventajas de PCFG (2)

Por ejemplo, no puede modelar el hecho de que en

“There was some change in the order”

La PP “in the order” modifica a “some change”, mientras que en

“There was some change in the afternoon”

Una PP parecida (solo con una palabra diferente) modifica al verboprincipal

La probabilidad asociada a cada regla se estima independientementede las demas, dando como resultando que pequenas variantes de unamisma regla tengan probabilidades muy diferentes debido a la pocacantidad de datos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 33 / 62

Page 34: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsing con programacion dinamica

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 34 / 62

Page 35: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Programacion dinamica (PD)

PD divide un problema en sub-problemas que almacena en una tabla

En parseo, se almacenan sub-arboles por cada componente encontrado

Parser con PD: Cocke-Younger-Kasami (CYK),Graham-Harrison-Ruzzo (GHR) y Earley

Un parser T-D estandar reanalizarıa 4 veces “A FLIGHT”, siempre dela misma manera

Un algoritmo de PD usa una tabla (CHART) para evitar repetir eltrabajo

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 35 / 62

Page 36: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Algoritmo de Earley

No sufre del problema de recursion a la izquierda (left-recursion)

Resuelve un problema exponencial en O(n3)

Resuelve reparsing

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 36 / 62

Page 37: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Chart

El algoritmo de Earley usa una tabla (chart) de tamano N+1, dondeN es la longitud de la entrada (secuencia de palabras)

Por cada posicion de la palabra en la oracion, hay una lista deESTADOS representando los arboles de parseo parciales generados

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 37 / 62

Page 38: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Estados

Un estado incluye dos clases de informacion: cuanto de cierta regla seha encontrado en la entrada y que posiciones estan cubiertasA −→ α, [X ,Y ]

Un estado contiene:I Un sub-arbol correspondiente a la regla gramaticalI informacion sobre el progresoI posicion del sub-arbol en la entrada

en la regla gramatical del estado se usa un punto que indica elprogreso del reconocimiento de la regla

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 38 / 62

Page 39: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Representacion grafica del chart

reglas de puntoVP −→ V NP•NP −→ DET • NominalS −→ •VP

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 39 / 62

Page 40: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Algoritmo

El algoritmo sigue ciclos a traves de la entrada sin backtracking, encada paso realiza tres operaciones:

I PREDICTOR: crea estados en el chart que representan prediccionesT-D

I COMPLETER: Mueve el punto a la derecha cuando se encuentra elcomponenete buscado

I SCANNER: lee la siguiente palabra (con POS tag) de la entrada

El parser termina satisfactoriamente si la entrada N+1 del chartcontiene el estado S −→ α•, [0,N]

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 40 / 62

Page 41: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de chart

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 41 / 62

Page 42: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de chart (1)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 42 / 62

Page 43: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de chart (2)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 43 / 62

Page 44: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de chart (3)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 44 / 62

Page 45: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de chart (4)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 45 / 62

Page 46: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsing con DG

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 46 / 62

Page 47: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Gramatica de Dependencias (DG)

Se basa en la informacion sobre dependencias lexicas

Los componentes y las reglas de estructura de frases no sonfundamentales

La estructura sintactica de la oracion se describe unicamente enterminos de palabras y de relaciones binarias semanticas o sintacticasentre estas palabras

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 47 / 62

Page 48: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parser con DG

Un parser DG tiene la forma de un conjunto de ligas con direccionentre palabras

Cada liga generalmente esta etiquetada con la funcion gramatical(por ejemplo, sujeto u objecto) que relaciona al dependiente con sugobernante

Un parseo de dependencias no agrupa las palabras en frases ni lasfrases jerarquicamente en arboles, sino que contiene relaciones entrepares de palabras

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 48 / 62

Page 49: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parser con DG (2)

Las DGs pueden ser mas apropiadas para PLN que las gramaticas deestructuras de frases en ciertos casos:

En idiomas independientes del orden de las palabras en el cual laforma de expresar los argumentos de un predicado puede variar (e.g.Checo)

El analisis puede contener aspectos importantes de la estructurapredicado-argumento sin necesidad de conocer la estructura jerarquicade las frases

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 49 / 62

Page 50: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parser con DG (3)

Para algunos fenomenos gramaticales se requieren dependenciasno-descriptivas (con ligas cruzadas), que no se pueden representar conarboles de estructuras de frases

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 50 / 62

Page 51: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parser con DG (4)Hay una correspondencia directa entre el analisis de dependencias“descriptivo” y el analisis de estructuras de componentes, cuando seconoce informacion sobre:

I el “filtrado de los encabezados” (head percolation)I las equivalencias entre estructuras de frases y funciones gramaticales

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 51 / 62

Page 52: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parser con DG (5)

Algunos parsers utilizan la correspondenica entre la dependenciasdescriptivas y los arboles de estructuras de frases, obteniendointernamente arboles de estructuras de frases y convirtiendolos aparsers de dependencias

Ejemplos de este tipo de parsers son: Alpino, C&C, RASP, Stanford, yXLE

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 52 / 62

Page 53: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Gramatica de ligas (Link Grammar LG)

En LG, cada palabra tiene asociada un conjunto de posibles tipos deligas, marcadas con la direccion en la que el gobernante/dependientedebe encontrarse

I was: SUBJ- & OBJ+I some: MOD+I change: MOD- & OBJ-

Cuando se realiza el parsing, todas las posibles ligaduras se exploran:

Los gobernantes no se distinguen de los dependientes (las ligas notienen dieccion)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 53 / 62

Page 54: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Gramatica de dependencias funcionales (FDG)

Se etiqueta cada palabra con todos los posibles tipos de funciones

Se aplican reglas que introducen ligas entre tipos especıficos dentrode un contexto dado, y/o quitando otros tipos de funciones. E.g.

(@w =s0 (@SUBJ) (*–1 +FMAINV *R) (NOT *R CLB)(La palabra no es sujeto si el verbo principal esta a la izquierda y nohay lımites de la clausula)

was @+FMAINVsome @ADJ>change ——–@SUB @OBJ

opcionalmente se aplican reglas heurısticas para quitar las ligas menosprobables

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 54 / 62

Page 55: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsers parciales

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 55 / 62

Page 56: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsers parciales (shallow parsers o chunkers)

Identifican los componentes (e.g. NP, VB, VP), pero noespecıficamente su estructura interna ni su papel en la oracionprincipal

Algunas tareas de PLN no requieren de parsers completos (e.g. losalgoritmos IR solo extraen la suficiente informacion del texto parallenar un tipo de plantilla)

Los parsers parciales utilizan cascadas de FSA en lugar de gramaticascomplejas (deep grammars)

Usar FSAs hace que los PP sean muy eficientes

Los sistemas de estado finito no pueden modelar ciertos tipos dereglas recursivas, lo que provoca que los PPs no cubran ciertos casos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 56 / 62

Page 57: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Chunkers

Los chunkers se usan para detectar entidades en textos

Segmentan y etiquetan secuencias de tokens

Los pedazos (chunks) producidos no se traslapan

Metodos usados: n-grams, expresiones regulares, machine-learning

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 57 / 62

Page 58: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Ejemplo de NLTK chunker

http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 58 / 62

Page 59: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

¿Parsers completos o parciales?

Parsers completos (deep grammar) son mas apropiados cuando:I es importante obtener una interpretacion precisaI se requiere un procesamiento semantico completoI la variedad de expresiones linguısticas es mayor que la cantidad de

datos de entrenamiento disponibleI la calidad de los resultados es facilmente comparada con un estandar

humano

Parsers parciales:I no se necesita conocer la estructura sintactica: e.g.: IE, reconocimiento

de entidades

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 59 / 62

Page 60: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Parsers (sw libre)

Charniak-Johnson parser:http://bllip.cs.brown.edu/resources.shtml

Link Grammar parser: http://www.link.cs.cmu.edu/link/

MaltParser (multilingual): http://maltparser.org/

MINIPAR:http://webdocs.cs.ualberta.ca/~lindek/minipar.htm

MSTParser:http://www.ryanmcd.com/MSTParser/MSTParser.html

RASP: http://www.informatics.sussex.ac.uk/research/groups/nlp/rasp/

Stanford Parser:http://nlp.stanford.edu/software/lex-parser.shtml

Conexor parser (no gratuito): http://www.connexor.com/nlplib/

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 60 / 62

Page 61: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Chunkers

TreeTagger chunker: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

OpenNLP tools: http://sourceforge.net/apps/mediawiki/opennlp/index.php?title=Chunker

NLTK chunker: http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html

GATE tools: http://gate.ac.uk/

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 61 / 62

Page 62: Adquisición de conocimiento usando técnicas de procesamiento de texto y red ... · 2012-03-10 · Adquisici on de conocimiento usando t ecnicas de procesamiento de texto y red sem

Agradecimientos

Esta presentacion se inspiro y contiene algunos materiales de los cursos de:

Massimo Poesio: http://dces.essex.ac.uk/staff/poesio/

John Caroll: http://mitlab.hit.edu.cn/2011summerschool/related/parsing-John%20Carroll.pdf

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 7 de marzo de 2012 62 / 62