integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo...
TRANSCRIPT
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Analizador sintáctico probabilístico con clasi�cación
de argumentos de verbo para el idioma español.
John Alexander Vargas
Escuela de Ingeniería de Sistemas y Computación
Facultad de Ingeniería
Universidad del Valle
Trabajo de Investigación, 2015
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Agenda
1 Introducción
2 Marco TeóricoAnálisis Sintáctico Probabilístico
Modelo de CollinsImplementación de BikelEl corpus Ancora
Clasi�cador de Argumentos de verbo
3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Planteamiento del problema
Problema General
¾Cómo mejorar el nivel de precisión en el análisis sintácticoprobabilístico para el idioma español?
Problema Especí�co
¾Cómo puedo integrar un clasi�cador semántico de argumentos deverbo en un analizador sintáctico probabilístico para mejorar supuntaje de precisión?
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Planteamiento del problema
Problema General
¾Cómo mejorar el nivel de precisión en el análisis sintácticoprobabilístico para el idioma español?
Problema Especí�co
¾Cómo puedo integrar un clasi�cador semántico de argumentos deverbo en un analizador sintáctico probabilístico para mejorar supuntaje de precisión?
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Outline
1 Introducción
2 Marco TeóricoAnálisis Sintáctico Probabilístico
Modelo de CollinsImplementación de BikelEl corpus Ancora
Clasi�cador de Argumentos de verbo
3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Análisis Sintáctico
Tarea principal
Encontrar un algoritmo que reciba como entrada una frase escritaen lenguaje natural y retorne como salida la estructura sintácticaque esta basada en una gramática previamente establecida. Estaestructura sintáctica se encuentra representada en un árbol deestructura de frase.
Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Análisis Sintáctico
Tarea principal
Encontrar un algoritmo que reciba como entrada una frase escritaen lenguaje natural y retorne como salida la estructura sintácticaque esta basada en una gramática previamente establecida. Estaestructura sintáctica se encuentra representada en un árbol deestructura de frase.
Depende la correcta comprensión del mensaje escrito, que es labase de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Ejemplo
Ejemplo de una gramática libre de contexto y de un árbol sintáctico
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn
es p(t) = ∏ni=1 q(αi → βi )
where q(α → β ) es la probabilidad de la regla α → β
S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglasα1→ β1,α2→ β2, . . . ,αn→ βn
es p(t) = ∏ni=1 q(αi → βi )
where q(α → β ) es la probabilidad de la regla α → β
S → NPVP 1,0NP → Sust 0,4NP → Det Sust 0,3VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática
De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática
De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentenciawi : i-ésima palabra de la sentenciaN: El conjunto de no terminales de la gramáticaS : El símbolo inicial de la gramática
De�ne una tabla de programación dinámicaπ[i , j , X ] = máxima probabilidad de un constituyente conno-terminal X que abarca las palabras i . . . j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S ]
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
El algoritmo CKY
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Modelos de análisis de Collins
Tres modelos generativos lexicalizados propuestos por MichaelCollins
Modelo 1: Modelo generativo con cabezas lexicalizadas.
Modelo 2: Modelo 1 + distinción de complementos/adjuntos ysubcategorización.
Modelo 3: Modelo 2 + traza del movimiento de lanúcleo-cabeza.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Modelo básico
Lo primero que se nota en cada regla de una PCFGlexicalizada es la forma
P(h)→ Ln(ln) . . .L1(l1)H(h)R1(r1) . . .Rm(rm)
H es el núcleo sintáctico de la frase, el cuál hereda lapalabra-núcleo h, de su padre P .
L1 . . .Ln y R1 . . .Rm son modi�cadores de izquierda y derechadel núcleo H.
Tanto n como m pueden ser cero, Si n = m = 0, son reglasunarias.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Generación del modelo
La generación de RHS de cada regla, dada el LHS, ha sidodescompuesta en tres pasos:
1 Generación de la etiqueta del núcleo constituyente de la frase,con probabilidad PH(H|P,h).
2 Generación de modi�cadores a la izquierda del núcleo conprobabilidad ∏i=1...n+1PL(Li (li )|P,h,H), dondeLn+1(ln+1) = STOP . El símbolo STOP es adicionado alvocabulario de no-terminales, y el modelo para generandomodi�cadores a la izquierda donde ha sido generado.
3 Generación de modi�cadores a la derecha del núcleo conprobabilidad ∏i=1...n+1PR(Ri (ri )|P,h,H), Rm+1(rm+1) esde�nida como STOP.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))
Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadasen la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl(Li (li ) |H, P, h, L1(l1) . . .Li−1(li−1)) =Pl(Li (li ) |H, P, h, ∆l(i −1))
Pr (Ri (ri ) |H, P, h, R1(r1) . . .Ri−1(ri−1)) =Pl(Ri (ri ) |H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Modelo 2: Clasi�cación de modi�cadores
Añadir un su�jo "C" a los no terminales en los datos deentrenamiento para los que:
El no terminal es un NP, SBAR, o S cuyo padre es una S, unaNP, SBAR, S, o el vicepresidente cuyo padre es unvicepresidente, o un S cuyo padre es un SBAR.La no-terminal no debe tener una de las etiquetas semánticas:ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP.
También marque el primer hijo después de una cabeza PP comocomplemento
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Marcos de subcategorización
De�ne un marco de subcategorización como una bolsa deno-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)
Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )
Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Marcos de subcategorización
De�ne un marco de subcategorización como una bolsa deno-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)
Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )
Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Marcos de subcategorización
De�ne un marco de subcategorización como una bolsa deno-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo yderecho con probabilidades Plc(LC |P,H,h) y Prc(RC |P,H,h)
Genera los modi�cadores del lado derecho con probabilidadPr (Ri (ri )|H,P,h,∆r (i −1),RC )
Genera los modi�cadores del lado izquierdo con probabilidadPl(Li (li )|H,P,h,∆r (i −1),LC )
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.
Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos denúcleos sintácticos adicionando una característica de diferencia(brecha) para cada no-terminal en el árbol y propagando estasdiferencias a través de los árboles hasta que �nalmentedescargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de losmodi�cadores de la izquierda o derecha del núcleo, odescargando como un agrumento de traza a la izquierda oderecha del núcleo.
Se especi�ca un parámetro PG (G |P,h,H) donde G es otroHead, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Trabajo de Bikel
Dan Bikel construye un motor de análisis sintácticomulti-lenguaje con la capacidad de instanciar una granvariedad de modelos analizadores probabilisticos.
Como modelo línea base apropiado se escoje instanciar losparámetros del modelo 2 de Collins.
Bikel identi�có once pasos de preprocesamiento necesariospara preparar los árboles de entrenamiento cuando se usa elmodelo de análisis de Collins.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.
Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán(AnCOra-CA) y español (AnCOra-ES) con diferentes nivelesde anotación.
Cada corpus contiene 500.000 palabras que han sidoconstruidas de manera incremental a través de trabajos previoscomo el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados coninformación morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento parasistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados conconstituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Información del corpus usada para el entrenamiento del
analizador
Árbol sintáctico completo anotado con constituyentes.John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Funciones sintácticas
Sujeto -SUJObjeto directo -CDObjeto indirecto -CI
Atributo -ATRComplemento predicativo -CPREDComplemento preposicional -CREG
Complemento agente -CAGComplemento adverbial -CC
Complemento advervial (locativo) -CCLComplemento adverbial (temporal) -CCT
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Outline
1 Introducción
2 Marco TeóricoAnálisis Sintáctico Probabilístico
Modelo de CollinsImplementación de BikelEl corpus Ancora
Clasi�cador de Argumentos de verbo
3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Argumentos verbales
Los argumentos son expresiones lingüísticas exigidassemánticamente por el núcleo.
Los verbos tienen dos tipos básicos de argumentos:
Complementos: Necesarios para el verbo.Adjuntos (circunstancial): Son complementos no exigidos porel verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Características para la implementación del SVM
Estas características son extraídas de los árboles de entrenamientopara poder generar los archivos de entrenamiento del SVM. Y seextraen de los subarboles que van a ser unidos mediante elalgoritmo CKY.
Posición del núcleo: Posición del núcleo sintáctico contandodesde 1, de izquierda a derecha.
Codicación de etiqueta: Asignación de codi�cación binariapara las etiquetas del nodo raíz.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Características para la implementación del SVM
Estas características son extraídas de los árboles de entrenamientopara poder generar los archivos de entrenamiento del SVM. Y seextraen de los subarboles que van a ser unidos mediante elalgoritmo CKY.
Posición del núcleo: Posición del núcleo sintáctico contandodesde 1, de izquierda a derecha.
Codicación de etiqueta: Asignación de codi�cación binariapara las etiquetas del nodo raíz.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Características para la implementación del SVM
Aridad: Número de hijos del nodo padre. Se re�ere a laanchura del segundo nivel del árbol.
Anchura: Número de nodos hojas. Se re�ere al número depalabras que conforman el constituyente sintáctico.
Longitud: Cantidad de nodos desde la raíz hasta la hoja máslejana.
Distancia: Número de palabras entre el nodo constituyentemodi�cador y el verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
libSVM: una implementación de SVM
Implementa los tipos de entrenamiento y núcleos mascomunes.
Permite clasi�cación multiclase.
Implementa el procedimiento para realizar validación cruzada
Métodos para obtener máquinas que proporcionen además laprobabilidad de la clasi�cación.
Incluye técnicas para reducir el coste de la constante C .
Implementaciones en C++ y JAVA.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Análisis Sintáctico ProbabilísticoClasi�cador de Argumentos de verbo
Parametrización de libSVM
Se usa un kernel gausiano (RBF) con γ = 2−7
Parámetro de costo C = 32
Se usa la técnica de validación cruzada para a�nar el conjuntode características.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Integración clasi�cador - analizador
Outline
1 Introducción
2 Marco TeóricoAnálisis Sintáctico Probabilístico
Modelo de CollinsImplementación de BikelEl corpus Ancora
Clasi�cador de Argumentos de verbo
3 Análisis sintáctico con clasi�cación de argumentosIntegración clasi�cador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Integración clasi�cador - analizador
Integración clasi�cador - analizador
Para usar el clasi�cador de argumentos como parte del proceso deanálisis se realizaron dos modi�caciones:
Se usa la información suministrada por el corpus Ancora paralos verbos, y crear las subcategorizaciones de los verbos.
Se modi�ca el algoritmo de unión de items que hace parte delCKY en la implementación de Bikel para veri�car losargumentos de verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Integración clasi�cador - analizador
Información semántica de Ancora sobre los verbos
Ancora presenta dos lexicones verbales a gran escala para elespañol y el catalán que sirven de base para la anotaciónsemántica con argumentos y roles temáticos del corpus.
Contiene un total de 1965 verbos diferentes correspondientes a500.000 palabras contenidas en el corpus.
Se aplica el mismo principio del modelo 2 de Collins,obteniendo la bolsa de subcategorización a partir de lainformación proporcionada por los lexicones verbales delcorpus.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Integración clasi�cador - analizador
Modi�cación
En el agoritmo CKY, más precisamente en el método de uniónde items, se clasi�ca el item modi�cador, cuando el itemmodi�cado se trata de un verbo.
Si la clasi�cación del item se encuentra dentro de las posiblessubcategorizaciones del verbo, entonces se aumenta laprobabilidad de selección.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Integración clasi�cador - analizador
Modi�cación joinItems
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Integración clasi�cador - analizador
Procesos Fase de Entrenamiento
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Integración clasi�cador - analizador
Procesos Fase de Decodi�cación
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.
Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.
Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.
Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.
Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.
Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.
Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en elmodelo de Collins y el algoritmo de Bikel entrenado con elcorpus Ancora para el idioma español.
Obtenemos un clasi�cador semántico de argumentos verbalesusando máquinas de vectores de soporte entrenado con elcorpus Ancora para el idioma español.
Aplicación del clasi�cador semántico en el analizador sintácticoprobabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Conclusiones
Encontramos que adicionando un clasi�cador de argumentosde verbo, para ayudar en el razonamiento probabilístico desubcategorización, no aporta una mejora en la precisión delárbol sintáctico obtenido.
Se obtiene un analizador sintáctico probabilístico que clasi�cacomplementos y ajduntos entre los argumentos verbales. Yesto permite obtener una estructura básica sin
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Conclusiones
Encontramos que adicionando un clasi�cador de argumentosde verbo, para ayudar en el razonamiento probabilístico desubcategorización, no aporta una mejora en la precisión delárbol sintáctico obtenido.
Se obtiene un analizador sintáctico probabilístico que clasi�cacomplementos y ajduntos entre los argumentos verbales. Yesto permite obtener una estructura básica sin
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Referencias
Daniel M. Bikel. On the Parameter Space of GenerativeLexicalized Statistical Parsing Models. PhD thesis,Philadelphia, PA, USA, 2004. AAI3152016.
Michael Collins. Head-driven statistical models for naturallanguage parsing. Comput. Linguist., 29(4):589�637, December2003.
LIBSVM: A Library for Support Vector Machines. Chih-ChungChang and Chih-Jen Lin. 2001
Support Vector Learning for Semantic Argument Classi�cation.SAMEER PRADHAN, KADRI HACIOGLU. 2005
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Referencias
Using Machine-Learning to Assign Function Labels to ParserOutput for Spanish. Grzegorz Chrupaªa1 and Josef vanGenabith. 2004
LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).GUSTAVO A. BETANCOURT. 2005
Miguel A. Alonso Carlos Gómez Jesús Vilares. AnálisisSintáctico. 2010
Natural Language Processing:Statistical Parsing. Raymond J.Mooney
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.
IntroducciónMarco Teórico
Análisis sintáctico con clasi�cación de argumentosResultados
Referencias
Maria Antònia Martí, Mariona Taulé, Manu Bertran y LluísMàrquez. AnCora: Multilingual and Multilevel Annotated
Corpora. 2007
Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008)'AnCora-Verb: A Lexical Resource for the Semantic Annotationof Corpora'. Proceedings of 6th International Conference onLanguage Resources and Evaluation. Marrakesh (Morocco).
John Alexander Vargas Analizador sintáctico probabilístico con clasi�cación de argumentos de verbo para el idioma español.