fonaments de processament del llenguatge natural lingüística - upf

N.Bel - FPLN

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL

Lingüística - UPF

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL

Lingüística - UPF

[email protected]

Classe 8

mailto:[email protected]





N.Bel - FPLN

El programaEl programa

2. Les paraulesIdentificació d’unitats, els mots. Autòmats i expressions regulars

Categories lèxiques i categories funcionals. Propietats estadístiques, morfològiques i semàntica lèxica

Compostos i col·locacions. Mesures d’associació lèxica

Morfemes i analitzadors morfològics. Transductors d’estats finits i morfologia de doble nivell

N.Bel - FPLN

Resum del tema 2Resum del tema 2

Tasques / problemes – identificació unitats:

el mot– processament de

diferents característiques quantitatives, morfològiques i semàntiques

– compostos i col·locacions

Tècniques de processament:simbòliques– expressions regulars– autòmats– transductors d’estats

finitsprobabilístiques– mesures

d’associació lèxica

N.Bel - FPLN

Tot seguint el programaTot seguint el programa

Hem parlat de les unitats que volíem reconèixer, i de les tècniques usades per identificar-les i assignar una representació.

Ara parlarem de cadenes d’unitats: seqüències de paraules o ítems i del seu processament:- per a què?- com?

N.Bel - FPLN

El programaEl programa

3. Cadenes de paraules i Models de llenguatge

Seqüències i models de n-grames.

Etiquetatge i Models de llenguatge. Categories, etiquetes, desambiguació basada en regles, estocàstica i Cadenes de Markov.

N.Bel - FPLN

R E C O R D A T O R I R E C O R D A T O R I

Hem vist característiques quantitatives:– Paraules i la seva freqüència– Paraules que surten juntes amb més

freqüència que el que seria esperable (Informació Mútua)

N.Bel - FPLN

Model per distribució de les paraulesModel per distribució de les paraules

Volem caracteritzar (modelar) la distribució dels elements d’una llengua: podem processar (identificar i afegir informació) llenguatge si sabem com apareixen els elements? Tindrem capacitat de predicció?exemple de seqüències de lletres

• eq• eg• el -a

-e-i

N.Bel - FPLN

Model 1Model 1

Totes les paraules tenen la mateixa probabilitat de sortir, però apareixeran segons la seva freqüència d’aparició normal– ‘el’ FR: 0,0380 – ‘arterial’ FR: 0,00092

Però, si ja tenim una paraula.... ens interessa la probabilitat que té de sortir una paraula donada la paraula anterior:– donada la paraula “pressió” qui té més

probabilitat de sortir immediatament després: “el” o “arterial”

N.Bel - FPLN

Probabilitat condicionadaProbabilitat condicionada

P(A|B) = La probabilitat de què havent-se donat B, A també es doni o sigui veritat

P(el|pressió) P(arterial|pressió)Com saber-ho?– primer mirem casos i computem la

probabilitat (entrenament)– usem la informació per preveure casos no

vistos (usem la probabilitat per la seva capacitat predictiva)

N.Bel - FPLN

Ho mirarem al corpus de l’IULA: secció medicina

Ho mirarem al corpus de l’IULA: secció medicina

Llengua dels documents: Castellà

Àmbits temàtics seleccionats: Medicina

Nombre de paraules : 4.402.980

Quantitat de documents: 401

Nombre de ocurrències de “presión”: 1812

“presión arterial” 280 / 1812 = 0,154

“presión el” 1 = 0,0005

(vivir bajo presión el stress)

N.Bel - FPLN

Bigrames (2-grames)Assumpció de MarkovBigrames (2-grames)

Assumpció de Markov

I per seqüències de n paraules?Usarem la probabilitat condicionada també per a tota una seqüència

la probabilitat que té una paraula, donada tota una seqüència de paraules anteriors, serà la probabilitat d’una paraula donada l’anterior, i així successivament.

P(wn|wn-1) En Markov assumeix que amb dos elements ja podem anar calculant la probabilitat d’una cadena de qualsevol llargada (amb un error assumible...)

N.Bel - FPLN

Autòmats amb pesos i Cadena de Markov

Autòmats amb pesos i Cadena de Markov

Usarem un autòmat d’estats finits amb pesos: cada arc està associat a una probabilitat de transició a un altre.

Una cadena de Markov és un cas especial d’autòmat d’estats finits amb pesos

pressió el

0,0005 %

arterial

0,1%

N.Bel - FPLN

Model de llenguatgeModel de llenguatge

Model de llenguatge: Una representació probabilística de la distribució de paraules en un corpus que caracteritza les propietats distribucionals d’una llengua

Modelar-ho com un autòmat ens permet representar/formular seqüències ordenades i afegir informació estadística

Si la informació estadística la convertim en probabilitat (valors entre 0 i 1) podem aplicar-ho a seqüències mai vistes: capacitat predictiva

N.Bel - FPLN

Consideracions chomskyanesConsideracions chomskyanes

En els models basats en l’observació de dades què passa si no s’ha vist una seqüència?

És perillós tenir un P(x)=0 perquè fem el producte

Tècnicament, la solució és fer “smoothing”

Res no garanteix que funcioni sempre correctament, però funcionarà bé per als casos més freqüents, és a dir, per la majoria dels casos.

L’error és petit. És assumible? Dependrà de l’aplicació

N.Bel - FPLN

La tècnica de bigrames s’aplica a La tècnica de bigrames s’aplica a

La probabilitat de que a una forma x li segueixi la forma y

De que a un article li segueixi un nom

De que a un article femení singular li segueixi un N femení singular

De que a un SN li segueixi un SV

De que a un subjecte li segueixi un predicat ...

N.Bel - FPLN

Model de llenguatge Model de llenguatge

Tasques / problemes– reconeixement de la

parla – reconeixement

d’escriptura– OCR– escriptura predictiva– desambiguació

automàtica (‘PoS tagging’)

– pre-processament

Tècniques de processament probabilístiques– probabilitat

condicionada (Bigrames o Trigrames)

– Models ocults de Markov

N.Bel - FPLN

Una aplicació en detall: Etiquetar textosUna aplicació en detall: Etiquetar textos

Hem vist els analitzadors morfològics: anàlisis per a assignar una possible representació de la informació no explícita que la paraula du: lema e informació morfosintàctica,

però per a formes com “abono” ens donarà 2 resultats

N.Bel - FPLN

Assignació automàtica d’etiquetesPart of Speech Tagging

Assignació automàtica d’etiquetesPart of Speech Tagging

assignació automàtica d’etiquetes (PoS tagging): es el procés de assignar una categoria o marcador de classe lèxica a cada paraula d’un corpus:– abono abono|Ncms– abono abonar|Vmip1s

L’input d’un etiquetador és una cadena de paraules i el conjunt de etiquetes que volem assignar.

N.Bel - FPLN

El problemaEl problema

Accés al diccionari i formes homògrafes: casos de ambigüitat:

TAGS: 216

AMBIGUOUS TAGS: 268

N.Bel - FPLN

Tècniques per a ‘PoS tagging’Tècniques per a ‘PoS tagging’

sistemes basats en tècniques estadístiques (Model Ocult de Markov, seria un exemple) sistemes basats en regles simbòliques arquitectures híbrides (regles i estadística) com el de Brill (1992) que està basat en regles que determinen quan una paraula ambigua ha de tenir una etiqueta determinada. Però aquestes regles s’indueixen automàticament a partir d’un corpus d’entrenament.

N.Bel - FPLN

Etiquetament basat en reglesEtiquetament basat en regles

els primers sistemes d’etiquetat automàtic (Harris 1962, Klein & Simmons, 1963, Greene & Rubin 1973).

Primer es busquen les paraules en un diccionari on se’ls assignen totes les possibles categories, i després s’aplica un component de regles per anar eliminant algunes fins reduir-ho a una

N.Bel - FPLN

Basat en regles, “Constraint Grammars”Basat en regles, “Constraint Grammars”

Voutilainen (1995) usa la mateixa arquitectura de l’ENGTWOL però amb el lèxic i les regles més sofisticades http://www.lingsoft.fi/cgi-bin/engtwol En un primer estadi cada paraula es passa per un transductor lèxic de dos nivells. Desprès s’aplica un conjunt de “restriccions” (constraints) que usats de forma negativa eliminen els casos de possible ambigüitat

N.Bel - FPLN

Regles de restriccions (1100)Regles de restriccions (1100)

that – Conjunció / ADV intensificador

Given input: that

if

(+1 A/ADV/QUANT); /* si la próxima palabra es adj, adv o /* cuantificador

(+2 SENT-LIM); /* y la siguiente un límite de frase

(NOT – 1 SVOC/A); /* y la palabra anterior no es un verbo /* que admita

/* complementos adjetivos

then elimina las etiquetas que no sean ADV

else elimina la etiqueta ADV

N.Bel - FPLN

RTAG – Expressions regularsPorta, Marimon, Bel (1994)

RTAG – Expressions regularsPorta, Marimon, Bel (1994)

/ (i)- Contexts promoting articles:

// Following unambiguous prepositions or unambiguous verbs (or any ambiguity between them) or 'entre' or unambiguous infinitives

@ PostPrepVfinVinf_Td

&{@@PREP || @@V_FIN}& || &{@@V_INF}& <

< @@ART_DEF >

N.Bel - FPLN

Predicció probabilísticaModel ocult de Markov (HMM)

Predicció probabilísticaModel ocult de Markov (HMM)

La predicció de la categoria es basa en un model de n-grames i estableix un Model del llenguatge: una representació probabilística de la distribució de categories en el texthttp://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/Per a una seqüència de paraules, els etiquetadors HMM seleccionen la seqüència d’etiquetes que té el valor màxim segons la següent fòrmula:

P(paraula|etiqueta) * P(etiqueta|n etiquetes anteriors)

N.Bel - FPLN

Sistemes híbrids: l’etiquetador de BrillSistemes híbrids: l’etiquetador de Brill

Aprenentatge automàtic (Machine Learning) Brill (1992) http://research.microsoft.com/~brill/

TBL té regles que especifiquen quines etiquetes haurien d’assignar-se a quines paraules, i una tècnica d’aprenentatge automàtic en el que les regles s’indueixen automàticament a partir de les dades.

N.Bel - FPLN

Brill: 2 etapes Brill: 2 etapes

1. l’etiquetador assigna l’etiqueta més probable a cada paraula, que ha obtingut a partir d’un corpus ja etiquetat

2. passa a les regles de transformació. Conforme es van aplicant, l’etiquetador aprèn les regles que corregeixen els errors comesos en el pas anterior comparant les etiquetes (i contextos) que té en el corpus ja etiquetat.

fonaments de processament del llenguatge natural lingüística - upf

Documents