fonaments de processament del llenguatge natural lingüística - upf

31
N.Bel - FPLN FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF nuria .bel@ upf . edu Classe 8

Upload: keelty

Post on 14-Jan-2016

45 views

Category:

Documents


0 download

DESCRIPTION

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF. [email protected] Classe 8. El programa. 2. Les paraules Identificació d’unitats, els mots. Autòmats i expressions regulars - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL

Lingüística - UPF

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL

Lingüística - UPF

[email protected]

Classe 8

Page 2: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

El programaEl programa

2. Les paraulesIdentificació d’unitats, els mots. Autòmats i expressions regulars

Categories lèxiques i categories funcionals. Propietats estadístiques, morfològiques i semàntica lèxica

Compostos i col·locacions. Mesures d’associació lèxica

Morfemes i analitzadors morfològics. Transductors d’estats finits i morfologia de doble nivell

Page 3: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Resum del tema 2Resum del tema 2

Tasques / problemes – identificació unitats:

el mot– processament de

diferents característiques quantitatives, morfològiques i semàntiques

– compostos i col·locacions

Tècniques de processament:simbòliques– expressions regulars– autòmats– transductors d’estats

finitsprobabilístiques– mesures

d’associació lèxica

Page 4: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Tot seguint el programaTot seguint el programa

Hem parlat de les unitats que volíem reconèixer, i de les tècniques usades per identificar-les i assignar una representació.

Ara parlarem de cadenes d’unitats: seqüències de paraules o ítems i del seu processament:- per a què?- com?

Page 5: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

El programaEl programa

3.   Cadenes de paraules i Models de llenguatge

Seqüències i models de n-grames.

Etiquetatge i Models de llenguatge. Categories, etiquetes, desambiguació basada en regles, estocàstica i Cadenes de Markov.

Page 6: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

R E C O R D A T O R I R E C O R D A T O R I

Hem vist característiques quantitatives:– Paraules i la seva freqüència– Paraules que surten juntes amb més

freqüència que el que seria esperable (Informació Mútua)

Page 7: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Model per distribució de les paraulesModel per distribució de les paraules

Volem caracteritzar (modelar) la distribució dels elements d’una llengua: podem processar (identificar i afegir informació) llenguatge si sabem com apareixen els elements? Tindrem capacitat de predicció?exemple de seqüències de lletres

• eq• eg• el -a

-e-i

Page 8: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Model 1Model 1

Totes les paraules tenen la mateixa probabilitat de sortir, però apareixeran segons la seva freqüència d’aparició normal– ‘el’ FR: 0,0380 – ‘arterial’ FR: 0,00092

Però, si ja tenim una paraula.... ens interessa la probabilitat que té de sortir una paraula donada la paraula anterior:– donada la paraula “pressió” qui té més

probabilitat de sortir immediatament després: “el” o “arterial”

Page 9: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Probabilitat condicionadaProbabilitat condicionada

P(A|B) = La probabilitat de què havent-se donat B, A també es doni o sigui veritat

P(el|pressió) P(arterial|pressió)Com saber-ho?– primer mirem casos i computem la

probabilitat (entrenament)– usem la informació per preveure casos no

vistos (usem la probabilitat per la seva capacitat predictiva)

Page 10: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Ho mirarem al corpus de l’IULA: secció medicina

Ho mirarem al corpus de l’IULA: secció medicina

Llengua dels documents: Castellà

Àmbits temàtics seleccionats: Medicina

Nombre de paraules : 4.402.980

Quantitat de documents: 401

Nombre de ocurrències de “presión”: 1812

“presión arterial” 280 / 1812 = 0,154

“presión el” 1 = 0,0005

(vivir bajo presión el stress)

Page 11: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Bigrames (2-grames)Assumpció de MarkovBigrames (2-grames)

Assumpció de Markov

I per seqüències de n paraules?Usarem la probabilitat condicionada també per a tota una seqüència

la probabilitat que té una paraula, donada tota una seqüència de paraules anteriors, serà la probabilitat d’una paraula donada l’anterior, i així successivament.

P(wn|wn-1) En Markov assumeix que amb dos elements ja podem anar calculant la probabilitat d’una cadena de qualsevol llargada (amb un error assumible...)

Page 12: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Autòmats amb pesos i Cadena de Markov

Autòmats amb pesos i Cadena de Markov

Usarem un autòmat d’estats finits amb pesos: cada arc està associat a una probabilitat de transició a un altre.

Una cadena de Markov és un cas especial d’autòmat d’estats finits amb pesos

pressió el

0,0005 %

arterial

0,1%

Page 13: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Generalitzant a seqüències nGeneralitzant a seqüències n

Amb bigrames:

P(yo quiero comer comida china) =

P(yo|<s>) x P(quiero|yo) x P(comer|quiero)

x P(comida|comer) x P(china|comida)

Amb trigrames:– P(china| quiero comer)

Page 14: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Model de llenguatgeModel de llenguatge

Model de llenguatge: Una representació probabilística de la distribució de paraules en un corpus que caracteritza les propietats distribucionals d’una llengua

Modelar-ho com un autòmat ens permet representar/formular seqüències ordenades i afegir informació estadística

Si la informació estadística la convertim en probabilitat (valors entre 0 i 1) podem aplicar-ho a seqüències mai vistes: capacitat predictiva

Page 15: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Consideracions chomskyanesConsideracions chomskyanes

En els models basats en l’observació de dades què passa si no s’ha vist una seqüència?

És perillós tenir un P(x)=0 perquè fem el producte

Tècnicament, la solució és fer “smoothing”

Res no garanteix que funcioni sempre correctament, però funcionarà bé per als casos més freqüents, és a dir, per la majoria dels casos.

L’error és petit. És assumible? Dependrà de l’aplicació

Page 16: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

La tècnica de bigrames s’aplica a La tècnica de bigrames s’aplica a

La probabilitat de que a una forma x li segueixi la forma y

De que a un article li segueixi un nom

De que a un article femení singular li segueixi un N femení singular

De que a un SN li segueixi un SV

De que a un subjecte li segueixi un predicat ...

Page 17: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Model de llenguatge Model de llenguatge

Tasques / problemes– reconeixement de la

parla – reconeixement

d’escriptura– OCR– escriptura predictiva– desambiguació

automàtica (‘PoS tagging’)

– pre-processament

Tècniques de processament probabilístiques– probabilitat

condicionada (Bigrames o Trigrames)

– Models ocults de Markov

Page 18: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Una aplicació en detall: Etiquetar textosUna aplicació en detall: Etiquetar textos

Hem vist els analitzadors morfològics: anàlisis per a assignar una possible representació de la informació no explícita que la paraula du: lema e informació morfosintàctica,

però per a formes com “abono” ens donarà 2 resultats

Page 19: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Assignació automàtica d’etiquetesPart of Speech Tagging

Assignació automàtica d’etiquetesPart of Speech Tagging

assignació automàtica d’etiquetes (PoS tagging): es el procés de assignar una categoria o marcador de classe lèxica a cada paraula d’un corpus:– abono abono|Ncms– abono abonar|Vmip1s

L’input d’un etiquetador és una cadena de paraules i el conjunt de etiquetes que volem assignar.

Page 20: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

El problemaEl problema

Accés al diccionari i formes homògrafes: casos de ambigüitat:

TAGS: 216

AMBIGUOUS TAGS: 268

Page 21: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Exemples del castellàExemples del castellà

Present Ind.NCMS|VMIP1S: beso, beneficio, ...NCMS|VMIP3S: combate, programa, ...NCMS|VMIP3P: resumen (resumir)NCMP|VMIP2S: combates, programasNCFS|VMIP1S: mano (manar)NCFS|VMIP3S: alarma, ...NCFP|VMIP2S: alarmas, ...NCS|VMIP1S: modelo, radio, testimonioNCS|VMIP3S: espía, guardaNCP|VMIP2S: espías, guardas

- Imperfect Ind.NCFS|VMIIS: garantía (noun-garantir), valía (noun-valer)NCFP|VMII2S: garantías "

Page 22: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Més exemples .... 3 etiquetes possiblesMés exemples .... 3 etiquetes possibles

- AS|NCFS|VMSPS: clave, patente- AP|NCFP|VMSP2S: claves, patentes

- AS|NCS|VMSPS: doble

- AP|NCP|VMSP2S: dobles

- AS|NCMS|VMSPS: presente (presentar)

- AP|NCMP|VMSP2S: presentes

Page 23: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

L’ambigüitat de paraules molt freqüentsL’ambigüitat de paraules molt freqüents

329856 de185594 la PP3FSA|TDFS111163 el110557 que104692 en99854 y96862 los PP3MPA|TDMP83470 del82708 a76303 las PP3FPA|TDFP47312 se37247 por29874 para SP|VMIP3S|VMSPS (parar, parir)29310 un29134 o26173 no25945 una PI3FS|TIFS|VMSPS (unir)24477 sobre SP|NCMS|VMSPS (sobrar)

Page 24: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Tècniques per a ‘PoS tagging’Tècniques per a ‘PoS tagging’

sistemes basats en tècniques estadístiques (Model Ocult de Markov, seria un exemple) sistemes basats en regles simbòliques arquitectures híbrides (regles i estadística) com el de Brill (1992) que està basat en regles que determinen quan una paraula ambigua ha de tenir una etiqueta determinada. Però aquestes regles s’indueixen automàticament a partir d’un corpus d’entrenament.

Page 25: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Etiquetament basat en reglesEtiquetament basat en regles

els primers sistemes d’etiquetat automàtic (Harris 1962, Klein & Simmons, 1963, Greene & Rubin 1973).

Primer es busquen les paraules en un diccionari on se’ls assignen totes les possibles categories, i després s’aplica un component de regles per anar eliminant algunes fins reduir-ho a una

Page 26: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Basat en regles, “Constraint Grammars”Basat en regles, “Constraint Grammars”

Voutilainen (1995) usa la mateixa arquitectura de l’ENGTWOL però amb el lèxic i les regles més sofisticades http://www.lingsoft.fi/cgi-bin/engtwol En un primer estadi cada paraula es passa per un transductor lèxic de dos nivells. Desprès s’aplica un conjunt de “restriccions” (constraints) que usats de forma negativa eliminen els casos de possible ambigüitat

Page 27: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Regles de restriccions (1100)Regles de restriccions (1100)

that – Conjunció / ADV intensificador

 

Given input: that

if

(+1 A/ADV/QUANT); /* si la próxima palabra es adj, adv o /* cuantificador

(+2 SENT-LIM); /* y la siguiente un límite de frase

(NOT – 1 SVOC/A); /* y la palabra anterior no es un verbo /* que admita

/* complementos adjetivos

then elimina las etiquetas que no sean ADV

else elimina la etiqueta ADV

Page 28: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

RTAG – Expressions regularsPorta, Marimon, Bel (1994)

RTAG – Expressions regularsPorta, Marimon, Bel (1994)

/ (i)- Contexts promoting articles:

 

// Following unambiguous prepositions or unambiguous verbs (or any ambiguity between them) or 'entre' or unambiguous infinitives

 

@ PostPrepVfinVinf_Td

&{@@PREP || @@V_FIN}& || &{@@V_INF}& <

< @@ART_DEF >

Page 29: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Predicció probabilísticaModel ocult de Markov (HMM)

Predicció probabilísticaModel ocult de Markov (HMM)

La predicció de la categoria es basa en un model de n-grames i estableix un Model del llenguatge: una representació probabilística de la distribució de categories en el texthttp://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/Per a una seqüència de paraules, els etiquetadors HMM seleccionen la seqüència d’etiquetes que té el valor màxim segons la següent fòrmula:

P(paraula|etiqueta) * P(etiqueta|n etiquetes anteriors)

Page 30: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Sistemes híbrids: l’etiquetador de BrillSistemes híbrids: l’etiquetador de Brill

Aprenentatge automàtic (Machine Learning) Brill (1992) http://research.microsoft.com/~brill/

TBL té regles que especifiquen quines etiquetes haurien d’assignar-se a quines paraules, i una tècnica d’aprenentatge automàtic en el que les regles s’indueixen automàticament a partir de les dades.

Page 31: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL  Lingüística - UPF

N.Bel - FPLN

Brill: 2 etapes Brill: 2 etapes

1. l’etiquetador assigna l’etiqueta més probable a cada paraula, que ha obtingut a partir d’un corpus ja etiquetat

2. passa a les regles de transformació. Conforme es van aplicant, l’etiquetador aprèn les regles que corregeixen els errors comesos en el pas anterior comparant les etiquetes (i contextos) que té en el corpus ja etiquetat.