fonaments de processament del llenguatge natural 13305 – lingüística - upf

22
N.Bel - FPLN FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF nuria .bel@ upf . edu Classe 9

Upload: doane

Post on 17-Jan-2016

31 views

Category:

Documents


0 download

DESCRIPTION

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF. [email protected] Classe 9. Programa. Anàlisi sintàctica probabilística amb gramàtiques lliures de context. Anàlisi probabilística lexicalitzada. Recapitulem. Processament del Llenguatge Natural. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL

13305 – Lingüística - UPF

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL

13305 – Lingüística - UPF

[email protected]

Classe 9

Page 2: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

ProgramaPrograma

Anàlisi sintàctica probabilística amb gramàtiques lliures de context.

Anàlisi probabilística lexicalitzada.

Page 3: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

RecapitulemRecapitulem

Page 4: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Processament del Llenguatge NaturalProcessament del Llenguatge Natural

Processar es reconèixer elements i assignar-los una representació per tal de poder manipular-los i prendre decisions.Representació és informació explícita sobre l’ítem lingüísticI és necessària perquè:– els ítems lingüístics no tenen una única

interpretació. El sistema lingüístic està fonamentat en un principi d’economia: pocs elements poden fer diferents funcions i es produeix ambigüitat

– el sistema lingüístic és productiu: mai no podríem tenir un inventari de tots els ítems lingüístics

Page 5: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Gramàtiques i analitzadors Problemes pràctics

Gramàtiques i analitzadors Problemes pràctics

Les CFG i les gramàtiques d’unificació estan pensades per donar totes les representacions possibles, totes les interpretacions. – És indispensable? – És una bona estratègia pràctica?

No totes les aplicacions demanen una representació detallada: Traducció automàtica i Extracció d’Informació

Page 6: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Un cas pràcticExtracció d’informació

Un cas pràcticExtracció d’informació

Els sistemes d’extracció d’informació

“Analitzen text no restringit per extreure tipus específics d’informació. No pretenen més que identificar aquelles parts de cada document que contenen informació rellevant. La rellevància ve definida per l’aplicació i el domini, i s’han d’especificar a priori per desenvolupar el sistema”

Page 7: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Productes comercials d’extraccióProductes comercials d’extracció

El producte: http://www.netowl.com/products/extractor.htmAplicacions: http://www.netowl.com/solutions/litigation.html

Este producto fue uno de los pioneros en la aplicación de la tecnología de extracción de información. SRA empezó a comercializar la gama de productos de minería de textos en 1996, pero ya había estado trabajando con contratos para el Gobierno de los Estados Unidos desde principios de los noventa del siglo XX. Ha sido el mejor sistema en las evaluaciones realizadas por el NIST, en extracción de entidades con nombres, con una puntuación no igualada después por ningún otro sistema, y está también a la cabeza en la tecnología de extracción de relaciones y sucesos. Su principal cliente sigue siendo el Gobierno de los Estados Unidos, aunque también consta en su página web que tiene clientes en otros sectores, principalmente en el de servicios de valor añadido, por ejemplo Edgar Online People, servicios relacionados con una base de datos de personas y cargos que ocupan, o Thomson Gale™ empresa que comercializa información especializada.

Page 8: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Plataformes de gestió de documentacióPlataformes de gestió de documentació

http://www.xrce.xerox.com/competencies/cross-language/home.html

http://www.spss.com/lexiquest/lexiquest_mine.htm

Page 9: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Topic detection and TrackingTopic detection and Tracking

Otra de las herramientas que ha suscitado gran interés en el mundo de la extracción de información ha sido la identificación y seguimiento de asuntos (en inglés, Topic Detection and Tracking, abreviado TDT) en flujos de datos no segmentados, típicamente prensa hablada o escrita. El objetivo es identificar y hacer el seguimiento de historias o sucesos a lo largo de diferentes textos. Esto es, son herramientas con técnicas de extracción de información pero en las que la identificación de sucesos se extiende a lo largo de una serie de documentos, con lo que hay que identificar sucesos enlazados. La investigación más reciente está llevando las técnicas de TDT a aplicaciones concretas: seguimiento de noticias sobre descubrimientos científicos, asignación de autoría a ideas científicas, realizar análisis de

grabaciones de Call Centers, etc.

Page 10: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

MUMIS-DFKIwww.lt-demo.org

MUMIS-DFKIwww.lt-demo.org

Lübeck (dpa) - Die Lübecker Possehl-Gruppe, ein im Produktions-, Handel- und Dienstleistungsbereich tätiger Mischkonzern, hat 1994 den Umsatz kräftig um 17 Prozent auf rund 2,8 Milliarden DMgesteigert. In das neue Geschäftsjahr sei man ebenfalls

„mitSchwung“gestartet. Im 1. Halbjahr 1995 hätten sich die Umsätze des Konzernsim Vergleich zur Vorjahresperiode um fast 23 Prozent auf rund 1,3Milliarden erhöht.

type = turnover c-name = Possehl1 year = 1994 amount = 2.8e+9DM tendency= + diff = +17%

type = turnover c-name = Possehl1 year = 1995/1 amount = 1.3e+9DM tendency= + diff = +23%

Page 11: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

SRI-FASTUS Appelt & Israel (1997): Building information extraction systems.

www.ai.sri.com/~appelt/ie-tutorial

SRI-FASTUS Appelt & Israel (1997): Building information extraction systems.

www.ai.sri.com/~appelt/ie-tutorial

“San Salvador, 19 Apr 89 (ACAN-EFE) -- [TEXT] Salvadoran President-elect Alfredo Cristiani condemned the terrorist killing of Attorney General Roberto Garcia Alvarado and accused the Farabundo Marti National Liberation Front (FMLN) of the crime.

Garcia Alvarado, 56, was killed when a bomb placed by urban guerrillas on his vehicle exploded as it came to a halt at an intersection in downtown San Salvador.

Vice President-elect Francisco Merino said that when the attorney general's car stopped at a light on a street in downtown San Salvador, an individual placed a bomb on the roof of the armored vehicle.

According to the police and Garcia Alvarado's driver, who escaped unscathed, the attorney general was traveling with two bodyguards. One of them was injured.

Incident: Date - 19 Apr 89 Incident: Location El Salvador: San Salvador (CITY)Incident: Type Bombing Perpetrator: Individual ID "urban guerrillas“Perpetrator: Organization ID "FMLN“Perpetrator: Organization Suspected or Accused by Authorities: "FMLN" Confidence Physical Target: Description "vehicle“Physical Target: Effect Some Damage: "vehicle" Human Target: Name "Roberto Garcia Alvarado" Human Target: Description "attorney general": "Roberto Garcia Alvarado"

Page 12: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Tècniques pràctiques d’anàlisiShallow-Partial Parsing (Anàlisi parcial)

Tècniques pràctiques d’anàlisiShallow-Partial Parsing (Anàlisi parcial)

FASTUS, Appelt & Israel (1997) usen autòmats “en cascada” per reconèixer “grups”. Per exemple, un grup nominal està format pel nucli (N) i els modificadors a la esquerra.

“En cascada” es refereix a la tècnica d’aplicar autòmats que reconeixen diferents seqüències en forma de paquets que es passen un darrera de l’altre, i de forma iterativa.

Page 13: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Tècniques pràctiques d’anàlisiChunking (a pedaços)

Tècniques pràctiques d’anàlisiChunking (a pedaços)

També es parla de “Chunking” quan volem reconèixer porcions de text i agrupar-los per donar-li ja no tant una representació de la estructura, com una etiqueta. S’usen formalismes basats amb expressions regulars que defineixen patrons de cerca.El chunking també està relacionat amb el que se’n diu: Named Entity Recognition: podem reconèixer: dates, noms propis (de persones, empreses o de lloc), xifres, etc.

Page 14: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Exemples de patronsCandidats per apedaçar

Exemples de patronsCandidats per apedaçar

seis de junio de 19906-06-1990Del 1 de agosto al diez de septiembre.6º de temperatura.6ºC de temperatura.6º C de temperatura;un 40% de 40,000 personas.40.000 personas300 millones de euros300.000.000 de euros300 M€CC.OO.Mayor Oreja

Page 15: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Anàlisi probabilística per resoldre ambigüitat

Anàlisi probabilística per resoldre ambigüitat

És aplicar probabilitat per assignar una (i no més una) representació d’una expressió. Una gramàtica probabilística assigna solament l’anàlisi més probable (que serà la correcta en la major part dels casos). Redueix el problema d’eficiènciaUna gramàtica probabilística es construeix calculant les anàlisis més freqüents d’un corpus ja analitzat. Redueix el problema de desenvolupament.

Page 16: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Mètodes d’anàlisi probabilística (1)Mètodes d’anàlisi probabilística (1)

Augmentar una CFG amb informació probabilística (PCFG) (o també Stochastic Context Free Grammar (Booth 1969)).

En aquest model cada regla de la gramàtica s’augmenta amb informació de probabilitat condicionada.

A → β [p]

La probabilitat p de que donat un no-terminal A, aquest s’expandeixi en la seqüència β:

  P(A→ β) o P(A → β|A)

Page 17: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Mètodes d’anàlisi probabilística (2)Mètodes d’anàlisi probabilística (2)

La probabilitat d’una anàlisi determinada (una representació) es defineix com el producte de les probabilitats de totes les regles r que s’han aplicat per expandir cada nus n en l’arbre d’anàlisis.

  

P(Arbre,Oració) = Π p(r(n)) n ε T

La probabilitat resultant P(Arbre,Oració) es tant la probabilitat conjunta de l’anàlisi i de la oració, com també la probabilitat de l’anàlisi P(Arbre).

Page 18: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Mètodes d’anàlisi probabilística (3)Mètodes d’anàlisi probabilística (3)

Per desambiguar podem usar un algorisme que seleccioni el millor arbre per a una oració a partir del conjunt d’arbres.

Page 19: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Mètodes d’anàlisi probabilística (4)Mètodes d’anàlisi probabilística (4)

La manera més senzilla de calcular l’anàlisi més probable és observar un corpus ja analitzat.

“Treebank” són bancs d’anàlisis.

http://linc.cis.upenn.edu/~treebank/home.html

http://treebank.linguist.jussieu.fr/toc.html

TOTA la informació sobre Treebanks i maneres d’explotar-los, també amb informació sobre diferents llengües.

Sobre el Treebank en castellà, hi ha la informació del de Antonio Moreno Spanish UAM Treebank (corpus anotado sintácticamente del español).

http://www.lllf.uam.es/~sandoval/UAMTreebank.html

http://www.bultreebank.org/Proceedings.html

http://www.compapp.dcu.ie/~away/Treebank/treebank.html

Page 20: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Problemes de l’anàlisi probabilísticaProblemes de l’anàlisi probabilística

fan una assumpció d’independència entre les regles, però podem dir que l’expansió d’un nus depén del seu lloc a l’arbre:

exemple: el SN pre-verbal (subjecte) i post-verbal (objecte)

• SN N• SN Det N

en anglès, (Francis, 1999), la probabilitat de que un SN pron, quan és subjecte és del 91%.

Page 21: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

Problemes de l’anàlisi probabilística (2)Problemes de l’anàlisi probabilística (2)

No podem esbiaixar les regles segons els nusos terminals, i voldríem donar compte de relacions de dependència lèxicaHi ha solucions parcials:– Probabilistic Lexicalized CFG’s, que inclouen la

informació del nucli com a atribut del nus– Expanded lexicalized Grammar, que

emmagatzemen una probabilitat per a cada combinació regle/nucli

SV(llevar) --> V(llevar) SN(comida) PP(a) [0.1]SV(llevar) --> V(llevar) SN(olla) PP(a) [0.0001]

Page 22: FONAMENTS DE PROCESSAMENT DEL  LLENGUATGE  NATURAL 13305 – Lingüística - UPF

N.Bel - FPLN

ResumResum

Les gramàtiques i analitzadors declaratius tenen les seves limitacions pràctiques: desenvolupament, cobertura i eficiènciaTècniques pràctiques per aconseguir una representació, la profunditat de la qual depèn de l’aplicació:– shallow parsing (autòmats en cascada, entre

d’altres).– chunking (amb expressions regulars de definició

de patrons)Gramàtiques probabilístiques: resolen els problemes de les gramàtiques declaratives, fent prediccions basades en la probabilitat, pel que fa a l’eficiència i el desenvolupament, però perden capacitats.