projecte ancora corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic mª antònia...

27
Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí http://clic.ub.edu http:// clic.ub.edu /ancora

Upload: hernan-botero

Post on 02-Apr-2015

108 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Projecte AnCoraCorpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic

Mª Antònia Martí

http://clic.ub.eduhttp://clic.ub.edu/ancora

Page 2: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Índex

1. Descripció del corpus2. Nivells d’anotació3. Metodologia

a. Sistema d’anotaciób. Procediment d’anotació manual: guies

4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta

Page 3: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Descripció del corpus (espanyol)

Spanish Amount SourcesAnotation levels

Procedure

AnCora-ESP 500,000

EFE (225,000)Lexesp (75,000)

El Periódico (200,000)

PoS Automatic

Chunking Automatic

Syntax Manual

Thematic Roles

Semi-automatic

Noun senses

Manual

Page 4: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Descripció del corpus (català)

Catalan Amount SourcesAnnotation

levelsProcedure

AnCora-CAT

500,000

EFE (75,000)ACN (225,000)El Periódico:

(200,000)

PoS Automatic

Chunking Automatic

Syntax Manual

Thematic Roles

Semi-Automatic

Noun senses Manual

Page 5: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Índex

1. Descripció del corpus2. Nivells d’anotació3. Metodologia

a. Sistema d’anotaciób. Procediment d’anotació manual: guies

4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta

Page 6: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Anàlisi morfològica (1)

paraulalema1 tag1, lema2 tag2,lema3 tag3, ...

‘bajo’bajar VM1SIP, bajo AQ0MS, bajo PS00, bajo NCMS, …

Page 7: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Anàlisi morfològica (2)

Word lemma1 PoS1 lema2 PoS2 lema3 PoS3 lema4 PoS4

Si si CS si NCMS00 si RG

trabajo trabajar VMIP1S0 trabajo NCMS00

bajo bajar VMIP1S0 bajo AQ0MS0 bajo 0 CMS00 bajo SPS00

presión presión NCFS000

bajo bajar VMIP1S0 bajo AQ0MS0 bajo NCMS00 bajo SPS00

la la DA0FS0 el PP3FS00

atención atención NCFS000

. . Fp

Page 8: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Anàlisi morfològica. Desambiguació (3)

Word lemma PoSSi si CStrabajo trabajar VMIP1S0bajo bajo SPS00presión presión NCFS000bajo bajar VMIP1S0 la la DA0FS0atención atención NCFS000. . Fp

Page 9: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

(S (sn (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó))

(S.NF.C (infinitiu (vmn0000 trabajar))

(sp (prep (sps00 por))

(sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))

S

sn grup.verb S.NF.C

espec.fs grup.nom.fs vmis3s0 inf sp

sa0fs0 ncfs000 vmn000

trabajarLa declaración propugnó por la

Anotació constituents

Page 10: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

(S (sn-SUJ (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD (infinitiu (vmn0000 trabajar)) (sp-CREG (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))

S

sn-SUJ grup.verb S.NF.C-CD

espec.fs grup.nom.fs vmis3s0 inf sp-CREG

sa0fs0 ncfs000 trabajar

La declaración propugnó por la …

Anotació constituents

Page 11: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

(S (sn-SUJ-Arg0-AGT (espec.fs (da0fs0 La)) (grup.nom.fs (ncfs000 declaración))) (grup.verb (vmis3s0 propugnó)) (S.NF.C-CD-Arg1-TEM (infinitiu (vmn0000 trabajar)) (sp-CREG-Arg2-FIN (prep (sps00 por)) (sn (espec.fs (da0fs0 la)) (grup.nom.fs (ncfs000 igualdad) (s.a.fs (grup.a.fs (aq0cs0 social)))) (Fp . .))

Anotació Arguments i PT

S

sn-SUJ-Arg0-AGT g.v S.NF.C-CD-Arg1-TEM

espec.fs grup.nom.fs vmis3s0 inf sp-CREG-A

sa0fs0 ncfs000 trabajar

La declaración propugnó por la …

Page 12: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Altres anotacions

- Sentits nominals de la xarxa semàntica WordNet

- Entitats amb nom

http://clic.ub.edu/ancora

Page 13: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Índex

1. Descripció del corpus2. Nivells d’anotació3. Metodologia

a. Sistema d’anotaciób. Procediment d’anotació manual: guies

4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta

Page 14: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Metodologia

Anotació automàtica:MorfologiaSintaxi superficial

Anotació manual:ConstituentsFuncionsArgumentsPapers temàticsWordNetEntitats amb nom

Anotació semiautomàticaArguments i papers temàtics (parcialment)

Lexicó sintàcticosemàntic

Page 15: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Lexicons sintàcticosemàntics

mejorar - 01LSS1.1SUJ Arg0##CAUCD Arg1##TEMCC ArgM##TMP/#ADVEJ: "obligará a mejorar la calidad del ataque"EJ: "que han mejorado las relaciones laborales"+ANTICAUSATIVA

LSS2.2SUJ Arg1##TEMCC ArgM##ADV/para#FINEJ: "Por una parte, las técnicas de diseminación han mejorado

mucho"EJ: "el mencionado proyecto de ley sea mejorado para permitir

nombres así"

Page 16: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Metodologia

Guies d’anotació

Anotació en paral·lel del mateix fragment de text (5-7 anotadors)

Procés iteratiu fins arribar a un grau d’acord superior al 95%

Modificació de la guia d’anotació

(Documentació a la web)

Page 17: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Índex

1. Descripció del corpus2. Nivells d’anotació3. Metodologia

a. Sistema d’anotaciób. Procediment d’anotació manual: guies

4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta

Page 18: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Dades que s’ obtenen

Page 19: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Pipeline d’anotació

Page 20: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Índex

1. Descripció del corpus2. Nivells d’anotació3. Metodologia

a. Sistema d’anotaciób. Procediment d’anotació manual: guies

4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta

Page 21: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Dades que s’ obtenen

The 10th most frequent lemmata are:

48.483 (10.02%) el (the)

30.178 (6.24%) de (of)

26295 (5.43%) ,

16.574 (3.43%) .

12.364 (2.56%) que (that)

11.739 (2.43%) i (and)

9.839 (2.03%) un (a, an)

9.649 (1.99%) a (to)

8.074 (1.67%) del (of the)

8.054 (1.66%) haver (to have)

The most frequent noun is ‘any’ (year) in the 28th row and the second is ‘milió’ (milion) in the 46th.

Page 22: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

tokens % Main category

29,525 6,1 adj

23,207 4,8 conj

48,500 10,02 definite article

21,522 4,44 determiners

56,303 11,71 Punct. marks

88,716 18,34 common nouns

29,539 6,1 proper nouns

22,421 4,63 pronouns

15.421 3,19 adverbs

76.110 15,73 prepositions

14.100 2,91 v. auxiliar

44.314 9,16 vm

4.585 0,95 vs

9.250 1,9 others

Dades que s’ obtenen

Page 23: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Total functions: 119.318There are 32 errors. Total tags: 119.286

Syntactic Annotation – Group 1 AnCora-Ca AnCora-Es

Function tags

Gloss Tags % Tags %

Functions

Attribute 5,240 4.39 2,513 4.59

Agent complement 1,288 1.08 454 0.83

Adverbial complement

28,398 23.80 13,450 24.58

Direct object 25,128 21.06 9,856 18.01

Indirect object 2,171 1.82 1,133 2.07

Predicative 2,033 1.70 649 1.19

Prepositional complement

6,246 5,23 1,726 3.15

Subject 36,312 30,43 14,713 26.89

Total 106,816 89,51 44,494 81.31

Dades que s’ obtenen

Page 24: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Dades que s’ obtenenTotal amount of 119.318 tagged functions, 106.807 receive an argument (89,49%). 47 different combinations of functions and arguments 86 different combinations of function-argument and thematic role.

Syntactic Function

tokens % Arguments the function can take

ATR 5,240 4,39 Arg2

CAG 1,287 1,08 Arg0

CC 28,394 23,79 ArgM, Arg2, Arg4, Arg3, ArgL, Arg1

CD 25125 21,05 Arg1, Arg2, ArgL, Arg0

CI 2170 1,81 Arg2, Arg3, Arg0

CPRED 2033 1,71 Arg2, ArgM, Arg3, ArgL

CREG 6246 5,23 Arg2, Arg1, Arg4, ArgL, Arg3

SUJ 36312 30,43 Arg0, Arg1, Arg2, ArgA, ArgL

Total 106.807 89,49

Other 12.500 10,49 Don’t receive argument /**none**

Total 119.307 99,98

Page 25: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Dades que s’ obtenen

Total 'sn-ne'69.251total 'sn-ne' diferents 6 20.645(29.81%) org 17.164(24.79%) loc 16.715(24.14%) pers 8.158 (11.78%) other 3.319 (4.79%) num 3.250 (4.69%) date

Total 'np-ne'29.539total 'np-ne' diferents 5 10.137(34.32%) o 8.176 (27.68%) l 7.590 (25.69%) p 3.635 (12.31%) a 1 (0.00%) d

Page 26: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Índex

1. Descripció del corpus2. Nivells d’anotació3. Metodologia

a. Sistema d’anotaciób. Procediment d’anotació manual: guies

4. Eines d’anotació5. Dades que es poden obtenir6. Interfície de consulta

Page 27: Projecte AnCora Corpus anotat a nivell morfològic, sintàctic, semàntic i pragmàtic Mª Antònia Martí

Interfície de consulta

http://clic.ub.edu/ancora