Download - La lematizacion de textos
![Page 1: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/1.jpg)
La lematización de textos
Elena Álvarez Mellado
Seminario Filologías Digitales hoy
![Page 2: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/2.jpg)
¿Qué es la lematización?
![Page 3: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/3.jpg)
![Page 4: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/4.jpg)
![Page 5: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/5.jpg)
![Page 6: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/6.jpg)
¿Cómo funciona un lematizador?
![Page 7: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/7.jpg)
limones
dijo
corruptas
nueces
cantábamos
limón
decir
corrupto
nuez
cantar
LEMATIZADOR
![Page 8: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/8.jpg)
![Page 9: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/9.jpg)
corruptísimas
tuerquecita
riéndose
dándoselas
corrupta
tuerca
reír
dar
LEMATIZADOR
![Page 10: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/10.jpg)
- Lexicón (lemas+categorías)
- Reglas morfológicas
- Paciencia.
Ingredientes para hacer un lematizador:
![Page 11: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/11.jpg)
Termina en -ito/a(s) -illo/a(s)
-ísimo/a(s) (sílaba tónica)
Quitamos la terminación: arbolito>árbol
Añadimos O/E/IO guapillo, excelentísimo, sucísimo
¿Raíz irregular? QU->C; GU->G; GÜ->G; C->Z
En el caso de Z: arrocito>arroc->arroz
Añado O/A poquillo->poco; agüita->agua;
Última vocal de la raíz O->UE (fortísimo) E->IE
(calentito)
¿Termina en -bil? -bil->ble (amabilísimo)
¿Termina en -rc /-nc/vocal+c? mayorcito, camioncito, sofacito
¿Termina en -ec? florecita
Añado O/E/IO viejecito, sobrecito,
seriecísimo
¿Termina en -cec? piececito->piecec->pie
Añadimos Z: pececito->pecec->pez
![Page 12: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/12.jpg)
Sí
¿Conozco esta palabra? ¿Está en mi base de datos
(lemario)?
Miro en el lemario su lema y su categoría
(MEMORIA)
Aplico el programa de reglas
morfológicas (REGLAS)
No
![Page 13: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/13.jpg)
![Page 14: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/14.jpg)
![Page 15: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/15.jpg)
![Page 16: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/16.jpg)
![Page 17: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/17.jpg)
![Page 18: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/18.jpg)
"palabra": "los"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"
"palabra": "ciudadanos"
"lema": "ciudadano"
"categoria": "sustantivo"
"analisis": "NCMP"
"palabra": "reciben"
"lema": "recibir"
"categoria": "verbo"
"analisis": "VPI3P"
"palabra": "el"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"
"palabra": "euro"
"lema": "euro"
"categoria": "sustantivo"
"analisis": "NCMP"
"palabra": "con"
"lema": "con"
"categoria": "preposición"
"analisis": "P000"
"palabra": "euforia"
"lema": "euforia"
"categoria": "sustantivo"
"analisis": "NCFS"
Los ciudadanos reciben el euro con euforia
![Page 19: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/19.jpg)
![Page 20: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/20.jpg)
![Page 21: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/21.jpg)
![Page 22: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/22.jpg)
![Page 23: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/23.jpg)
![Page 24: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/24.jpg)
![Page 25: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/25.jpg)
Pon un lematizador en tu vida
![Page 26: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/26.jpg)
![Page 27: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/27.jpg)
![Page 28: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/28.jpg)
Lematizadores de código abierto
Freeling (UPC)
NLTK (Natural Language Toolkit)
openNLP
Stanford CoreNLP
![Page 29: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/29.jpg)
![Page 30: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/30.jpg)
API
![Page 31: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/31.jpg)
![Page 32: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/32.jpg)
![Page 33: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/33.jpg)
![Page 34: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/34.jpg)
AntConc
+
![Page 35: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/35.jpg)
![Page 36: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/36.jpg)
Corpus anotados
Corpus AnCora (UB)
GitHub del grupo CLIG: FR ES PT
Corpus BROWN y LOB
Stanford NLP corpora
![Page 37: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/37.jpg)
![Page 38: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/38.jpg)
Corpus lematizados consultables
Corpus del español de Mark Davis
http://corpusdelespanol.org/
CORPES (RAE)
http://web.frl.es/CORPES/view/inicioExterno.view
![Page 39: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/39.jpg)
![Page 40: La lematizacion de textos](https://reader033.vdocumento.com/reader033/viewer/2022052915/58a8108b1a28ab3d6e8b6769/html5/thumbnails/40.jpg)