![Page 1: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/1.jpg)
Los corpus lingüísticos y la industria del lenguaje
Pascual Cantos [email protected] Universidad de Murcia
VIII Seminario TIC-ETL
![Page 2: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/2.jpg)
Los corpus lingüísticos
¿Qué es un corpus?•Una recopilación de palabras/textos•¿Teoría o metodología lingüística?
![Page 3: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/3.jpg)
Los corpus lingüísticos
¿Por qué usar corpus?•Indican/corroboran tendencias/normalidad sobre el uso real de la lengua
•Indican usos raros (textos aislados)•Método objetivo (humano/ordenador)
![Page 4: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/4.jpg)
Los corpus lingüísticos
¿Cómo compilar un corpus?•Gran volumen de texto•Representativo (lenguaje general, fines específicos, género literario, autor, etc.
•Formato digitalizado y estandarizado•Referencia o estándar•Anotaciones (partes de la oración, etc.)
![Page 5: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/5.jpg)
Los corpus lingüísticos
Texto sin anotar
![Page 6: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/6.jpg)
Los corpus lingüísticos
Marcadores de título y párrafos
![Page 7: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/7.jpg)
Los corpus lingüísticos
Marcadores oracionales
![Page 8: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/8.jpg)
Los corpus lingüísticos
Marcadores de puntuación
![Page 9: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/9.jpg)
Los corpus lingüísticos
Macadores de palabras
![Page 10: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/10.jpg)
Los corpus lingüísticos
Marcadores de categorías gramaticales
![Page 11: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/11.jpg)
Tipología de corpus lingüísticos
1. Corpus especializados:▫Géneros (literarios, lenguaje periodístico,
etc.)▫Cronológicos (2000-2005, etc.)▫Topográficos (textos en español
publicados en China, etc.)2. Corpus generalistas:
▫Mayor tamaño que los especializados (BNC: 100M, EBr oral y escrito)
![Page 12: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/12.jpg)
Tipología de corpus lingüísticos
![Page 13: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/13.jpg)
Tipología de corpus lingüísticos
3. Corpus multilingües (español-inglés, etc.)
4. Corpus paralelos (CRATER, etc.)5. Corpus de “aprendices”
(International Corpus of Learner English, etc.)
6. Corpus históricos/diacrónicos (Helsinki Corpus 700-1700)
7. Corpus monitor (Bank of English)
![Page 14: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/14.jpg)
Concepto de cuantificación
“WASH”
Frecuencia 2415
Distribución/textos 952
Fuente (BNC) 97.626.093
Frecuencia relativa/mil.
24,74
![Page 15: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/15.jpg)
Concepto de cuantificación
![Page 16: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/16.jpg)
Concepto de cuantificación
![Page 17: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/17.jpg)
Concepto de cuantificación
![Page 18: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/18.jpg)
Concepto de cuantificación
“WASH”
Categoría Palabras Frecuencia Frecuencia relativa/M
Femeninos 3.267.444 298 91,2
Masculinos 4.920.742 178 36,17
Total 8.188.186 476 58,13
![Page 19: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/19.jpg)
Aplicaciones a la industria del lenguaje
1. Lexicografía, EL y terminología 2. Lingüística forense y clínica3. Ingeniería lingüística
a. Resumen automático de textosb. Memorias de traducción y traducción automáticac. Comprensión/generación automática del discursod. Anotación automática del corpuse. Respuesta automática a preguntasf. Reconocimiento de temag. Desambiguación automáticah. …
![Page 20: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/20.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Descripción del vocabulario de una
lengua -> diccionarios• Fuentes de información tradicionales
▫Intuición▫Otros diccionarios▫Citas de autores reconocidos en libros/
periódicos, etc.
![Page 21: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/21.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Problemas:
▫Parcialmente válidas▫Plagio▫Insuficientes para compilación de
diccionarios
No dan una visión actualizada y completa del uso lingüístico real
![Page 22: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/22.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Córpora:
▫ Posibilidades de análisis lingüístico se multiplican
▫ Análisis detallado de la lengua tal y como es usada:
Descubrir regularidades (e irregularidades) Amplio espectro del uso real:
Perspectiva más amplia y Con índices de frecuencia relativa más fiables
![Page 23: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/23.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Iniciativa pionera: Universidad de
Birmingham y editorial Collins (ahora Harper-Collins), Proyecto COBUILD
• Collins COBUILD Dictionary of English Language supuso una revolución:
▫ Ámbitos del estudio lingüístico y lexicológico Construcción del corpus Creación de la base de datos Compilación del diccionario
![Page 24: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/24.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Examen detallado de muestras
representativas orales y escritos (de 20 millones de palabras)
• Profundo análisis empírico de la lengua
• Evidencia mensurable: metodología cuantitativa y cualitativa
![Page 25: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/25.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Extraer información sobre
▫ Significado de las palabras▫ Usos▫ Patrones sintácticos que caracterizan cada
una de las diferentes acepciones ▫ Colocaciones más frecuentes
• Diccionario innovador:▫ Estructura de las definiciones ▫ Organización de las entradas
![Page 26: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/26.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Córpora:
▫ Herramienta lexicográfica fundamental: Diferentes acepciones Colocaciones y fraseología Información decisiva sobre:
Diferencias de uso entre lengua oral vs. escrita
Frecuencia relativa de uso de determinadas palabras y acepciones
Inclusión/exclusión de entradas o acepciones
![Page 27: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/27.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Análisis exhaustivo de grandes cantidades de
texto computerizado:▫ Información indispensable sobre la gramática▫ Relaciones semánticas▫ Aceptabilidad de determinados usos▫ Usos innovadores u obsoletos de palabras▫ Palabras o expresiones de nueva creación▫ Aspectos pragmáticos
• La macroestructura de los diccionarios ha cambiado. Cada vez se incluye más información sobre la lengua y su uso
![Page 28: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/28.jpg)
Aplicaciones a la industria del lenguaje
![Page 29: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/29.jpg)
Aplicaciones a la industria del lenguaje
Lexicografía • Un corpus no es de utilidad:
▫ Si no se cuenta con las herramientas de análisis adecuadas (software/técnicas):
Procesar los textos de formas diferentes Ofrecer un alto nivel de flexibilidad en el tipo
de búsquedas
![Page 30: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/30.jpg)
Aplicaciones a la industria del lenguaje
![Page 31: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/31.jpg)
Aplicaciones a la industria del lenguaje
![Page 32: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/32.jpg)
Aplicaciones a la industria del lenguaje
![Page 33: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/33.jpg)
![Page 34: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/34.jpg)
Aplicaciones a la industria del lenguaje
![Page 35: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/35.jpg)
Aplicaciones a la industria del lenguaje
![Page 36: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/36.jpg)
Aplicaciones a la industria del lenguaje
Terminología• Textos especializados• Unidades léxicas relevantes
▫ Frecuencia o de prominencia temática• Unidades de significación especializada
▫ Unidades terminológicas
![Page 37: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/37.jpg)
Aplicaciones a la industria del lenguaje
Terminología• El conocimiento es un continuo, integra
▫ Conocimiento de un área de especialidad ▫ De otras áreas afines▫ Conocimiento general
• Propuesta de representarlo en una ontología de conceptos
▫ Relaciona conceptos específicos con otros De otras áreas afines o Del conocimiento general
![Page 38: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/38.jpg)
Aplicaciones a la industria del lenguaje
Terminología• Ontología: ámbito de la ingeniería del
conocimiento:▫ Conjunto de conceptos organizados jerárquicamente▫ Representados en algún sistema informático ▫ Sirve de soporte a aplicaciones que requieren de
conocimiento específico sobre la materia que la ontología representa
Cuerpo estructurado de conocimiento
![Page 39: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/39.jpg)
Aplicaciones a la industria del lenguaje
![Page 40: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/40.jpg)
Aplicaciones a la industria del lenguaje
![Page 41: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/41.jpg)
Aplicaciones a la industria del lenguaje
![Page 42: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/42.jpg)
Lingüística clínica y forense
![Page 43: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/43.jpg)
Lingüística clínica y forense•Las alteraciones del lenguaje es una de las manifestaciones más habituales de la EA
•Los trastornos del lenguaje suelen aparecer después de la afectación de la memoria
•En fases tempranas de la EA pueden aparecer dificultades de lenguaje incluso antes de evidenciarse ninguna de las manifestaciones clínicas
![Page 44: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/44.jpg)
Lingüística clínica y forenseObjetivo:• Identificar potenciales variables
lingüísticas susceptibles de alterarse en la fase incipiente de Alzheimer
![Page 45: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/45.jpg)
Lingüística clínica y forenseVariables:
![Page 46: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/46.jpg)
Lingüística clínica y forense
• For instance, suppose we have a speech sample of Harold Wilson
![Page 47: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/47.jpg)
Lingüística clínica y forense
Depresión: •Estado anímico
muy negativo:▫Baja estima ▫Falta de interés
Hipomanía:•Estado anímico
muy positivo:▫Euforia y energía▫Creatividad
![Page 48: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/48.jpg)
Lingüística clínica y forenseVariables: • Técnicas/metodología de lingüística de corpus• Medidas léxicas estándar de lingüística de corpus (8):
▫ Riqueza léxica: (1) Ratio tipo-token estándarizada (Tweedie and Baayen 1998) (2) Ratio palabras de contenido (Stubbs 2002)
▫ Rasgos léxicos del léxico mental: (3) Longitud media de palabras (Nam et al. 2004) (4) Palabras “largas” (>10 caractéres; Biber and Jones 2005) (5) Hapax legomena (Oaks 2009) (6) Hapax legomena exclusivas
▫ Dificultad léxico-semántica de los textos: (7) Longitud media oraciones (palabras: Kelih et al. 2006). (8) Automated readability index (Bruce and Rubin 1988).
![Page 49: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/49.jpg)
Lingüística clínica y forense
Atención en …•Datos “no” normales (más allá ± 2 DS)•Grandes fluctuaciones
![Page 50: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/50.jpg)
Lingüística clínica y forense
Abnormalities:
![Page 51: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/51.jpg)
Lingüística clínica y forenseConclusionesPeriodo 1: alternaciones en
léxico y sintaxisPeriodo 2: gran variabilidad en
las alternacionesPeriod 3: alternaciones en
exclusión mutua en dos sub-periodos: (i) med.1842 (palabras “raras”) y (ii) fin 1842 – princ.1843 (variabilidad léxica)
Period 4: alteraciones más notables; siguen patrón (menor especificidad léxica, variabilidad léxica y sintáctica)
![Page 52: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/52.jpg)
Lingüística clínica y forense
Delta de Burrows:•Medir diferencias léxicas entre textos (determinar autorías, lingüística forense…)
•Se basa en el perfil léxico de las frecuencias relativas de las palabras funcionales
![Page 53: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/53.jpg)
Lingüística clínica y forense
Rank
Word Main set Suspect Unknown playMean SD Score Z-
scoreScore Z-
ScoreDiff. Abs.Dif
f
1 The 4.242
0.630 4.719 0.757 4.901 -0.239 -0.996 0.996
2 And 3.770
0.501 4.407 1.272 4.165 0.789 -0.483 0.483
3 Of 1.821
0.315 2.420 1.905 2.769 3.015 1.110 1.110
4 A 1.601
0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458
5 To 1.419
0.272 1.247 -0.634 1.289 -0.480 0.154 0.154
…
![Page 54: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/54.jpg)
Lingüística clínica y forense
Rank
Word Main set Suspect Unknown playMean SD Score Z-
scoreScore Z-
ScoreDiff. Abs.Dif
f
1 The 4.242
0.630 4.719 0.757 4.091 -0.239 -0.996 0.996
2 And 3.770
0.501 4.407 1.272 4.165 0.789 -0.483 0.483
3 Of 1.821
0.315 2.420 1.905 2.769 3.015 1.110 1.110
4 A 1.601
0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458
5 To 1.419
0.272 1.247 -0.634 1.289 -0.480 0.154 0.154
… 1
![Page 55: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/55.jpg)
Lingüística clínica y forense
Rank
Word Main set Suspect Unknown playMean SD Score Z-
scoreScore Z-
ScoreDiff. Abs.Dif
f
1 The 4.242
0.630 4.719 0.757 4.091 -0.239 -0.996 0.996
2 And 3.770
0.501 4.407 1.272 4.165 0.789 -0.483 0.483
3 Of 1.821
0.315 2.420 1.905 2.769 3.015 1.110 1.110
4 A 1.601
0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458
5 To 1.419
0.272 1.247 -0.634 1.289 -0.480 0.154 0.154
…
2
1
![Page 56: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/56.jpg)
Lingüística clínica y forense
Rank
Word Main set Suspect Unknown playMean SD Score Z-
scoreScore Z-
ScoreDiff. Abs.Dif
f
1 The 4.242
0.630 4.719 0.757 4.091 -0.239 -0.996 0.996
2 And 3.770
0.501 4.407 1.272 4.165 0.789 -0.483 0.483
3 Of 1.821
0.315 2.420 1.905 2.769 3.015 1.110 1.110
4 A 1.601
0.430 0.893 -1.645 0.696 -2.103 -0.458 0.458
5 To 1.419
0.272 1.247 -0.634 1.289 -0.480 0.154 0.154
…
2
1
3
![Page 57: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/57.jpg)
Lingüística clínica y forense
•Burrows’ DeltaSuspects ∆ Candidate
1 0.6402 1st
2 1.205 4th
3 1.075 2nd
4 1.087 3rd
5 2.632 5th
…
![Page 58: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/58.jpg)
Lingüística clínica y forense
•Linguistic Inquiry and Word Count (LIWC; Pennebaker, Francis y Booth, 2001):▫2.200 palabras y raíces léxicas agrupadas
en 75 categorías y▫Clasificadas en cuatro grandes
dimensiones: Procesos lingüísticos estándares Procesos psicológicos Relatividad y Asuntos personales
![Page 59: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/59.jpg)
Lingüística clínica y forense
![Page 60: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/60.jpg)
Lingüística clínica y forenseMedida F1 (media armónica de precisión y exhaustividad):•Dimensión 2 (procesos psicológicos 68,3%); mejor clasificador independiente (verdad: pensar/saber; mentira: siempre/nunca).•Dimensión 3: bajo rendimiento como dim. única.•Dimensión 1+2+3 resulta más exitosa (73,1%)•Los mejores resultados obtenidos sobre el conjunto de datos de las corridas de toros se consiguen con la combinación 1_3 (68%)•Saturación factorial de las cuatro dimensiones y su correlato con la temática juegan un papel importante
![Page 61: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/61.jpg)
Ingeniería lingüística
Objetivo:•Facilitar la comunicación hombre-máquina
y máquina-máquina•Se nutre de diferentes disciplinas:
▫Terminología▫Lingüística computacional▫Traducción ▫Otras disciplinas relacionadas con la
informática y la lengua
![Page 62: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/62.jpg)
Ingeniería lingüística
Se orienta a aplicaciones diversas:•Generación de textos•Localización de ontologías•Recuperación de información•Traducción automática o asistida•Analizadores sintácticos•Análisis de contenido multilingüe •….etc.
![Page 63: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/63.jpg)
Ingeniería lingüística
Memorias de traducción:• Depósito de textos en una lengua con
sus correspondientes traducciones a una o más lenguas
• Memorias de traducción = corpora paralelos
• Una memoria de traducción es básicamente un tipo especial de base de datos
![Page 64: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/64.jpg)
Ingeniería lingüística
Memorias de traducción:• Traducción automática:
▫Crea traducciones automáticas a partir de segmentos
▫Recupera traducciones anteriores
![Page 65: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/65.jpg)
Ingeniería lingüística
Memorias de traducción:• Evita tener que traducir de nuevo un
segmento ya traducido • Ayuda notable para la traducción de textos
repetitivos ▫Manuales técnicos, documentos
administrativos, partes meteorológicos o financiares,...
→ Reducción de los costes de uso
![Page 66: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/66.jpg)
Ingeniería lingüística
Memorias de traducción:• Aumento de la productividad (10-30%) • Ahorro de tiempo y de dinero • Aumento de la coherencia: ayuda para
traducir los segmentos de la misma manera que han sido traducidos antes
• Plazo de entrega reducido
![Page 67: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/67.jpg)
Ingeniería lingüística
Traducción automática• Google Translate:
▫ No utiliza algoritmo de traducción▫ No extrae el significado de las frases a partir
del vocabulario y de normas gramaticales▫ Parte de la suposición de que toda frase ha
podido ser dicha/traducida antes▫ No funcionaría sin el trabajo de miles de horas
de quienes ya han traducido en el pasado.
![Page 68: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/68.jpg)
Ingeniería lingüística
Traducción automática• Google Translate:
▫Dispone de enorme base de datos (corpus) para consultar frases registradas anteriormente en el idioma requerido: Documentos UE, ONU, agencias (varios idiomas
oficiales) Incluyen distintos registros (tribunales
internacionales, informes de empresa, etc.) Artículos y libros en formato bilingüe
![Page 69: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/69.jpg)
Ingeniería lingüística
Traducción automática• Google Translate:
▫Busca en toda esa información▫Si encuentran varias traducciones para un
texto: Selecciona la versión más aceptable a través
de métodos estadísticos▫Ofrece traducciones hasta en 58 idiomas
(doble vía)
![Page 70: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/70.jpg)
Ingeniería lingüística
Resumen automático de textos• Localizar los fragmentos más relevantes
(según las necesidades del usuario):▫Segmentos, oraciones, párrafos o pasajes
• Ordenación de estos fragmentos por relevancia
• Producción del resumen
![Page 71: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/71.jpg)
Ingeniería lingüística
Resumen automático de textos• Tres pasos:
▫ Identificación temática: extracción de términos/palabras clave
▫ Identificación de oraciones/segmentos con dichos términos/palabras clave
▫Generación del resumen (coherencia…)
![Page 72: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/72.jpg)
Ingeniería lingüística
![Page 73: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/73.jpg)
Ingeniería lingüística
![Page 74: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/74.jpg)
Ingeniería lingüística
Minería de textos• Tecnología emergente • Objeto:
▫ Descubrir a partir de texto/datos Conocimiento/información no trivial,
desconocida y potencialmente útil; que no está literalmente en dichos documentos
Buscar tendencias, opiniones, promedios, desviaciones, dependencias, etc.
![Page 75: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/75.jpg)
Ingeniería lingüística
Minería de textos• Área multidisciplinar, convergen
diferentes paradigmas de computación: ▫Construcción de árboles de decisión▫ Inducción de reglas▫Redes neuronales artificiales▫Descubrimiento basado en instancias▫Programación lógica▫Algoritmos estadísticos, etc.
![Page 76: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/76.jpg)
Ingeniería lingüística
Minería de textos: ejemplos• Comercio/Marketing
▫ Identificación de patrones de compra de los clientes
▫ Búsqueda de asociaciones entre clientes y características demográficas
▫ Predicción de respuesta a campañas de correo
▫ Análisis de cestas de la compra
![Page 77: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/77.jpg)
Ingeniería lingüística
Minería de textos: ejemplos• Banca
▫ Detección de patrones de uso fraudulento de tarjetas de crédito
▫ Identificación de clientes leales▫ Predicción de clientes con probabilidad de
cambiar su afiliación▫ Determinación del gasto de tarjeta de crédito
por grupos
![Page 78: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/78.jpg)
Ingeniería lingüística
Minería de textos: ejemplos• Medicina
▫ Identificación de terapias médicas adecuadas para diferentes enfermedades
▫ Asociación de síntomas y clasificación diferencial de patologías
▫ Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo
![Page 79: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/79.jpg)
Ingeniería lingüística
Big Data• Disciplina que se ocupa de todas las
actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos
• Dificultades más habituales:▫ Captura▫ Almacenamiento▫ Búsqueda▫ Análisis▫ Visualización
![Page 80: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/80.jpg)
Ingeniería lingüística
“There are more things in heaven and earth, Horatio, than are dreamt of in your philosophy.” (Hamlet, Act 1, Scene V)
![Page 81: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/81.jpg)
Epílogo
El estudio de la lengua real/en uso para potenciales aplicaciones comerciales precisa irremediablemente de los corpus lingüísticos.
No se concibe una industria del lenguaje sin corpus lingüísticos y/o grandes conjuntos de datos lingüísticos.
![Page 82: Los corpus lingüísticos y la industria del lenguaje Pascual Cantos pcantos@um.es Universidad de Murcia VIII Seminario TIC-ETL](https://reader036.vdocumento.com/reader036/viewer/2022070417/5665b4441a28abb57c909054/html5/thumbnails/82.jpg)
Muchas Gracias