marcatge de textos amb xml servei de tecnologia lingüística (stel)

26
Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Upload: rodrigo-rojas-dominguez

Post on 02-Feb-2016

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Marcatge de textos amb XMLServei de Tecnologia Lingüística (STeL)

Page 2: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Presentació

<jo> <nom>John<nom/> <cognom>Roberto</cognom> <interessos> <li>Web Semàntica</li> <li>Enginyeria de la Web</li> <li>Visualització de la informació</li> <li>Gestió del coneixement i la informació</li>

</interessos></jo>

Page 3: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Contenido Introducción Objeto y objetivos

¿qué? y ¿para qué? ¿cómo? Tipos y niveles de corpus

Procesamiento del corpus Adquisición de datos Anotación del corpus Revisión e inclusión

Explotación del corpus Tareas de explotación

Metodología Fases de procesamiento del corpus Transferencia de información Plan de desarrollo

Page 4: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Introducción

La gestión y creación de un corpus es un trabajo que requiere una gran inversión de tiempo (y recursos), por lo que los criterios que se van a utilizar tienen que estar claramente definidos.

Page 5: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Objeto y objetivos¿Qué?

Recopilaciones de texto:• Archivo/colección (informatizado): repertorio de textos en

soporte informático sin buscar ningún tipo de relación entre ellos. H

• Biblioteca de textos electrónicos: colección de textos en soporte informático, guardados en formato estándar, siguiendo ciertas normas de contenido, pero sin criterio riguroso de selección. H

• Corpus informatizado: recopilación de textos seleccionados según criterios lingüísticos, codificados de modo estándar y homogéneo, con la finalidad de poder ser tratados mediante procesos informáticos y destinados a reflejar el comportamiento de una o más lenguas. M

Page 6: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Objeto y objetivos¿Para qué? ¿cómo?

¿Para qué?El primer paso en el diseño de un corpus es establecer su objetivo: finalidad y aplicaciones.

¿Cómo?Recursos técnicos y humanos

Page 7: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Objeto y objetivos Tipos y niveles de corpusLímites

Una vez especificada la finalidad, se han de establecer bien claramente los límites temporales, geográficos y/o lingüísticos que el corpus va a tener.

Page 8: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Objeto y objetivos Tipos y niveles de corpusTipos•De árboles: textos etiquetados sintácticamente.•Orales: señales de voz, eventualmente con sus transcripciones• Transcripciones: de anotación fonética.•Textuales: lengua escrita o por lengua oral transcrita.•Sincrónicos: textos en lengua actual.•Diacrónicos: textos de varias etapas históricas de la lengua.•Monolingües•Multilingües•Históricos: digitalizados por OCR (reconocimiento óptico de caracteres) a través de un escáner.•Referencia: tiene un tamaño establecido, generalmente es de libre acceso y está estandarizado.•Monitor: aumenta de manera constante su tamaño.•Dialectales: disponibles normalmente sólo en forma oral porque por lo general no tienen una norma de escritura correcta o porque no existe la tradición de una escritura.

Page 9: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Objeto y objetivos Tipos y niveles de corpus Niveles

•Corpus: conjunto de textos que son representativos de una lengua o variedad (recopilación de materiales escritos y orales de una lengua x).•Subcorpus: divisiones que se efectúan dentro de un corpus destinados a aumentar algún apartado del corpus general (subcorpus de textos orales).•Componente: colección de muestras muy homogéneas de un corpus o de un subcorpus (textos de una variedad de la lengua x hablada en x zona geográfica).

Page 10: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpus

Transformaciones que sufren los documentos, desde su formato y medio original, hasta adaptarlos a las estructura electrónica que hayamos definido para ellos.

procesamiento = preparación = generación

Page 11: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAdquisición de datos

Fase manual (o automática) que consiste en obtener una versión digital del documento que se va a tratar.–WWW: la red ofrece una cantidad inmensa de páginas web que se pueden bajar automáticamente, por ejemplo, con el programa BootCat.–Escáner: Se escanean libros y otros textos y se aplica el reconocimiento óptico de caracteres para obtener un texto en forma electrónica.–Compra (versión electrónica)

Page 12: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpus Adquisición de datosDerechos de autor

El Derecho de autor es un conjunto de normas y principios que regulan los derechos morales y patrimoniales que la ley concede a los autores por el solo hecho de la creación de una obra literaria, artística o científica, tanto publicada o que todavía no se haya publicado.

Una obra pasa al dominio público cuando los derechos patrimoniales han expirado. Esto sucede habitualmente trascurrido un plazo desde la muerte del autor (post mortem auctoris). Por ejemplo, en el derecho europeo, 70 años desde la muerte del autor. Dicha obra entonces puede ser utilizada en forma libre, respetando los derechos morales.

Page 13: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAnotación del corpus

Con ayuda de elementos llamados tags se puede enriquecer el texto con informaciones estructurales, semánticas o de otra índole.Las herramientas de anotación disponibles determinan cuánto se requiere para efectuar este proceso.

Tag (etiqueta): marca (palabra o frase) con la cuál identificamos un contenido.<error correct="text">tetx</error>

Page 14: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAnotación del corpusEstructuración del corpus

Fase manual que consiste en estructurar los documentos digitales que resultan de la adquisición en un formato común que sea fácilmente procesable.– Organización en carpetas con ficheros de texto siguiendo una codificación lógica y secuencial.–No olvidemos codificarlos en un formato adecuado: ASCII, Unicode, JIS, ISOLatin-1, UTF-8.

Page 15: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAnotación del corpusPrincipios de anotación

•Separar contenido de estructura:•La recuperación del texto original debe ser posible sin las anotaciones.•La evaluación de las anotaciones debe ser posible sin el texto original.

•Las normas de anotación deben ser accesibles.•Los anotadores y las circunstancias de la anotación deben ser conocidos.•Los usuarios deben saber que las anotaciones pueden contener errores.•Se deben tomar en cuenta los estándares de codificación (TEI, CES, LDC y EAGLES).

Page 16: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAnotación del corpusFormato de anotación

•HTML: inadecuado para la anotación porque el conjunto de tags es limitado y no cumple con algunos principios.•SGML: ofrece la posibilidad de una anotación más amplia pero más costosa; útil para grandes proyectos.•XML: es la opción más adecuada porque puede contener un conjunto de tags infinito, es poderoso y al tiempo fácil de utilizar.

Page 17: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAnotación del corpusEstándares de representación

Actualmente, para el desarrollo de corpus utilizando XML, existen dos tendencias:1.Utilizar alguno de los estándares disponibles como TEI, CES, LDC y EAGLES o XCES (Corpus Encoding Standard for XML).2.Definir un XML propio para la representación de los documentos.3.Definir un XML propio basado en estándares.

Page 18: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAnotación del corpusEstándares de representación

Uso de estándares:•Mayor compatibilidad entre corpus.•Propiciar la movilidad del personal entre proyectos.•Se optimiza el soporte de herramientas (de anotación y de explotación).

XML propio:•Etiquetas XML en una lengua diferente del inglés.•Mayor flexibilidad a la hora de elegir y establecer una sintáxis para nuestras etiquetas.

Page 19: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpusAnotación del corpusConversión

Transformación de los documentos con el objetivo de adaptarlos al formato XML establecido:

•Manual (sin herramienta)•Asistida (semiautomática)–Herramientas específicas de anotación:

•MMAX y NITE XML: anotación multimodal•Annotate: anotación sintáctica•EXMARaLDA anotación de discurso•Transcriber y Praat: anotación fonética•Anvil, Elan y TASX: anotación de vídeos

–Herramientas adaptadas•Automática (conversión) - scripts

Page 20: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Procesamiento del corpus Revisión e inclusión

•En la fase de revisión se tratan de corregir los errores que se hayan podido cometer en la anotación:

•Documentos bien formados: contienen todas las etiquetas.•Documentos válidos: responden a una sintaxis común.

•Poner –en la carpeta que correspondiente– aquellos documentos que cumplen todos los requisitos.

Page 21: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Explotación del corpus

El corpus por sí solo no es suficiente para facilitar datos exhaustivos del lenguaje. Para poder aprovechar al máximo las informaciones que contiene es necesario poder disponer de herramientas adecuadas para su explotación.

Page 22: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Explotación del corpusTareas de explotación

•Frecuencias de aparición de palabras•Índices y concordancias•Lematización•Análisis morfológico (tagging)•Análisis sintáctico (parsing)•Desambiguación semántica•Detección de unidades recurrentes (collocations)

Page 23: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

MetodologíaFases del procesamiento del corpus

Page 24: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

MetodologíaTransferencia de información

Definir los protocolos de actuación que incluyan las tareas que hará el equipo de expertos (lingüistas) e informáticos.Los protocolos son útiles porque:

•mantienen un registro de todas las decisiones tomadas por el equipo evitando volver a discutir sobre decisiones tomadas en su momento,•permiten formar a nuevos miembros del equipo,•nos recuerdan los detalles de tareas repetitivas,•facilitan la generación de documentos burocráticos,•facilitan la dinámica entre los diferentes equipos y grupos de trabajo, etc.

Page 25: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Metodología Plan de desarrollo

•Cuando tiene un plan detallado, puede trabajar de manera más eficaz.•Cuando planifica, tiene mayor probabilidad de cumplir sus compromisos.•Hacer el plan es hacer el seguimiento del progreso de su trabajo.•Después de que ha pensado todo el trabajo, conoce lo que ha de hacer y cuando ha de hacerlo.

Page 26: Marcatge de textos amb XML Servei de Tecnologia Lingüística (STeL)

Metodología Plan de desarrolloEtapas

•Realizar el Diseño Conceptual (fase de estrategia).•Desarrollar la estrategia: diferentes partes del diseño conceptual (componentes, ciclos, productos).•Realizar el plan del equipo:

•Lista de tareas requeridas para construir los productos identificados en el paso 2.•Estime el tiempo que dedicará cada persona a la realización de cada tarea.•Estime el tiempo que dedicará al proyecto la totalidad del equipo.•Calcular la fecha de finalización esperada de cada tarea.