ponencia250

12
¿Qué dicen de mí mis documentos? José María Alonso Cebrián, Informática 64, [email protected] Enrique Rando González, Junta de Andalucía en Málaga, [email protected] Francisco Oca, Informática 64, [email protected] Antonio Guzmán, Universidad Rey Juan Carlos, [email protected] RESUMEN Hoy en día, gracias a Internet y a las intranets corporativas, los documentos en formato electrónico pueden ser publicados o comunicados de forma sencilla. Pero, antes de compartir o publicar documentos electrónicos, es necesario tener en consideración toda la información que éstos contienen y las posibles implicaciones que pudiera tener su conocimiento por parte de terceros. Aunque tal afirmación pudiera parecer trivial, un elevado número de organizaciones realiza este control de forma inadecuada. La causa del problema radica en el contenido adicional de los documentos: los metadatos, la información oculta y los contenidos no deseados o informaciones perdidas. Los dos primeros son incorporados por la mayor parte de las aplicaciones utilizadas para la creación o manipulación de los ficheros; los últimos son introducidos por los usuarios y mantenidos posteriormente, bien por descuido, bien de forma malintencionada. La consecuencia es que quedan comprometidas tanto la seguridad de los sistemas de información como la imagen corporativa de la organización. Por otro lado, toda esta información adicional no tiene necesariamente que ser perjudicial. Los metadatos son el fundamento de la Web Semántica y de muchos Sistemas Documentales. Describen y aportan valor a los documentos. Son, por tanto, un activo más que las organizaciones deben proteger y administrar. El/la presente artículo/ponencia muestra los riesgos e inconvenientes que conlleva la falta de control sobre los contenidos adicionales de los documentos. Se proporcionan ejemplos de cómo gestionarlos, cómo protegerlos y cómo limpiar correctamente los documentos antes de hacerlos públicos.

Upload: nam-jap

Post on 08-Jun-2015

211 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Ponencia250

¿Qué dicen de mí mis documentos? José María Alonso Cebrián, Informática 64, [email protected] Enrique Rando González, Junta de Andalucía en Málaga, [email protected] Francisco Oca, Informática 64, [email protected] Antonio Guzmán, Universidad Rey Juan Carlos, [email protected] RESUMEN Hoy en día, gracias a Internet y a las intranets corporativas, los documentos en formato electrónico pueden ser publicados o comunicados de forma sencilla. Pero, antes de compartir o publicar documentos electrónicos, es necesario tener en consideración toda la información que éstos contienen y las posibles implicaciones que pudiera tener su conocimiento por parte de terceros. Aunque tal afirmación pudiera parecer trivial, un elevado número de organizaciones realiza este control de forma inadecuada. La causa del problema radica en el contenido adicional de los documentos: los metadatos, la información oculta y los contenidos no deseados o informaciones perdidas. Los dos primeros son incorporados por la mayor parte de las aplicaciones utilizadas para la creación o manipulación de los ficheros; los últimos son introducidos por los usuarios y mantenidos posteriormente, bien por descuido, bien de forma malintencionada. La consecuencia es que quedan comprometidas tanto la seguridad de los sistemas de información como la imagen corporativa de la organización. Por otro lado, toda esta información adicional no tiene necesariamente que ser perjudicial. Los metadatos son el fundamento de la Web Semántica y de muchos Sistemas Documentales. Describen y aportan valor a los documentos. Son, por tanto, un activo más que las organizaciones deben proteger y administrar. El/la presente artículo/ponencia muestra los riesgos e inconvenientes que conlleva la falta de control sobre los contenidos adicionales de los documentos. Se proporcionan ejemplos de cómo gestionarlos, cómo protegerlos y cómo limpiar correctamente los documentos antes de hacerlos públicos.

Page 2: Ponencia250

CONTENIDOS ADICIONALES

Un documento publicado contiene todos aquellos elementos que sus autores incluyeron voluntariamente en él, y que pueden ser de diversa naturaleza: texto, imágenes, audio, video, etc… Pero junto con el propio documento se almacena otra información que quizá el autor no desea, no ha valorado en su justa medida el impacto de la publicación de la misma o simplemente que ha sido incluida por descuido. Estos contenidos adicionales pueden haber sido incluidos tanto por los propios autores, voluntaria o involuntariamente, como de forma automática por las aplicaciones utilizadas para la creación y edición de los documentos.

Algunos de esos contenidos adicionales pueden aportar valor al documento y facilitar su localización o gestión si han sido debidamente tratados. Este es el caso de los metadatos. Estos son un conjunto de datos descriptivos que aportan meta-información sobre el documento y que suelen almacenarse junto con él. Son metadatos, por ejemplo, el nombre o identificador del autor, el título, el número de páginas o la fecha de creación.

Los metadatos han sido utilizados durante años en los sistemas de Gestión Documental y son parte fundamental de la base tecnológica de la llamada Web Semántica. Gracias a ellos, las aplicaciones futuras podrán incluir nuevas funcionalidades y trabajar de forma automática y autónoma con documentos publicados en Internet.

Sin embargo, son pocas las organizaciones que gestionan apropiadamente los contenidos adicionales de los documentos. Y con ello no sólo desaprovechan el activo que éstos suponen sino que también pueden poner en compromiso la seguridad de sus sistemas de información y la imagen corporativa. Muchos documentos son publicados o enviados a través de sistemas de mensajería electrónica, sin haber realizado un control previo de sus contenidos adicionales y de las repercusiones que su conocimiento por parte de terceros pudiera tener.

Para aportar soluciones que eviten o mitiguen este problema se deben analizar las causas que originan las publicaciones incontroladas de información.

Por otro lado, los autores pueden incluir elementos inadecuados en el documento que terminen pasando inadvertidos a los revisores y siendo publicados o comunicados. Se habla entonces de datos perdidos.

Una revisión no rigurosa puede dejar pasar encabezados y pies de páginas con datos no apropiados, textos o elementos invisibles por ser del mismo color que el fondo, objetos ocultos por otros que se les superponen, párrafos cortos con datos personales, etc…

A modo de ejemplo, obsérvese el siguiente documento PDF:

Imagen 1: Documento PDF con información oculta

Los cuadros de color rojo ocultan parte del texto, ya que los autores consideraron que no era oportuno mostrarlo. Sin embargo, un procedimiento tan simple como seleccionar todo el texto, usar la opción “Copiar” del menú “Edición” y pegar en una ventana de Bloc de Notas, u otro programa similar, permite desvelar el contenido que antes quedaba oculto.

Imagen 2: Texto oculto en documento PDF

Por otro lado, no sólo los autores introducen información adicional en el documento. Las aplicaciones incorporan de forma automática otros datos que pueden tener un carácter operacional o descriptivo.

Los datos de carácter operacional son introducidos por las aplicaciones de forma automática y no suelen ser visibles para los usuarios. A esta información adicional se le denomina “información oculta”. Las aplicaciones los utilizan como ayuda para procesar de forma correcta y eficiente la los documentos.

En resumen, un documento publicado puede conllevar tres tipos de contenidos adicionales:

Page 3: Ponencia250

Metadatos, Información Perdida y/o Información Oculta.

Independientemente de la causa que los pueda originar, los contenidos adicionales no gestionados suponen un riesgo para las organizaciones.

FORMATOS DE FICHERO

En los apartados siguientes se van a mostrar ejemplos de problemas de seguridad relacionados con varios de los tipos de archivos más comunes en Internet. Con ello no se quiere indicar que otros formatos no presenten problemas similares.

Para este estudio se han utilizado los siguientes formatos:

• ODF: El formato ODF (Open Document Format) [1] es un estándar abierto aprobado por la ISO (International Standard Organization) [2] que está ampliamente documentado. Es utilizado, entre otros, por el paquete ofimático OpenOffice.org y todas las suites ofimáticas derivadas. La característica principal de este formato de archivo es el almacenamiento de la información en ficheros XML (eXtensible Markup Language) [3] comprimidos. Entre los distintos ficheros XML que almacenan la estructura y datos del documento son importantes para este estudio los siguientes:

◦ meta.xml: Archivo que almacena los metadatos asociados al documento.

◦ settings.xml: Archivo que almacenad los ajustes del documento. Entre ellos pueden figurar datos perdidos, como nombres de impresora, datos de conexión a bases de datos, etc…

◦ content.xml: Este archivo almacena el contenido principal del documento en sí.

• MS Office: Los formatos de documento utilizados en la suite ofimática Microsoft ffice se convirtieron en un estándar de facto. Hasta la versión Office 2003 incluida, los documentos se guardaban usando un formato de almacenamiento estructurado en ficheros binarios. El formato de estos ficheros binarios fue liberado en febrero de 2008. Sin embargo, a partir de la versión de la suite de Microsoft Office 2007, el formato de archivo fue cambiado y desde entonces se utiliza OOXML (Office Open XML) [4], un formato de documento abierto aprobado por ISO como ISO 29.500 y que mantiene una estructura similar a la de ODF,

es decir, un conjunto de archivos en formato XML comprimidos.

• PDF: Estándar abierto de ISO utilizado masivamente en Internet. PDF (Portable Document Format) [5] es un formato de documento Postscript en el que la información se estructura como una jerarquía de objetos relacionados. Los metadatos pueden encontrarse, dentro de esa jerarquía, en diversas formas tales como elementos del Diccionario de Información del Documento o en objetos con contenido XMP (eXtensible Metadata Platform) [6] (RDF (Resource Description Framework) [7] / XML). XMP es un formato de almacenamiento de metadatos utilizado por muchos formatos de archivos tales como los documentos Postscript, ficheros EPS (Encapsulated PostScript) [8] o archivos gráficos como PNG (Portable Network Graphics) [9].

RIESGOS ASOCIADOS A LOS CONTENIDOS ADICIONALES NO CONTROLADOS

La pregunta es ¿y qué información puede encontrarse dentro de esos formatos de ficheros que sea un riesgo para la seguridad de la organización? En los siguientes apartados podemos ver la respuesta.

Datos identificativos de personas y equipos

Buena parte de las aplicaciones usadas para la edición de documentos almacenan datos personales relativos al usuario. Por ejemplo, la primera vez que un usuario inicia una aplicación de Microsoft Office aparece una ventana similar a la siguiente:

Imagen 3: Información de usuario en MS Office

La información que aparece por defecto en el campo “Nombre” es la cuenta del usuario actual. Desafortunadamente, en muchas ocasiones este hecho pasa desapercibido o no se reconoce la importancia que tiene.

OpenOffice presenta una pantalla similar:

Page 4: Ponencia250

Imagen 4: Información de usuario en OpenOffice

Los datos que se incluyan en esta pantallas serán recordadas por las aplicaciones y podrán ser incluidos en los documentos creados mediante ellas. En el caso de Microsoft Word, se revelaría la cuenta de acceso al sistema del autor:

Imagen 5: Información resumen en MS Word

Por otro lado, analizando el fichero meta.xml de un documento de OpenOffice, puede observarse cómo aparecen detalles relativos al programa usado para la creación del documento, la versión del mismo, el Sistema Operativo utilizado y el nombre propio del autor:

<?xml version="1.0" encoding="UTF-8" ?> <office:document-meta xmlns:office="urn:oasis:names:tc:opendocument:xmlns:office:1.0" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:meta="urn:oasis:names:tc:opendocument:xmlns:meta:1.0" xmlns:ooo="http://openoffice.org/2004/office" office:version="1.0"> <office:meta> <meta:generator>OpenOffice.org/2.3$Win32 OpenOffice.org_project/680m5$Build-9221</meta:generator> <meta:initial-creator>MiNombre MiApellido</meta:initial-creator> <meta:creation-date>2008-08-11T11:33:23</meta:creation-date>

Imagen 6: Información en fichero meta.xml

Esta filtración involuntaria de datos se puede producir también con otros tipos de documentos. Por ejemplo, en este fichero PDF ha quedado registrada la cuenta de usuario de su autor:

Imagen 7: Información de autor en fichero PDF

Otros datos que pueden resultar especialmente peligrosos son los relativos a impresoras. En algunos casos, la información se limita, como mucho, a poco más que una marca y un modelo. Es el caso de la figura siguiente, que muestra parte del contenido del settings.xml de un documento de OpenOffice:

… <config:config-item config:name="PrinterName" config:type="string">EPSON Stylus DX4000 Series</config:config-item> …

Imagen 8: Información de impresora en fichero ODF.

El conocimiento de la marca y el modelo de la impresora ayudar a determinar desde que equipo en concreto se editó el documento. Además, cuando se trata de una impresora compartida por un equipo, los datos pueden aparecer en formato UNC (Universal Naming Convention) [10], revelando tanto el nombre del servidor como el del recurso compartido.

… <config:config-item config:name="PrinterName" config:type="string">\\servidor\HP 2000C </config:config-item> …

Imagen 9: Información de impresora en formato UNC

O, en ocasiones, direcciones IP de equipos:

… <config:config-item config:name="PrinterName" config:type="string">\\10.177.1.126\EPSON EPL-6200 Advanced</config:config-item>

Imagen 10: Información de impresora con IP

Page 5: Ponencia250

Informaciones similares pueden obtenerse también de algunos documentos de Microsoft Word.

Imagen 11: Información de impresora con IP

En este caso la impresora aparece como \\servidor\AGFA-ProSet 9400SF, en el que se proporciona información sobre la marca y modelo, el nombre del servidor que la comparte y del recurso compartido asociado. Esta información permite inferir que el usuario que ha trabajado en este documento tiene permisos en la lista de control de acceso al recurso dónde es compartida esta impresora.

Muchas aplicaciones almacenan también rutas de archivo correspondientes a plantillas, ficheros incrustados o vinculados e imágenes insertadas. Estas rutas pueden llegar a ser tan reveladoras, o incluso más, que los nombres de las impresoras. En ocasiones aparecen en formato UNC, identificando máquinas servidoras y recursos compartidos. Otras veces, en sistemas Windows, tomarán la forma UNIDAD:\ruta, pudiendo ofrecer información sobre unidades mapeadas.

En ocasiones rutas incluyen cuentas de usuarios, como en el siguiente documento de OpenOffice:

… <meta:template xlink:type="simple" xlink:actuate="onRequest" xlink:href="/C:/Documents%20and%20Settings/mark/Datos%20de%20programa/OpenOffice.org2/user/template/NuevaPlantilla.ott" xlink:title="NuevaPlantilla" meta:date="2008-08-12T10:02:14" /> <meta:user-defined meta:name="Info 1" /> …

Imagen 12: Ruta en perfil de usuario en ODF

O en este otro ejemplo, en un documento de Microsoft Word:

Imagen 13: Ruta en perfil de usuario en MS Word

Puede deducirse fácilmente que, en estos ejemplos, ambos documentos fueron editados por usuarios cuyas cuentas son “mark” y “usuario97” respectivamente.

En el caso de sistemas Linux/Unix pueden apreciarse situaciones similares cuando la ruta incluye el directorio /home:

… <meta:template xlink:type="simple" xlink:actuate="onRequest" xlink:role="template" xlink:href="/home/jkl/.openoffice.org2/user/template/NewTemplate.ott" xlink:title="NuevaPlantilla" meta:date="2008-06-30T09:13:20" /> <meta:user-defined meta:name="Info 1" /> …

Imagen 14: Ruta a directorio HOME personal

Los documentos PDF tampoco son inmunes a este problema. En ocasiones, durante su creación, se incorporan a alguno de los campos de metadatos la ruta del documento original:

Imagen 15: Información en propiedades PDF

Nótese que en el campo “Title” aparece una ruta de archivo en formato UNC y que el equipo que comparte el recurso aparece identificado por su dirección IP. Por otro lado, en el campo “Autor” aparece lo que podría ser una cuenta de usuario (mark). De todo lo anterior puede deducirse que el usuario “mark” tiene, al menos, permisos de lectura sobre el recurso compartido.

Page 6: Ponencia250

Este ejemplo visto con el documento PDF que puede parecer algo extraño es, por el contrario, una situación muy común cuando los documentos son generados con impresoras virtuales PDF.

Otra característica, como el historial de revisiones de un documento, puede proporcionar una combinación de cuentas de usuario y rutas de archivos. La siguiente captura muestra metadatos e información oculta extraída de un documento de Microsoft Word mediante la herramienta Extract de Libextractor[11]:

Imagen 16: Historial de Revisiones en MS Word

Entre las propiedades del documento, introducidas durante la instalación o configuración de la herramienta, también pueden encontrarse direcciones de correo electrónico y otros datos personales.

Imagen 17: Información personal

O en un documento PDF, del cual se extraen los datos mediante Exiftool:

ExifTool Version Num : 7.00 File Name : listado.pdf Directory : . File Size : 481 kB File Modification Date : 2007:04:09 15:45:45 File Type : PDF MIME Type : application/pdf Warning : Install Compress::Zlib to decode filtered streams Encryption : Standard v2.3 Page Count : 8 Creator Tool : Acrobat PDFMaker 6.0 for Word Metadata Date : 2004:07:08 11:47:19+02:00 Document ID : uuid:0ae24002-681f-48c4-bb18- 0dc54d8eb14e

Format : application/pdf Modify Date : 2004:07:08 11:47:19+02:00 Create Date : 2004:07:08 11:44:32+02:00 Title : Listado de asistentes Creator : Acrobat PDFMaker 6.0 for Word Author : LBRIDE Producer : Acrobat Distiller 6.0 (Windows) Company : -- Ad Hoc Review Cycle ID : 1888595674 Email Subject : confirmacion Author Email : [email protected] Author Email Display Name : Accountings Previous Ad Hoc Review Cycle ID : 2062293108 Source Modified : D:20040708094338

Imagen 18: Información extraída de documento PDF

Nótese como la información revelada no se limita a la dirección de correo electrónico, apareciendo datos sobre el software utilizado, el sistema operativo o la cuenta del usuario.

Bases de datos y combinaciones de correspondencia

No es habitual que se publiquen en Internet modelos utilizados para la combinación de correspondencia, pero sí hay ocasiones en las que se proporciona una copia de un modelo a alguien ajeno a la organización con necesidades parecidas por el simple y humano deseo de ayudar o enseñar.

En estas situaciones suele tenerse en cuenta que lo que se entrega es sólo el modelo y que, en ningún caso se entregan los datos utilizados en la combinación. Sin embargo, el modelo es por sí solo bastante revelador, ya que incluye información descriptiva de la base de datos de la que extrae la información para rellenar sus campos.

Imagen 19: Información de base de datos

En la Imagen 19, correspondiente a un modelo creado con Microsoft Word, el texto seleccionado revela prácticamente todo lo necesario para acceder con éxito a la base de datos:

Page 7: Ponencia250

SELECT pruebas_0.apellidos, pruebas_0.nombre, pruebas_0.tlf FROM pruebasmetadata.pruebas pruebas_0 DATABASE=pruebasmetadata DRIVER={MySQL ODBC 3.51 Driver} OPTION=0 PWD=PassMETADATA PORT=0 SERVER=servidor UID=UsuarioMETADATA

De igual forma, en un modelo creado con OpenOffice se revela información sensible relativa a la Base de Datos, como el nombre de la instancia, o los datos relativos a tablas y columnas:

… <text:p text:style-name="Standard"> <text:database-display text:table-name="Contactos" text:table-type="table" text:column-name="nombre" text:database-name="Referencias"><nombre></text:database-display> </text:p> <text:p text:style-name="Standard"> <text:database-display text:table-name="Contactos" text:table-type="table" text:column-name="direccion" text:database-name="Referencias"><direccion></text:database-display> </text:p> <text:p text:style-name="Standard"> <text:database-display text:table-name="Contactos" text:table-type="table" text:column-name="clave" text:database-name="Referencias"><clave></text:database-display> …

Imagen 20: Información de base de datos

Esta información podría ser aprovechada para realizar ataques directos a la base de datos o para ataques de tipo indirecto, como pudieran ser los de SQL Injection[12].

Recursividad

Una de las características más poderosas y enriquecedoras de los documentos ofimáticos es su capacidad de contener ficheros incrustados de diverso tipo como por ejemplo, otros documentos ofimáticos, ficheros de audio o imágenes. Estos ficheros incrustados pueden incluir a su vez metadatos, datos ocultos e informaciones perdidas… y más ficheros incrustados. Asimismo, algunos formatos y programas incorporan opciones como la de recordar versiones antiguas del documento.

Es posible extraer también información de estos documentos incrustados mediante un proceso de exploración recursivo que proporcione datos

adicionales que posteriormente puedan ser relacionados con los obtenidos del documento inicial.

Así, si un documento contiene una fotografía incrustada, un análisis de los metadatos de ésta, normalmente en formato EXIF [13], podría arrojar datos tan llamativos como la fecha y la hora de cuando fue tomada o la marca y el modelo de cámara o teléfono móvil usado, contribuyendo a crear un perfil de la organización y/o el autor del documento.

Metadatos y Google

Los metadatos no nacieron como algo nocivo, sino como algo positivo que pudiera ayudar a conocer mejor la información almacenada en un documento. Por ellos, su uso en los buscadores de información en Internet, como Google, hacen uso de ellos a la hora de indexar información. Como respuesta a una búsqueda de usuario, Google proporciona una serie de resultados, cada uno de los cuales comienza con un encabezado o título. El valor de este encabezado suele obtenerse del campo de Título “Title” o similar de los metadatos del documento.

Imagen 21: Resultados usando el campo title

Sin embargo, hay ocasiones, bien porque se usen programas que dejan vacío dicho campo, bien porque los usuarios hayan eliminado su contenido, en las que no existe un campo de metadatos de los que se pueda inferir el encabezado del resultado. También puede suceder que la información contenida en ese campo sea considerada como poco relevante para el análisis automático realizado por Google. En esos casos Google intenta determinar valores alternativos basándose en los encabezados y los pies de los documentos, en las primeras líneas de texto del documento o en elementos similares.

Esta forma de trabajar de Google conlleva que lo que antes eran datos perdidos en un documento se conviertan en metadatos, no almacenados junto con el documento, pero fácilmente localizables mediante el buscador.

Page 8: Ponencia250

Por ejemplo, un documento PDF con metadatos como los mostrados en la Imagen 22:

Imagen 22: Metadatos en documento PDF

Cuyos encabezados y pies de página son los de la Imagen 23:

Imagen 23: Encabezado y pie de página

Puede terminar indexado en Google con este encabezado:

Imagen 24: Información de base de datos

Este proceso realizado por Google permitiría a cualquier persona con conexión a Internet obtener la cuenta de usuario utilizada por el creador del documento sin necesidad de descargar el documento. De hecho, como los datos habrían sido obtenidos directamente de los resultados de Google, la organización propietaria del fichero no tendría noticia siquiera del acceso a dicha información.

Por otro lado, cualquier metadato, ya sea embebido en el documento o creado por el buscador, que quede reflejado en los resultados de una búsqueda en Google plantea un problema añadido: Incluso si la organización detecta el problema y corrige o elimina el documento, la Caché del buscador puede seguir almacenando los datos anteriores durante algún tiempo y manteniéndolos visibles para cualquier usuario de Internet.

MEDIDAS PREVENTIVAS: LIMPIEZA DE DOCUMENTOS

De lo expuesto hasta ahora se deduce que la fuga de información a través de documentos electrónicos es un serio problema cuya complejidad se ve incrementada por el elevado número de formatos de ficheros y definiciones de metadatos que hay que gestionar.

Por otro lado, las aplicaciones de creación y manipulación de documentos permiten visualizar y editar los metadatos incorporados a cada fichero, pero los datos ocultos suelen quedar fuera del control del usuario.

Sin embargo, la mayor parte de las herramientas actuales de limpieza de documentos eliminan o modifican los metadatos, pero no tienen en cuenta la información oculta.

En el caso de los documentos creados con la suite Microsoft Office, una de las mejores soluciones es la opción de “Inspeccionar” un documento que incorpora la versión 2007. Esta herramienta busca toda la información que un documento tiene tanto en metadatos como en información oculta y permite eliminarla, independientemente de la versión del formato de archivo que se esté utilizando y de la versión de Office utilizada para su creación. Además, realiza funciones similares para cualquier tipo de formato de documento que maneje la herramienta.

Imagen 25: Información de base de datos

Para las versiones de Microsoft Office anteriores a 2007 (versiones XP y 2003), la compañía puso a disposición de los usuarios un plug-in con funcionalidades similares llamado RHDTool [14].

Otra opción es utilizar herramientas de terceros para eliminar esta información, como por

Page 9: Ponencia250

ejemplo Metadata Extractor [15] o Doc Scrubber [16]. Sin embargo, tras realizar múltiples pruebas, se puede constatar que la limpieza realizada por estas aplicaciones no es total, y, en el caso de datos ocultos como los nombres de impresoras, seguían almacenados en los documentos tras ser limpiados.

Por lo que respecta a OpenOffice, el número de herramientas disponibles es muy reducido y normalmente no tienen en cuenta la información oculta.

A este respecto, cabe destacar OOMetaExtractor [17], que permite extraer y eliminar metadatos e información oculta tanto para un único documento como para todos los que estén almacenados en una determinada carpeta o directorio. Se trata de una herramienta de código abierto que disponible para sistemas Microsoft Windows.

Imagen 26: OOMetaextractor

El caso de los documentos PDF es más complejo si cabe. No sólo porque hay que tener en cuenta los distintos formatos de metadatos que puede incluir, sino porque en muchas ocasiones las herramientas que dicen limpiar los metadatos en realidad no lo hacen. En su lugar, simplemente, eliminan las referencias a los metadatos, dejándolos al margen de la jerarquía de objetos del fichero, sin eliminarlos.

Pruebas hechas con Adobe Acrobat indican que, si se eliminan los metadatos y se guarda el resultado con otro nombre de archivo, desaparecen los metadatos anteriores.

Otra opción es usar el comando cat de pdftk [18], que copia sólo el contenido de las páginas a otro archivo. En este caso el problema es que también son eliminados otros elementos del documento como, por ejemplo, los enlaces.

En este análisis no se ha hecho referencia a los datos perdidos. Debido a su especial y variada

naturaleza, éstos deben ser objeto de una cuidadosa comprobación en la que, casi inevitablemente, debe intervenir un revisor humano.

SOLUCIONES GLOBALES

Aplicaciones como las indicadas en el punto anterior sólo suponen una solución parcial al problema, si bien suponen una considerable mejora en el nivel de seguridad. Por ello, es necesario definir una solución global que abarque todos los aspectos y funcionalidades asociadas a los metadatos y a la información oculta.

La solución no debe consistir en la eliminación sistemática de datos, puesto que los metadatos, debidamente gestionados, pueden ser utilizados por distintas aplicaciones para procesar automáticamente los documentos. Así lo vienen haciendo muchos sistemas de gestión documental y, en el futuro, se prevé que sea ése el modo de operación de la Web Semántica [19]. La información oculta, una vez bajo control, también puede ser aprovechada de diversas formas.

En los siguientes apartados se propone un marco para el desarrollo de sistemas de gestión de estos contenidos adicionales.

Políticas Corporativas sobre metadatos e información oculta

Dado por sentado que los datos adicionales deben ser gestionados y no borrados, es necesario disponer de reglas que permitan determinar si los valores contenidos en los mismos, y el uso que se hace de ellos, son aceptables o no.

La comparación de los datos adicionales de cada documento con estos patrones hará posible la detección y resolución de situaciones de riesgo o no deseadas.

A las definiciones formales de estas normas se les denominará en este artículo “Políticas Corporativas sobre metadatos e información oculta” o, simplemente “políticas corporativas”. En ellas se especificará la forma y los valores que pueden tomar los datos adicionales dentro de la organización y cómo y por quién pueden ser éstos manipulados.

Estas políticas corporativas deben asegurar, al menos, los tres objetivos principales expresados hasta el momento:

Page 10: Ponencia250

• El mantenimiento de la imagen corporativa: por ejemplo, especificando que el campo de “Autor” debe contener el nombre de la organización.

• El correcto funcionamiento del software que pueda utilizar los metadatos: garantizando que ningún documento queda fuera de los flujos de trabajo por contener metadatos u otra información errónea.

• La seguridad: no sólo por los problemas de fuga de información. A medida que proliferen los programas capaces de gestionar los metadatos y la información oculta, es de esperar que surjan nuevos tipos de malware que intenten manipular estos datos con objeto de aprovechar nuevas vulnerabilidades o provocar fallos en las aplicaciones corporativas.

Estas políticas incluirán, entre otras cosas, información sobre los permisos de acceso a los metadatos y deberán ser objeto, a su vez, de unos permisos de acceso autorizado.

Asimismo, deben dar respuesta tanto a las necesidades globales de la organización como a las particularidades de cada una de sus unidades. Para ello, se propone utilizar un modelo formal de la organización, con sus unidades y operaciones, basada en un directorio LDAP, u otra herramienta de similar naturaleza.

El directorio LDAP, o el directorio que en cada caso se seleccione, deberá funcionar de forma distribuida y replicada entre las distintas sedes o unidades de la organización, de forma que se garantice la actualización y disponibilidad de la información.

Cada nodo del árbol de directorio tendrá asociado un conjunto de políticas que será el resultado de la combinación de las políticas heredadas de sus nodos superiores y de las políticas definidas expresamente para ese nodo.

Componente Metadata Honeypot

Los datos adicionales, presentes en los documentos, son un vector de ataque que puede ser aprovechado por los ciberdelincuentes para determinar una imagen de las redes internas de a la organización, y del funcionamiento de ésta, que les ayude a realizar con éxito sus actividades ilícitas.

Ante esta situación, las organizaciones podrían introducir metadatos modificados de forma que proporcionen al atacante una imagen falsa de su red interna o su funcionamiento. Estos metadatos

dirigirían al atacante hacia recursos falsos, monitorizados por el Sistema de Detección de Intrusos (IDS) de la organización. A la componente del sistema de seguridad de metadatos cuya función es la definición y la aplicación de las políticas relacionadas con esta operativa se le llamará “Metadata Honeypot”.

La imagen falsa de red que se ofrezca debe ser consistente y creíble, para lo cual se creará un modelo de red que contemplará elementos como:

• El direccionamiento IP

• La estructura de dominios y subdominios

• Las sedes, sus direcciones, etc.

• Notación para los nombres de equipos, elementos de la red y los usuarios

• Para cada equipo: nombre, dirección, recursos compartidos y rutas locales.

• Para cada usuario: nombre propio, cuenta, equipos y aplicaciones que usa, servidores y recursos compartidos a los que accede, cuenta de correo y otros datos de contacto.

Por supuesto, el contenido y alcance particular del modelo deberá adaptarse a las necesidades de cada organización. Una vez creado, deberá crearse la infraestructura de detección de intrusiones que monitorice cualquier intento de acceso a la red inexistente.

El modelo así definido se integrará en las políticas corporativas y será utilizado para construir conjuntos de metadatos, datos ocultos e informaciones perdidas, de acuerdo con los distintos tipos de documentos que se utilicen en la organización, para que den soporte la imagen de red ficticia.

La generación de conjuntos de datos se podrá realizar en tiempo real, en el momento de asignarlos al documento, o de forma masiva, durante la configuración y las actualizaciones del sistema. Durante la manipulación, publicación, envío o compartición de los documentos se incorporará a los mismos los correspondientes conjuntos de metadatos que contemplarán, entre otras, las necesidades del Metadata Honeypot.

Monitorización proactiva de las publicaciones

Los intentos de establecer un modelo de red a partir de los datos adicionales incluidos en los documentos siguen unos patrones muy

Page 11: Ponencia250

determinados, que incluyen la descarga masiva de ficheros ofimáticos. La monitorización y detección de estos comportamientos sospechosos permitiría tomar las contramedidas oportunas, que podrían variar desde denegar los posteriores accesos al posible atacante a, en casos de especial gravedad, suspender temporalmente la publicación de documentos.

Este control se complica en entornos con recursos distribuidos. En estos casos será necesario construir una red de servidores de monitorización de accesos que repliquen entre sí las situaciones detectadas, ya sea a intervalos regulares, bajo demanda o ante situaciones de alarma. Deberá garantizarse que todo servidor web, así como cualquier otro tipo de servicio de publicación de contenidos, pueda comunicarse e integrarse con, al menos, uno de los servidores de monitorización.

Protección en los procesos internos

Las medidas de protección anteriores, aunque necesarias, son manifiestamente insuficientes. Un documento elaborado utilizando los medios de una organización puede salir fuera de ésta a través de una inmensa variedad de canales no formales, tales como copias en medios extraíbles, accesos ilegítimos o no autorizados, envíos por correo electrónico, publicaciones en páginas web particulares o simplemente siendo copiados desde una unidad de red.

Ante esta dificultad, no cabe otra solución que integrar las políticas corporativas en todos los procesos de creación, manipulación, comunicación y publicación de documentos. La monitorización debe realizarse en tiempo real para asegurar, en todo momento, la idoneidad de los conjuntos de datos adicionales. Todo ello, incluso en el caso de que no se prevea su publicación o remisión.

Asimismo, sería preciso disponer de la opción de realizar comprobaciones bajo demanda o programadas.

Como resultado de estos análisis se podrían detectar posibles inconsistencias que, cuando fuera posible, serían corregidas de forma automática. En caso de que la gravedad del problema así lo aconsejara, se producirían las correspondientes alertas y actuaciones de seguridad.

La monitorización deberá llevarse a cabo en todos los equipos en los que se almacene, gestione o manipule documentos. Las similitudes entre este proceso y la forma en que funcionan

las aplicaciones antivirus y antimalware podrían hacer recomendable integrar ambos elementos en un mismo producto. De hecho, como se indicó anteriormente, es muy probable que en el futuro surjan nuevos tipos de malware orientados a la manipulación y detección de metadatos, información oculta y datos perdidos.

Tampoco se debe olvidar la importancia de los procesos manuales de aprobación de contenidos en los sistemas de publicación. En esta tarea, se debe presentar a los revisores las informaciones adicionales que los documentos acarrean y las implicaciones que éstas pueden tener. Todo ello con un lenguaje y una forma comprensibles.

Como regla general, no debería ser posible aprobar la publicación de un documento si antes no se ha dado el visto bueno, de forma expresa, a todos los datos adicionales asociados a él.

Consideraciones de funcionamiento

Existen múltiples formatos de documento. Y cada uno puede almacenar uno, o incluso varios, formatos de metadatos y otras informaciones adicionales. Sin embargo, las políticas corporativas deben hacer referencia a un único modelo global de metadatos en la organización.

Esta diferencia de enfoque se puede resolver mediante el uso de extensiones, que actuarían como intermediarios entre el sistema de protección de datos adicionales y los documentos gestionados.

Cada extensión gestionaría uno o varios formatos de documentos, bien basándose en la extensión del fichero o en su contenido. Su principal función sería asegurar la consistencia de los metadatos con las políticas corporativas, adaptándolas a las peculiaridades de cada formato de documento y a los distintos tipos de operaciones que se pueden llevar a cabo sobre los mismos.

Para asegurar la interoperatividad entre los diferentes sistemas de gestión de datos adicionales en los documentos y las extensiones escritas por terceros, deberán establecerse protocolos estándares de interacción entre ambos.

CONCLUSIÓN

Los documentos incluyen informaciones adicionales que, debidamente gestionadas, pueden contribuir a mejorar la seguridad, la imagen y el funcionamiento de las organizaciones. Sin embargo, hasta la fecha, se

Page 12: Ponencia250

ha venido prestando poca atención a esta característica de la tecnología. El resultado es un elevado riesgo de fuga de información y, en ocasiones, daños causados a la imagen corporativa.

Estos datos adicionales deben ser considerados como un nuevo recurso que hay que proteger y administrar, puesto que se prevé que jueguen un papel fundamental en la evolución de los paradigmas relacionados tanto con Internet como con los Sistemas de Información.

REFERENCIAS

Richard M. Smith, 2003. Microsoft Word bytes Tony Blair in the butt. Publicado en la web con URL: http://www.computerbytesman.com/privacy/blair.htm

Alonso Cebrián, José María y Rando González, Enrique, 2008. Metadatos en Microsoft Office. Windows TI Magazine, nº 135. Publicado en la web con URL: http://elladodelmal.blogspot.com/2008/09/metadatos-en-microsoft-office-i-de-v.html

Alonso Cebrián, José María y Rando González, Enrique, 2008. Metadatos e Información Oculta en Documentos de Openoffice. PC World PRO, nº 257, pp. 82-91. Publicado en la web con URL: http://elladodelmal.blogspot.com/2008/11/metadatos-e-informacin-oculta-en.html

Alonso Cebrián, José María, Rando González, Enrique, Guzmán Sacristán Antono y Oca, Fracisco 2008. Modelo de referencia para la gestión y protección de metadatos. Publicado en el libro de actas de la Conferencia Iberoamericana de Internet/WWW 2008.

[1] ODF http://es.wikipedia.org/wiki/OpenDocument [2] ISO http://www.iso.org/ [3] XML http://www.w3c.es/divulgacion/guiasbreves/tecnologiasXML [4] OOXML http://www.microsoft.com/spain/interop/openxml/ds_open_xml.mspx [5] PDF http://es.wikipedia.org/wiki/.pdf [6] XMP http://es.wikipedia.org/wiki/XMP [7] RDF http://es.wikipedia.org/wiki/Resource_Description_Framework [8] EPS

http://es.wikipedia.org/wiki/PostScript_encapsulado [9] PNG http://es.wikipedia.org/wiki/PNG [10] UNC http://www.webopedia.com/TERM/U/UNC.html [11] Libextractor http://gnunet.org/libextractor/ [12] SQL Injection http://www.owasp.org/index.php/SQL_injection [13] EXIF http://es.wikipedia.org/wiki/Exchangeable_image_file_format [14] RHDTool http://www.microsoft.com/downloads/details.aspx?FamilyID=144e54ed-d43e-42ca-bc7b-5446d34e5360&displaylang=es [15] Metadata Extractor http://meta-extractor.sourceforge.net/ [16] Doc Scrubber http://www.javacoolsoftware.com/docscrubber/index.html [17] OOMetaExtractor http://www.codeplex.com/OOMetaextractor [18] pdftk http://www.accesspdf.com/pdftk/ [19] Web Semantica http://es.wikipedia.org/wiki/Web_sem%C3%A1ntica