tesina insercion de informacion oculta en archivos pdf
TRANSCRIPT
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
1/73
INSTITUTO POLITECNICO NACIONAL
ESCUELA SUPERIOR DE INGENIERA MECNICA Y ELCTRICA
SECCION DE ESTUDIOS DE POSGRADO E INVESTIGACION
INSERCIN DE INFORMACIN OCULTA EN ARCHIVOS PDF
TESINA
QUE PARA OBTENER EL GRADO DE:
ESPECIALISTA EN SEGURIDAD INFORMATICA Y TECNOLOGIAS DE LA INFORMACION
PRESENTA:
Ing. RUBEN JONATHAN GARCIA VARGAS
ASESOR: Dr. MARIO GONZALEZ LEE
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
2/73
ii
Mxico D.F 2011
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
3/73
iii
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
4/73
iv
Resumen
En la actualidad las empresas e instituciones de gobierno usan los documentos digitales
diariamente confiando en que su informacin no ser modificada, sin embargo esto es un riesgo
ya que no se puede garantizar que alguien que tenga acceso a un documento digital no sea capaz
de modificarlo. En el presente trabajo se propone un mecanismo para insertar informacin demanera oculta en un archivo PDF utilizando la estructura interna del mismo por medio de una
llave de insercin que se agrega a los diccionarios de los objetos PDF, y se presenta un mtodo de
codificacin de caracteres de texto en objetos PDF numricos con un lmite definido por el usuario
de hasta 8 caracteres por diccionario. As mismo se presenta el mtodo de verificacin y
decodificacin correspondiente tomando una llave para hacer la revisin de diccionarios y un
lmite para el proceso de decodificacin de nmeros decimales a caracteres de texto. Tambin se
presenta una implementacin del modelo de insercin propuesto por medio de un programa
hecho C# capaz de abrir un archivo PDF, calcular la capacidad e insercin, extraer una lista de
posibles objetos insertables, y realizar los procesos de insercin, codificacin, verificacin y
decodificacin usando las llaves y limites que indique el usuario. As mismo la aplicacin puedeintroducir el texto de un archivo txt y recuperarlo posteriormente en otro. Por ltimo se presentan
las pruebas del sistema y las limitaciones que presenta.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
5/73
v
Agradecimientos
A mis padres que me apoyan y motivan a seguir adelante, mis amigos que incitan a buscar cosas
mejores, profesores que con su enseanza me han ayudaron a ser mejor persona y compaeros
de trabajo que me apoyaron en la realizacin de este proyecto y de todos los que me propongo en
la vida. A todos gracias.
Rubn J. Garca V.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
6/73
vi
ndice
1 Introduccin ................................................................................................................................ 1
1.1 Definicin del problema ...................................................................................................... 1
1.2 Justificacin ......................................................................................................................... 11.3 Objetivo ............................................................................................................................... 2
1.4 Antecedentes ...................................................................................................................... 3
1.4.1 Contrasea .................................................................................................................. 3
1.4.2 Permisos sobre el documento ..................................................................................... 4
1.4.3 Insercin de informacin de control en el documento ............................................... 4
1.4.4 Control de Documentos Digitales por medio de servicios compartidos ..................... 5
1.4.5 Resumen electrnico del Documento ......................................................................... 6
1.4.6 Firma Digital ................................................................................................................ 7
1.4.7 Servidores de certificacin de archivos ....................................................................... 8
1.4.8 PDF .............................................................................................................................. 9
2 Autenticacin y Derechos de Autor en Archivos Digitales ........................................................ 10
2.1 Marcas de Agua ................................................................................................................. 10
2.2 Seguridad persistente en los documentos ........................................................................ 12
2.2.1 Control de Documentos ............................................................................................ 13
2.2.2 Control Dinmico de documentos ............................................................................ 142.2.3 Rendicin de cuentas ................................................................................................ 15
2.2.4 Firmas digitales .......................................................................................................... 16
2.2.5 Integridad .................................................................................................................. 16
2.2.6 Autenticidad .............................................................................................................. 17
2.2.7 No repudio................................................................................................................. 17
2.2.8 Infraestructura de clave pblica (PKI) ....................................................................... 17
3 Esteganografa y los Medios Digitales ....................................................................................... 18
3.1 Autenticacin Basada en el Contenido ............................................................................. 18
3.2 Codificacin por Cambio de Lneas ................................................................................... 19
3.3 Codificacin por Cambio de Palabras ................................................................................ 19
3.4 Codificacin de Caractersticas ......................................................................................... 19
3.5 Aplicaciones de Esteganografa ......................................................................................... 19
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
7/73
vii
4 Estructura de los archivos PDF .................................................................................................. 22
4.1 Caractersticas ................................................................................................................... 22
4.2 Objetos del Estndar PDF ISO 32000 ................................................................................ 23
4.2.1 Objetos Lgicos ......................................................................................................... 23
4.2.2 Objetos Numricos .................................................................................................... 23
4.2.3 Objetos de Cadena de Texto ..................................................................................... 24
4.2.4 Objetos Nombre ........................................................................................................ 25
4.2.5 Objetos Arreglo ......................................................................................................... 26
4.2.6 Objetos Diccionario ................................................................................................... 26
4.2.7 Objetos Cadenas........................................................................................................ 27
4.2.8 Objetos Nulos ............................................................................................................ 29
4.2.9 Objetos Indirectos ..................................................................................................... 294.3 Estructura .......................................................................................................................... 31
4.3.1 Cabecera .................................................................................................................... 31
4.3.2 Cuerpo ....................................................................................................................... 31
4.3.3 Tabla de referencias cruzadas ................................................................................... 32
4.3.4 Trailer ........................................................................................................................ 32
4.4 Actualizaciones Incrementales .......................................................................................... 34
5 Desarrollo del Sistema............................................................................................................... 36
5.1 Modelo del Sistema de Insercin ...................................................................................... 40
5.1.1 Mtodo de Codificacin ............................................................................................ 41
5.1.2 Mtodo de Insercin ................................................................................................. 41
5.2 Modelo del Sistema de Verificacin .................................................................................. 43
5.2.1 Funcin de Verificacin ............................................................................................. 43
5.2.2 Funcin de Decodificacin ........................................................................................ 44
5.3 Implementacin ................................................................................................................ 45
6 Prueba MOS, Anlisis, Conclusiones y Trabajo a Futuro ........................................................... 466.1 Prueba MOS ...................................................................................................................... 46
6.2 Pruebas de Implementacin ............................................................................................. 47
6.3 Conclusiones y Trabajo a Futuro ....................................................................................... 48
Bibliografa .......................................................................................................................................... a
Referencias .......................................................................................................................................... b
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
8/73
viii
ndice de Imgenes .............................................................................................................................. f
ndice de Tablas .................................................................................................................................... f
Glosario ............................................................................................................................................... g
Anexos .................................................................................................................................................. j
A. Diagramas de Clases de Objetos PDF ...................................................................................... k
B. Nombres Recomendados para las Entradas en Diccionarios .................................................. n
C. Parmetros de la Aplicacin PDFAnalizer ............................................................................... o
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
9/73
Insercin de Informacin Oculta en Archivos PDF 2011
1
1 Introduccin
1.1 Definicin del problemaLos archivos PDF son utilizados con frecuencia por las empresas y entidades de gobierno como una
forma cotidiana de enviarse informacin, confiando que estos documentos son seguros y difcilesde modificar; sin embargo, para aquellas personas que conocen la estructura interna de los
archivos PDF, es posible modificar la informacin contenida sin tener que crear un archivo
diferente; por lo que es necesario desarrollar un algoritmo y encontrar un parmetro para insertar
informacin oculta dentro la estructura de un archivo PDF de manera tal que no sea perceptible
para un atacante que intente modificar la informacin y al mismo tiempo no haya modificaciones
en el documento visibles para el ojo humano.
1.2 JustificacinEn la actualidad la informacin de las empresas se considera como el bien ms importante y
valioso que se pueda poseer. Esto provoca que garantizar que la informacin sea exacta, veraz,proceda de quien se diga ser su autor y se mantenga su integridad son problemas muy
importantes para las empresas. La veracidad de la informacin contenida en un documento de
texto es de una importancia tal que puede hacer tomar las mejores o peores decisiones cuando la
informacin es incorrecta o a sido falsificada.
En la actualidad los documentos de texto son muy susceptibles a ser modificados por terceras
personas y esto puede provocar errores a las personas que reciben el documento modificado. Los
archivos PDF no son la excepcin ya que su seguridad se agrega directamente en la estructura de
documento y dependiendo de que se habr con la aplicacin que le d cumplimiento al esquema
de seguridad propuesto. Esto hace que si alguien modifica directamente la informacin de laestructura del archivo se corra el riesgo de que la informacin se pierda, dae o se comprometa la
veracidad de la informacin.
Para evitar que sea fcil la modificacin de un archivo PDF se propone utilizar las caractersticas de
la estructura de un archivo PDF y se oculte informacin dentro de sus caractersticas que definen
contenido o apariencia. Un mtodo de este tipo podra ser utilizado para crear esquemas en los
que se pueda controlar quien tiene acceso al documento, mtodos de distribucin, control de
cambios e incluso validacin en contra de modificaciones.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
10/73
Insercin de Informacin Oculta en Archivos PDF 2011
2
1.3 ObjetivoDisear e implementar un algoritmo para insertar informacin de manera oculta en un archivo
PDF tal que esta sea imperceptible al sistema visual humano utilizando las caractersticas de la
estructura del mismo archivo como portadora de la informacin.
Para esto se proponen los siguientes objetivos particulares:
Encontrar un parmetro de la estructura del archivo PDF para insertar informacin en l.
Seleccionar un mtodo de codificacin para la informacin.
Disear un mtodo de verificacin y decodificacin.
Implementar los mtodos en una aplicacin de pruebas
Medir los resultados de la implementacin.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
11/73
Insercin de Informacin Oculta en Archivos PDF 2011
3
1.4 AntecedentesLa necesidad de autenticar y tener informacin de control dentro documentos digitales ha crecido
en diferentes formas en los ltimos aos. Algunos proveedores incluyen en sus aplicaciones
funciones de control de cambios, autenticacin, validacin y firmado de los documentos. Todas las
funciones que se agregan en las aplicaciones para controlar cambios o validaciones tratan degarantizar la confidencialidad, autenticidad, la integridad, disponibilidad y el no repudio en los
documentos electrnicos y en las personas que los utilizan.
Los mtodos que se utilizan son muy variados y van desde un nivel bsico para 1 o dos usuarios
hasta amplias soluciones que involucran la participacin de varios dispositivos y personas para
llevar un control de los documentos digitales. A continuacin se mencionan y describen algunos de
los mtodos ms usados para proteger los documentos electrnicos.
1.4.1 Contrasea
Este es uno de los primeros mtodos que se utiliz para dar seguridad en los documentos
digitales, se basa en la idea que solo las personas que conocen la contrasea pueden abrir el
documento y hacer los cambios necesarios en l. Usualmente esta opcin incluye un mecanismo
de cifrado para evitar que se pueda abrir o modificar el documento con alguna otra herramienta
diferente a la que lo creo.
Imagen 1-1 Uso de Contraseas en Aplicaciones
Esta opcin no fue suficiente ya que la seguridad del documento depende de que tan bien se
guarde la contrasea, adems esta opcin no incluye control de los cambios ni quien tiene acceso
a editar o ver el documento. Con este esquema no se corre el riesgo de que la informacin dentro
de un documento sea modificada y nadie lo note despus de que alguien consiga la contrasea.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
12/73
Insercin de Informacin Oculta en Archivos PDF 2011
4
1.4.2 Permisos sobre el documento
Esta opcin se agreg a las aplicaciones junto con el control de usuarios de la aplicacin o del
sistema operativo, dependiendo de la herramienta con que se creen y editen los documentos. Esta
opcin permite que se asigne permisos de lectura y/o escritura a los diferentes usuarios de un
equipo o aplicacin. Esta opcin permite que si un usuario quiere abrir o editar un documento
primero se valida si puede verlo y despus si puede modificarlo.
Imagen 1-2 Permisos en los Archivos
Esta opcin, como la anterior, tampoco permite tener un control de cambios en el documento ni
un registro de quien accede y que se hace con el documento. Tambin existe la posibilidad que un
usuario con permisos de administrador, ya sea del sistema operativo o de la aplicacin, cambie los
permisos sobre el documento o cambie al dueo del documento.
1.4.3 Insercin de informacin de control en el documento
En esta opcin las aplicaciones empezaron a introducir dentro de la estructura interna del
documento (separado de la parte visible y editable del documento) informacin de control de los
cambios realizados en documento. Los datos de control que se guardan corresponden a: La
posicin del cambio; el usuario que realizo el cambio; la hora del cambio; y el estado anterior.
Imagen 1-3 Herramientas de Control de Cambios
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
13/73
Insercin de Informacin Oculta en Archivos PDF 2011
5
Junto con este esquema se introdujo la posibilidad de tener control sobre los usuarios que
acceden a un documento y se agreg la funcin de llevar registro por cuenta de usuario de la
aplicacin (rendicin de cuentas). Tambin es posible crear roles dentro de un grupo de usuarios
para controlar uno o ms archivos. Esto permite que algunos usuarios puedan ver el documento
bloqueando la edicin; que otros usuarios puedan editar ciertas partes del documento; y que
existan usuarios que validen y aprueben los cambios en los documentos. Incluso es posible llevar
este esquema a los usuarios de diferentes maquinas que tengan la misma aplicacin.
Aunque este esquema aumento las posibilidades de control y validacin de un documento solo es
posible utilizarlo cuando todas las partes que interactan con el documento lo hagan a travs de la
misma herramienta y que exista una configuracin comn cuando se utilizan diferentes equipos
para trabajar sobre los documentos. En la actualidad son pocos los proveedores que ofrecen en
sus aplicaciones un control como este en todas las partes de su sistema y no hay mucha
compatibilidad entre diferentes proveedores. Este sistema tiene la limitante que no controla la
distribucin del documento, ni el flujo en su desarrollo distribuido, es decir es posible que varias
personas estn trabajando el mismo archivo al mismo tiempo y cada uno tenga versionesdiferentes de l. Tambin se corre el riesgo de no saber quien posee la informacin de un
documento ya que se puede copiar el documento sin que la aplicacin sepa cuantas copias hay en
circulacin.
1.4.4 Control de Documentos Digitales por medio de servicios compartidos
Esta es la ltima opcin que se ofrece en el mercado y permite explotar todas las opciones
anteriores y pretende solucionar el problema de la distribucin y acceso a los documentos. El
sistema se basa en la idea de presentar los documentos como un recurso compartido para varios
usuarios dentro de un equipo servidor que se encarga de centralizar el almacenamiento, acceso y
distribucin del documento por medio de una o varias aplicaciones.
El sistema permite que los usuarios autorizados abran el documento en sus equipos, sin embargo
los cambios se guardan en el servidor y no en el equipo que lo edita para evitar que existan varias
versiones circulando de un solo documento. Adems el servidor lleva el control de quien puede
acceder al documento y el registro de quien y que hizo con el documento.
Este sistema tambin lleva un control de cambios y se pueden guardar las diferentes versiones que
se crean con los cambios para poder recuperar cualquier estado anterior del documento. Es
posible tener un control ms estricto sobre los usuarios, sus roles y archivos que pueden ver o
modificar.
Este tipo de sistemas empieza a tener auge ya que los servicios por internet lo estn ofreciendo
como parte de sus prestaciones permitiendo a los usuarios de sus productos compartir
documentos y controlar la edicin distribuida y versiones de un documento a travs de servicios
en internet.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
14/73
Insercin de Informacin Oculta en Archivos PDF 2011
6
Imagen 1-4 Uso de un Servidor de Documentos Compartidos
Estos son los sistemas ms robustos que existen para controlar el flujo de desarrollo de un
documento. Sin embargo estos sistemas tiene la limitante que solo funciona dentro del circulo de
usuarios y equipos que conforman el sistema. No permite tener control sobre personas queadquieran el documento por fuera del sistema, ya sea en un correo electrnico, descarga o una
copia en caso de que alguien tuviera permisos de guardar una copia local. En un escenario real los
documentos finales se comparten con personas fuera del sistema de control de edicin, pueden
ser los jefes que reciben los resultados del documento o clientes que reciben el documento entre
varias posibilidades. Cuando el documento est terminado y es enviado a alguien fuera del
sistema, ya no es posible garantizar la integridad del documento ni verificar su autenticidad.
1.4.5 Resumen electrnico del Documento
Este es un esquema que es muy utilizado en la actualidad pero no es una parte integral en las
aplicaciones, fue diseado para la distribucin de los archivos electrnicos y es aplicable para losdocumentos digitales tambin. Se basa en funciones que crean resmenes de los archivos a
manera de firma.
Imagen 1-5 Funcin de Resumen
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
15/73
Insercin de Informacin Oculta en Archivos PDF 2011
7
La funcin de resumen est planeada para que siempre que se tenga una entrada especfica se
logre el mismo resultado, pero con el ms mnimo cambio en la entrada el resultado ser
totalmente diferente. Estos mtodos son ampliamente aceptados para verificar la autenticidad de
un archivo, sin embargo ya se ha demostrado que es posible generar el mismo resumen con
entradas diferentes (Colisin de la funcin) por lo que estos mtodos son susceptibles a ser
vulnerados.
1.4.6 Firma Digital
Es un esquema matemtico que sirve para demostrar la autenticidad de un mensaje digital o de un
documento electrnico. Consiste en un mtodo criptogrfico que asocia la identidad de una
persona o de un equipo informtico al mensaje o documento. La Firma Digital utiliza un algoritmo
de resumen electrnico y algoritmos de criptografa para cifrar el resultado del contenido de un
documento y garantizar la autenticidad de un documento.
El sistema de firma digital incluye el uso de certificados digitales, mtodos de renovacin de
certificados, servicios de estampado de tiempo, algoritmos de criptografa y funciones deresumen.
Imagen 1-6 Sistema de Firma Digital
http://es.wikipedia.org/wiki/Documento_electr%C3%B3nicohttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/Documento_electr%C3%B3nico -
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
16/73
Insercin de Informacin Oculta en Archivos PDF 2011
8
Para comprobar la autenticidad de un documento por medio de su firma se necita realizar la
extraccin de los datos del documento y hacer la misma funcin de resumen para que el resultado
sea comparado con el resultado de descifrar la firma digital con la llave publica del que firmo el
documento. Si el resultado del resumen y de la firma digital descifrada es el mismo se puede
comprobar que el documento es el mismo que fue enviado originalmente.
Usualmente la Firma Digital y el certificado son adjuntados a los datos para ser enviados al
destinatario. De esta forma el destinatario puede validar la autenticidad del o los documentos
enviados. Otra opcin es que el destinatario pueda descargar un certificado con la llave pblica
para descifrar o cuente con l antes de recibir los datos.
La seguridad de este esquema se basa tanto en la seguridad del mtodo de cifrado en no poder
encontrarla llave que cifro los datos como en la funcin de resumen. Sin embargo algunas
funciones de resumen ya han sido vulneradas por lo que es posible que se generen diferentes
documentos con el mismo resumen y a este sistema solo le queda confiar en lo bien que se guarde
la clave de cifrado.
En este mtodo de autenticacin la informacin de validacin es visible lo que hace evidente que
se utiliz este esquema de seguridad.
1.4.7 Servidores de certificacin de archivos
En Mxico existe la "NORMA Oficial Mexicana NOM-151-SCFI-2002 [A][B][C], Prcticas
comerciales-Requisitos que deben observarse para la conservacin de mensajes de datos" que se
encarga de regular la certificacin de documentos digitales para demostrar su autora e integridad.
Tiene el propsito de regular la prctica de tener documentos electrnicos y/o la digitalizacin de
documentos originales en papel para demostrar su existencia y poder disponer de los documentos
originales y mejorar su gestin en sistemas informticos.
Estos sistemas generalmente se basan en el apsito de una "constancia", tpicamente: los datos
del prestador, una marca temporal (estampa de tiempo) y una firma electrnica, facilitada por un
tercero de confianza legalmente autorizado.
El esquema es muy parecido al de la Firma Digital con la diferencia que se agrega un elemento
llamado estampa de tiempo que indica la fecha de registro y que los datos de la firma digital y el
certificado se guardan en un servidor de un tercero ajeno al que genera el documento y al que lo
recibe. El tercero es una autoridad certificadora autorizada y es esta entidad la que realiza la
validacin de un documento a peticin de l que recibi el documento.
La entidad certificadora se encarga de cumplir con todos los lineamientos de la norma y de dar el
servicio de validacin. Este mtodo depende de que el servicio de validacin est disponible o se
tenga acceso a l para validar un documento, pero si este estuviera fuera de servicio o no se
tuviera acceso a l por errores en la red del cliente que desea verificar la autenticidad de un
documento los usuarios quedan desamparados hasta que se cuente con el servicio. Adems se
tiene el mismo problema que con los algoritmos de resumen que ya han sido colisionados.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
17/73
Insercin de Informacin Oculta en Archivos PDF 2011
9
1.4.8 PDFLos Archivos PDF fueron creados por Adobe, utilizan un mtodo de descripcin de pginas
basado en PostScript y existe toda una solucin implementada a su alrededor utilizando la Suite de
Adobe para crear y controlar archivos PDF. Su finalidad es el poder intercambiar documentos sin
importar el entorno en el que hayan sido creados o en el que se visualicen manteniendo el mismo
aspecto bajo cualquier plataforma.
Adobe ofrece una solucin muy robusta que contempla y propone un proceso de siclo de vida en
la creacin y distribucin de un documento. Sin embargo en el da a da de las aplicaciones y de los
archivos PDF son pocas las empresas que utilizan la Suite de Acrobat para crear sus documentos
debido al amplio nmero de empresas y soluciones que ofrecen la conversin o creacin de estos
Archivos. Adems la seguridad y control que ofrece la suite de Acrobat estn limitados a los
usuarios que cuentan con el sistema en sus equipos. En la seccin Estado del arte de
Autenticacin y Derechos de Autor se describe con mayor detalle lo que se ofrece como sistema
de seguridad y control para estos documentos.
El formato de archivos PDF es usado cotidianamente por muchas aplicaciones ya que la estructura
es pblica y varios proveedores de aplicaciones de creacin de documentos digitales lo han
agregado a sus funciones. Por si sola la estructura de un archivo PDF no tiene control de cambios o
mtodos de validacin, en el presente trabajo se propone un mtodo para incluir informacin
oculta en la estructura de un documento PDF.
Los archivos PDF son ampliamente aceptados por entidades de gobierno y privadas como una
solucin estndar para la representacin de documentos digitales. Existen diferentes
recomendaciones para utilizarlo dependiendo del mbito en el que se utilice. En enero de 2008 el
comit tcnico de ISO aprob una versin final de la documentacin para PDF 1.7 como el
estndar ISO 32000-1[D][E][F][K]. En julio de 2008 puso el archivo a la venta en su pgina Web.
Hasta ahora se han revisado los diferentes mtodos que se han venido utilizando comercialmente
para controlar y autenticar documentos electrnicos. En el siguiente captulo se analizan las
diferentes investigaciones y propuestas que se han diseado para mantener la integridad,
autenticidad o autora de los documentos electrnicos.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
18/73
Insercin de Informacin Oculta en Archivos PDF 2011
10
2 Autenticacin y Derechos de Autor en Archivos DigitalesEl dueo de una obra o de los derechos de autor de un documento digital espera poder tener una
retribucin econmica, social o un reconocimiento a su trabajo; tambin desea que su trabajo no
sea mal utilizado. La proteccin a los derechos de Autor y Autenticacin son tan importantes y tanantiguos como el papel y a lo largo de la historia han existido diferentes mtodos para garantizar
que se puede demostrar la autenticidad y el origen de una obra. La importancia de la originalidad y
veracidad de las cosas a pasado de los medios impresos y se ha convertido en parte vital de los
medios digitales.
La definicin ms acepta actualmente para el manejo de derechos de autor digitales fue
introducida por Iannella de IPR Systems en el W3C (World Wide Web Consortium) Taller de
Manejo de Derechos Digitales en 2001[H]:
El manejo de Derechos Digitales (DRM) involucra la descripcin, identificacin, rastreo,
proteccin, monitoreo seguimiento de todas las formas de uso de derechos sobre ambos activos,
tangibles e intangibles - en ambas formas, fsicas y digitales incluyendo el manejo de las
relaciones de los poseedores de los derechos.
Esta definicin incluye muchas actividades y se requiere de diferentes tipos de procesos y
herramientas para conseguir cada una de sus partes.
Existen diferentes formas de medios digitales (audio, video, imgenes y documentos) y en cada
medio se tienen diferentes formas para realizar la autenticacin y hacer valer los derechos de
autor. Los mtodos ms estudios son las marcas de agua, los mtodos de firma y los mtodos de
control de archivos digitales. Tambin existen mtodos que utilizan la estenografa y estos sernabordados en el siguiente captulo.
2.1 Marcas de AguaLas marcas de agua se crearon con la intensin de poder identificar la originalidad de un objeto,
son casi tan antiguas como la fabricacin de papel. Durante cientos de aos, cualquiera que
poseyera o fabricase un documento u obra de arte valiosos lo marcaba con un sello de
identificacin o marca de agua (visible o no), no slo para establecer su propiedad, origen o
autenticidad, sino para desalentar a aquellos que pudieran intentar robarlo.
La importancia de lograr este mismo objetivo pas a los medios digitales y aumento debido al gran
auge que han tenido los medios de comunicacin digital. Ahora es posible crear copias exactas de
materiales y distribuirlas por todo el mundo por lo que garantizar la identificacin o control de
copias y su distribucin es de vital importancia para los dueos intelectuales de un material digital.
Los materiales digitales se pueden analizar como seales en varios aspectos y muchas de las
teoras seales aplican en ellos. Es por eso que las marcas de agua se pueden analizar como la
insercin de una seal de informacin en un material digital.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
19/73
Insercin de Informacin Oculta en Archivos PDF 2011
11
El objetivo de las marcas de agua es introducir una seal en el material digital de tal forma que
esta seal sea un mtodo confiable para la proteccin del material digital contra su uso ilegal. Las
marcas de agua sirven para identificar al origen, destino o autenticidad de un material digital. Las
caractersticas de una marca de agua dependern de su aplicacin.
Es posible que para diferentes aplicaciones se tengan caractersticas completamente diferentes.
Las marcas de agua se clasifican por el dominio de insercin, el tipo de material digital a proteger,
la percepcin humana y a su aplicacin [G].
Imagen 2-1 Clasificacion de Marcas de Agua
El dominio se refiere al lugar en donde se inserta la marca de agua. El dominio espacial se refiere
al espacio donde la seal digital existe, en una imagen es el nada de bits de brillo de cada punto,
en un video es parecido a la imagen ms la localizacin de la imagen en el tiempo. En un audio es
el valor del sonido que se reproduce. El dominio de una trasformacin es el convertir la seal
digital por medio de una funcin a otra seal con diferentes propiedades.
La percepcin de refiere a si la marca de agua es visible para el ojo humano o no. Cuando una
marca de agua es invisible tambin se suele subdividir a las marcas de agua en frgil, semi-frgil y
robusta dependiendo de su funcin.
Las marcas de agua que se aplican a los diferentes medios son diferentes entre s por lo que seseparan segn el medio. Las imgenes y los videos son muy parecidos, sin embargo los medios
digitales de audio y los de texto son diferentes. Tambin es posible agregar marcas de agua a otros
medios digitales pero su desarrollo no es muy grande.
Adems de esta clasificacin tambin se encuentran las clasificaciones por objetivo a proteger y
por medio de deteccin.
Para detectar una marca de agua se tienen dos formas principales las marcas de agua ciegas y las
no ciegas. Las ciegas son la que no necesitan de tener el medio digital original para corroborar si
existe una marca de agua. Las no ciegas son las que necesitan tener el medio digital original para
compararlo con el medio digital que contenga la marca de agua.
Las marcas de agua se utilizan para las siguientes funciones:
Proteccin de derechos de autor: se incluye en los medios digitales una marca de agua que
permita demostrar u obtener la informacin de la autora u origen de un material digital.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
20/73
Insercin de Informacin Oculta en Archivos PDF 2011
12
Identificacin: se utiliza para identificar a los usuarios o compradores de un medio y as saber si
alguien hace mal uso de un material digital.
Control de Copias: las marcas de agua pueden contener informacin que evite que los equipos o
sistemas de reproduccin puedan copiar el material protegido por la marca de agua.
Monitorio de la Difusin: se pueden disear mtodos de supervisin automatizados que puedan
revisar si un material est siendo distribuido de la manera en que se haya contratado el servicio de
publicacin.
Autenticacin: Se agrega la marca de agua frgil para poder garantizar que un medio no ha sido
modificado son el consentimiento de su autor.
Las marcas de agua son frgiles cuando al ms mnimo cambio en la seal portadora, la marca de
agua se destruye y ya no es detectable. Esto sirve para garantizar que un medio no ha sido
alterado en su composicin.
Las marcas de agua son robustas cuando se disean para que soporten un gran nmero de
cambios en la seal portadora haciendo que la marca de agua persista y sea detectable hasta que
la seal deje de ser til debido al nmero de modificaciones. Esto nos ayuda a mantener los
derechos de autor de un material.
Las marcas de agua son semi-frgiles cuando estn planeadas para soportar las modificaciones
ms comunes sin desaparecer pero con cambios ms notorios la marca se destruya.
En la actualidad existen muchos usos para las marcas de agua en diferentes medios (imgenes,
audio y video), sin embargo en el mbito del texto o los documentos electrnicos no existen
grandes avances al respecto.
2.2 Seguridad persistente en los documentosUna solucin mucho ms eficaz para la proteccin de un documento electrnico es asignar los
parmetros de seguridad como una parte integral del propio documento. Los criterios siguientes
se definen la seguridad persistente de los documentos.
1. Confidencialidad- Quin debe tener acceso al documento?
2. Autorizacin- Qu permisos tiene el usuario tiene para trabajar con el documento?
3. Rendicinde cuentas - Qu ha hecho con el destinatario del documento?
4. Integridad- Cmo sabes si el documento ha sido alterado?
5. Autenticidad- Cmo sabes que el documento de vino?
6. Norepudio- Puede el firmante negar la firma del documento?
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
21/73
Insercin de Informacin Oculta en Archivos PDF 2011
13
Imagen 2-2 Ciclo de vida de la seguridad persistente de un documento
2.2.1 Control de DocumentosConfidencialidad - Cifrado
El cifrado es el proceso de transformacin de la informacin (texto plano) en una forma
incomprensible (texto cifrado). La encriptacin es una tcnica eficaz para la gestin de acceso a los
documentos.
El descifrado es el proceso inverso que transforma el texto cifrado de nuevo al texto original.
La criptografa se refiere a los dos procesos de cifrado y descifrado y su aplicacin se conoce como
un sistema de cifrado.
Los sistemas de cifrado ms populares utilizan el concepto de llaves. Una clave de cifrado son
datos que se combinan con un algoritmo de cifrado para; crear un texto cifrado a partir de texto;
y recuperar texto plano de un texto cifrado. Hoy en da, los expertos en seguridad estn de
acuerdo con los principios de "Kerckhoff" como la base de un sistema de cifrado eficaz. Los
Principios de Kerckhoff establecen que la clave es la nica parte de un sistema criptogrfico que
debe permanecer en secreto para que todo el sistema sea seguro. Si la fuerza del sistema de
cifrado se basa en el hecho de que un atacante no sabe cmo funciona el algoritmo, entonces es
slo cuestin de tiempo antes de que se pueda hacer la ingeniera inversa y romper el mtodo de
cifrado.
Existen dos tipos de mtodos de cifrado, los simtricos y los asimtricos
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
22/73
Insercin de Informacin Oculta en Archivos PDF 2011
14
Claves simtricas: la criptografa de llave simtrica utiliza la misma clave para cifrar y para
descifrar y es muy rpido y difcil de romper cuando se usan llaves grandes. Sin embargo, como
ambas partes tienen la misma llave para una comunicacin efectiva que se produzca, la
distribucin de llaves se convierte en un problema. Hoy en da los algoritmos simtricos comunes
son AES, DES, 3DES, y RC4.
Claves asimtricas: la criptografa de llave asimtrica, tambin llamada criptografa de llave
pblica, utiliza un par de llaves para el cifrado y descifrado. Por ejemplo, si la primera llave cifra el
contenido, entonces la segunda llave de la pareja descifra el contenido. Del mismo modo, si la
segunda llave se utiliza para cifrar la informacin, a continuacin, la primera llave se debe utilizar
para descifrar el contenido.
Normalmente, una de las claves del par se etiqueta como la llave pblica y la otra como la llave
privada. Un individuo mantiene en secreto la llave privada, mientras que la llave pblica se
distribuye gratuitamente a otros que deseen comunicarse con la persona que tiene la privada.
Cuando alguien desea enviar a la persona con la llave privada un mensaje confidencial, l o ellapueden cifrar con la llave pblica libremente disponible y enviar el texto cifrado al individuo.
Debido a que el individuo es el nico que tiene la llave privada, l o ella es el nico que puede
descifrar el contenido.
Las llaves asimtricas ayudan a resolver el problema de distribucin de claves, pero los algoritmos
tienden a ser ms lentos. Algunos algoritmos asimtricos comunes son RSA, DSA y El Gamal.
Autorizacin
Adems de manejar quien puede abrir un documento, las organizaciones obtienen proteccin
adicional a travs de la autorizacin. La autorizacin especfica lo que un usuario puede hacer conun documento y se logra a travs de permisos y control dinmico de documentos.
Permisos
Los permisos rigen la actuacin de un usuario al trabajar con un documento protegido. Los
permisos se pueden especificar si un destinatario que tiene acceso al documento est autorizado a
imprimir o copiar el contenido, rellenar campos, aadir comentarios o anotaciones en el
documento, insertar o eliminar pginas, remitir el documento, firmar digitalmente el documento,
y as sucesivamente con cada accin posible en el documento.
2.2.2 Control Dinmico de documentosEl control dinmico documento mantiene los derechos de acceso y permisos asignados a un
documento electrnico una vez que ha sido publicado y distribuido. El autor de un documento
puede realizar cambios en un documento dado a conocer sin tener que redistribuirlo
manualmente ya que los cambios se envan automticamente a todas las versiones existentes del
documento, sin importar su lugar de residencia. Usando el control de documentos dinmicos, las
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
23/73
Insercin de Informacin Oculta en Archivos PDF 2011
15
organizaciones pueden gestionar y supervisar el uso de documentos electrnicos dentro y fuera
del firewall, en lnea o no, y en varios documentos.
El control dinmico documento incluye las siguientes capacidades:
1.
Caducidad de Documento y revocacin
El control posterior a la publicacin del documento se puede mantener a travs de la
aplicacin de fechas de vencimiento y la posibilidad de revocar el acceso a un documento.
Por ejemplo, un autor puede enviar un documento que expirar dentro de dos semanas
para que los destinatarios no puedan tener acceso a l una vez que la fecha de caducidad
ha pasado. O bien, el acceso a un documento puede ser revocado automticamente si un
destinatario autorizado abandona el proyecto o cambia de departamento.
2. Gestin de acceso fuera de lnea
Las organizaciones pueden administrar la duracin que un destinatario autorizado puede
tener un documento fuera de lnea. Una vez que la longitud de tiempo ha pasado, el
destinatario ya no puede ver el documento y tiene que ir de nuevo al sistema en lnea para
obtener el acceso. Cualquier cambio de acceso o permisos que el autor haya realizado en
el documento distribuido se aplicar cuando el destinatario este de nuevo en lnea.
3. Control persistente de versiones
Los sistemas de gestin de documentos y de contenido proporcionan un mecanismo eficaz
de control de versiones, siempre y cuando un documento se Mantenga dentro de loslmites del sistema. El control persistente de versiones funciona manteniendo el control de
versiones fuera del sistema y fuera de lnea. Permite a los autores del documento realizar
cambios en las polticas de uso de un documento y evitar que la versin obsoleta se
acceda por los usuarios finales mientras se actualiza la versin.
2.2.3 Rendicin de cuentasLa auditora de documentos permite a las organizaciones mantener la responsabilidad de los
usuarios con respecto a la utilizacin de documentos protegidos, ya que se pueden conocer con
precisin a los involucrados con un documento:
Cmo un destinatario ha utilizado un documento? Con qu frecuencia se produjo cada tipo de
uso? Cuando ocurri el uso del documento?
La rendicin de cuentas se logra cuando un autor puede rastrear el uso de cada destinatario de un
documento para cada permiso asignado (por ejemplo, permitir que un usuario rellene los campos
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
24/73
Insercin de Informacin Oculta en Archivos PDF 2011
16
en un formulario, imprimir, reenviar, guardar una copia, etc.) La auditora debe incluir
notificaciones automticas sobre el uso de los documentos protegidos.
Por ejemplo, un representante de servicio al cliente enva un cliente una declaracin electrnica
con tiempo crtico que requiere una accin por parte del cliente, como una respuesta o firma
digital. Una vez que el cliente recibe el documento electrnico, se notifica automticamente alrepresentante cuando el cliente lo abre. Si el cliente no puede abrir el documento, el se notifica al
representante 24 horas despus.
2.2.4 Firmas digitalesCuando las empresas distribuyen documentos electrnicamente, a menudo es importante que los
destinatarios puedan verificar lo siguiente:
Que el contenido no ha sido alterado (integridad)
Que el documento proviene de la persona real que lo envi (autenticidad)
Que un individuo que ha firmado el documento no puede negar la firma (no repudio)
Las firmas digitales son una buena solucin frente a estos requisitos de seguridad al ofrecer
mayores garantas para la integridad de los documentos, la autenticidad y no repudio.
2.2.5 IntegridadLas firmas digitales permiten a los beneficiarios verificar la integridad de un documento
electrnico que se utiliza en un solo sentido o flujos de trabajo de ida y vuelta. Por ejemplo,
cuando una firma digital se aplica a los estados financieros trimestrales, los beneficiarios tienen
ms seguridad de que la informacin financiera no se ha modificado desde que fue enviado.
Los mtodos para mantener la integridad son:
Bits de paridad o funciones de comprobacin de redundancia cclica (CRC)
Funciones del CRC funcionan bien para las modificaciones no intencionales, pero pueden
ser eludidas por un atacante inteligente de modificacin.
Hash unidireccionales
Un hash de un solo sentido crea un valor de longitud fija, llamada el valor hash o resumen del
mensaje de un documento de cualquier longitud. Un hash es como una huella digital nica. Con un
hash adjunto al mensaje original, un receptor puede determinar si el mensaje ha sido alterado al
volver a calcular el hash y comparar su respuesta con el hash adjunto. Los algoritmos comunes de
hash son MD5, SHA-1 y SHA-256. Adobe ha adoptado los algoritmos SHA-1 y SHA-256, debido a suamplia aceptacin como un estndar de seguridad.
Cdigos de autenticacin de mensajes (MAC)
Un MAC evita que un atacante pueda obtener el mensaje original, modificarlo, y adjuntar un
nuevo hash. En este caso, una clave simtrica est contenida en el MAC y luego se realiza un hash
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
25/73
Insercin de Informacin Oculta en Archivos PDF 2011
17
(HMAC). Sin la llave, un atacante no puede crear un nuevo mensaje. Adobe utiliza HMAC en su
caso. Las firmas digitales permiten verificar la integridad de un documento electrnico.
2.2.6 AutenticidadLas firmas digitales proporcionan la autenticidad de un documento mediante la verificacin de la
identidad digital de un firmante. Por ejemplo, una firma digital de los estados financierostrimestrales permite a los beneficiarios verificar la identidad del remitente y les asegura que la
informacin financiera no se ha modificado desde que fue enviado.
Las firmas digitales se crean utilizando criptografa de clave asimtrica. Para el cifrado de
documentos, el autor de un documento cifra un documento usando una clave pblica. Debido a
que el receptor es la nica persona con la clave privada, l o ella es el nico que puede descifrar el
mensaje. El autor cifra el hash del mensaje con una clave privada. Slo la clave pblica
correctamente puede descifrar el hash y lo utilizan para ver si coincide con un nuevo hash del
documento. Debido a que los destinatarios del documento tienen la clave pblica del autor, que
obtienen una mayor seguridad de que la persona que firm el documento era la persona que cifrel valor hash original.
El proceso que constituye una firma digital es el siguiente:
Un hash se crea son el documento original.
La firma digital es creada al cifrar el hash con una clave privada.
La firma se incluye en el documento.
2.2.7 No repudioNo repudio es un servicio de seguridad de los documentos que impide que el firmante del
documento pueda negar que firm el documento. El apoyo a este servicio es a menudo impulsadopor la autentificacin y las capacidades de marcado de tiempo.
2.2.8 Infraestructura de clave pblica (PKI)La infraestructura de clave pblica (PKI), principalmente ofrece un certificado digital que permite a
los receptores de un documento saber si una clave pblica especfica pertenece realmente a un
individuo especfico. Los certificados digitales se unen a una persona (o entidad) y a una clave
pblica. La autoridad certificadora (CA) expide los certificados y los receptores deben confiar en la
CA que emiti el certificado. X.509 es un estndar ampliamente aceptado y es el metido de
certificado de Adobe utiliza.
Si el certificado caduca o una clave privada se ve comprometida, la autoridad competenterevocar el certificado y registra la revocacin. Como parte del proceso de autenticacin de un
certificado digital, los receptores pueden verificar el estado del certificado. Certificado de validez
se puede comprobar mediante los mtodos estndar siguientes:
Certificado de lista de revocacin (CRL)
Protocolo de estado de certificados en lnea (OCSP)
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
26/73
Insercin de Informacin Oculta en Archivos PDF 2011
18
3 Esteganografa y los Medios DigitalesEl manejo de los derechos de autor dentro de los documentos digitales es abordable por
diferentes mtodos y tcnicas para garantizar varias de las partes del manejo de derechos
digitales. La esteganografa es una herramienta que permite crear mtodos de control para las
diferentes partes que se contemplan en un mtodo persistente para la seguridad de los
documentos.
La esteganografa es el arte de ocultar informacin dentro de un medio de tal forma que esta sea
imperceptible dentro del medio oculto. La imperceptibilidad que conlleva la esteganografa es la
propiedad que permite crear sistemas con alto grado de seguridad para evitar que algn atacante
sea capaz de modificar los mecanismos internos que se establecen para proteger un documento.
La esteganografa se puede utilizar para autenticar un documento introduciendo informacin de
control en el mismo, incluso es posible introducir otros mtodos de seguridad como marcas de
agua para autenticar un documento. Tambin es posible utilizar la esteganografa para introducirinformacin sobre el origen del documento y sobre el mtodo de distribucin para validar
permisos o integridad.
Otro mtodo posible es el de embeber el mismo documento en s mismo para poder validar su
integridad e incluso indicar el lugar donde existan las modificaciones. Tambin es posible crear un
mtodo en el que se pueda rastrear los diferentes cambios que se le han hecho al documento por
los diferentes usuarios con acceso al documento.
Los posibles sistemas que permite crear la esteganografa son capases de cubrir todos los aspectos
del manejo de derechos digitales y crear sistemas de seguridad persistentes que no usen
estructuras especificas dentro del documento que puedan ser modificadas o burladas por los
atacantes.
Entre las diferentes opciones para poder insertar informacin oculta dentro de un documento
podemos encontrar el uso de cdigos para representar datos, la modificacin de parmetros del
formato del documento para indicar bits de datos, la modificacin de imgenes o la insercin de
informacin oculta de dentro de los parmetros de creacin del mismo documento. Adems de las
investigaciones, tambin existen aplicaciones comerciales que utilizan medios digitales como
portadoras de mensajes ocultos. Primero analizaremos las diferentes investigaciones y
posteriormente enumeraremos algunas de las aplicaciones que existen actualmente.
3.1 Autenticacin Basada en el ContenidoLa autenticacin basada en el contenido es el mtodo de autenticar un documento utilizando la
misma informacin que describe al documento, en lugar de utilizar una cadena binaria que
represente al documento. Este mtodo permite tener una robustez en el autenticador que
permanece valida a pesar de cualquier cambio en el formato o transformacin que ocurra en el
documento.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
27/73
Insercin de Informacin Oculta en Archivos PDF 2011
19
En el presente trabajo abordamos la opcin de insertar informacin dentro de los parmetros que
describen y crean un documento PDF.
3.2 Codificacin por Cambio de LneasEn esta codificacin se pretende modificar la distancia en la que pintan los renglones entre s. Para
poder decodificar el mensaje contenido en un archivo es necesario digitalizarlo si se a impreso ymedir la distancia entre los renglones para determinar si se a insertado informacin. De esta
forma es posible insertar N bits de informacin dependiendo de N lneas que tenga una hoja. En
este proceso se tiene un nmero limitado de espacios para colocar informacin.
3.3 Codificacin por Cambio de PalabrasEn esta aproximacin fue presentada junto a la codificacin por cambio de lneas pero en esta se
necesita cambiar la posicin de las palabras acercndolas o alejndolas entre s. Este mtodo
permite tener ms espacio para introducir informacin, sin embargo como muchos programas
utilizan espacios dinmicos para mostrar las palabras se necesita tener el texto original para poder
comparar si ha habido cambios en el documento. Un atacante a este mtodo necesita masesfuerzo para eliminar la seguridad.
3.4 Codificacin de CaractersticasEn este mtodo se aprovechan las caractersticas de las fuentes, letras, coles y tamaos que tiene
un documento. En este mtodo se modifican las caractersticas de algunas de las letras para
codificar informacin. En el archivo se incluyen las fuentes modificadas y no es necesario modificar
todas las partes del documento. Para que un atacante pueda modificar la informacin en este
mtodo es necesario que sepa cuales letras han sido modificadas y tener la fuente original para
comparar.
En esta codificacin de caractersticas es posible explotar cualquier caracterstica que describa el
texto a mostrarse. Un ejemplo es el manejo de las mtricas de las palabras para insertar
informacin. Las mtricas son los espacios que utilizan el programa o lenguaje descriptor para
indicar la distancia entre un carcter y otro.
Dentro de estas mtricas es posible introducir ms informacin que en cualquier otra
aproximacin ya que es posible insertar la informacin de un carcter completo en lugar de un bit
por cada letra.
Adems es posible indicar un desorden en el pintado de los caracteres del documento de tal forma
que al abrirlo directamente no se pueda entender el orden de pintado y sea solo visible el texto alabrirlo a travs de la aplicacin intrprete comn disuadiendo a los posibles atacantes a modificar
el archivo.
3.5 Aplicaciones de EsteganografaEn la actualidad existen varios programas que ofrecen servicios de esteganografa en diferentes
medios digitales como imgenes, archivos y videos. Algunos de ellos se muestran en la Tabla 3-1.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
28/73
Insercin de Informacin Oculta en Archivos PDF 2011
20
Programa Plataforma Descripcin
Steganoptic 0.1[1] Windows/Linux Permite agregar mensajes ocultos en imgenes GIF
Cloack 7.0[2] Windows Permite cifrar y ocultar archivos dentro de imgenesBMP. Utiliza algoritmos de cifrado Cloak-128,Blowfish y Mercury
CryptoMX[3] Windows / Linux /Mac Es una coleccin de herramientas de criptografa yesteganografa que se utiliza en aplicaciones WEBpor medio de JavaScript en cualquier explorador deinternet. Genera una secuencia aleatoria de texto dela cual extrae el texto original.
DoundsSteganography[4]
Windows Permite guardar texto en imgenes
Hide in Picture(HIP) 2.1[5]
Windows Permite guardar archivos en mapas de bits utilizandouna contrasea.
UnderMP3Cover[6] Linux Permite ocultar archivos o texto en archivos MP3dependiendo de su tamao
S-Tools[7] Windows Es una herramienta que permite ocultar archivosdentro de imgenes, videos o archivos de audio. Sepueden ocultar varios archivos e incluso ocultarlos almismo tiempo.
Wodax[8] Linux Es una aplicacin que permite guardar un archivo detexto plano en una imagen PNG. Est escrito en C++y ha sido probado en Gentoo, Debian y Ubuntu.
MP3Stego[9] Windows Es un Programa que permite ocultar informacindentro de un archivo MP3. La informacin escomprimida y cifrada antes de introducirla en elarchivo.
Invisible Secret[10] Windows Es un programa que permite esconder informacin
dentro de archivos de imgenes, de audio y HTML.La informacin se cifra antes de guardarla en elarchivo.
InvisibleInk[11] Windows/Linux/MAC Es un Programa hecho en Java que permiteintroducir informacin dentro de archivos BMP ycifrarlos con una contrasea.
Hermetic Stego[12] Windows Es un programa que permite introducir un archivo decualquier tipo dentro de una o varias imgenes BMPutilizando un mtodo aleatorio por medio de unaclave. El mtodo aleatorio permite evitar ladeteccin de la informacin por aplicaciones de
anlisis estadstico.BitCrypt[13] Windows Es u programa que cifra texto plano y lo introduce
dentro de imgenes de mapa de bits.
Bon Kyu Bon[14] Windows Es un programa que permite introducir texto dentrode archivos de diferentes tipos; BMP, GIF, TIF, PNG,WAV, MID and .NET Assemblies.
SteganoG[15] Windows Es un programa que guarda informacin en mapasde bit y permite utilizar algoritmos de cifrado; RC4,
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
29/73
Insercin de Informacin Oculta en Archivos PDF 2011
21
Blowfish, TEA, Twofish y Skipjack.PicCrypto[16] Windows Es un programa que cifra y convierte cualquier
archivo en una Imagen BMP utilizando una llave. Laimagen se puede convertir de nuevo en archivoindicando la llave del cifrado.
Camouflage[17] Windows Es una aplicacin que permite ocultar cualquierarchivo en cualquier otro archivo, es posible utilizaruna clave para ocultar y recuperar el archivo.
P2Stego[18] Windows Es un programa que Permite Guardar texto en unArchivo cualquiera. Se puede indicar una contraseapara recuperar el mensaje.
XiaoSteganography[19]
Windows Es un programa que permite guardar informacin enarchivos BMP o de Audio.
Tabla 3-1Programas de Esteganografa
En la tabla anterior se enumeraron varios programas que utilizan esteganografa, La mayora de los
programas son parecidos en los mtodos que utilizan y los archivos que puede utilizar; por lo
general se utilizan archivos de imgenes, audio y video [20]. Los programas que pueden insertar
informacin en documentos de texto son pocos y en el caso de Archivos PDF no hay una
implementacin especfica.
En el captulo siguiente se describen las caractersticas y partes de un archivo PDF.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
30/73
Insercin de Informacin Oculta en Archivos PDF 2011
22
4 Estructura de los archivos PDFEl formato de documento porttil (PDF) fue inventado por Adobe Systems y ha sido perfeccionado
durante 17 aos; es el estndar mundial que permite capturar y revisar informacin sofisticada
desde cualquier aplicacin y en cualquier sistema informtico, as como compartirla con
prcticamente cualquier persona en cualquier sitio.
4.1 CaractersticasLas caractersticas que los archivos PDF ofrecen son:
Estndar abierto:el formato PDF es ahora un estndar formal abierto conocido como ISO 32000.
Mantenida por la Organizacin Internacional de Estandarizacin (ISO), la norma ISO 32000 seguir
desarrollndose para cumplir los objetivos de proteger la integridad y longevidad del formato PDF,
lo que proporciona un estndar abierto para los ms de mil millones de archivos PDF que existen
hoy en da. se han generado herramientas de software libre que permiten crear, visualizar o
modificar documentos en formato PDF. Un ejemplo es la suite ofimtica OpenOffice.org y elprocesador de textosLaTeX.
Multiplataforma:los archivos PDF se pueden visualizar e imprimir desde prcticamente todas las
plataformas, incluidas Windows, Mac OS y plataformas mviles como Android.
Extensible:ms de 2.000 proveedores en todo el mundo ofrecen soluciones basadas en PDF, que
incluyen creacin, plug-ins, consultoras, formacin y herramientas de soporte tcnico.
Fiable:el hecho de que haya ms de 150 millones de documentos PDF para uso pblico circulando
en la red hoy en da, junto con los innumerables archivos PDF en administraciones pblicas y
negocios, es la prueba de la cantidad de organizaciones que confan en este formato paratransmitir informacin.
Sofisticado en cuanto a la integridad de la informacin: los archivos PDF tienen el mismo aspecto
y muestran la misma informacin que los archivos originales como, por ejemplo, texto, dibujos,
contenidos multimedia, vdeos, 3D, mapas, grficos en color, fotos e incluso lgica empresarial,
independientemente de la aplicacin utilizada para crearlos y de si se han compilado en una sola
cartera PDF a partir de mltiples formatos.
Capacidad de bsqueda:las funciones de bsqueda de texto en documentos y metadatos facilitan
las bsquedas en los documentos PDF.
Accesible: los documentos PDF utilizan tecnologas de asistencia para facilitar el acceso a la
informacin a personas con discapacidades.
Flexible: Puede ingerir cualquier combinacin de texto, elementos multimedia como vdeos o
sonido, elementos de hipertexto como vnculos y marcadores, enlaces y miniaturas de pginas.
Seguridad:Puedecifrarse para proteger su contenido e inclusofirmarlo digitalmente.
http://es.wikipedia.org/wiki/Software_librehttp://es.wikipedia.org/wiki/LaTeXhttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/Firma_digitalhttp://es.wikipedia.org/wiki/Firma_digitalhttp://es.wikipedia.org/wiki/Criptograf%C3%ADahttp://es.wikipedia.org/wiki/LaTeXhttp://es.wikipedia.org/wiki/Software_libre -
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
31/73
Insercin de Informacin Oculta en Archivos PDF 2011
23
Portabilidad: Los ficheros PDF son independientes del dispositivo, el mismo archivo puede
imprimirse en una impresora de inyeccin de tinta o una filmadora. Para la optimizacin de la
impresin podremos configurar las opciones de creacin del fichero PDF.
Un archivo PDF est definido por el estndar ISO 32000 en el que se especifican las partes, formas
de creacin de un archivo PDF y de los objetos que lo componen.
4.2 Objetos del Estndar PDF ISO 32000Los archivos PDF incluyen ocho tipos bsicos de objetos; valores lgicos, nmeros enteros y reales,
cadenas de texto, nombres, arreglos, diccionarios, cadenas y objetos nulos. Los objetos en un
archivo PDF se escriben con ciertas reglas que aplican para cualquier tipo de objeto.
Los objetos deben de ser marcados para poder ser referenciados por otros objetos. Un objeto
marcado es llamado un objeto indirecto. Todo el texto contenido en un Archivo PDF se analiza
para determinar si es un objeto y que tipo de objeto es.
Cada objeto tiene una sintaxis que lo identifica y ayuda al lector a decodificar el archivocorrectamente. Cuando se desea agregar un comentario se utiliza el smbolo de porcentaje al
principio de la lnea, todo el texto que siga despus de este smbolo y hasta el fin de la lnea se
descarta del proceso de anlisis; siempre y cuando el smbolo de porcentaje no se encuentre
dentro de un objeto de cadena de texto ni de cadena.
4.2.1 Objetos LgicosLos Objetos Lgicos se representan por los valores de verdadero y falso. En un archivo PDF
aparecen indicados por las palabras claves de true y false.
4.2.2 Objetos NumricosPDF provee de dos tipos de objetos numricos; enteros y reales. El rango y la precisin pueden ser
limitados por la representacin interna usada por la computadora en la que se ejecuta el lector
compatible.
Un Entero se escribe como uno o ms dgitos decimales opcionalmente precedidos por signo. El
valor ser tratado como un entero decimal con signo y debe ser convertido a un objeto entero.
Ejemplo 1 Objetos Enteros
123 43445 +17 -98 0
Un valor Real se escribe con uno o ms dgitos decimales con un signo opcional y un punto inicial,final o incrustado. El valor debe ser tratado como un nmero real y debe ser convertido a un
objeto real.
Ejemplo 2 Objetos Reales
34.5 -3.62 +123.6 4 -.002 0.0
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
32/73
Insercin de Informacin Oculta en Archivos PDF 2011
24
Aunque Objeto Numrico es parte del estndar, este puede significar cualquiera de los dos
anteriores.
4.2.3 Objetos de Cadena de TextoUn Objeto de Cadena de Texto consiste en una serie de cero o ms bytes. Los Objetos de Cadena
de Texto no son objetos de tipo entero pero son almacenados en un formato ms compacto. Estetipo de objetos se puede escribir utilizando una de estas opciones.
Como una secuencia de caracteres literales encerrados por parntesis.
Como una informacin hexadecimal encerrada en llaves de Angulo
4.2.3.1 Cadenas Literales
Una cadena literal debe de ser escrita como un nmero arbitrario de caracteres encerrados entre
parntesis. Cualquier carcter puede aparecer en una cadena, excepto parntesis no balanceados,
ni el smbolo de barra invertida \ (5Ch).
Ejemplo 1 Los siguientes son valores de literales validos
(This is a string)
(Strings may contain newlines
and such.)
(Strings may contain balanced parentheses ( ) and
special characters (*!&}^% and so on).)
(The following is an empty string.)
()
(It has zero (0) length.)
Dentro de una cadena literal se utiliza la barra invertida como carcter de escape. El siguiente
carcter al smbolo de escape (\) determina la interpretacin que el lector le dar como se en la
tabla 4-1. Si el carcter subsecuente a la barra invertida no pertenece a ninguno de los mostrados
en la tabla se ignorara al smbolo de escaque (\).
Secuencia Interpretacin
\n Salto de lnea (0Ah) (LF)
\r Vuelta de Carro (0Dh) (CR)
\t Tabulador Horizontal (09h) (HT)
\b Retroceso (08h) (BS)
\fEntrada de Formulario (FF)
\( Parntesis Izquierdo (28h)
\) Parntesis derecho (29h)
\\ Barra Inversa (5Ch) (Backslash)
\ddd Cdigo de caracter ddd (octal)Tabla 4-1 Secuencia de escape en cadenas literales
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
33/73
Insercin de Informacin Oculta en Archivos PDF 2011
25
Un programa compatible que escriba archivos PDF debe de dividir las cadenas Literales en varias
lneas. La barra invertida al final de una lnea indica que la cadena literal contina en la siguiente
rengln. UN lector compatible ignora la barra invertida seguida del smbolo de fin de lnea para
crear una cadena de texto que no ha sido segmentada.
Ejemplo 2 These \two strings \
are the same.)
(These two strings are the same.)
4.2.3.2 Cadenas Hexadecimales
Las cadenas tambin pueden ser escritas de forma hexadecimal que es til para guardar
informacin binaria arbitraria en un archivo PDF. Una cadena hexadecimal debe escribirse como
una secuencia de dgitos hexadecimales codificados como caracteres ASCII y encerrado entre
smbolos .
Ejemplo 1
Cada par de dgitos hexadecimales definen un byte de la cadena, los espacios, tabuladores vuelta
de carro, entrada de lnea y entrada de formulario son ignorados. En caso de la falta de un digito
para completar un par se sobre entiende que es 0.
4.2.4 Objetos NombreComenzando en la versin 1.2 los objetos nombre son smbolos atmicos definidos nicamente
por una secuencia con cualquier carcter, excepto el carcter nulo (0h). nicamente definidos
significa que dos objetos nombres hechos con la misma secuencia de caracteres denotan al mismo
objeto. Atmico significa que no posee estructura interna.
Cuando se escribe un Objeto Nombre en un Archivo PDF se debe de comenzar con el smbolo debarra (/). La barra no forma parte del nombre es un prefijo que indica que la siguiente secuencia
de caracteres representa un nombre en el archivo PDF y debe seguir las siguientes reglas:
Un smbolo numrico en un nombre debe de ser escrito usando su cdigo hexadecimal de
2 caracteres (23h), precedido por el signo de nmeros (#).
Cualquier carcter regular en un nombre (excepto el smbolo de nmeros) deber ser
escrito como es o utilizando su cdigo hexadecimal de dos dgitos precedidos por el
smbolo de nmeros (#).
Cualquier carcter que no sea regular debe de ser escrito usando su cdigo hexadecimal
de dos dgitos precedido por el smbolo de nmeros (#).
Los espacios dentro de un objeto nombre se deben de indicar con la codificacin hexadecimal de
dos dgitos y no puede haber espacio en blanco entre el smbolo de barra y el comienzo del
nombre.
Los caracteres regulares fuera del rango del smbolo de admiracin (21h) () y la tilde (7h) (~)
deben ser escritos con su cdigo hexadecimal.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
34/73
Insercin de Informacin Oculta en Archivos PDF 2011
26
El smbolo de barra (sin ningn carcter posterior) introduce un nombre nico vlido definido por
la secuencia vaca.
Los ejemplos de la tabla con el smbolo # no son vlidos en las versiones 1.0 y 1.1.
Sintaxis del nombre literal Nombre resultante/Name1 Name1
/ASomewhatLongerName ASomewhatLongerName
/A;Name_With-Various***Characters? A;Name_With-Various***Characters?
/1.2 1.2
/$$ $$
/@pattern @pattern
/.notdef .notdef
/lime#20Green Lime Green
/paired#28#29parentheses paired()parentheses
/The_Key_of_F#23_Minor The_Key_of_F#_Minor
/A#42 ABTabla 4-2 Ejemplo de Objetos tipo Nombre
Los nombres en un archivo PDF son atmicos y nunca son tratados como texto que se mostrara al
usuario ni a alguna aplicacin externa.
4.2.5 Objetos ArregloUn objeto arreglo es una coleccin unidimensional de objetos arreglados secuencialmente. A
diferencia de los arreglos en otros lenguajes de computadora, los arreglos en PDF pueden ser
heterogneos; esto es que los elementos en el arreglo puede ser de cualquier tipo, incluso ms
arreglos.
Un arreglo debe escribirse como una secuencia de objetos encerrados en Parntesis Cuadrados ([
y ]) (5Bh y 5Dh).
Ejemplo 1 [549 3.14 false (Ralph) /SomeName]
El formato PDF solo soporta arreglos unidimensionales. Para crear arreglos con ms niveles se
necesita introducir arreglos como elementos anidados a cualquier nivel.
4.2.6 Objetos DiccionarioUn objeto diccionario es una tabla asociativa que contiene pares de objetos, conocidas como
entradas del diccionario. El primer elemento del de cada entrada es la llave y el segundo elemento
es el valor. La llave debe ser un objeto nombre mientras que el valor puede ser cualquier tipo de
objeto PDF. Una entrada de diccionario con valor nulo es tratada como si la entrada no existiera.
Las entradas de in diccionario representan una tabla asociativa y como tal se encuentra
desordenada, aunque al momento de ser escrito el archivo se tenga un orden este ser ignorado.
Mltiples entradas en el mismo diccionario no deben tener el mismo nombre.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
35/73
Insercin de Informacin Oculta en Archivos PDF 2011
27
Un diccionario debe de ser escrito como una secuencia de pares Llave-Valor encerradas en
parntesis angulares dobles ().
Ejemplo
>>
Los objetos diccionario son los bloques de construccin principales de un documento PDF. Son
usados comnmente para reunir y atar juntos los atributos de objetos complejos en cada entrada
del diccionario, especificando el nombre y valor de un atributo. Por convencin la entrada Type
en un diccionario, si existe, especifica el tipo de objeto que el diccionario describe. En algunos
casos la entrada Subtype o S se utilizan para identificar una subcategora especializada del
objeto general. El valor de la entra Type y Subtype debe de ser un objeto de tipo nombre.
El valor de la entrada Type puede ser inferido casi siempre por el contexto y su utiliza ms para
documentacin y correccin de errores. La entrada Type no es requerida a menos que la
descripcin de un objeto indique sea as. Tampoco existen valores correctos o no para esta
entrada, por lo que cualquier valor es vlido.
4.2.7 Objetos CadenasUn Objeto Cadena, al igual que una cadena de texto, es una secuencia de bytes. Sin embargo un
objeto cadena no tiene limitaciones de longitud a diferencia de la cadena de texto que tienelimitaciones segn la implementacin. Por esta razn, los objetos potencialmente grandes, como
imgenes o descripciones de pgina, deben ser representados como cadenas. El contexto en el
que se agrega una cadena determina que es lo que representa la secuencia de bytes.
Una cadena consiste de un diccionario seguido de cero o ms bytes encerrados entres las palabras
clave stream(seguida de una nueva lnea) y endstream.
Ejemplo dictionary
Stream
Zero or more bytes
endstream
Todas las cadenas deben ser objetos indirectos mientras que el diccionario debe ser un objeto
directo. La palabra clave stream, despus del diccionario, debe estar seguida de un marcador de
fin de lnea consistiendo de un smbolo de vuelta de carro y salto de lnea, o de un salto de lnea
solo; y no solo por una vuelta de carro. La secuencia de bytes que dan forma a la cadena residen
entre un marcador de lnea despus de stream y la palabra clave endstream; el diccionario de
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
36/73
Insercin de Informacin Oculta en Archivos PDF 2011
28
la cadena especifica el largo de la cadena. Debe existir un marcador de fin de lnea entre la cadena
y la palabra endstream; este marcador no se contempla en el tamao de la cadena. Por ultimo
no debe haber ningn byte adicional diferente del espacio blanco entre endstream y endobj.
Cada diccionario de cadena debe contener una entrada Length que indica cuantos bytes del
archivo PDF se usan para la informacin de la cadena. En la tabla 4-3 se muestra la lista deentradas comunes del diccionario de cadena junto con su tipo correspondiente.
Llave Tipo Valor
Length Entero (Requerido) El nmero de bytes desde el principio de la lineaposterior a la palabra clave stream hasta el ltimo byte antes de lapalabra clave endstream.(Debe existir un marcador de fin de lneaadicional precediendo a endstream, que no es considerado en lacuenta y no es parte de la informacin de la cadena.)
Filter Nombre o Arreglo (Opcional) El nombre de un filtro que debe ser aplicado al procesarla informacin de la Cadena, o un arreglo de nombres de diferentesfiltros ordenados en la secuencia en que sern usados.
DecodeParms Diccionario oArreglo
(Opcional) Un parmetro diccionario o un arreglo de diccionarios,utilizados por los filtros especificados por Filter. Si slo hay un
filtro y ese filtro tiene parmetros, DecodeParms debe estar
establecido por el diccionario de los parmetros del filtro a menos
que todos los parmetros del filtro tengan sus valores por defecto,
en cuyo caso puede ser omitida la entrada DecodeParms. Si hay
varios filtros y cualquiera de ellos tiene valores diferentes a los
predeterminados, DecodeParms ser una matriz con una entrada
para cada filtro: tambin un diccionario de parmetros para el filtro
o el objeto nulo si el filtro no tiene parmetros (o si todos sus
parmetros tienen valores por defecto). Si ninguno de los filtros
tiene parmetros, o si todos los parmetros tienen valores por
defecto, la entrada DecodeParms puede ser omitida
F Especificacin deArchivo
(Opcional; PDF 1.2) El archivo que contiene la cadena deinformacin. Si existe esta entrada, los bytes entre stream yendstream deben ser ignorados. Sin embargo la entrada deLength debe seguir especificando el nmero de esos bytes.. Losfiltros que son aplicados a la informacin del archivo deben serespecificados por FFiltery los parmetros del filtro se especificanen FDecodeParms.
FFilter Nombre o Arreglo (Opcional; PDF 1.2)El nombre de un filtro que debe ser aplicado alprocesar la informacin encontrada en el archivo externo de lacadena, o un arreglo de nombres de filtros. Aplica las mismasreglas que Filter.
FDecodeParm
s
Diccionario o
Arreglo
(Opcional; PDF 1.2)Un diccionario de parmetros o un arreglo de
diccionarios de parmetros usados por los filtros especificados enFFilter. Se aplican las mismas reglas que usa DecodeParms.
DL Entero (Opcional; PDF 1.5) Un entero no negativo representando elnmero de bytes en la cadena decodificada o filtrada. Puede serusada para determinar, por ejemplo, si hay suficiente espacio endisco duro para escribir una cadena en un archivo. Este valor debeser considerado como una pista para ciertos filtros de cadena. Talvez no sea posible determinar este valor con precisin.
Tabla 4-3 Entradas Comunes al Diccionario de Cadena
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
37/73
Insercin de Informacin Oculta en Archivos PDF 2011
29
4.2.8 Objetos NulosEl objeto nulo tiene un tipo y valor que son diferentes a aquellos de cualquier otro objeto Solo
debe de haber un objeto de tipo nulo y se denota por la palabra clave null. Una referencia a un
objeto indirecto que no exista se tratara igual que un objeto nulo. Especificar al valor nulo como el
valor de una entrada de diccionario es equivalente a omitir la entrada.
4.2.9 Objetos IndirectosCualquier objeto en un archivo PDF puede ser rotulado como un objeto indirecto. Esto da al objeto
un identificador nico de objeto al cual otros objetos pueden referirse. El identificador de objeto
consta de dos partes:
Un entero Positivo llamado Numero de Objeto. Los objetos indirectos pueden estar
numerados secuencialmente dentro del archivo PDF. Pero esto es un requisito, los
nmeros de objeto pueden ser asignados en cualquier orden arbitrario.
Un entero no negativo llamado Numero de Generacin. En un archivo PDF nuevo, todos
los objetos indirectos poseen un nmero de generacin igual a cero. Nmeros degeneracin diferentes de cero pueden ser introducidos cuando el archivo es actualizado
posteriormente.
Juntos, la combinacin de un numero de objeto y un numero de generacin debe identificar
nicamente a un objeto indirecto.
La definicin de un objeto indirecto debe consistir en su nmero de objeto y su nmero de
generacin separados por un espacio en blanco, seguidos del valor del objeto encerrado entre las
palabras clave obj y endobj.
Ejemplo 1 Definicin de objeto indirecto
12 0 obj
(Brillig)
Endob
El ejemplo se define un objeto con nmero de objeto 12 y numero de generacin 0. El valor de
este objeto es la cadena de texto Brillig
Un objeto puede ser referenciado desde cualquier parte del archivo con una referencia indirecta.
Una referencia indirecta debe de consistir de nmero de objeto, numero de generacin y de la
palabra clave R (con espaciosblancos separando cada parte).
Ejemplo 2 Definicin de referencia Indirecta
12 0 R
A partir de PDF 1.5 pueden residir objetos indirecto dentro de cadenas. Se referencian igual, sin
embargo su definicin no debe incluir las palabras clave obj y endobj, y su nmero de
generacin debe de ser cero.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
38/73
Insercin de Informacin Oculta en Archivos PDF 2011
30
Una referencia indirecta a un objeto indefinido no debe de ser tratada como un error por un lector
compatible, debe de ser tratada como una referencia al objeto nulo.
Ejemplo 3 Uso de objetos indirectos para indicar la longitud de una cadena en un
diccionario.
7 0 obj
> % Una referencia Indirecta al objeto 8
stream
BT/
F1 12 Tf
72 712 Td
(A stream with an indirect length) Tj
ET
Endstream
Endobj
8 0 obj
77 %La longitud de la cadena precedente.
endobj
En el ejemplo 3 se muestra el uso de una referencia indirecta en la segunda lnea para indicar la
longitud de un objeto cadena. El valor de la entrada del diccionario de cadena es el valor entero
que se encuentra despus de la cadena. Esto permite a la aplicaciones que generan PDF en un solo
paso dejar la especificacin de la longitud de las cadenas despus de haberlas terminado de
escribir.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
39/73
Insercin de Informacin Oculta en Archivos PDF 2011
31
4.3 EstructuraTodos los archivos PDF comparten la misma estructura interna independientemente de con que
aplicacin se haya creado. EL estndar ISO 32000 define a los Archivos PDF en cuatro partes
principales que se muestran en la figura 4-1.
Imagen 4-1 Partes de un Archivo PDF
4.3.1 CabeceraEs la primera lnea de un archivo PDF y consiste de 5 caracteres (%PDF -) seguidos del nmero de
versin de PDF utilizada para crear el archivo.
Si el archivo PDF contiene informacin binaria, la cabecera debe estar seguida de una lnea
comentada con, por lo menos, cuatro caracteres binarios cuyo valor se igual o mayor a 128. Esto
garantiza un comportamiento correcto para las aplicaciones de transmisin de archivos que
analizan el principio de los archivos para determinar si manejarlos como texto o como datos
binarios
4.3.2 CuerpoEl cuerpo de un archivo PDF consiste de una secuencia de objetos indirectos que representan el
contenido de un archivo. Los objetos, que describiremos en la siguiente seccin, representas
componentes de un documento como fuentes, pginas e imgenes. Desde la versin 1.5 se cuenta
con cadenas de objetos que se vern ms adelante.
-
7/25/2019 Tesina Insercion de Informacion Oculta en Archivos PDF
40/73
Insercin de Informacin Oculta en Archivos PDF 2011
32
4.3.3 Tabla de referencias cruzadasLa tabla de referencias cruzadas contiene la informacin que permite el acceso aleatorio a los
objetos indirectos en el archivo y as no tener que leer el archivo completo para encontrar un
objeto en particular. La tabla se compone de entradas de una sola lnea para cada objeto indirecto,
indicando el desfase en Bytes dentro del cuerpo del archivo.
Esta parte del archivo es la nica con un formato explicito, lo que permite el acceso aleatorio a las
entradas de la tabla. Un archivo puede contener varias secciones conteniendo la tabla de
referencias cruzadas, esto se debe a que los archivos PDF pueden ser actualizados.
Ejemplo 1 Tabla de referencias cruzadas
xref0 60000000003 65535 f
0000000017 00000 n
0000000081 00000 n
0000000000 00007 f
0000000331 00000 n
0000000409 00000 n
Cada parte de la tabla de referencias debe de comenzar indicada por el texto xref. Despus de
esta indicacin puede haber una o ms subsecciones conteniendo las entradas de la tabla. Para los
archivos que nunca han sido actualizados de manera incremental, en la seccin de la tabla, solo
debe existir una sola subseccin en la que los objetos comiencen con el nmero cero.
Cuando se indica una subseccin de la tabla se debe indicar el nmero del primer objeto y el
nmero de objetos que contiene la seccin. Los numero de Objeto son consecutivos dentro de
cada subseccin, por eso solo se indica el nmero de objeto del primero de la subseccin.
La tabla de referencias cruzadas indica el estado del objeto en e