publicaciÓn de datos abiertos enlazados en el

Upload: santiago-penarreta

Post on 17-Oct-2015

227 views

Category:

Documents


0 download

TRANSCRIPT

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    1/12

    UNIVERSIDAD DE OVIEDOEscuela de Ingeniera Informtica

    TRABAJO FIN DE MSTER

    PUBLICACIN DE DATOS ABIERTOS ENLAZADOS EN ELMBITO LEGISLATIVO.

    Francisco Adolfo Cifuentes Silva2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    2/12

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    3/12

    UNIVERSIDAD DE OVIEDO

    Escuela de Ingeniera Informtica

    TRABAJO FIN DE MSTER

    PUBLICACIN DE DATOS ABIERTOS ENLAZADOS EN ELMBITO LEGISLATIVO.

    VB del Director del Proyecto

    DIRECTOR: Jose Emilio Labra Gayo

    AUTOR: Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    4/12

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    5/12

    i

    ndice general

    1. Introduccin 3

    1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Motivacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Finalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2. Fijacin de Objetivos 7

    2.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2. Posibles mbitos de aplicacin . . . . . . . . . . . . . . . . . . . . . . . . 7

    3. Estado del arte 9

    3.1. Terminologa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.1.1. Uniform Resource Identifier . . . . . . . . . . . . . . . . . . . . . 93.1.2. RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.1.3. Datos enlazados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.1.4. Grafo RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.1.5. SPARQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.1.6. Endpoint SPARQL . . . . . . . . . . . . . . . . . . . . . . . . . . 113.1.7. Negociacin de contenido . . . . . . . . . . . . . . . . . . . . . . 113.1.8. Requerimientos funcionales para registros bibliogrficos . . . . . 123.1.9. Representaciones de un recurso . . . . . . . . . . . . . . . . . . . 13

    3.2. Propuestas para publicar datos enlazados . . . . . . . . . . . . . . . . . 143.2.1. Cmo publicar datos enlazados en la Web . . . . . . . . . . . . . 143.2.2. Datos enlazados: Evolucionando la Web hacia un espacio global

    de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.3. Arquitecturas para publicacin de datos enlazados . . . . . . . . . . . . 17

    3.3.1. Soluciones basadas en Bases de datos relacionales . . . . . . . . . 18

    3.3.2. Soluciones basadas en APIs . . . . . . . . . . . . . . . . . . . . . 193.3.3. Soluciones basadas en datos estructurados estticos . . . . . . . . 193.3.4. Soluciones basadas en documentos de texto . . . . . . . . . . . . 193.3.5. Soluciones basadas en almacenes RDF . . . . . . . . . . . . . . . 193.3.6. Soluciones basadas en archivos RDF . . . . . . . . . . . . . . . . 203.3.7. Otras aproximaciones . . . . . . . . . . . . . . . . . . . . . . . . 20

    3.4. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.4.1. Almacenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.4.2. Generacin de grafos RDF sobre HTTP . . . . . . . . . . . . . . 233.4.3. Visualizadores de datos enlazados . . . . . . . . . . . . . . . . . . 24

    3.4.3.1. Navegadores de datos enlazados . . . . . . . . . . . . . 24

    3.4.3.2. Visualizadores . . . . . . . . . . . . . . . . . . . . . . . 243.4.4. Otras herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . 25

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    6/12

    ii

    3.5. Comunidades en lnea sobre datos enlazados . . . . . . . . . . . . . . . . 273.5.1. Pedantic Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.5.2. Red Temtica Espaola de Linked Data . . . . . . . . . . . . . . 273.5.3. Linking Open Data Community . . . . . . . . . . . . . . . . . . . 28

    3.5.4. Linked Data Web en Linkedin . . . . . . . . . . . . . . . . . . . . 283.5.5. Otras comunidades . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.6. Casos de xito en Open Government . . . . . . . . . . . . . . . . . . . . 293.6.1. Bsqueda semntica en el BOPA . . . . . . . . . . . . . . . . . . 293.6.2. Proyecto 10ders . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.6.3. Data.gov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.6.4. Data.gov.uk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.6.5. Iniciativas en otros pases . . . . . . . . . . . . . . . . . . . . . . 30

    3.7. Casos de xito en otros contextos . . . . . . . . . . . . . . . . . . . . . . 303.7.1. Geonames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.7.2. DBPedia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3.7.3. Bio2RDF Project . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4. Metodologa 33

    4.1. Descripcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    5. Propuesta metodolgica 35

    5.1. Contexto de aplicacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.2. Arquitectura de soporte para datos enlazados . . . . . . . . . . . . . . . 355.3. Proceso de implantacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5.3.1. Contextualizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.3.2. Diseo de Ontologas . . . . . . . . . . . . . . . . . . . . . . . . . 38

    5.3.3. Modelamiento del grafo RDF . . . . . . . . . . . . . . . . . . . . 395.3.4. Implementacin del Endpoint SPARQL . . . . . . . . . . . . . . 405.3.5. Implementacin del grafo RDF sobre HTTP . . . . . . . . . . . . 405.3.6. Servicio de actualizacin del grafo RDF . . . . . . . . . . . . . . 405.3.7. Portal web de documentacin . . . . . . . . . . . . . . . . . . . . 415.3.8. Requerimientos no funcionales . . . . . . . . . . . . . . . . . . . . 415.3.9. Herramienta opcional de visualizacin de datos . . . . . . . . . . 42

    6. Caso de estudio 43

    6.1. Antecedentes del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . 436.2. Contextualizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    6.2.1. Qu datos se van a entregar . . . . . . . . . . . . . . . . . . . . . 446.2.2. De qu forma se van a entregar los datos . . . . . . . . . . . . . . 456.2.3. Quin va a consumir los datos . . . . . . . . . . . . . . . . . . . . 456.2.4. Descripcin de subsistemas . . . . . . . . . . . . . . . . . . . . . 46

    6.2.4.1. Endpoint SPARQL . . . . . . . . . . . . . . . . . . . . . 466.2.4.2. Servicio de actualizacin . . . . . . . . . . . . . . . . . . 466.2.4.3. Grafo RDF . . . . . . . . . . . . . . . . . . . . . . . . . 466.2.4.4. Herramienta de Visualizacin . . . . . . . . . . . . . . . 46

    6.2.5. Descripcin de los casos de uso . . . . . . . . . . . . . . . . . . . 466.3. Diseo de la ontologa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    6.3.1. Criterios de diseo . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    6.4. Modelamiento del grafo RDF . . . . . . . . . . . . . . . . . . . . . . . . 486.4.1. Adopcin de estndar FRBR en la construccin de URIs . . . . . 48

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    7/12

    NDICE GENERAL iii

    6.4.2. Esquema general de URIs . . . . . . . . . . . . . . . . . . . . . . 496.4.3. Internacionalizacin del grafo RDF . . . . . . . . . . . . . . . . . 496.4.4. Otras consideraciones de diseo . . . . . . . . . . . . . . . . . . . 50

    6.5. Arquitectura Implementada . . . . . . . . . . . . . . . . . . . . . . . . . 51

    6.6. Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 516.6.1. Componentes de acceso a datos . . . . . . . . . . . . . . . . . . . 526.6.2. Componentes de aplicacin . . . . . . . . . . . . . . . . . . . . . 52

    6.7. Herramientas de software utilizadas . . . . . . . . . . . . . . . . . . . . . 536.7.1. Aplicaciones de infraestructura . . . . . . . . . . . . . . . . . . . 53

    6.7.1.1. Sistema operativo . . . . . . . . . . . . . . . . . . . . . 546.7.1.2. Servidor de aplicaciones . . . . . . . . . . . . . . . . . . 546.7.1.3. Servidor Web . . . . . . . . . . . . . . . . . . . . . . . . 54

    6.7.2. Aplicaciones de componente . . . . . . . . . . . . . . . . . . . . . 556.7.2.1. Base de datos relacional . . . . . . . . . . . . . . . . . . 556.7.2.2. Base de datos RDF . . . . . . . . . . . . . . . . . . . . 55

    6.7.2.3. Endpoint SPARQL . . . . . . . . . . . . . . . . . . . . . 556.7.2.4. Ontologa . . . . . . . . . . . . . . . . . . . . . . . . . . 556.7.2.5. Portal web documentacin . . . . . . . . . . . . . . . . 556.7.2.6. Visualizador . . . . . . . . . . . . . . . . . . . . . . . . 556.7.2.7. Grafo RDF sobre HTTP . . . . . . . . . . . . . . . . . 566.7.2.8. Servicio de actualizacin . . . . . . . . . . . . . . . . . . 56

    6.8. Herramientas desarrolladas . . . . . . . . . . . . . . . . . . . . . . . . . 566.8.1. Lodviz - Linked Open Data Visualization . . . . . . . . . . . . . 566.8.2. Grafo RDF WESO DESH . . . . . . . . . . . . . . . . . . . . . 586.8.3. Servicio de actualizacin WESO RUD . . . . . . . . . . . . . . 60

    6.9. Consideraciones finales del caso de uso . . . . . . . . . . . . . . . . . . . 61

    7. Resultados 63

    7.1. Interpretacin de los resultados . . . . . . . . . . . . . . . . . . . . . . . 637.2. Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    8. Conclusiones y trabajo futuro 67

    8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678.3. Difusin de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    9. Planificacin y Presupuesto 71

    9.1. Diagrama Gantt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.2. Entregables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.3. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    A. Patrones de URI 79

    A.1. Diseo de URI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79A.1.1. Formato de Fecha . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    A.2. Norma: Patrn 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79A.3. Norma: Patrn 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    A.3.1. Extensin del patrn . . . . . . . . . . . . . . . . . . . . . . . . . 82A.4. Norma: Patrn 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    A.4.1. Extensin al patrn . . . . . . . . . . . . . . . . . . . . . . . . . 84A.5. Normas: Patrn 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    8/12

    iv

    A.6. Normas: Patrn 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86A.7. Normas: Patrn 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87A.8. Normas: Patrn 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88A.9. Normas: Patrn 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    A.10.Pases: Patrn 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91A.11.Organismos Internacionales: Patrn 9 . . . . . . . . . . . . . . . . . . . . 92A.12.Organismos: Patrn 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93A.13.Patrones opcionales: Patrn 11 . . . . . . . . . . . . . . . . . . . . . . . 94A.14.Patrones opcionales: Patrn 12 . . . . . . . . . . . . . . . . . . . . . . . 95

    B. Ontologa de Normas 97

    B.1. Descripcin de la ontologa de normas . . . . . . . . . . . . . . . . . . . 97B.1.1. Espacios de nombre . . . . . . . . . . . . . . . . . . . . . . . . . 97B.1.2. Clases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

    B.1.2.1. bcnnorms:Norm . . . . . . . . . . . . . . . . . . . . . . 97

    B.1.2.2. bcnnorms:RootNorm . . . . . . . . . . . . . . . . . . . . 97B.1.2.3. bcnnorms:NormInstance . . . . . . . . . . . . . . . . . . 97B.1.2.4. bcnnorms:Treaty . . . . . . . . . . . . . . . . . . . . . . 97B.1.2.5. bcnnorms:RecastedText . . . . . . . . . . . . . . . . . . 98B.1.2.6. bcnnorms:Rectification . . . . . . . . . . . . . . . . . . 98B.1.2.7. bcnnorms:Classification . . . . . . . . . . . . . . . . . . 98B.1.2.8. bcnnorms:Country . . . . . . . . . . . . . . . . . . . . . 98B.1.2.9. dbpedia-owl:Country . . . . . . . . . . . . . . . . . . . . 98B.1.2.10. foaf:Document . . . . . . . . . . . . . . . . . . . . . . . 98B.1.2.11. skos:Collection . . . . . . . . . . . . . . . . . . . . . . . 98B.1.2.12. skos:Concept . . . . . . . . . . . . . . . . . . . . . . . . 99B.1.2.13. bcnnorms:NormType . . . . . . . . . . . . . . . . . . . 99B.1.2.14. bcnnorms:InternationalOrganization . . . . . . . . . . . 99B.1.2.15. bcnnorms:GovernmentalOrganization . . . . . . . . . . 99B.1.2.16. bcnnorms:GovernmentalOrganizationOriginal . . . . . . 99

    B.1.3. Propiedades de tipo de dato . . . . . . . . . . . . . . . . . . . . . 99B.1.3.1. dc:identifier . . . . . . . . . . . . . . . . . . . . . . . . . 99B.1.3.2. dc:title . . . . . . . . . . . . . . . . . . . . . . . . . . . 99B.1.3.3. dc:date . . . . . . . . . . . . . . . . . . . . . . . . . . . 99B.1.3.4. bcnnorms:publishDate . . . . . . . . . . . . . . . . . . . 99B.1.3.5. bcnnorms:promulgationDate . . . . . . . . . . . . . . . 99

    B.1.3.6. bcnnorms:hasNumber . . . . . . . . . . . . . . . . . . . 99B.1.3.7. gn:countryCode . . . . . . . . . . . . . . . . . . . . . . 100B.1.3.8. bcnnorms:hasCode . . . . . . . . . . . . . . . . . . . . . 100B.1.3.9. owl:sameAs . . . . . . . . . . . . . . . . . . . . . . . . . 100B.1.3.10. rdfs:label . . . . . . . . . . . . . . . . . . . . . . . . . . 100B.1.3.11. dc:language . . . . . . . . . . . . . . . . . . . . . . . . . 100B.1.3.12. bcnnorms:hasName . . . . . . . . . . . . . . . . . . . . 100B.1.3.13. bcnnorms:versionDate . . . . . . . . . . . . . . . . . . . 100B.1.3.14. bcnnorms:abbreviation . . . . . . . . . . . . . . . . . . 100B.1.3.15. bcnnorms:hasTag . . . . . . . . . . . . . . . . . . . . . . 100B.1.3.16. bcnnorms:isLatestVersion . . . . . . . . . . . . . . . . . 100

    B.1.4. Propiedades de objeto . . . . . . . . . . . . . . . . . . . . . . . . 100B.1.4.1. bcnnorms:hasDocument . . . . . . . . . . . . . . . . . . 100

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    9/12

    NDICE GENERAL v

    B.1.4.2. bcnnorms:hasHtmlDocument . . . . . . . . . . . . . . . 100B.1.4.3. bcnnorms:hasXmlDocument . . . . . . . . . . . . . . . 101B.1.4.4. bcnnorms:isDocumentOf . . . . . . . . . . . . . . . . . 101B.1.4.5. bcnnorms:modifiesTo . . . . . . . . . . . . . . . . . . . 101

    B.1.4.6. bcnnorms:isModifiedBy . . . . . . . . . . . . . . . . . . 101B.1.4.7. bcnnorms:regulates . . . . . . . . . . . . . . . . . . . . 101B.1.4.8. bcnnorms:isRegulatedBy . . . . . . . . . . . . . . . . . 101B.1.4.9. bcnnorms:agreeWith . . . . . . . . . . . . . . . . . . . . 101B.1.4.10. bcnnorms:isTreatyWith . . . . . . . . . . . . . . . . . . 101B.1.4.11. bcnnorms:hasTreaty . . . . . . . . . . . . . . . . . . . . 101B.1.4.12. bcnnorms:rectifies . . . . . . . . . . . . . . . . . . . . . 101B.1.4.13. bcnnorms:isRectifiedBy . . . . . . . . . . . . . . . . . . 101B.1.4.14. bcnnorms:recasts . . . . . . . . . . . . . . . . . . . . . . 101B.1.4.15. bcnnorms:isRecastedBy . . . . . . . . . . . . . . . . . . 101B.1.4.16. bcnnorms:type . . . . . . . . . . . . . . . . . . . . . . . 102

    B.1.4.17. bcnnorms:alertedBy . . . . . . . . . . . . . . . . . . . . 102B.1.4.18. bcnnorms:createdBy . . . . . . . . . . . . . . . . . . . . 102B.1.4.19. bcnnorms:creatorOf . . . . . . . . . . . . . . . . . . . . 102B.1.4.20. bcnnorms:subOrganizationOf . . . . . . . . . . . . . . . 102B.1.4.21. bcnnorms:versionOf . . . . . . . . . . . . . . . . . . . . 102B.1.4.22. bcnnorms:hasVersion . . . . . . . . . . . . . . . . . . . 102

    B.1.5. Referencia a vocabularios externos . . . . . . . . . . . . . . . . . 102B.1.5.1. FOAF Friend of a Friend . . . . . . . . . . . . . . . . 102B.1.5.2. SKOS Simple Knowledge Organization System . . . . 102B.1.5.3. DC Dublin Core . . . . . . . . . . . . . . . . . . . . . 102B.1.5.4. DBPEDIA-OWL DBPedia . . . . . . . . . . . . . . . 103

    B.1.5.5. GN Geonames . . . . . . . . . . . . . . . . . . . . . . 103B.1.5.6. ORG Organization . . . . . . . . . . . . . . . . . . . . 103

    C. Manual de instalacin y configuracin 105

    C.1. Instalacin y configuracin de aplicaciones . . . . . . . . . . . . . . . . . 105C.1.1. Instalacin del Sistema Operativo . . . . . . . . . . . . . . . . . . 105C.1.2. Instalacin de Openlink Virtuoso . . . . . . . . . . . . . . . . . . 105C.1.3. Instalacin de Apache Tomcat 6 . . . . . . . . . . . . . . . . . . 106C.1.4. Instalacin de LAMP . . . . . . . . . . . . . . . . . . . . . . . . . 107C.1.5. Aplicaciones adicionales . . . . . . . . . . . . . . . . . . . . . . . 110

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    10/1

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    11/1

    vii

    ndice de figuras

    3.1. Mecanismo de negociacin de contenido . . . . . . . . . . . . . . . . . . 123.2. Nube de datos abiertos enlazados publicados hasta Noviembre de 2010. . 173.3. Opciones de publicacin de datos enlazados. . . . . . . . . . . . . . . . 183.4. Arquitectura combinada orientada a la generacin de visualizaciones. . . 20

    3.5. Ejecucin de Tabulator sobre una URI generada en el caso de estudio. . 255.1. Arquitectura planteada para soporte a datos abiertos enlazados . . . . . 365.2. Proceso de implantacin de datos abiertos enlazados bajo la propuesta

    metodolgica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    6.1. Diagrama de casos de uso de la solucin planteada . . . . . . . . . . . . 456.2. Diagrama representativo de la ontologa sobre normas. . . . . . . . . . . 486.3. Esquema general de URIs diseado. . . . . . . . . . . . . . . . . . . . . . 506.4. Diagrama de despliegue de la solucin . . . . . . . . . . . . . . . . . . . 516.5. Diagrama de herramientas de software utilizadas . . . . . . . . . . . . . 546.6. Interfaz de usuario de Lodviz. . . . . . . . . . . . . . . . . . . . . . . . . 56

    6.7. Componentes de Lodviz. . . . . . . . . . . . . . . . . . . . . . . . . . . . 576.8. Salida en HTML + RDFa generada por WESO DESH . . . . . . . . . . 596.9. Componentes de WESO DESH. . . . . . . . . . . . . . . . . . . . . . . . 606.10. Vista de diseo de una transformacin generadora de tripletas RDF en

    Kettle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    9.1. Planificacin del trabajo de fin de mster . . . . . . . . . . . . . . . . . 73

    A.1. Patrn de URI 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79A.2. Patrn de URI 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81A.3. Patrn de URI 1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    A.4. Patrn de URI 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83A.5. Patrn de URI 2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84A.6. Patrn de URI 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85A.7. Patrn de URI 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86A.8. Patrn de URI 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87A.9. Patrn de URI 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88A.10.Patrn de URI 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90A.11.Patrn de URI 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91A.12.Patrn de URI 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92A.13.Patrn de URI 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93A.14.Patrn de URI 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    A.15.Patrn de URI 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    12/1

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    13/1

    ix

    ndice de tablas

    3.1. Representaciones de un recurso . . . . . . . . . . . . . . . . . . . . . . . 143.2. Herramientas de navegacin de datos enlazados . . . . . . . . . . . . . . 263.3. Herramientas de visualizacin de datos enlazados . . . . . . . . . . . . . 27

    6.1. Tipos de contenido a entregar en el grafo RDF . . . . . . . . . . . . . . 456.2. Estndar FRBR aplicado a la construccin de URIs de normas. . . . . . 49

    7.1. Comparativa de metodologas . . . . . . . . . . . . . . . . . . . . . . . . 64

    9.1. Entregables del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.2. Presupuesto del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    B.1. Espacios de nombre y prefijos . . . . . . . . . . . . . . . . . . . . . . . . 98

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    14/1

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    15/1

    Resumen

    La idea de la Web de datos[38] se ha visto enormemente potenciada por el esta-blecimiento de los principios de datos enlazados en la Web[10]. Con la aparicin del

    proyecto Linking Open Data 1

    se abre paso al concepto de datos abiertos enlazados,estableciendo las bases para la publicacin de datos abiertos en la Web. Sin embargo,aunque se ha definido de manera formal la forma (datos enlazados) y el objetivo (Webde datos), es aun difusa la definicin de una arquitectura de componentes que den so-porte a la implantacin de tales tecnologas, como tambin es difusa una metodologa deimplantacin asociada a esta arquitectura, de forma tal que en conjunto habiliten tantola publicacin como la mantencin de datos semnticos de una manera estandarizada.

    En este trabajo se describe una arquitectura de componentes y un proceso de implan-tacin de tecnologas de Web Semntica que dan soporte a la publicacin y mantencinde datos abiertos enlazados en el mbito de las administraciones pblicas, con un casode estudio particular para la Biblioteca del Congreso Nacional de Chile.

    Para esto, se realiza una revisin del estado del arte en lo referente a tecnologasy estndares base de soporte a datos abiertos enlazados, metodologas y procesos depublicacin y mantencin, y otros elementos como comunidades y casos de xito. Pos-teriormente se presenta la propuesta metodolgica planteada, definiendo el contexto deaplicacin, la arquitectura de componentes y fases de implantacin de esta arquitectu-ra. Luego se presenta un caso de estudio en donde se ve aplicada tanto la arquitecturacomo el proceso de implantacin por fases, describiendo de manera simple las herra-mientas ms importantes desarrolladas para resolver los requerimientos del proyecto.Finalmente se hace una discusin respecto a la metodologa planteada y su caso deestudio terminando con las conclusiones y trabajo futuro.

    Palabras clave

    Web Semntica, Datos Enlazados, Datos Abiertos Enlazados, Metodologa Web Se-mntica, RDF, SPARQL, Gobierno Abierto, Arquitectura Datos Enlazados

    1http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    16/1

    Abstract

    The idea of Web of data[38] has been widely enhanced by the establishment ofLinked Data principles on the Web[10]. The emergence of Linking Open Data project2

    opens the door to the concept of Linked Open Data, establishing solid basis forpublishing open data, usable by anyone on the Web. However, even though bit hasbeen defined formally the form (Linked Data) and the goal (Web of data), it is stillfuzzy the definition of a components architecture that supports the implementationof such technologies. In addition, it is also fuzzy the methodology of implementationassociated with this architecture. Considering these two elements altogether, it couldenable both publishing and maintenance of semantic data in a standarized way, andapply this approach to public administrations considering their particularities.

    This work describes a component architecture and an implementation process ofSemantic Web technologies that support both publishing and maintenance of linkedopen data. Public administrations is the scope of this study, with a particular case

    study for the Library of Congress of Chile.This work begins by reviewing the state of art regarding technologies and base stan-dards of support to linked open data. It is also reviewed methodologies and process ofpublication and maintenance, and other elements such as communities and success ca-ses. This study then presents the methodological approach, the components architectureand the implantation phases of the architecture. Then, it presents a case study whereit is applied both the proposed architecture and the implantation process. It is descri-bed the most important tools developed for resolve the project requirements. Finally, adiscusion is presented about the raised methodology and the case study, it finishes withthe conclusions and future work.

    Keywords

    Semantic Web, Linked Data, Linked Open Data, Semantic Web Methodology, RDF,SPARQL, Open Government, Linked Data Architecture

    2http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    17/1

    3

    Captulo 1

    Introduccin

    1.1. Introduccin

    Cada ao son ms las organizaciones en el mundo que publican abiertamente con-juntos de datos enlazados, consultables desde cualquier parte del mundo a travs de laWeb. Cuando se habla de datos enlazados, datos vinculados o en ingls linked data[10], se hace referencia a conjuntos de datos publicados sobre la Web de forma tal quecumplan cuatro principios fundamentales :

    Deben estar publicados sobre HTTP1.

    Se debe utilizar una URI2 para referenciar cada entidad existente.

    Cuando se acceda a cada URI que identifique algo, se debe agregar ms informa-

    cin relacionada publicada mediante estndares como RDF

    3

    .Se deben incluir enlaces a otras URI, de forma que permitan el descubrimiento denueva informacin.

    Se estima que hay publicados hasta abril de 2011, sobre 35,8 miles de millones detripletas RDF 4 distribuidas en aproximadamente 280 conjuntos de datos a lo largodel mundo. El inters por dejar disponibles datos enlazados de forma abierta tienemltiples justificaciones, especialmente en el mbito del gobierno abierto. Algunas deestas justificaciones son:

    Generan confianza promoviendo transparencia en la informacin.

    Facilitan estudios e investigacin.

    Los sistemas abiertos facilitan las contribuciones externas.

    Los datos pblicos pertenecen a la nacin, son concebidos gracias a los impuestosde los ciudadanos.

    En la lnea del gobierno abierto, actualmente en todo el mundo se estn realizandoesfuerzos por publicar datos enlazados en distintos dominios tales como educacin, salud,

    1Hipertext Transfer Protocol2Universal Resource Identifier3Resource Description Framework4http://www4.wiwiss.fu-berlin.de/lodcloud/

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    18/1

    4

    legislacin o trabajo. Sin embargo, aunque este escenario comn existe, actualmente nohay definida una referencia formal que permita basar el desarrollo de un proyecto deimplantacin de datos enlazados en el contexto del gobierno abierto.

    Por esto, este trabajo describe una metodologa para la implantacin de datos en-

    lazados, definiendo una arquitectura de componentes y la secuencia de ejecucin de suimplantacin, con foco en la aplicacin a proyectos de contexto en administracionespblicas. Para esto, se desarrolla un caso de estudio de la aplicacin de esta propuestaen el ambiente legislativo, puntualmente para la Biblioteca del Congreso Nacional deChile.

    Se ha considerado necesario el desarrollo de esta investigacin ya que en la actuali-dad no existen referencias taxativas y formales que guen la implantacin de proyectosde publicacin de datos enlazados en trminos de qu componentes dan soporte a lasfuncionalidades bsicas y en qu secuencialidad deben ser implantados.

    1.2. MotivacinApoyando la adopcin de las tecnologas de Web Semntica, existen actualmente

    gran cantidad de herramientas orientadas a la creacin, publicacin y gestin de datosenlazados, y un gran sub conjunto para nuestro objeto de inters, datos enlazados abier-tos o en ingls Linked Open Data. Sin embargo, una gran debilidad en esta rea dela ingeniera web, es que no se ha establecido una referencia formal que defina de formasistemtica pautas acerca de la infraestructura tecnolgica necesaria para el desarrollode proyectos de implantacin de datos enlazados, tanto en trminos de los componentesnecesarios, su modo de interoperar y el orden en que esta infraestructura debera serimplantada.

    Este desconocimiento, conlleva una ms lenta adopcin tecnolgica, y en consecuen-cia, un impedimento a la definicin y creacin de nuevos proyectos sobre datos enlazadosabarcando tanto al sector pblico como al privado [15].

    Si bien actualmente existen aproximaciones generales relacionadas a la publicaciny consumo de datos enlazados [12, 41], estas no se ajustan a las necesidades reales delas administraciones pblicas, ni tampoco definen un modelo de componentes claro, sumodo de interoperar y fases de implantacin definidas, sino que, por un lado se limitana entregar conceptos tcnicos y ejemplos de uso relacionadas con la tecnologa asociadaa datos enlazados, y por otro lado definen alternativas en el proceso de implantacin,pero sin describir una arquitectura basada en componentes, sus posibles modos de in-teroperacin y las fases en que deben ser implantados.

    Por otro lado, dado que el contexto de aplicacin de este trabajo est limitadoa la administracin pblica, en particular al ambiente legislativo, hay consideracionesadicionales que no han sido descritas por otras aproximaciones relacionadas debido a lanaturaleza particular del contexto; caracterizado por elementos como la generacin degrandes volmenes de datos diarios o la falta de personal especializado en el rea de laWeb Semntica entre otros.

    1.3. Finalidad

    La finalidad de este trabajo es plantear una solucin arquitectnica al problema de

    publicacin y mantencin de datos abiertos enlazados y tambin proponer un procesode implantacin en fases, acorde al contexto de las administraciones pblicas.

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    19/1

    CAPTULO 1. INTRODUCCIN 5

    Para ello, se define una vista arquitectnica de los componentes tecnolgicos quedan soporte a la publicacin y mantencin de datos abiertos enlazados, se describe lafuncin de cada componente, su forma de interoperar en la arquitectura y por ltimose describe el proceso de implantacin de esta infraestructura a travs de fases.

    Una vez realizada toda la definicin, se presenta un caso de estudio para la Bibliotecadel Congreso Nacional de Chile.

    En relacin a trabajos similares, en [12] se presentan pautas de publicacin de datosenlazados para un contexto genrico basndose en un conjunto de pasos secuencialesy tocando los principales temas de inters a la hora de publicar datos enlazados, sinembargo en este trabajo no se expone una arquitectura de componentes, ni tampoco seconsidera la realidad de las administraciones pblicas, en donde la implantacin de pro-yectos de Web Semntica normalmente implican la construccin de una infraestructurade uso exclusivo, debido a que no deben interferir de manera alguna con las actividadescotidianas y normalmente son desarrolladas por equipos externos al personal de planta.

    De la misma manera en [41] se expone una gran cantidad de informacin til para

    la implantacin de un proyecto de datos enlazados, sin embargo no se consideran ele-mentos como el portal de documentacin, el uso de herramientas de ETL 5 (Extraccin,Transformacin y Carga) para la generacin de tripletas RDF ni la utilizacin de unservicio de actualizacin que permita actualizar el conjunto de datos enlazados.

    5Extraction, Transformation and Loading

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    20/1

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    21/1

    7

    Captulo 2

    Fijacin de Objetivos

    2.1. Objetivos

    El proyecto divide los objetivos en dos grupos, en primer lugar objetivos de lainvestigacin, y en segundo lugar objetivos desde el punto de vista del caso de estudio.

    Como objetivos de la investigacin se presentan los siguientes:

    Desarrollar un estado del arte suficiente, tal que permita identificar los pro ycontras de las propuestas arquitectnicas actuales relacionadas a la publicacinde datos enlazados.

    Definir una arquitectura estandarizada que de soporte en la implantacin de datosenlazados en el contexto de la administracin pblica.

    Probar la metodologa mediante un caso de estudio, realizando una evaluacincualitativa.

    Por otro lado, objetivos del caso de estudio son los siguientes:

    Disear e implementar un Endpoint SPARQL para la Biblioteca del CongresoNacional de Chile.

    Disear e implementar un grafo de datos abiertos enlazados.

    Disear e implementar una herramienta para la visualizacin del grafo de datosenlazados.

    Proveer una solucin de actualizacin del grafo en la medida que se generan nuevosdatos que deban ser vinculados.

    Implementar los requisitos no funcionales necesarios para la solucin.

    2.2. Posibles mbitos de aplicacin

    mbitos de aplicacin posibles son en primer lugar todas aquellas iniciativas degobierno abierto que estn actualmente en etapas de planeamiento de proyectos dedatos enlazados y que no cuenten con personal tcnico especializado en el rea de laWeb Semntica. En este caso, las administraciones pblicas se veran beneficiadas por

    este trabajo, ya que define sistemticamente tanto los componentes necesarios como lasfases de implantacin a considerar por cada parte de la arquitectura.

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    22/1

    8

    En contextos fuera del mbito del proyecto, no se excluye el sector privado de laaplicacin de este trabajo, ya que si bien, en la actualidad la mayor parte las iniciativasde publicacin se estn generando desde la administracin pblica, es muy probable queen el mediano plazo las empresas comiencen a publicar datos vinculados. Por ejemplo,

    las empresas bancarias podran comenzar a publicar sus indicadores econmicos, lastiendas o supermercados poner a disposicin sus catlogos, o las universidades poner lainformacin sobre la oferta acadmica, puntajes de ingreso de aos anteriores o catlogosde material acadmico, todos los cuales seran tiles en forma de datos vinculados.

    En definitiva, la arquitectura de componentes planteada y sus fases de implantacinpueden ser aplicadas en cualquier proyecto de implantacin de datos enlazados en dondese requiera publicar datos existentes sin interferir con las labores cotidianas tanto enlos ambientes de desarrollo como produccin, ya que el planteamiento considera unsistema independiente, en donde tanto la arquitectura como el proceso de implantacinse plantean de manera autnoma pero a la vez integrable a otros sistemas existentes.

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    23/1

    9

    Captulo 3

    Estado del arte

    3.1. Terminologa

    A continuacin se presentan los conceptos previos necesarios para el total entendi-miento del trabajo.

    3.1.1. Uniform Resource Identifier

    Un identificador uniforme de recurso, o URI por su sigla en ingls, es un identificadordefinido en el estndar RFC 3986 [9] y se define como una cadena de caracteres queidentifica unvocamente a un recurso sobre un sistema. Para este caso tal sistema serla Internet. En este contexto una URI est formada por por tres partes clave:

    Un protocolo de acceso: que define un mtodo estandarizado de acceso a un

    recurso que normalmente ser HTTP. Tambin es posible el uso de otros protocolostales como HTTPS, MAILTO, FTP y otros.

    Una autoridad: que corresponde a un nombre de dominio raz especfico.

    Descriptor de recurso: corresponde a un conjunto de caracteres que pueden sertener las siguientes formas:

    Ruta: una cadena de caracteres que representa informacin jerrquicamenteorganizada a travs del separador .

    Consulta: una pgina dinmica seguida de el smbolo ? y un conjunto de

    pares clave=valor separados por el smbolo &. Fragmento: una cadena nica de caracteres que figura al final de la URI

    posteriores al smbolo #.

    Una combinacin de todos los elementos anteriores.

    Una URI se diferencia de una URL (Uniform Resource Locator) porque la primerapermite identificar recursos mediante fragmentos dentro de un documento mientras quela segunda no.

    3.1.2. RDF

    RDF [40], sigla en ingls deResource Description Framework, o en castellano marcode descripcin de recursos, es un estndar para intercambio de datos en la Web. Es

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    24/1

    10

    el lenguaje principal en lo denominado como Web Semntica ya que permite expresarrelaciones entre entidades a travs de URIs. La estructura principal del lenguaje RDFse denomina tripleta. Esta estructura tiene forma de grafo dirigido, donde el arco repre-senta un enlace que describe un tipo de relacin entre dos recursos que representan los

    nodos del grafo. Esta vista de grafo es una forma de representar un modelo mental quehabilite un fcil entendimiento para RDF. Un documento RDF puede ser representadoen texto plano, bajo mltiples modelos de sintaxis RDF tales como RDF-XML [5], N3[8], Turtle [35] o RDFa [2] entre otras.

    3.1.3. Datos enlazados

    El concepto de Datos enlazados, o en ingls Linked Data, nace a partir de la idea dehacer crecer los conjuntos de datos descritos en RDF mediante enlaces a otros conjuntosde datos descritos en RDF. El concepto est basado en cuatro principios fundamentalesdescritos en 2006 por Berners-Lee [10]:

    Utilizar una URI para identificar cada recurso publicado en la Web.

    Tener publicados estos datos en una URI basada en HTTP con el fin de quepuedan ser fcilmente localizados y consultados.

    Proporcionar informacin til, detallada o extra acerca del recurso cuando seacceda a esta URI basada en HTTP.

    Incluir enlaces a otras URI relacionadas con los datos contenidos en el recurso, deforma que se potencie el descubrimiento de la informacin sobre la Web.

    Posteriormente en 2010, y sobre el mismo documento de descripcin de datos enlazadosdefinidos por Berners-Lee, se han agregado criterios adicionales en donde se han descritocinco niveles de conformidad de los datos enlazados, estos son los siguientes:

    1. Una estrella: Datos disponibles en la Web en cualquier formato pero con unalicencia abierta.

    2. Dos estrellas: Cumplir una estrella y adems que los datos estn disponibles enalgn formato estructurado leble por mquinas (como un documento .xls en lugarde una imagen en donde figuren datos escaneados de una tabla por ejemplo).

    3. Tres estrellas: Cumplir dos estrellas y adems que los datos estn disponiblesen algn formato no propietario (por ejemplo .csv en lugar de .xls).

    4. Cuatro estrellas: Cumplir tres estrellas y adems usar estndares abiertos desdela W3C, en particular RDF para identificar los recursos y SPARQL para consul-tarlos, habilitando que otros puedan tambin usarlos.

    5. Cinco estrellas: Cumplir cuatro estrellas y adems enlazar los datos con datosde otras fuentes, dndoles contexto a nuestros datos.

    Como una extensin a lo anterior, aparece el concepto de datos abiertos enlazados,

    ya que adicional a los principios ya descritos, se considerar la publicacin de estos parabrindar libre referenciacin, consumo y utilizacin de los datos.

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    25/1

    CAPTULO 3. ESTADO DEL ARTE 11

    3.1.4. Grafo RDF

    Un grafo RDF, tambin en este documento llamado grafo de datos vinculados, co-rresponde a un conjunto de recursos vinculados entre si a travs de URIs mediante

    tripletas en RDF. Como cada tripleta se define a partir nodos descritos por una URIsen forma (sujeto, predicado, objeto), el grafo RDF estar distribuido a lo largo de cadauna de las URIs definidas en las tripletas RDF.

    3.1.5. SPARQL

    SPARQL [39] es un lenguaje de consultas para RDF y actualmente una recomenda-cin W3C. Mediante su expresividad permite realizar consultas a mltiples fuentes dedatos o grafos, que deben estar en RDF. Su sintaxis es similar a la del lenguaje SQLaunque orientado a tripletas y grafos RDF. Los resultados de las consultas SPARQLpueden ser conjuntos de tripletas RDF, grafos RDF, URIs a entidades o simplementevalores.

    3.1.6. Endpoint SPARQL

    Un Endpoint SPARQL se define mediante la especificacin SPROT[19] de W3C1.De forma resumida, es una herramienta que permite realizar consultas SPARQL sobreun grafo RDF de entrada. A nivel ms tcnico, un Endpoint SPARQL implementa unainterfaz descrita en la especificacin SPROT, la que define una operacin, un mensajede entrada y dos mensajes de salida.

    El mensaje de entrada debe estar compuesto por dos parmetros, uno obligatorio yotro opcional. El parmetro obligatorio corresponde a la consulta SPARQL que se deseaejecutar, y el parmetro opcional corresponde a una URI que representa la ubicacinde un grafo RDF sobre el cual se ejecutara la consulta.

    La operacin definida anteriormente, permitir ejecutar una consulta SPARQL, me-diante la lgica de aplicacin en que existe el Endpoint.

    Sobre los mensajes de salida, e primero corresponde a los resultados obtenidos apartir de la consulta, lo cual se da en el caso de que no existan errores. El segundomensaje de salida corresponde a mensajes de error en el caso de falla de la consulta(que puede estar causada por errores de sintaxis, semnticos, excepciones en tiempo deejecucin, u otros).

    Desde el punto de vista prctico, un Endpoint SPARQL agrega otros parmetrosopcionales que enriquecen su funcionamiento. Algunos de ellos son por ejemplo el for-

    mato de salida de los resultados (por ejemplo se podran requerir resultados en sintaxisN3, RDF-XML u otra) o el tiempo mximo de ejecucin asociado a la consulta entreotros.

    3.1.7. Negociacin de contenido

    El concepto de negociacin de contenido [37] se relaciona con los datos vinculadosdebido al hecho de publicar un recurso sobre una URI. Es entendido que un recursose define en una URI, sin embargo para el mismo recurso pueden existir mltiples re-presentaciones. Esto cobra particular sentido, considerando que RDF permite mltiplessintaxis, tal como se ha explicado anteriormente. Por lo tanto, un mismo recurso podrser descrito de forma equivalente en cualquiera de las sintaxis de RDF. De esta forma, se

    1World Wide Web Consortium http://www.w3c.org

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    26/1

    12

    considera que una URI a un recurso, debiera ser independiente de su representacin, esdecir, no debiera expresar de forma explcita la representacin a la que hace referenciaya que se caera en el error conceptual de mezclar el recurso con su representacin.

    La negociacin de contenido entonces, se aplica en el contexto de los datos enlazados

    al momento de acceder a un recurso en una URI especfica cuando no se identifica larepresentacin a la que se accede de forma explcita mediante la URI. Es decir, si seaccede a la URI de definicin del recurso, y no se explicita la representacin que se deseaobtener, comenzar a efectuarse el proceso de negociacin de contenido.

    En la prctica, el mecanismo de negociacin de contenidos se basa en que, desde elpunto de vista del protocolo HTTP, cuando un cliente accede a un recurso publicadoen una URI, este enva cabeceras indicando los tipos de documento que son preferidoscomo respuesta y un conjunto adicional de otros metadatos que permitirn entregar lainformacin de la forma ms ajustada posible. Dentro de esta informacin adicional,por dar un ejemplo, un cliente enva los formatos aceptados de retorno, la codificacinde caracteres y el idioma entre de otros. Toda esta informacin es enviada mediante las

    cabeceras HTTP una vez que se accede a la URI del recurso. Cuando la aplicacin enel lado del servidor recibe la peticin en que se indica el tipo de contenido preferido, seenva una respuesta al cliente utilizando el cdigo 303 del protocolo HTTP denominado

    See Other o en castellano Ver Otro indicando una URI en donde el cliente deberacceder para obtener el recurso preferido de acuerdo a sus preferencias. De esta forma, elcliente nuevamente acceder al recurso, pero ahora a la URI especificada por el mensaje

    See Other, en donde obtendr el recurso en la representacin ms apropiada, y de pasose generar un cdigo de xito en el servidor, especificado por el mensaje de respuestacon cdigo 200 denominado OK. La figura 3.1 explica a nivel grfico el mecanismo denegociacin de contenido.

    Figura 3.1: Mecanismo de negociacin de contenido

    3.1.8. Requerimientos funcionales para registros bibliogrficos

    El estndar FRBR 2 [31] o en castellano Requerimientos Funcionales para RegistrosBibliogrficos, define un modelo conceptual definido por la Federacin internacional de

    2Functional Requirements for Bibliographic Records

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    27/1

    CAPTULO 3. ESTADO DEL ARTE 13

    Asociaciones de Bibliotecas e Instituciones IFLA 3 , el cual tiene como objetivoestablecer un marco que proporcione una comprensin clara, definida con precisin ycompartida por todos sobre la informacin que un registro bibliogrfico debe proporcio-nar y sobre lo que se espera que se logre de un registro bibliogrfico como respuesta a

    las necesidades de los usuarios. Desde este punto de vista, cada documento bibliogrficodebe ser pensado bajo tres puntos de vista siguiendo el estndar FRBR :

    Trabajo: una creacin intelectual o artstica, la obra original producida por unautor, por ejemplo el Hamlet de Shakespeare.

    Expresin: una clara realizacin intelectual o artstica de una obra, por ejemplola pelcula de Hamlet en 1990 por Zeffirelli.

    Manifestacin: la encarnacin fsica de una expresin concreta, por ejemplo, elformato DVD de la pelcula.

    Este estndar se est referenciando porque es de especial inters para el diseo de URIsa realizar durante el caso de estudio.

    3.1.9. Representaciones de un recurso

    A continuacin se referencian de forma simple algunas de las representaciones omanifestaciones ms utilizadas que un recurso puede tomar en el contexto de los datosvinculados.

    Hipertext Markup Language HTML[26]: un recurso representado en esteformato mostrar informacin legible por un navegador Web y en consecuencialegible para un humano, sin embargo este tipo de representacin no entregarinformacin semntica til en RDF.

    HTML + RDFa [2]: es una especificacin que permite expresar datos estruc-turados como atributos en algn lenguaje de marcado. Un recurso representadoen este formato mostrar informacin legible tanto para un navegador Web comopara aplicaciones que analicen cdigo RDF, ya que toda la informacin semnticaest incrustada como metadatos de la pgina Web.

    JavaScript Object Notation JSON [17]: un recurso representado en esteformato entregar los datos en sintaxis Javascript.

    RDF/XML[5]: un recurso representado en este formato entregar datos estruc-turados en RDF a travs de marcas, analizables por algn tipo de procesadorXML.

    Notation 3 [8]: un recurso representado en Notation 3, entregar tripletas RDFen un formato legible para humanos y a la vez procesables por analizadores RDF.

    Notation Triples [23]: un recurso representado en este formato entregar datosde manera muy similar al formato Notation 3, con la diferencia que bajo esteformato no se realizarn factorizaciones sintcticas del cdigo RDF.

    Comma-Separated Values, CSV[43]: un recurso representado en este formato

    entregar datos en una hoja de clculos bsica.3International Federation of Library Associations and Institutions

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    28/1

    14

    La tabla 3.1 describe el tipo de representacin, los tipos de contenidos existentes(comnmente denominados Mime Types [25]) y su extensin de archivo asociada paralos formatos anteriormente mencionados:

    Nombre Tipo de Contenido ExtensinHTML text/html .htmlHTML + RDFa application/xhtml+xml .htmlJSON application/rdf+json .jsonNotation 3 text/rdf+n3 .n3Notation Triples text/plain .ntriplesCSV text/csv .csv

    Tabla 3.1: Representaciones de un recurso

    3.2. Propuestas para publicar datos enlazados

    Actualmente existen aproximaciones metodolgicas relacionadas con la publicacinde datos enlazados, sin embargo estas no son claras del todo y aunque son un granpunto de referencia, centran gran parte del esfuerzo en algunos de los fundamentosde los datos enlazados en la Web, ms que en definir una solucin. A continuacin serevisan en profundidad estas aproximaciones.

    3.2.1. Cmo publicar datos enlazados en la Web

    En esta propuesta [12] se define un proceso de publicacin de datos enlazados com-puesto por siete etapas:

    1. Seleccionar vocabularios

    2. Particionar el grafo RDF en pginas de datos

    3. Asignar una URI a cada pgina de datos

    4. Crear variantes en HTML para cada pgina

    5. Asignar una URI a cada entidad

    6. Agregar metadatos dentro de cada pgina

    7. Agregar un mapa del sitio semntico

    Seleccionar vocabularios

    en esta etapa se da nfasis a reutilizar vocabularios existentes, con el fin de hacerlos datos ms estandarizados, de otra forma se aconseja crear vocabularios propios sino es posible la reutilizacin. Tambin se aconseja el uso de vocabularios ampliamenteutilizados como Dublin core (DC) 4, Friend of a friend (FOAF) 5, Simple Knowledge

    4http://dublincore.org/5http://xmlns.com/foaf/0.1/

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    29/1

    CAPTULO 3. ESTADO DEL ARTE 15

    Organization System (SKOS) 6 o (SIOC) 7 , mezclndolos y formando el modelo asociadoal dominio requerido. Adicionalmente se dan algunas pautas para hacer una seleccincorrecta de los vocabularios, para crear vocabularios propios y en la misma lnea paraextender vocabularios existentes.

    Particionar el grafo RDF en pginas de datos

    esta etapa consta de poner en lnea el grafo mediante documentos RDF. En el casode obtener un grafo muy grande, la propuesta considera dividir el grafo en mltiplesdocumentos siguiendo algunas pautas. Por ejemplo una de ellas dividir las pginas dedatos por entidades. Otra pauta es que si ya se tienen pginas HTML, usar la mismagranularidad para las pginas de datos.

    Asignar una URI a cada pgina de datos

    en esta etapa se definir una URI para cada documento RDF definido en la etapaanterior. En este sentido se hace referencia a eliminar los detalles de implementacinasociados al despliegue de los documentos RDF utilizando soluciones como Cool URIs[7] o patrones de datos enlazados como los definidos en [18].

    Crear variantes en HTML para cada pgina

    en esta etapa, si es que no existen, se recomienda crear pginas HTML por com-patibilidad con los navegadores Web. En este punto se hace referencia a la negociacinde contenido, definiendo que es el cliente quien expresa la preferencia por los formatosmediante la cabecera Accept de HTTP. Por otro lado, tambin se considera vlido elponer tanto el HTML como el RDF dentro de una pgina a travs de RDFa.

    Asignar una URI a cada entidad

    en esta etapa se de definen algunas reglas para la definicin de URIs a las entidadesdentro del grafo. Tambin se toca un aspecto de diseo relacionado con la utilizacin dela barra / o la almohadilla # en la construccin de URIs, dndole cierta preferenciaa lo segundo.

    Agregar metadatos dentro de cada pgina

    en este punto se sugiere el agregar tripletas con metadatos dentro de cada pgina

    del grafo RDF con el fin de ayudar a los clientes a entender las pginas de datos. Paraello se sugiere la utilizacin de propiedades existentes en vocabularios extensivamenteutilizados como Dublin core, o Friend of a Friend, y tambin el uso de propiedadesgenricas como rdf:label o rdf:type.

    Agregar un mapa del sitio semntico

    en esta etapa se propone la incorporacin de algunos elementos adicionales a losdatos enlazados que mejorarn su visibilidad. En una primera fase se propone definirmetadatos orientados a los rastreadores o Crawlers de buscadores Web a travs dela definicin de un archivo robots.txt y de un archivo de mapa del sitio de datos

    6http://www.w3.org/TR/2005/WD-swbp-skos-core-guide-20050510/7http://sioc-project.org/

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    30/1

    16

    enlazados, en donde figure al menos el nombre del conjunto de datos, el espacio denombres, las ubicaciones del Endpoint SPARQL, y la ubicacin de un volcado de datosen el caso de existir.

    Por ltimo este trabajo muestra un pequeo conjunto de herramientas que habili-

    taran un entorno de datos enlazados bsico, es decir, simplemente dejar el grafo RDFexpuesto en URIs HTTP.

    Cabe mencionar que en este trabajo tambin se presentan en un comienzo a modo demotivacin, un conjunto de aplicaciones que utilizan datos enlazados divididas en trescategoras: Navegadores de datos enlazados (Linked Data Browsers), Visualizaciones dedatos enlazados (Linked Data Mashups) y Mquinas de bsqueda o buscadores (SearchEngines).

    3.2.2. Datos enlazados: Evolucionando la Web hacia un espacio global

    de datos

    Este libro [28] es una extensin de la propuesta anterior, explicando detalladamentecada una de las fases anteriormente expuestas a travs de un caso de uso de ejemplo.

    Comienza con una introduccin en donde se explica el por qu se hace necesaria laimplantacin de proyectos de datos enlazados. Luego se explica lo que denominan Eldiluvio de datos haciendo referencia a la gran cantidad de datos existentes actualmen-te y los usos que se estn dando a los datos hoy en da. Posteriormente se justifica lanecesidad de compartir y conectar los datos en una va estandarizada, lo que concluyecon brindar como solucin a RDF debido a su flexibilidad para describir recursos. Fi-nalmente en este captulo se presentan los datos de una compaa ficticia sobre la cualse explicarn los ejemplos.

    El siguiente tema tocado son principios tericos de los datos enlazados, haciendo

    referencia a definiciones bsicas sobre el tema. Posteriormente se establece por qu esnecesario publicar datos enlazados sobre URIs HTTP como protocolo recomendado.Tambin se habla sobre no confundir URIs con las cosas en si, es decir, hacer las URIsdesreferenciables, permitiendo mltiples representaciones para un mismo recurso. Pos-teriormente se habla acerca de negociacin de contenido, mecanismo necesario para laimplementacin de las URIs desreferenciables, tocando temas como URIs compuestascon identificadores de fragmento o Hash URIs para elementos dentro de un vocabu-lario. Luego se presenta el modelo de datos RDF, describiendo sus caractersticas msimportantes en el contexto de los datos enlazados tales como reificacin, coleccionesy nodos annimos, y sus sintaxis aceptadas. Finalmente en este captulo se describentres tipos de enlaces entre datos vinculados (relaciones, identidades y vocabularios)concluyendo el captulo con un apartado de conclusiones.

    Posteriormente se habla sobre la Web de datos. Se habla acerca de el gran crecimientoque ha tenido la iniciativa de datos enlazados, sobre los dominios de los datos publicados,y tambin se dan algunas cifras acerca de conjuntos de datos publicados en la Web deforma abierta.

    El siguiente tema es bsicamente como modelar y construir datos enlazados, en par-ticular URIs para datos enlazados, dar pautas sobre cmo utilizar RDF y como generarmetadatos sobre datos enlazados que sirvan de soporte. Relacionado a esto ltimo, tam-bin se describen mtodos para publicar descripciones sobre conjuntos de datos, entreellos mapas de sitio semnticos y el estndar de hecho voiD8 orientado a interconectarconjuntos de datos. Posteriormente se tocan temas relacionados con otros vocabularios

    8Vocabulary of Interlinked Datasets

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    31/1

    CAPTULO 3. ESTADO DEL ARTE 17

    Figura 3.2: Nube de datos abiertos enlazados publicados hasta Noviembre de 2010.

    que dan soporte a algunos aspectos como propiedad intelectual, procedencia y otrosejemplos. Finalmente en este captulo se muestran pautas para reutilizar modelos y tr-minos a partir de modelos ampliamente adoptados, y enlazar datos propios con fuentesde datos externas de forma manual como automtica.

    En la lnea de la investigacin el siguiente tema tocado es sobre modelos de publica-cin de datos enlazados. En l se describen diferentes alternativas para publicar datosenlazados en la Web desde una perspectiva general, tal como se muestra en la figura3.3 (los colores clasifican los conjuntos de datos de acuerdo a su dominio). A modo dedescripcin se plantean cuestiones acerca de la naturaleza de los datos a publicar, yrespuestas que plantean recetas para la publicacin de datos enlazados en cada unade las soluciones posibles planteadas. Otras consideraciones que se entregan en este ca-ptulo son la importancia de los tipos MIME y asignar posibilidad de descubrir recursosen RDF desde HTML usando etiquetas. A continuacin en este captulo se dan algunasrecomendaciones para probar y depurar datos enlazados. Finalmente se entrega unalista de chequeo para considerar al momento de comenzar un desarrollo.

    El libro finaliza con contenidos relacionados al consumo de datos enlazados quequedan fuera del alcance de este trabajo.Si bien este libro entrega informacin muy valiosa para implantar un proyecto de

    datos enlazados, no muestra de forma explcita componentes ni tampoco considera unportal de documentacin como una parte de toda la infraestructura de datos enlazados,lo cual es fundamental.

    3.3. Arquitecturas para publicacin de datos enlazados

    La figura 3.3 definida en [28], muestra un conjunto de soluciones posibles para la

    publicacin de datos enlazados. A continuacin se describirn cada una resumiendo elmaterial existente en el libro.

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    32/1

    18

    Figura 3.3: Opciones de publicacin de datos enlazados.

    3.3.1. Soluciones basadas en Bases de datos relacionales

    Conjuntos de datos almacenados en bases de datos relacionales pueden ser publica-dos de forma relativamente fcil como datos enlazados, a travs del uso de envoltoriosdesde bases de datos relacionales hasta RDF. Estas herramientas permiten a los pu-blicadores definir mapeos desde estructuras en bases de datos relacionales hacia grafosRDF que son servidor en un servidor Web bajo los principios de datos enlazados. En elcaso de este tipo de aplicaciones no son necesarios servicios de actualizacin de tripletasya que se generan vistas RDF directamente sobre los datos de produccin, por lo cuallas tripletas siempre estn actualizadas. Algunas de estas herramientas, por mencionaralgunas son D2R Server 9, Virtuoso RDF Views Linked Data Wrapper 10 y Triplify 11.La desventaja de este tipo de aproximaciones es que se mantienen acopladas las solu-ciones de base de datos corporativa a la de datos enlazados, y por otro lado, se agregacarga adicional de procesamiento al motor de datos relacional producido por las nuevasconsultas producidas por el acceso a recursos en RDF.

    9http://www4.wiwiss.fu-berlin.de/bizer/d2r-server/10http://virtuoso.openlinksw.com/dataspace/dav/wiki/Main/VOSSQL2RDF11http://triplify.org/Overview

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    33/1

    CAPTULO 3. ESTADO DEL ARTE 19

    3.3.2. Soluciones basadas en APIs

    Otra aproximacin son los datos estructurados a travs de APIs tales como las deProgrammable Web 12, Flickr 13 o Amazon 14. Este caso se hace un poco ms complejo

    ya que requiere la implementacin de un envoltorio especfico que transforme los datos,que pueden estar bajo mltiples formatos (como XML o JSON) en RDF. Sin embargo,ejemplos como los que aparecen en The RDF Book Mashup [13], demuestran que talesenvoltorios pueden ser implementados de forma casi trivial, e inclusive posteriormentepueden ser componentizados y reutilizados. Si bien, este tipo de soluciones presentaclaras ventajas como por ejemplo el poder utilizar fuentes externas de datos, la principaldesventaja radica en que se genera dependencia con estas fuentes externas sobre las quenormalmente no se tiene control.

    3.3.3. Soluciones basadas en datos estructurados estticos

    Estos datos pueden consistir en archivos CSV, hojas de clculo Excel, archivos XMLo volcados de bases de datos. Para que estos datos sean servidos como datos enlazados,deberan ser procesados y convertidos a RDF y posteriormente almacenados en algnalmacn RDF. Algunas listas de herramientas de conversin a RDF o RDF-izadores,pueden ser encontradas en 15 y en 16.

    3.3.4. Soluciones basadas en documentos de texto

    En el caso de querer pasar documentos de texto a RDF escritos en lenguaje natural,por ejemplo un conjunto de noticias o reportes financieros, es posible obtener datosestructurados a travs de servicios tales como Calais, Ontos o DBPedia Spotlight queanotan documentos con las URIs de datos enlazados de entidades referenciadas en losdocumentos. Esto tiene ventajas ya que el publicar documentos anotados semnticamen-te permitir incrementar el potencial de descubrimiento de los documentos, mejorandotareas de recuperacin de la informacin que aplican sistemas como buscadores Web.

    3.3.5. Soluciones basadas en almacenes RDF

    Este es el caso ideal, tener un almacn especfico para mantener tripletas RDF, con-sultando y sirviendo directamente. Esta aproximacin tiene mltiples ventajas como

    rendimiento, escalabilidad y seguridad, sin embargo bajo este escenario se hace nece-saria la implementacin de una infraestructura adicional basada en un almacn RDF.Para posteriormente publicar los datos, en este caso lo comn es utilizar herramientasdenominadas Linked Data Frontends, las que dados ciertos mapeos, permiten realizarconsultas SPARQL en determinados patrones de URI. Ejemplos de estas herramientasson Pubby 17, Elda 18 y la descrita en este trabajo, WESO-DESH.

    12http://www.programmableweb.com/13http://flickr.com/14http://aws.amazon.com/15http://simile.mit.edu/wiki/RDFizers16http://esw.w3.org/ConverterToRdf17http://www4.wiwiss.fu-berlin.de/pubby/18http://elda.googlecode.com/hg/deliver-elda/src/main/docs/index.html

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    34/1

    20

    3.3.6. Soluciones basadas en archivos RDF

    Esta probablemente es la forma ms simple de servir RDF, simplemente subir unarchivo RDF a un servidor Web y dejarlo disponible en una URI. Esta prctica se realiza

    en ciertos casos:Cuando una persona crea y mantiene archivos relativamente pequeos, por ejem-plo al publicar un perfil FOAF personal.

    Cuando una herramienta de software o algn proceso genera o exporta datos comoRDF en archivos estticos.

    Normalmente en el primero de estos casos se utiliza sintaxis N3 por legibilidad, sinembargo cualquier tipo de sintaxis puede ser utilizada.

    3.3.7. Otras aproximaciones

    Otra aproximacin relacionada al mundo empresarial que combina los planteamien-tos anteriores es definida en [30], en ella se explica un esquema combinado que da soportea la generacin de datos enlazados provenientes desde diversas fuentes, orientados prin-cipalmente a la generacin de visualizaciones o Mashups. La figura 3.4 muestra laarquitectura diseada para estos fines.

    Figura 3.4: Arquitectura combinada orientada a la generacin de visualizaciones.

    3.4. Herramientas

    A continuacin se presenta una categorizacin de herramientas, su definicin y una

    descripcin de las herramientas existentes en cada una de las categoras, las cuales dansoporte a la implementacin de infraestructura para datos enlazados.

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    35/1

    CAPTULO 3. ESTADO DEL ARTE 21

    3.4.1. Almacenamiento

    Estas herramientas son sistemas para almacenar y gestionar datos en RDF, tambinconocidas como RDF Store o Triple Store. A continuacin se presentan algunas de

    las ms utilizadas dentro de esta categora.

    Openlink Virtuoso Universal Server

    Virtuoso 19 es un servidor empresarial de bases de datos y plataforma de servicios,integrando funcionalidades de gestin de bases de datos RDF, XML, relacionales, dearchivos, y texto; servidor de aplicaciones, de servicios Web, orquestacin de servicios,y muchas otras, permitiendo una enorme cantidad de usos en ambientes empresariales.Cuenta con dos versiones, una de pago para empresas y una versin de cdigo abiertoa disposicin de la comunidad. Es una herramienta multiplataforma y permite escala-bilidad basado en clster.

    D2R Server

    D2R Server 20 es una herramienta para publicacin de datos enlazados directamentedesde bases de datos relacionales. Permite RDF-izar datos desde una base de datosrelacional y navegar por estos tanto mediante pginas HTML como a travs de vistasen RDF generadas por mapeos a la base de datos relacional. Incorpora un EndpointSPARQL sobre el cual se pueden realizar consultas directamente sobre el RDF generado.Est basado en Java 1.4, bien documentado y disponible como cdigo abierto.

    Sesame

    Sesame 21 es un framework y almacn RDF ampliamente utilizado en el mundo tantopor empresas como por administraciones pblicas. Dentro de sus principales caracters-ticas estn que permite varios tipos de almacenamiento (como en memoria, archivos oen base de datos), adems de mltiples lenguajes de consulta, razonadores y protocoloscliente / servidor, siendo una de las soluciones ms flexibles existentes. Actualmentehan sido desarrolladas una cantidad importante de extensiones para este almacn RDF,tales como mdulos de consulta SQL, SPARQL, administracin, adaptadores de basesde datos, exportacin y muchos otros.

    Redland

    Redland 22 es un conjunto de bibliotecas escritas en C de soporte a RDF. Permitealmacenamiento tanto en memoria como persistente, utilizando otras bases de datostales como Oracle, MySQL, PostgreSQL, Openlink Virtuoso y SQLite. Adicionalmente,Redland mantiene en sus bibliotecas soporte para el tratamiento de RDF en mltiples desus sintaxis, permitir consultas SPARQL y RDQL, integracin nativa de las bibliotecascon Perl, PHP, Python y Ruby dentro de otras caractersticas. Es de uso libre bajolicencia LGPL 2.1, GPL 2 y Apache 2.

    19http://virtuoso.openlinksw.com/20http://www4.wiwiss.fu-berlin.de/bizer/d2r-server/21http://www.openrdf.org/22http://librdf.org/

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    36/1

    22

    4Store

    4Store 23 es una base de datos RDF desarrollada basado en los principios de efi-ciencia, escalabilidad y estabilidad. Est escrito en C, diseado para funcionar sobre

    plataformas UNIX, permite su utilizacin sobre clsters de ms de 32 nodos y estdisponible bajo licencia GPL 3.

    OWLIM

    OWLIM 24 es una base de datos RDF nativa escrita en Java, basada en Sesame.Tiene soporte integrado para la semntica definida en RDF Schema, OWL y OWL2 RL. Adems posee altas prestaciones en escalabilidad, carga y consultas. Tiene dosversiones, una denominada OWLIM-Lite y otra denominada OWLIM-SE, las cuales sediferencian en que la segunda es una versin con prestaciones empresariales. Por estomismo, la versin OWLIM-Lite puede ser utilizada libremente, mientras que OWLIM-

    SE puede ser utilizada libremente para investigacin, evaluacin y desarrollo, pero nopara usos comerciales, en tal caso es necesario una licencia comercial.

    Bigdata

    Bigdata 25 es una base de datos de propsito general orientado a la escalabilidadhorizontal, en donde puede ser desplegada hasta en cientos de servidores. La base dedatos RDF soporta razonamiento sobre reglas de RDF Schema y OWL Lite, consultasSPARQL e indexacin eficiente utilizando Apache Lucene dentro de muchas otras ca-ractersticas. Es un producto GPL para uso no comercial, en caso de uso comercial esnecesaria una licencia pagada.

    RedStore

    RedStore 26 es una base de datos RDF liviana escrita en C que utiliza la bibliotecaRedLand. Permite la ejecucin de SPARQL sobre HTTP y es de libre uso bajo licenciaGPL.

    HyperGraphDB

    HyperGraphDB 27 es una base de datos multiplataforma de propsito general basadaen una idea denominada hipergrafos 28 . Permite persistir objetos, grafos y bases de datos

    relacionales, y es un producto bajo licencia LGPL.

    3Store

    3Store 29 es una biblioteca en escrita an lenguaje C que utiliza MySQL para almace-nar datos en RDF, posee soporte RDQL pero no para SPARQL, por lo que se consideraun tanto obsoleto. Se distribuye bajo licencia GPL.

    23http://4store.org/24http://www.ontotext.com/owlim25http://www.systap.com/bigdata.htm26http://www.aelius.com/njh/redstore/27http://www.hypergraphdb.org/28http://es.wikipedia.org/wiki/Hipergrafo29http://www.aktors.org/technologies/3store/

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    37/1

    CAPTULO 3. ESTADO DEL ARTE 23

    Otras herramientas de almacenamiento

    Otras herramientas de almacenamiento como RDFStore 30 o Parka 31 no se hanconsiderado oportunas ya que han sido descontinuadas por sus respectivos autores.

    3.4.2. Generacin de grafos RDF sobre HTTP

    Estas herramientas permiten desplegar sobre una URI HTTP un documento detexto en alguna sintaxis RDF en donde se describen datos enlazados. A continuacin sepresentan algunas de las herramientas ms utilizadas bajo la categora de generadoresde grafos RDF sobre HTTP, tambin denominados Linked Data Frontend.

    Pubby

    Pubby 32 es un generador de grafos RDF sobre HTTP para ser utilizado sobreun Endpoint SPARQL. Permite acceder tanto a servidores SPARQL remotos como

    locales, utiliza reescritura de URL, genera una salida en HTML, implementa negociacinde contenido utilizando 303 See Other y es compatible con contenedores de servletscomo Apache Tomcat y Jetty. Un buen dato es que DBPedia est construida utilizandoPubby. Est basado en expresiones regulares para definir patrones de URI. Una desus principales limitaciones de esta herramienta es que solo permite utilizar consultasSPARQL de tipo DESCRIBE, por lo cual solo es posible describir recursos sin realizarconsultas paramtricas. Pubby es de cdigo abierto bajo la licencia Apache 2.

    RAP Pubby

    RAP Pubby 33 es un generador de grafos RDF sobre HTTP que funciona sobre

    el API RDF para PHP (RAP). Es una versin de Pubby escrita en PHP por lo quetiene caractersticas similares a este. Para su utilizacin requiere algunas configuracionesadicionales en la configuracin de Apache.

    WESO DESH

    WESO DESH 34 es un generador de grafos RDF sobre HTTP creado por el grupo deinvestigacin WESO de la Universidad de Oviedo. Est desarrollado en Java y permiteuna mayor cantidad de posibilidades de uso que sus similares Pubby y derivados, ya quea travs de esta se pueden ejecutar consultas SPARQL de tipo CONSTRUCT, ASK yDESCRIBE. Adicionalmente, esta herramienta incorpora una salida en RDFa basada

    en la salida estndar RDF/XML. Dentro de poco ser liberada como software libre bajolicencia LGPL.

    DJubby

    Djubby 35 es un generador de grafos RDF sobre HTTP para Endpoints SPARQLdesarrollado para el framework Django. Est basado en Pubby, pero programado enPython. Al igual que Pubby posee limitaciones en las consultas aunque menores ya que

    30http://rdfstore.sourceforge.net/31http://www.mindswap.org/2002/parka/32http://www4.wiwiss.fu-berlin.de/pubby/33http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/tutorial/RAP_Pubby.htm34http://www.weso.es/wesodesh/35http://code.google.com/p/djubby/

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    38/1

    24

    permite realizar consultas SPARQL de tipo ASK y DESCRIBE, pero no consultas detipo CONSTRUCT.

    Elda

    Elda 36 es un generador de grafos RDF sobre HTTP que utiliza URLs RESTful paraejecutar consultas SPARQL. Es similar a WESO DESH, pero con la limitacin de quelos parmetros se hacen visibles en las URL por las que se accede a los datos. No permitela definicin de expresiones regulares para la descripcin de las URIs. Est construidoen lenguaje Java y puede ser desplegada como una aplicacin Web en Apache Tomcato de forma autnoma usando Jetty.

    PoolParty

    PoolParty 37 es un conjunto de herramientas de soporte a datos enlazados, dentro deellas incorpora un generador de grafos RDF sobre HTTP basado en una interfaz grfica

    de usuario, lo que permite una fcil publicacin de datos enlazados. Al igual que lasdems herramientas, permite la descripcin de patrones de URI a travs de expresionesregulares.

    Virtuoso Conductor UI for URL Rewriter

    Conductor UI for URL Rewriter 38 es parte de un componente de Openlink Virtuosodenominado Conductor. La finalidad de este es permitir publicar automticamente enforma de grafos RDF sobre HTTP datos sacados desde Virtuoso al ingresar a deter-minados patrones de URI. Es una herramienta similar a Pubby, Elda y WESO DESH,pero acoplada a Virtuoso, lo que es una limitante. De igual forma que PoolParty, posee

    una interfaz grfica de usuario que habilita la gestin fcil de datos enlazados.

    3.4.3. Visualizadores de datos enlazados

    Estas herramientas permiten visualizar datos en RDF de forma grfica, facetada otabulada de forma que se haga legible por un usuario final, para lo cual se han empleadouna serie de mtodos. A continuacin se presentan dos categoras de estas herramientas,en primer lugar lado navegadores RDF y posteriormente herramientas de visualizacin.

    3.4.3.1. Navegadores de datos enlazados

    Este conjunto de herramientas tambin denominados Linked Data Browsers, per-

    miten visualizar datos enlazados en RDF a travs de pginas explicativas de recursosRDF, generando una representacin legible de los recursos. La tabla 3.2 presenta algunosde los navegadores de datos enlazados ms utilizados en la actualidad.

    3.4.3.2. Visualizadores

    Esta categora de herramientas permite visualizar datos enlazados en RDF mediantedistintos tipos de visualizaciones grficas. La tabla 3.3 presenta algunas de las herra-mientas ms utilizadas de esta categora.

    36http://elda.googlecode.com/hg/deliver-elda/src/main/docs/index.html37http://poolparty.punkt.at/38http://tinyurl.com/conductor-ui-url-rewrite

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    39/1

    CAPTULO 3. ESTADO DEL ARTE 25

    Figura 3.5: Ejecucin de Tabulator sobre una URI generada en el caso de estudio.

    3.4.4. Otras herramientas

    Vapour - Validador de Datos Enlazados

    Vapour 50 es un servicio de validacin de correcta publicacin de datos enlazados,de acuerdo a lo definido como mejores prcticas, tal como se define en los principios dedatos enlazados [10], las recetas de las mejores prcticas[27] y Cool URIs [7]. Vapour estdisponible como un servicio web pblico y tambin como cdigo abierto bajo licenciaW3C.

    RDFa Developer

    RDFa Developer 51 es una herramienta para visualizacin y anlisis de pginasescritas en HTML con RDFa incrustado. Ha sido desarrollada por la Fundacin CTIC

    y la Universidad de Oviedo. Dentro de sus usos principales, permite validar y ejecutarconsultas SPARQL sobre el grafo existente en la pgina HTML consultada. Se presentacomo una extensin para Firefox y es ampliamente utilizado en desarrollo de datosvinculados.

    Backplane RDFa Viewer

    Backplane RDFa Viewer 52 es una herramienta que permite visualizar las tripletasRDF incrustadas como cdigo RDFa en una pgina Web. Funciona como un servicioWeb HTTP de libre uso.

    50http://validator.linkeddata.org/vapour51http://rdfadev.sourceforge.net/52http://backplane.lighthouseapp.com/

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    40/1

    26

    Nombre Autores Descripcin

    Tabulator 39 MIT Permite visualizar todas las tripletasrelacionados a un recurso publicadoen una URI, inclusive realizando una

    consulta SPARQL sobre ellos. La fi-gura 3.5 muestra una de las visua-lizaciones que muestra esta herra-mienta.

    Marbles 40 Christian Becker y Ch-ris Bizer

    Permite visualizar informacin pro-veniente desde DBPedia, perfilesFOAF y Flickr Wrapper.

    DERI Pipes 41 Danh Le Phuoc, AxelPolleres , GiovanniTummarello y ChristianMorbidoni

    Esta herramienta permite generarinformacin a travs de la mezcla dedatos en RDF provenientes de dife-rentes fuentes y /o consultas. Es un

    smil a Yahoo Pipes y permite la uti-lizacin de SPARQL para la cons-truccin de nodos generadores.

    Openlink DataExplorer 42

    Openlink Software Esta herramienta, que se presentacomo complemento para los princi-pales navegadores, permite leer do-cumentos RDF publicados en URIsen formato HTML, generando unavisualizacin navegable.

    Disco 43 Chris Bizer y TobiasGau

    Es un navegador para recursos RDFque muestra de forma simple recur-

    sos y sus relaciones a travs de unapgina Web.

    Zitgist 44 Openlink Software Esta herramienta permite visualizarrecursos publicados en RDF de for-ma interactiva y accesible. Posee unconjunto de herramientas que faci-litan y mejoran la experiencia deusuario en la exploracin de datosenlazados.

    Tabla 3.2: Herramientas de navegacin de datos enlazados

    Protg

    Protg 53 es una herramienta para la creacin y edicin de ontologas. Es gratui-to y de cdigo abierto. Permite generar y exportar ontologas en mltiples sintaxis,as como visualizar grficamente las ontologas y usar razonadores para verificacin deconsistencia dentro de otras caractersticas.

    53http://protege.stanford.edu/

    Universidad de Oviedo 2011 Francisco Adolfo Cifuentes Silva

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    41/1

    CAPTULO 3. ESTADO DEL ARTE 27

    Nombre Autores Descripcin

    gFacet 45 DEI InteractiveSystems

    Esta herramienta permite visualizary navegar sobre datos RDF utilizan-do un visualizador construido sobre

    Adobe Flex 3.RelFinder 46 DEI Interactive

    SystemsEsta herramienta permite visualizarlas relaciones existentes entre diver-sos datos enlazados en formato RDFutilizando un visualizador construi-do sobre Adobe Flex 3.

    SemLens 47 DEI InteractiveSystems

    Esta herramienta permite analizartendencias y correlaciones entre da-tos RDF utilizando un visualizadorconstruido sobre Adobe Flex 3.

    tFacet 48 DEI Interactive

    Systems

    Esta herramienta permite visualizar

    datos RDF aplicando exploracin fa-cetada entre conceptos. Al igual queotros visualizadores de esta com-paa est construido sobre AdobeFlex 3.

    Lodviz 49 Grupo WESO,Universidad deOviedo

    Esta herramienta permite visualizardatos RDF en forma de grafos. Pa-ra ello solo basta con referenciar unaURL y entregar una representacingrfica utilizando HTML5 y Javas-cript.

    Tabla 3.3: Herramientas de visualizacin de datos enlazados

    3.5. Comunidades en lnea sobre datos enlazados

    A continuacin se har un breve comentario en torno a las comunidades activas msimportantes en Internet relacionadas a los datos enlazados.

    3.5.1. Pedantic Web

    El grupo Pedantic Web 54 o de la Web Pedante, es un grupo internacional orga-

    nizado libremente (a travs de una lista de correos), en donde especialistas tcnicos endesarrollo Web y datos enlazados, dan soporte a problemas asociados a la calidad de losdatos publicados, como tambin hacen discusin y evaluacin de temas planteados entorno a los datos vinculados. El principal objetivo de este grupo es fundamentalmenteser un apoyo a la calidad tcnica de la Web en trminos de interoperabilidad y adopcinde estndares.

    3.5.2. Red Temtica Espaola de Linked Data

    La Red temtica espaola de Linked Data 55 tiene como objetivo principal facilitarel intercambio y transferencia de conocimientos en el rea de la Web de Datos (tambin

    54http://pedantic-web.org/55http://red.linkeddata.es/web/guest/home

    Francisco Adolfo Cifuentes Silva Universidad de Oviedo 2011

  • 5/27/2018 PUBLICACI N DE DATOS ABIERTOS ENLAZADOS EN EL

    42/1

    28

    conocida como Linked Data o, en espaol, Red de Datos Enlazados), entre grupos deinvestigacin nacionales asociados a Universidades, Centros Tecnolgicos y empresas.Tambin se intenta fomentar el intercambio y transferencia de conocimientos con inves-tigadores espaoles que se encuentran actualmente trabajando en el extranjero en reas

    relacionadas. De esta forma, fomentando el intercambio y transferencia de conocimien-tos, se pretende aumentar la visibilidad internacional de la investigacin espaola entorno a los datos enlazados, adems de generar una mayor cohesin interna.

    3.5.3. Linking Open Data Community

    El grupo Linking Open Data 56 es el movimiento principal asociado a los datosenlazados en la Web. A travs de su lista de correos 57 se comentan a diario una grancantidad de temas relacionados con la publicacin, mantencin y consumo de datosenlazados, adems de nuevas iniciativas, herramientas y tecnologas. Es el movimientode mayor importancia relacionado a datos enlazados en el mundo.

    3.5.4. Linked Data Web en Linkedin

    A travs de la red social laboral Linkedin 58 tambin se ha desarrollado actividad entemticas acerca de datos enlazados. De esta manera nace la comunidad Linked DataWeb, en donde ms de mil usuarios de Linkedin comparten discusin y experienciasrelacionadas con datos enlazados sobre la Web.

    3.5.5. Otras comunidades

    Adems de las comunidades ya comentadas, existen otras con impacto ms focalizadoya que estn orientadas a proyectos puntuales o a sub conjuntos de datos enlazados aunms especficos. Es el caso del grupo Publishing Statistical Data 59, orientado a ladiscusin sobre produccin, publicacin y consumo de datos estadsticos en la Web. Otrocaso de impacto es The New York Times Linked Open Data Community 60, en dondese permiten hacer preguntas y comentarios acerca de las iniciativas de datos enlazadosde este peridico estadounidense. Otros grupos especficos son el grupo Bio2RDF 61,relacionado a informacin sobre biomedicina, Open Data Manchester 62 orientado avisualizar proyectos sobre datos enlazados de inters global, el grupo Business of LinkedData (BOLD) 63, en donde se discuten y exploran modelos de negocio, marketing