preservació digital de tesis i dissertacions: l'experiència del repositori cooperatiu tdx

Post on 15-Apr-2017

122 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Preservação digital de teses e dissertações

Experiência do repositório cooperativo TDX

Ricard de la VegaComputing and Applications Manager

Consorci de Serveis Universitaris de Catalunya (CSUC)

10º debateGrupo de Pesquisa Dríade

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

• Generalitat de Catalunya• Universitat de Barcelona (UB)• Universitat Autònoma de Barcelona (UAB)• Universitat Politècnica de Catalunya (UPC)• Universitat Pompeu Fabra (UPF)• Universitat de Girona (UdG)• Universitat Rovira i Virgili (URV)• Universitat de Lleida (UdL)• Universitat Oberta de Catalunya (UOC)• Universitat Ramon Llull (URL)• Universitat de Vic (UVic)

• Gestão de infraestruturas e serviços cooperativos para as universidades e lá investigação da Catalunha

• Fusão de um consórcio TIC e um bibliotecário

Consórcio de Serviços Universitários de Catalunha (CSUC)

Nossos serviços

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009

Repositórios de cooperação

TDX RECERCAT RACO PADICAT

RECYT MDC MDX PADICYT

CALAIX FILMOTECA SCIENTIA MACBA

Repositórios digitais

2001 2005 2006 2006

2006 2006 2009 2009

2010 2012 2015 2015

Quase 15 anos de repositórios…

Tese Trabalhos de pesquisa Revistas Websites

Revistas Património colecções

Materiais didáticos Websites

Dept. Cultura Património cinematográfico Dept. Saúde Património

artístico

Conteúdo

Texto (PDF) Texto (PDF) Texto (PDF) WARCs

Texto (PDF) Imagem Texto (PDF) WARCs

Texto, imagem,

audiovisual

Texto, imagem,

audiovisual

Texto, imagem,

audiovisual

Texto, imagem,

audiovisual

Formatos: texto, imagem, vídeo...

DSpace DSpace OJS Heritrix, etc.

OJS CONTENTdm DSpace Heritrix, etc.

DSpace DSpace DSpace DSpace

Programas: DSpace, OJS...

Gestão de dados científicos

Grupo de trabalho per:– Criação de uma política

– Data Management Plans• Orientações (http://hdl.handle.net/2072/266523)• DMP Online instância de DCC

– Repositório de dados de pesquisa• Orientações (http://hdl.handle.net/2072/266502)• Possível criação de um repositório cooperativo

– Piloto

Portal de pesquisa da Catalunha

Other

DRACUniversitas XXI

GRECSIGMA

UNEIX

PRC

Local and consortia repositories.

Mainly DSpace

Catalan government

DataWarehouse

PRC. Based on Dspace-CRIS

(CINECA)

11 university CRIS systems (from 4

different vendors)

Protocol: OAI-PMH/SWORDFormat: DC

Protocol: OAI-PMHFormat: CERIF-XML

Protocol: XLS filesFormat: UNEIX defined

Portal de pesquisa da Catalunha

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

TDX em 2001 (80 GB, 8K access hits)

TDX em 2016 (0.6 TB, 4.5M access hits)

Estructura de TDX

Cada universidade (18):• é uma Comunidade• Tem licenças de

admissão de teses• Administra sua coleção• Personalização• Pesquisadores frontend

Procedimentos e grupos de trabalho comum Universidades

Estructura de TDX

Departamentos e faculdades

Teses

Divulgação e preservação da tese

URV

UVic

UdGUdL

UV

UJI

UM

UCUA

UAB

UPFUB

Arquivos

UIB

Metadados

Admissão das 18universidades

Divulgação da tese espanholas

3333

3333

3333

3333

OAI-PMH harvester da tese das 33 universidades espanholas

CRISCRISCRIS

Mais divulgação da teses

DART

Recolecta

Driver

Tese europeia

Trabalhos de pesquisa espanhol

Trabalhos de pesquisa europeia

Motores de busca

Outros colecionadores

Portal de pesquisa da Catalunha

CRISCRISCRIS

Agenda

1. Introdução (CSUC)

2. Repositórios de cooperação

3. Repositório de teses digitais (TDX)

4. Preservação do TDX

Long term preservation• The e-infrastructure must ensure the long term data

access, without failure.

• To succeed, it must be taken into account:– Replication (more than one copy)– Media refresh – Format migration– Data integrity (checksums)– Contingency and recovery plan– Preservation plan – ...

Hardware migrations2001 (cpu, disk and tapes)

– HP N40002003 (cpu + disk)

– HP rp5430 with 2 processors, 704 GB memory– HP EVA V.2 with 2,8 TB disk

2006 (cpu + tape)– High availability HP cluster with 32 nodes– Adic Scalar i2000 (from 9840 tapes to LTO3)

2009 (disk)– NetApp FAS3170 with 60 TB disk

2012 (cpu)– New High availability cluster

2016 (disk)– New storage cabine

Born in a supercomputer!

Software migrations

2001 – ETDdb from Virginia Tech2005 – + OAI-PMH & statistics modules 2007 – + Spanish Thesis Harvester (MetaIndex module + X-Server libraries) from Ex Libris2011 – DSpace 1.6 from MIT & HP labs2013 – + Drupal for news & intranet…2016 – DSpace 5.2

Data integrity & Format migration

• Data Integrity– Checksums on DSpace (online version)– Checksums on LOCKSS (dark copies)

• Format migration– Not yet (PDF)– But Metadata migration yes

• From HTML forms (ETDdb) to Dublin Core (DSpace)

Replication

• On disk - Online version (1)• One backup on the tape library (2)• Other backup on a fireproof cabinet (3)• Other backup on a 50 Km remote Centre (4)• A dark copy on the MetaArchive Cooperative

– Private LOCKSS (Lots of Copies Keep Stuff Safe) Network– 7 more copies around the world (11)

• And (possible) more copies on each University

MetaArchive Cooperative

• The Educopia Institute’s mission is help cultural, scientific, and scholarly institutions achieve greater impact

• Lots of Copies Keep Stuff Safe (LOCKSS)

• A private LOCKSS network (PLN)

• Centralized facilities (conspectus, svn…)

• P2P secure network of “cache” nodes

Marketing...

“With others, you can accomplish what you cannot accomplish alone”“Don’t put all your eggs in one basket”

Private LOCKSS Networks (PLNs)• Alabama Digital Preservation Network (ADPN).  • CLOCKSS Archive.• Council of Prairie and Pacific University Libraries (COPPUL) • Data Preservation Alliance for the Social Sciences (Data-PASS)• Digital Commons.• Digital Federal Depository Library Program.• CARINIANA Instituto Brasileiro de Informaçãoem Ciência e Tecnologia• Lukll.• MetaArchive Cooperative.• PKP Public Knowledge Project. • PNAS Proceedings of the National Academy of Sciences. • Persistent Digital Archives and Library System – PeDALS. • SAFE (SAFE Archiving FEderation). • Synergies.• UK LOCKSS Alliance

Fonte: www.lockss.org/community/networks

50 instituições em 3 países

Como funciona?

Arquivo escuro

Private LOCKSS network

• 7 copies with widespread geographical distribution

• All 7 servers revisit on a regular basis to pick up new and changed content

• Versioning (no remove changed content)• Checksums file integrity control

Benefits– Distributed archiving of digitals collections across

multiple geographically distributed preservation sites

– Retrieval of contents in case of catastrophic loss

– Assistance with installation and maintenance of the technical solution

– Reports, coordination web conference…

Responsibilities

Initially:

– Local LOCKSS installation (cache)

– Define a data preservation strategy (Data Wrangling) for your “particular” repository

– Rules design for the other cache to harvest your repository (Plugin)

– Enroll your collections in a central database (Conspectus)

Responsibilities

Periodically:

– Add collections (of others) assigned centrally

– Apply firewall changes (IP active list)

– Apply updates

– Coordination with the MetaArchive staff and others cache if a restore (for disaster) is needed

Nuestra experiencia con MetaArchive

– Fácil modelo

– Relativamente barata

– Eu comprovada (em casos reais)

– Precisamos conhecimento técnico

– É apropriado para o conteúdo bem definido

– Formato agnóstico, “solo" preserva arquivos

Bibliografia– A Guide to Distributed Digital Preservation. K. Skinner and M. Schultz, Eds.

(Atlanta, GA: Educopia Institute, 2010). http://

metaarchive.org/sites/metaarchive.org/files/GDDP_Educopia.pdf

– Miquel Térmens: Preservación digital. Barcelona, Editorial UOC, 2014. ISBN:978-

84-9064-082-1.

– Ricard de la Vega. "Preservació digital al núvol." Item: revista de biblioteconomia i

documentació, 2013,Núm. 57 .

http://www.raco.cat/index.php/Item/article/view/269708/372314

– Huguet, Miquel ; Anglada i de Ferrer, Lluís M. ; Vega, Ricard de la. "Catalan

Policies and Experiences on Cooperative Repositories". Centre de

Supercomputació de Catalunya. 2007. http://hdl.handle.net/2072/4083

Muito obrigado!

ricard.delavega@csuc.cat@rdelavegahttps://es.linkedin.com/in/ricarddelavega

“Sometimes a scream is better than a thesis”Manfred Eigen

www.tdx.cat

www.recercat.cat

www.raco.cat

www.raco.cat

www.raco.cat

ww

w.p

adic

at.c

at

http://recyt.fecyt.es

http://mdc.cbuc.cat

ww

w.m

dx.c

at

http://padicyt.es

Hht

p://c

alai

x.ge

ncat

.cat

http

:://re

posi

tori.

film

otec

a.ca

t

http

://sc

ient

iasa

lut.g

enca

t.cat

Macba!

http

://re

posi

tori.

mac

ba.c

at

top related