Salta al contenuto principale
Passa alla visualizzazione normale.

La scelta di un repository per la pubblicazione dei dati della ricerca

18-lug-2023

Ascolta

Come descritto nel sito OpenAIRE (How to find a trustworthy repository for your data), tutti i progetti Horizon 2020 partecipano automaticamente all’Open Research Data Pilot e sono obbligati a depositare prima possibile in un research data repository tutti i dati necessari (compresi, ad esempio, i dati grezzi) a validare i risultati delle ricerche presentati nelle pubblicazioni scientifiche, corredati degli opportuni metadati. Inoltre, è necessario depositare le informazioni sui software utilizzati.

La Comunità Europea preferisce l’utilizzo di data repositories certificati. Infatti nel documento Guidelines on FAIR Data Management in Horizon 2020 la Commissione Europea chiede di dichiarare dove verranno depositati i dati, i metadati, la documentazione e il codice, e chiede di preferire degli archivi di dati certificati e aperti.

Esistono diversi tipi di certificazioni standard a livello internazionale dedicate agli archivi digitali. In ambito europeo, le certificazioni disponibili sono:

  • CoreTrustSeal (CTS): basata sulData Seal of Approval (DSA) e sulWorld Data System (WDS) van ICSU. La lista degli archivi in possesso di tale certificazione può essere consultata all’URLhttps://www.coretrustseal.org/why-certification/certified-repositories/. Gli archivi digitali italiani certificati sono due, Phaidra dell’Università di Padova (basato sul software Fedora, è la piattaforma del Sistema Bibliotecario di Ateneo per l’archiviazione a lungo termine di oggetti e collezioni digitali. La piattaforma è multidisciplinare e ospita oggetti digitali di diverso genere, quali immagini, documenti di testo, libri e video, per lo più derivanti da digitalizzazioni di originali analogici) e ILC4CLARIN (basato sul software DSPACE e contenente specificatamente datasets) del CNR di Pisa.
  • Nestor Seal: principalmente per la Germania, in conformità con lo standard DIN 31644
  • La certificazione ISO 16363 (ad oggi non ancora utilizzata in Europa e in Italia)

Sono disponibili anche altri data repositories con un lunga e solida presenza, come ad esempio Zenodo, che non è certificato (non ha la certificazione Core Trust Seal ma è considerato “trusted” da OpenAIRE (“Why use Zenodo? Safe — your research is stored safely for the future in CERN’s Data Centre for as long as CERN exists.” In home page), ma è considerato trusted da OpenAIRE. Altri esempi di repositories possono essere ritrovati in OpenDOAR, la Directory of Open Access Repositories. 

Durante lo svolgimento dei progetti è necessario gestire i dati e la documentazione secondo gli standard e le buone pratiche in uso nella propria disciplina, anche quelli che non possono essere resi disponibili ad accesso aperto. Per una maggiore consapevolezza sulle attività da svolgere per una buona gestione dei dati, può essere utile la consultazione dell'articolo "Guide e risorse per il research data management" nella sezione "Strumenti e pratiche per l'open science" in questo sito.

Ai dati depositati deve essere attribuito un identificativo unico (persistent identifier o anche PId), ad esempio il DOI. Inoltre è molto importante che al dataset venga attribuita una licenza d’uso, che chiarisca il tipo di riutilizzo ammesso. OpenAIRE raccomanda l’adozione della licenza Creative Commons CC0 o CC-BY, a meno che non ci siano limitazioni particolari, ad esempio in caso di dati sensibili o di dati coperti da segreto militare. L’EUDAT License Selector è un wizard che può aiutare nella scelta della licenza. Sia l'attribuzione di un identificativo unico persistente che di una licenza d’uso sono servizi offerti dai data repository certificati.

E' possibile scegliere tra un archivio disciplinare o un archivio istituzionale (se la propria istituzione ne offre uno in cui venga garantita la conservazione a lungo termine), ovvero depositare nell’archivio generalista Zenodo gestito dal CERN, o ancora ricercarne uno adatto tramite il portale re3data.org, che offre la possibilità di applicare il filtro per archivio certificato, al contrario di OpenDOAR.

Altre caratteristiche significative nella scelta del data repository sono il supporto per la gestione dei formati standard per dati e metadati, per l’attribuzione delle licenze d’uso e per la gestione dei dati sensibili, ad esempio mediante l’integrazione con strumenti automatici di anonimizzazione (come ad esempio Amnesia). I repository certificati impongono regole più stringenti a chi deposita, proprio perché i requisiti per la certificazione prevedono l’adesione ai principi FAIR di gestione dei dati, secondo il principio dettato dalla Commissione Europea “FAIR data in trustworthy repositories”.

I principali requisiti per la certificazione di un data repository sono (traduzione dalla pagina https://www.openaire.eu/find-trustworthy-data-repository del sito OpenAIRE, sezione WHAT ARE THESE REPOSITORY CERTIFICATIONS BASED ON?):

Requisito 2 (R2): il repository mantiene tutte le licenze applicabili relative all'accesso e all'utilizzo dei dati e ne monitora la conformità.

R3: Il repository ha un piano di continuità per garantire l'accesso continuo e la conservazione delle sue proprietà.

R4: Il repository garantisce, per quanto possibile, che i dati siano creati, curati, consultati e utilizzati nel rispetto delle norme disciplinari ed etiche.

R7: Il repository garantisce l'integrità e l'autenticità dei dati.

R8: Il repository accetta dati e metadati in base a criteri definiti per garantire la pertinenza e la comprensibilità dei dati per gli utenti.

R10: Il repository si assume la responsabilità della conservazione a lungo termine e gestisce questa funzione in modo pianificato e documentato.

R11: L'archivio dispone di competenze adeguate per affrontare i dati tecnici e la qualità dei metadati e garantisce che siano disponibili informazioni sufficienti per consentire agli utenti finali di effettuare valutazioni relative alla qualità.

R13: Il repository consente agli utenti di scoprire i dati e fare riferimento ad essi in modo persistente attraverso un'apposita citazione.

R14: Il repository consente il riutilizzo dei dati nel tempo, garantendo la disponibilità di metadati appropriati per supportare la comprensione e l'utilizzo dei dati.