Come faccio a scegliere l’archivio migliore per i dati del mio progetto di ricerca?
Come descritto nel sito OpenAIRE (How to find a trustworthy repository for your data), tutti i progetti Horizon 2020 partecipano automaticamente all’Open Research Data Pilot e sono obbligati a depositare prima possibile in un research data repository tutti i dati necessari a validare i risultati delle ricerche presentati nelle pubblicazioni scientifiche, corredati degli opportuni metadati ed altri dati trattati nel progetto di ricerca (es. dati grezzi), come dichiarato nel Data Management Plan, sempre corredati dai metadati. Inoltre nello stesso data repository per il progetto di ricerca è necessario depositare le informazioni sui software utilizzati per il trattamento di tali dati e, possibilmente, dare la possibilità di utilizzare il software.
La Comunità Europea preferisce l’utilizzo di data repositories certificati. Infatti nel documento Guidelines on FAIR Data Management in Horizon 2020 la Commissione Europea chiede di dichiarare dove verranno depositati i dati, i metadati, la documentazione e il codice, e chiede di preferire degli archivi di dati certificati e aperti.
I ricercatori possono contare su diversi tipi di certificazioni standard a livello internazionale dedicate agli archivi digitali. In ambito europeo, le certificazioni disponibili sono:
- CoreTrustSeal (CTS): basata sulData Seal of Approval (DSA) e sulWorld Data System (WDS) van ICSU. La lista degli archivi in possesso di tale certificazione può essere consultata all’URLhttps://www.coretrustseal.org/why-certification/certified-repositories/. Gli archivi digitali italiani certificati sono due, Phaidra dell’Università di Padova (basato sul software Fedora, è la piattaforma del Sistema Bibliotecario di Ateneo per l’archiviazione a lungo termine di oggetti e collezioni digitali. La piattaforma è multidisciplinare e ospita oggetti digitali di diverso genere, quali immagini, documenti di testo, libri e video, per lo più derivanti da digitalizzazioni di originali analogici) e ILC4CLARIN (basato sul software DSPACE e contenente specificatamente datasets) del CNR di Pisa.
- Nestor Seal: principalmente per la Germania, in conformità con lo standard DIN 31644
- La certificazione ISO 16363 (ad oggi non ancora utilizzata in Europa e in Italia)
Sono disponibili anche altri data repositories con un lunga e solida presenza, come ad esempio Zenodo, che non è certificato, ma è considerato trusted da OpenAIRE. Altri esempi di repositories possono essere ritrovati in OpenDOAR, la Directory of Open Access Repositories. Si prevede che questi archivi faranno domanda per la certificazione nel prossimo futuro, perché l'organizzazione dei finanziamenti alla ricerca e delle organizzazioni di ricerca in Europa (Science Europe) sta sviluppando criteri per la selezione di archivi affidabili. Questi criteri conterranno una raccomandazione che gli archivi che non sono ancora certificati richiedono la certificazione da tale organismo.
Durante lo svolgimento dei progetti è necessario gestire i dati e la documentazione secondo gli standard e le buone pratiche in uso nella propria disciplina, anche quelli che non possono essere resi disponibili ad accesso aperto. Per una maggiore consapevolezza sulle attività da svolgere per una buona gestione dei dati, può essere utile la lettura dell’OpenAIRE RDM handbook.
Ai dati depositati deve essere attribuito un identificativo unico (persistent identifier o anche PID), ad esempio ilDOI. Inoltre è molto importante che al dataset venga attribuita una licenza d’uso, che possa dire a chi vuole riutilizzare i dati cosa può o non può fare con essi. Ad esempio OpenAIRE raccomanda l’adozione della licenza Creative Commons CC0 o CC-BY, a meno che non ci siano limitazioni particolari, ad esempio in caso di dati sensibili o di dati coperti da segreto militare. L’EUDAT License Selector è un wizard che può aiutare nella scelta della licenza. In genere, nel caso di data repository certificati, viene offerto anche il servizio di attribuzione di un identificativo unico persistente e della licenza d’uso.
In merito alla scelta di un preciso data repository, è possibile scegliere tra un archivio disciplinare, un archivio istituzionale (se la propria istituzione ne offre uno in cui venga garantita la conservazione a lungo termine), depositare nell’archivio generalista Zenodo gestito dal CERN, oppure ricercarne uno adatto tramite il portale re3data.org, che offre la possibilità di applicare il filtro per archivio certificato, al contrario di OpenDOAR.
Altre caratteristiche ricercabili nella scelta del data repository sono il supporto per una gestione dei formati standard per dati e metadati, per la gestione dei dati sensibili, ad esempio mediante l’integrazione con strumenti automatici di anonimizzazione (come ad esempio Amnesia), per l’attribuzione delle licenze d’uso. I repository certificati impongono regole più stringenti a chi deposita, proprio perché i requisiti per la certificazione prevedono l’adesione ai principi FAIR di gestione dei dati, secondo il principio dettato dalla Commissione Europea “FAIR data in trustworthy repositories”.
I principali requisiti per la certificazione di un data repository sono (traduzione dalla pagina https://www.openaire.eu/find-trustworthy-data-repository del sito OpenAIRE, sezione WHAT ARE THESE REPOSITORY CERTIFICATIONS BASED ON?):
Requisito 2 (R2): il repository mantiene tutte le licenze applicabili relative all'accesso e all'utilizzo dei dati e ne monitora la conformità.
R3: Il repository ha un piano di continuità per garantire l'accesso continuo e la conservazione delle sue proprietà.
R4: Il repository garantisce, per quanto possibile, che i dati siano creati, curati, consultati e utilizzati nel rispetto delle norme disciplinari ed etiche.
R7: Il repository garantisce l'integrità e l'autenticità dei dati.
R8: Il repository accetta dati e metadati in base a criteri definiti per garantire la pertinenza e la comprensibilità dei dati per gli utenti.
R10: Il repository si assume la responsabilità della conservazione a lungo termine e gestisce questa funzione in modo pianificato e documentato.
R11: L'archivio dispone di competenze adeguate per affrontare i dati tecnici e la qualità dei metadati e garantisce che siano disponibili informazioni sufficienti per consentire agli utenti finali di effettuare valutazioni relative alla qualità.
R13: Il repository consente agli utenti di scoprire i dati e fare riferimento ad essi in modo persistente attraverso un'apposita citazione.
R14: Il repository consente il riutilizzo dei dati nel tempo, garantendo la disponibilità di metadati appropriati per supportare la comprensione e l'utilizzo dei dati.
Anche se Zenodo non può garantire sulla qualità dei dati, sul fatto che essi possano essere considerati FAIR e su tutte le procedure di gestione che è necessario mettere in campo per garantire un processo di validazione sul fronte della aderenza allo standard dei formati di dati e metadati, sulla cura dei metadati, su criteri di pertinenza e comprensibilità, sulla pertinenza delle licenze d’uso, ecc., di contro può fornire una soluzione immediata al deposito dei dati del proprio progetto di ricerca, in quanto è considerato “trusted” da OpenAIRE (Non ha la certificazione Core Trust Seal ma è considerato “trusted” da OpenAIRE (“Why use Zenodo? Safe — your research is stored safely for the future in CERN’s Data Centre for as long as CERN exists.” In home page).