Data Management Plan
Che cos'è un data management plan
Il data management plan (DMP) è uno strumento che aiuta i ricercatori già all’inizio di un progetto a preventivane e pianificarne l’intero ciclo di vita del progetto, con particolare riferimento alla gestione dei dati della ricerca.
Il DMP è un deliverable di progetto (cioè un documento o altro, che deve essere consegnato al committente e all’ente finanziatore come evidenza delle attività svolte) ma anche un elemento di valutazione per l'approvazione del finanziamento (ad esempio in Horizon Europe). Con il DMP il focus del ricercatore si sposta dalla pubblicazione finale (anch’essa importante) alla gestione del progetto di ricerca e dei dati trattati. Si tratta di un documento dinamico, che in Horizon Europe deve essere aggiornato ogni volta che è necessario (in Horizon 2020 erano previsti tre momenti di aggiornamento del documento), contiene la codifica di tutte le regole stabilite per la gestione dei dati e dei documenti di progetto, oltre che le motivazioni che porteranno a rendere aperti o no i dati della ricerca, secondo il principio "as open as possibile, as closed as necessary".
Gli enti finanziatori hanno bisogno di un DMP perchè il ricercatore deve dimostrare consapevolezza su una buona gestione dei dati, secondo i principi FAIR, e una disponibilità alla condivisione dei dati che, per essere resa possibile, comporta l’adozione consapevole di standard largamente diffusi, una chiara documentazione e una adeguata allocazione delle risorse umane, tecniche ed economiche, una garanzia di conservazione (e riuso) a lungo termine.
Il DMP deve essere specifico per l’argomento trattato dal progetto di ricerca, sintetico e schematico, perché siano facilmente utilizzabili le istruzioni per l’utilizzo dei dati trattati. Non bisogna inserire informazioni generiche e vaghe, ma informazioni specifiche sul progetto in corso, con dati reali e riscontrabili, perché sia realmente uno strumento di lavoro prima di tutto per il gruppo di progetto, poi per chi volesse riutilizzare i dati per altri progetti. La precisione sui dati trattati è fondamentale anche per una corretta valutazione dei costi riguardanti la gestione dei dati (infatti anche il deposito su piattaforme libere come Zenodo potrebbe comportare dei costi a seconda della quantità di GB occupati, o ancora potrebbe essere necessario avvalersi di un data steward, cosa che comporterebbe ulteriori costi). E’ molto importante effettuare queste stime in quanto molte voci di costo derivate dalla gestione dei dati e dall’assunzione di apposito personale sono rendicontabili, ma per esserlo devono essere previste e dichiarate fin dall’inizio del progetto. Inoltre, è fondamentale sia dichiarare regole e attività effettivamente svolte, in quanto potrebbero essere oggetto di verifiche da parte dell’ente finanziatore, sia dichiarare che alcune regole non sono ancora state definite per mancanza di informazioni, dimostrando di avere sotto controllo tutti gli aspetti del problema.
Come si compila il Data Management Plan
Il DMP si divide in varie sezioni che coprono l’intero ciclo di vita dei dati. Esistono vari template per la stesura di un DMP e ogni volta bisogna scegliere quello che più si adatta alle caratteristiche del progetto. In ogni caso ci sono delle caratteristiche comuni a tutti i template, che sono state ben identificate nel documento “Practical Guide to the International Alignment of Research Data Management - Extended Edition” (Science Europe. (2021). Practical Guide to the International Alignment of Research Data Management - Extended Edition. https://doi.org/10.5281/zenodo.4915862) di Science Europe.
Le immagini che seguono ne rappresentano graficamente il contenuto (elaborazione grafica a cura del Settore Servizi per la ricerca e diffusione della conoscenza scientifica, UniPA):
Sempre nel documento “Practical Guide to the International Alignment of Research Data Management - Extended Edition” (Science Europe. (2021). Practical Guide to the International Alignment of Research Data Management - Extended Edition. https://doi.org/10.5281/zenodo.4915862) di Science Europe, i requisiti di base vengono esplicitati come segue:
START |
Inserisci le informazioni relative a nome richiedente, codice progetto, programma di finanziamento, versione del DMP. |
1 |
|
2 |
|
3 |
|
4 |
|
5 |
|
6 |
|
Scopri i principali strumenti online per la compilazione del DMP
In rete sono disponibili dei wizard per la composizione del DMP, ad esempio DMP Online oppure Data Stewardship wizard.
IlDMP Online (https://dmponline.dcc.ac.uk/) è un software open source ed è personalizzabile. Ad esempio sarebbe possibile precompilare alcune sezioni come il codice etico o altre politiche di Ateneo che valgono per tutti i progetti di ricerca. Offre una dashboard che consente di conservare i propri documenti.
Nella sezione OA@UniTO dell’Università di Torino dal titolo “Come scrivere un Data Management Plan”, sono presenti due video della dott.ssa Elena Giglia: il primo spiega come utilizzare il DMP Online e il secondo spiega l'utilizzo del Data Stewardship Wizard (https://ds-wizard.org/).
Nel DMP online, la prima sezione è quella dei dati dell’ente, con funzionalità di collegamento a codifiche internazionali, come ad esempio l’ORCID del principal investigator, il grant number, l’acronimo del progetto, ecc.. Si possono utilizzare dei modelli preconfezionati, ad esempio quello della Commissione Europea per Horizon 2020 (in questo caso sono disponibili nelle 3 versioni previste, iniziale, intermedia e finale, con relativa guida contestuale) o Science Europe. Il wizard è predisposto per il lavoro di gruppo, mediante condivisione con altri utenti, e consente di effettuare il download del documento compilato. I campi da compilare sono corredati da help contestuale e l'utente viene guidato nella compilazione di tutte le parti che garantiranno che i dati rispondano ai requisiti FAIR.
Il wizard comprende anche la parte di allocazione della risorse, sia finanziarie che umane, ricordando di inserire tutte le voci di costo che saranno poi rimborsabili da parte dell’ente finanziatore; inoltre comprende la parte relativa alla sicurezza dei dati, che potrebbe essere precompilata nel caso in cui l’Ateneo avesse già predisposto delle procedure standard in merito. Nella parte che riguarda aspetti etici e legali sui dati si possono indicare eventuali riferimenti a vincoli imposti dal GDPR ed eventuali consensi informati necessari per poter trattare i dati.
Al termine della composizione del DMP online è possibile scaricare un file con le formattazioni di massima impostate con il wizard, in formato html, pdf, txt, csv, ecc.
Tabella comparativa strumenti per il DMP Online presentati all’Open Science cafè del 12 gennaio 2023 (https://www.icdi.it/it/news/197-come-scrivere-un-dmp) |
||
DMP Online
https://dmponline.dcc.ac.uk/ |
Data Stewardship wizard https://ds-wizard.org/ |
Argos https://argos.openaire.eu/ |
DMP Online, pur guidando nella compilazione, presenta di fatto una pagina bianca in cui bisogna scrivere i contenuti, che possono essere testo libero, tabelle ed elenchi puntati. In ogni passaggio è possibile salvare per continuare dopo.
Mette a disposizione i template di Horizon e di Science Europe, oltre ad altri template personalizzati. <p >Presenta un help contestuale, con consigli specifici e link a strumenti esterni, ad esempio per i formati di dati raccomandati <p >Offre dei videotutorial. <p >Consente la scrittura collaborativa. <p >Il DMP prodotto è machine readable ed è possibile esportarlo in diversi formati standard. |
Propone all’utente una serie di domande guidate e alla fine genera il DMP. Consente di utilizzare knowledge model differenti, con domande specifiche per il dominio di ricerca. Mette a disposizione i template di Horizon e di Science Europe, oltre ad altri template personalizzati. Il wizard è molto dettagliato, tiene conto di tutte le sezioni del DMP. Crea una “to do list” per gli aspetti non definiti, visualizzata contestualmente. A seconda delle risposte date, continua con una diramazione di domande coerenti con la risposta precedente. Comprende il supporto per l’individuazione delle licenze d’uso dei dati. Presenta un help contestuale che rimanda al libro di Barend Mons. Fornisce anche spunti di autovalutazione sugli aspetti che rendono i dati FAIR. Offre dei videotutorial. Consente la scrittura collaborativa. Il DMP prodotto è machine readable e anche machine actionable. A partire dalla compilazione delle domande, in maniera trasparente per l’utente genera un DMP in cui sono compilate tutte le sezioni in maniera pertinente. |
Argos propone all’utente una serie di domande guidate ma consente anche di compilare del testo proprio. Mette a disposizione i template di Horizon e di Science Europe, oltre ad altri template personalizzati. Consente di associare più dataset allo stesso DMP. Il DMP prodotto è machine readable e anche machine actionable. Tratta l’argomento delle licenze d’uso in maniera particolarmente dettagliata. Richiede comunque integrazione manuale delle informazioni all’utente. Non fornisce warning o elementi di autovalutazione delle informazioni inserite rispetto al rispetto dei principi FAIR. E’ connesso ad Openaire Research Graph, che contiene link tra dati e pubblicazioni. |
Altre domande guida utili per la redazione del DMP si possono ritrovare nel sito CESSDA, nella pubblicazione Adapt your Data Management Plan - A list of Data Management Questions based on the Expert Tour Guide on Data Management (https://www.cessda.eu/content/download/4302/48656/file/TTT_DO_DMPExpertGuide_v1.2.pdf).
Altre risorse e strumenti online per la redazione del DMP
Di seguito vengono elencate numerose risorse da consultare:
-
Guide al DMP
-
Science Europe Practical Guide to the International Alignment of Research Data Management (2021)
-
DMP tips and tricks (2021)
-
CESSDA Adapt your DMP (2019)
-
Strumenti online per scrivere un DMP
-
DMP online con un modello per Horizon 2020 e Science Europe - Video tutorial su come utilizzarlo
-
Data wizard con un modello per Horizon 2020 e Science Europe - Video tutorial su come utilizzarlo
-
DMP tool per funder USA
-
Strumento di autovalutazione per un DMP
-
NWO rubric
-
Esempio di Data Management Plan
Come fare una buona gestione dei dati (RDM o Research Data Management) in un progetto di ricerca
La gestione dei dati della ricerca è prevista nella direttiva open data “Direttiva europea 2019/1024 del Parlamento europeo e del Consiglio del 20 giugno 2019 (https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:32019L1024) , relativa all’apertura dei dati e al riutilizzo dell’informazione nel settore pubblico” (Gazzetta ufficiale dell’Unione Europea del 26.6.2019), recepita in Italia con il decreto legislativo n. 200 dell’8 novembre 2021, entrato in vigore il 15 dicembre 2021, atteso provvedimento relativo all’apertura dei dati e al riutilizzo delle informazioni del settore pubblico. Maggiorni dettagli sugli indirizzi normativi alla pagina Progetti con finanziamenti pubblici.
Alla luce di questi provvedimenti rivestono grande importanza le politiche di Ateneo a supporto della gestione dei dati e della loro sicurezza, intesa sia come sicurezza da attacchi esterni, sia come sicurezza nelle conseguenze relative alla diffusione dei dati.
Fare una buona gestione dei dati è utile e produttivo in primis per lo stesso gruppo di ricerca, ma anche per potenziali fruitori futuri. Nella gestione dei dati sono fondamentali i backup, un eventuale software di accompagnamento per la loro lettura (ad esempio nel caso in cui si tratti di un particolare formato, anche proprietario), la presenza di una legenda (o comunque una documentazione che spieghi la natura e le modalità di calcolo di ogni singolo metadato). In generale per una maggiore consapevolezza sulle attività da svolgere per una buona gestione dei dati, può essere utile la lettura dell’OpenAIRE RDM handbook.
Si segnala consultazione del portale “OPEN-SCIENCE.IT La scienza condivisa” (https://open-science.it/), una recente iniziativa italiana portata avanti dall’ ICDI (Italian Computing and Data Infrastructure), un tavolo tecnico creato dai rappresentanti di alcune tra le principali Infrastrutture di Ricerca e Infrastrutture Digitali italiane con l’obiettivo di promuovere sinergie a livello nazionale al fine di ottimizzare la partecipazione italiana alle attuali sfide europee in questo settore, tra cui anche la European Open Science Cloud (EOSC). Il portale rappresenta uno strumento in cui trovare informazioni generali, materiale formativo, novità e aggiornamenti di carattere sia nazionale che internazionale. Nel portale sono inoltre reperibili notizie di eventi e novità rilevanti nel movimento dell’Open Science con una prospettiva internazionale e una specifica attenzione all’Italia.
Altrettanto utile strumento per i ricercatori è il manuale S-Legami!: Open Access – Manuale d’uso per i ricercatori dell’Agenzia per la Promozione della Ricerca Europea (APRE). La seconda edizione disponibile al seguente link https://apre.it/wp-content/uploads/2022/04/S-Legami_seconda-edizione_final_con-codici.pdf contiene svariati contenuti legati all’Open Science.
Per un elenco di strumenti di supporto e utili letture per la gestione dei dati del progetto di ricerca, si consiglia di consultare la sezione "Strumenti e pratiche l'open science".
La stima dei costi per la gestione dei dati nel progetto di ricerca
I costi sono un capitolo fondamentale del Data Management Plan, perché è proprio in questo documento che viene fatta la pianificazione di costi e risorse (https://www.openaire.eu/what-will-it-cost-to-manage-and-share-my-data).
Un interessante articolo su openAIRE, “How to identify and assess Research Data Management (RDM) costs” (https://www.openaire.eu/how-to-comply-to-h2020-mandates-rdm-costs), consente di valutare i costi del proprio progetto utilizzando lo strumento Estimating costs RDM tool (https://www.openaire.eu/how-to-comply-to-h2020-mandates-rdm-costs). Il tool pone delle domande dettagliate.
Un tool più completo è il data wizard, Data Management Costing Tool (https://zingtree.com/host.php?style=buttons&tree_id=511095771&persist_names=Restart&persist_node_ids=1&start_node=1&start_tree=511095771)
Un altro tool che può essere utilizzato è il Data Wizard DSW Storage Costs Evaluator (https://storage-costs-evaluator.ds-wizard.org/)
La figura del data steward
Nel documento Strategic Research and Innovation Agenda (SRIA) - EOSC (EOSC-SRIA-V1.0_15Feb2021.pdf,https://eosc.eu/sites/default/files/EOSC-SRIA-V1.0_15Feb2021.pdf), la presenza della figura del data steward, nelle organizzazioni che si occupano di ricerca, viene menzionata tra i fattori critici di successo per la realizzazione degli obiettivi. Il data steward è una figura professionale specializzata nell’implementazione delle politiche open access, linee guida e programmi di realizzazione, a supporto dell’intero processo di ricerca, realizzando pienamente gli obiettivi di EOSC ([…]the European Open Science Cloud is a process, not a project[…], in The Vienna Declaration on the European Open Science Cloud,https://eosc-launch.eu/declaration/).
Il profilo del data steward presuppone una competenza di dominio sui dati (ad esempio le caratteristiche dei reperti archeologici, le caratteristiche dei dati diagnostici effettuati con determinati macchinari, ecc.) oltre a competenze tecniche per il trattamento dei dati della ricerca, secondo i principi FAIR.
La figura del data steward può essere declinata in modi diversi: tecnico, sviluppatore, agente del cambiamento (https://findresearcher.sdu.dk:8443/ws/portalfiles/portal/160501865/National_Coordination_of_Data_Steward_Education_in_Denmark_Final_report_to_the_National_Forum_for_Research_Data_Management_DM_Forum_Results_and_recommendations_Janua_002_.pdf).
Un’altra interpretazione della figura del data steward può essere consultata sul sito https://www.itware.com/blog-itware/big-data-analytics-data-management/item/1311-data-steward-per-mestiere-piu-semplice-che-data-analyst-piu-di-valore-per-l-impresa.
I modelli per questa professionalità più approfonditi sono quelli danese e olandese. Da un report danese (Final report to the National Forum for Research Data Management, Zenodo: https://doi.org/10.5281/zenodo.3609515), emergono tre profili:
- policy data stewards: si focalizzano su regolamenti e linee guida istituzionali, relazionandosi con politici, enti finanziatori, management di ricerca e universitario);
- research data stewards: sono esperti di data mangement in una specifica disciplina e lavorano nel gruppo di ricerca;
- infrastructure data stewards: si occupano dell’infrastruttura tecnica che ospita i FAIR data.
Tali profili spesso nella pratica si intersecano.
Tra le attività che possono garantire una buona gestione dei dati del progetto, i data stewart possono offrire:
• Attuazione della policy di Ateneo per la gestione dei dati e delle eventuali policy specifiche adottate dai Dipartimenti, in aderenza alle buone prassi legate alle specificità del dominio dei dati di un particolare settore disciplinare
• Attuazione delle policy sui dati come richieste dagli enti finanziatori (interessante una pagina del sito TUDelft con l’elenco aggiornato dei maggiori enti europei e della relativa documentazione https://www.tudelft.nl/en/library/research-data-management/r/policies/funders-policies
• Impostazione dell'archiviazione sicura dei dati
• Consigli su buone pratiche di gestione dei dati
• Informazioni sull'archiviazione dei dati
• Suggerimenti per aumentare l'impatto con la condivisione dei dati
• Preparazione di piani di gestione dei dati
• Eventuali altre attività legate alla gestione dei dati
Aspetti normativi: A proposito dell'introduzione della figura del data steward nel nostro Paese, il Piano nazionale della scienza aperta in Italia (PNSA), approvato nei primi mesi del 2022 con Decreto Ministeriale n. 268 del 28/02/2022, prevede, nell’asse di intervento n. 2 (Dati della ricerca), tra i piani di intervento, una sezione dedicata alla “Formazione delle figure tecniche”. In particolare, tra gli obiettivi per questo asse di intervento, è inserita […]“la formazione e assunzione di risorse umane qualificate per i ruoli di scienziato dei dati (data scientist) per lo sviluppo di architetture e servizi, e di tecnico-amministratore dei dati (data steward) per la cura, descrizione, identificazione e archiviazione degli insiemi di dati;” […] e […] “l’implementazione di metodi e protocolli specifici per la verifica della qualità dei dati, degli archivi e dei servizi, e per la regolamentazione degli aspetti etici e legali;”[…]. Inoltre, il PNSA, tra gli stessi obiettivi, si propone di […] “• valutare, in risposta alla necessità rappresentata dalla comunità, la creazione di un’infrastruttura nazionale per i dati della ricerca e gli archivi, ottimizzando le risorse esistenti ed aprendo nuovi servizi a tutte le organizzazioni e discipline anche per favorire la collaborazione e la interdisciplinarità.” […]
Riguardo alle risorse, le “Azioni da attivare” elencate nel PNSA sono:
[…]
A cura del MUR (e degli altri Ministeri con attività di ricerca):
a. consolidare l’indagine conoscitiva, avviata in ambito EOSC (Landscape), sullo stato dell’arte delle IR, degli EPR e degli Atenei per quanto riguarda le pratiche di gestione dei dati FAIR;
b. supportare ICDI, quale soggetto titolato a rappresentare la comunità italiana all’interno della EOSC association;
c. inserire in tutti i bandi finanziati con fondi pubblici le prescrizioni per la produzione di dati FAIR e il loro deposito in archivi aperti certificati;
d. favorire lo sviluppo coerente di percorsi formativi universitari per “data scientist” e “data steward”, con accreditamento europeo anche mettendo a sistema le competenze delle IR e degli EPR;
e. valorizzare le sinergie con le IR nazionali ed europee e con i loro servizi ai dati già esistenti anche al fine di una rendicontazione completa e trasparente dei contributi dell’Italia all’EOSC;
f. attuare l’art. 10 della Direttiva UE 2019/1024 del 20 giugno 2019 relativa all’apertura dei dati e al riutilizzo dell’informazione del settore pubblico;
g. supportare a livello nazionale i processi di certificazione per dati FAIR;
h. sostenere gli investimenti per FAIR-by-design;
i. inserire nei bandi per progetti di ricerca la clausola di produzione di dati FAIR;
j. prevedere la copertura dei costi relativi e inserirli all’interno dei costi ammissibili;
k. adottare un archivio dei dati di riferimento e delle politiche di gestione dei dati, o verificare l’allineamento di quelle esistenti ai criteri FAIR, anche in vista di certificazione;
l. pubblicare annualmente dati e statistiche in forma di dati aperti sullo stato di attuazione dei principi FAIR e di apertura dei dati;
m. avviare la formazione di base per tutti i ricercatori e tecnologi sulla gestione dei dati FAIR;
n. estendere a tutti i curriculum formativi una alfabetizzazione all’utilizzo dei dati della ricerca;
o. investire in servizi di supporto per gli aspetti giuridici della gestione dei dati;
p. investire in pratiche di cura dei dati finalizzate alla conservazione sul lungo periodo;
q. designare un NPR (National Points of Reference on Scientific Information).
[…]
Cosa è consigliabile verificare prima di pubblicare i dati della ricerca
Prima di procedere alla pubblicazione dei dati del proprio progetto di ricerca, bisogna effettuare una serie di controlli:
-
verificare se i dati aderiscono ai principi FAIR, ad esempio utilizzando la checklist "How FAIR are your data?" (Jones, Sarah, and Grootveld, Marjan. “How FAIR Are Your Data?”, November 24, 2017. https://doi.org/10.5281/zenodo.5111307.)
-
verificare l'eventuale presenza di dati personali o sensibili: in questo caso bisogna provvedere alla anonimizzazione, con strumenti come ad esempio Amnesia
-
verificare con l’editore la politica di disponibilità dei dati a corredo dell’articolo scientifico che si sta pubblicando
-
assicurarsi che siano dotati di un identificativo persistente (es. DOI), per garantire che i dati siano reperibili (findable)
-
assicurarsi che i dati espongano un “data access statement”, cioè che, oltre all’identificatore persistente, siano accompagnati da informazioni che li descrivano e che diano notizie sulle modalità di accesso e sugli eventuali vincoli per il loro utilizzo (es. file README)
-
assicurarsi che i dati espongano una licenza di utilizzo per l’utente finale. Per i dati è possibile scegliere tra innumerevoli tipi di licenze, che devono essere standard (cfr. http://opendefinition.org/licenses/) per poter essere chiaramente comprese dall’utente finale e per rendere i dati reusable, sempre nell’ottica dei principi FAIR. Nel caso di software è possibile consultare questo elenco di licenze possibili
-
esporre i dati in un formato di file aperto e standard, per assicurarsi, in conformità ai principi FAIR, che siano reusable e interoperable. Molti data repository espongono la lista dei formati di file consigliati/preferiti a seconda della tipologia di oggetti archiviati (immagini, testi, database, audio, video, ecc.). Oltre ai formati semplici più diffusi, un particolare formato di dati utilizzato nel campo della ricerca scientifica è NetCDF (Network Common Data Form), un formato auto descrittivo che include anche metadati generici e specifici machine-readable; questo formato può essere utilizzato in modo avanzato con server che implementano il protocollo OPeNDAP (Open-source Project for a Network Data Access Protocol); con questo protocollo, infatti, la lettura di dataset e subset nei file può essere eseguita senza che sia necessario scaricare l’intero set di dati, si possono effettuare aggregazioni di dataset e subset in un dataset virtuale e si possono effettuare elaborazioni via software accedendo direttamente ai dataset.