Salta al contenuto principale
Passa alla visualizzazione normale.

Portale delle Biblioteche

Il data management plan (DMP) è uno strumento che aiuta i ricercatori già all’inizio di un progetto a preventivane e pianificarne l’intero ciclo di vita del progetto, con particolare riferimento alla gestione dei dati della ricerca. 

Il DMP è un deliverable di progetto (cioè un documento o altro, che deve essere consegnato al committente e all’ente finanziatore come evidenza delle attività svolte) ma anche un elemento di valutazione per l'approvazione del finanziamento (ad esempio in Horizon Europe). Con il DMP il focus del ricercatore si sposta dalla pubblicazione finale (anch’essa importante) alla gestione del progetto di ricerca e dei dati trattati. Si tratta di un documento dinamico, che in Horizon Europe deve essere aggiornato ogni volta che è necessario (in Horizon 2020 erano previsti tre momenti di aggiornamento del documento), contiene la codifica di tutte le regole stabilite per la gestione dei dati e dei documenti di progetto, oltre che le motivazioni che porteranno a rendere aperti o no i dati della ricerca, secondo il principio "as open as possibile, as closed as necessary".

 

Gli enti finanziatori hanno bisogno di un DMP perchè il ricercatore deve dimostrare consapevolezza su una buona gestione dei dati, secondo i principi FAIR, e una disponibilità alla condivisione dei dati che, per essere resa possibile, comporta l’adozione consapevole di standard largamente diffusi, una chiara documentazione e una adeguata allocazione delle risorse umane, tecniche ed economiche, una garanzia di conservazione (e riuso) a lungo termine.


Il DMP deve essere specifico per l’argomento trattato dal progetto di ricerca, sintetico e schematico, perché siano facilmente utilizzabili le istruzioni per l’utilizzo dei dati trattati. Non bisogna inserire informazioni generiche e vaghe, ma informazioni specifiche sul progetto in corso, con dati reali e riscontrabili, perché sia realmente uno strumento di lavoro prima di tutto per il gruppo di progetto, poi per chi volesse riutilizzare i dati per altri progetti. La precisione sui dati trattati è fondamentale anche per una corretta valutazione dei costi riguardanti la gestione dei dati (infatti anche il deposito su piattaforme libere come Zenodo potrebbe comportare dei costi a seconda della quantità di GB occupati, o ancora potrebbe essere necessario avvalersi di un data steward, cosa che comporterebbe ulteriori costi). E’ molto importante effettuare queste stime in quanto molte voci di costo derivate dalla gestione dei dati e dall’assunzione di apposito personale sono rendicontabili, ma per esserlo devono essere previste e dichiarate fin dall’inizio del progetto. Inoltre, è fondamentale sia dichiarare regole e attività effettivamente svolte, in quanto potrebbero essere oggetto di verifiche da parte dell’ente finanziatore, sia dichiarare che alcune regole non sono ancora state definite per mancanza di informazioni, dimostrando di avere sotto controllo tutti gli aspetti del problema.


Il DMP si divide in varie sezioni che coprono l’intero ciclo di vita dei dati. Esistono vari template per la stesura di un DMP e ogni volta bisogna scegliere quello che più si adatta alle caratteristiche del progetto. In ogni caso ci sono delle caratteristiche comuni a tutti i template, che sono state ben identificate nel documento “Practical Guide to the International Alignment of Research Data Management - Extended Edition” (Science Europe. (2021). Practical Guide to the International Alignment of Research Data Management - Extended Edition. https://doi.org/10.5281/zenodo.4915862) di Science Europe.

Le immagini che seguono ne rappresentano graficamente il contenuto (elaborazione grafica a cura del Settore Servizi per la ricerca e diffusione della conoscenza scientifica, UniPA):

requisiti-di-base-DMP-roadmap

 

Sempre nel documento “Practical Guide to the International Alignment of Research Data Management - Extended Edition” (Science Europe. (2021). Practical Guide to the International Alignment of Research Data Management - Extended Edition. https://doi.org/10.5281/zenodo.4915862) di Science Europe, i requisiti di base vengono esplicitati come segue:

 



START

Inserisci le informazioni relative a nome richiedente, codice progetto, programma di finanziamento, versione del DMP.

1

  • Spiega quali metodologie o software verranno utilizzati in caso di raccolta di nuovi dati. Indica eventuali vincoli sul riutilizzo di dati esistenti, se presenti e illustra come ne verrà documentata la provenienza. Nel caso in cui dati già esistenti siano stati considerati ma scartati, spiegane brevemente il motivo.

  • Fornisci dettagli sui tipi di dati (numerici, in database o fogli di calcolo, testuali, immagini, audio, video, multimediali) e sul loro formato, cioè il modo in cui sono memorizzati, e l’estensione dei files.

  • Giustifica l’utilizzo di certi formati. Ad esempio, l’esperienza dello staff, la preferenza per formati aperti, standard accettati da data repository, utilizzo esteso nella comunità scientifica di riferimento, formati accettati dal software utilizzato.

  • Preferisci formati open o standard che facilitano la condivisione e il riutilizzo a lungo termine (molti repositories elencano i propri formati preferiti).

  • Fornisci dettagli sul volume dei dati (memoria necessaria e/o numero di oggetti, o files, o righe e colonne).

2

  • Indica quali metadati verranno forniti per aiutare gli altri a identificare e trovare i dati, e con quali standard di metadati (es. DDI, TEI, EML, MARC, CMDI). Utilizza gli standard dei metadati della comunità, dove sono presenti.

  • Indica come verranno organizzati i dati durante il progetto, descrivendo convenzioni sui nomi, la modalità di gestione delle versioni, la struttura delle cartelle. Dati della ricerca consistenti e ben ordinati saranno più facili da trovare, capire e riutilizzare.

  • Considera quale altra documentazione è necessaria per consentire il riutilizzo dei dati, ad esempio sulla metodologia di raccolta dati, informazioni analitiche e procedurali, definizioni di variabili, unità di misurazione, ecc. Rifletti anche sulle modalità di recupero di queste informazioni e dove saranno registrate, ad esempio in un database con link ad ogni item, un readme file, file headers, code books, labnotebooks, ecc.

  • Spiega come verranno gestite e documentate la consistenza e la qualità dei dati, ad esempio durante processi come la calibrazione, misurazioni e campionamenti ripetuti, cattura di dati standardizzata, validazione del data entry, peer review dei dati, rappresentazione con vocabolari controllati.

3

  • Dichiara dove verranno memorizzati i dati e le relative procedure di backup. E’ raccomandato utilizzare almeno due installazioni gemelle dei dati. Preferisci l’utilizzo di un ambiente di storage con una gestione robusta e con backup automatici, riferendoti a quanto fornito dagli uffici di supporto IT della tua istituzione. E’ fortemente sconsigliato l’utilizzo di dispositivi personali, non collegati al sistema di storage centrale (laptops, unità disco, chiavette USB, ecc.).

  • Descrivi come verranno recuperati i dati in caso di incidente.

  • Spiega chi avrà accesso ai dati durante il progetto di ricerca e come tale accesso sarà controllato, sia in caso di gruppi di lavoro interni che in caso di partnership con l’esterno.

  • Tieni in considerazione la protezione dei dati, particolarmente in caso di dati sensibili. Descrivi i rischi principali e come essi verranno gestiti. Fai riferimento alla protezione dei dati personali attuata presso la tua istituzione.

4

  • Assicura il rispetto della normativa in materia di protezione dei dati personali. Ottieni il l consenso informato per la conservazione e/o condivisione di dati personali; prendi in considerazione l’anonimizzazione o la pseudonimizzazione (reversibile) dei dati personali; prendi in considerazione la crittografia per i dati personali, assicurandoti che la chiave sia localizzata separatamente dai dati. Descrivi l’eventuale procedura di gestione degli accessi autorizzati ai dati personali.

  • Spiega di chi sarà la proprietà dei dati e chi avrà il diritto di controllarne gli accessi. Descrivi quali saranno le condizioni di accesso ai dati, se saranno apertamente accessibili o se sono previste restrizioni, e quali, oltre alle licenze d’uso per il riutilizzo dei dati. Assicurati di avere gestito tutti questi aspetti in caso di progetto con più partner e più proprietari dei dati nell’accordo di collaborazione tra i partner.

  • Indica se devono essere gestiti diritti di proprietà intellettuale (ad esempio Database Directive, sui generis database right) e come.

  • Indica se ci sono restrizioni riguardo al riutilizzo dei dati da parte di terzi.

  • Considera possibili problemi etici riguardo alla modalità di memorizzazione e trasferimento dei dati, chi potrà vederli o utilizzarli, per quanto tempo, dimostrando consapevolezza su questo aspetto.  Segui i codici di condotta nazionali ed internazionali, oltre a quelli della tua Istituzione, verificando se è necessaria una verifica dal punto di vista etico, ad esempio di un apposito comitato.

5

  • Spiega come i dati saranno resi condivisi e ritrovabili: ad esempio depositati in un trustworthy data repository, indicizzati in un catalogo, su richiesta diretta o altro). Delinea il piano per la conservazione dei dati e fornisci informazioni sulla durata della loro conservazione. Spiega quando i dati verranno resi disponibili e la tempistica prevista per la pubblicazione. Spiega  se verrà rivendicato un uso esclusivo dei dati, perché e per quanto tempo. Indica se la condivisione dei dati verrà posticipata, ad esempio per motivi di embargo o registrazione brevetti. Indica chi potrà utilizzare i dati, se si dovrà restringere l’accesso ai dati a un gruppo ristretto o per rispettare accordi in tal senso, spiegando come e perché.  Spiega quale azione sarà intrapresa per superare o per minimizzare le restrizioni.

  • Specifica quali dati devono essere mantenuti o distrutti per rispetto di norme, contratti, regolamenti. Indica il criterio per decidere quali dati verranno mantenuti e come verrà attuata la conservazione a lungo termine. Indica dove saranno depositati i dati. Se non viene proposto alcun archivio , dimostra nel DMP che i dati potranno essere curati efficacemente oltre la durata del grant di progetto. Si consiglia di dimostrare che le politiche e le procedure dei repository (compresi eventuali standard di metadati e costi coinvolti) sono stati verificati.

  • Indica se i potenziali riutilizzatori avranno bisogno di strumenti o software specifici per accedere ai dati e riutilizzarli, considerando anche la sostenibilità del software richiesto. Specifica se i dati verranno condivisi tramite un repository, via richiesta diretta o altri meccanismi anonimi.

  • Spiega come i dati potrebbero essere riutilizzati in contesti diversi. Dovresti utilizzare identificativi persistenti (PIDs) perché i dati siano identificati e localizzati, oltre che consentire il tracciamento delle citazioni e del riuso. Il deposito in un trustworthy repository garantirà anche il PID.

6

  • Delinea i ruoli e le responsabilità per attività di gestione/stewardship dei dati (per esempio acquisizione di dati, produzione di metadati, qualità dei dati, archiviazione e backup, archiviazione e condivisione dei dati. Nomina persona(e) responsabile(i) ove possibile. Per i progetti collaborativi, spiega il coordinamento dei ruoli e responsabilità nella gestione dei dati tra i diversi partner. Indica chi è responsabile dell’attuazione del DMP, della redazione e revisione, considerandone un aggiornamento periodico.

  • Spiega come sono state calcolate le risorse necessarie (tempo, personale, costi)  per rendere i dati condivisibili e conservati a lungo termine. Considera e giustifica  attentamente tutte le risorse necessarie per rilasciare i dati.  Queste possono includere costi di archiviazione, hardware, tempo del personale, costi di preparazione dei dati per deposito e spese di deposito. Indica se saranno disponibili risorse aggiuntive per il deposito;  se sì, spiega quanto è necessario e come tali costi saranno coperti.

In rete sono disponibili dei wizard per la composizione del DMP, ad esempio DMP Online oppure Data Stewardship wizard.

IlDMP Online (https://dmponline.dcc.ac.uk/) è un software open source ed è personalizzabile. Ad esempio sarebbe possibile precompilare alcune sezioni come il codice etico o altre politiche di Ateneo che valgono per tutti i progetti di ricerca. Offre una dashboard che consente di conservare i propri documenti.

Nella sezione OA@UniTO dell’Università di Torino dal titolo “Come scrivere un Data Management Plan”, sono presenti due video della dott.ssa Elena Giglia: il primo spiega come utilizzare il DMP Online e il secondo spiega l'utilizzo del Data Stewardship Wizard (https://ds-wizard.org/).

Nel DMP online, la prima sezione è quella dei dati dell’ente, con funzionalità di collegamento a codifiche internazionali, come ad esempio l’ORCID del principal investigator, il grant number, l’acronimo del progetto, ecc.. Si possono utilizzare dei modelli preconfezionati, ad esempio quello della Commissione Europea per Horizon 2020 (in questo caso sono disponibili nelle 3 versioni previste, iniziale, intermedia e finale, con relativa guida contestuale) o Science Europe. Il wizard è predisposto per il lavoro di gruppo, mediante condivisione con altri utenti, e consente di effettuare il download del documento compilato. I campi da compilare sono corredati da help contestuale e l'utente viene guidato nella compilazione di tutte le parti che garantiranno che i dati rispondano ai requisiti FAIR. 

Il wizard comprende anche la parte di allocazione della risorse, sia finanziarie che umane, ricordando di inserire tutte le voci di costo che saranno poi rimborsabili da parte dell’ente finanziatore; inoltre comprende la parte relativa alla sicurezza dei dati, che potrebbe essere precompilata nel caso in cui l’Ateneo avesse già predisposto delle procedure standard in merito. Nella parte che riguarda aspetti etici e legali sui dati si possono indicare eventuali riferimenti a vincoli imposti dal GDPR ed eventuali consensi informati necessari per poter trattare i dati.

Al termine della composizione del DMP online è possibile scaricare un file con le formattazioni di massima impostate con il wizard, in formato html, pdf, txt, csv, ecc.

Tabella comparativa strumenti per il DMP Online presentati all’Open Science cafè del 12 gennaio 2023 (https://www.icdi.it/it/news/197-come-scrivere-un-dmp)

DMP Online

https://dmponline.dcc.ac.uk/

Data Stewardship wizard

https://ds-wizard.org/

Argos

https://argos.openaire.eu/

DMP Online, pur guidando nella compilazione, presenta di fatto una pagina bianca in cui bisogna scrivere i contenuti, che possono essere testo libero, tabelle ed elenchi puntati. In ogni passaggio è possibile salvare per continuare dopo.

Mette a disposizione i template di Horizon e di Science Europe, oltre ad altri template personalizzati.

<p >Presenta un help contestuale, con consigli specifici e link a strumenti esterni, ad esempio per i formati di dati raccomandati <p >Offre dei videotutorial. <p >Consente la scrittura collaborativa. <p >Il DMP prodotto è machine readable ed è possibile esportarlo in diversi formati standard.

Propone all’utente una serie di domande guidate e alla fine genera il DMP.

Consente di utilizzare knowledge model differenti, con domande specifiche per il dominio di ricerca.

Mette a disposizione i template di Horizon e di Science Europe, oltre ad altri template personalizzati.

Il wizard è molto dettagliato, tiene conto di tutte le sezioni del DMP. Crea una “to do list” per gli aspetti non definiti, visualizzata contestualmente. A seconda delle risposte date, continua con una diramazione di domande coerenti con la risposta precedente. Comprende il supporto per l’individuazione delle licenze d’uso dei dati.

Presenta un help contestuale che rimanda al libro di Barend Mons. Fornisce anche spunti di autovalutazione sugli aspetti che rendono i dati FAIR.

Offre dei videotutorial.

Consente la scrittura collaborativa.

Il DMP prodotto è machine readable e anche machine actionable. A partire dalla compilazione delle domande, in maniera trasparente per l’utente genera un DMP in cui sono compilate tutte le sezioni in maniera pertinente.

Argos propone all’utente una serie di domande guidate ma consente anche di compilare del testo proprio.

Mette a disposizione i template di Horizon e di Science Europe, oltre ad altri template personalizzati.

Consente di associare più dataset allo stesso DMP.

Il DMP prodotto è machine readable e anche machine actionable. Tratta l’argomento delle licenze d’uso in maniera particolarmente dettagliata. Richiede comunque integrazione manuale delle informazioni all’utente. Non fornisce warning o elementi di autovalutazione delle informazioni inserite rispetto al rispetto dei principi FAIR. E’ connesso ad Openaire Research Graph, che contiene link tra dati e pubblicazioni.

 

Altre domande guida utili per la redazione del DMP si possono ritrovare nel sito CESSDA, nella pubblicazione Adapt your Data Management Plan - A list of Data Management Questions based on the Expert Tour Guide on Data Management (https://www.cessda.eu/content/download/4302/48656/file/TTT_DO_DMPExpertGuide_v1.2.pdf).


Di seguito vengono elencate numerose risorse da consultare: 

La gestione dei dati della ricerca è prevista nella direttiva open data “Direttiva europea 2019/1024 del Parlamento europeo e del Consiglio del 20 giugno 2019 (https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:32019L1024) , relativa all’apertura dei dati e al riutilizzo dell’informazione nel settore pubblico” (Gazzetta ufficiale dell’Unione Europea del 26.6.2019), recepita in Italia con il decreto legislativo n. 200 dell’8 novembre 2021, entrato in vigore il 15 dicembre 2021, atteso provvedimento relativo all’apertura dei dati e al riutilizzo delle informazioni del settore pubblico. Maggiorni dettagli sugli indirizzi normativi alla pagina Progetti con finanziamenti pubblici.

Alla luce di questi provvedimenti rivestono grande importanza le politiche di Ateneo a supporto della gestione dei dati e della loro sicurezza, intesa sia come sicurezza da attacchi esterni, sia come sicurezza nelle conseguenze relative alla diffusione dei dati.

Fare una buona gestione dei dati è utile e produttivo in primis per lo stesso gruppo di ricerca, ma anche per potenziali fruitori futuri. Nella gestione dei dati sono fondamentali i backup, un eventuale software di accompagnamento per la loro lettura (ad esempio nel caso in cui si tratti di un particolare formato, anche proprietario), la presenza di una legenda (o comunque una documentazione che spieghi la natura e le modalità di calcolo di ogni singolo metadato). In generale per una maggiore consapevolezza sulle attività da svolgere per una buona gestione dei dati, può essere utile la lettura dell’OpenAIRE RDM handbook.

Si segnala consultazione del portale “OPEN-SCIENCE.IT La scienza condivisa” (https://open-science.it/), una recente iniziativa italiana portata avanti dall’ ICDI (Italian Computing and Data Infrastructure), un tavolo tecnico creato dai rappresentanti di alcune tra le principali Infrastrutture di Ricerca e Infrastrutture Digitali italiane con l’obiettivo di promuovere sinergie a livello nazionale al fine di ottimizzare la partecipazione italiana alle attuali sfide europee in questo settore, tra cui anche la European Open Science Cloud (EOSC). Il portale rappresenta uno strumento in cui trovare informazioni generali, materiale formativo, novità e aggiornamenti di carattere sia nazionale che internazionale. Nel portale sono inoltre reperibili notizie di eventi e novità rilevanti nel movimento dell’Open Science con una prospettiva internazionale e una specifica attenzione all’Italia.

Altrettanto utile strumento per i ricercatori è il manuale S-Legami!: Open Access – Manuale d’uso per i ricercatori dell’Agenzia per la Promozione della Ricerca Europea (APRE). La seconda edizione disponibile al seguente link https://apre.it/wp-content/uploads/2022/04/S-Legami_seconda-edizione_final_con-codici.pdf contiene svariati contenuti legati all’Open Science.


Per un elenco di strumenti di supporto e utili letture per la gestione dei dati del progetto di ricerca, si consiglia di consultare la sezione "Strumenti e pratiche l'open science".

I costi sono un capitolo fondamentale del Data Management Plan, perché è proprio in questo documento che viene fatta la pianificazione di costi e risorse (https://www.openaire.eu/what-will-it-cost-to-manage-and-share-my-data).

Un interessante articolo su openAIRE, “How to identify and assess Research Data Management (RDM) costs” (https://www.openaire.eu/how-to-comply-to-h2020-mandates-rdm-costs), consente di valutare i costi del proprio progetto utilizzando lo strumento Estimating costs RDM tool (https://www.openaire.eu/how-to-comply-to-h2020-mandates-rdm-costs). Il tool pone delle domande dettagliate.

Un tool più completo è il data wizard, Data Management Costing Tool (https://zingtree.com/host.php?style=buttons&tree_id=511095771&persist_names=Restart&persist_node_ids=1&start_node=1&start_tree=511095771)

Un altro tool che può essere utilizzato è il Data Wizard DSW Storage Costs Evaluator (https://storage-costs-evaluator.ds-wizard.org/


Nel documento Strategic Research and Innovation Agenda (SRIA) - EOSC (EOSC-SRIA-V1.0_15Feb2021.pdf,https://eosc.eu/sites/default/files/EOSC-SRIA-V1.0_15Feb2021.pdf), la presenza della figura del data steward, nelle organizzazioni che si occupano di ricerca, viene menzionata tra i fattori critici di successo per la realizzazione degli obiettivi. Il data steward è una figura professionale specializzata nell’implementazione delle politiche open access, linee guida e programmi di realizzazione, a supporto dell’intero processo di ricerca, realizzando pienamente gli obiettivi di EOSC ([…]the European Open Science Cloud is a process, not a project[…], in The Vienna Declaration on the European Open Science Cloud,https://eosc-launch.eu/declaration/).

Il profilo del data steward presuppone una competenza di dominio sui dati (ad esempio le caratteristiche dei reperti archeologici, le caratteristiche dei dati diagnostici effettuati con determinati macchinari, ecc.) oltre a competenze tecniche per il trattamento dei dati della ricerca, secondo i principi FAIR.

La figura del data steward può essere declinata in modi diversi: tecnico, sviluppatore, agente del cambiamento (https://findresearcher.sdu.dk:8443/ws/portalfiles/portal/160501865/National_Coordination_of_Data_Steward_Education_in_Denmark_Final_report_to_the_National_Forum_for_Research_Data_Management_DM_Forum_Results_and_recommendations_Janua_002_.pdf).

Un’altra interpretazione della figura del data steward può essere consultata sul sito https://www.itware.com/blog-itware/big-data-analytics-data-management/item/1311-data-steward-per-mestiere-piu-semplice-che-data-analyst-piu-di-valore-per-l-impresa.

I modelli per questa professionalità più approfonditi sono quelli danese e olandese. Da un report danese (Final report to the National Forum for Research Data Management, Zenodo: https://doi.org/10.5281/zenodo.3609515), emergono tre profili:

  • policy data stewards: si focalizzano su regolamenti e linee guida istituzionali, relazionandosi con politici, enti finanziatori, management di ricerca e universitario);
  • research data stewards: sono esperti di data mangement in una specifica disciplina e lavorano nel gruppo di ricerca;
  • infrastructure data stewards: si occupano dell’infrastruttura tecnica che ospita i FAIR data.

Tali profili spesso nella pratica si intersecano.

 

Tra le attività che possono garantire una buona gestione dei dati del progetto, i data stewart possono offrire:

• Attuazione della policy di Ateneo per la gestione dei dati e delle eventuali policy specifiche adottate dai Dipartimenti, in aderenza alle buone prassi legate alle specificità del dominio dei dati di un particolare settore disciplinare

• Attuazione delle policy sui dati come richieste dagli enti finanziatori (interessante una pagina del sito TUDelft con l’elenco aggiornato dei maggiori enti europei e della relativa documentazione https://www.tudelft.nl/en/library/research-data-management/r/policies/funders-policies 

• Impostazione dell'archiviazione sicura dei dati

• Consigli su buone pratiche di gestione dei dati

• Informazioni sull'archiviazione dei dati

• Suggerimenti per aumentare l'impatto con la condivisione dei dati

• Preparazione di piani di gestione dei dati

• Eventuali altre attività legate alla gestione dei dati


Il percorso formativo: Riguardo ai percorsi formativi che portano alla formazione della professionalità di una data steward, nel report danese  (Final report to the National Forum for Research Data Management, Zenodo: https://doi.org/10.5281/zenodo.3609515), il data steward ha un Bachelor degree, o un dottorato di ricerca o equivalente e si sottopone ad una formazione conrinua sulle tematiche dell’open science e del research data management. Ad esempio a Montpellier esiste una laurea magistrale in Scientific Data Management, o in Italia il master in Data Science and Scienrific Computing, presso Università di Trieste, SISSA e ICTP. Le data Schools, sono delle Summer Schools focalizzate sulla formazione dei data stewards.

Aspetti normativi: A proposito dell'introduzione della figura del data steward nel nostro Paese, il Piano nazionale della scienza aperta in Italia (PNSA), approvato nei primi mesi del 2022 con Decreto Ministeriale n. 268 del 28/02/2022, prevede, nell’asse di intervento n. 2 (Dati della ricerca), tra i piani di intervento, una sezione dedicata alla “Formazione delle figure tecniche”. In particolare, tra gli obiettivi per questo asse di intervento, è inserita […]“la formazione e assunzione di risorse umane qualificate per i ruoli di scienziato dei dati (data scientist) per lo sviluppo di architetture e servizi, e di tecnico-amministratore dei dati (data steward) per la cura, descrizione, identificazione e archiviazione degli insiemi di dati;” […] e […] “l’implementazione di metodi e protocolli specifici per la verifica della qualità dei dati, degli archivi e dei servizi, e per la regolamentazione degli aspetti etici e legali;”[…]. Inoltre, il PNSA, tra gli stessi obiettivi, si propone di […] “• valutare, in risposta alla necessità rappresentata dalla comunità, la creazione di un’infrastruttura nazionale per i dati della ricerca e gli archivi, ottimizzando le risorse esistenti ed aprendo nuovi servizi a tutte le organizzazioni e discipline anche per favorire la collaborazione e la interdisciplinarità.” […]

Riguardo alle risorse, le “Azioni da attivare” elencate nel PNSA sono:

[…]

A cura del MUR (e degli altri Ministeri con attività di ricerca):

a. consolidare l’indagine conoscitiva, avviata in ambito EOSC (Landscape), sullo stato dell’arte delle IR, degli EPR e degli Atenei per quanto riguarda le pratiche di gestione dei dati FAIR;

b. supportare ICDI, quale soggetto titolato a rappresentare la comunità italiana all’interno della EOSC association;

c. inserire in tutti i bandi finanziati con fondi pubblici le prescrizioni per la produzione di dati FAIR e il loro deposito in archivi aperti certificati;

d. favorire lo sviluppo coerente di percorsi formativi universitari per “data scientist” e “data steward”, con accreditamento europeo anche mettendo a sistema le competenze delle IR e degli EPR;

e. valorizzare le sinergie con le IR nazionali ed europee e con i loro servizi ai dati già esistenti anche al fine di una rendicontazione completa e trasparente dei contributi dell’Italia all’EOSC;

f. attuare l’art. 10 della Direttiva UE 2019/1024 del 20 giugno 2019 relativa all’apertura dei dati e al riutilizzo dell’informazione del settore pubblico;

g. supportare a livello nazionale i processi di certificazione per dati FAIR;

h. sostenere gli investimenti per FAIR-by-design;

i. inserire nei bandi per progetti di ricerca la clausola di produzione di dati FAIR;

j. prevedere la copertura dei costi relativi e inserirli all’interno dei costi ammissibili;

k. adottare un archivio dei dati di riferimento e delle politiche di gestione dei dati, o verificare l’allineamento di quelle esistenti ai criteri FAIR, anche in vista di certificazione;

l. pubblicare annualmente dati e statistiche in forma di dati aperti sullo stato di attuazione dei principi FAIR e di apertura dei dati;

m. avviare la formazione di base per tutti i ricercatori e tecnologi sulla gestione dei dati FAIR;

n. estendere a tutti i curriculum formativi una alfabetizzazione all’utilizzo dei dati della ricerca;

o. investire in servizi di supporto per gli aspetti giuridici della gestione dei dati;

p. investire in pratiche di cura dei dati finalizzate alla conservazione sul lungo periodo;

q. designare un NPR (National Points of Reference on Scientific Information).

[…]

Prima di procedere alla pubblicazione dei dati del proprio progetto di ricerca, bisogna effettuare una serie di controlli:

  • verificare se i dati aderiscono ai principi FAIR, ad esempio utilizzando la checklist "How FAIR are your data?" (Jones, Sarah, and Grootveld, Marjan. “How FAIR Are Your Data?”, November 24, 2017. https://doi.org/10.5281/zenodo.5111307.) 

  • verificare l'eventuale presenza di dati personali o sensibili: in questo caso bisogna provvedere alla anonimizzazione, con strumenti come ad esempio Amnesia

  • verificare con l’editore la politica di disponibilità dei dati a corredo dell’articolo scientifico che si sta pubblicando

  • assicurarsi che siano dotati di un identificativo persistente (es. DOI), per garantire che i dati siano reperibili (findable)

  • assicurarsi che i dati espongano un “data access statement”, cioè che, oltre all’identificatore persistente, siano accompagnati da informazioni che li descrivano e che diano notizie sulle modalità di accesso e sugli eventuali vincoli per il loro utilizzo (es. file README)

  • assicurarsi che i dati espongano una licenza di utilizzo per l’utente finale. Per i dati è possibile scegliere tra innumerevoli tipi di licenze, che devono essere standard (cfr. http://opendefinition.org/licenses/) per poter essere chiaramente comprese dall’utente finale e per rendere i dati reusable, sempre nell’ottica dei principi FAIR. Nel caso di software è possibile consultare questo elenco di licenze possibili

  • esporre i dati in un formato di file aperto e standard, per assicurarsi, in conformità ai principi FAIR, che siano reusable e interoperable. Molti data repository espongono la lista dei formati di file consigliati/preferiti a seconda della tipologia di oggetti archiviati (immagini, testi, database, audio, video, ecc.). Oltre ai formati semplici più diffusi, un particolare formato di dati utilizzato nel campo della ricerca scientifica è NetCDF (Network Common Data Form), un formato auto descrittivo che include anche metadati generici e specifici machine-readable; questo formato può essere utilizzato in modo avanzato con server che implementano il protocollo OPeNDAP (Open-source Project for a Network Data Access Protocol); con questo protocollo, infatti, la lettura di dataset e subset nei file può essere eseguita senza che sia necessario scaricare l’intero set di dati, si possono effettuare aggregazioni di dataset e subset in un dataset virtuale e si possono effettuare elaborazioni via software accedendo direttamente ai dataset.