Dati FAIR
Cosa sono i principi FAIR
Horizon Europe richiede una gestione responsabile dei dati secondo i principi FAIR. Tali principi sono stati codificati con lo scopo di aiutare a definire in che modo i dati possano essere resi disponibili ai ricercatori e ai cittadini secondo il principio “as open as possible, as closed as necessary”. Motivi di sicurezza o di privacy potrebbero impedirne la disseminazione open, ma anche in questi casi è comunque possibile rendere nota la struttura e la metodologia di raccolta e di elaborazione dei dati.
Il termine FAIR fu coniato al Lorentz workshop, presso l'Università di Leiden, nel 2014; i principi FAIR furono pubblicati nel 2016 sulla rivista Nature, come ‘FAIR Guiding Principles for scientific data management and stewardship’. Tramite la pubblicazione di un Addendum, nel 2019, è stato annunciato che il “living document” relativo ai principi FAIR è ospitato ed aggiornato sul sito GoFAIR all’URL https://www.go-fair.org/fair-principles/.
Di seguito i principi con la loro formulazione e la spiegazione (Traduzione e adattamento da: “FAIR Principles” in GO FAIR , https://www.go-fair.org/fair-principles/, Creative Commons Attribution 4.0 International )
Principio |
Definizione |
Cosa vuol dire? |
Findable |
Il primo passo per (ri)utilizzare i dati è trovarli. Metadati e dati dovrebbero essere facili da trovare sia per gli esseri umani che per i computer. I metadati leggibili dalla macchina sono essenziali per il rilevamento automatico di set di dati e servizi, quindi questo è un componente essenziale del processo di FAIRification. F1. Ai (meta)dati viene assegnato un identificatore globale unico e persistente (Pid) F2. I dati sono descritti con metadati avanzati (definiti da R1 di seguito) F3. I metadati includono in modo chiaro ed esplicito l'identificatore dei dati che descrivono F4. I (meta)dati sono registrati o indicizzati in una risorsa ricercabile |
Il PId deve essere globalmente univoco e persistente, perché sia ricercabile, citabile e indicizzabile. I metadati avanzati consentono di ritrovare i dati non soltanto in base al PId, ma anche delle altre informazioni sul contesto, la qualità, le condizioni e le caratteristiche del dato. I metadati devono descrivere esplicitamente il PId. La trovabilità dei dataset è molto agevolata se i metadati sono indicizzati in risorse specializzate, meglio se largamente usate per l’argomento di ricerca. |
Accessible |
Una volta che l'utente ha trovato i dati richiesti, deve sapere come è possibile accedervi, come funzionano eventualmente l'autenticazione e l'autorizzazione. A1. I (meta)dati sono recuperabili dal loro identificatore utilizzando un protocollo di comunicazione standardizzato A1.1 Il protocollo è aperto, gratuito e universalmente implementabile A1.2 Il protocollo prevede una procedura di autenticazione e autorizzazione, ove necessaria A2. I metadati sono accessibili, anche quando i dati non sono più disponibili |
Il recupero dei dati FAIR dovrebbe essere mediato senza strumenti o metodi di comunicazione specializzati o proprietari. In casi particolari, come per dati altamente sensibili è conforme ai principi FAIR fornire un'e-mail, un numero di telefono o un nome Skype di una persona di contatto, chiaramente indicata nei metadati, in grado di fornire assistenza sull'accesso ai dati. Poiché accessibile non significa necessariamente aperto, il protocollo dovrebbe fornire un meccanismo autorizzativo per il download da parte di particolari utenti. Deve essere inoltre garantita la conservazione a lungo termine dei metadati, per consentire il reperimento dei dataset. |
Interoperable |
I dati di solito devono essere integrati con altri dati. Inoltre, i dati devono interagire con applicazioni o flussi di lavoro per l'analisi, l'archiviazione e l'elaborazione. I1. I (meta)dati utilizzano un linguaggio formale, accessibile, condiviso e ampiamente applicabile per la rappresentazione della conoscenza. I2. I (meta)dati utilizzano vocabolari che seguono i principi FAIR I3. I (meta)dati includono riferimenti qualificati ad altri (meta)dati |
L'obiettivo principale di questo principio è quello di fornire una comprensione ampiamente condivisa degli oggetti digitali, mediante l'utilizzo di un linguaggio di rappresentazione che abbia una sintassi e una grammatica definite in modo preciso, condivise e accessibili. Il vocabolario controllato utilizzato per descrivere i set di dati deve essere documentato e risolvibile utilizzando identificatori univoci e persistenti a livello globale. Questa documentazione deve essere facilmente reperibile e accessibile da chiunque utilizzi il set di dati. I dataset collegati devono essere citati utilizzando i relativi PId. |
Reusable
|
L'obiettivo finale di FAIR è ottimizzare il riutilizzo dei dati. Per ottenere ciò, i metadati e i dati dovrebbero essere ben descritti in modo che possano essere replicati e/o combinati in contesti diversi. R1. I (meta)dati sono riccamente descritti con una pluralità di attributi accurati e rilevanti R1.1. I (meta)dati vengono rilasciati con una licenza di utilizzo dei dati chiara e accessibile R1.2. I (meta)dati sono associati alla provenienza dettagliata R1.3. I (meta)dati soddisfano gli standard della comunità rilevanti per il dominio |
Per decidere se i dati sono effettivamente UTILI in un particolare contesto, l'editore di dati dovrebbe fornire non solo metadati che ne consentano la reperibilità, ma anche metadati che descrivano dettagliatamente il contesto in cui i dati sono stati generati (come ad es. i protocolli sperimentali, il produttore e il marchio della macchina o del sensore che ha creato i dati, le specie utilizzate, il regime farmacologico, ed altre informazioni anche apparentemente irrilevanti). Devono essere fornite informazioni chiare su come possono essere riutilizzati i dati, mediante l’uso di licenze standard. Le informazioni sulla provenienza devono consentire di citare correttamente i dati, l’eventuale utilizzo di dati di terzi e la licenza d’uso. Il riuso dei dati viene agevolato se i metadati aderiscono, oltre a standard di formati, anche a ontologie, per garantire una omogeneità nell’insieme delle informazioni. |
I principi si riferiscono a tre tipi di entità: dati (o qualsiasi oggetto digitale), metadati (informazioni su quell'oggetto digitale) e infrastruttura. Ad esempio, il principio F4 definisce che sia i metadati che i dati sono registrati o indicizzati in una risorsa ricercabile (il componente dell'infrastruttura).
Non gestire i dati secondo i principi FAIR rappresenta un costo per l’economia pubblica, come descritto nel report della Commissione Europea “Cost of not having FAIR research data” (https://op.europa.eu/s/smTL).
FAIR by design vs FAIRification
Se i dati della ricerca e la loro gestione vengono progettati sin dall'inizio del progetto in conformità con i principi FAIR, essi potranno quasi sicuramente essere resi open, ad eccezione dei soli casi in cui vincoli di sicurezza o legali lo impediscano.
I dati possono comunque essere resi FAIR con l’aiuto di numerosi strumenti, questionari, guide, software di test, che aiutino il gruppo di ricerca a riorganizzare i dati perché possano essere resi conformi ai principi FAIR.
Nello stesso giorno in cui è stato lanciato EOSC è stato pubblicato a Vienna il documento Turning FAIR into reality, una pubblicazione del Publications Office of the EU (https://op.europa.eu/en/publication-detail/-/publication/7769a148-f1f6-11e8-9982-01aa75ed71a1). In questo documento, che rappresenta sia un report che un piano di azione per far diventare realtà i principi FAIR, viene richiamata l’attenzione su ciò che è necessario per implementarli nel modo più ampio possibile: realizzazione di FAIR Digital Objects (dati, software o altre risorse per la ricerca) che trovino posto in un FAIR ecosystem, che offra servizi per l’attribuzione di identificativi unici e persistenti, specifiche per i metadati, stewardship, repository, policies e Data Management Plans; la disponibilità di skills su data science e data stewardship; l’utilizzo di metriche che incentivino l’adozione delle pratiche di open science.
Dal punto di vista tecnico, per passare all’implementazione dei principi FAIR, le singole comunità di ricerca potrebbero fare dei workshop per decidere quali sono i metadati da utilizzare nell’ambito delle diverse discipline, creare i FAIR implementation profiles per creare successivamente i FAIR data points. I FAIR Data Points rappresentano l’attuazione dei dati FAIR, che saranno conformi al GDPR nella misura in cui saranno depositati e saranno anche visitabili da virtual machines, grazie al fatto che sono findable e readable. Ad esempio VODAN (https://www.go-fair.org/implementation-networks/overview/vodan/) è un implementation network che si è occupato dei dati del COVID. In Africa, in collaborazione con l’Università di Leiden, sono stati impiantati due FAIR data point; OAI 12 - The Geneva Workshop on Innovations in Scholarly Communication (https://oai.events//) si è tenuto in modalità virtuale dal 6 al 10 settembre 2021 con una sezione specifica sui dati FAIR.
Consigliamo di consultare la sezione FAIRification process del sito GO-FAIR. Qui vengono definiti i passi da compiere per rendere FAIR i dati già esistenti: analisi dei dati, definizione del modello semantico, trasformazione dei dati in linkabili mediante l’applicazione del modello semantico individuato, assegnazione di una licenza d’uso, definizione dei metadati per il dataset, pubblicazione del dataset (insieme ai metadati e alla licenza), perchè possa essere indicizzato dai motori di ricerca e possano quantomeno essere visualizzati i metadati, laddove non sia possibile leggere il contenuto (as open as possible).
All’interno di EOSC alla fine del 2020 è stato pubblicato il report Six Recommendations for Implementation of FAIR Practice https://op.europa.eu/en/publication-detail/-/publication/4630fa57-1348-11eb-9a54-01aa75ed71a1, doi 10.2777/986252. In questo documento si raccomanda di formare i ricercatori sul tema e di incentivare l’adozione dei principi FAIR, auspicando un cambiamento significativo delle regole per la valutazione della ricerca.
Allo scopo di capire quali sono i compiti dei diversi attori del processo di ricerca (ricercatori, bibliotecari, repository, ecc.) è molto utile una tabella creata da bibliotecari svizzeri, Explanation of the FAIR data principles Wilkinson et al. (2016), The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3, doi:10.1038/sdata.2016.18, in cui viene accostato, ad ogni principio FAIR, il lavoro svolto dal ricercatore e dal repository (tramite la tecnologia e il lavoro dei bibliotecari).
FAIR e open data
I dati sono tutto ciò che viene raccolto, generato e utilizzato nel processo di ricerca. Per open data si intendono dunque non soltanto i dati necessari per validare i risultati presentati nella pubblicazione scientifica, ma anche i metadati associati e ogni altro dato raccolto durante il progetto (anche quelli non processati, ad esempio i dati collazionati per costruire i campioni).
L’obiettivo del movimento open science è quello di rendere i dati aperti e riutilizzabili. Il loro riuso crea nuovo valore.
Tuttavia i concetti FAIR e open data non sono sovrapponibili: vale infatti il principio "as open as possibile, as closed as necessary". I dati FAIR possono essere condivisi con eventuali restrizioni, ad esempio per la presenza di dati sensibili o informazioni commerciali riservate, o per ragioni di sicurezza militare, o per garantire la protezione di specie animali e vegetali o di siti archeologici.
E’ raccomandata l’esistenza di policies che pongano l'enfasi, per i ricercatori, i finanziatori e gli stakeholders, sui concetti di FAIR e open data, e che incentivino a pubblicare dati aperti, a meno di giustificate e fondate restrizioni, come già da diversi anni viene raccomandato dalla Commissione Europea (cfr. “Rec. 17: Align and harmonise FAIR and Open data policy: Policies should be aligned and consolidated to ensure that publicly-funded research data are made FAIR and Open, except for legitimate restrictions. The maxim ‘as Open as possible, as closed as necessary’ should be applied proportionately with genuine best efforts to share.”, Turning FAIR into reality, European Commission, https://op.europa.eu/en/publication-detail/-/publication/7769a148-f1f6-11e8-9982-01aa75ed71a1).
Le diverse comunità scientifiche dovrebbero definire dei loro framework di condivisione dei dati (comprendenti standard, ontologie, metadati, ecc.) allo scopo di definire delle regole per la loro condivisione, che prevedano una graduazione nelle valutazioni di tipo etico e legale finalizzate a rendere i dati accessibili e aperti, nel rispetto del principio “as open as possible”.
Riferimenti normativi riguardo agli obblighi di implementazione dei principi FAIR
Di seguito alcuni riferimenti normativi europei e nazionali riguardo agli obblighi di implementazione dei principi FAIR e all’apertura dei dati della ricerca finanziata con fondi pubblici:
Regolamento (UE) 2021/695 del Parlamento europeo e del Consiglio del 28 aprile 2021, che istituisce il Programma quadro di ricerca e innovazione “Horizon Europe” e ne stabilisce le norme di partecipazione e diffusione e che abroga i Regolamenti (UE) n. 1290/2013, (UE) n. 1291/2013 e la decisione (UE) 2013/743. Il Regolamento, come viene esplicitato nell’art. 14, incoraggia la scienza aperta quale approccio al processo scientifico basato sul lavoro in cooperazione e sulla diffusione delle conoscenze, con particolare riferimento all’accesso aperto alle pubblicazioni scientifiche derivanti dalle ricerche finanziate nell’ambito del programma e ai dati della ricerca, in conformità al principio ““as open as possible and as closed as necessary”. Il Regolamento inoltre stabilisce diverse norme, per l’ammissione alla partecipazione e al finanziamento, come norme etiche, principi e norme di sicurezza applicabili ad azioni indirette finanziate nell’ambito del programma obblighi relativi all’impiego e alla divulgazione dei risultati, tra cui figura la scienza aperta.
Decisione (UE) 2021/764 del Consiglio del 10 maggio 2021, che istituisce il programma specifico di attuazione di Horizon Europe e che abroga la decisione (UE) 2013/743. Il programma attuativo della linea di finanziamento inserisce la promozione della scienza aperta per garantire il libero accesso alle pubblicazioni e ai dati della ricerca tra gli obiettivi operativi. Nel paragrafo dedicato alla “Scienza di eccellenza”, inserito nell’allegato 1 del documento, la “scienza aperta” viene inserita tra le metodologie necessarie per il progresso scientifico, economico, sociale e culturale.
Nella Horizon Europe Programme Guide viene ripreso il concetto dei “trusted repositories”, con un rimando all’articolo 17 dell’ AGA – Annotated Model Grant Agreement; nel relativo ANNEX 5 si legge “as soon as possible and within the deadlines set out in the DMP, deposit the data in a trusted repository; if required in the call conditions, this repository must be federated in the EOSC in compliance with EOSC requirements”.
Direttiva (UE) 2019/1024 del Parlamento europeo e del Consiglio del 20 giugno 2019 relativa all’apertura dei dati e al riutilizzo dell’informazione del settore pubblico. La Direttiva pone l’accento, tra le varie tipologie di dati, anche a quelli della ricerca, facendo esplicito riferimento a requisiti FAIR.
Conclusioni del Consiglio d’Europa (giugno 2022), in cui, tra i vari punti, “l'evoluzione dei sistemi di valutazione della ricerca in Europa dovrebbe orientarsi ai seguenti principi: [...] riconoscere i risultati e i processi di ricerca e innovazione in tutte le loro forme, compresi, tra l'altro, set di dati, software, codici, metodologie, protocolli e brevetti, e non solo le pubblicazioni; [...] si sottolinea che i dati dovrebbero essere reperibili, accessibili, interoperabili e riutilizzabili, in linea con i principi FAIR;”.
Decreto del Ministro dell’Università e della Ricerca n. 1082 del 10 settembre 2021, con il quale è stato adottato il Programma Nazionale Infrastrutture di Ricerca (PNIR) 2021-2027, il quale fornisce l’orientamento strategico per le politiche legate al tema delle Infrastrutture di Ricerca e definisce ed aggiorna le priorità nazionali. Il decreto prevede di ”Sfruttare il potenziale delle IR come principali promotori di Open Science, fornendo dati FAIR e Open certificati di qualità, sostenendo il loro contributo al successo e all'impatto dello European Open Science Cloud, rafforzando così la capacità delle IR di servire i loro utenti.” e fa un diretto riferimento all alla natura intrinseca di una Infrastruttura di ricerca, le sue politiche di accesso, che, per definizione, devono essere “open access”, ovvero la IR deve dare la possibilità, tramite procedure valutative, di svolgere attività di ricerca a chi ne fa richiesta, imputando, al massimo, costi strettamente connessi ai costi vivi di utilizzo, nel caso non avesse appositi fondi per un accesso “free”. Inoltre, questo criterio deve tener conto anche della FAIRNESS dei dati prodotti, della compliance con lo European Open Science Cloud.”
Decreto Ministeriale n. 268 del 28-02-2022 che prevede l’adozione di un Programma Nazionale per la Scienza Aperta (PNSA) 2021-2027, documento contenente le linee di indirizzo per Università ed Enti di ricerca, nel quale vengono delineati gli assi e i piani di intervento individuati per l’attuazione della scienza aperta, tra cui l’asse di intervento n. “2 Dati della ricerca”, comprendente le azioni: “FAIRification nel sistema ricerca, Integrazione in EOSC, Produzione collaborativa dei dati, Formazione delle figure tecniche”.Le LINEE GUIDA AGID sono previste dall’art. 12 del decreto legislativo n. 36/2006 come modificato dal decreto legislativo n. 200/2021, atto di recepimento della Direttiva 2019/1024 (cosiddetta Direttiva Open Data). Le Linee Guida hanno l’obiettivo di supportare le pubbliche amministrazioni e gli altri soggetti interessati nel processo di apertura dei dati e di riutilizzo dell’informazione del settore pubblico, attraverso indicazioni volte ad implementare le disposizioni e le modalità disciplinate dal Decreto citato (Il testo non è ancora disponibile nella versione definitiva, dal 16 giugno al 17 luglio 2022 è stato sottoposto alla consultazione pubblica, i primi risultati sono stati presentati nel corso di un webinar in data 26 luglio 2022). Nel paragrafo 4.4, dedicato ai dati della ricerca, vengono enunciati come requisiti proprio i principi FAIR.
Cosa è consigliabile verificare prima di pubblicare i dati della ricerca
Prima di procedere alla pubblicazione dei dati del proprio progetto di ricerca, bisogna effettuare una serie di controlli:
-
verificare se i dati aderiscono ai principi FAIR, ad esempio utilizzando la checklist "How FAIR are your data?" (Jones, Sarah, and Grootveld, Marjan. “How FAIR Are Your Data?”, November 24, 2017. https://doi.org/10.5281/zenodo.5111307.)
-
verificare l'eventuale presenza di dati personali o sensibili: in questo caso bisogna provvedere alla anonimizzazione, con strumenti come ad esempio Amnesia
-
verificare con l’editore la politica di disponibilità dei dati a corredo dell’articolo scientifico che si sta pubblicando
-
assicurarsi che siano dotati di un identificativo persistente (es. DOI), per garantire che i dati siano reperibili (findable)
-
assicurarsi che i dati espongano un “data access statement”, cioè che, oltre all’identificatore persistente, siano accompagnati da informazioni che li descrivano e che diano notizie sulle modalità di accesso e sugli eventuali vincoli per il loro utilizzo (es. file README)
-
assicurarsi che i dati espongano una licenza di utilizzo per l’utente finale. Per i dati è possibile scegliere tra innumerevoli tipi di licenze, che devono essere standard (cfr. http://opendefinition.org/licenses/) per poter essere chiaramente comprese dall’utente finale e per rendere i dati reusable, sempre nell’ottica dei principi FAIR. Nel caso di software è possibile consultare questo elenco di licenze possibili
-
esporre i dati in un formato di file aperto e standard, per assicurarsi, in conformità ai principi FAIR, che siano reusable e interoperable. Molti data repository espongono la lista dei formati di file consigliati/preferiti a seconda della tipologia di oggetti archiviati (immagini, testi, database, audio, video, ecc.). Oltre ai formati semplici più diffusi, un particolare formato di dati utilizzato nel campo della ricerca scientifica è NetCDF (Network Common Data Form), un formato auto descrittivo che include anche metadati generici e specifici machine-readable; questo formato può essere utilizzato in modo avanzato con server che implementano il protocollo OPeNDAP (Open-source Project for a Network Data Access Protocol); con questo protocollo, infatti, la lettura di dataset e subset nei file può essere eseguita senza che sia necessario scaricare l’intero set di dati, si possono effettuare aggregazioni di dataset e subset in un dataset virtuale e si possono effettuare elaborazioni via software accedendo direttamente ai dataset.