Il processo di open science passa attraverso cambiamenti sostanziali che rendano le pubblicazioni scientifiche davvero accessibili al pubblico. Il data mining e l’accesso ai raw data sono due nodi da sciogliere per chi ha la responsabilità di governare questo cambiamento. Due elementi fondamentali che non interessano solo il mondo della scienza, perché rispecchiano gli stessi punti nodali dell’open data/government.
L’apertura e l’accesso libero alle pubblicazioni scientifiche, tema che come abbiamo visto ha investito i tavoli di molti decisori politici dagli Stati Uniti all’Europa è un primo importante passo verso una scienza davvero integrata nella società. Ma lo scardinamento di logiche commerciali sulla pubblicazione dei lavori scientifici in mano a pochi potenti gruppi editoriali non può che essere l’inizio di un ripensamento globale del sistema di accesso alle informazioni, anche di scienza, per i cittadini.
Al netto dei problemi di ordine economico e gestionale di come sostenere un passaggio epocale nel mondo della pubblicazione e della comunicazione tra pari nella ricerca scientifica, l’open access, perché sia reale e non fittizio, ha bisogno di profonde riflessioni e mutamenti sostanziali.
In primo luogo, la possibilità di poter leggere e scaricare liberamente un paper pubblicato tramite una licenza open access non necessariamente significa che il testo in esso contenuto possa essere analizzato attraverso software, bot e macchine di calcolo, capaci di scavare tra le migliaia di parole e informazioni per estrapolare dati che possano essere integrati con altri ricavati nello stesso modo in migliaia di papers pubblicati.
Le case editrici generalmente non permettono questo tipo di operazioni (chiamate text mining), anche se si è detentori di un abbonamento.
Nella migliore delle ipotesi il text mining non è espressamente vietato, ma il dubbio che si possa rientrare nei casi della violazione del diritto di licenza esclusiva dei contenuti che la casa editrice detiene con gli autori, rimane e scoraggia molti.
Il problema, sollevato ormai da diversi sostenitori dell’open science e da studiosi impegnati nell’analisi di enormi moli di dati, non è di poco conto. In un’epoca in cui la produzione di dati aumenta a ritmi vertiginosi, così come le pubblicazioni scientifiche, è impensabile che un singolo studioso possa recuperare informazioni una a una, su ogni singolo paper, per poterle eventualmente correlare e trarre vantaggio dalla miriade di papers pubblicati in ogni angolo del mondo. Se invece ogni pubblicazione libera permettesse anche il text o data mining alla ricerca di similitudini e relazioni, il lavoro già svolto nei laboratori del mondo non si fermerebbe alle conclusioni dimostrate nel singolo articolo scientifico, ma creerebbe ponti e fili tra differenti ricerche che solo per caso potrebbero inciampare l’una nell’altra.
Un lavoro certosino su centinaia di ricerche già disponibili che solo una macchina può fare scovando come un segugio anche piccole somiglianze tra parole e macinando calcoli, che richiederebbero vite intere, in pochi minuti.
Per esempio, andando a correlare analisi genetiche pubblicate in riviste differente o risultati di sperimentazioni cliniche sull’efficacia o gli effetti avversi di un farmaco.
Quello che sembra la naturale evoluzione dell’applicazione di tecnologie già esistenti e ben funzionanti è invece uno scoglio che l’open science deve affrontare per far cadere l’ultimo baluardo delle resistenze delle case editrici.
Ma il problema dei dati aperti, oltre allo scoglio del text mining non permesso (per ora) nella maggior parte dei casi delle riviste scientifiche, va oltre a quanto pubblicato sull’articolo.
In caso di analisi estremamente complesse, ciò che viene riprodotto sul testo sono estratti o parti significative che servono a dare conto delle conclusioni che i ricercatori vogliono portare all’attenzione del lettore.
I dati grezzi (raw data) che sono alle spalle di un paper dovrebbero però ugualmente essere resi disponibili ai pari e, nel caso di riviste open, a chiunque volesse andare a fondo di quella ricerca: la scelta da parte degli autori per arrivare a dimostrare l’ipotesi portata avanti potrebbe infatti “nascondere” dati che non si vogliono tenere in considerazione. Caso emblematico potrebbero essere gli studi di sperimentazioni cliniche di farmaci che potrebbero strategicamente “occultare” dati scomodi. L’accesso a tutti i dati non getterebbe più ombre o scetticismo su risultati troppo scintillanti.
Alcune riviste richiedono espressamente che i raw data vengano depositati in specifiche repositories pubbliche e disponibili in rete, anche se nella maggior parte dei casi il deposito non viene rispettato dagli autori, come un recente articolo su PloS One dimostra.
Delle disposizioni vincolanti che rendano davvero le pubblicazioni scientifiche aperte su tutti i fronti (possibilità di accedere ai testi con bot e software per il text mining e deposito dei dati grezzi in siti aperti) dovrebbero quindi essere l’ulteriore gradino che le istituzioni e i decisori politici che si occupano di innovazione scientifica dovrebbero salire perché l’open science non si fermi nei manifesti elettorali e nei discorsi di propaganda.
Anche perché i problemi, anche di ordine tecnico, che l’open science sta portando allo scoperto non sono altro che lo specchio riflesso, anche se in un ambito più ristretto come quello della scienza e della ricerca, della gestione più ampia degli open government data.
La lettura di numerosi set di dati, in questo caso amministrativi, alla ricerca di correlazioni, ovviamente non è altro che un text mining. E il processo dell’open data si incunea proprio sul rilascio da parte delle amministrazioni e governi di documenti e data set che possono essere analizzati e gestiti anche tramite software di data mining.
E allo stesso modo, i numerosi report che le amministrazioni rilasciano non sono altro che una scelta, operata internamente, di numerosi informazioni (raw data) che sicuramente i cittadini avrebbero diritto e interesse di conoscere.
Un comportamento all’insegna della responsabilità dovrebbe allora tenere in considerazione tutti questi aspetti, così nel mondo della ricerca come nelle amministrazioni. Se il movimento open e l’apertura dei dati, in ogni ambito, vuole essere una vera innovazione.
——————–
(foto: Raw Data di teigan da Flickr)