UNIVERSITÀ E SCUOLA

Big data genomici per la medicina di domani

Che cosa hanno in comune la televisione e il genoma? Facile, entrambi sono canali che trasmettono e immagazzinano informazione, dati, che vengono compressi in specifici formati. E perché a parlarne è Francesco Profumo, ministro dell'istruzione dal 2011 al 2013 e oggi presidente della Compagnia di San Paolo di Torino? Perché i big data guideranno l'innovazione dei prossimi decenni in moltissimi settori, tra cui la medicina di precisione. Ma andiamo con ordine.

L'intervento, tenuto nell’Aula magna di Palazzo Bo martedì 12 dicembre e organizzato dalla Fondazione ricerca biomedica avanzata del Vimm (Istituto veneto di medicina molecolare), si intitolava “Accelerazione dei processi di sequenziamento del genoma attraverso l'introduzione di norme per la compressione dei dati”. Più di due anni fa Francesco Profumo viene contattato da Roberto Viola, direttore generale di DG Connect (Directorate-General for Communications Networks, Content and Technology), il dipartimento della Commissione Europea che si occupa di sviluppare, tra le altre cose, l'economia del digitale. “Occorrono investimenti per recuperare il ritardo accumulato nell'ambito del supercalcolo rispetto a paesi come la Cina, il Giappone, gli Usa, la Russia – ha affermato Profumo – occorre avviare il recupero partendo da Horizon 2020 e poi con il nuovo programma quadro a partire dal 2021”. Nell'ambito del programma di ricerca H2020 l'Europa ha già finanziato con 20 milioni di euro il progetto EuroExa, un prototipo di infrastruttura per il supercalcolo. I big data conteranno sempre di più nella corsa all'innovazione e l'Europa ha individuato alcuni settori chiave su cui puntare; tra questi ci sono lo spazio, l'industria 4.0, la nuova agricoltura e la medicina, in particolare la medicina di precisione o personalizzata: si tratta di un approccio che permette diagnosi più veloci, terapie focalizzate e meno invasive, soprattutto in ambito oncologico.

“Molte aziende farmaceutiche stanno sviluppando molecole che ancora non sanno come impiegare” ha detto Francesco Profumo. Esistono patologie, come certi tumori, che hanno una componente genetica precisa; la medicina di precisione mira a sviluppare terapie altamente specifiche per patologie con componenti genetiche specifiche. Affinché questo abbinamento sia possibile però occorre raccogliere più dati genetici possibile attraverso i sequenziamenti genomici. “È un tema di grande interesse – sottolinea Profumo – è un patrimonio di dati che potrebbe cambiare l'approccio alla medicina. Il valore è enorme. Molti paesi stanno investendo tantissimo su questo. Occorre essere lungimiranti.”

Sequenziare un genoma oggi è un'operazione relativamente semplice, gli esami possono essere compiuti in qualche ora: un prelievo (sangue, pelle o saliva) viene analizzato da una macchina e come output viene restituito il genoma in formato digitale. “All'inizio degli anni Duemila sequenziare un genoma costava fino a 100 milioni di dollari. Grazie allo sviluppo tecnologico oggi il costo è stato abbattuto fino a 1.000 dollari, e continuerà a calare”. Le stime di crescita sono enormi: “Si stima che ogni 7 anni il numero di genomi sequenziati raddoppierà”. Ciò comporterà la generazione di una mole impressionante di dati genomici. “Il gene è il primo elemento digitale in natura – ha ricordato Francesco Profumo – un genoma umano può arrivare a occupare fino a 5 terabyte (5.000 gigabyte, ndr). Se sequenziassimo tutti gli abitanti della Svizzera avremmo dati per 2.300 petabyte (1 Pb corrisponde a 1.000 Tb, ovvero 1 milione di Gb, ndr)”. L'immagazzinamento e la trasmissione di questi dati (nonché gli elevati costi di gestione associati) costituiscono una sfida ancora aperta. Oggi Google ha una disponibilità di 10.000 Pb, Amazon tra i 100 e i 1.000 Pb, Facebook 300 Pb. “Noi oggi abbiamo le risorse e le strutture per immagazzinare questi dati genomici e trasferirli da un luogo all'altro? Da un ospedale all'altro?”. Le reti a disposizione (come la fibra) non sono in grado di trasferire questi dati. Per sostenere il modello della medicina di precisione è necessario poter comprimere quest'immensa mole di dati. Il sistema Zip che noi tutti usiamo riduce solo della metà circa la dimensione dei dati che scarichiamo. Per dimensioni maggiori occorrono sistemi di compressione più adeguati. Ed è proprio qui che, nell'intervento di Francesco Profumo, entra in scena la televisione, o meglio, il sistema di compressione di dati che è stato utilizzato per la televisione.

Con il passaggio alla HDTV (tv ad alta definizione), si è passati da una trasmissione di 200 Mb/s a una di 1 Gb/s e i sistemi di compressione disponibili hanno ridotto le dimensioni di 50-100 volte. È stato necessario poi introdurre degli standard per il formato. “MPEG2 ha fatto la differenza, riducendo le dimensioni dei dati fino a 200 volte” ha detto Profumo. Si tratta di un sistema di codifica digitale introdotto nel 1994 da MPEG (Moving Pictures Experts Group) che oggi costituisce uno dei formati più diffusi per i video, utilizzato ad esempio nei DVD.

“In genomica esistono molti algoritmi di compressione, ma abbiamo molti formati e pochi standard” riferisce Profumo. “Abbiamo rapporti di compressione non sufficienti rispetto alla mole di dati. MPEG ha una grande esperienza nella compressione e sta sviluppando nuovi standard con ISO TC 276 Biotechnology”.

Cosa significa avere uno standard? Avere uno strumento che consente di lavorare in luoghi diversi su strutture diverse e poi usare i risultati in una forma comune. “Questo è cruciale dal punto di vista industriale. La Germania investe già molto su questo. Le banche hanno capito il valore di questa impresa e l'Europa vuole investirci”. MPEG può arrivare a ridurre le dimensioni dei dati da 1 a 200 volte, si mira ad arrivare in tempi brevi da 1 a 500 e poi da 1 a 800 volte. Ma occorre arrivare a delle norme che regolamentino gli standard di compressione. “Una norma (la ISO/IEC23092 ndr) è già stata in parte disegnata e a ottobre 2018 ne è prevista la pubblicazione”.

Dopo il suo intervento, Francesco Profumo ha dialogato con alcuni esperti. “Per quanto riguarda la medicina personalizzata, siamo ancora all'inizio e c'è molta ricerca da fare” ha detto Giorgio Valle, docente del dipartimento di biologia. Inoltre, a ogni genoma andrebbero associate le caratteristiche dell'individuo, fisiologiche o patologiche “e se si scopre che una persona ha un gene difettoso, c'è un problema etico nel rivelare al paziente che avrà quella malattia”. Il dato genetico è un dato sensibile a cui si associano questioni di privacy, perché ciascun genoma non parla solo del suo portatore, ma anche dei suoi parenti.

“E come si comporterebbero le compagnie di assicurazioni sanitarie, come quelle statunitensi, se sapessero tutto dei nostri genomi?” si domanda il filosofo della scienza Telmo Pievani.

Secondo Silvio Tosatto, docente del dipartimento di scienze biomediche, è importante fare i sequenziamenti, “perché la storia famigliare è il dato più prezioso per affinare i modelli predittivi”.

La sfida dei big data genomici è sicuramente affascinante, ma si accompagna a questioni che necessitano una discussione il più aperta possibile.

Francesco Suman

© 2018 Università di Padova
Tutti i diritti riservati P.I. 00742430283 C.F. 80006480281
Registrazione presso il Tribunale di Padova n. 2097/2012 del 18 giugno 2012