SCIENZA E RICERCA

L’intelligenza artificiale generativa può scrivere da zero un genoma?

Il potere creativo dell’intelligenza artificiale, come ChatGPT o Gemini, siamo abituati a vederlo all’opera nella creazione di testi o di immagini, addirittura video o canzoni. Il principio di funzionamento è sempre lo stesso: le si fornisce un prompt e lei, ricombinando in modo originale i dati con cui è stata allenata, ci restituisce un risultato che soddisfa (a volte sì a volte no) la nostra richiesta.

Un gruppo di ricercatori che lavorano negli Stati Uniti, in un recente paper uscito su Nature ha pensato di sfruttare esattamente lo stesso principio per fare qualcosa di nuovo: scrivere da zero un intero genoma.

“Sebbene gli strumenti per il sequenziamento, la sintesi e l’editing del genoma abbiano trasformato la ricerca biologica, ci manca ancora una comprensione sufficiente dell’immensa complessità codificata dai genomi per prevedere gli effetti di molte classi di cambiamenti genomici o per progettare in modo intelligente nuovi sistemi biologici” scrivono in apertura del loro lavoro, come a dire: l’intelligenza umana ha capito molte cose, ma non tutte. Perché non vedere come se la cava l’intelligenza artificiale?

Evo 2

I ricercatori hanno sviluppato allora Evo 2, un’AI a cui sono state fatte studiare 9.000 miliardi di basi di DNA di organismi appartenenti a tutti raggruppamenti dell’albero della vita (batteri, funghi, piante, animali). La versione più potente utilizza 40 miliardi di parametri, un’altra invece ne ha 7 miliardi. Più sono i parametri, più sofisticato è il modello da un punto di vista computazionale: per raffronto, le versioni più avanzate di ChatGPT (OpenAI) e Gemini (Google) ne hanno molti di più: qualche migliaio di miliardi di parametri.

A ogni modo, essendo stata esposta a un gran numero di sequenze di DNA, l’AI ha fatto quello che sa fare meglio, ossia riconoscere schemi ricorrenti, individuare i pattern più frequenti, che in questo caso come dicono i biologi sono le sequenze meglio conservate.

I genomi degli organismi viventi sono complicatissime sinfonie perfettamente orchestrate. Sono composti da migliaia, a volte milioni, a volte miliardi di lettere di DNA. La posizione di ciascuna lettera è il risultato di milioni, a volte miliardi di anni di incessante lavoro di cesellamento da parte dell’evoluzione. Dover generare in poco tempo ciò che è costato un’interminabile serie di tentativi ed errori alla selezione naturale è un compito davvero ingrato, ma è proprio questo che gli autori del lavoro su Nature hanno chiesto a Evo 2 di fare.

Lo hanno fatto partendo da un prompt, ossia fornendo al modello una sequenza genetica di circa 10.000 basi appartenente a un microrganismo, per la precisione un batterio (Mycoplasma genitalium), il cui genoma è lungo circa 580.000 basi. Evo 2 ha restituito un genoma di lunghezza del tutto analoga, ma i test hanno stimato che risultava funzionale solo al 70%. I ricercatori sottolineano che si tratta in ogni caso di un enorme passo avanti rispetto alla versione precedente del modello, Evo 1, che era in grado di restituire un genoma funzionale solo al 18%.

AI generativa 

Prima di arrivare a chiedere a Evo 2 di inventarsi un genoma, i ricercatori si erano già assicurati che l’AI fosse in grado di svolgere bene altri compiti più semplici, cionondimeno estremamente complessi. Per esempio, una sua versione precedente era stata usata per generare la sequenza genetica completa di una serie di virus, detti fagi, la cui unica funzione è quella di infettare batteri. I loro genomi sono lunghi solo qualche migliaio di lettere di DNA ed esprimono solo pochi geni funzionali. Di 285 fagi generati, 16 erano riusciti a infettare con successo dei batteri.

Nel lavoro appena pubblicato, i ricercatori hanno mostrato che Evo 2 è stato in grado di generare con buona accuratezza anche porzioni di genoma mitocondriale. I mitocondri sono organelli presenti in tutte le cellule eucariotiche (dotate di nucleo) e fungono da batterie delle cellule.

Evo 2 è stato messo alla prova anche con sequenze più complesse: partendo da un prompt di 10.000 basi, ha generato una ventina di sequenze lunghe ciascuna 330.000 basi, analoghe a quelle di un cromosoma di Saccharomyces cervisiae, un lievito impiegato anche nella produzione di birra.

“Questi risultati dimostrano che Evo 2 può generare sequenze di DNA che somigliano ai genomi di organelli, procarioti ed eucariotisottolineano i ricercatori, che però rimarcano: “è importante notare che i genomi non sono funzionali o capaci di replicarsi, e che le sequenze generate su scala genomica mancano di elementi importanti, come alcuni geni essenziali”.

Evo 2 ha anche dimostrato notevoli capacità di individuare gli effetti potenzialmente negativi di certi tipi di variazioni che possono riguardare il genoma umano. Una simile applicazione può avere notevole potenziale in ambito clinico, come del resto aveva già mostrato AlphaGenome, l’AI della compagnia britannica DeepMind (acquisita da Google). Gli autori precisano tuttavia che “Evo 2 non è addestrato su dati relativi alla variazione genetica umana né su dati di genomica funzionale”.

Vantaggi e rischi dell’open source

Evo 2 è un Foundation Model, ossia un tipo di modello che è generale a sufficienza da poter essere addestrato per svolgere diversi compiti specifici. Le applicazioni riportate nel paper testimoniano la sua versatilità.

Ha però ancora molto margine di miglioramento e per questo i ricercatori hanno scelto una strategia di sviluppo decisamente diversa da quella che in ambito AI oggi va per la maggiore tra le Big Tech della Silicon Valley: hanno scelto di rendere totalmente open source la licenza di Evo 2 e di rendere accessibili tutti i dati di addestramento e quelli relativi ai parametri del modello.

Alcune cose Evo2 ha dimostrato di non saperle fare ancora, mentre altre gli sono state esplicitamente precluse in fase di progettazione: quando gli viene chiesto di generare sequenze di un virus capace di infettare gli esseri umani, l’AI restituisce performance sostanzialmente casuali.

“Come per tutte le nuove biotecnologie, vanno fatte considerazioni di sicurezza, di protezione ed etica” scrivono gli autori del lavoro. “In linea con gli impegni per una AI e una progettazione biologica responsabile, abbiamo valutato e mitigato preventivamente i potenziali rischi prima della pubblicazione open source”.

“Escludendo dai nostri dati di addestramento le sequenze genomiche dei virus che infettano gli eucarioti, abbiamo cercato di garantire che il modello da noi condiviso apertamente non diffondesse la capacità di manipolare e progettare virus patogeni per l’uomo”.

Tuttavia, i modelli completamente open source possono essere sviluppati in autonomia da altri ricercatori e “potrebbero anche essere utilizzati in modi non previsti, che potrebbero comportare rischi di incidenti o di uso improprio” concludono i ricercatori, che non escludono che un addestramento specifico potrebbe aggirare le misure di mitigazione del rischio da loro adottate. Tuttavia, si limitano a dire che “è una questione che va affrontata con cautela”.

© 2025 Università di Padova
Tutti i diritti riservati P.I. 00742430283 C.F. 80006480281
Registrazione presso il Tribunale di Padova n. 2097/2012 del 18 giugno 2012