SCIENZA E RICERCA

R1: il primo modello di intelligenza artificiale sottoposto a peer review

La notizia è semplice. Per la prima volta, un modello di intelligenza artificiale (IA) è stato sottoposto alla revisione tra pari tipica delle pubblicazioni scientifiche. Il modello si chiama R1 e a produrlo è stata la cinese DeepSeek. Il paper è stato pubblicato sulla rivista Nature. Se da un punto di vista scientifico la notizia è, di primo acchito, lineare, un po’ meno è provare a capire davvero cosa significhi. 

 

Che cosa è stato analizzato

In realtà, R1, cioè il modello, e il suo codice non sono stati visionati dai revisori nominati da Nature. Si tratta, infatti, di elementi coperti dal segreto industriale e che sono la base del modello di business di DeepSeek. Quello che è stato revisionato dal gruppo di esperti è come “hanno realizzato una specifica parte del training del modello”. A spiegarlo è Sebastian Goldt, docente presso la Scuola Internazionale Superiore di Studi Avanzati (SISSA) di Trieste dove dirige un gruppo di ricerca che si occupa di teoria delle rete neurali. Ma “non si è trattato di un audit del codice, di un audit dei dati o di una sorta di esercizio di red-teaming del sistema implementato”. Con ‘red-teaming’ si intende una pratica abituale nel mondo dell’informatica in cui si tenta un attacco informatico per testare la vulnerabilità di un software o, in questo caso, di un modello. In altre parole, non è stata testata nemmeno la sicurezza di R1.

Ciononostante, la pubblicazione ha permesso di apprendere alcuni dettagli sul lavoro di DeepSeek. Per esempio, i materiali supplementari allegati al paper scientifico hanno rivelato per la prima volta quanto sia effettivamente costato il training di R1: 294 mila dollari. Anche aggiungendo a questa cifra i 6 milioni spesi per lo sviluppo del modello linguistico di grandi dimensioni (Large Language Model o LLM) alla base di R1, siamo comunque lontani dalle decine di milioni di dollari stimati per altri modelli rivali.

L’economicità di tutto il progetto DeepSeek era stato uno degli elementi dirompenti quando l’azienda con sede ad Hangzhou ha fatto le prime uscite pubbliche all’inizio del 2025. La stampa internazionale ne parlava come del modello cinese “economico e aperto” che “entusiasma gli scienziati”.

La revisione paritaria non va confusa con una validazione del modello di IA Sebastian Goldt, data scientist (SISSA, Trieste)

Adelante con juicio

Secondo Goldt, la pubblicazione di un articolo scientifico che ha sottoposto alla revisione dei pari un modello di intelligenza artificiale è un passo in avanti rispetto “a un post sul blog aziendale o a un articolo pre-print, che sono stati il modo usuale in cui i grandi laboratori dell’IA hanno finora ‘pubblicato’ articoli sui loro modelli”. Tuttavia, “la revisione paritaria dell'articolo non va confusa con una ‘validazione’ del modello, o addirittura con un'accurata riproduzione del lavoro svolto”.

Questo era impossibile, come abbiamo accennato, anche perché il codice non è stato messo a disposizione dei revisori. Questo nonostante R1 sia un prodotto disponibile in download gratuito sul sito di DeepSeek. Chiunque lo scarichi ottiene un prodotto sul quale può costruire liberamente delle applicazioni, ma senza che il codice sorgente e i dataset sui quali è stato svolto il training siano messi a disposizione.

Nell’editoriale di Nature che ha accompagnato la pubblicazione del paper, si può leggere che, nonostante i limiti che l’articolo stesso riconosce, "l'indipendenza della ricerca sottoposta a revisione paritaria" sono da considerarsi un "gold standard per la convalida". Sebastian Goldt non è del tutto d’accordo, perché ritiene che “il gold standard della convalida sarebbe l'adozione di nuovi metodi da parte della comunità, la riproduzione da parte di altri laboratori”. In pratica, la possibilità di guardare ai modelli non come delle scatole nere, ma potendo davvero capire in che modo sono stati costruiti e come funzionano. È un tema che apre un altro campo di riflessione, cioè quello per cui la ricerca nel settore dell’IA, a oggi, è completamente in mano ai privati, ponendo un freno alle capacità delle istituzioni di ricerca pubbliche di rimanere competitive nel settore.

 

Maggiore chiarezza

Uno dei punti emersi nel paper di Nature è il modo con cui R1 impara. Alla base c’è una versione automatizzata di un approccio che procede per tentativi ed errori che è conosciuta nel settore come apprendimento per rinforzo puro. Questo significa che il processo non premiava R1 per imitare il modo di ragionare degli esseri umani, ma invece privilegiava la correttezza delle risposte fornite durante l’interazione con l’utenza. Inoltre, in un tentativo di aumentare l'efficienza, è stato lo stesso modello a valutare i propri tentativi, attraverso delle stime, mentre solitamente questo procedimento è affidato a un altro algoritmo.

Non si è trattato di un audit del codice, di un audit dei dati o di una sorta di esercizio di red-teaming del sistema implementato Sebastian Goldt, data scientist (SISSA, Trieste)

Infine, in uno scambio di comunicazioni con il gruppo di revisori, i ricercatori di DeepSeek hanno dichiarato che il tipo di apprendimento di R1 non è basato sul copiare gli esempi di ragionamento generati da altri modelli di IA. Ma ammettono che il modello di base sotto a R1 è stato allenato con un accesso a Internet, quindi è probabile che abbia acquisito anche pezzi di informazioni che lì si trovano e che sono stati generati dall’IA.

Dettagli a parte, Goldt non si dice sicuro che la pubblicazione peer review sia un passo così decisivo. “Credo che la peer review possa aiutare a imporre metodi e valutazioni più chiare”, spiega. Ma non è sicuro che quanto pubblicato “abbia reso il training abbastanza trasparente da essere riproducibile, e quindi trasparente sotto questo aspetto”.

POTREBBE INTERESSARTI

© 2025 Università di Padova
Tutti i diritti riservati P.I. 00742430283 C.F. 80006480281
Registrazione presso il Tribunale di Padova n. 2097/2012 del 18 giugno 2012