SCIENZA E RICERCA
ChatGPT ha scritto un paper scientifico, ma si è inventato un po' di letteratura
Meno di un’ora: questo il tempo necessario per ChatGPT, uno dei più chiacchierati bot di intelligenza artificiale, per scrivere un articolo scientifico. Dall’analisi preliminare dei dati alla formulazione dell’ipotesi di ricerca, fino alla vera e propria stesura del testo finale, suddiviso nella consuete sezioni e completo di bibliografia. A realizzare l’esperimento due ricercatori israeliani, Roy Kishony e Tal Ifargan che lavorano a Techion, l’Istituto Israeliano di Tecnologia con sede a Haifa. L’idea era di testare le potenzialità di ChatGPT per questo tipo di attività, nel tentativo di esplorare in che modo l’intelligenza artificiale generativa può essere di aiuto a chi fa ricerca scientifica. I risultati, però, presentano una serie di inesattezze che hanno, al contrario, aiutato a evidenziare quali sono i limiti attuali della tecnologia.
Studiamo il diabete
Per il loro esperimento Kishony e Ifargan hanno scaricato un database di dominio pubblico messo a disposizione dal Behavioral Risk Factor Surveillance System dei Centers for Disease Control and Prevention (CDC) americani. Si tratta di dati raccolti in circa 250mila interviste telefoniche riguardo il consumo di frutta e verdura, l’attività fisica e il fatto se le persone intervistate abbiano o meno il diabete. I due ricercatori hanno quindi chiesto a ChatGPT di scrivere del codice informatico che permettesse di cominciare a esplorare il dataset. I risultati erano pieni di errori e problemi, ma il codice era scritto in modo che lo stesso bot utilizzasse queste informazioni per migliorarlo in modo automatico.
Una volta superata questa fase iniziale, quando cioè ChatGPT aveva un’idea di com’era strutturato il dataset, Kishony e Ifargan gli hanno chiesto di formulare un obiettivo di ricerca. Il suggerimento del bot è stato di studiare la relazione tra attività fisica e consumo di frutta e verdura con il diabete. Il risultato, non particolarmente sorprendente, è che mangiare più frutta e verdura e fare esercizio fisico è correlato a un minor rischio di diabete. A questo punto, i due ricercatori hanno usato in contemporanea due diverse conversazioni con l’intelligenza artificiale per passare alla fase vera e propria di scrittura del paper scientifico. Tutto il processo ha richiesto meno della pausa pranzo dei due ricercatori.
Limiti del paper scritto da ChatGPT
Il frutto del lavoro del bot è lungo meno di dieci pagine e ha proprio la struttura del classico paper scientifico: abstract, introduzione, risultati, discussione, metodi, bibliografia e descrizione del dataset. Si potrebbe pensare che i risultati non sono particolarmente innovativi, ma si tratta comunque di qualcosa di sensato. Peccato che il testo presenti una serie di problemi. Il primo, individuato dagli stessi ricercatori israeliani, è che ChatGPT scrive frasi del tipo “questo fatto colma una lacuna della letteratura scientifica sull’argomento” quando non è affatto così. Come si può immaginare, la relazione tra esercizio fisico, abitudini alimentari e insorgenza del diabete è studiatissima e niente di quello che il paper di ChatGPT presenta come risultato è una novità.
Il secondo problema è che, nonostante Kishony e Ifargan avessero garantito a ChatGPT l’accesso alle librerie più aggiornate della letteratura scientifica del settore, il bot ha comunque inventato di sana pianta alcune citazioni che appaiono nel paper. È un problema noto che riguarda tutti i bot basati su intelligenza artificiale, ma che nel caso di un paper scientifico assume un’importanza anche maggiore. Il punto, come sottolinea Noah Baker, editor di Nature che ha commentato l’esperimento in un podcast, è che anche per un occhio esperto può essere molto difficile riconoscere tali inesattezze ed elementi fasulli.
Oltre l’esperimento israeliano
Lo stesso Baker ha sottolineato un altro problema che il lavoro dei ricercatori israeliani lascia intravedere: il cosiddetto p-hacking. Per p-hacking (o data dredging) si intende un uso improprio dell’analisi dei dati allo scopo di trovare pattern che possano essere presentati in un paper come statisticamente significativi. Si tratta di una manipolazione dei dati che sottovaluta enormemente il rischio di includere falsi positivi e funziona attraverso una attenta e disonesta selezione dei soli test statistici che restituiscono un risultato significativo e tralasciando tutti gli altri. Per Baker, in questo settore si può ipotizzare un uso molto efficace di strumenti come ChatGPT. Con il rischio, però, di arrivare a pubblicare risultati inesatti.
Per limitare questo tipo di problemi, alcuni editori scientifici come il gruppo Nature, stanno lavorando a una policy che preveda la massima trasparenza sull’utilizzo delle tecnologie di intelligenza artificiale in tutte le fasi di ricerca e scrittura dei paper. Ma è un orizzonte ancora relativamente nuovo e che deve essere adeguatamente esplorato e poi implementato. A cominciare da una formazione degli stessi editor che devono valutare i paper prima di passarli ai revisori scientifici.
IA che riconosce IA
Nel frattempo, la stessa intelligenza artificiale potrebbe aiutare a identificare i paper scritti in toto o in parte da bot. Una ricerca guidata da Heather Desaire della Kansas University negli Stati Uniti e pubblicata su Cell Reports Physical Science ha infatti presentato i risultati di un esperimento in cui si è utilizzato proprio ChatGPT per individuare quali paper siano stati scritti dall’intelligenza artificiale e quali da persone in carne e ossa.
I ricercatori hanno dato in pasto a ChatGPT, dopo un’adeguata fase di training, 90 articoli scientifici, 30 veri e 60 scritti da un’altra istanza di ChatGPT. Il test prevedeva di analizzare oltre 1200 paragrafi di paper scientifici e indicare se erano scritti da un essere umano o da un bot. I risultati dicono che a livello di paper, l’accuratezza dell’identificazione è del 100%, mentre scende leggermente al 92% a livello di singolo paragrafo. Per stessa ammissione di Desaire, si tratta di un risultato che va preso con attenzione, perché il campione su cui è stato condotto il test era piuttosto piccolo: l’obiettivo principale era una prova di fattibilità, ma sono necessari studi di follow-up per determinare se e quanto questo approccio può essere applicato.
Nel comunicato stampa che presenta la sua ricerca, Desaire ha scherzato sul fatto che quando ne parla con qualcuno le chiedono subito se si può usare questo metodo per capire se gli studenti hanno effettivamente scritto i propri testi. La ricercatrice sottolinea che non è stato progettato per individuare saggi scritti da intelligenze artificiali creati da studenti, ma i metodi impiegati possono essere facilmente replicati e adattati per costruire modelli per questo scopo.