SCIENZA E RICERCA

L'intelligenza artificiale e il problema della riproducibilità delle previsioni

L’ipertensione è una delle condizioni di salute più diffuse e pericolose nella nostra società. Immaginiamo quindi che al nostro sistema sanitario venga proposto un software in grado di analizzare le cartelle cliniche dei cittadini e indicarci quali sono coloro che soffrono. Al di là di come sia possibile farlo nel rispetto della nostra privacy, si tratterebbe di uno strumento di salute pubblica molto utile. In realtà, uno strumento simile esiste ed è basato sull’intelligenza artificiale e il machine learning: basta dargli in pasto i dati ed è in grado di dire chi è iperteso. Ma il principale indicatore che una persona è ipertesa è se stia assumendo farmaci contro l’ipertensione. In pratica, l’algoritmo è in grado di predire se una persona è ipertesa dopo che ha già ricevuto una diagnosi ed è già in terapia: non molto utile come previsione.

È solo un esempio di problemi legati a un uso non corretto delle tecniche di machine learning individuato da Arvind Narayanan e Sayash Kapoor, rispettivamente docente al Dipartimento di Computer Science della Princeton University (Stati Uniti) e dottorando nella stessa struttura. In una ricerca pubblicata in pre-print durante l’estate su arXiv.org, i due hanno individuato ben 329 paper scientifici in cui si rileva un problema nell’utilizzo proprio delle tecniche di machine learning. Secondo i due ricercatori, si tratta di un problema trasversale alle discipline poiché gli oltre trecento paper problematici sono distribuiti in ben 17 diversi settori di ricerca nell’ultimo decennio.

Di che cosa si tratta

Nel corso degli ultimi anni l’intelligenza artificiale e in particolare il machine learning si sono diffusi sempre di più nell’ambito della ricerca scientifica come strumenti di indagine. In pratica, si tratta di modelli informatici in grado di imparare in modo autonomo a svolgere un determinato compito, come per esempio individuare le persone ipertese all’interno della popolazione: i modelli vengono allenati e una volta pronti sono in grado di fornire previsioni piuttosto accurate. Nel caso della ricerca scientifica, queste previsioni sono spesso il risultato della ricerca stessa. Per esempio, in un aneddoto citato da Narayan e Kapoor quando raccontano della propria indagine, una serie di paper di scienze politiche sostenevano di essere in grado di predire lo scoppio di una guerra civile con un’accuratezza del 90%. Si tratta in realtà di modelli di previsione in cui il machine learning è stato utilizzato in modo inaccurato.

Il paper di Narayan e Kapoor è circolato subito molto nella comunità di riferimento, al punto che a fine luglio i due hanno organizzato un seminario online per discutere con altri colleghi. Si dicevano contenti se si fossero iscritti una trentina di ricercatori, ma il risultato finale è stato di oltre 1500 partecipanti, tra Zoom e YouTube. Numeri che fanno pensare a un concreto interesse da parte di una platea allargata e, viste le provenienze, transnazionale e transdisciplinare. Ma uno dei punti da chiarire subito è che Narayan e Kapoor si occupano proprio di fare ricerca sulle problematiche del machine learning e la solidità dei risultati che si raggiungono sfruttandole. Il loro messaggio non è quindi mettere in discussione il fatto che il machine learning è uno strumento potente da utilizzare per la ricerca, ma cercare di capire perché è così spesso impiegato in modo scorretto.

La registrazione integrale del seminario dello scorso 28 luglio organizzato da Narayan e Kapoor

Il problema del data leakage

L’errore più diffuso individuato nella loro ricerca è il cosiddetto data leakage, dove "leakage" in inglese significa “perdita”, ma nel senso di un tubo che perde. Il tipo più diffuso di data leakage individuato è quello della mancata separazione tra i dati utilizzati per l’allenamento del modello e i dati utilizzati per fare le previsioni. I modelli, come abbiamo detto, devono imparare attraverso l’analisi di grandi moli di dati. Quando questi dati da allenamento finiscono per mescolarsi con i dati utilizzati per far girare il modello e produrre previsioni, qualcosa non funziona perché c’è una specie di “inquinamento” del data set. 

Nel mondo dell’ingegneria, dove il machine learning viene utilizzato abbondantemente, questo problema è noto da tempo ma non viene preso troppo in considerazione. Il motivo è semplice. Quando si passa alla fase produttiva tipica dell’industria è evidente quali risultati del modello non sono realistici e si possono scartare. È quello che ha raccontato all’inizio del seminario del 28 luglio scorso lo stesso Kapoor, che prima di dedicarsi alla ricerca lavorava per Facebook. Se i risultati dell’algoritmo che viene sviluppato soffrono di data leakage ci si accorge immediatamente che non funzionano nella realtà e quindi si possono scartare alcuni risultati o modificare il modello. Nella ricerca pura, in cui spesso il paper è il solo prodotto, senza che ci sia una produzione industriale di qualcosa di derivato, questo tipo di approccio non è possibile.

La crisi della riproducibilità nella ricerca

Il problema della riproducibilità dei risultati scientifici si è affacciato inizialmente nel campo della psicologia, dove - ancora prima dell’impiego dell’intelligenza artificiale - la difficoltà maggiore era nella possibilità di riprodurre lo stesso setting sperimentale per verificare i risultati. Ma, come racconta un articolo del New Scientist dello scorso aprile, oggi questo problema è riconosciuto in moltissimi settori molto diversi tra loro. Nel caso dell’impiego del machine learning, secondo Narayan e Kapoor il problema principale è una limitata comprensione del funzionamento dei processi da parte di chi fa ricerca in un settore disciplinare diverso. Oggi, per esempio, le grandi aziende digitali mettono a disposizione dei team di ricerca i propri strumenti di intelligenza artificiale. Questo rende estremamente accessibile il machine learning a molti ricercatori senza dover ricorrere necessariamente a un budget alto.

Il risultato di questa maggiore accessibilità, si potrebbe semplificare, è che chi fa ricerca in medicina d’emergenza o biologia molecolare può con una certa facilità ricorrere a strumenti potenti come i modelli basati sul machine learning. Ma non è detto che poi siano in grado di gestirne l’applicazione nel modo più accurato. La risposta, però, secondo Narayan e Kapoor non è che tutti coloro che li vogliono utilizzare debbano diventare degli esperti del settore, quanto piuttosto l’affiancamento e la collaborazione

Fanno inoltre una proposta per le riviste scientifiche su cui i risultati vengono poi pubblicati. Hanno messo infatti in piedi una specie di questionario da sottoporre ai ricercatori per capire se il machine learning è stato utilizzato in modo corretto per evitare il data leakage. Senza diventare esperti di machine learning, anche gli editor delle riviste potrebbero capire prima della pubblicazione se un paper presenta o meno un problema su questo fronte. Non sappiamo se questa soluzione verrà mai adottata, ma di sicuro l’estensione del problema individuata da Narayan e Kapoor indica che deve essere trovata una risposta per evitare che ne vada della credibilità della ricerca stessa.

© 2018 Università di Padova
Tutti i diritti riservati P.I. 00742430283 C.F. 80006480281
Registrazione presso il Tribunale di Padova n. 2097/2012 del 18 giugno 2012