SCIENZA E RICERCA

Dalla felicità alla salute, la risposta è nei numeri

“Il lavoro più sexy dei prossimi dieci anni sarà quello dello statistico. E non sto scherzando”. Lo diceva Hal Varian nel 2009, capo economista di Google. E nel 2011 un rapporto del McKinsey Global Institute stimò che solo gli Stati Uniti avessero bisogno di 140-190.000 esperti di dati in più, oltre a un milione e mezzo di manager che fossero pratici del settore. La ragione è presto detta: l’esplosione di dati digitali degli ultimi anni. Secondo l’International data corporation, in aumento del 50% ogni anno. Post su Facebook, “cinguettii” su Twitter, blog, job-posting, e-commerce, ricerche on line, transazioni con carte di credito on line sono solo alcune delle risorse possibili accanto ai dati classici. Dati, a disposizione di chiunque sia in grado di trattarli e interpretarli, che consentono di fare previsioni e influenzare le scelte. Uno studio di qualche anno fa coordinato da Erik Brynjolfsson, economista al Massachusetts Institute of Technology, dimostrò che 179 grandi aziende americane, che orientavano le loro decisioni sulla capacità di previsione dei dati, raggiungevano guadagni superiori del 5-6%. E, naturalmente, sappiamo che la National security agency (Nsa) americana sfrutta questi stessi dati a fini di spionaggio e di sorveglianza dei cittadini di tutto il mondo anche attraverso le app più innocue.

Ma gli esempi sono molti, specie oggi che grazie alla rete si può giocare d’anticipo sui tradizionali metodi di raccolta dati. Si prenda Global Pulse, un progetto delle Nazioni Unite, che utilizza i big data (soprattutto digitali) per monitorare l’impatto della crisi socio-economica globale e intervenire già ai primi segnali di allarme con programmi di assistenza. Fino a iHappy, una app gratuita elaborata dall’università di Milano, nell’ambito del progetto Voices from the blogs, che misura il grado di felicità dell’Italia, città per città, con mappe ad andamento giornaliero, settimanale e annuale analizzando il contenuto dei “cinguettii” su Twitter.

Dalla scienza allo sport, dalla pubblicità alla finanza, le possibilità si spingono fino a settori come la medicina. È il caso di Google flu trends, una piattaforma che permette a chiunque di verificare l’andamento influenzale nel mondo quasi in tempo reale: l’intensità della malattia e le aree interessate si ottengono grazie a un modello che misura la frequenza delle query di ricerca relative all’influenza. Allo stesso modo lavora MappyHealth che analizza invece le parole chiave su Twitter, cioè il numero, la frequenza e il contenuto dei “cinguettii” relativi a specifiche malattie, restituendone la distribuzione a livello globale. Stesso principio con cui si muove anche Sickweather. In materia gli studi non mancano. Recentemente un’indagine pubblicata sul Journal of medical internet research ha dimostrato, attraverso l’analisi di quasi 168.000 tweet contenenti la parola “flu” o “influenza” poi confrontati con i rapporti locali, che in 9 delle 11 città prese in esame tra il 2012 e il 2013 esisteva una forte relazione tra il numero di tweet e i focolai epidemici e in 5 di queste l’algoritmo è stato addirittura in grado di individuare le epidemie in anticipo.   

Sull’effettiva attendibilità di queste risorse le posizioni non sembrano del tutto univoche. A proposito di Google flu, se da un lato si riconosce che la piattaforma è in grado di mappare le aree interessate dall’influenza (e di individuare eventuali focolai) almeno due settimane prima dei servizi di sorveglianza epidemica (che devono invece attendere i dati dai medici), dall’altra c’è chi sottolinea che l’intensità delle query di ricerca non sempre sono legate a un effettivo stato di malattia. La ricerca in rete, sottolinea un recente rapporto Unesco, può essere fatta ai primi sintomi o quando il paziente riceve la diagnosi, ma anche più semplicemente se ne parlano i media. Ed è stato proprio questo, ad esempio, nel 2013 che ha portato Google Flu Trends a sovrastimare l’andamento influenzale, individuando un picco dell’11% della popolazione, mentre in realtà era del 6%. “Sempre meglio sovrastimare che sottostimare” ribatte Bruno Scarpa, docente del dipartimento di scienze statistiche dell’università di Padova. La piattaforma, sottolineano tuttavia i detrattori, si basa su dati virtuali ed è completamente fuori dai processi di causalità che determinano gli eventi, le malattie in questo caso. È come se Google dicesse: “Non so nulla di questa patologia, se non che tra poco interesserà la tua zona”.

“I dati – sottolinea Scarpa – non sono previsioni. I dati in sé non dicono nulla. È necessario analizzarli e interpretarli. E con la mediazione di un esperto le previsioni si possono considerare attendibili”. Su questa linea, non manca chi crede che questi strumenti stiano diventando parte del sistema di sorveglianza delle epidemie. “Sono responsabile del sistema di sorveglianza influenzale degli Stati Uniti – dichiarava Lyn Finelli a Nature qualche mese fa – e, oltre a servirmi degli strumenti di sorveglianza tradizionali, guardo anche a Google flu trends e Flu near you. Voglio vedere cosa sta accadendo, se stiamo dimenticando qualcosa o se c’è qualcosa di differente”.   

Monica Panetto

© 2018 Università di Padova
Tutti i diritti riservati P.I. 00742430283 C.F. 80006480281
Registrazione presso il Tribunale di Padova n. 2097/2012 del 18 giugno 2012