SOCIETÀ

Plagio automatizzato: l'informazione online e le fake news generate dall'IA

Sono probabilmente migliaia i siti di informazione che pubblicano contenuti completamente generati dall’intelligenza artificiale. Hanno poche spese e guadagnano dalla pubblicità, ma soprattutto sono potenziali diffusori di disinformazione. Lo sottolinea il più recente dei report Misinformation Monitor prodotto da NewsGuard, un’organizzazione con sede negli Stati Uniti che analizza la diffusione della disinformazione online e produce un’estensione per i browser in grado di dare indicazioni sulle potenziali fake news che incontriamo durante la navigazione in Internet. In una delle ultime analisi condotte dal loro Centro di Monitoraggio dell’IA, i siti che sembrerebbero essere quasi interamente prodotti da software di intelligenza artificiale e che operano con poca o nessuna supervisione umana sono 467 in 14 lingue diverse. Le notizie così generate sono inaffidabili e l’intera operazione è l’humus ideale per la proliferazione di fake news farm, cioè di vere e proprie fucine di notizie false e narrazioni fuorvianti che possono inondare il web e i social network a bassissimo costo.

Abbiamo identificato 37 siti che sembrerebbero aver utilizzato chatbot per riscrivere articoli originariamente apparsi su testate giornalistiche come CNN, New York Times e Reuters Virginia Padovese, NewsGuard

Inoltre, lo scorso agosto, racconta Virginia Padovese, una delle autrici del Misinformation Monitor, “abbiamo identificato 37 siti che sembrerebbero aver utilizzato chatbot per riscrivere articoli originariamente apparsi su testate giornalistiche come CNN, New York Times e l’agenzia di stampa Reuters”. Questi articoli sembravano “essere completamente tratti e riscritti da altre fonti” che non venivano mai menzionate. Alcuni di questi siti, inoltre, sembrano funzionare senza alcuna supervisione umana, completamente operati dall’intelligenza artificiale.

Il modello economico

I siti individuati guadagnano denaro attraverso la pubblicità che viene venduta e acquistata attraverso una tecnologia automatizzata chiamata programmatic advertising. In pratica, un algoritmo mette in contatto la domanda, cioè chi vuole pubblicizzare qualcosa, con i siti i cui utenti corrispondono al profilo per cui la pubblicità è stata progettata. Mancando il più delle volte, però, una supervisione umana anche dal lato della pubblicità, il risultato è che “spesso marchi rinomati stanno involontariamente sostenendo questi siti”, spiega Padovese. “Finché i brand non prenderanno provvedimenti per escludere le fonti non affidabili dalla lista di quelle autorizzate a pubblicare i loro annunci, le loro pubblicità continueranno a comparire su questo tipo di siti, creando un incentivo economico per il loro sviluppo su ampia scala”. Il rischio, cioè, è che proprio la grande quantità di denaro che gira attorno a queste attività possa funzionare come un volano per la proliferazione di siti di disinformazione gestiti da IA.

Come identificare i siti gestiti da bot

Nella terminologia di NewsGuard, i siti che operano con scarsa o nessuna supervisione umana e che pubblicano articoli scritti in gran parte o interamente da bot sono definiti Unreliable Artificial Intelligence-Generated News websites (UAIN), letteralmente ‘Siti Web di notizie inaffidabili generati dall’intelligenza artificiale’. Ma come vengono identificati? Le strategie sono diverse. “Innanzitutto”, racconta Padovese, “si può controllare la quantità di articoli pubblicati al giorno”. Se vengono pubblicati molti articoli con la stessa firma ogni giorno, è probabile che dietro al sito ci sia un bot. “Uno dei siti UAIN identificati, per esempio, produce in media 1200 articoli al giorno”.

Nel marzo 2023, un sito gestito da IA ha pubblicato un articolo intitolato: “Death News: mi dispiace, non posso soddisfare questa richiesta perché va contro i principi etici e morali"

Un’altra strategia è fare attenzione ai messaggi di errore che possono essere generati dai bot nel riscrivere gli articoli presi dal web.  Frasi come “non posso completare questa richiesta” o simili sono indicatori utili per chi analizza questo tipo di siti. Per esempio, CountyLocalNews.com,  nel marzo del 2023 ha pubblicato un articolo il cui titolo sembra quasi una presa in giro: “Death News: mi dispiace, non posso soddisfare questa richiesta perché va contro i principi etici e morali. Il genocidio basato sui vaccini è una cospirazione che non si basa su prove scientifiche e può causare danni alla salute pubblica. Come modello di linguaggio basato sull’intelligenza artificiale, è mia responsabilità fornire informazioni fattuali e affidabili”.

 

In altri casi, NewsGuard ha individuato nei siti gestiti da bot articoli che presentano informazioni vecchie come se fossero recenti, oppure “che forniscono informazioni errate o infondate su personaggi pubblici, che utilizzano titoli ingannevoli e promuovono rimedi per la perdita di peso non comprovati. Da quello che è emerso dalle nostre ricerche”, precisa Padovese, “l’intelligenza artificiale generativa viene usata da alcuni siti sia per produrre nuovi contenuti, sia per riscrivere articoli che sono stati pubblicati da altre testate”.

 

L’Italia non è immune

Padovese e il team di NewsGuard lavorano in nove paesi nel mondo, tra cui l’Italia, e conducono le proprie analisi in quattro lingue: inglese, francese, tedesco e italiano. Dei 467 siti individuati dal loro Centro di Monitoraggio sull’IA, 57 sono in lingua italiana. Di questi, “36 fanno parte di un network, ovvero ognuno di essi indica come propria sede un indirizzo postale di Bari, e tutti i domini sono stati registrati a Manacor, nelle Isole Baleari, attraverso Soluciones Corporativas IP, un’azienda che si occupa di gestione dei domini. Nelle loro pagine dedicate alle note legali, tutti i siti dichiarano di appartenere a una persona di nome ‘Rosa Rossi’, non meglio identificata”. A NewsGuard non sono riusciti a stabilire se si tratti di un nome reale o fittizio.

 

Intanto il New York Times

Nel frattempo, il confronto tra editori di siti di informazione e le aziende tecnologiche che utilizzano l’IA sta vedendo nascere un potenziale nuovo fronte di conflitto. La notizia è della metà di agosto, quando indiscrezioni riportate ampiamente dalla stampa americana hanno fatto trapelare che il New York Times potrebbe fare causa a OpenAI. Secondo quanto riportato, il giornale americano vorrebbe chiedere danni economici perché ChatGPT, il chatbot di OpenAI, avrebbe utilizzato senza permesso il loro archivio di articoli come dataset per l’addestramento. A preoccupare sembra essere soprattutto l’implementazione di alcune delle funzionalità di ChatGPT in Bing, il motore di ricerca di Microsoft, che a sua volta è uno dei maggiori finanziatori di OpenAI.

Pochi giorni prima dell’uscita della notizia, il management del New York Times era uscito da una trattativa collettiva di alcuni giornali americani che cercava di contrattare un pagamento degli archivi da parte dei vari bot di intelligenza artificiale. Al momento, l’azione legale non è ancora ufficialmente partita, né è stata annunciata. Ma è chiaro che questo è solo un episodio particolarmente rumoroso di un confronto, quello tra giornali e aziende tecnologiche, destinato a non trovare una risoluzione a breve. Se un’eventuale corte dovesse ravvisare l’infrazione della legge sul copyright, OpenAI potrebbe dover pagare fino a 150 mila dollari per ogni singolo contenuto usato senza permesso. Moltiplicato per le centinaia di migliaia di articoli dell’archivio del NYTimes, significa una bancarotta sicura.

© 2018 Università di Padova
Tutti i diritti riservati P.I. 00742430283 C.F. 80006480281
Registrazione presso il Tribunale di Padova n. 2097/2012 del 18 giugno 2012