SCIENZA E RICERCA
Data mining: l'ostacolo del copyright
Tra i buoni propositi della Commissione europea per il 2016 vi è anche un intervento legislativo a favore dell’utilizzo del data mining nella ricerca, finora di fatto ostacolato dalle restrizioni legate al copyright. Il punto riguarda la possibilità di interrogare in modo raffinato tutta la produzione scientifica a cui enti e ricercatori hanno già legalmente accesso attraverso l’abbonamento a periodici e banche dati.
Detto così, il problema sembrerebbe non sussistere: perché non poter sfruttare in tutte le loro potenzialità testi già pagati (spesso profumatamente) e a cui si ha già diritto di accedere? Il data mining è poi, in realtà, un’attività che svolgiamo tutti quotidianamente quando utilizziamo un qualsiasi motore di ricerca. Dove risiede quindi la difficoltà?
Sempre più spesso, in ambito scientifico, si rivela necessario poter processare grandi quantità di dati prodotti all’interno dei progetti di ricerca e pubblicati – in formato diverso – su varie piattaforme editoriali. Si parla in questo caso di Text and Data Mining (Tdm), anche se viene da più parti suggerito come la dicitura più corretta dovrebbe essere Content mining, data la varietà estrema delle fonti analizzabili: dati e metadati, testi e materiale audio-visivo. È come applicare l’algoritmo di un motore di ricerca agli articoli delle nostre riviste di riferimento: l’analisi elettronica dei testi permette infatti agli studiosi di scoprire modelli, tendenze o altre informazioni utili che non possono essere rilevate con altrettanta facilità attraverso la tradizionale lettura umana. Può capitare ad esempio che rielaborando in questo modo i dati contenuti in pubblicazioni di area medica si scorga una possibile associazione tra un gene e una malattia o tra un farmaco e i suoi effetti negativi senza magari che questa connessione sia esplicitamente identificata o menzionata in nessuno degli articoli.
Questo tipo di indagini non solo di fatto accelerano processi di ricerca già faticosamente seguiti “manualmente” ma permettono la creazione di nuovi metodi per cui si parla ormai di “data-driven science”. Una breve nota preparata quest’anno da Science Europe illustra tutti i benefici derivanti dalle tecniche Tdm e tutte le pre-condizioni necessarie a implementarle. Prima di tutto, infatti, il ricercatore che volesse fare indagini di tipo Tdm deve avere accesso fisico alle fonti (i testi) da analizzare e possibilmente averle disponibili in un deposito (server) locale. E poiché maggiore è la mole dei materiali da analizzare, migliori saranno i risultati della ricerca è spesso necessario dover raccogliere contenuti da molte fonti diverse. Questi contenuti poi vanno rielaborati e standardizzati, convertiti in un formato comune, ed eventualmente resi semanticamente omogenei. Tutti trattamenti che possono dover essere svolti in fasi successive che a loro volta potrebbero far nascere ulteriori spunti di ricerca. I dati così trattati vengono poi interrogati con algoritmi messi a punto dal ricercatore.
Il problema sta esattamente qui. Se l’accesso (legale) è già garantito dall’abbonamento, quest’ultimo molto difficilmente copre anche il download massiccio di tutto il database testuale, a maggior ragione visto che questo sarà conservato localmente a lungo termine e poi manipolato. Gli editori oppongono naturalmente ragioni di copyright e di protezione dei database, come previste dalla legislazione in vigore. Risultato: un ricercatore europeo che volesse fare analisi Tdm non potrebbe avere a disposizione legalmente sul proprio server i materiali stessi da analizzare, o per riuscirci dovrebbe inseguire tutti i detentori dei diritti (spesso soggetti a diverse legislazioni nazionali) e contrattare con ognuno di loro i termini di sfruttamento dei dati. In alternativa alcuni editori propongono opzioni Tdm sui loro server, obbligando però così lo studioso a dare loro accesso alla sua ricerca e ai conseguenti risultati.
Ecco perché la Commissione europea ha finalmente annunciato la proposta di una eccezione obbligatoria nelle leggi europee sul copyright che consenta di superare le frammentarie regolamentazioni nazionali in materia così da aiutare nei loro compiti le “organizzazioni di ricerca di pubblico interesse”. Un’analoga eccezione obbligatoria verrà chiesta per i materiali di studio utilizzati in iniziative di e-learning, per dare regole migliori e più chiare ai docenti dei corsi online. Queste proposte fanno parte di una serie di iniziative legislative volte a modernizzare le regole europee per il copyright aggiornandole alle necessità dell’era digitale.
Cristina Gottardi