SOCIETÀ

Un archivio per la memoria del Web

È del 4 gennaio 2013 la notizia pubblicata sul Washington Post sulla decisione della Library of Congress di istituire e rendere fruibile un archivio digitale dei tweet, predisposto già nel 2006, e che comprenderebbe ad oggi 170 miliardi di “cinguettii”, con un ritmo di crescita di 400 milioni nuovi messaggi inviati ogni giorno. L’archivio è stato creato tramite un accordo con Twitter e per ora non è accessibile al pubblico per questioni legate ai costi che una procedura di ordinamento, e il conseguente software di ricerca, comporterebbe. I tweet raccolti vengono catalogati e archiviati in metadati con oltre 50 campi, comprensivi del numero di retweet che segue l'account che lo ha pubblicato per primo

Quando si parla di conservazione delle risorse digitali, l’aspetto più rilevante è quello organizzativo, che deve prevedere anche il rispetto delle norme sulla sicurezza, come evidenziano alcuni casi recenti fra cui quello della scomparsa dal sito presidenziale francese dell’Eliseo dei contenuti riferiti alla precedente presidenza Sarkozy

Il patrimonio digitale si compone di risorse uniche nei campi della conoscenza e dell’espressione umana, siano esse di ordine culturale, educativo, scientifico, amministrativo o che contengano informazioni tecniche, giuridiche, mediche o di altra sorta, create digitalmente o convertite in forma digitale a partire dalle risorse analogiche esistenti. Quando delle risorse sono di “origine digitale”, ciò significa che esse esistono unicamente sotto la loro forma digitale iniziale” così recita la Carta per la conservazione del patrimonio digitale dell’UNESCO che risale all’ottobre 2003 che prosegue sottolineando che “è nell’interesse degli Stati membri incoraggiare misure giuridiche, economiche e tecniche che mirino a salvaguardare questo patrimonio”. 

 “La conservazione degli archivi digitali costituisce da tempo uno dei problemi che più impegnano la comunità scientifica e professionale sia dal punto di vista teorico e metodologico sia per quanto riguarda l’individuazione e la messa in opera di soluzioni applicative di basso costo e facile adozione” dice la voce Treccani “Archivi digitali”, redatta da Mariella Guercio. Il controllo dell’autenticità e sui processi di formazione, oltre all’uso di formati standard per la conservazione presentano non poche criticità organizzative. La Carta UNESCO per la conservazione del patrimonio digitale denuncia esplicitamente il rischio, gravissimo, di perdita del patrimonio, riconoscendo attraverso una serie di principi tutti quegli elementi che hanno uno specifico valore di documento e di testimonianza. I materiali digitali, cioè, ai quali va indirizzata la salvaguardia e la conservazione, mirando a creare una pluralità di sistemi accessibili nel lungo termine e muovendo a tal fine gli Stati membri così come organizzazioni intergovernative, associazioni internazionali, società civile e settore privato; occorrono quindi misure tecniche, ma anche politiche.

Pierluigi Feliciati, nel suo articolo Il web sugli archivi, gli archivi del Web (in "Kermes" del 2003), propone una comparabilità fra il ciclo di vita dei siti Web e quello degli archivi e un approccio archivistico alla conservazione del Web. 

Le politiche per la sicurezza delle informazioni archiviate devono prevedere più copie di sicurezza localizzate in ambienti di conservazione certificati, al fine di prevenire, perdite di natura sia accidentale sia dolosa e di garantire software adeguato in grado di recuperare eventuali perdite o danni dovuti dall’obsolescenza dei formati. Lo standard OAIS (ISO 14721:2003 Open Archival   Information System), che definisce concetti, modelli e funzionalità inerenti agli archivi digitali e gli aspetti della conservazione digitale, è punto di riferimento principale assieme agli standard sulla qualità (ISO 9000), sulla sicurezza dell’informazione (ISO 17799:2005) e sulla gestione dei documenti (ISO 15489:2001), previsti sulla base dei lavori della Task Force on Digital Repository Certification di RLG (Research Library Group) e NARA (National Archives and Records Administration, United States).

L’archiviazione periodica di siti web, in gergo web-archive, può essere di due tipologie, riconducibili alle scelte di archiviazione che si adottano, una detta a “dominio completo” (extensive crawl), l’altra di tipo selettivo o tematico (focused crawl). Nell’archiviazione a dominio completo un crawler (un particolare tipo di software che setaccia la rete) raccoglie tutte le pagine web secondo criteri stabiliti, solitamente per domini individuati, scorrendo lo spazio web entro confini nazionali e raccogliendo tutto ciò che è collocato in quel determinato spazio. Esempi di questo modello sono gli archivi gestiti in cooperazione tra le biblioteche nazionali di Danimarca, Finlandia, Norvegia, Islanda e Svezia entro il progetto Nordic Web Archive.

Nell’approccio selettivo il crawler è previamente impostato per raccogliere porzioni di spazio web puntando su siti selezionati o per domini tematici su determinati argomenti o perché considerati di particolare importanza o di qualità, secondo criteri definiti da politiche governative o istituzionali. Su questo modello funziona l’archivio del Web britannico e tutte le biblioteche che vi aderiscono tra cui la British Library e l’archivio delle pubblicazioni online australiano Pandora, realizzato dalla National Library of Australia nel 1996, che ha poi coinvolto le altre biblioteche e istituzioni culturali del paese.

In Gran Bretagna – dove attraverso le pagine Web istituzionali lo Stato informa i cittadini – fin dal 2003 ha avuto inizio il progetto nazionale UKWAC Web Archive dei siti governativi che si serve del web crawler di Internet Archive in una versione appositamente modificata, proprio perché oltre la metà di tutte le relazioni tra lo Stato e i cittadini ormai da oltre un decennio avviene online. Oltre al progetto UKWAC, gli archivi nazionali – attraverso l’UK Government Web Archive - si sono assunti la responsabilità di raccogliere e conservare, quali fonti per la storia e come testimonianza del cambiamento nella relazioni tra Stato e cittadino, i siti Web dell’amministrazione governativa. Il Public Record Office britannico come il National Archives of Australia si sono resi conto fin da subito che era necessario emanare linee guida nazionali sulla gestione e conservazione nel tempo dei siti Web delle istituzioni governative, proponendo di rendere i soggetti responsabili dei siti protagonisti in prima persona di strategie organiche per la loro conservazione nel tempo, e, quindi, non basate sui meccanismi automatici di cattura periodica affidati a terzi.

La mancata conservazione nel tempo delle risorse digitali – come sottolinea Giovanni Bergamin della Biblioteca Nazionale Centrale di Firenze - comporta almeno tre rischi, tutti piuttosto seri: la privatizzazione, la manipolazione delle fonti, la non verificabilità delle citazioni. In particolare nelle pubbliche amministrazioni, per siti Web di organi governativi, di Ministeri e governi locali, le conseguenze sono preoccupanti.

Il primo rischio è che in mancanza di una conservazione digitale normata tramite l’attuazione di chiare politiche governative e regole istituzionali, siinstauri una sorta di privatizzazione della memoria intesa come una privatizzazione del sapere. Vari sono i soggetti privati che sono interessati a creare mercato attorno a queste risorse. Sebbene il più importante, Internet Archive, sia un’organizzazione di attivisti che si batte per una Internet libera ed aperta, non è comunque un’istituzione pubblica.

Il secondo rischio, forse ancor più grave è la possibile manipolazione delle fonti, laddove i ricambi politici tendono a spazzare via informazioni riguardanti i loro predecessori in una sorta di spin-off politico dove l’informazione antecedente assume forme variabili e cambia a seconda delle correnti. O, peggio, manipolazioni informative indirizzate alla documentazione sul passato  e rivolte a far sembrare che alcune affermazioni siano sempre state dette o formulate in un certo modo. È noto il caso, emblematico, della pagina web nel sito ufficiale della presidenza degli Stati Uniti che nel maggio 2003 informava sullo stato della guerra in Iraq,  che veniva data come totalmente terminata. La pagina che in origine era stata pubblicata con il titolo “President Bush Announces Combat Operations in Iraq Have Ended”, fu “ritoccata” nel dicembre dello stesso nel seguente modo “President Bush Announces Major Combat Operations in Iraq Have Ended”, con l’aggiunta del semplice termine “Major” che però stravolgeva l’informazione nel suo complesso. Dal 2009 tutto il materiale prodotto del periodo 2001-2009 è stato inserito negli Archivi del Dipartimento di Stato USA, dove tutto il materiale governativo prodotto in digitale e su web viene puntualmente archiviato. Ma all’epoca questo caso clamoroso di “manipolazione informativa” è stato documentato solo grazie al lavoro di conservazione di Internet Archive, che dal 1996 archivia “istantanee” dello spazio web a livello mondiale,. 

Il terzo rischio attiene soprattutto al contesto scientifico, in quanto l’impossibilità di verificare le fonti delle citazioni mette in discussione i fondamenti su cui si basa la ricerca. Ovviamente l’impossibilità di verificare le citazioni è comunque un fattore di rischio anche in altri ambiti, in quanto vi possono essere casi di frode o di plagio difficilmente verificabili. In questo genere di analisi, Internet Archive risulta uno strumento di grande valore per la ricostruzione dello “storico” di un sito web. È interessante, a questo proposito, la sua scelta di aderire a un Consorzio di biblioteche nazionali per la conservazione di Internet, l’IIPC, International Internet Preservation Consortium, coordinato dalla Biblioteca nazionale di Francia (BnF) e che raccoglie numerose e importanti istituzioni tra cui anche la British Library (UK) e la Library of Congress (USA), il Government of Canada Web Archive, il progetto coreano OASIS, l’australiano PANDORA. Tra le biblioteche costituenti c’è, per l’Italia, la Biblioteca Nazionale Centrale di Firenze.

Il consorzio IIPC ha l’obiettivo di creare gli strumenti per la conservazione di una parte importante della rete incoraggiando e assistendo le biblioteche nazionali a creare appositi programmi di conservazione e archiviazione

In Italia il progetto Magazzini Digitali, avviato nel 2006 dalla Fondazione Rinascimento Digitale, dalla Biblioteca Nazionale Centrale di Firenze e dalla Biblioteca Nazionale Centrale di Roma si propone di mettere a regime nel 2011 un sistema per la conservazione permanente dei documenti elettronici pubblicati in Italia e diffusi tramite rete informatica, in attuazione della normativa sul deposito legale (Legge 106/2004, D.P.R. 252/2006). L'attività della Fondazione Rinascimento Digitale prevede un’intensa e concreta partecipazione a progetti d'ampio respiro.

Antonella De Robbio

© 2018 Università di Padova
Tutti i diritti riservati P.I. 00742430283 C.F. 80006480281
Registrazione presso il Tribunale di Padova n. 2097/2012 del 18 giugno 2012