Web archiving

Fino ad ora il progetto si era impegnato solo nella conservazione al lungo termine degli archivi digitali in remoto. Oggi è necessario tenere conto delle tendenze crescenti per gli autori nell’utilizzo della rete come mezzo di diffusione delle proprie creazioni intellettuali.

Per questo PAD ha elaborato un sistema per la salvaguardia dei siti web e delle pagine social media. L’intento non è di competere con altri progetti internazionali simili, ma mantenersi come un piccolo progetto sostenibile e di alta qualità.

La richiesta per l’inserimento nel progetto deve partire dall’autore o dall’istituzione culturale a cui fa capo il sito. In questo modo è possibile interagire direttamente con il committente per stabilire tempi e metodi per il salvataggio e la consultabilità. Tutto il materiale resta ovviamente di proprietà dell’autore, che può in ogni momento deciderne la rimozione dal progetto. Dato che i siti web possono essere modificati o aggiornati anche molto di frequente, si possono concordare con l’autore anche dei salvataggi a cadenza prestabilita. In questo modo si conservano le varie versioni del sito, che possono essere anche messe a disposizione dell’utenza, secondo la volontà del proprietario.

Attraverso un software per il web scraping, il sito dell’autore viene riprodotto in locale, in modo da garantirne il browsing offline. Così l’utente potrà navigare liberamente nella copia dell’intero sito.

Di ogni pagina che compone il sito web, PAD memorizza, oltre alla pagina stessa, i link anche alle pagine esterne, con un’immagine della pagina a cui il link porta, e i documenti allegati, in modo da conservare migliore traccia dell’impostazione che l’autore voleva dare al proprio sito.

Una volta acquisito tutto il materiale, viene generata un’immagine disco, che è poi salvata nell’area di conservazione permanente del sistema PAD. Questi dati vengono trattati alla stregua degli archivi nativi digitali, prendendo tutte le precauzioni al fine di garantire il disaster recovery.