Quale formato adottare per la conservazione a lungo termine dei documenti digitali?

Nelle nostre attività lavorative quotidiane ci siamo mai soffermati sulla scelta del formato utilizzato per la creazione di un documento digitale? Ci siamo mai chiesti: il formato che sto utilizzando è quello più idoneo per garantire l’usabilità del documento che devo redigere, scambiare e archiviare?

É una domanda importante da porsi, cui rispondere con attenzione, in considerazione degli scopi connessi al documento che andiamo a produrre e del suo ciclo di vita.

Infatti non tutti i formati sono in grado di supportare determinati requisiti che devono rispettare i documenti digitali che produciamo; soprattutto, non tutti i formati sono idonei a garantire una conservazione a lungo termine dei documenti.

Secondo il quadro concettuale di riferimento del progetto InterPARES, la conservazione di un documento digitale consiste “nella preservazione della capacità di riprodurlo”.

In generale, le caratteristiche da prediligere nella scelta dei formati per la produzione, gestione e conservazione dei documenti digitali1, sono:

  • apertura, quando le specifiche del formato sono pubbliche e quindi liberamente accessibili;
  • standardizzazione e diffusione, quando le specifiche del formato sono state approvate da un organismo di normazione (standard de jure) o quando esse sono ampiamente diffuse (standard de facto);
  • sicurezza, capacità del formato di essere insensibile nei confronti di virus o codice maligno che potrebbero danneggiare il contenuto di un file;
  • portabilità, capacità del formato di rendere il file rappresentabile allo stesso modo indipendentemente dall’hardware e dal software;
  • auto-documentazione, capacità di un formato di supportare l’inclusione di metadati.


In particolare, il formato più idoneo per l’archiviazione dei documenti a prevalente contenuto testuale destinati ad essere conservati per un lasso cronologico significativo è il PDF/A, dove “A” sta per archiving o archive.

Si tratta di un sotto-formato del PDF, sviluppato da Adobe System con lo specifico obiettivo di agevolare la long term preservation dei documenti digitali.

Come il formato PDF da cui deriva, il PDF/A è un formato standard de jure, definito nella sua prima versione dalla norma ISO 19005-1: 2005, quindi non proprietario e aperto.

La principale caratteristica che lo differenzia dalla versione standard è l’auto-contenimento, per cui tutti gli elementi necessari alla corretta rappresentazione del file, in particolare i font utilizzati, sono incorporati al suo interno e, quindi, sempre disponibili in fase rappresentazione, in modo da garantire una riproduzione del documento sempre identica, indipendentemente dall’ambiente tecnologico utilizzato.

É una delle caratteristiche fondamentali per rispondere ai problemi di obsolescenza tecnologica e attuare una conservazione che preservi le caratteristiche di autenticità, identità e integrità dei documenti digitali.

Il formato PDF standard, invece, non essendo completamente “auto-contenuto”, comporta in fase di visualizzazione una composizione dinamica del file che rischia di non essere riprodotto correttamente se si utilizza un sistema diverso da quello di creazione.

Altri requisiti cui risponde il PDF/A sono:

  • assenza di riferimenti esterni;
  • divieto di inserimento di contenuti multimediali, che potrebbero compromettere l’accesso;
  • divieto di cifratura del file;
  • assenza di codice eseguibile (macro, javascript);
  • obbligatorietà di un insieme minimo di metadati.


Lo standard ISO 19005-1:2005 definisce diversi livelli di conformità, verificabili mediante specifiche applicazioni:

  1. il PDF/A-1a, che rappresenta il livello di piena conformità allo standard, consentendo non solo la corretta riproduzione e visualizzazione del documento, ma anche la corretta interpretazione della struttura logica del file e della semantica del testo, attraverso l’utilizzo dei tag;
  2. il PDF/A-1b, che è il livello di conformità minima, in grado di garantire la conservazione nel tempo delle sole caratteristiche visive del file. 


Le versioni successive dello standard, il PDF/A-2 (ISO 19005-2:2011) e il PDF/A-3 (ISO 19005-3:2012), a loro volta suddivise in ulteriori sottolivelli, si basano sulla versione 1.7 delle specifiche generali del formato PDF e presentano caratteristiche aggiuntive molto interessanti, che ne agevolano l’utilizzo come formato idoneo per la conservazione a lungo termine dei documenti elettronici:

  • possibilità di sottoscrivere i documenti con firme elettroniche conformi allo standard PadES;
  • possibilità di inserire in un medesimo file PDF/A-2 più file PDF/A, mantenendo i file separati strutturalmente e logicamente;
  • possibilità di incorporare in un unico file PDF/A-3 altri file allegati in diversi formati (Excel, HTML, Word, XML etc.), consentendo di conservare l’informazione sul formato originario di produzione dei documenti. 


Quest’ultima funzionalità, in particolare, si rivela molto utile per l’archiviazione delle email: è infatti possibile incorporare in un file PDF/A-3 i messaggi di posta elettronica nel loro formato originario (EML), senza dovere ricorrere ad una preliminare conversione nel formato PDF.