Les formats des fichiers sont des produits de l’industrie. Chaque année, de nouveaux formats apparaissent et d’anciens disparaissent. Les existants peuvent être développés et, comme un logiciel, avoir plusieurs versions. Ils ne sont pas tous de qualité égale, peuvent intégrer ou pas les métadonnées, prendre plus ou moins d’espace, être simples ou complexes. Dans ce contexte, garantir la conservation pérenne est un véritable défi.
Les formats de sauvegarde des fichiers
Dans les années 90, la règle était claire : s’en tenir aux quelques formats « canonisés ». Deux décennies plus tard, la vision a changé. Ces formats se sont vite révélés insuffisants pour couvrir le champ des types d’informations à archiver et ne répondait plus forcément à la fonction ni à la stratégie de l’institution en charge de la conservation.
Alors s’est posé le dilemme entre opter pour trop de formats et courir le risque de rencontrer des difficultés d’usage sur le long terme et entre opter pour trop peu de formats et se retrouver confronté à de gros problèmes de qualité dès à présent.
Comment donc limiter le nombre de formats pour assurer l’usage sur le long terme et la qualité d’enregistrement ? 3 solutions sont possibles :
[protected]
Solution 1 : le système de gestion électronique des documents (G.E.D.) du producteur génère les documents dans les formats demandés par les règles juridiques.
Solution 2 : le producteur utilise des formats d’activité puis convertit les fichiers lors de leur versement au format demandé par les archives et par les règles juridiques.
Solution 3 : la conversion est assurée par les archives.
Du point de vue des archives, la solution idéale est la 1ère. Les solutions 2 et 3 génèrent des pertes d’informations dues à la conversion. La solution 3 est la plus défavorable pour l’institution en charge de la conservation puisque la conversion, souvent compliquée et coûteuse, est à sa charge.
Quel que soit la solution retenue, l’institution se retrouve donc à la tête d’un fonds de formats relativement homogènes. Les migrations nécessaires ultérieures qu’affronteront les archives n’en seront que facilitées.
Il convient donc d’établir une politique de formats sur la base des critères généralement admis suivants :
- la diffusion du format (un format largement diffusé pourra être utilisé par beaucoup de logiciels et de convertisseurs disponibles) ;
- l’indépendance du format de tout logiciel et de tout matériel ;
- la publication des spécifications du format ;
- la transparence du format (compression, encapsulation, chiffrement, signature peuvent empêcher l’identification et le contrôle automatique des attributs du format) ;
- les métadonnées du format (la richesse en métadonnées et la facilité d’exploitation).
Peuvent également s’ajouter à ces critères :
- le format doit être simple à condition qu’il sache détecter et signaler automatiquement les problèmes lors de conversions ;
- le format doit assurer la compatibilité ascendante s’il appartient à un cycle de développement ;
Si possible, le format ne doit pas être propriété intellectuelle protégée (qui empêche l’usage libre et peut coûter très cher). A titre d’exemple, le format PDF est un format à versions à compatibilité ascendante. Il est propriétaire et publié. Le format DOC, lui, ne garantit pas la compatibilité ascendante sur le long terme et n’est pas publié.
Pour ce qui est de l’espace de stockage, il existe des formats de compression sans perte, plus gourmand d’espace disque, et des formats de compression avec perte, plus économiques. Un des critères de choix sera l’existence d’un original papier. Un autre, les besoins liés à la conservation de l’archive.
Dans tous les cas, il faut préférer les formats qui génèrent le moins d’erreurs lors des conversions, abîme (contenu et contextes) le moins les documents et protègent le mieux leur accessibilité dans le long terme.
Les documents complexes, quant à eux, ne peuvent être bien représentés que par des formats complexes. Il faudra donc jongler avec tout cela et trouver le meilleur compromis possible.
Voici une liste de quelques formats recommandés par plusieurs institutions prestigieuses :
- Texte non structuré : PDF/A, TXT ;
- texte structuré : XML, ODT, PDF/A ;
- Tableau : XML, ODS, CSV ;
- Base de données : XML, CSV ;
- Image fixe : TIFF, JPEG 2000, PNG ;
- Audio : WAV, WMA ;
- Vidéo : MXF, MOV, AVI ;
- E-mail : XML, MBOX, EML.
Les archives doivent vérifier la bonne application de la politique des formats en les contrôlant au versement. Pour les accompagner dans la construction d’une telle politique, le registre PRONOM(1), maintenu par les Archives nationales du Royaume-Unis, contient la description précise et les spécifications techniques de 800 formats de fichiers. Le logiciel DROID qui permet d’identifier et de vérifier les formats de nos fichiers fait partie du PRONOM.
Les normes
Les normes peuvent être « canonisées », c’est-à-dire acceptées et publiées par une autorité nationale ou internationale compétente. C’est le cas des normes sur les formats JPEG 2000, PDF/A, TIFF et ODF. Et puis il y a les normes de facto, c’est-à-dire à « canoniser », mais acceptées et largement répandues. Une norme peut-être appeler norme, modèle, ou exigence. Pour que les effets d’une norme soient réels, elle doit être une norme de facto.
Les normes peuvent avoir une durée de vie longue ou courte. Elles peuvent changer au fil du temps. Les normes ayant une durée de vie longue comportent en générale des versions. Le succès d’une norme se mesure par sa longévité, par sa diffusion et par le nombre de normes qui s’y adaptent. La norme la plus réussie est sans doute le XML qui se répand irrésistiblement depuis les années 90. L’OAIS, quant à lui, s’est imposé comme référence dans la communauté patrimoniale. Tout le monde s’efforce de rendre sa norme ou ses recommandations compatibles avec l’OAIS.
Pour bien choisir sa norme, deux critères s’imposent :
- l’utilité (une norme doit être conforme à l’objectif et aisément applicable) ;
- la sécurité (une norme doit être utilisable dans le long terme, largement répandue et entretenue par des organisations).
Rapide aperçu de quelques normes répandues en archivistique :
Norme de langage : XML(1)
Le XML peut-être lu par n’importe quel logiciel de lecture. Il est considéré comme indépendant logiciel.
Le langage XML fut développé pour la gestion des textes structurés dont les éléments (titres, sous-titres, cotes, dates extrêmes, sujets) peuvent être représentés par des balises encadrées de chevrons. Les informations entre chevrons font partie des métadonnées. Pour les documents complexes les balises sont complétées par des attributs et des commentaires. La communauté des archivistes a créé son propre schéma XML : L’EAD complétée de l’EAC.
Norme pour les archives courantes : MOREQ
Norme européenne, MOREQ fait référence pour le développement de GED. Elle est appliquée aussi au-delà de ses frontières. MOREQ s’inspire de l’ISO 15.489. Mais elle est beaucoup plus détaillée. Elle articule ses exigences fonctionnelles autour de neuf services. Elle comporte également une série d’exigences non fonctionnelles relatives à la vie privée, à la sécurité, à la fiabilité, etc. Le MOREQ10 recommande le recours au XML pour l’exportation et l’importation de données.
Norme pour la conservation des données : OAIS
C’est le modèle de référence pour un système ouvert d’archivage d’information (OAIS(2) – Open Archival Information System) élaboré par le Conseil de Management du Comité Consultatif pour les Systèmes de Données Spatiales (CCSDS). Il devient une norme ISO (14.721) en 2002 et formule les règles à suivre par les archives pour la conservation pérenne et la communication des informations.
Ce modèle traite les informations en paquet, un paquet comprenant le contenu et ses métadonnées qui forment une unité logique. Les paquets se répartissent en trois types :
- le paquet d’informations à verser (SIP) : ce que le producteur envoie aux archives lors du versement ;
- le paquet d’informations archivé (AIP) : ce que les archives retiennent des SIP pour une conservation pérenne ;
- le paquet d’informations diffusé (DIP) : ce que l’utilisateur reçoit quand il demande des informations.
Norme pour la description des archives : ISAD-g et ISAAR
Le Conseil international des archives (ICA) publia la norme générale et internationale de description archivistique (ISAD-g(3)) en 1994. Elle s’imposa comme une nécessité dès le début de l’informatisation des archives. D’une part pour cadrer les échanges de fonds mais également pour construire les instruments de recherche en ligne. L’ISAD-g rend possible une description équilibrée des quatre éléments constitutifs des documents (identifiants, contenu, structure et contexte). Elle est conçue pour permettre la description des agrégats de documents hiérarchisés, et pour fixer la place de ces agrégats dans le macrosystème.
L’ISAAR(4), norme internationale sur les notices d’autorité utilisées lors de la description des archives des collectivités, des personnes et des familles, vient compléter la zone de contexte de l’ISADg. L’ISAAR recommande l’application simultanée des deux normes.
Normes pour la description des archives : EAD et EAC
Dans les années 80, les archives américaines avaient recours au format MARC(5) (Machine Readable Cataloging, développé par la Bibliothèque du Congrès dans les années 60). Très rapidement, ce format conçu pour le catalogage s’avéra inadapté à la description de fonds d’archives. En 1998, la communauté des archivistes américains développa alors une nouvelle norme en SGML, l’EAD(6) (Description archivistique encodée) fortement influencée par le format MARC. La deuxième version date de 2002. Elle incorpore beaucoup d’éléments de l’ISADg adaptés à l’informatique mais en diffère en ce sens qu’elle considère le produit de la description comme un document électronique à part entière. La grille de l’EAD est beaucoup plus détaillée que celle de l’ISADg et l’ISAAR. L’EAD est devenue une norme de facto acceptée et utilisée par la communauté professionnelle.
En 2010, l’EAC, « traduction informatique » de l’ISAAR, viendra compléter l’EAD.
Références :
(1) : Le XML est suivi par le World Wide Web Consortium (W3C). Voir http://www.w3.org/standards/xml
(2) : version française de l’OAIS :http://pin.association-aristote.fr/lib/exe/fetch.php/public/documents/norme_oais_version_francaise.pdf
(3) : la deuxième édition de l’ISADg a paru en 2000. Voir http://www.ica.org/10225/normes/isadg-norme-gnrale-et-internationale-de-description-archivistique-deuxieme-edition.html
(4) : la deuxième édition de l’ISAAR a paru en 2004. Voir http://www.ica.org/10230/normes/isaar-cpf-norme-internationale-sur-les-notices-dautorite-utilisees-pour-les-archives-relatives-aux-collectivites-aux-personnes-ou-aux-familles-2eme-edition.html
(5) : voir : www.loc.gov/marc/
(6) : voir : www.loc.gov/ead/
[/protected]
A suivre : Stratégie archivistique dans l’environnement numérique