Au vu des précédents billets, nous pouvons affirmer avec certitude que les documents électroniques ne pourront pas être conservés pendant des centaines ou même seulement des dizaines d’années, dans leur état originel. Le plus que nous pouvons faire c’est de conserver les documents dans un état qui permettra de les reproduire dans un avenir prévisible. Quelle stratégie mettre en place pour y parvenir ?
Stratégie pour la conservation pérenne
Tout d’abord, les archives doivent s’appuyer sur un plan de classement pour pouvoir classer convenablement les archives. Des documents non classés forment un amas confus. Retrouver un document dans des archives sans classement revient à chercher une aiguille dans une botte de foin. L’effet est le même que s’il avait été détruit : il est inaccessible.
Ensuite, quelle que soit la stratégie adoptée par les archives, elle devra être en accord avec les autres stratégies de l’institution pour laquelle elles œuvrent. Elle devra être maintenue et, comme pour les politiques de collecte et de communication, révisée tous les 5 à 10 ans.
[protected]
Une première stratégie dite de conservation technologique propose de conserver non seulement les fichiers originels mais également les logiciels et matériels nécessaires pour leur relecture. Aujourd’hui, cette stratégie est pratiquement abandonnée car elle génère des coûts de maintenance importants et d’énormes difficultés pour trouver les pièces de rechange des matériels. Néanmoins, cette stratégie peut parfois se justifier. Ainsi qui aura gardé des ordinateurs avec lecteur de disquette pourra relire des disquettes retrouvées.
Une autre stratégie est celle où les producteurs gardent leurs documents, les archives s’occupant simplement de les documenter. La conservation échoit donc au producteur qui devra en assurer les coûts de stockage, de maintien et de conversion. Vous l’aurez compris, cette stratégie n’intéresse pas du tout le producteur qui s’orientera plutôt vers un dérivé de cette stratégie, le Cloud computing et avec lui, le risque que les documents ne soient plus sous contrôle des archives, qu’aucune copie de sauvegarde n’existe ou que la réversibilité s’avère difficile, voire impossible.
Une troisième stratégie est la stratégie dite de migration. C’est de loin la plus répandue. Elle consiste à convertir les fichiers conservés au fur et à mesure que les formats deviennent obsolètes. Le logiciel de conversion utilisé doit pouvoir signaler tout document ayant été touché dans son intégrité lors de la conversion. Idéalement, le risque de perte lié à la conversion étant connu, on cherchera à conserver les fichiers originels qui, tant que cela restera techniquement possible, seront utilisés à chaque fois qu’une conversion s’avèrera nécessaire, évitant ainsi la succession de conversions pour un même fichier. Sur la base de cette stratégie, plusieurs services d’archives conservent 3 jeux d’un même document : le fichier originel (qui sera réutilisé à chaque nouveau besoin de conversion ou en cas d’erreur lors de la conversion), le fichier de préservation (le fichier converti dans le format pérenne du moment non communicable) et le fichier de communication (le fichier converti dans le format pérenne dédié à la consultation). Les fichiers versés aux archives ne devront ni être chiffrés (signature électronique comprise), ni protégés par un mot de passe, ni infectés.
Une quatrième stratégie est la stratégie dite d’émulation. Ce qui signifie que l’environnement informatique originel, le matériel et le logiciel est imité par des logiciels spéciaux pour relire le fichier originel. Cette stratégie nécessite donc des informaticiens spécialisés et les spécifications adéquates. Si les informaticiens défendent l’émulation, ce n’est pas le cas des archivistes. Car pour l’archiviste l’essence du document doit être plus importante que le document lui-même. La stratégie d’émulation sera à envisager lorsque la migration par conversion ne permet pas de conserver les fonctions importantes contenues dans les documents électroniques.
La stratégie de conservation en forme analogique et hybride :
Dans les années 90 l’habitude était d’imprimer le document numérique pour n’en conserver que la copie papier. Cette solution fut très vite abandonnée avec la montée de la complexité des documents (e-mail, page Web, base de données, etc.). La tendance s’est aujourd’hui inversée pour la numérisation du papier avec pour objectif de créer ainsi un système numérique unifié, homogène et partagé. Pour les pays dont la loi accompagne cette méthode, le papier pourra être ensuite éliminé. Le cadre législatif peut également stipuler quels documents doivent impérativement être conservés au format papier.
Cependant, pour la plupart d’entre nous (même si là encore la tendance semble s’inverser) le papier reste toujours un support d’affichage bien plus naturel que l’écran. Ce qui fait que les producteurs n’éprouvent pas forcément le besoin d’utiliser un système cher et compliqué. Dans ce cadre, les microfilms peuvent jouer un rôle important. Ils ont l’avantage de condenser l’information, d’être très stables, de durer plusieurs centaines d’années et d’être relativement indépendants de la technologie. Microfilms ou copies numériques pourront être choisis également comme format de communication afin de protéger les originaux papiers fragiles des manipulations.
Une autre utilisation du microfilm est la technologie Computer Output Microfilm (COM). Il s’agit là de photographier les codes numériques des documents sur microfilm. Si nécessaire, le code pourra être numérisé pour être réutilisé sous forme informatique(2).
Le cas des documents spéciaux
Il existe des documents n’ayant pas leur pendant dans le monde analogique et dont l’importance est proéminente dans notre quotidien. Ces documents ne doivent pas être négligés dans l’élaboration d’une stratégie. Balayons les 3 plus populaires…
L’e-mail : c’est la masse la plus volumineuse de documents électroniques produits dans le monde. Ce mode de communication a pris la place des lettres traditionnelles, des notes administratives. Il est présent à tous les niveaux de décision, dans toutes les procédures administratives. Et pourtant son importance est négligée, comme nous le prouvent les scandales qui parfois alimentent la presse. On oublie trop facilement que l’e-mail est un document officiel et qu’il devrait avoir le même statut que les autres documents. Malheureusement, la pratique montre bien autre chose. Ainsi, il n’est pas rare que le compte professionnel soit utilisé à titre privé ce qui pose bien évidemment des problèmes pour faire la part entre données personnelles et données professionnelles utilisables par l’entreprise. De plus, les adresses portant les noms des employés plutôt que leurs fonctions, la continuité de service dans le temps est quasi impossible. Enfin, comme ils sont souvent gérés dans un système séparé du reste des documents, avec le temps, reconstruire les dossiers le devient aussi.
Les bases de données : c’est l’objet le plus difficile à archiver et ce pour plusieurs raisons. Leur structure est compliquée, elles peuvent contenir des données filtrées créant des enregistrements temporaires, elles sont naturellement dynamiques et pour celles qui durent dans le temps, la structure peut changer, des fonctions apparaître ou disparaître. Trouver un format d’archivage qui accepte le contenu et la structure de la base de données est un défi. Un défi incontournable car les archives ne peuvent pas conserver à la fois les bases de données originelles, leurs métadonnées et tous les logiciels sources qui les hébergent. Rares sont les projets qui proposent une solution universelle d’archivage. Le SIARD(1) (Software Independent Archiving of Relational Databases) est un logiciel de préservation pour l’archivage des contenus de bases de données relationnelles élaboré par les Archives fédérales de Suisse. (Le SIARD est accessible sur http://www.bar.admin.ch/dienstleistungen/00823/00825/index.html?lang=fr)
Les pages Web : des contenus dynamiques, des liens hypertextes, des objets divers, tout est fait pour rendre leur archivage très difficile. Deux solutions existent : la collecte côté client qui revient à aspirer ce qui peut l’être ou la collecte côté serveur qui permet, elle, de tout récupérer mais qui nécessite la coopération du producteur. Les archives de pages Web sont souvent confrontées aux problèmes de droits d’auteur. En général, les grandes organisations ont adopté le principe de tout archiver et de ne supprimer l’archive, le cas échéant, que si le possesseur du droit en fait la demande auprès de l’organisation. Dans le cas des pages Web, la forme prend toute son importance, et sera archivée. Les formats d’archivage utilisés sont le HTML et XML.
Dans le même esprit, je vous invite à découvrir la démarche de l’artiste David Guez qui a notamment eu l’idée de conserver un film dans un livre (http://www.guez.org/disque-dur-papier/)
La préservation des supports physiques
Pour bien choisir son support de stockage, quelques notions sont à connaître.
En effet, si les supports optiques sont plus stables et leur durée de vie plus longue, leur capacité, elle, est relativement petite. Or, quel que soit le support choisi, l’évolution technologique le rendra vite obsolète. De plus, il devra être testé de temps en temps. Et il est plus facile de tester et de migrer, pour un même volume d’informations archivées, 140 bandes que 16 000 CDs !
Les bandes devront être rembobinées tous les ans ou tous les deux ans, les appareils de lecture entretenus et nettoyés. Elles devront être tenues éloignées des autres champs magnétiques, conservées à 18° (± 1°C) avec une humidité relative de 45 % (± 5 %) et protégées de la lumière et de l’air pollué.
Les supports optiques quant à eux craignent la flexion et la rayure. Ils devront être manipulés avec des gants, nettoyés au pinceau ou avec un textile, retirer des lecteurs après utilisation, et conservés avec les mêmes exigences climatiques que les bandes.
Quel que soit le support de stockage envisagé, il est recommandé de garder plusieurs exemplaires de l’archive. La solution idéale retenue par les archivistes étant l’original conservé dans des conditions optimales, une copie de sécurité dans un lieu éloigné, une copie d’utilisation. Les trois exemplaires seront stockés sur des supports différents (par exemple : l’original sur DVD, La copie sur bande et la copie d’utilisation sur disque dur) et dans au moins deux lieux différents.
La transformation de l’archivistique à l’air des documents électroniques
Ces dernières décennies l’archivistique s’est transformée tout simplement parce que les documents eux-mêmes se sont transformés. Leur structure s’est compliquée et la normalisation est devenue une exigence fondamentale.
Avec l’avènement du monde du numérique, les volumes de documents ont explosé et l’archiviste a perdu la troisième dimension inhérente au monde de l’analogique qui lui permettait un repérage facile. Avec le numérique, l’affichage des documents se fait en deux dimensions. De ce fait, s’orienter dans une collection de milliers de fichiers est très difficile et des fichiers mal classés ou mal décrits sur un ordinateur deviennent naturellement introuvables et peuvent donc être considérés comme perdus. Le même volume de documents au format papier pourra certainement, quand à lui, avec un peu d’effort, être trié et reclassé dans les bons cartons. Pour pouvoir s’orienter dans le monde numérique au milieu de milliers de fichiers, il est nécessaire d’utiliser un outil, le moteur de recherche. Mais pour que cet outil remplisse sa fonction, à savoir chercher pour nous suivant des critères que nous lui fournissons, il est primordiale que chaque document soit décrit par des métadonnées appropriées.
Pendant des siècles l’archiviste a décrit les documents pièce par pièce, les volumes produits étant humainement abordables. Puis la progression de l’usage de l’écriture et l’apparition de l’imprimerie amenèrent une première et une deuxième croissance rapide de la quantité de documents à conserver. Il fallut donc s’organiser en créant la notion de séries qui allaient regrouper les documents d’après leurs sujets où des critères formels. La plupart des pays adoptèrent cette méthode visant à constituer des dossiers contenant l’ensemble des pièces créées et reçues pour une même transaction. Le travail de l’archiviste se détacha peu à peu de l’analyse de la structure interne pour se concentrer sur la structure externe afin de trouver, pour le nouveau fonds versé, sa place dans la macro structure de tous les fonds. Il fait là un travail de synthèse qui fournira aux chercheurs futurs des informations importantes.
Avec les documents électroniques, la situation a changé. Modification de la structure des documents, séparation du contenu, de la forme et du support, apparition de spécifications techniques, vulnérabilité de tous les éléments du document, erreurs cachées ont inversé la tendance en recentrant l’archiviste sur la structure interne du document. Les volumes (troisième « explosion documentaire ») à traiter ne permettant plus les manipulations manuelles, les archivistes ont du se doter de méthodes (les normes) et d’outils (les logiciels) pour rendre possible l’automatisation des traitements : affectation de métadonnées, contrôle de l’intégrité au versement et à la conversion, détection des erreurs cachées. La tâche de synthèse de l’archiviste, cette tâche de liaison des fonds et sous-fonds entre eux par la connaissance de l’organisation, ne peut pas être jouée par un ordinateur. Elle demeure l’apanage de l’homme créatif et par la même sa vrai valeur ajoutée.
L’enjeu de la conservation pérenne
Après la conquête de l’Angleterre, Guillaume le conquérant ordonna d’évaluer et de recenser les biens de son nouveau royaume. C’est ainsi que naquit le Domesday Book en 1086. 900 ans plus tard, en 1986, la BBC s’est fixé comme objectif de faire la même chose. Toutes les informations recueillies, 150.000 pages de textes et 23.000 photos d’amateurs furent stockées sur une technologie très moderne à l’époque, des disques optiques de 12 pouces. L’objectif de la BBC ne s’arrêtait pas là puisque l’ambition était de recommencer l’opération tous les 25 ans. A peine 13 ans plus tard, en 1999, l’environnement informatique de 1986 (matériel comme logiciel) n’existait plus et pratiquement toute la documentation était devenue inaccessible(1). Le Domesday Book de Guillaume le conquérant ? Après plus de 913 ans reste, lui, bien visible et n’a pas une ride !
Autre anecdote. Entre 2002 et 2003, les informaticiens de l’Office exécutif du président des États-Unis ont décidé de changer tout le matériel et logiciel du bureau. Le résultat de cette opération ? 22 millions d’e-mails perdus !
Ces deux exemples illustrent comment peuvent être détruits massivement des pans entiers d’histoire dans le monde du numérique. Et ce bien plus facilement, plus insidieusement et plus sûrement qu’un incendie criminel dans des salles d’archives.
Si l’on perd notre mémoire, si les documents d’archives importants disparaissent, c’est la garantie des droits des citoyens qui décline car la possibilité de connaître le passé diminue. Quelles en sont les conséquences ?
- Le contrôle des pouvoirs publics s’affaiblit. Ce qui facilite les abus en tout genre ;
- Le champ de recherche historique se rétrécit affectant la conscience politique et la psychologie collective des générations à venir. Ainsi lorsqu’un pouvoir essaie d’empêcher les citoyens par des textes législatifs ou réglementaires d’avoir accès aux documents, c’est la démocratie qui est en danger.
Pour que la civilisation humaine persiste et progresse, le savoir acquis doit se conserver et se propager aussi largement que possible. En sorte que les générations successives puissent accumuler des connaissances nouvelles. Dans l’histoire de la civilisation, trois impulsions de vigueur exceptionnelle ont fait avancer à pas de géant la sauvegarde et la diffusion du savoir : l’écriture, l’imprimerie et l’informatique. L’écriture permit d’enregistrer le savoir. L’imprimerie eu un double rôle, conserver et en même temps diffuser le savoir. L’informatique, elle, démultiplie notre capacité d’enregistrement et de diffusion du savoir. Mais elle possède un point faible de taille : la conservation. Et plus grande est la quantité d’informations, plus grande peut être la perte ! Si le savoir accumulé venait à disparaître, les nouvelles générations perdraient les fondations sur lesquelles elles devaient bâtir. Et la perte du savoir de leurs prédécesseurs, cet appauvrissement, les conduirait inévitablement au déclin. Oh ! Ceci n’arrivera pas du jour au lendemain. Plutôt tout doucement. Base de données par base de données. Image par image. Heureusement pour notre civilisation, le danger est désormais reconnu et le monde s’est mobilisé à travers divers projets tels que l’OAIS, le Dublin Core, le PREMIS ou encore le MOREQ. Nous sommes devenus les témoins d’une coopération sans précédent dans l’histoire des archives. Et même si nous ne sommes pas encore au bout, cette prise de conscience nous permet d’être beaucoup plus optimistes que par le passé. Il ne reste plus qu’une chose à faire : continuer !
(1) : en 1999, le projet CAMiLEON (http://www.ariadne.ac.uk/issue29/camileon), permit après plusieurs années de travail de spécialistes de ranimer par émulation la documentation du Domesday Book de la BBC devenant alors le symbole de l’obsolescence numérique.
Source de l’article: Charles KECSKEMÉTI et Lajos KÖRMENDY, Les écrits s’envolent: la problématique de la conservation des archives papier et numériques, Favre, 2014
[/protected]