Présentation : iPRES est la conférence internationale annuelle sur la préservation digitale. Chaque année, pour 4 journées consécutives, l’iPRES change de continent. En septembre dernier, elle s’est installée à Gand en Belgique. L’occasion pour INFOTEL (éditeur d’ARCSYS) de proposer pour la 1ere fois, une journée spéciale francophones en amont de la conférence officielle.
Les intervenants :
MINISTERE DE L’EUROPE ET DES AFFAIRES ETRANGERES – Marion VILLE
SMALS – Arnaud HULSTAERTS
UNIVERSITE DE GENEVE – Hugues CAZEAUX
INFOTEL – Mickaël MECHOULAM
Les interventions :
- MINISTERE DE L’EUROPE ET DES AFFAIRES ETRANGERES – Marion VILLE
Les outils d’aide à la collecte d’archives publiques en France.
Le contexte : le SIAF collecte les données de 800 organismes d’état ou territoriaux.
La problématique : la collecte des archives bureautiques avec 2 questions principales :
- Qu’est-ce qu’on fait avec l’arborescence qu’on reçoit sachant que le format n’offre pas beaucoup de repères visuels ? (RETEX : manuellement une stagiaire s a mis 2 mois pour 6 Go dont seulement 6% bien traités).
- Comment construire facilement le fichier sip.xml sur en respectant le modèle de données SEDA 2.3 ?
La réponse : 3 outils, Archifiltre, ResIP et Octave.
ARCHIFILTRE (logiciel libre) : permet de visualiser l’arborescence sous plusieurs facettes différentes, d’identifier des cas spécifiques et ainsi de prendre des décisions.
Les principales fonctionnalités :
ü Importer une arborescence ;
ü Visualiser l’arborescence par coloration en choisissant ses critères (dates, volumes, etc.) ;
ü Exporter des rapports pour identifier des dates et des volumes extrêmes, des doublons, etc.
ü Exporter le traitement de l’arborescence pour un import dans ReSIP.
RESIP (logiciel libre) : développé par le programme VITAM, permet de manipuler des arborescences, d’enrichir des métadonnées et de produire le fichier sip.xml.
Les principales fonctionnalités :
ü Importer une arborescence ou une messagerie. ;
ü Manipuler l’arborescence (déplacements, suppressions, etc.) ;
ü Enrichir les métadonnées via une fenêtre dédié de l’IHM ;
ü Générer un fichier sip.xml suivant un modèle importé.
OCTAVE : développé par le SIAF pour le SIAAF, permet d’importer une arborescence, de renommer les fichiers suivant une nomenclature et d’enrichir les métadonnées via un fichier csv.
Les principales fonctionnalités :
ü Importer une arborescence ;
ü Formater les noms de fichiers ;
ü Enrichir les métadonnées par csv ;
ü Générer le fichier sip.xml.
La démo ARCHIFLTRE + ReSIP :
Dans ARFILTRE :
A1. Import de l’arborescence.
A2. Visualisation : par taille ou nombre de fichiers, par date ou par type de fichiers.
A3. Production des rapports d’audit (chiffres clés, dates extrêmes, doublons, tailles des chemins et noms de fichiers, répartition par types d’extension, etc.).
A4. Application des filtres : permet de tagger ce qu’on ne veut pas rapidement (types de fichiers, doublons, etc.).
A5. Renommage des éléments manuellement.
A6. Génération de l’export ReSIP.
Dans ReSIP :
R1. Import de l’export Archifiltre.
R2. A gauche visualisation et manipulation de l’arborescence.
R3. A droite enrichissement des métadonnées.
R5. Traitement des doublons.
R6. Nettoyage des inutiles (0 ko, dossiers vides).
R7. Edition de statistique sur les formats, les formats conteneurs, etc pour agir sur ces éléments.
R8. Renseignement de l’en-tête et production du fichier sip.xml.
Pour aller plus loin : Trois outils contribuant à l’archivage numérique | Modernisation et archives (hypotheses.org)
- SMALS – Arnaud HULSTAERT
Archiver et servir
Le contexte : SMALS est un partenaire du gouvernement Belge notamment sur la santé.
Le service, à l’origine, a été mis en place pour l’ONSS (Office National de Sécurité sociale). Afin de recevoir et de distribuer des données de sécurité sociale. C’est 100 millions d’échanges par an. Ces échanges doivent être conservés avec une vocation probatoire (copies numériques d’originaux papier comprises).
La problématique : comment ne garder que l’essentiel ? Car déjà en 2015, il n’était même plus possible de faire les sauvegardes.
La réponse : une plateforme en surcouche du SAE (piloté par la solution ARCSYS). Le SAE devient donc complètement transparent pour l’utilisateur final. Un seul exemplaire du document existe qui sert à tous. En pratique le cycle de vie du document est le suivant :
- le document en construction est dans l’outil métier ;
- le document finalisé est archivé dans le SAE via la plateforme ;
- L’utilisateur récupère un lien dans son outil métier ;
- S’il fait l’objet d’un archivage patrimonial à la fin de sa durée de conservation il est transféré aux archives patrimoniales.
En 2022, la plateforme de SMALS est reconnue comme solution pour réduire les coûts de stockage.
Retours d’expérience :
- Archives vivantes et consultation online :
- Archiver pour sécuriser mais permettre la consultation par les métiers et les citoyens ;
- Un SLA élevé (99% en ≤ 2s.) ;
- Une économie puisqu’un seul exemplaire est conservé (fin de la pratique j’archive pour le légal/réglementaire et je garde un exemplaire pour travaille).
- Réalité vs théorie :
SMALS conseille les nouvelles organisations versantes notamment sur la production des métadonnées. Mais l’organisation reste libre de ses choix. Deux cas extrêmes :
- Une organisation voulant faire trop bien (30 métadonnées) a vu ses coûts IT de réalisation exploser (comme les documents, les métadonnées utilisent de l’espace de stockage. Elles sont donc un impact sur le coût du stockage).
- Une autre a choisi de stocker aucune métadonnée chez SMALS gardant la base chez elle. En cas de perte de cette base, elle serait dans l’incapacité d’exploiter ses archives sécurisées pourtant chez SMALS.
- Les volumes :
Des temps de migration de plus en plus long : SMALS stocke près d’un milliard de documents sur son site principal et son site de réplication. La dernière migration a duré 18 mois !
Contrôler les formats c’est bien mais cela prend du temps : DROID/Pronom sont intégrés pour identifier les formats au versement. A la mise en place de ces contrôles, l’archivage a été bloqué. Les contrôles prévus étant trop nombreux, ils utilisaient toutes les ressources du SAE.
Négliger les tests peut coûter cher : la recommandation est de tester sur un testbed en prenant en compte les mêmes volumes que la PROD. Car si un incident se produisait en PROD par omission de tests sur des volumes réalistes, l’interruption et le rétablissement du service coûterait beaucoup plus cher que les tests appliqués à des volumes réalistes.
- UNIVERSITE DE GENEVE – Hugues CAZEAUX
Archivage des données de recherche
Le contexte : A l’origine, le projet DLCM vise à construire une stratégie pour que le chercheur gère lui-même ses métadonnées pour que les données de recherche puissent être archivées. Ce projet a ensuite fait l’objet d’un projet de loi genevois afin d’obtenir un financement pour son développement.
Le résultat : le service YARETA pour répondre à l’obligation d’archiver en s’appuyant sur un DMP/PGD (Plan de Gestion des Données).
YARETA a été mis en service en 2019 pour les chercheurs de Genève. Il compte aujourd’hui environ 1000 archives pour plus de 15 To dont plus de 93% sont en libre accès.
YARETA est certifié CTS (Core Trust Seal).
Le chercheur dispose d’un portail pour déposer ses informations. Il définit ses niveaux d’accès, son niveau de sensibilité et ses métadonnées.
Quelques applications métier :
- Archivage des dossiers étudiants (avec numérisation) du rectorat.
- Le projet HEDERA pour l’hébergement de projets clos. Objectif : permettre l’accès dans le futur.
- Le projet DNAMIC : la préservation sous ADN.
- INFOTEL – Mickaël MECHOULAM
Arcsys : 20 de préservation et d’innovation
Le contexte : Aux origines, fin 90’s, ARCSYS est développé pour répondre aux contrôles fiscaux des comptabilités informatisées.
En 2004, la société a envie d’aller plus loin avec l’archivage réglementaire et patrimonial. C’est la naissance de modules autour d’un core et une installation chez le client et l’adoption de thèmes de prédilection que sont préservation, interopérabilité, performance et volumétrie, sécurité et traçabilité, pérennité et gestion du changement et bien sûr conformité légale.
- Interopérabilité : celle des données mais aussi celles des bases de données, de l’authentification des utilisateurs, des médias de stockage, des interfaces Web, des API et applicatifs, des OS.
- Volumétrie et performance : pour l’archivage mais aussi pour les communications. Il faut trouver le bon équilibre du nombre de documents par lot :
⇒ des gros lots permettent d’optimiser les coûts (sur l’horodatage par exemple et le stockage en plaçant la métadonnée sur le lot et plutôt que sur chaque document) ;
⇒ des petits lots permettent une communication plus performante.
- Sécurité : avec la signature électronique contrôlé et la gestion rapide des failles de sécurité.
- Pérennité et gestion du changement :
SUIVRE LES EVOLUTIONS DE L’EXTERNE
- Les outils externes évoluent (ex. : en 20 ans, on est passé de JAVA 1.4 à 17) ;
- Les dépendances (ex. : les librairies) évoluent ;
- Les normes évoluent.
S’AVOIR ADAPTER L’EDITEUR
- De 3 personnes en 2004 à plusieurs dizaines en 2024-avec des profils diversifiés ;
- L’usine logicielle : évolution des processus, des outils de gestion de tickets.
FAIRE EVOLUER LE LOGICIEL
- Evoluer avec le client ;
- Evoluer avec les technologies tierces.
AVEC POUR OBJECTIF de garantir la survie en cas de défaillance de l’éditeur.