Le 18 mars 2019, le programme VITAM a fait le point sur la nouvelle version de son logiciel.
Vous trouverez les supports sur leur site.
Le programme Vitam : c’est quoi ?
Le programme a démarré en 2011 sous l’impulsion de 3 ministères (culture, défense, affaires étrangères). Le principe est de fournir une solution logicielle unique mais instanciable (plateformes différentes) d’archivage électronique pour chacun des 3 ministères (projets respectifs ADAMANT pour les Archives nationales, ARCHIPEL et SAPHIR), tout en étant susceptible d’être réutilisable par d’autres institutions.
Pour cela, des conventions de partenariat ont été mises en place (CINES, CEA, Assurance Maladie…)
Le planning du projet :
- 2016 : Beta
- Mars 2018 : V1
- Fin 2018 : V2 (publié en janvier 2019)
- Fin 2019 : V3
La plateforme VITAM
Quelques caractéristiques :
- Les composants reposent sur un développement en licence libre
- La solution est évolutive (protocole de stockage, BD…)
- La solution est interfaçable : ce qui découle de la fonction première du produit qui est d’être un back-office.
- Le produit est en capacité de gérer des milliards d’objets. Il repose sur une infrastructure capable de s’adapter à une montée en charge conséquente. Pour cela, l’installation, la reconfiguration du système doivent être simple à administrer.
- Les 2 fonctions principales sont :
- le dépôt de SIP (Submission Information Package), représente, dans la norme OAIS, l’archive (document et métadonnées) déposée en entrée du système
- l’accès aux archives au travers d’un moteur de recherche)
- La cible du programme est aussi bien l’archivage « intermédiaire » que le « définitif » (la différence ne se fait pas sur les fonctionnalités mais sur les temps d’accès lors de la récupération de document). Le système doit donc proposer un accès rapide.
Travaux 2018 (V2)
- Entrées : conformité des « paquets » SIP en entrée, échéance
- Travail sur le fonctionnement interne :
- Gestion des archives existantes
- Pérennisation : intégrité, validation et conversion de format
Travaux 2019 (V3)
- Finaliser la brique préservation (audit format, ré-identification des formats, extraction des métadonnées)
- Stockage sur bandes (envisagées pour les besoins d’accès qui ne sont pas immédiats)
- Transfert des archives entre plateformes pour assurer la réversibilité et des sorties en masse
- L’infrastructure actuelle se situe sur un seul site, un 2ème site est en construction
Ad Vitam aeternam ?
- Après 2019 = passage du mode Projet au mode Produit. Pour cela la maintenance et l’amélioration continue seront supportées par une équipe de 12 ETP. Cela inclura la mise en place d’un club utilisateur (afin de participer à la gouvernance).
Informations techniques
- Principes : produit qui expose des API (interface de programmation) pour des applications tierces via les protocoles REST ou SEDA, (Standard d’Echange de Données pour l’Archivage)
- Ces API sont structurées en micro-services, indépendants, multi-instanciables. Cela permet d’avoir une architecture « facilement » évolutive au niveau fonctionnel (remplacer un service par un autre) ou technique (« scalable »).
- Différentes librairies techniques ont été intégrées pour la gestion des formats de fichiers afin de les identifier, de les convertir ou de les transformer. On peut citer : VeraPDF, Tika, JHOVE, ExifTool, DROID, ImageMagik, Siegfried, libreOffice. L’identification précise d’un format repose sur la base PRONOM. Un mécanisme (appelé Griffon) permet de mettre un document à disposition d’un outil externe qui va le traiter et produire un résultat qui sera intégré dans la plateforme
- Le moteur de métadonnées repose sur le moteur de recherche ElasticSearch et la base de données MongoDB
- Moteur de stockage : doit être agnostique pour gérer différents supports comme la bande, le système de fichiers ou S3 (dernier protocole mise en place, développé par le CEA pour gérer un support en mode Cloud)
Aspects performance
- Tests de performances : 100000 dépôts par heure en V1 / 450000 en V2 (230000 si la base contient déjà 170M de documents)
- Tests de charge : 40 dépôts en parallèle de 10000 archives. Les tests montrent que la plateforme supporte cette charge.
Informations hors programme
VITAM n’est pas un logiciel prêt à l’emploi, il est nécessaire de prévoir l’interface graphique permettant de faire appel aux fonctions de VITAM.
Les déploiements
- Ministère de la Culture – Projet ADAMANT
Sur 2018 : construction d’une plateforme numérique basée sur le socle VITAM, une Infrastructure spécifique (sept 2018) et des développements spécifiques (modules applicatifs complétant le SIA et interface graphique pour la gestion des archives). L’objectif est d’avoir un seul système pour gérer les archives papier et les archives numériques.
Pour 2019-2020 : nouveaux développements pour étendre l’infrastructure, exporter/diffuser des archives (sites internet), réaliser des versements automatiques depuis des applications.
- Ministère des armées – Projet ARCHIPEL
La configuration est différente avec la mise en place du produit Everteam en tant que système « frontal »de VITAM (utilisation de l’interface graphique d’Everteam pour dialoguer avec les services de VITAM). Il y aura plusieurs plateformes distinctes pour respecter la sensibilité des données.
Calendrier : 2020 (flux de sortie Internet, fonction pour archives classifiées), 2021 (flux inter-SI, déploiement sur instance Confidentiel Défense)
- Ministère de l’Europe et des Affaires étrangères – Projet SAPHIR
L’ouverture du service est prévue pour la fin de l’année 2019.
Il s’agit de développer une interface graphique au-dessus de VITAM.
- Ministère de la Transition Ecologique et Solidaire – Projet SIAMAE
Projet identique avec une volonté d’aller vers un mode « VaaS » : Vitam As a Service = front Office générique reposant sur une infrastructure interministérielle mutualisée.
- CEA
Suite à un cadrage en 2018, le lancement du projet s’est fait en janvier 2019.
Les étapes suivantes sont prévues : déploiement de l’infrastructure (2019), front Office (2020), ouverture du service (2021), archivage mixte (2022).
Le CEA fait face à une volumétrie d’archivage très importante : on parle de pétaoctet à horizon 2025.
Développements d’outils
En marge de la plateforme VITAM, des outils ont été développés :
- OCTAVE : prend en en entrée une arborescence de documents et les analyse pour les mettre au format accepté par VITAM
- ARCHIFILTRE : outil pour auditer de manière graphique des arborescences importantes (plusieurs centaines de Go)
- SEDATOOLS : Outils permettant de manipuler des paquets SEDA avec notamment Mailextract pour transformer un email d’une boite aux lettres au format EML
Conclusion de la journée
A propos du programme VITAM : un effort important a été fait pour mener à bien le projet et sortir cette version. L’équipe projet a bien insisté sur le positionnement de la plateforme qui nécessite un travail d’intégration.
Il est rappelé qu’un déploiement s’inscrit dans une démarche projet.
Ce projet très ambitieux nécessite un accompagnement pour l’organisme qui souhaite le mettre en place sur son périmètre : accompagnement fonctionnel pour le cadrage, accompagnement technique pour la définition de l’infrastructure et l’intégration des applications versantes.
Le mot du CR2PA
La journée a été principalement consacrée à la présentation de l’outil VITAM et les retours d’expérience de son implémentation.
Le CR2PA rappelle qu’il est important que la mise en place d’une solution technique d’archivage électronique s’accompagne d’une réflexion sur la gouvernance de l’information et la politique d’archivage. Ces projets d’archivage doivent s’inscrire dans une démarche d’archivage managérial encadrée et suivi au plus haut niveau de l’organisme.
Ainsi, ces projets doivent s’accompagner des éléments suivants :
- une analyse sur le périmètre documentaire et les besoins métiers relatifs à la gestion et la conservation du capital documentaire de l’organisme,
- une concertation pluridisciplinaire impliquant les décideurs, les producteurs d’informations, les professionnels de la gestion de l’information, les informaticiens, et autres profils (DPO, juristes, spécialistes qualité) etc.
- une réflexion sur la transformation numérique des processus d’activité (pour ne pas calquer ce qui existe dans le monde papier mais bénéficier pleinement des possibilités d’automatisation et de gestion en masse liées au développement de nouvelles technologies)