La National Archives and Records Administration (NARA – les archives nationales étasuniennes) a publié en octobre dernier un « white paper » intitulé : « Cognitive Technologies : Records Management Implications for Internet of Things, Robotic Process Automation, Machine Learning, and Artificial Intelligence”. (« Technologies cognitives : incidences sur le Records management de l’Internet des objets, de l’automatisation robotisée des processus, du machine learning et de l’intelligence artificielle. »)
Le document est intéressant car il est synthétique, écrit de façon très claire, et rejoint le thème « AI/IA » auquel le CR2PA a commencé à s’intéresser depuis 2 ans.
La première moitié du document est consacrée à une présentation très didactique, genre « pour les nuls », des 4 technologies examinées (en précisant bien – car je sais que certains en feront la remarque – que le Machine Learning est une branche de l’Intelligence Artificielle).
Un chapitre est consacré aux considérations culturelles et sociétales, et notamment aux problématiques de biais et de règles éthiques liées à l’intelligence artificielle.
En ce qui concerne la question « qu’est-ce que ces technologies peuvent apporter à l’archivage ? », sont évoquées :
- L’utilisation des outils de RPA pour la numérisation des archives, avec l’automatisation de tâches répétitives, ou du contrôle de qualité des résultats produits ;
- Pour le Machine Learning, les expériences d’aide à la sélection et à la classification de gros volumes d’archives de messagerie versés aux archives publiques, la démonstration de la capacité à classifier des bibliothèques d’images selon des catégories prédéfinies, et à terme la possibilité pour l’intelligence artificielle d’identifier de façon autonome des catégories de classification pertinentes.
Dans le sens inverse, sur la question « en quoi l’AI a-t-elle besoin du Records Management ? », le rapport met en lumière le fait que la qualité des résultats des algorithmes dépend au premier chef de celle des jeux de données utilisés pour leur phase d’apprentissage, aspect trop souvent sous-estimé par les développeurs. Il rappelle aussi qu’une part importante des données traitées sont des données à caractère personnel.
Il appelle donc à rapprocher Data Scientists et Records Managers, et à développer une gouvernance des données selon les principes du records management : traçabilité des origines des données, durées de conservation, gestion du sort final, préservation de l’authenticité et de l’intégrité. Ceci doit s’appliquer aux différentes catégories de données, que ce soit celles utilisées pour entraîner les algorithmes, les données d’entrée des traitements, ou celles produites par les algorithmes.
Ce rapport met à juste titre le projecteur sur la maîtrise de la qualité et la traçabilité des données utilisées dans les traitements automatisés. Il reste un aspect qui n’est pas ou peu évoqué et qui mériterait à mon sens d’être travaillé : celui de la traçabilité de l’autre composante des traitements que sont les algorithmes eux-mêmes.
Lien vers le White Paper de NARA : https://www.archives.gov/files/records-mgmt/policy/nara-cognitive-technologies-whitepaper.pdf
Bruno Lalande, président du CR2PA