Déchiffrer des documents d’archives manuscrits à l’aide de l’intelligence artificielle
- UdeMNouvelles
Le 8 novembre 2023
- Martin LaSalle
Jean-Olivier Dicaire-Leduc a déchiffré des centaines de pages de documents – certains datant de plus de 350 ans – grâce à un logiciel d’intelligence artificielle de reconnaissance d’écriture.
Combien d’hommes issus des Premières Nations étaient aptes à combattre lors du tour de l’Amérique du Nord de John Ferdinand Dalziel Smith, en 1784?
Quelle était l’étendue de la concession territoriale, dans les environs de Sillery, accordée en 1642 par les Augustines de l’Hôtel-Dieu de Québec aux Autochtones de Tadoussac?
Quel sort réservait un jugement du Conseil souverain, rendu en 1667 à Trois-Rivières, aux personnes reconnues coupables de commerce illicite d’alcool?
Ce sont quelques-unes des questions auxquelles on trouve des réponses dans les documents historiques de la collection Louis-François-Georges-Baby, conservée à la Division des archives et de la gestion de l’information (DAGI) de l’Université de Montréal. C’est cette collection que nous fait redécouvrir Jean-Olivier Dicaire-Leduc, qui a récemment terminé un stage à la DAGI.
Celui qui est sur le point de finir sa maîtrise au Département d’histoire de l’UdeM a scruté une partie de la collection Baby – soit la «série N» – composée d’une variété de documents manuscrits relatifs à des affaires touchant les Autochtones pour en déchiffrer l’écriture souvent illisible.
L’intelligence artificielle pour déchiffrer le passé
Dirigé dans son stage par l'archiviste Éléonore Aubut-Robitaille de la DAGI et dans ses études de maîtrise par le professeur d’histoire Mathieu Arsenault, Jean-Olivier Dicaire-Leduc a également bénéficié du soutien de l’équipe du projet Donner le goût de l’archive à l’ère numérique, dirigé par la professeure Dominique Deslandres. Il a utilisé un logiciel libre conçu par une équipe de l'Université d'Innsbruck et nommé Transkribus.
«Une fois le document d’archives numérisé en haute résolution et téléversé dans Transkribus, le logiciel crée des modèles linguistiques à l’aide d’algorithmes d’apprentissage qui, en balayant les écritures, repèrent les mots et les tournures de phrases récurrents et parviennent à en déchiffrer le contenu», explique-t-il.
Dans le cas de la série N de la collection Baby, le décodage était plus complexe, car les documents provenaient de différentes périodes, avaient été rédigés par différents auteurs et traitaient de nombreux sujets.
«Cette série inclut, entre autres, des jugements de cour, des contrats de concessions territoriales, des observations démographiques et des bons de marchandises. Les transcriptions automatiques effectuées par Transkribus comportent certaines erreurs, que j’ai corrigées afin de faciliter la lecture et le balisage», indique Jean-Olivier Dicaire-Leduc.
Redonner accès à l’histoire
Dans son stage qui constituait aussi un projet pilote pour la DAGI, l’étudiant de maîtrise poursuivait trois desseins.
Le premier consistait à améliorer l’accès au contenu des documents grâce à la transcription aux fins d’indexation dans les instruments de recherche archivistiques, en particulier le catalogue Web (AtoM) des archives de l’UdeM.
Ce stage s’inscrivait aussi dans le projet Donner le goût de l’archive à l’ère numérique qui vise la production et le partage de données historiques et archéologiques sur les peuples de Montréal au 17e siècle.
«Enfin, je souhaitais analyser le contenu des documents pour effectuer une révision critique des descriptions archivistiques réalisées lors du premier traitement de la collection Baby, il y a 70 ans, ajoute Jean-Olivier Dicaire-Leduc. L’idée n’est pas d’éliminer les termes qui peuvent avoir mal vieilli, mais de les contextualiser.»
Ce stage lui aura surtout permis de «contribuer à faciliter l’accès à une partie de l’histoire de la Nouvelle-France et, possiblement, à la création d’instruments de recherche et d’outils de diffusion des archives accessibles à tous», conclut-il.
Qui était Louis-François Georges Baby?
Né en 1832 et avocat de formation, Louis-François Georges Baby a été successivement maire de Joliette, député fédéral de la circonscription du même nom à compter de 1872, puis ministre du Revenu intérieur sous John A. Macdonald, de 1878 à 1880. Il démissionne pour être nommé juge à la Cour supérieure du Québec et, l’année suivante, il est promu juge à la Cour d’appel, où il siégera jusqu’à sa retraite, en 1896.
Louis-François Georges Baby a passé une grande partie de sa vie adulte à collectionner des documents et objets anciens. Il a amassé environ 20 000 documents d'archives dont la production s'étale sur trois siècles (1601-1905) et constitué une bibliothèque de 3400 livres rares et anciens (aujourd’hui conservée à la Bibliothèque des livres rares et collections spéciales de l’UdeM).
Sa collection comprend des documents allant du 17e au début du 20e siècle et portant sur divers sujets tels que l'agriculture, l'éducation, la milice, la littérature et la politique. On y trouve, entre autres, des documents signés par d'importantes figures historiques comme le roi Louis XIV et le cardinal de Richelieu ainsi que des lettres de la correspondance de Louis-Joseph Papineau.
Pour accéder à la description de la collection Louis-François-Georges-Baby sur le catalogue Web des archives de l’UdeM.
L’ensemble de la collection Baby se trouve également dans le Répertoire du patrimoine culturel du Québec.