Pendant son stage au consulat italien de Montréal, alors qu'il était encore au baccalauréat, Pietro Violo devait brosser le portrait démographique des citoyens italiens vivant au Québec. Il a alors découvert une anomalie: «Les données montraient que des centaines de personnes avaient au-delà de 120 ans, mais, dans les faits, leur décès survenu des années plus tôt n'avait pas été déclaré», explique le doctorant du Département de démographie et des sciences de la population de l'Université de Montréal.
Pour corriger ces données, il a créé un programme capable de parcourir et d’analyser les nécrologies publiées sur les sites Web des maisons funéraires. Cette expérience l'a conduit à se poser une question qui allait devenir le cœur de son projet de recherche: les avis de décès diffusés en ligne pourraient-ils constituer une source fiable pour étudier la mortalité à l’échelle des populations?
En collaboration avec sa directrice de thèse Nadine Ouellette, Pietro Violo a collecté et analysé plus de 550 000 avis de décès parus au Québec et en Ontario entre 2017 et 2022. Publiés dans la revue Demographic Research, les résultats révèlent que ces notices offrent un tableau remarquablement fidèle de la mortalité de la population canadienne.
Un défi informatique de taille
La collecte de données à partir d'avis de décès représente un défi considérable. Extraire de ces textes non structurés, rédigés à des fins commémoratives, les informations démographiques essentielles pour l’étude de la mortalité, dont l'âge au décès et le genre des personnes décédées, nécessite des compétences avancées en programmation informatique. Pietro Violo est parvenu à créer un outil capable de repérer des mots et des phrases clés comme «il s'est éteint à l’âge de…» ou «elle laisse dans le deuil…».
Le chercheur s’est toutefois heurté à un obstacle imprévu: les différences linguistiques entre le Québec et l'Ontario.
«Si les avis francophones s'en tiennent généralement aux renseignements de base, les avis anglophones sont plus biographiques, indiquant par exemple où le défunt a grandi ou encore les emplois qu'il a occupés», illustre-t-il.
«Cette complexité narrative a exigé un raffinement de l’outil informatique afin que celui-ci puisse extraire correctement les variables démographiques d’intérêt», ajoute Nadine Ouellette. Des validations manuelles d’échantillons aléatoires ont permis de vérifier la précision de renseignements extraits automatiquement de 550 000 avis de décès, ce qu’il aurait été impossible d’effectuer à la main!