L’intelligence artificielle au service de la détection des animaux porteurs de bétacoronavirus

Chauve-souris «Rhinolophus rouxi» (Asie du Sud-Est), hôte suspecté du virus responsable du SRAS en 2004

Chauve-souris «Rhinolophus rouxi» (Asie du Sud-Est), hôte suspecté du virus responsable du SRAS en 2004

Crédit : Aditya Joshi

En 5 secondes

Les modèles d’apprentissage automatique peuvent contribuer à mieux cibler les animaux susceptibles d’être porteurs de bétacoronavirus et ainsi mieux prévenir d’autres pandémies.

Comment désigner et surveiller de façon optimale les populations animales qui sont des réservoirs de nouveaux virus zoonotiques, c’est-à-dire pouvant être transmis à l’humain?

Une équipe internationale de recherche en intelligence artificielle et en biologie s’affaire depuis le début de la pandémie de COVID-19, causée par le SRAS-CoV-2, à créer des modèles d’apprentissage automatique pour valider la précision de huit modèles statistiques dans leur capacité à prédire quelles espèces animales servent d’hôtes aux virus appartenant au genre bétacoronavirus.

Les résultats de ces travaux, auxquels a pris part le professeur Timothée Poisot, du Département de sciences biologiques de l’Université de Montréal, ont été publiés dans la prestigieuse revue The Lancet Microbe.

«Des modèles statistiques peuvent être utilisés pour orienter la priorisation de l'échantillonnage des populations animales susceptibles de servir d’hôtes, mais les prédictions de ces modèles peuvent être très incertaines et leur validation systématique est rare, ce qui fait que leur performance est sous-documentée», indique M. Poisot.

L’échantillonnage de populations animales sur le terrain pour déterminer si elles servent d’hôtes s’avère coûteux. Afin d’aider les autorités à prioriser les lieux d’échantillonnage, les chercheurs ont produit un ensemble de huit modèles statistiques qui prédisent les associations hôte-virus chez les chauves-souris du monde entier et les ont soumis à des modèles d’apprentissage automatique.

L’idée consistait à valider systématiquement la précision des prédictions des modèles statistiques.

Deux grandes familles de modèles

Timothée Poisot

Pendant plus d’un an, l’équipe a suivi la découverte de 40 nouvelles espèces de chauves-souris porteuses d’un bétacoronavirus, ce qui a permis de valider les prévisions initiales des modèles en les actualisant à mesure que de nouvelles données devenaient disponibles.

«Nous avons d’abord constaté, avec surprise, que les modèles n’étaient pas d’accord entre eux et qu’ils affichaient tous certains biais, souligne Timothée Poisot. Puis, nous avons découvert que, au lieu d’être distribués au hasard, les modèles statistiques se divisaient en deux grandes familles, soit ceux reposant sur les interactions ou réseaux dont les prédictions vont de bonnes à moins bonnes, et ceux basés sur les caractéristiques des espèces de chauves-souris qui offrent de bonnes prédictions.»

Pour créer un modèle prédictif plus fiable, l'équipe de recherche a «nettoyé» les modèles pour ensuite les intégrer dans un modèle d’ensemble. Après un an, le modèle est parvenu à désigner plus de 400 espèces de chauves-souris dans le monde qui pourraient être des hôtes non détectés de bétacoronavirus.

Cartographier le risque épidémiologique

«Bien que 20 espèces de chauves-souris en fer à cheval [Rhinolophus spp.] soient connues pour être le principal réservoir de virus de type SRAS, nous avons trouvé qu’au moins les trois quarts des réservoirs plausibles de bétacoronavirus parmi ces chauves-souris pourraient encore ne pas être détectés», commente le professeur Poisot.

Étant mis à jour en continu, ce modèle d’ensemble fournit des listes d’espèces de chauves-souris – ainsi que l’endroit où se situe leur habitat – à surveiller prioritairement par les échantillonneurs. Il permettra à terme de cartographier les risques épidémiologiques en croisant ces listes avec les cartes des populations humaines vivant à proximité des habitats où les zoonoses pourraient éclore.

«Notre étude est la première à démontrer par une validation systématique que les modèles d'apprentissage automatique peuvent être combinés afin d’optimiser l'échantillonnage de la faune pour les virus non découverts, conclut Timothée Poisot. Elle illustre comment de telles approches sont mieux mises en œuvre grâce à un processus dynamique de prédiction, de collecte de données, de validation et de mise à jour.»

Différents projets de recherche se poursuivent d’ailleurs en ce sens, notamment en accentuant la diversité des sources de données sur l’ensemble des mammifères. L’objectif consiste à créer un atlas du virome des mammifères.

Un travail de moine!

Afin de créer des modèles d’apprentissage automatique fiables, l’équipe de recherche a dû harmoniser les données qui provenaient de nombreux systèmes de surveillance virale à travers le monde.

Ainsi, en mars et avril 2020, des étudiants et étudiantes de la maîtrise en biologie quantitative et informatique de l’UdeM ont effectué un travail de moine en corrigeant les noms d’espèces de chauves-souris contenus dans un document Excel comportant… 43 000 lignes!