L’intelligence artificielle pour «voir» ce que nous voyons
Lorsque nous regardons le monde, notre cerveau ne se contente pas de reconnaître des objets comme un chien ou une voiture: il en saisit aussi le sens global – ce qui se passe, où cela se passe et comment tous les éléments s’agencent. Or, jusqu’à récemment, les scientifiques ne disposaient pas d’un moyen efficace pour mesurer cette compréhension riche et complexe.
Dans une étude publiée aujourd’hui dans Nature Machine Intelligence, Ian Charest, professeur agrégé de psychologie et titulaire de la Chaire Courtois en neurosciences fondamentales à l’Université de Montréal, explique comment lui et ses collègues de l’Université du Minnesota, de l’Université d’Osnabrück et de la Freie Universität Berlin ont utilisé de grands modèles de langage (GML) pour y parvenir.
«En entrant dans ces GML des descriptions de scènes naturelles – le même type d’[intelligence artificielle] (IA) qui alimente des outils comme ChatGPT – nous avons créé une sorte d’“empreinte linguistique” du sens d’une scène», indique le chercheur, également membre de Mila – Institut québécois d’intelligence artificielle. «De façon remarquable, ces empreintes correspondaient étroitement aux schémas d’activité cérébrale enregistrés pendant que des personnes observaient ces mêmes scènes en imagerie par résonance magnétique.»
Grâce aux GML, les chercheurs peuvent décoder en une phrase la scène qu’une personne vient de percevoir, ou encore prédire avec précision la réponse du cerveau à des images de nourriture, de lieux ou de visages humains. Ils ont aussi formé des réseaux neuronaux artificiels capables de prédire ces empreintes linguistiques à partir d’images. Ces réseaux ont obtenu de meilleurs résultats que plusieurs modèles de vision artificielle de pointe, et ce, même avec moins de données d’entraînement.
Selon Ian Charest, ces résultats laissent penser que le cerveau humain pourrait représenter les scènes visuelles complexes d’une manière étonnamment semblable à la façon dont les modèles de langage modernes comprennent le texte. Ces travaux ouvrent de nouvelles perspectives, notamment pour le décodage des pensées, l’amélioration des interfaces cerveau-ordinateur ou la conception de systèmes d’IA qui «voient» davantage comme les humains.
À plus long terme, de tels modèles pourraient soutenir la prise de décision des voitures autonomes ou contribuer au développement de prothèses visuelles destinées aux personnes ayant une déficience visuelle importante. «C’est un pas de plus vers la compréhension de la façon dont notre cerveau extrait le sens du monde visuel», conclut le chercheur.