L'ouïe humaine est plus efficace que les machines!

  • Forum
  • Le 25 septembre 2015

  • Dominique Nancy
Les logiciels d’identification vocale sont bien moins performants que notre système auditif: au mieux 92 % de réussite comparativement à presque 100 %.

Les logiciels d’identification vocale sont bien moins performants que notre système auditif: au mieux 92 % de réussite comparativement à presque 100 %.

Crédit : Benoît Gougeon.

En 5 secondes

L'être humain est en mesure de saisir l'information présente dans la parole avec tant de précision qu'il arrive à reconnaître la voix d'un proche parmi une multitude de voix entendues.

 «Merci beaucoup.» Ces deux mots suffisent aux individus avec une ouïe normale pour qu'ils reconnaissent dans plus de 99,9 % des cas la voix d'un proche parmi une multitude de voix entendues dans un enregistrement. «Les capacités auditives de l'être humain sont exceptionnelles pour distinguer les voix familières. À leur naissance, les bébés sont déjà capables de reconnaître la voix de leur mère et de discerner des sons de langues étrangères», affirme Julien Plante-Hébert, qui a étudié dans le cadre de son mémoire de maîtrise les effets de la familiarité et de la longueur des stimulus dans la reconnaissance vocale.

Pour évaluer ces effets, le chercheur a élaboré des ensembles de parades vocales, une technique inspirée d'une procédure d'identification visuelle bien connue des enquêteurs qui consiste à faire défiler un groupe d'individus partageant des traits physiques semblables devant un témoin. «Pratique analogue, la parade vocale consiste en la présentation de plusieurs voix aux aspects acoustiques similaires. Dans mon étude, chaque parade vocale contenait différentes longueurs d'énoncés variant de 1 à 18 syllabes. La familiarité entre la voix cible et le sujet a été définie en fonction du degré de proximité entre les locuteurs», précise le chercheur, aujourd'hui doctorant en linguistique. L'étudiant a récemment présenté à Glasgow, en Écosse, les résultats de sa recherche menée auprès de 44 personnes âgées de 18 à 65 ans qui devaient désigner parmi 10 voix d'hommes franco-québécois celle qui leur était familière.

Le professeur Victor Boucher tente depuis plusieurs années d'établir des ponts entre son domaine d'étude et les neurosciences.

Crédit : Amélie Philibert

Les expériences conduites au Laboratoire de sciences phonétiques du professeur Victor Boucher, du Département de linguistique et de traduction de l'Université de Montréal, montrent que, quand ils entendent une voix familière qui prononce un court énoncé («Oui, bonjour» par exemple), les locuteurs ne sont pas en mesure de la reconnaître, peu importe le lien qui les unit. Mais avec des énoncés de quatre syllabes et plus comme «Merci beaucoup», le taux de réussite est éclatant! «Les taux de reconnaissance dépassent ceux obtenus actuellement avec les systèmes automatisés», souligne le chercheur.

À son avis, les logiciels de reconnaissance vocale qu'on trouve dans les téléphones portables pour passer un appel par la voix sont bien moins performants que notre système auditif : au mieux 92 % de réussite comparativement à presque 100 %. Qui plus est, dans un environnement bruyant, l'humain est capable de surpasser les machines grâce à la capacité que possède son cerveau de filtrer le bruit ambiant. «En fait, l'identification automatisée par la voix est le facteur biométrique ayant le moins de précision en comparaison de celle effectuée à l'aide des empreintes digitales, du visage ou encore de l'iris», note Julien Plante-Hébert. Selon lui, les techniques axées sur la perception humaine de voix familières offrent plusieurs avantages par comparaison avec les techniques de reconnaissance automatiques. «Bien que les technologies de pointe arrivent à extraire une grande quantité d'informations de la parole, l'être humain est à ce jour le seul à pouvoir discerner des voix connues avec une précision frôlant la certitude», conclut-il.