Traquer la rhétorique misogyne des «incels» sur Reddit 

En 5 secondes Dominic Forest et Camille Demers testent des algorithmes capables de détecter les communautés misogynes des célibataires involontaires sur Reddit. 
Une étude a été consacrée à la détection automatique du discours des célibataires involontaires sur Reddit

Le 7 novembre 2017, Reddit ferme r/Incels, un forum qui rassemblait plus de 40 000 membres, après avoir adopté une politique qui proscrit tout contenu incitant à la violence. Les incels (contraction des mots anglais involuntary celibates ou «célibataires involontaires»), ces hommes qui partagent une vision du monde où leur incapacité à nouer des relations amoureuses est imputée aux femmes et à une structure sociale estimée injuste, ont alors migré rapidement vers d’autres forums. Leurs discours, profondément misogynes, ont conduit à des actes d’une extrême violence en Amérique du Nord tels que la tuerie d’Isla Vista ou l’attaque au camion-bélier de Toronto. Mais leur rhétorique se réinvente, emprunte des codes opaques et reste difficile à détecter automatiquement sur des forums.  

C’est dans ce contexte que Dominic Forest, professeur à l’École de bibliothéconomie et des sciences de l’information (EBSI) de l’Université de Montréal, et Camille Demers, son étudiante de doctorat, ont publié les résultats d’une étude consacrée à la détection automatique du discours des célibataires involontaires sur Reddit. Ils testent différentes approches d’exploration de textes afin de pouvoir distinguer au mieux les propos de ces internautes des autres discussions qui ont lieu sur la plateforme.

D'un projet étudiant à une publication scientifique 

L'histoire de cette recherche commence dans une salle de cours de l’EBSI. À l'automne 2021, Dominic Forest, qui a déjà participé à des compétitions internationales de détection du cyberharcèlement, propose à ses étudiants et étudiantes en fouille de données de s'attaquer à ce sujet. L'équipe de Camille Demers, alors étudiante de maîtrise, relève le défi. 

«Je voyais qu'il y avait un potentiel», se souvient Dominic Forest. Convaincu par la qualité du travail initial, il propose à Camille Demers de poursuivre l'aventure au-delà de la classe. «Ça a donné lieu à une collaboration. Et le projet a beaucoup évolué pour prendre la forme qu'il avait à la toute fin», mentionne-t-il. Le duo s'est alors lancé dans un travail de longue haleine pour transformer une initiative pédagogique en une étude scientifique rigoureuse, confrontée aux défis du traitement de données massives et en constante évolution.  

La recette de la détection: des «sacs de communautés» et un équilibre délicat 

Comment entraîner une machine à détecter les communautés de célibataires involontaires et à en reconnaître le discours? La première étape, colossale, est de lui fournir des exemples. Les chercheurs n’ont pas annoté manuellement des dizaines de milliers de commentaires. Ils ont plutôt opté pour l’approche des «sacs de communautés». 

Ainsi, au lieu de juger chaque message, on considère qu'un subreddit, un forum entier sur Reddit, est représentatif d'un certain discours. En s'appuyant sur des travaux antérieurs, ils ont désigné 23 subreddits comme étant des bastions de la communauté des célibataires involontaires. Ils ont extrait 40 000 commentaires de ces forums pour une phase d'entraînement et les ont étiquetés incels. Ils ont également constitué un échantillon équivalent de commentaires issus de plus de 13 000 autres subreddits et les ont classés comme non-incels.

Mais un autre défi technique de taille les attendait: le problème du déséquilibre des classes. Dans la réalité, les propos de célibataires involontaires sont, fort heureusement, très minoritaires. Un algorithme entraîné à l’aide d’un ratio réaliste pourrait devenir «paresseux» et déterminer qu’aucun propos n'appartient à la catégorie incels, menant à un score de précision élevé, mais totalement inutile. Pour éviter ce biais, l'équipe a fait varier la proportion de commentaires incels dans ses données d'entraînement, de 10 à 90 %, afin de trouver le juste équilibre pour que la machine apprenne efficacement à distinguer les deux classes. 

La collecte des données elle-même a été semée d’embûches. L'accès aux données de Reddit ayant changé en cours de projet, l'équipe a dû se tourner vers des archives compressées mises à leur disposition par une communauté de passionnés. Ils ont ensuite échantillonné les commentaires mois par mois pour chaque année afin d'éviter des biais saisonniers, comme l'isolement potentiellement plus marqué pendant la période des fêtes de fin d’année. 

La performance face à la transparence 

Après avoir testé quatre algorithmes de classification (régression logistique, machines à vecteurs de support, etc.) et trois manières de représenter les textes numériquement (TF-IDF, CBOW et SBERT), «le modèle le plus performant, combinant la représentation sémantique SBERT – basée sur des réseaux de neurones – avec un algorithme de régression logistique, atteint une mesure F globale de 79,70 % en phase de test», explique Dominic Forest. 

Mais les modèles les plus récents et performants, comme SBERT, fonctionnent telles des «boîtes noires». «Ils sont plus efficaces, mais il est en pratique impossible de savoir pourquoi ils ont pris une décision. Nous n’étions pas en mesure de rendre compte des caractéristiques prises en considération», confirme Camille Demers.  

À l'inverse, une approche jugée plus classique par Dominic Forest, la pondération statistique TF-IDF, bien que légèrement moins performante, offre une grande transparence. Grâce à elle, les chercheurs ont pu extraire le vocabulaire que la machine a jugé le plus déterminant. Pour la classe incels, les termes avec le plus de poids sont incel, chad (terme désignant un homme jugé séduisant par la communauté des célibataires involontaires), woman, ugly, lonely, virgin ou encore normies (les gens considérés comme normaux par les célibataires involontaires), etc. 

«Au-delà des performances de détection, ce que ces travaux nous ont permis de mettre en lumière, c'est de quoi parlent ces célibataires involontaires et quel est le vocabulaire de leurs communautés», résume Dominic Forest. 

Partager

Demandes médias

Université de Montréal
Tél. : 514 343-6111, poste : 67960