Actualités
|
Publié le 25 Février 2020

La Minute Geek - Observatoire de la haine en ligne du Crif : comment l'IA détecte l'antisémitisme

Chaque semaine, le Crif vous propose une plongée dans le monde de la tech et de ses outils. Mettez votre costume de geek, c'est parti !

Cela ne vous aura pas échappé, les premières conclusions de l’Observatoire de l’antisémitisme en ligne du Crif ont été publiées. 

Le Crif vous alerte souvent sur l’antisémitisme en ligne, un fléau que l’on combat au quotidien. La nouveauté avec cet Observatoire, c'est l'utilisation de l'Intelligence Artificielle (IA) pour repérer les contenus antisémites

Il y a quatre grandes familles de contenus antisémites selon la définition de l’IHRA : les expressions directes de la haine des juifs, la haine des juifs via la haine de l’Etat d’Israël, la haine des juifs via le déni de la Shoah, et encore la haine des juifs via l’utilisation de stéréotypes ou allégations.

Ces grandes familles sont souvent associées à des groupes de mots reliés à l’expression de cette haine. Il est donc possible de modéliser les propos antisémites et d’une certaine manière d’automatiser leur identification.

Fait notable qui n’étonne personne, l’étude relève que, d’une manière générale, ceux qui expriment des propos antisémites le font avec une orthographe approximative et un vocabulaire assez sommaire. On note aussi l’expression d’une certaine homophobie en plus d'un antisémitisme explicite.

En automatisant une partie de l’identification des contenus, il est possible de traiter plus de données, et ainsi d’aller plus loin dans l’étude.

Comment ça marche ?

Pendant des mois, des contenus des quatre grandes familles ont été passés en revue manuellement par des analystes. Ces contenus ont ensuite été enseignés au système d’Intelligence Artificielle, pour qu’il puisse être parfaitement entrainé et identifier tout seul des contenus similaires.

L’intelligence artificielle remplacera-t-elle les analystes ?

Avec une marge d’erreur d’environ 11%, nous n’y sommes pas encore. On parle bien de "débroussaillage" effectué par la machine mais d’un affinement des résultats qui nécessite toujours une intervention humaine. En effet, difficile d’apprendre à l’IA le second degré, le cynisme ou l’humour noir. Ainsi, les chiffres produits par l’Observatoire sont l'expression des avantages liés à l’IA (traitement d’un grand nombre de données en un temps record) et du travail manuel (tri des contenus par des personnes formées et compétentes).