Tribune
|
Publié le 28 Novembre 2014

Haines numériques

Par Thierry Berthier, Maître de conférences en mathématiques, Chaire de Cyberdéfense Saint-Cyr Sogeti Thales

1 - Antisémitisme et cyberespace

L'antisémitisme s'exporte aujourd'hui si facilement sur les espaces numériques qu'il devient urgent de mettre en place une modération algorithmique globale adaptée à cette forme de haine ordinaire et gratuite. Lorsqu'un article est publié sur un site d'information et qu'il y est question d’Israël, on peut être assuré que, presque immédiatement, certains commentaires relèveront de l'antisémitisme réflexe, chronique et décomplexé. Ces commentaires deviendront même prépondérants quand ils interviendront en réponse à ceux qui dénoncent leur caractère antisémite.

Les pulsions haineuses trouveront ainsi toujours un terrain numérique favorable pour s'exprimer au mépris du respect de la personne et de la loi. Le sentiment d'impunité du publiant raciste ou antisémite s'accompagne souvent d'une conviction bien ancrée « d’être dans son bon droit » et de n'exercer que sa propre « liberté d'expression ».  L'espace numérique libère la parole surtout quand celle-ci « s'égare » au-delà de l'admissible. Les réseaux sociaux n'échappent pas à cette règle en cristallisant les dérives antisémites, les racismes et les haines d'exclusion.

Il existe certainement des mécanismes cognitifs complexes qui opèrent de manière consciente ou non, entre le publiant de contenus illégaux, le support numérique et l'image que ce support renvoie au publiant. Les projections algorithmiques haineuses, racistes ou antisémites participent à des boucles rétroactives et sont « favorisées » par le système de publication. L'illusion d'anonymat et l'utilisation de « pseudos » pour l'identification du publiant renforcent le sentiment de puissance et d'impunité. D'un point de vue systémique, le contexte numérique reste aujourd'hui compatible avec la diffusion de messages antisémites ou racistes et n'oppose pas de résistance efficace à ces transgressions informationnelles. La problématique est pourtant assez claire : il faut aller vers la détection automatisée exhaustive de ce type de contenus, il faut la généraliser à tous les supports et à tous les domaines du cyberespace. S'orienter vers la détection à grande échelle des contenus antisémites et racistes, c'est avant tout faire le choix de « l’hygiène numérique » en identifiant les foyers infectieux qui gangrènent le cyberespace. C'est aussi considérer la publication de messages antisémites comme une action relevant de la cyberdélinquance et la traiter en tant que telle.

2 - Vers une détection algorithmique des contenus haineux

La production mondiale de données numériques double tous les deux ans et atteindra les 40 Zetaoctets en 2020 (un Zetaoctet représente 10 puissance 21 octets). Cette production qui augmente selon un rythme exponentiel est issue de deux sources distinctes : la source systémique (ce que produisent les systèmes numériques en interagissant avec les opérateurs) et la source humaine (ce que nous produisons de manière volontaire). Les contenus racistes ou antisémites relèvent presque toujours d'une origine humaine. Toutefois, lorsqu'un moteur de recherche renvoie la phrase « est un Juif mort » en réponse à la requête « un bon juif », cette production d'information s'appuie sur un balayage des requêtes antérieures liées entre elles par les mêmes mots-clés et sur l'historique existant associé à la phrase antisémite « un bon juif est un Juif mort », phrase engendrée à l'origine par des opérateurs humains antisémites. La réponse du moteur de recherche peut donc être classée dans la catégorie des réponses antisémites systémiques. Le moteur n'a pourtant aujourd'hui aucune conscience du contenu antisémite de sa réponse. C'est bien la faiblesse sémantique du système qui produit et laisse passer la donnée haineuse. La détection doit donc intervenir sur deux fronts informationnels bien distincts : le premier front concerne la production humaine de contenus racistes ou antisémites. Il se situe à l'interface des publiants et des systèmes qui assureront la diffusion du contenu. Le second front s'applique à la production systémique des données et en particulier à l'action responsable des moteurs de recherche. Ces deux fronts sont interdépendants et vont mobiliser de fortes capacités d'analyse sémantique. Un système de détection pertinent devra être capable d'identifier et de mesurer le contenu raciste ou antisémite. C'est avant tout un problème de perception, d'analyse, de mesure et d'intelligence artificielle. Le fonctionnement sur des mots-clés ou des associations de mots-clés identifiés comme révélateurs de propos antisémites peut apporter une réponse en première approche. Il faudra ensuite « monter en gamme » et inventer un détecteur efficace sur du contenu plus diffus dans lequel le message antisémite ou raciste s'inscrit dans un corpus sophistiqué. Le problème de la détection automatisée reste particulièrement délicat au regard de la diversité des vecteurs de diffusion de l'information. Il est intimement lié à l'élévation du niveau d'intelligence artificielle et à la capacité des systèmes à apprendre par l'expérience. La détection humaine relève quant à elle de mécanismes bien différents et se confronte à de multiples contraintes légales, économiques et psychologiques. Les grands acteurs du numérique (Google, YouTube, Facebook, Twitter et les autres) ont mis en place des services de détection et de modération composés d'agents humains. Un responsable de Google France expliquait récemment que quatre juristes assuraient la modération des contenus francophones de YouTube et que ce chiffre s'élevait à 800 opérateurs modérateurs pour les contenus YouTube mondiaux. Il convient de croiser cette information avec les volumes de données produites sur ces supports. Ainsi, 72 heures de vidéos sont mises en ligne chaque minute sur YouTube et 300 millions de photos sont publiées chaque jour sur Facebook avec 3,2 milliards de commentaires. La détection de contenus illicites nécessite des infrastructures de traitement Big Data performant. Elle doit évoluer d'une détection humaine vers la détection algorithmique.

3 - Modérations et sanctions

La détection algorithmique exhaustive des contenus racistes ou antisémites précède logiquement la phase de modération. A ce titre, les grands opérateurs de l'internet ne disposent pas d'un protocole commun pour supprimer ces contenus. La persistance après détection varie beaucoup selon l'opérateur. Ainsi, Google et Facebook réagissent en général plus vite que Twitter quand il s'agit de supprimer un compte ou d'effacer des données. La position du « curseur » déterminant ce qui doit être mis hors ligne varie également fortement en fonction des supports. Twitter semble là encore moins sévère que Google et Facebook. Le problème de la récidive de publication de contenus illicites doit également être pris en compte. Lorsque Facebook suspend un compte, son propriétaire s'empresse d'ouvrir un compte similaire en modifiant à peine son intitulé. L'outil algorithmique pourrait prendre le relais afin de bloquer préventivement la réouverture de ce compte sous un autre nom ; c'est techniquement assez simple à réaliser. La simple suspension de compte ou la suppression de donnée n'a pas de caractère dissuasif. Il faut impérativement dissuader pour éviter la récidive. Il existe de nombreuses pistes en la matière. On peut tout d'abord imaginer un système automatisé délivrant des sanctions graduées allant jusqu'à la suspension de connexion internet à partir du fournisseur d'accès. On peut également penser à un système agissant comme un brouilleur de contenu en transformant le message en un message crypté. Enfin, la mise en responsabilité du publiant doit faire l'objet d’une réflexion poussée. L'un des grands défis à venir consistera à libérer le cyberespace des dérives humaines haineuses. C'est de ce grand nettoyage qu’émergera la sagesse numérique...