Qu’est-ce qu’une image violente ? Approches critiques des calculs du sens.

Sous la pression de l’opinion publique s’indignant des nombreuses images dites « violentes » circulant sur les moteurs de recherche et plateformes, les géants du numérique Google et Facebook ont renforcé les recherches déjà en cours sur le calcul automatique du « sens » des images, afin de faciliter, en outre, le repérage et la censure des contenus les plus violents. La croissance rapide de l’Internet a en effet entraîné une augmentation du nombre de vidéos générées par les utilisateurs, et la nécessité de filtrer les contenus potentiellement choquants ou discriminatoires s’est considérablement accrue. Même si elle se trouve déjà engagée dans différentes applications, telles que la surveillance intelligente, la récupération de vidéos, le filtrage Internet, etc., la détection de ce qui constitue précisément une image violente est pourtant une tâche difficile, qui pose de nombreux défis à la recherche en informatique, mais aussi en sciences sociales (ROUVROY 2016, TARLETON 2018). L’accès et la consommation des images violentes est un sujet qui inquiète également les pouvoirs publics, et en première ligne l’Education nationale (MASTERMAN et MARIET 1994). Nombreuses sont les études qui montrent en effet que les enfants sont confrontés dès le plus jeune âge à des images violentes (Tisseron 2005).

Qu’est-ce pourtant une image violente ? Comment un.e récepteur.e humain.e arrive-t-il ou elle à cette conclusion, et comment les processus de calcul automatique font-ils émerger la violence d’une image ?

Plusieurs travaux de recherche ont été menés ces dernières années, en sciences sociales, sur l’impact potientiel des images violentes sur les enfants et adolescents au laboratoire CEMTI (JEHEL 2018, 2019). Nous avons, par ailleurs, élaboré une méthodologie en sémiotique sociale qui a comme objectif de cerner de près les motivations sociales du processus interprétatif. Nous avons placé au cœur de ce projet l’hypothèse que le qualificatif «violent» ne va nullement de soi, et dépend d’une part des significations potentiellement encodées dans une image par des instances d’énonciation, mais d’autre part des grammaires de reconnaissance, systèmes d’appartenance et de croyance des récepteur.e.s.

En amont des expérimentations se situe ainsi la question de savoir ce qu’une société donnée, une communauté, un individu considère comme violent.

Cette question des visions du monde qui amènent, à un moment donné, à la conclusion qu’une image est violente, est également centrale lorsque Google ou facebook taguent ou bloquent une image. Or, dans les discours d’accompagnement émis par les entreprises, le qualificatif violent est traité comme un allant-de-soi. Quelles sont les modélisations du sens qui soutiennent les processus de calcul, comment, sur quelles bases scientifiques et techniques, sont prises les « décisions sémiotiques » ?

Le LIASD travaille depuis de nombreuses années sur les processus de calcul du sens des images, entre autres par ingénierie inversée, mais aussi par la participation ponctuelle à des expérimentations menées par Google. Il s’intéresse à la modélisation de l’information sémantique extraite à partir de collections d’images diverses (notamment ImageNet de Google) et à l’exploitation de cette information pour de la recherche pertinente et le raisonnement sur ces images. L’information sémantique met en évidence les objets visuels signifiants présents dans une image ou dans une scène, les relations spatiales entre les objets (telles que les relations de distances, d’adjacence, de position ou de direction, etc), les relations contextuelles (basées essentiellement sur des modèles statistiques et probabilistes), et d’autres types de relations temporelle ou émotionnelle, qui peuvent être extraites à la fois depuis les annotations textuelles associées aux images.

Notre projet a donc comme but d’interroger l’allant-de-soi de la « violence » des images. Il vise à cerner avec précision les visions du monde qui soutiennent la décision sémiotique de la « violence » sur le terrain des pratiques sociales courantes, et d’élaborer un état de l’art des approches en informatique qui s’intéressent à la détection automatique du contexte sémantique des images et en particulier le contexte visuel et perceptuel de la violence. A court terme, ce travail vise également l’analyse de la vidéo comme combinaison de l’image et l’audio. La méthodologie employée aux images fixes, sera étendue à l’analyse de la vidéo en séparant d’abord les deux canaux : images et audio. Les images extraites seront analysées par le procédé initial. Parallèlement, l’audio sera analysée en termes d’intonation, de volume, le genre associé à la Voix, prédiction des âges, etc. La transcription de l’audio en texte sera également analysée par des outils de traitement automatique de la langue naturelle afin d’enrichir le contexte perceptuel avec du vocabulaire lié à la violence verbale.

Les perspectives de recherche qui s’ouvrent dans ce dialogue interdisciplinaire, nous paraissent d’ores et déjà hautement prometteuses. L’obtention de ce projet de recherche nous permettrait d’avancer rapidement vers des hypothèses de travail et une formulation plus précise des enjeux sous-jacents en vue du dépôt d’un projet de plus grande envergure.

Ce projet a reçu le soutien de la Commission recherche de l’Université Paris 8 en 2020.