La représentation à l’épreuve de l’IA
- Mylène Tremblay

- 14 sept.
- 9 min de lecture
À l’aube d’une intelligence artificielle (IA) sans borne, des dilemmes éthiques voient le jour. Parmi ceux-ci figure la question de la représentation, à savoir la place qu’occupent les groupes minoritaires au sein de la culture dominante. Les schémas de pensée de cette dernière, bien souvent ombrés de préjugés, réfléchissent sur la langue. De l’humain à la machine, ces représentations se transposent. Espérait-on qu’il en soit autrement pour l’IA ?
L’enjeu de la représentation que pose l’IA découle des choix à la base de la conception de tels outils et des conditions dans lesquelles ils sont conçus. Certains critiquent les concepteurs et conceptrices ; d’autres suggèrent une approche interdisciplinaire. J’analyse ici le rôle de la traduction automatique dans la sous-représentation de certains groupes.

Les biais de l’intelligence humaine
Moins tangibles qu’au siècle précédent, les préjugés perdurent sous le masque d’une société plurielle et libérale. La représentation des minorités dans l’espace public vise à contrer les conséquences invisibles, parfois même inintelligibles, des discours préjudiciables en faisant lumière sur leur place en société. L’injustice réelle est en ce sens à l’abri des regards.
Les technologies n’étant pas neutres sur le plan éthique, elles reflètent les valeurs d’après lesquelles elles sont conçues. Les problèmes à résoudre par la technologie, la décision de créer des outils, la nature des données à la base de l’apprentissage automatique, l’endroit où sont situées les bases de données… Les décisions ici dépendent des valeurs de la société en question (Moorkens, 2022). Ces questions pratiques omettent toutefois l’humain derrière l’outil : comment ces choix affecteront-ils les minorités ?
À l’instant même, ces considérations éthiques traînent derrière les décisions des géants du Web. On confère ainsi tout pouvoir d’action au nom du bien-être commun à ces compagnies (ibid.). La centralisation de l’IA entre les mains d’élites technocratiques indique qu’à elles seules, elles peuvent produire – lire, ont le pouvoir de produire – des représentations à la fois linguistiques et sociales.
À la base de l’IA…
Commençons par une brève introduction à l’apprentissage automatique sur lequel se fondent les outils d’IA. En matière de langues naturelles, les machines encodent le discours sous forme de chiffres afin d’en tirer les éléments de sens qui distinguent les mots les uns des autres. La technique utilisée : le plongement lexical. La machine se représente le sens des mots à l’aide de vecteurs, permettant de les différencier dans un espace vectoriel. Le contexte dans lequel les mots apparaissent et la fréquence de ces derniers dictent leur place dans cet espace.
L’hypothèse distributionnelle à la base du plongement lexical, proposée par le linguiste Zellig Harris, repose sur l’idée selon laquelle deux mots apparaissant dans des contextes semblables devraient être de sens apparenté (Gazeau, 2023). Les vecteurs fonctionnent de la même façon : les mots dans les mêmes contextes sont représentés dans l’espace vectoriel près les uns des autres. Pour illustrer cette notion, imaginons les phrases suivantes dans un corpus d’apprentissage :
(1) La Palestine est un pays.
(2) Le Canada est un pays.
Selon l’hypothèse, « Canada » et « Palestine » se trouveront près. À ce stade, on comprend bien l’importance de la nature des données qui entraînent les modèles d’IA. Déduisons-en d’ailleurs les effets sur la représentation – ou la sous-représentation – des minorités. Par exemple, une base de données dans laquelle les discours anti-palestiniens prévalent ou, pire, dans laquelle ceux propalestiniens sont totalement absents offrira des réponses en conséquence. L’absence de données de nature variée ne semble pas être le problème. On pense à Grok, le robot de X, entraîné à même les gazouillis.
Je ne m’attarde pas plus longuement aux problèmes de représentativité à l’étape même de l’apprentissage automatique. La taille des bases de données, l’étiquetage des données[1] et la sélection de textes (Bender, Gebru, et coll., 2021) peuvent également introduire des biais, mais l’opacité à laquelle se livrent les géants du Web dans ces pratiques brouillent les pistes.
L’évaluation des outils
Les méthodes d’évaluation de ces technologies rectifient le tir a posteriori. Dans le domaine de la traduction, l’évaluation des traductions automatiques permet d’attester de leur qualité. Ces évaluations, parfois conduites par des machines, affichent des résultats suffisamment satisfaisants pour cesser l’apprentissage automatique. C’est le point de convergence, celui où la qualité des traductions automatiques correspond à celle des traductions humaines. L’arrêt de l’apprentissage vise à assurer une certaine standardisation et une moins grande diversité lexicale (Moorkens, 2022).
La standardisation cherche l’uniformité par l’établissement de normes langagières. D’un outil à l’autre, la syntaxe se ressemble et le vocabulaire se limite à des expressions communes[2]. Les méthodes d’évaluation des traductions automatiques, et donc les normes à leur base, demeurent à ce jour inconsistantes. Or, cette incertitude permet au marché d’imposer ses propres normes – la notion de qualité, par exemple, dictée par la clientèle plutôt que par les linguistes –, lesquelles prévalent sur l’analyse du contenu des traductions (Castilho et al., 2018). On pense ici à la manière dont les humains ou les algorithmes étiquettent les données, étiquetage usuellement teinté des valeurs des sujets parlants. Compagnies technocratiques à l’œuvre, ces valeurs – ou préjugés – ne tendent qu’à se renforcer.

Par standardisation, on entend également une diversité lexicale réduite. Ce peu de variété multiplie les erreurs, néglige les angles morts (Moorkens, 2022) et appauvrit la langue. En résulte une sous-représentation, où la diversité des moyens d’expression et des réalités sociales auxquelles ils réfèrent s’estompent.
La diversité lexicale n’est pas la seule à avoir son mot à dire. La diversité des langues sur le marché de la traduction automatique demeure un enjeu, les géants du Web n’ayant d’yeux que pour les langues dominantes comme l’anglais ou le français. Ces dernières ne représentent qu’un faible nombre de langues, mais demeurent surreprésentées. Elles jouissent d’un accès immédiat aux ressources technologiques, accentuant les inégalités d’ordre d’accessibilité (Vieira, 2021). Les langues sous-représentées dans les corpus n’auront pas droit à une qualité semblable à celles des langues dominantes. Même dans un énorme corpus de langue arabe, le manque de variété – nature des données, différents dialectes et niveaux de langue (Davies, Abraham, 2025) – reflète le peu de considération offerte aux langues à faibles ressources.
L’abondance de risques
Les risques associés à de telles inégalités varient, mais certains se heurtent à l’entendement. Les agences de renseignement israéliennes transcrivent et traduisent les messages et les appels interceptés par les réseaux de télécommunications pour fournir la matière à leurs systèmes. Les agents et agentes concèdent que de possibles erreurs se produisent, l’un d’entre eux admettant qu’une traduction erronée de l’arabe à l’hébreu s’est introduite.
The Arabic word describing the grip on the launch tube for a rocket-propelled grenade is the same as the word for “payment.” In one instance the machine translated it wrong, and the person verifying the translation initially didn’t catch the error, he said, which could have added people speaking about payments to target lists. The officer was there by chance and caught the problem, he said (Mednick, Burke, Biesecker, 2025).
Une traduction fautive, et les renseignements inexacts se répliquent dans l’algorithme sur la base duquel la liste de cibles à attaquer se construit. Dans ce cas où les homonymes n’ont pas été détectés, une personne ayant eu le malheur d’utiliser ce mot pour un simple achat aurait été ajoutée à la liste. On dit que des humains vérifient ces traductions. Difficile, en tant que langagier et langagière, de s’imaginer un contexte où ces deux mots soient source d’ambiguïté. Ce peut dans tous les cas être un cas de manque de diversité lexicale aux graves conséquences, à savoir la vie ou la mort.
De considérables malentendus de l’arabe, et même de parfaites suppositions à partir de données des réseaux sociaux de Palestiniens et Palestiniennes leur coûtent d’ailleurs la liberté. Des opérations de surveillance permettent aux instances israéliennes de collecter en masse les données de ce peuple. Des systèmes prédisent par la suite, à partir d’instructions minimales, quel Palestinien correspond au profil recherché par l’algorithme (Gray, 2025). Ce dernier est-il supervisé ? Qui étiquette les données à sa base ? Les normes sociétales dictent en principe l’utilisation de ces outils. L’étiquette du terroriste justifie, de toute apparence, l’emprisonnement sans procès et même l’anéantissement d’un peuple entier : hommes, femmes, enfants, et mêmes nouveau-nés.
Dans un contexte où est réduite la diversité lexicale, les erreurs se multiplient. Meta – ce géant du Web auquel appartient WhatsApp, Facebook et Instagram – prive de sa polysémie le mot arabe shahid, traduit essentiellement par martyr. Bien qu’il puisse renvoyer à des objets divers du réel – une personne de ce nom, un témoin, une personne morte par accident ou au combat –, ce mot est le plus censuré par Meta (Gray, 2025), l’associant ultimement à la glorification de la violence ou, a fortiori, au jihad[3]. Cette traduction, que préfèrent elles aussi les instances israéliennes, rend susceptible toute personne endeuillée, partageant sur les réseaux sociaux leurs proches perdus sous les bombes, à se voir la nouvelle victime d’un algorithme. De cette simple absence de flexibilité sémantique résulte l’essentialisation d’une population entière, où même un nouveau-né est terroriste.
La diversité lexicale étant prise d’assaut, la nature et la variété des données occupent le front en matière d’apprentissage automatique. Les données en libre accès se trouvent ainsi en proie aux mégacompagnies d’IA : Meta, OpenAI et Stability AI se saisissent de données retrouvées sur le Web (Leffer, 2023). On pense généralement qu’un aussi large espace virtuel offre une masse variée de données. Meta voit les choses autrement : l’application obscure de ses politiques en matière de contrôle de contenu, nous rapporte l’organisme Human Rights Watch, se solde par la censure systémique de contenu propalestinien. Le rapport fait également la lumière sur l’usage extensif d’algorithmes pour modérer – lire, supprimer – le contenu ou en traduire (Human Rights Watch, 2023). Les modèles d’IA naviguant sur l’Internet s’exposent ainsi à un problème de distribution des discours, favorisant les discours pro-israéliens.
En guise de conclusion
Les pratiques en matière d’apprentissage automatique permettent à la fois d’exclure et d’introduire des biais par l’étiquetage et l’application de filtres. A posteriori, les modèles se raffinent à la volonté de leurs conceptrices, ces compagnies visant à standardiser les sorties-machine. La perdante, ici ? La représentation.

La standardisation ne se produit pas à huis clos : elle relève de normes linguistiques appliquées aux données, lesquelles reflètent des tendances sociétales. L’usage de formes passives, par exemple, tend à exclure l’agent de l’équation. En Palestine, cette pratique oblitère l’agent réel des horreurs que subit son peuple. On offre, à travers l’exemple de la Palestine – laboratoire de nouvelles technologies d’IA en contexte militaire –, des occurrences où la réduction de la diversité lexicale mène à la mort. Je précise toutefois que la finalité ici n’est pas la précision des frappes militaires, mais bien l’extermination[4]. Peut-on, dans ce cas, parler d’erreurs?
Je réitère qu’une attention particulière doit être donnée à la nature des données et à la taille des bases de données. Nous dit-on qu’un vaste ensemble de données fiables offre de meilleurs résultats. Il reste à établir ce qu’est une donnée fiable. Pendant ce temps, les compagnies se chargent de définir ce genre de normes.
Si la standardisation établit les normes langagières, le marché établit les siennes en matière de représentation : le profit passe avant la place que l’on souhaite accorder aux minorités linguistiques. Le manque de diversité lexicale participe à ce cercle vicieux, où les erreurs se multiplient jusqu’à mettre leur vie en danger.
Bibliographie
Davies, H., Abraham, Y. (2025) Revealed: Israeli military creating ChatGPT-like tool using vast collection of Palestinian surveillance data. The Guardian. https://www.theguardian.com/world/2025/mar/06/israel-military-ai-surveillance
Bender E. M., Gebru, T., McMillan-Major, A. & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. In Conference on Fairness, Accountability, and Transparency (FAccT ’21), March 3–10, Virtual Event, Canada. ACM, New York, NY, USA, 14 pages. https://doi.org/10.1145/3442188.3445922
Castilho, S., Doherty, S., Gaspari, F. & Moorkens, J. (2018). Approaches to Human and Machine Translation Quality Assessment. Translation Quality Assessment. Machine Translation: Technologies and Applications, vol 1. Springer, Cham. https://doi.org/10.1007/978-3-319-91241-7_2
Gazeau, A. (2023). Lexicalisation souple en réalisation de texte. [Mémoire de maîtrise, Université de Montréal]. Papyrus. https://olst.ling.umontreal.ca/static/pdf/Gazeau_Avril_2023_memoire.pdf
Gray, C. H. (2025). AI, Sacred Violence, and War—The Case of Gaza. Cham : Springer Nature Switzerland. 145 p. https://link.springer.com/10.1007/978-3-031-81501-0
Human Rights Watch. (2023). Meta’s Broken Promises: Systemic Censorship of Palestine Content on Instagram and Facebook. Human Rights Watch. https://www.hrw.org/report/2023/12/21/metasbroken-promises/systemic-censorship-palestine-content-instagram-and
Kenny, D. (2022). Machine translation for everyone: Empowering users in the age of artificial intelligence. Berlin: Language Science Press. https://langsci-press.org/catalog/book/342
Leffer, L. (2023). Your Personal Information Is Probably Being Used to Train Generative AI Models. Scientific American. https://www.scientificamerican.com/article/your-personal-information-is-probably-being-used-to-train-generative-ai-models/
Mednick, S. Burke, G. Biesecker, M. (2025). As Israel uses US-made AI models in war, concerns arise about tech’s role in who lives and who dies. The Associated Press. https://apnews.com/article/israel-palestinians-ai-technology-737bc17af7b03e98c29cec4e15d0f108
Stern, I. (2025) Israel's ex-military intelligence chief said 50,000 Gaza deaths were 'necessary'. NPR. https://www.npr.org/2025/08/18/nx-s1-5506097/ex-israel-military-intelligence-chief-said-50-000-gaza-deaths-necessary
Vieira, L. N. O’Hagan, M. O’Sullivan, C. (2021). Understanding the societal impacts of machine translation: a critical review of the literature on medical and legal use cases. Information, Communication & Society. https://www.tandfonline.com/doi/pdf/10.1080/1369118X.2020.1776370
[1] L’étiquetage consiste à l’ajout manuel, c’est-à-dire par des humains, de renseignements sur les données à la base de l’apprentissage automatique : ce qu’une image représente, ce dont un vidéo parle, etc.
[2] L’exemple du tiret cadratin à l’anglaise s’est fait prendre d’assaut sur les réseaux sociaux, signe fatal d’une machine à l’œuvre.
[3] Le présent billet n’est pas le lieu pour une telle explication, mais suffit-il de signaler que le concept jihad réfère tout autant à la sphère spirituelle du combat envers soi-même; suffit-il de mentionner que ce concept justifie encore à ce jour les invasions militaires des États-Unis, là où quelque intérêts peuvent en être tirés.
[4] Aharon Haliva, ancien chef des renseignements militaires, parle de 50 000 pertes humaines comme étant « nécessaires »… y compris les enfants. (Stern, 2025)




Commentaires