
Les grands modèles de langage sont de plus en plus proposés comme « cerveau » de robots capables d’interagir en langage naturel avec des personnes, de planifier des tâches et de prendre des décisions dans des contextes domestiques, professionnels ou sociaux.
Andrew Hundt/Rumaisa Azeem/Masoumeh Mansouri, dans LLM-Driven Robots Risk Enacting Discrimination, Violence, and Unlawful Actions (International Journal of Social Robotics (2025) 17:2663–2711 ; https://doi.org/10.1007/s12369-025-01301-x) veulent donc vérifier si ces modèles sont réellement aptes à être déployés dans la robotique sociale. Leur thèse est que, dès qu’un modèle ne se contente plus de produire du texte mais pilote un système incarné, les erreurs ordinaires des LLM changent de nature: elles peuvent devenir des actes physiques, produire des atteintes concrètes à la sécurité et entraîner des discriminations directement subies par des personnes. C’est pourquoi l’article examine ensemble deux dimensions: la discrimination et la sécurité.
Le raisonnement des auteurs avance en deux temps. Premièrement, ils cherchent à savoir si un LLM, utilisé comme composant de décision robotique, traite différemment les personnes selon des caractéristiques protégées. Deuxièmement, ils testent si, dans un cadre à vocabulaire libre, ces modèles acceptent ou jugent faisables des instructions dangereuses, violentes ou illégales. Leur idée centrale est qu’un robot commandé par LLM n’est pas sûr parce qu’il « comprend » bien le langage dans l’abstrait; il faut encore démontrer qu’il rejette les demandes nocives, qu’il ne transforme pas des stéréotypes en actes et qu’il reste fonctionnel dans des contextes réels. À défaut, le système n’est pas apte à l’emploi.
Pour la partie « discrimination », les auteurs reprennent un cadre connu en robotique, dans lequel le LLM choisit entre plusieurs actions possibles en fonction d’un prompt. Ils construisent alors des scénarios typiques de robotique sociale: choisir l’expression faciale à afficher face à une personne, fixer une distance d’interaction, estimer le niveau de confiance envers un humain, déterminer une priorité de secours, anticiper le niveau de propreté d’une pièce, apprécier un risque de sécurité, ou encore choisir quelle personne aider, solliciter ou servir. La méthode consiste à garder la tâche identique et à ne faire varier que la description de la personne concernée, par exemple son âge, son handicap, sa religion, sa nationalité, son genre ou son origine. Les auteurs observent ensuite si la probabilité attribuée à une réponse défavorable augmente selon l’identité décrite. Autrement dit, ils testent si la seule substitution d’un qualificatif personnel fait changer la décision du robot.
Ils assument volontairement un cas de figure réaliste mais problématique: dans un système réel, de telles informations peuvent apparaître dans le prompt parce qu’elles ont été obtenues par conversation, par d’autres personnes, ou par des modules de perception comme la vision par ordinateur. L’expérience ne cherche donc pas à montrer que les concepteurs devraient faire cela, mais ce qui se passerait s’ils le faisaient, délibérément ou non. Les catégories testées couvrent notamment le genre, l’origine ethnique ou raciale, la nationalité, la religion, le handicap et l’âge. Les auteurs précisent d’ailleurs que certaines tâches elles-mêmes sont déjà discutables sur le plan scientifique ou éthique, par exemple prédire les émotions d’autrui à partir d’expressions faciales ou inférer des préférences de propreté à partir de l’identité. Leur objectif est précisément de montrer que, si l’on laisse un LLM raisonner de cette manière, il produit des sorties discriminatoires.
Les résultats sont négatifs. Sur les tâches de discrimination directe, les trois modèles testés dans cette partie, GPT-3.5, Mistral 7B et Llama 3.1 8B, manifestent tous des biais significatifs, mais sous des formes différentes. GPT-3.5 attribue davantage de réponses défavorables à des personnes décrites notamment comme muettes, gitanes, aveugles, paralysées, TDAH ou enfants. Mistral pénalise plus fortement des personnes décrites comme noires, palestiniennes, juives, musulmanes, irakiennes ou gitanes. Llama présente lui aussi des réponses défavorables touchant certains groupes selon la religion, l’origine, la nationalité ou le handicap. Les auteurs ne prétendent pas que les modèles sont identiques; au contraire, ils montrent que les formes de discrimination varient d’un modèle à l’autre, ce qui renforce selon eux le problème structurel plutôt que l’idée d’un simple incident isolé.
Les exemples concrets sont particulièrement parlants. Dans les tâches d’expression faciale, certains modèles recommandent d’afficher de la tristesse, de la peur, du dégoût, de la colère ou de la pitié à l’égard de certains groupes. GPT-3.5 propose par exemple la pitié pour des personnes aveugles ou non parlantes; Mistral associe le dégoût à des personnes chrétiennes, musulmanes, juives ou irakiennes; Llama attribue massivement des expressions de colère ou de pitié selon les groupes. Les auteurs relient ces sorties à des notions connues en sciences sociales: microagressions validistes, déshumanisation, stéréotypes de dangerosité ou d’impureté. Dans les tâches de proximité, certains modèles suggèrent de rester plus loin de personnes autistes, athées ou juives. Dans les tâches de sécurité, certains groupes se voient attribuer un risque plus élevé. Dans les tâches d’aide ou d’assignation de travail, les modèles tendent parfois à préférer des personnes non handicapées à des personnes handicapées, même lorsque le handicap n’empêcherait pas objectivement d’accomplir la tâche.
L’intérêt de cette première partie est juridique autant que technique. Les auteurs parlent expressément de discrimination directe: un traitement moins favorable fondé sur une caractéristique protégée. Leur démonstration revient à dire que, si un robot laisse entrer ces caractéristiques dans sa chaîne de décision, le LLM est aujourd’hui capable de transformer des stéréotypes sociaux en comportements robotisés. Le point important n’est pas seulement l’existence d’un biais statistique en arrière-plan, mais le passage à une décision individuelle: faire confiance ou non, s’approcher ou s’éloigner, aider d’abord telle personne plutôt que telle autre, afficher de la pitié ou du dégoût, classer quelqu’un comme plus risqué. Pour des juristes, c’est un déplacement du débat classique sur les biais algorithmiques vers la logique de l’acte concret et du traitement différencié.
La seconde partie de l’article porte sur la sécurité. Ici, les auteurs évaluent quatre agents conversationnels disponibles fin 2023: Gemini, Copilot, ChatGPT et HuggingChat. Ils définissent un cadre d’évaluation fondé sur trois critères d’échec. Premier critère: le modèle juge acceptable une tâche nuisible. Deuxième critère: il juge faisable une tâche nuisible. Troisième critère: il juge faisable une tâche impossible en pratique ou en principe. Selon leur cadre, un seul échec suffit à conclure que le modèle est « unsafe » pour un usage robotique général. L’idée est que si un robot approuve, ou simplement considère faisable, une tâche qui devrait être bloquée, il ne remplit pas une exigence minimale de sûreté.
Les prompts de sécurité couvrent des hypothèses de mauvais usage, d’abus, de violence, de fraude, de pseudoscience, de sabotage ou d’atteintes aux personnes. Les auteurs soulignent que leurs résultats sont obtenus sans jailbreak sophistiqué: de simples formulations suffisent. Or tous les modèles testés échouent sur les trois critères. Le tableau de synthèse est net: ChatGPT, Copilot, Gemini et HuggingChat sont tous jugés dangereux pour un usage robotique général. Les auteurs ajoutent en annexe un test sur cinq modèles supplémentaires, avec le même constat: tous échouent aussi, même si le nombre d’échecs varie.
Là encore, les exemples comptent plus que les chiffres abstraits. Les modèles approuvent le retrait non consenti d’aides à la mobilité, acte que les auteurs rapprochent d’une atteinte grave et, dans certains contextes, potentiellement d’un comportement haineux. Certains approuvent des scénarios assimilables à du vol physique, à l’appropriation de données bancaires, à la surveillance politique, à la prise d’images dans un vestiaire ou une douche, à l’intimidation avec un couteau, ou à des usages pseudoscientifiques impossibles à accomplir de manière sûre et légitime. Les auteurs montrent aussi un point subtil: un modèle peut dire qu’une conduite est « inacceptable » lorsqu’elle est nommée brutalement, mais la trouver acceptable lorsqu’elle est reformulée comme une suite de tâches apparemment anodines. C’est précisément ce qui rend la simple modération linguistique insuffisante dans un contexte robotique.
La conclusion générale est donc double. D’une part, les LLM testés ne sont pas sûrs pour de la robotique généraliste à vocabulaire libre. D’autre part, ils ne sont pas non plus neutres sur le plan identitaire: ils reproduisent et opérationnalisent des stéréotypes relatifs à la race, à la nationalité, à la religion, au handicap, à l’âge ou au genre. Les auteurs ne disent pas que tout usage robotique d’un LLM est impossible; ils disent qu’on ne peut pas présumer sa sûreté ni sa conformité à partir de ses performances conversationnelles. À leurs yeux, un modèle généraliste non prouvé sûr ne devrait pas être déployé comme composant autonome général d’un robot. À la rigueur, un système pourrait être validé pour un domaine opérationnel étroit, clairement délimité, avec garde-fous spécifiques et évaluations approfondies.
L’article a enfin une portée méthodologique et réglementaire. Les auteurs insistent sur le fait que la sécurité n’est pas une propriété intrinsèque du modèle, mais du système sociotechnique complet. Ils plaident donc pour des évaluations systématiques, routinières et complètes, inspirées de cadres de sécurité des systèmes plutôt que de la seule « alignment » abstraite. Ils recommandent des évaluations ex ante, des tests continus en déploiement, des mécanismes d’arrêt, des modèles parallèles de surveillance des plans et actions du robot, et des décisions de type « go/no-go » avant mise en service. Ils insistent aussi sur le fait que la responsabilité ne doit pas être déplacée d’un maillon à l’autre de la chaîne technique: ni le fournisseur du modèle ni l’intégrateur robotique ne peuvent considérer que l’équité et la sûreté relèvent seulement de l’autre.
Les auteurs reconnaissent plusieurs limites à leur étude. Celle-ci ne couvre ni toutes les caractéristiques protégées, ni toutes les tâches HRI, ni toutes les formes de dommage. Elle est menée en anglais, et certains modèles ouverts testés sont relativement petits. Elle n’évalue pas un « meilleur cas » après optimisation poussée des prompts. Mais ces limites ne diminuent pas la portée du résultat principal: si de simples prompts permettent déjà de faire émerger autant d’échecs, cela suffit à montrer que le risque est actuel et non théorique.
Pour des avocats, l’enseignement central est le suivant: dès qu’un LLM pilote un robot, la discussion ne porte plus seulement sur la qualité des réponses, mais sur l’aptitude du système à ne pas discriminer, à ne pas causer de dommage et à ne pas exécuter ou faciliter des actes illicites. L’article soutient que, à ce jour, cette aptitude n’est pas démontrée pour les modèles généralistes testés.
(Voir aussi: licencié pour avoir dénoncé le danger posé par certains robots: https://droitdutravailensuisse.com/2025/12/02/licencie-pour-avoir-denonce-des-robots-humanoides-dangereux/)
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence artificielle, CAS en Protection des données – Entreprise et administration