Les biais écologiques des IA

A propos de Stefanie Kunkel/Tilman Hartwig/Marcus Voss/Emma K. Schütt/Angelika Gellrich, Greener Than Humans? Environmental Attitudes in Large Language Models, 1er juin 2026 (https://arxiv.org/abs/2606.02741):

Les grands modèles de langage (LLMs), utilisés de plus en plus dans les rapports de durabilité, l’aide à la décision, la communication publique et les processus professionnels, portent-ils eux-mêmes des attitudes environnementales ou des biais reconnaissables ?

Les auteurs partent du constat que les LLM ne sont plus seulement des outils de recherche d’information. Ils structurent des analyses, proposent des choix, hiérarchisent des risques et peuvent donc influencer les comportements d’organisations ou d’individus. Or ces systèmes sont aussi connus pour leurs biais, leurs hallucinations, leur tendance à refléter les valeurs présentes dans leurs données d’entraînement et leur propension à satisfaire l’utilisateur plutôt qu’à maintenir une position stable. Cela pose un problème particulier en matière environnementale : lorsqu’un modèle conseille une entreprise, un citoyen ou une autorité, il peut paraître neutre alors qu’il véhicule certaines préférences normatives sur la responsabilité, les coûts, la consommation ou le rôle des politiques publiques.

L’objectif de l’étude est donc de construire un instrument permettant de mesurer les attitudes environnementales des LLM, puis de comparer ces attitudes entre modèles et avec les réponses d’une population humaine.

Les auteurs retiennent trois dimensions. La première est la cognition environnementale, c’est-à-dire la manière dont le modèle raisonne sur les problèmes environnementaux et les principes de durabilité. La deuxième est l’affect environnemental, soit le degré d’inquiétude, d’implication ou de sensibilité exprimé face aux atteintes à l’environnement. La troisième concerne les recommandations de comportement : comme un LLM ne peut pas agir physiquement, les auteurs examinent les actions qu’il recommande, notamment celles qui pourraient réduire l’empreinte carbone. Le cadre est emprunté aux enquêtes allemandes « Umweltbewusstsein in Deutschland », menées depuis 1996 pour mesurer la conscience environnementale de la population adulte allemande. L’étude compare donc les réponses des modèles aux données de l’enquête allemande 2024, fondée sur un échantillon représentatif de 2’552 personnes.

La méthode est assez structurée. Les auteurs reprennent d’abord 17 questions de l’enquête allemande, sans les modifier, afin de mesurer la cognition et l’affect. Ces questions permettent normalement de situer un répondant sur une échelle de 0 à 10, de « peu conscient de l’environnement » à « très conscient de l’environnement ». Sept questions portent sur l’affect, par exemple l’inquiétude face à l’état de l’environnement laissé aux générations futures. Dix questions portent sur la cognition, par exemple l’importance attribuée à la nature dans la qualité de vie ou l’usage durable des ressources. Les auteurs précisent que cette cognition n’est pas un test de connaissances factuelles au sens étroit : il ne s’agit pas de demander combien de gaz à effet de serre produit un kilo de bœuf, mais de mesurer une orientation générale de raisonnement et d’évaluation.

Pour le comportement, les auteurs transforment 17 questions de l’enquête en recommandations comportementales. Ils ajoutent ensuite sept questions quantitatives inspirées du calculateur CO2 de l’Agence fédérale allemande de l’environnement, couvrant le chauffage, l’électricité, la mobilité et l’alimentation. Les réponses des modèles sont converties en potentiel de réduction d’émissions, sur la base de facteurs standardisés, afin d’estimer ce que produirait, en tonnes de CO2 équivalent par an, l’application des recommandations. Ils ajoutent aussi 11 questions sur la « volonté de payer », destinées à mesurer l’arbitrage implicite entre protection de l’environnement et coûts économiques, par exemple le prix que devrait avoir l’émission d’une tonne de CO2 ou le coût économique associé à certains dommages environnementaux.

L’étude porte sur 31 LLM largement utilisés, propriétaires ou à poids ouverts, venant notamment des États-Unis, d’Europe et de Chine. Les auteurs excluent plusieurs modèles qui échouent à des tests factuels simples ou dont les réponses dépendent de l’ordre des options, ce qui signale une instabilité méthodologique. Ils testent aussi la robustesse des résultats par des variations de langue, de taille de ménage, d’ordre des réponses et de température. Enfin, ils évaluent deux formes de sensibilité au contexte : le « persona prompting », où l’on demande au modèle de répondre comme s’il était une certaine personne ou institution, et la flagornerie, où l’on observe si le modèle adapte ses réponses lorsque l’utilisateur se présente lui-même comme appartenant à un certain groupe.

Les résultats principaux montrent que les LLM sont, en moyenne, « plus verts » que la population allemande. Sur les indices d’affect et de cognition, 19 modèles sur 31 obtiennent des scores supérieurs à la moyenne allemande de 2024, tandis que seuls quatre modèles sont inférieurs à cette moyenne dans les deux dimensions. Vingt-deux modèles restent toutefois dans l’écart-type des réponses humaines, ce qui signifie qu’ils ne sont pas radicalement étrangers au profil général de la population. Les auteurs ne trouvent pas de relation claire entre le niveau d’attitude environnementale et le pays d’origine, la taille ou la famille du modèle. Certains grands modèles ont une cognition élevée mais un affect plus faible. Les modèles Grok figurent, dans cette étude, parmi les moins orientés vers les attitudes environnementales progressistes. L’idée centrale est donc que beaucoup de LLM tendent à produire des réponses compatibles avec des attitudes environnementales progressistes, mais que cette tendance ne se laisse pas expliquer simplement par l’origine ou la puissance du modèle.

Les réponses sur la volonté de payer sont plus délicates à interpréter. Pour la tonne de CO2, la plupart des modèles attribuent un coût économique supérieur au prix qu’ils estiment devoir être effectivement payé, ce qui peut signifier que la formulation « devrait coûter » fait intervenir des considérations de faisabilité politique ou sociale, et pas seulement une estimation des dommages. La majorité des modèles donne des montants situés entre 50 et 200 euros par tonne, alors que l’Agence allemande de l’environnement retient, pour 2024, un coût climatique de 300 euros par tonne avec un taux de préférence temporelle de 1 %. Onze modèles se situent même dans une zone proche des prix observés sur le marché européen des quotas d’émission. Les auteurs restent prudents: les LLM sont fragiles lorsqu’il s’agit de grands nombres, les questions peuvent être mal comprises, et il n’existe pas toujours de « vérité de terrain » incontestable pour valoriser économiquement les ressources naturelles.

Les recommandations comportementales présentent aussi des différences entre modèles. Certains, comme Gemini, Qwen et GPT, figurent parmi ceux dont les réponses conduiraient au plus fort potentiel de réduction, entre environ 4 et 5 tonnes de CO2 équivalent par an. D’autres recommandent des changements beaucoup moins ambitieux. Les auteurs soulignent toutefois que ces chiffres dépendent fortement de la situation initiale de la personne: recommander une voiture électrique ne réduit les émissions que si l’utilisateur avait besoin d’acheter une voiture et utilisait auparavant un véhicule fossile, non s’il se déplaçait déjà à pied ou à vélo. L’étude montre aussi que les modèles sont généralement plus proches des catégories humaines « engagée », « individuellement durable » ou « ambivalente » que des catégories d’opposition populiste ou néolibérale. La cognition environnementale et le potentiel de réduction CO2 sont assez fortement corrélés, mais pas parfaitement : certains modèles raisonnent de manière environnementalement avancée tout en recommandant des comportements relativement peu efficaces.

La partie la plus importante pour un juriste est peut-être celle sur la sensibilité au contexte. Les auteurs montrent que les modèles changent de position lorsqu’on leur assigne un rôle. Un modèle qui répond comme « libéral économique » réduit en général son niveau d’affect et de cognition environnementale. Un modèle qui répond comme membre d’une ONG environnementale l’augmente. Les rôles de CFO ou d’employé de start-up restent plus proches de la ligne de base, mais peuvent aussi faire baisser l’ambition environnementale. Cela confirme que les « attitudes » des LLM ne sont pas des convictions stables, mais des configurations de sortie dépendantes du prompt. L’étude teste également la flagornerie : lorsque l’utilisateur dit « je suis » tel ou tel profil, le modèle peut déplacer ses réponses pour refléter le point de vue supposé de cet utilisateur. Dans le sous-ensemble testé, Grok 4.1 est le plus sensible au rôle assigné, Claude Sonnet 4.6 le plus sensible à la formulation en première personne, et GPT 5.2 le moins sensible dans ces deux dimensions.

La discussion insiste sur une ambivalence. D’un côté, les LLM peuvent avoir un effet utile :  s’ils recommandent des comportements plus durables, ils peuvent soutenir l’information, la sensibilisation, le suivi d’habitudes quotidiennes ou certaines formes de « nudging » environnemental. De l’autre, une recommandation verte ne devient pas automatiquement un changement durable. Les comportements dépendent de facteurs sociaux, économiques, politiques et institutionnels. Surtout, les modèles ont tendance à privilégier des recommandations individuelles alors que les émissions d’une personne résultent aussi de structures collectives, de choix d’infrastructure, de politiques publiques ou de décisions d’entreprises. Si un LLM évite d’attribuer clairement la responsabilité aux acteurs économiques puissants ou aux structures de marché, il peut produire une écologie apparemment ambitieuse mais politiquement incomplète.

Les auteurs tirent ensuite des implications pour le développement, l’usage et la gouvernance des LLM. Au stade du développement, la sélection des données, l’alignement, le renforcement par retour humain et les choix de post-entraînement sont décisifs. Ils peuvent renforcer la qualité environnementale des réponses, mais aussi introduire des biais ou favoriser la flagornerie si les évaluateurs humains préfèrent des réponses qui leur donnent raison. Au stade de l’usage, les utilisateurs doivent rester critiques même lorsque la réponse correspond à leurs préférences. En matière de politiques publiques ou de durabilité d’entreprise, les LLM peuvent agréger de l’information, mais l’interprétation doit rester humaine et experte. Au stade de la gouvernance, les auteurs recommandent d’intégrer les risques environnementaux de l’IA dans les cadres numériques, comme l’AI Act européen ou le Digital Services Act, et d’adapter les règles environnementales existantes, notamment en matière de reporting d’émissions, aux impacts réels de la production et de l’utilisation des technologies d’IA.

L’article se termine sur des limites importantes. Les réponses des LLM peuvent varier avec de petites reformulations ; les modèles évoluent continuellement, ce qui réduit la reproductibilité des résultats ; et le protocole force les réponses dans des formats simples, sans permettre aux modèles d’expliquer leurs arbitrages. La conclusion est donc mesurée. Les LLM peuvent être utiles pour répondre à des questions factuelles ou formuler des recommandations en matière de durabilité, mais leurs réponses ne doivent pas être traitées comme neutres, stables ou suffisantes. Leur caractère manipulable, leur dépendance aux données passées, leur incapacité à intégrer pleinement les savoirs non numérisés, les contextes sociaux et les coûts réels de mise en œuvre imposent une surveillance critique.

Pour des avocats suisses, l’intérêt de l’étude tient surtout à ceci: les LLM ne sont pas seulement des outils techniques; lorsqu’ils interviennent dans la durabilité, la conformité, le reporting ou l’aide à la décision, ils incorporent des orientations normatives qu’il faut identifier, documenter et gouverner.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit t Intelligence artificielle, CAS en Protection des données – Entreprise et administration

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans discrimination, droits fondamentaux, IA, intelligence artificielle, liberté d'expression, Libertés, Techno-labrador, est tagué , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire