
Quelques éléments de réflexion tirés de G. Pokharel/S.Farabi/P.J.Fowler/S.Das, Street-Level AI : Are Large Language Models Ready for Real-World Judgements ? arXiv :2508.08193v2 [cs.CY], 4 septembre 2025 (https://arxiv.org/html/2508.08193v1):
L’article examine la question suivante : dans quelle mesure des modèles de langage de grande taille peuvent-ils se substituer, partiellement ou totalement, au jugement de terrain des agents publics lorsqu’il s’agit d’allouer des ressources rares, par exemple dans les services aux personnes sans domicile.
Les auteurs testent ces modèles sur des données réelles, en les comparant à la fois aux décisions humaines et aux outils standardisés déjà utilisés pour établir des priorités. Leur conclusion est claire : sans adaptation et sans garde-fous, les résultats des modèles sont instables, souvent incohérents, et mal alignés sur les principes de justice locale qui fondent les pratiques administratives.
L’introduction rappelle que de nombreux travaux confrontent déjà les raisonnements moraux des modèles d’IA à ceux d’êtres humains, souvent au moyen de dilemmes abstraits ou de cas médicaux. Mais la vraie question, insistent les auteurs, est de savoir si ces systèmes peuvent être utilisés pour remplacer ou assister les agents publics de première ligne. Ceux-ci, qualifiés de « street-level bureaucrats », doivent quotidiennement décider qui bénéficie d’une aide et selon quelles priorités. Or ces choix sont encadrés par des normes locales de justice, par exemple la règle du « vulnerability first » qui prévaut dans l’hébergement d’urgence aux États-Unis. L’enjeu n’est donc pas de trancher des dilemmes éthiques généraux, mais de vérifier si les modèles respectent ou non ces principes établis.
Le contexte institutionnel est décrit avec précision. Dans l’aide aux sans-abri, les travailleurs sociaux s’appuient sur des questionnaires standardisés, comme le VI-SPDAT et ses variantes, qui attribuent un score d’acuité en fonction de critères tels que la santé, les antécédents résidentiels ou la durée de vie à la rue. Ces barèmes visent à hiérarchiser les demandes, mais restent critiqués pour leurs biais et leur simplification excessive. En pratique, les agents sociaux disposent toujours d’une marge d’appréciation, et leurs choix ne coïncident pas toujours avec l’ordre suggéré par les outils. Cette situation rend pertinente la question d’une éventuelle substitution par des modèles de langage, d’autant que ceux-ci sont déjà utilisés dans d’autres pans de l’action sociale.
La méthodologie combine deux approches. D’une part, les auteurs reprennent une expérience où des profils de ménages sont comparés par paires, chaque fois avec la consigne de décider lequel doit recevoir une aide plus intensive. Les modèles sont testés dans différentes conditions d’information : avec uniquement les données, uniquement une prédiction de risque, une prédiction produite par le modèle lui-même, ou les deux ensembles d’informations. D’autre part, pour se rapprocher d’un usage administratif réel, ils demandent aux modèles d’établir un classement global de priorités parmi des ménages évalués par le système local. Ce classement est obtenu par agrégation de comparaisons binaires répétées, méthode statistiquement robuste et compatible avec des contraintes de confidentialité.
Les outils de référence sont les versions du VI-SPDAT et un second barème local, le RMFS. Ceux-ci sont stables et largement utilisés, ce qui permet de comparer les productions des modèles à des standards existants. Côté modèles, l’étude inclut plusieurs systèmes connus, ouverts et propriétaires, pour l’expérience par paires, et deux modèles ouverts de taille intermédiaire pour l’expérience locale, sans entraînement supplémentaire afin de simuler un usage « prêt-à-l’emploi ».
Les résultats révèlent d’abord, dans l’expérience par paires, une forte variabilité. Quand seules les données sont fournies, les modèles produisent des décisions dispersées, comme des non-spécialistes confrontés à des tableaux bruts. Lorsqu’ils ne voient que la prédiction de risque, ils adoptent des orientations stables mais divergentes : certains privilégient systématiquement les ménages à faible risque (logique de résultat), d’autres favorisent les plus vulnérables. Dans la condition mixte, leurs choix reflètent surtout la tendance révélée par la prédiction seule, rappelant l’influence observée chez les agents humains lorsqu’on leur présente un score de risque.
Mais c’est dans le classement global que l’écart est le plus net. Les barèmes produisent des ordres très stables d’une exécution à l’autre. Les modèles, eux, génèrent des classements changeants : deux exécutions indépendantes du même modèle corrèlent faiblement, parfois presque pas. Surtout, la correspondance avec les barèmes est quasi nulle, voire négative. Autrement dit, les modèles ne reproduisent pas la hiérarchie institutionnelle voulue par les questionnaires, pourtant conçus pour refléter des choix collectifs de justice locale.
Les auteurs explorent ensuite les critères implicites utilisés par les modèles. En cartographiant les priorités produites sur les réponses aux questionnaires, ils constatent que les variables jugées importantes varient d’une exécution à l’autre. Quelques thèmes reviennent, comme les conditions de logement, mais l’effet associé change de direction, et l’absence de réponse à certaines questions influe parfois plus que les réponses elles-mêmes. Ce manque de cohérence montre que les modèles peinent à stabiliser des règles claires dans un espace décisionnel structuré.
Quand on compare ces classements à la réalité des décisions humaines, mesurée par l’attribution effective de prestations intensives, aucun système ne se montre vraiment prédictif. Le VI-SPDAT fait légèrement mieux pour les adultes seuls, mais ni les barèmes ni les modèles ne captent correctement les pratiques d’allocation pour les familles et les jeunes. Cela tient au fait que les attributions dépendent de nombreux facteurs contingents, tels que la disponibilité des solutions et des considérations pratiques non codées dans les questionnaires. Les modèles, en l’état, n’apportent donc pas d’amélioration notable.
La discussion insiste sur trois points. D’abord, l’instabilité interne des modèles rend leur usage problématique dans des décisions exigeant cohérence et égalité de traitement. Ensuite, le décalage observé avec les barèmes signale que les modèles ne suivent pas les principes de justice locale, mais s’appuient sur des régularités superficielles. Enfin, même lorsqu’on regarde les résultats réels, ils ne se rapprochent pas davantage du jugement professionnel. Les auteurs recommandent donc d’éviter toute substitution directe des travailleurs sociaux par des LLM et d’envisager plutôt des usages hybrides, transparents et contrôlés par des humains.
Pour l’avenir, ils évoquent des pistes d’amélioration, comme l’entraînement sur des données locales, l’intégration d’informations multimodales ou la mise en place de mécanismes de supervision humaine. Mais ils soulignent que la clé reste l’alignement sur les normes de justice locales et la préservation d’un espace de discrétion professionnelle. Leurs conclusions sont prudentes : les modèles peuvent assister, mais non remplacer, et seulement si des garanties procédurales et de responsabilité sont mises en place.
Méthodologiquement, l’étude est robuste : données réelles, respect de la confidentialité, recours à des méthodes d’agrégation solides et vérification de la stabilité des barèmes. Les limites — absence de fine-tuning, taille réduite des modèles pour l’inférence locale — renforcent paradoxalement la pertinence des résultats, car elles reflètent le scénario réaliste d’un usage sans ressources techniques considérables. Pour des praticiens étrangers, l’apport est double : il montre la fragilité d’une approche purement algorithmique dans des politiques sociales, et rappelle la nécessité de maintenir un contrôle juridique et procédural fort.
En somme, l’article met en évidence l’écart entre l’espoir suscité par les LLM et leur performance réelle dans un contexte concret et sensible. Il démontre qu’en l’absence d’encadrement, ces modèles produisent des décisions changeantes et déconnectées des principes établis. Pour les avocats suisses intéressés par l’IA, le message est clair : l’intégration de ces outils dans le droit social ou l’action publique n’est envisageable qu’à condition de tester les modèles dans leur contexte, de définir des critères transparents, et de préserver des voies de supervision et de recours.
Me Philippe Ehrenström, avocat, LLM, CAS en Droit et Intelligence Artificielle