Comment l’IA apprend et se développe (I)  : l’apprentissage par renforcement prolongé

Quelques notes à partir de M. Liu et al., ProRL : Prolonged Reinforcement Learning Expands Reasoning Boudaries in Large Language Models, arXiv :2505.24864v1 [cs.CL], 30 mai 2025 (lien : https://arxiv.org/abs/2505.24864):

Les Large Language Models (LLM) sont conçus pour manipuler du langage de façon quasi humaine, grâce à un entraînement massif sur d’énormes corpus textuels. Cependant, au-delà de la capacité à générer du texte fluide ou cohérent, un enjeu majeur pour ces modèles est désormais leur capacité à raisonner. Autrement dit, peut-on vraiment enseigner à ces machines à « penser », à produire des raisonnements structurés, logiques, complexes – similaires à ceux qu’un humain peut formuler dans des contextes juridiques, scientifiques ou techniques ?

Pour répondre à cette question, l’équipe de recherche de NVIDIA interroge une hypothèse largement débattue dans la communauté scientifique : l’apprentissage par renforcement, qui consiste à ajuster un modèle en fonction de récompenses précises attribuées à ses réponses, permet-il d’élargir ses capacités de raisonnement, ou ne fait-il qu’exacerber ses compétences déjà existantes? En d’autres termes, est-ce que l’on apprend quelque chose de nouveau au modèle, ou l’aide-t-on simplement à répéter, de manière plus efficace, ce qu’il savait déjà, parfois inconsciemment, à partir de son entraînement initial ?

Les auteurs de l’article proposent une nouvelle méthode d’entraînement, baptisée ProRL – pour « Prolonged Reinforcement Learning » – c’est-à-dire un apprentissage par renforcement prolongé dans le temps, beaucoup plus long que ce qui était traditionnellement pratiqué jusqu’ici. Cette méthode repose sur la conviction que, si on laisse suffisamment de temps au modèle, et si on l’expose à une variété de tâches bien choisies, alors il peut sortir des sentiers battus, inventer de nouveaux raisonnements, et ainsi véritablement repousser les frontières de sa compréhension.

Le point de départ de l’étude repose sur une critique des méthodes antérieures, qui tendaient à tirer des conclusions trop hâtives quant à l’efficacité du renforcement. En général, les expériences de renforcement précédentes s’effectuaient sur un nombre limité d’itérations (quelques centaines tout au plus), sur des tâches très spécialisées (souvent en mathématiques), et dans des conditions peu propices à l’exploration. Ce manque de diversité, combiné à des durées d’entraînement trop courtes, ne permettait pas aux modèles d’explorer suffisamment leur espace de solution. ProRL, au contraire, se donne pour objectif de maximiser cette exploration, en augmentant le temps d’apprentissage, en diversifiant les tâches, et en stabilisant le processus de renforcement avec des mécanismes techniques spécifiques.

La méthode repose sur une base algorithmique appelée GRPO – Group Relative Policy Optimization – qui permet d’ajuster les politiques du modèle (c’est-à-dire les règles selon lesquelles il génère ses réponses) non pas à partir de valeurs absolues, mais en comparant ses performances relatives au sein d’un groupe de tentatives. Cette approche permet de se passer d’un modèle de valeur externe et réduit les biais d’optimisation. Cependant, prolonger un apprentissage par renforcement sur des milliers d’étapes pose des problèmes de stabilité. Un phénomène typique dans ce contexte est ce que l’on appelle l’« effondrement de l’entropie » : le modèle se met à privilégier quelques réponses bien notées, au point d’ignorer totalement les autres, ce qui bloque l’exploration. Pour contrer cela, les chercheurs introduisent une régularisation fondée sur la divergence de Kullback-Leibler (KL), qui empêche le modèle de s’éloigner trop d’un point de référence, et ils réinitialisent régulièrement cette référence pour éviter l’enlisement.

Ils introduisent également des éléments empruntés à une méthode antérieure nommée DAPO, tels que l’ajustement dynamique des exemples utilisés (en supprimant ceux trop faciles ou trop durs) et le découplage des paramètres de « clipping », qui détermine dans quelle mesure les probabilités de certaines réponses sont amplifiées ou atténuées. Ces ajustements permettent de maintenir un niveau de diversité suffisant dans les réponses générées, condition indispensable pour que de nouvelles formes de raisonnement émergent.

Les chercheurs mettent à profit cette méthode pour entraîner un nouveau modèle, baptisé Nemotron-Research-Reasoning-Qwen-1.5B. Ce modèle est basé sur un modèle existant, DeepSeek-R1-1.5B, qu’il dépasse largement dans toutes les dimensions évaluées. L’entraînement a été réalisé sur un corpus de 136 000 tâches soigneusement sélectionnées, couvrant les domaines des mathématiques, de la programmation, des sciences, de la logique et des instructions complexes. Toutes ces tâches ont la particularité de pouvoir être évaluées automatiquement par des récompenses vérifiables, ce qui est crucial pour l’apprentissage par renforcement.

Les résultats allégués sont impressionnants. Le modèle Nemotron surpasse le modèle de base de 14,7 % en mathématiques, de 13,9 % en code, de 25,1 % en raisonnement scientifique, de 18,1 % dans les tâches d’exécution d’instructions, et de 54,8 % dans les puzzles logiques complexes. Il rivalise même avec des modèles bien plus grands, comme DeepSeek-R1-7B. Mais plus encore, ce que les auteurs montrent, c’est que ces gains sont encore possibles après 2 000 étapes de renforcement – une durée sans précédent. Cela démontre que le modèle continue à progresser même lorsque les approches traditionnelles cessent d’être efficaces.

L’article va plus loin en étudiant la capacité du modèle à généraliser. Il s’intéresse à des tâches dites « hors distribution » (out-of-distribution), c’est-à-dire des problèmes qui ne ressemblent pas à ceux vus pendant l’entraînement. Or, dans plusieurs cas, le modèle Nemotron parvient à les résoudre avec succès, alors que le modèle de base échoue systématiquement. Un exemple marquant est celui de la tâche boxnet, où le modèle initial n’arrive jamais à donner une bonne réponse, tandis que le modèle entraîné par ProRL atteint un taux de réussite de 100 %. Cela démontre que le modèle n’a pas seulement appris à mieux répondre aux problèmes qu’il connaissait, mais qu’il a véritablement développé une capacité d’adaptation à des contextes nouveaux.

Les auteurs analysent également l’évolution des distributions de performance au fil du temps. Ils observent que la proportion de réponses correctes en première tentative (pass@1) augmente de manière significative, mais surtout, que la distribution des performances se déplace dans son ensemble, c’est-à-dire que le modèle devient globalement plus fiable. Il ne s’agit donc pas simplement d’un tri plus intelligent des meilleures réponses, mais bien d’une transformation profonde des capacités de raisonnement du système.

Les auteurs catégorisent les tâches en trois types selon leur réaction au renforcement. Certaines voient leurs performances diminuer légèrement en raison d’une spécialisation excessive – c’est le cas notamment pour des problèmes mathématiques très connus, où le modèle devient trop confiant dans des solutions standards. D’autres atteignent rapidement un plateau, ce qui signifie que le renforcement les améliore au début, puis cesse d’avoir un effet. Mais enfin, et c’est le plus important, un grand nombre de tâches bénéficient de gains continus et progressifs tout au long de l’entraînement, ce qui indique que le modèle explore effectivement de nouveaux territoires conceptuels.

L’article conclut que l’apprentissage par renforcement prolongé permet aux grands modèles de langage de dépasser leurs limitations initiales, non seulement en termes de performance brute, mais aussi en termes de diversité, d’adaptabilité et de créativité. Les chercheurs introduisent un indicateur qu’ils nomment « indice de créativité », qui mesure dans quelle mesure une réponse ressemble à ce que le modèle a vu pendant son pré-entraînement. Un indice élevé indique que le modèle a produit quelque chose de nouveau, de non banal. Or, cet indice augmente avec ProRL, ce qui tend à confirmer que le modèle développe des raisonnements originaux.

Dans un contexte juridique, cela signifie que des modèles d’intelligence artificielle peuvent, par apprentissage structuré prolongé, développer des capacités de raisonnement inédites, même sur des données qu’ils n’ont jamais vues. Cela ouvre sans doute la porte à des applications nouvelles dans le domaine du droit, mais cela pose aussi des questions de responsabilité : quelle est la responsabilité d’un système qui invente une solution que ses concepteurs n’avaient pas anticipée ? Jusqu’à quel point un raisonnement généré peut-il être considéré comme fiable, explicable, ou conforme au droit ? Et surtout, peut-on déléguer une part de la fonction de jugement à un système qui apprend à raisonner de manière autonome ?

L’article montre donc que l’apprentissage par renforcement prolongé n’est pas simplement une technique d’optimisation, mais un levier pour faire émerger une forme de raisonnement artificiel évolutif.

Sohrab Rahimi – qui est une source d’information très utile sur les aspects techniques de l’IA – souligne que l’apprentissage par renforcement (RL) est en train de devenir une stratégie essentielle pour améliorer la façon dont les modèles de langage raisonnent (voir son post sur Linkedin https://www.linkedin.com/posts/sohrab-rahimi_reinforcement-learning-rl-is-becoming-a-activity-7342178234358263809-MBu8?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAX2b5oB2W8RFgEb7aoRz8wscswBHlxf0Mg dont j’ai tiré la référence de l’article).

Il note qu’historiquement, l’apprentissage par renforcement dans les LLM était utilisé à l’étape finale de l’entraînement pour aligner le comportement du modèle sur les préférences humaines. Cela a aidé les modèles à paraître plus utiles ou polis, mais cela n’a pas élargi leur capacité à résoudre des problèmes complexes. L’apprentissage par renforcement est maintenant appliqué plus tôt et plus profondément, non seulement pour ajuster les résultats, mais aussi pour aider les modèles à apprendre à penser, à s’adapter et à généraliser à différents types de défis de raisonnement.

Dans ce contexte, l’article susmentionné suggère que l’apprentissage par renforcement, lorsqu’il est structuré et soutenu, peut débloquer de nouvelles capacités de raisonnement que le pré entraînement seul n’atteint pas.

Cette publication, avec d’autres dont nous parlerons ces prochains jours, semblent montrer que l’apprentissage par renforcement est maintenant en train de devenir un mécanisme permettant d’accroître la capacité du modèle à réfléchir, à généraliser et à résoudre des problèmes sur lesquels il n’a pas été explicitement formé.

Elle montre aussi qu’au lieu de compresser plus de connaissances dans un modèle figé, nous commençons à former des systèmes qui peuvent apprendre à s’améliorer en cours de processus. Les modèles de l’avenir ne seront ainsi pas forcément plus grands, mais des modèles qui apprennent mieux grâce à la rétroaction, à l’autoréflexion et aux essais et erreurs structurés.

Me Philippe Ehrenström, avocat, LLM, CAS en Droit et intelligence artificielle

Avatar de Inconnu

About Me Philippe Ehrenström

Ce blog présente certains thèmes juridiques en Suisse ainsi que des questions d'actualité. Il est rédigé par Me Philippe Ehrenström, avocat indépendant, LL.M., Yverdon-les-Bains
Cet article, publié dans intelligence artificielle, est tagué , , , , , , . Ajoutez ce permalien à vos favoris.

Laisser un commentaire