Tag Archives: Désalignement émergent

Le désalignement émergent dans les Large Language Models

Objectif : tester si l’apprentissage d’un comportement nuisible dans un domaine restreint (le code) pouvait influencer défavorablement la conduite du Large Language Model dans des contextes complètement différents. Spoiler: on dirait bien que oui. Lire la suite

Publié dans intelligence artificielle, Protection des données | Tagué , , , | Laisser un commentaire