Comment des objectifs indésirables peuvent survenir avec les bonnes récompenses

Explorer des exemples de mauvaise généralisation des objectifs – où les capacités d’un système d’IA sont généralisées mais son objectif ne l’est pas

Alors que nous construisons des systèmes d’IA de plus en plus avancés, nous voulons nous assurer qu’ils ne poursuivent pas d’objectifs indésirables. Un tel comportement d’agent IA est souvent le résultat de jeux de spécifications – exploitant un mauvais choix de ce pour quoi ils sont récompensés. Dans notre dernier article, nous explorons un mécanisme plus subtil par lequel les systèmes d’IA peuvent involontairement apprendre à poursuivre des cibles indésirables : Mauvaise généralisation de l’objectif (GMG).

GMG se produit lorsque le système Capacités Généraliser avec succès mais cela But Il ne généralise pas comme souhaité, de sorte que le système recherche efficacement la mauvaise cible. Surtout, contrairement aux jeux de spécifications, GMG peut se produire même lorsque le système d’IA est formé avec la bonne spécification.

Nos travaux antérieurs sur la transmission culturelle ont conduit à un exemple de comportement GMG que nous n’avons pas conçu. L’agent (point bleu ci-dessous) doit se déplacer dans son environnement en visitant les sphères colorées dans le bon ordre. Pendant la formation, il y a un agent “expert” (le point rouge) qui visite les sphères colorées dans le bon ordre. L’agent apprend que suivre le point rouge est une stratégie gratifiante.

L’agent (bleu) observe l’expert (rouge) pour décider dans quel champ aller.

Malheureusement, alors que l’agent fonctionne bien pendant la formation, il fonctionne mal lorsque, après la formation, nous remplaçons l’expert par un “anti-expert” qui visite les domaines dans le mauvais ordre.

L’agent (bleu) suit l’expert (rouge), accumulant une récompense négative.

Bien que l’agent puisse remarquer qu’il reçoit une récompense négative, il ne poursuit pas l’objectif souhaité de “visiter les domaines dans le bon ordre” et poursuit plutôt efficacement l’objectif de “suivre l’agent rouge”.

GMG ne se limite pas à des environnements d’apprentissage améliorés comme ceux-ci. En fait, cela peut arriver avec n’importe quel système d’apprentissage, y compris «l’apprentissage en quelques coups» de grands modèles de langage (LLM). Les approches d’apprentissage moins instantané visent à construire des modèles précis avec moins de données de formation.

Nous avons demandé à notre LLM, Gopher, d’évaluer des expressions linéaires impliquant des variables inconnues et des constantes, telles que x + y-3. Pour résoudre ces expressions, Gopher doit d’abord se renseigner sur les valeurs des variables inconnues. Nous lui donnons dix exemples d’entraînement, dont chacun comprend deux variables inconnues.

Au moment du test, on pose au modèle des questions avec une ou trois variables inconnues. Bien que le modèle se généralise correctement aux expressions à une ou trois variables inconnues, lorsqu’il n’y a pas d’inconnues, il soulève des questions redondantes telles que “qu’est-ce que 6 ?”. Le formulaire interroge toujours l’utilisateur au moins une fois avant de donner une réponse, même si cela n’est pas nécessaire.

Dialogues avec Gopher pour l’apprentissage de petits coups dans une tâche d’évaluation d’expressions, mettant en évidence le comportement GMG.

Dans notre article, nous fournissons des exemples supplémentaires dans d’autres contextes d’apprentissage.

Le traitement GMG est essentiel pour aligner les systèmes d’IA sur les objectifs de leurs concepteurs simplement parce qu’il s’agit d’un mécanisme par lequel un système d’IA peut avoir des ratés. Cela sera particulièrement critique à mesure que nous nous rapprochons de l’intelligence générale artificielle (IAG).

Envisagez deux types de systèmes d’IA possibles :

A1 : Le modèle prévu. Ce système d’IA fait ce que ses concepteurs veulent qu’il fasse.
A2 : Un modèle trompeur. Ce système d’intelligence artificielle poursuit certaines cibles indésirables, mais (par hypothèse) est également assez intelligent pour savoir qu’elles seront punies si elle se comporte de manière contraire aux intentions de son concepteur.

Étant donné que A1 et A2 présenteront le même comportement pendant la formation, la probabilité GMG signifie que n’importe quel modèle peut se former, même avec seulement une spécification équivalente au comportement prévu. S’il est appris, A2 tentera de subvertir la surveillance humaine afin de mettre en œuvre ses plans envers la cible indésirable.

Notre équipe de recherche sera ravie de voir les travaux de suivi portant sur la probabilité que le GMG se produise dans la pratique et les atténuations potentielles. Dans notre article, nous proposons quelques approches, y compris l’interprétation instrumentale et l’évaluation itérative, sur lesquelles nous travaillons activement.

‍

Nous collectons actuellement des exemples de GMG dans cette feuille de calcul accessible au public. Si vous rencontrez des erreurs de généralisation objective dans la recherche en IA, nous vous invitons à fournir ici des exemples.

Comment des objectifs indésirables peuvent survenir avec les bonnes récompenses

Explorer des exemples de mauvaise généralisation des objectifs – où les capacités d’un système d’IA sont généralisées mais son objectif ne l’est pas

Enregistrer un commentaire

نموذج الاتصال