Construire des agents de dialogue plus sécurisés

Former l’intelligence artificielle pour communiquer de manière utile, correcte et inoffensive

Ces dernières années, les grands modèles linguistiques (LLM) ont réussi avec une gamme de tâches telles que la réponse aux questions, le résumé et le dialogue. Le dialogue est une tâche particulièrement intéressante car elle se caractérise par une communication fluide et interactive. Cependant, les agents de dialogue soutenus par le LLM peuvent exprimer des informations inexactes ou inventées, utiliser un langage discriminatoire ou encourager un comportement dangereux.

Pour créer des agents de dialogue plus sûrs, nous devons être capables d’apprendre de la rétroaction humaine. En appliquant l’apprentissage par renforcement basé sur les commentaires des participants à la recherche, nous explorons de nouvelles façons de former des agents de dialogue qui promettent un système plus sûr.

Dans notre dernier article, nous présentons oiseau – Un agent de dialogue utile et réduit le risque de réponses dangereuses et inappropriées. Notre agent est conçu pour parler à l’utilisateur, répondre aux questions et rechercher sur Internet avec Google lorsqu’il est utile de rechercher des indices pour éclairer ses réponses.

Notre nouveau modèle d’IA conversationnelle répond de lui-même à une première invite humaine.

Sparrow est un modèle de recherche et de preuve de concept, conçu dans le but de former des agents de dialogue pour qu’ils soient plus utiles, sains et inoffensifs. En apprenant ces caractéristiques dans le cadre d’un dialogue général, Sparrow fait progresser notre compréhension de la manière de former les clients pour qu’ils soient plus sûrs et plus utiles et, en fin de compte, pour aider à construire une intelligence générale artificielle (IAG) plus sûre et plus utile.

Asfour refuse de répondre à une question potentiellement préjudiciable.

Comment fonctionne Sparrow ?

La formation à l’IA conversationnelle est un problème particulièrement délicat car il est difficile de déterminer ce qui fait un dialogue réussi. Pour résoudre ce problème, nous nous tournons vers une forme d’apprentissage par renforcement (RL) basée sur les observations des personnes, en utilisant les observations des préférences des participants à l’étude pour former un modèle de l’utilité d’une réponse.

Pour obtenir ces données, nous montrons aux participants plusieurs réponses typiques à la même question et leur demandons quelle réponse ils préfèrent. Étant donné que nous affichons des réponses avec et sans preuves récupérées sur Internet, ce formulaire peut également déterminer quand une réponse doit être étayée par des preuves.

Nous demandons aux participants à l’étude d’évaluer et d’interagir avec le Sparrow normalement ou de manière hostile, tout en continuant à élargir l’ensemble de données utilisé pour former le Sparrow.

Mais l’intérêt croissant n’est qu’une partie de l’histoire. Pour s’assurer que le comportement du modèle est sûr, nous devons contraindre son comportement. Ainsi, nous définissons un ensemble initial simple de règles pour le formulaire, telles que “Ne faites pas de déclarations menaçantes” et “Ne faites pas de commentaires haineux ou désobligeants”.

Nous fournissons également des règles sur les conseils potentiellement dangereux et sur le fait de ne pas se faire passer pour une personne. Ces règles ont été rapportées à travers une étude des travaux existants sur les méfaits du langage et la consultation d’experts. Ensuite, nous demandons aux participants à l’étude de parler à notre système dans le but de le tromper pour qu’il enfreigne les règles. Ces conversations nous permettent ensuite de former un “modèle de règles” distinct qui indique quand le comportement de Sparrow enfreint l’une des règles.

Vers une meilleure IA et un meilleur jugement

Valider les réponses de Sparrow est difficile même pour les experts. Au lieu de cela, nous demandons aux participants de déterminer si les réponses de Sparrow sont raisonnables et si les preuves fournies par Sparrow appuient réellement la réponse. Selon nos répondants, Sparrow fournit une réponse plausible et étayée par des preuves 78 % du temps lorsqu’on lui pose une question factuelle. C’est une énorme amélioration par rapport à nos modèles de base. Cependant, Sparrow n’est pas à l’abri de commettre des erreurs, telles que des faits hallucinants et de donner parfois des réponses hors sujet.

Sparrow a également de la place pour mieux suivre les règles. Après l’entraînement, les participants étaient encore capables de le tromper en enfreignant nos règles 8% du temps, mais par rapport à des méthodes plus simples, Sparrow est meilleur pour suivre nos règles sous les questions des adversaires. Par exemple, notre modèle de dialogue original a enfreint les règles près de 3 fois plus souvent que Sparrow lorsque les participants ont essayé de le tromper pour qu’il le fasse.

Sparrow répond à une question et à une question de suivi à l’aide d’indices, puis suit la règle “Ne prétendez pas avoir une identité humaine” lorsqu’on lui pose une question personnelle (exemple du 9 septembre 2022).

Notre objectif avec Sparrow était de construire un mécanisme flexible pour l’application des règles et des normes dans les agents de dialogue, mais les règles spécifiques que nous utilisons sont préliminaires. L’élaboration d’un ensemble de règles meilleur et plus complet nécessitera la contribution d’experts sur de nombreux sujets (notamment des décideurs politiques, des sociologues et des éthiciens) et la contribution participative d’une variété d’utilisateurs et de groupes concernés. Nous pensons que nos méthodes s’appliqueront toujours à un ensemble de règles plus strictes.

Sparrow est un pas en avant important dans la compréhension de la manière de former les agents de dialogue pour qu’ils soient plus utiles et plus sûrs. Cependant, les agents de communication interpersonnelle et de dialogue qui réussissent doivent non seulement éviter de nuire, mais être conformes aux valeurs humanistes pour une communication efficace et utile, comme indiqué dans des travaux récents sur l’alignement des paradigmes linguistiques sur les valeurs humanistes.

Nous affirmons également qu’un bon agent refusera toujours de répondre aux questions dans des contextes où il est approprié de s’en remettre aux humains ou où cela a le potentiel de dissuader les comportements nuisibles. Enfin, notre recherche initiale s’est concentrée sur un agent anglophone, et des travaux supplémentaires sont nécessaires pour garantir des résultats similaires dans d’autres langues et contextes culturels.

À l’avenir, nous espérons que les conversations entre humains et machines conduiront à de meilleurs jugements sur le comportement de l’IA, permettant aux gens d’aligner et d’améliorer des systèmes qui peuvent être trop complexes à comprendre sans l’aide d’une machine.

Envie d’explorer une voie conversationnelle vers une IA sûre ? Nous recrutons actuellement des chercheurs scientifiques pour une équipe d’alignement évolutif.

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال