Notre approche pour aligner l’IA est expérimentale et itérative. Nous améliorons la capacité de nos systèmes d’IA à apprendre des commentaires humains et à aider les humains à évaluer l’IA. Notre objectif est de construire un système d’IA suffisamment compatible qui puisse nous aider à résoudre tous les autres problèmes d’alignement.
introduction
Notre recherche de compatibilité vise à aligner l’Intelligence Générale Artificielle (IAG) sur les valeurs humaines et à suivre les intentions humaines. Nous adoptons une approche itérative et empirique : en essayant d’aligner des systèmes d’IA puissants, nous pouvons apprendre ce qui fonctionne et ce qui ne fonctionne pas, améliorant ainsi notre capacité à rendre les systèmes d’IA plus sûrs et conformes. À l’aide d’expériences scientifiques, nous étudions comment les techniques d’alignement évoluent et où elles se cassent.
Nous abordons les problèmes d’alignement dans nos systèmes d’IA les plus performants ainsi que les problèmes d’alignement que nous nous attendons à rencontrer sur notre chemin vers l’IA. Notre objectif principal est de pousser les idées d’alignement existantes aussi loin que possible, et de comprendre et de documenter précisément comment elles fonctionnent ou pourquoi elles échouent. Nous pensons que même sans idées d’alignement fondamentalement nouvelles, nous pouvons probablement construire des systèmes d’IA suffisamment alignés pour faire des progrès significatifs dans la recherche sur l’alignement elle-même.
Une IA générale non alignée peut poser des risques importants pour l’humanité, et résoudre le problème de l’alignement d’une IA générale peut être si difficile qu’il faudra que toute l’humanité travaille ensemble. Nous nous engageons donc à partager publiquement nos recherches sur la compatibilité lorsque cela est sûr : nous voulons être transparents sur le fonctionnement pratique des technologies d’alignement et nous voulons que chaque développeur d’IA utilise la meilleure technologie d’alignement au monde.
À un niveau élevé, notre approche de l’alignement de la recherche se concentre sur la conception d’un signal de formation évolutif pour des systèmes d’IA hautement intelligents alignés sur les intentions humaines. Elle repose sur trois piliers principaux :
- Formation des systèmes d’IA à l’aide de la rétroaction humaine
- Former des systèmes d’IA pour aider l’évaluation humaine
- Former des systèmes d’intelligence artificielle pour mener des recherches sur la réconciliation
L’alignement des systèmes d’IA sur les valeurs humaines pose également une foule d’autres défis sociaux et techniques importants, tels que les personnes sur lesquelles ces systèmes doivent s’aligner. Résoudre ces problèmes est important pour accomplir notre mission, mais nous n’en discuterons pas dans cet article.
Formation des systèmes d’IA à l’aide de la rétroaction humaine
RL à partir de la rétroaction humaine est notre technologie principale pour aligner les modèles de langage que nous utilisons aujourd’hui. Nous formons une classe de modèles appelée InstructGPT qui est dérivée de modèles de langage pré-formés tels que GPT-3. Ces modèles sont formés pour suivre l’intention humaine : à la fois l’intention explicite donnée par le biais d’instructions et l’intention implicite telle que l’honnêteté, l’équité et la sécurité.
Nos résultats montrent qu’il y a beaucoup de fruits suspendus dans le réglage fin axé sur l’alignement en ce moment : les humains préfèrent InstructGPT à un modèle de pré-formation 100 fois plus grand, alors que ses coûts de réglage fin sont inférieurs à 2 % du GPT de pré-formation. -3 dépenses. Et environ 20 000 heures de rétroaction humaine. Nous espérons que notre travail inspirera d’autres acteurs de l’industrie à accroître leur investissement dans l’alignement de modèles de langage étendus et à élever les attentes des utilisateurs quant à l’intégrité des modèles publiés.
Notre API en langage naturel est un environnement très utile pour nos recherches de compatibilité : elle nous donne une riche boucle de rétroaction sur le fonctionnement réel de nos technologies d’alignement, et elle sous-tend un ensemble très diversifié de tâches que nos clients sont prêts à payer. l’argent pour. En moyenne, nos clients préfèrent déjà utiliser InstructGPT plutôt que nos modèles pré-formés.
Cependant, les versions actuelles d’InstructGPT sont loin d’être parfaitement compatibles : elles échouent parfois à suivre des instructions simples, ne sont pas toujours honnêtes, ne rejettent pas de manière fiable les tâches malveillantes et donnent parfois des réponses biaisées ou toxiques. Certains clients trouvent que les réponses d’InstructGPT sont nettement moins créatives que les modèles testés précédemment, ce que nous n’avions pas réalisé en exécutant InstructGPT sur des benchmarks accessibles au public. Nous développons également une compréhension scientifique plus détaillée du RL à partir de la rétroaction humaine et de la manière d’améliorer la qualité de la rétroaction humaine.
L’alignement de notre API est beaucoup plus facile que l’alignement sur l’IA générale, car la plupart des tâches de notre API ne sont pas trop difficiles à superviser pour les humains, et nos modèles de langage ne sont pas beaucoup plus intelligents que les humains. Nous ne nous attendons pas à ce que le RL de la rétroaction humaine soit suffisant pour l’alignement général de l’IA, mais c’est un élément de base pour les propositions d’alignement évolutives dont nous sommes très enthousiastes, et il vaut donc la peine de maîtriser cette méthodologie.
Modèles de formation pour faciliter l’évaluation humaine
Le RL de la rétroaction humaine a une limite fondamentale : il suppose que les humains peuvent évaluer avec précision les tâches effectuées par nos systèmes d’IA. Les humains d’aujourd’hui sont très bons dans ce domaine, mais à mesure que les modèles deviennent plus capables, ils seront capables d’effectuer des tâches difficiles à évaluer pour les humains (par exemple, trouver tous les défauts dans une grande base de données ou un article scientifique). Nos modèles peuvent apprendre à dire aux évaluateurs humains ce qu’ils veulent entendre plutôt que la vérité. Afin de mesurer l’alignement, nous voulons utiliser des techniques telles que la modélisation de récompense récursive (RRM), le débat et l’amplification itérative.
Notre orientation principale est actuellement basée sur la RRM : nous entraînons des modèles qui peuvent aider les humains à évaluer nos modèles sur des tâches difficiles à évaluer directement par les humains. Par exemple:
- Nous avons formé un modèle de résumé de livre. L’évaluation des résumés de livres prend beaucoup de temps pour les humains s’ils ne sont pas familiers avec le livre, mais notre modèle peut aider l’évaluation humaine en écrivant des résumés de chapitre.
- Nous avons formé un modèle pour aider les humains à évaluer l’exactitude factuelle en naviguant sur le Web et en fournissant des citations et des liens. Pour les questions simples, les sorties de ce modèle sont en fait préférées aux réponses écrites par des humains.
- Nous avons entraîné un modèle à écrire des commentaires critiques sur sa propre sortie : dans une tâche de synthèse basée sur des requêtes, l’assistance à la rétroaction critique augmente les défauts que les humains trouvent dans les sorties du modèle de 50 % en moyenne. Cela est vrai même si nous demandons aux humains d’écrire des résumés qui semblent plausibles mais qui ne sont pas vrais.
- Nous créons un ensemble de tâches de codage qui sont définies comme étant difficiles à évaluer de manière fiable pour les humains non assistés. Nous espérons publier cet ensemble de données bientôt.
Nos techniques d’alignement doivent fonctionner même si nos systèmes d’IA proposent des solutions très créatives (comme l’étape 37 dans AlphaGo), et nous sommes donc particulièrement intéressés par les modèles de formation pour aider les humains à faire la distinction entre les solutions correctes et incorrectes ou trompeuses. Nous pensons que la meilleure façon d’en apprendre le plus possible sur la façon de rendre pratique l’évaluation assistée par l’IA est de créer des assistants d’IA.
Former des systèmes d’intelligence artificielle pour mener des recherches sur la réconciliation
Il n’existe actuellement aucune solution indéfiniment évolutive connue au problème d’alignement. Au fur et à mesure que l’IA progresse, nous nous attendons à rencontrer un certain nombre de nouveaux problèmes d’alignement que nous n’avons pas encore remarqués dans les systèmes existants. Certains de ces problèmes auxquels nous nous attendons maintenant et certains d’entre eux seront complètement nouveaux.
Nous pensons qu’il est probablement très difficile de trouver une solution évolutive indéfiniment. Au lieu de cela, nous visons une approche plus pragmatique : construire et adapter un système qui peut faire progresser la recherche plus rapidement et mieux que les humains.
Au fur et à mesure que nous progressons à cet égard, nos systèmes d’IA peuvent prendre en charge de plus en plus notre travail d’alignement, en concevant, mettant en œuvre, étudiant et développant de meilleures techniques d’alignement que celles que nous avons actuellement. Ils travailleront avec les humains pour s’assurer que leurs successeurs sont plus en phase avec les humains.
Nous pensons qu’il est beaucoup plus facile d’évaluer la recherche de jumelage que de la produire, surtout lorsqu’elle est fournie avec l’aide d’une évaluation. Ainsi, les chercheurs humains concentreront de plus en plus leurs efforts sur l’examen des recherches d’appariement effectuées par les systèmes d’IA plutôt que de faire ces recherches eux-mêmes. Notre objectif est de former les modèles afin qu’ils soient compatibles afin que nous puissions décharger la quasi-totalité du travail cognitif requis pour la recherche d’adaptation.
Plus important encore, nous n’avons besoin que de systèmes d’IA “plus étroits” dotés de capacités au niveau humain dans les domaines concernés pour effectuer des recherches de jumelage ainsi que des humains. Nous nous attendons à ce que ces systèmes d’IA soient plus faciles à adapter que les systèmes à usage général ou les systèmes plus intelligents que les humains.
Les modèles de langage sont particulièrement adaptés à l’automatisation de la recherche d’alignement car ils sont “pré-chargés” avec beaucoup de connaissances et d’informations sur les valeurs humaines issues de la lecture d’Internet. Hors de la boîte, ils ne sont pas des agents indépendants et ne poursuivent donc pas leurs propres objectifs dans le monde. Pour effectuer des recherches de jumelage, ils n’ont pas besoin d’un accès illimité à Internet. Cependant, de nombreuses tâches de recherche d’alignement peuvent être définies comme des tâches de langage naturel ou de balisage.
Les futures versions de WebGPT, InstructGPT et Codex peuvent fournir une base en tant qu’aides à l’alignement, mais elles ne sont pas encore suffisamment performantes. Bien que nous ne sachions pas quand nos modèles seront suffisamment capables de contribuer de manière significative à la recherche sur l’adaptation, nous pensons qu’il est important de commencer tôt. Une fois que nous avons formé un modèle qui peut être utile, nous prévoyons de le rendre plus accessible à la communauté de recherche sur l’ajustement extérieur.
déterminants
Nous sommes très enthousiasmés par cette approche d’adaptation de l’IA, mais nous prévoyons qu’elle devra s’adapter et s’améliorer à mesure que nous en apprendrons davantage sur l’évolution de la technologie de l’IA. Notre approche présente également un certain nombre de limites importantes :
- La voie décrite ici souligne l’importance de la recherche sur la robustesse et l’interprétabilité, deux domaines dans lesquels OpenAI n’investit pas actuellement. Si cela correspond à votre profil, veuillez postuler pour nos postes de chercheur scientifique !
- L’utilisation de l’assistance de l’IA dans l’évaluation a le potentiel d’élargir ou d’amplifier les incohérences subtiles, les biais ou les faiblesses trouvés dans l’assistant d’IA.
- L’alignement d’une IA générale impliquera probablement la résolution de problèmes très différents de l’alignement des systèmes d’IA existants. Nous nous attendons à ce que la transition soit assez continue, mais s’il y a des pannes majeures ou des changements de modèle, la plupart des leçons tirées de l’alignement de modèles comme InstructGPT peuvent ne pas être directement utiles.
- Les parties les plus difficiles du problème d’alignement peuvent ne pas être liées à la conception d’un signal de formation évolutif et cohérent pour nos systèmes d’IA. Même si cela était vrai, ce signal d’entraînement serait nécessaire.
- Il n’est peut-être pas fondamentalement plus facile d’aligner des modèles qui peuvent accélérer de manière significative la recherche sur l’alignement que de s’aligner sur l’intelligence artificielle générale. En d’autres termes, les modèles les moins performants qui peuvent aider à la recherche d’alignement pourraient être très dangereux s’ils ne sont pas correctement alignés. Si cela était vrai, nous n’obtiendrions pas beaucoup d’aide de nos systèmes avec des problèmes d’alignement.
Nous sommes impatients d’embaucher des personnes plus talentueuses pour ce type de recherche! Si cela vous intéresse, nous recrutons des Ingénieurs de Recherche et des Chercheurs Scientifiques !