Comment les systèmes d'IA doivent-ils se comporter et qui doit décider ?

Nous décrivons comment façonner le comportement de ChatGPT et nos plans pour améliorer ce comportement, permettre une plus grande personnalisation des utilisateurs et obtenir plus de commentaires du public dans la prise de décision dans ces domaines.

La mission d’OpenAI est de s’assurer que l’Intelligence Générale Artificielle (IAG) profite à toute l’humanité. Nous réfléchissons donc beaucoup au comportement des systèmes d’IA que nous construisons dans la perspective de l’IA, et à la façon dont ce comportement est défini.

Depuis que nous avons lancé ChatGPT, les utilisateurs ont partagé des livrables qu’ils considèrent politiquement biaisés, offensants ou autrement répréhensibles. Dans de nombreux cas, nous pensons que les préoccupations soulevées étaient valables et ont révélé de réelles limites à nos systèmes que nous voulons aborder. Nous avons également constaté certaines idées fausses sur la façon dont nos systèmes et politiques fonctionnent ensemble pour façonner les résultats que vous obtenez de ChatGPT.

Ci-dessous, nous résumons :

  • comment le comportement de ChatGPT est façonné ;
  • Comment prévoyons-nous d’améliorer le comportement par défaut de ChatGPT ?
  • Notre objectif est de permettre une plus grande personnalisation du système ; Et
  • Nos efforts pour obtenir plus de commentaires du public dans notre prise de décision.

Où en sommes-nous aujourd’hui

Contrairement aux programmes réguliers, nos modèles sont d’énormes réseaux de neurones. Leurs comportements sont appris à partir d’un large éventail de données, non explicitement programmés. Bien que ce ne soit pas une analogie parfaite, le processus ressemble plus à un dressage de chiens qu’à une programmation normale. La phase initiale de “pré-formation” vient en premier, au cours de laquelle le modèle apprend à prédire le mot suivant dans une phrase, guidé par son exposition à de nombreux textes Internet (et à un large éventail de points de vue). Ceci est suivi d’une deuxième phase dans laquelle nous « ajustons » nos modèles pour affiner le comportement du système.

À ce jour, ce processus est imparfait. Parfois, le processus de réglage ne correspond pas à notre intention (produire un outil sûr et utile) et à l’intention de l’utilisateur (obtenir une sortie utile en réponse à une entrée donnée). Améliorer nos méthodes pour aligner les systèmes d’IA sur les valeurs humaines est une priorité absolue pour notre entreprise, d’autant plus que les systèmes d’IA deviennent plus performants.

Processus en deux étapes : pré-formation et mise au point

Les deux étapes principales impliquées dans la construction d’un ChatGPT fonctionnel sont les suivantes :

Générateur de schéma ChatGPT

  • Premièrement, nous”avant l’entraînement“En leur faisant prédire ce qui va suivre dans un grand ensemble de données qui contient des morceaux d’Internet. Ils pourraient apprendre à compléter la phrase “Au lieu de tourner à gauche, j’ai tourné ___”. En apprenant à partir de milliards de phrases, nos modèles apprennent la grammaire, beaucoup des faits sur le monde, et certaines capacités de raisonnement. Ils apprennent également certains des préjugés qui se trouvent dans ces milliards de phrases.
  • Ensuite nous”affinerCes modèles reposent sur un ensemble de données plus restreint que nous produisons avec soin avec des examinateurs humains en suivant les instructions que nous leur donnons. Parce que nous ne pouvons pas anticiper toutes les entrées possibles que les futurs utilisateurs peuvent entrer dans notre système, nous n’écrivons pas d’instructions détaillées pour chaque entrée que ChatGPT va Nous définissons certaines catégories dans les lignes directrices que les examinateurs utilisent pour examiner et évaluer les sorties de modèles possibles pour un ensemble d’exemples d’entrées. fournies par un utilisateur donné.

Le rôle des examinateurs et des politiques OpenAI dans le développement du système

Dans certains cas, nous pouvons fournir des instructions aux examinateurs pour un type particulier de sortie (par exemple, “Ne répondez pas aux demandes de contenu illégal”). Dans d’autres cas, les lignes directrices que nous partageons avec les évaluateurs sont de niveau plus élevé (par exemple, « éviter de prendre position sur des sujets controversés »). Plus important encore, notre collaboration avec les réviseurs n’est pas une affaire isolée – c’est une relation continue dans laquelle nous apprenons beaucoup de leurs expériences.

Une grande partie du processus de mise au point consiste à maintenir une boucle de rétroaction solide avec nos réviseurs, ce qui comprend des réunions hebdomadaires pour répondre aux questions qu’ils pourraient avoir ou fournir des éclaircissements sur nos directives. Ce processus de rétroaction itératif est la façon dont nous formons le modèle pour qu’il s’améliore de plus en plus au fil du temps.

Lutter contre les préjugés

Beaucoup s’inquiètent des biais de conception et des impacts des systèmes d’IA. Nous nous engageons à nous attaquer vigoureusement à ce problème et à faire preuve de transparence quant à nos intentions et à nos progrès. À cette fin, nous partageons une partie de nos lignes directrices sur des sujets politiques et controversés. Nos directives stipulent clairement que les examinateurs ne doivent favoriser aucun groupe politique. Les biais qui peuvent néanmoins émerger du processus ci-dessus sont des erreurs, pas des caractéristiques.

Bien que les controverses existeront toujours, nous espérons que vous partagerez ce billet de blog et que ces directives vous donneront un meilleur aperçu de la façon dont nous percevons cet aspect crucial d’une technologie aussi fondamentale. Nous pensons que les entreprises technologiques devraient être responsables de la production de politiques qui résistent à un examen minutieux.

Nous nous efforçons toujours d’améliorer la clarté de ces directives – et sur la base de ce que nous avons appris du lancement de ChatGPT jusqu’à présent, nous fournirons des instructions plus claires aux examinateurs sur les pièges et les défis potentiels associés aux préjugés, ainsi que sur les personnalités controversées. et sujets. De plus, dans le cadre d’initiatives de transparence en cours, nous nous efforçons de partager des informations démographiques agrégées sur les examinateurs d’une manière qui ne viole pas les règles et normes de confidentialité, car il s’agit d’une source supplémentaire de biais potentiel dans la sortie du système.

Nous cherchons actuellement à rendre le réglage fin plus compréhensible et contrôlable, en nous appuyant sur des développements externes tels que les récompenses basées sur des règles et l’IA constitutionnelle.

Où allons-nous : les éléments constitutifs des systèmes futurs

Dans la poursuite de notre mission, nous nous engageons à garantir un accès, un bénéfice et un impact généralisés sur l’IA et l’IA. Nous pensons qu’il existe au moins trois éléments de base nécessaires pour atteindre ces objectifs dans le contexte du comportement du système d’IA.

1. Comportement par défaut amélioré. Nous voulons que le plus grand nombre possible d’utilisateurs trouvent nos systèmes d’IA utiles “prêts à l’emploi” et aient le sentiment que notre technologie comprend et respecte leurs valeurs.

À cette fin, nous investissons dans la recherche et l’ingénierie pour réduire les biais flagrants et subtils dans la façon dont ChatGPT répond aux diverses entrées. Dans certains cas, ChatGPT rejette actuellement la sortie qu’il ne devrait pas, et dans certains cas, il ne le fait pas quand il le devrait. Nous croyons que l’amélioration des deux aspects est possible.

De plus, nous avons des marges d’amélioration dans d’autres dimensions du comportement du système telles que le système “faisant des choses”. Les commentaires des utilisateurs sont inestimables pour apporter ces améliorations.

2. Définissez vos propres valeurs d’IA, dans de larges limites. Nous pensons que l’IA doit être un outil utile pour les individus, et donc qu’elle peut être personnalisée par chaque utilisateur jusqu’aux limites fixées par la société. Par conséquent, nous développons une mise à niveau vers ChatGPT pour permettre aux utilisateurs de personnaliser facilement son comportement.

Cela signifiera autoriser les sorties du système avec lesquelles d’autres personnes (y compris nous) pourraient être fortement en désaccord. Trouver le bon équilibre ici sera difficile – pousser la personnalisation à l’extrême risquerait de permettre des utilisations nuisibles de notre technologie et de l’IA sycophante qui amplifie sans réfléchir les croyances existantes des gens.

Il y aura donc toujours des contraintes sur le comportement du système. Le défi consiste à déterminer quelles sont ces limites. Si nous essayons de prendre toutes ces décisions par nous-mêmes, ou si nous essayons de développer un système d’IA unique et interconnecté, nous échouerons dans l’engagement que nous avons pris dans notre charte d'”éviter une concentration indue du pouvoir”.

3. Contribution du public sur les valeurs par défaut et les restrictions strictes. Une façon d’éviter une concentration excessive du pouvoir est de donner aux personnes qui utilisent ou sont affectées par des systèmes comme ChatGPT la possibilité d’influencer les règles de ces systèmes.

Nous pensons que de nombreuses décisions concernant les défauts et les limites strictes doivent être prises collectivement, et bien que la mise en œuvre pratique soit un défi, nous visons à inclure autant de perspectives que possible. Comme point de départ, nous avons recherché des commentaires extérieurs sur notre technologie sous la forme d’une équipe rouge. Nous avons également récemment commencé à solliciter les commentaires du public sur l’IA dans l’éducation (un contexte particulièrement important dans lequel notre technologie est déployée).

Nous en sommes aux premiers stades des efforts pilotes visant à solliciter les commentaires du public sur des sujets tels que le comportement du système, les mécanismes de divulgation (tels que les filigranes) et nos politiques de publication plus largement. Nous explorons également des partenariats avec des organisations externes pour mener des audits externes de nos efforts en matière de sécurité et de politique.

Conclusion

La combinaison des trois blocs de construction ci-dessus donne l’image suivante de l’endroit où nous nous dirigeons :

Un diagramme de l'endroit où nous allons construire ChatGPT

Parfois, nous commettons des erreurs. Lorsque nous le faisons, nous en tirons des leçons et réitérons nos modèles et nos systèmes.

Nous apprécions la communauté d’utilisateurs de ChatGPT ainsi que la vigilance du grand public pour nous tenir responsables, et nous sommes ravis de partager davantage sur notre travail dans les trois domaines ci-dessus dans les mois à venir.

Si vous souhaitez mener des recherches pour aider à réaliser cette vision, y compris, mais sans s’y limiter, des recherches sur la justice, la représentation, l’alignement et la recherche sociotechnique pour comprendre l’impact de l’IA sur la société, veuillez demander un accès pris en charge à notre API via le programme d’accès aux chercheurs. .

Nous recrutons également pour des postes dans la recherche, l’appariement, l’ingénierie, etc.

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال