Nouveau classificateur d'IA pour faire référence au texte saisi par l'IA

Nous lançons un outil de classification qui a été formé pour faire la distinction entre l’IA et le texte écrit par l’homme.

Nous avons entraîné le classificateur à faire la distinction entre un texte écrit par un humain et un texte écrit par une IA provenant de divers fournisseurs. Bien qu’il soit impossible de détecter de manière fiable tous les textes générés par l’IA, nous pensons que de bons compilateurs peuvent atténuer les fausses allégations selon lesquelles le texte généré par l’IA a été écrit par un humain : par exemple, lancer des campagnes de désinformation automatisées, utiliser des outils d’intelligence artificielle pour la désinformation universitaire. , et la configuration d’un chatbot IA en tant qu’humain.

Notre classificateur n’est pas complètement fiable. Dans nos évaluations sur le « défi » des textes en anglais, le classificateur identifie correctement 26 % des textes écrits par l’IA (vrais pros) comme « susceptibles d’être écrits par l’IA », classant à tort le texte écrit par l’homme comme écrit par l’IA 9 % du temps (faux positifs). La fiabilité de notre classificateur s’améliore généralement à mesure que la longueur du texte d’entrée augmente. Comparé au classificateur précédemment publié, ce nouveau classificateur est nettement plus fiable sur les textes que les nouveaux systèmes d’IA.

Nous mettons ce manuel à la disposition du public pour obtenir des commentaires sur l’utilité d’outils imparfaits tels que celui-ci. Notre travail sur la détection de texte généré par l’IA se poursuivra et nous espérons partager des méthodes améliorées à l’avenir.

Essayez par vous-même notre cahier de travail gratuit en cours :

déterminants

Notre classificateur a un certain nombre de limitations importantes. Il ne doit pas être utilisé comme un outil de prise de décision principalmais plutôt en complément d’autres méthodes de détermination de la source d’un texte.

  1. Le classeur n’est pas très fiable sur des textes courts (moins de 1000 caractères). Les textes plus longs sont parfois mal étiquetés par le classifieur.
  2. Parfois, le texte saisi de manière incorrecte mais en toute confiance est étiqueté comme écrit par l’IA.
  3. Nous vous recommandons d’utiliser le classeur uniquement pour le texte en anglais. Il fonctionne moins bien dans d’autres langages et n’est pas fiable dans le code.
  4. Un texte hautement prévisible ne peut pas être identifié de manière fiable. Par exemple, il est impossible de prédire si une liste des 1 000 premiers nombres premiers est écrite par l’IA ou par des humains, car la bonne réponse est toujours la même.
  5. Le texte saisi peut être modifié avec AI pour échapper au classeur. Les classificateurs comme le nôtre peuvent être mis à jour et recyclés en fonction des attaques réussies, mais il n’est pas clair si la découverte présente un avantage à long terme.
  6. Il est connu que les classificateurs basés sur les réseaux de neurones ne sont pas bien calibrés en dehors de leurs données d’apprentissage. Pour les entrées très différentes du texte de notre ensemble d’apprentissage, le classificateur est parfois trop confiant dans la fausse prédiction.

Cahier de formation

Notre classifieur est un modèle de langage affiné à un ensemble de données de paires de texte typé humain et IA sur le même sujet. Nous avons collecté cet ensemble de données à partir de diverses sources qui, selon nous, ont été rédigées par des humains, telles que des données de pré-formation et des démonstrations humaines sur les réclamations soumises à InstructGPT. Nous avons divisé chaque texte en une invite. À ces invites, nous avons généré des réponses à partir d’une variété de paradigmes linguistiques différents que nous et d’autres organisations avions formés. Pour notre application Web, nous modifions le seuil de confiance pour maintenir le taux de faux positifs à un faible niveau ; En d’autres termes, nous marquons le texte comme susceptible d’être écrit par l’IA si le classificateur est trop confiant.

Influencer les enseignants et plaider en faveur de la contribution

Nous réalisons que l’identification de texte généré par l’IA a été un point de discussion important parmi les éducateurs, et il est tout aussi important de connaître les limites et les impacts des manuels de texte générés par l’IA dans la salle de classe. Nous avons développé une ressource préliminaire sur l’utilisation de ChatGPT pour les enseignants, qui décrit certaines de ses utilisations, limitations et considérations associées. Bien que cette ressource soit axée sur les éducateurs, nous prévoyons que notre classificateur et les outils de classification associés auront un impact sur les journalistes, les chercheurs qui désinforment/détruisent l’information et d’autres groupes.

Nous contactons des éducateurs aux États-Unis pour voir ce qu’ils voient dans leurs salles de classe et discuter des capacités et des limites de ChatGPT, et nous continuerons à étendre notre portée au fur et à mesure que nous apprenons. Ce sont des conversations importantes à avoir dans le cadre de notre mission de déployer de grands modèles linguistiques en toute sécurité, en contact direct avec les communautés affectées.

Si vous avez été directement touché par ces problèmes (y compris, mais sans s’y limiter, les enseignants, les administrateurs, les parents, les élèves et les prestataires de services éducatifs), veuillez nous faire part de vos commentaires à l’aide de ce formulaire. Les commentaires directs sur la ressource initiale sont utiles, et nous accueillons également toutes les ressources que les instructeurs développent ou trouvent utiles (par exemple, directives de cours, mises à jour du code d’honneur et des politiques, outils interactifs, programmes d’alphabétisation en IA).

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال