Les modèles d’apprentissage automatique et d’apprentissage en profondeur sont aujourd’hui omniprésents dans presque tous les secteurs. L’optimisation des modèles est l’un des principaux obstacles aux projets de blanchiment d’argent et d’apprentissage dans différents secteurs. L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est une technique qui utilise la rétroaction humaine pour améliorer un modèle de langage en utilisant des techniques d’apprentissage par renforcement direct. Les modèles de langage peuvent désormais commencer à faire correspondre des valeurs humaines complexes à un modèle formé sur un grand ensemble de données textuelles grâce à RLHF. La rétroaction humaine est utilisée pour former des modèles comme ChatGPT. Cependant, l’obtention de ces données coûte très cher.
De nouvelles recherches à l’Université de Stanford ont publié Stanford Human Preferences (SHP), un ensemble de données qui contient les préférences agrégées de 385 000 personnes pour les réponses aux demandes de renseignements et les instructions dans 18 catégories distinctes, allant de la cuisine à l’aide juridique, sur Reddit. Les préférences SHP représentent le bénéfice d’une réponse par rapport à une autre dans un contexte donné et deux réponses alternatives.
Chaque scénario se compose d’une question/instruction publiée sur Reddit et de deux commentaires de haut niveau, l’un plus populaire que l’autre (collectivement). L’algorithme SHP tire parti du fait qu’un commentaire est plus préféré s’il a un meilleur score, même s’il a été écrit plus tard. Puisqu’un score plus élevé pour A aurait été l’effet d’une plus grande clarté, nous ne pouvons tirer cette conclusion que si A est écrit avant B.
🚨 Lisez notre dernière newsletter AI🚨
Ce travail a deux distributions avec lesquelles travailler ici; Les déclarations dans SHP sont naturelles et typées par l’homme, tandis que les réponses dans HH-RLHF sont typées par machine.
L’équipe a également publié plusieurs modèles de préférences, ou SteamSHP, qui ont été calibrés pour déterminer quelle réponse est la plus susceptible d’être utile. Les incroyables modèles FLAN-T5 ont inspiré les préférences d’échantillons de SteamSHP. Ils sont prêts à être utilisés dans la modélisation des récompenses RLHF et l’évaluation du traitement du langage naturel (NLP). Mieux dans des matières telles que le conseil juridique (80,7 %) que la philosophie (69,1 %), SteamSHP-XL prédit les étiquettes de préférence humaine de 72,8 % dans toutes les disciplines.
Étant donné que les SteamSHP peuvent être utilisés comme modèles de récompense numériques, la combinaison de SHP et de SteamSHP serait très bénéfique dans RLHF. L’équipe pense que SHP sera utile pour identifier les préférences humaines les plus efficaces pour développer et affiner un modèle de préférence. Cela pourrait éventuellement rendre la collecte de données supplémentaires sur les préférences humaines beaucoup plus rapide et moins coûteuse. Par exemple, l’optimisation du modèle de préférence sur des préférences plus importantes devrait améliorer les performances car elles contiennent plus d’informations en forme de V utilisables sur l’étiquette de préférence et fournissent un signal plus fort.
scanner le base de données. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Tanushree Shenwai est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son baccalauréat en technologie de l’Indian Institute of Technology (IIT), Bhubaneswar. Elle est passionnée par la science des données et a un vif intérêt pour le champ d’application de l’intelligence artificielle dans divers domaines. Elle est passionnée par l’exploration des nouveaux développements technologiques et de leurs applications dans le monde réel.