Repenser l'humain dans la boucle pour l'intelligence artificielle augmentée - Berkeley AI Research Blog




Figure 1 : Dans les applications du monde réel, nous pensons qu’il existe une boucle homme-machine où les humains et les machines se complètent mutuellement. Nous appelons cela l’Intelligence Artificielle Augmentée.

Comment construisons-nous et évaluons-nous un système d’IA pour des applications réelles ? Dans la plupart des recherches sur l’IA, l’évaluation des méthodes d’IA comprend un processus de test pour valider la formation. Les expériences s’arrêtent généralement lorsque les modèles ont de bonnes performances de test sur les ensembles de données rapportés, car la distribution des données du monde réel est supposée être modélisée via des données de validation et de test. Cependant, les applications du monde réel sont généralement plus complexes qu’un seul processus de formation à la validation. La plus grande différence réside dans les données en constante évolution. Par exemple, les ensembles de données sur la faune changent constamment dans la composition des classes en raison de l’invasion, de la réintroduction, de la recolonisation et des mouvements saisonniers d’animaux. Un modèle qui a été formé, validé et testé sur des ensembles de données existants peut facilement être cassé lorsque les données nouvellement collectées contiennent de nouveaux types. Heureusement, nous avons des méthodes de détection en dehors de la distribution qui peuvent nous aider à découvrir des échantillons de nouvelles espèces. Cependant, lorsque nous voulons étendre la capacité de reconnaissance (c’est-à-dire la capacité de reconnaître de nouvelles espèces à l’avenir), le mieux que nous puissions faire est d’affiner les modèles avec de nouvelles annotations valides. En d’autres termes, nous devons intégrer l’effort humain/l’annotation, quelle que soit la performance des modèles sur les suites de tests précédentes.

Lorsque les annotations humaines sont déterministes, les systèmes de reconnaissance du monde réel deviennent une boucle sans fin Collecte de données → annotation → ajustement du modèle (Fig. 2). Par conséquent, l’exécution d’une étape d’évaluation du modèle ne représente pas la généralisation réelle de l’ensemble du système de reconnaissance, car le modèle sera mis à jour avec les annotations des nouvelles données et un nouveau cycle d’évaluation sera effectué. Avec cette boucle à l’esprit, nous pensons que plutôt que de construire un formulaire en utilisant Meilleure performance des testsconcentrer sur Combien d’efforts humains peuvent être épargnés Il s’agit d’un objectif plus général et pratique dans les applications du monde réel.



Figure 2 : Dans la boucle de collecte de données, d’annotation et de mise à jour du modèle, l’objectif d’optimisation devient de réduire le besoin d’annotation humaine plutôt que d’effectuer une reconnaissance en une seule étape.

Dans un article que nous avons publié l’année dernière dans Nature-Machine Intelligence (1), nous avons discuté de l’intégration de l’homme dans la boucle dans la reconnaissance de la faune et suggéré d’examiner l’efficacité de l’effort humain dans les mises à jour de modèles plutôt que dans la simple performance des tests. Pour illustrer, nous avons conçu un cadre de reconnaissance qui était une combinaison d’apprentissage actif, d’apprentissage semi-supervisé et d’humain dans la boucle (Fig. 3). Nous avons également incorporé une composante temporelle dans ce cadre pour indiquer que les modèles de reconnaissance ne s’arrêtaient à aucun pas de temps. Généralement, dans le cadre, à chaque pas de temps, lorsque de nouvelles données sont collectées, le modèle de reconnaissance sélectionne les données à commenter en fonction d’une mesure de confiance de prédiction. Les prédictions à faible niveau de confiance sont envoyées pour les annotations humaines, et les prédictions à niveau de confiance élevé sont approuvées pour les tâches en aval ou les pseudo-étiquettes pour les mises à jour du modèle.



Figure 3 Ici, nous présentons un cadre de reconnaissance itératif qui peut accroître l’utilité des méthodes modernes de reconnaissance d’image et réduire la dépendance aux annotations manuelles pour la mise à jour du modèle.

En ce qui concerne l’efficacité des annotations humaines pour les mises à jour du modèle, nous avons divisé l’évaluation en 1) le pourcentage de prédictions de haute confiance lors de la validation croisée (c’est-à-dire l’effort humain fourni pour l’annotation) ; 2) l’exactitude des prédictions à haute confiance (c’est-à-dire la fiabilité); et 3) le pourcentage de nouvelles classes qui ont été révélées comme des prédicteurs de faible confiance (c’est-à-dire la sensibilité à la nouveauté). Avec ces trois métriques, l’optimisation du cadre devient une minimisation de l’effort humain (c’est-à-dire une maximisation du degré de confiance élevé) et une maximisation des performances de mise à jour du modèle et de la précision du niveau de confiance élevé.

Nous rapportons une expérience en deux étapes sur un vaste ensemble de données de pièges photographiques fauniques recueillies dans le parc national du Mozambique à des fins d’illustration. La première étape était l’étape d’initialisation pour initialiser un modèle avec seulement une partie de l’ensemble de données. Dans la deuxième étape, un nouvel ensemble de données avec des classes connues et nouvelles a été appliqué au modèle initialisé. Selon le cadre, le modèle a fait des prédictions sur le nouvel ensemble de données avec confiance, où les prédictions à haute confiance ont été servies comme de fausses étiquettes, et les prédictions à faible confiance ont été fournies avec des annotations humaines. Ensuite, le modèle a été mis à jour avec à la fois des pseudo-étiquettes et des annotations et était prêt pour les étapes de temps futures. En conséquence, le pourcentage de prédictions à haute confiance dans la deuxième étape de validation était de 72,2 %, la précision des prédictions à haute confiance était de 90,2 % et le pourcentage de nouvelles classes détectées comme peu fiables était de 82,6 %. En d’autres termes, notre cadre a économisé 72 % de l’effort humain pour expliquer toutes les données de la deuxième étape. Tant que le modèle était fiable, 90 % des prédictions étaient correctes. De plus, 82 % des nouveaux échantillons ont été détectés avec succès. Les détails du cadre et des expériences peuvent être trouvés dans l’article original.

En examinant de plus près la figure 3, outre Collecte de données – annotation humaine – mise à jour du modèle Un autre épisode machine humaine Un anneau caché dans le cadre (Fig. 1). Il s’agit d’une boucle où les humains et les machines s’améliorent constamment grâce à des mises à jour de modèles et à l’intervention humaine. Par exemple, lorsque les modèles d’IA ne peuvent pas reconnaître de nouvelles classes, l’intervention humaine peut fournir des informations pour étendre la capacité de reconnaissance du modèle. D’autre part, à mesure que les modèles d’IA deviennent plus généraux, les exigences en matière d’effort humain diminuent. En d’autres termes, l’utilisation de l’effort humain devient plus efficace.

De plus, le cadre human-in-loop basé sur la confiance que nous avons proposé n’est pas seulement la découverte de nouvelles classes, mais peut également aider à résoudre des problèmes tels que la distribution à longue queue et les incohérences multi-domaines. Tant que les modèles d’IA sont moins sûrs, l’intervention humaine intervient pour aider à améliorer le modèle. De même, l’effort humain est fourni tant que les modèles d’IA se sentent en confiance, et parfois les erreurs humaines peuvent être corrigées (Fig. 4). Dans ce cas, la relation entre les humains et les machines devient synergique. Ainsi, l’objectif du développement de l’intelligence artificielle passe du remplacement de l’intelligence humaine à l’amélioration mutuelle de l’intelligence humaine et de l’intelligence artificielle. Nous appelons ce type d’IA : L’intelligence artificielle augmentée (un2JE).

Depuis que nous avons commencé à travailler sur l’IA, nous nous demandons pourquoi créons-nous l’IA ? Au début, nous pensions que, idéalement, l’IA devrait complètement remplacer l’effort humain dans des tâches simples et fastidieuses comme la reconnaissance d’images à grande échelle et la conduite automobile. Ainsi, nous poussons nos modèles avec une idée appelée “performance au niveau humain” depuis longtemps. En substance, cependant, cet objectif de substitution de l’effort humain est de construire une opposition ou une relation mutuellement exclusive entre les humains et les machines. Dans les applications du monde réel, les performances des méthodes d’IA sont limitées par de nombreux facteurs d’influence tels que la distribution à longue queue, les écarts multi-domaines, le bruit des étiquettes, une mauvaise supervision, la détection hors distribution, etc. dans une certaine mesure avec une intervention humaine appropriée. Le cadre que nous avons proposé n’est qu’un exemple de la façon dont ces problèmes discrets peuvent être résumés en problèmes de prédiction de confiance élevée ou faible et comment l’effort humain peut être intégré à l’ensemble du système d’IA. Nous pensons qu’il ne s’agit pas de tricher ou de céder à des problèmes difficiles. Il s’agit d’une manière plus centrée sur l’humain de développer l’IA, où l’accent est mis sur l’effort humain épargné plutôt que sur le nombre d’images de test que le modèle peut reconnaître. Avant de réaliser l’Intelligence Générale Artificielle (AGI), nous pensons qu’il est utile d’explorer le sens des interactions homme-machine et2Je pense que l’IA peut commencer à avoir plus d’impact dans divers domaines pratiques.



Figure 4 : Exemples de prédictions de haute confiance qui ne correspondent pas aux annotations d’origine. Bon nombre des prédictions à haute confiance qui ont été signalées comme incorrectes sur la base d’étiquettes de validation (soumises par des étudiants et des scientifiques citoyens) étaient en fait correctes après un examen approfondi par des experts de la faune.

Remerciements : Nous remercions tous les co-auteurs de l’article “Identification humaine itérative et automatisée de l’imagerie de la faune” pour leurs contributions et discussions dans la préparation de ce blog. Les points de vue et opinions exprimés dans ce blog sont uniquement ceux des auteurs de cet article.

Ce billet de blog est basé sur l’article suivant publié dans Nature – Machine Intelligence :
(1) Miao, Zhongqi, Ziwei Liu, Caitlin M. Gaynor, Meredith S. Palmer, Stella Xu et Wen M. Getz. “Identification humaine répétitive et automatisée des images de la faune.” Nature’s Machine Intelligence 3, non. 10 (2021) : 885-895. (lien pré-publication)

Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال