L’une des raisons de l’explosion de l’apprentissage en profondeur au cours de la dernière décennie a été la disponibilité de langages de programmation capables d’automatiser les mathématiques – calcul de niveau collégial – nécessaires pour former chaque nouveau modèle. Les réseaux de neurones sont formés en ajustant leurs paramètres pour essayer de maximiser le degré qui peut être calculé rapidement pour les données de formation. Les équations utilisées pour ajuster les paramètres à chaque étape de réglage ont été minutieusement dérivées manuellement. Les plates-formes d’apprentissage en profondeur utilisent une méthode appelée calcul automatique pour calculer automatiquement les ajustements. Cela a permis aux chercheurs d’explorer rapidement une vaste gamme de modèles et de trouver des modèles qui fonctionnaient réellement, sans avoir à connaître les mathématiques de base.
Mais qu’en est-il des problèmes comme la modélisation climatique ou la planification financière, où les scénarios sous-jacents sont fondamentalement incertains ? Pour ces problèmes, le calcul ne suffit pas – vous avez également besoin de la théorie des probabilités. Le degré n’est plus seulement une fonction déterministe de paramètres. Au lieu de cela, il est défini par un modèle aléatoire qui fait des choix aléatoires pour modéliser les inconnues. Si vous essayez d’utiliser des plateformes d’apprentissage en profondeur pour résoudre ces problèmes, elles peuvent facilement donner la mauvaise réponse. Pour résoudre ce problème, les chercheurs du MIT ont développé ADEV, qui étend la différenciation automatique pour gérer les modèles qui font des choix aléatoires. Cela apporte les avantages de la programmation de l’IA à une classe de problèmes beaucoup plus large, permettant une expérimentation rapide avec des modèles capables de raisonner sur des situations incertaines.
L’auteur principal et étudiant au doctorat en génie électrique et en informatique du MIT, Alex Liu, dit qu’il espère que les gens se méfieront moins de l’utilisation de modèles probabilistes maintenant qu’il existe un outil pour les différencier automatiquement. “La nécessité de dériver manuellement des estimateurs de gradient à faible variance et non biaisés peut donner l’impression que les modèles probabilistes sont plus complexes ou difficiles à utiliser que les modèles déterministes. Mais la probabilité est un outil incroyablement utile pour modéliser le monde. J’espère qu’en fournissant un cadre pour la construction automatique de ces estimateurs ADEV rendra plus attrayant l’expérimentation de modèles probabilistes, ce qui pourrait permettre de nouvelles découvertes et de nouveaux développements dans l’IA et au-delà.”
“Alors que le paradigme de la programmation probabiliste émerge pour résoudre divers problèmes en science et en ingénierie, des questions se posent sur la façon de réaliser des applications logicielles efficaces basées sur des principes mathématiques solides”, ajoute Sasa Misailovic, professeur adjoint à l’Université de l’Illinois à Urbana-Champaign qui était pas impliqué dans cette recherche. ADEV offre une telle base pour l’inférence probabiliste normative et synthétique avec des dérivés. ADEV apporte les avantages de la programmation probabiliste – mathématiques automatiques et algorithmes d’inférence plus évolutifs – à un éventail beaucoup plus large de problèmes où le but n’est pas seulement de déduire ce qui est le plus susceptible d’être vrai, mais de décider quelle action entreprendre ensuite”.
En plus de la modélisation climatique et financière, ADEV peut également être utilisé pour la recherche opérationnelle – par exemple, simuler les files d’attente des clients pour les centres d’appels afin de réduire les temps d’attente prévus, en simulant les processus d’attente et en évaluant la qualité des résultats – ou pour affiner l’algorithme un robot utilise pour donner un sens aux objets physiques. Le co-auteur Mathieu Huot se dit ravi de voir ADEV “utilisé comme espace de conception pour de nouveaux estimateurs à faible variance, un défi clé dans les calculs probabilistes”.
La recherche, récipiendaire du SIGPLAN Distinguished Paper Award au POPL 2023, a été co-écrite par Vikash Mansigka, qui dirige le projet de calcul probabiliste du MIT au Département des sciences du cerveau et cognitives et du Laboratoire d’informatique et d’intelligence artificielle, et aide à diriger le Mission MIT. à savoir, ainsi que Matthew Huot et Sam Staton, tous deux à Oxford. Huot ajoute : ” ADEV fournit un cadre unificateur pour réfléchir au problème primordial de l’estimation impartiale des gradients, d’une manière propre, élégante et synthétique.” La recherche a été soutenue par la National Science Foundation, le DARPA Machine Common Sense Program et un don caritatif de la Siegel Family Foundation.
“Beaucoup de nos décisions les plus controversées – de la politique climatique à la législation fiscale – se résument à une prise de décision dans l’incertitude. ADEV facilite l’essai de nouvelles façons de résoudre ces problèmes, en automatisant certains des calculs les plus difficiles”, déclare Mansingka. “Pour tout problème que nous pouvons modéliser à l’aide d’un logiciel probabiliste, nous disposons de nouveaux moyens automatisés d’ajuster les paramètres pour essayer de générer les résultats que nous voulons et d’éviter les résultats que nous ne voulons pas.”