En savoir plus sur ResMem : un nouvel algorithme d'IA qui améliore un modèle de prédiction existant en ajustant les restes du modèle avec un régresseur voisin le plus proche K

Les formidables résultats des grands réseaux de neurones modernes dans la généralisation des données et des nouvelles tâches ont été attribués à leur capacité innée à se souvenir inconsciemment de schémas d’entraînement complexes. Un moyen efficace de permettre ce rappel est d’augmenter la taille du modèle, bien que cela puisse augmenter considérablement les dépenses de formation et de service.

Dans leur nouvel article ResMem: Learn What You Can Save and Save the Rest, des chercheurs de l’Université de Stanford tentent de répondre à cette question avec une proposition ResMem. Cet algorithme de conservation résiduelle améliore la capacité de généralisation des modèles de réseaux de neurones plus petits en utilisant la conservation directe via le composant distinct k-voisin.

Voici un résumé des principaux résultats des recherches de l’équipe :

🚨 Lisez notre dernière newsletter AI🚨

  1. Premièrement, ils proposent une approche d’apprentissage en deux étapes appelée mémorisation résiduelle (ResMem), qui combine un modèle de prédiction de base avec une régression du plus proche voisin.
  2. Ils fournissent des preuves empiriques que ResMem améliore les performances de test des réseaux de neurones, en particulier avec un grand ensemble de formation.
  3. Dans le troisième paragraphe, ils ont théoriquement examiné le taux de convergence de ResMem dans un problème de régression linéaire stylisé, ce qui a montré qu’il est supérieur au modèle de prédiction de base.

Certaines recherches antérieures ont montré que la mémorisation des informations pertinentes est suffisante et, dans certains cas, nécessaire pour une généralisation efficace dans les modèles de réseaux neuronaux. En réponse à cette ligne de recherche, les chercheurs ont introduit la méthode ResMem, qui utilise une stratégie de mémorisation explicite unique pour améliorer les performances de généralisation des petits modèles.

Lorsqu’un réseau de neurones conventionnel est entraîné, une régression douce proche de k est ajustée au résidu du modèle (rkNN). La précision combinée du modèle de base et de rkNN détermine le résultat final.

L’équipe de recherche a expérimenté en comparant ResMem à une ligne de base DeepNet sur des tâches de vision (classification d’images sur CIFAR100 et ImageNet) et NLP (modélisation autorégressive du langage). Comparé aux capacités de généralisation d’autres méthodes dans des ensembles de test, ResMem a obtenu des résultats exceptionnels. Les chercheurs soulignent également que ResMem fournit un risque de test plus favorable que le prédicteur principal lorsque la taille de l’échantillon tend vers l’infini.

Les réseaux de neurones modernes peuvent implicitement mémoriser des modèles d’apprentissage complexes, ce qui contribue à leurs excellentes performances de généralisation. Motivés par ces découvertes, les scientifiques étudient une nouvelle stratégie pour améliorer la généralisation du modèle grâce à la mémoire explicite. Pour améliorer les modèles de prédiction préexistants (tels que les réseaux de neurones), les chercheurs introduisent l’approche de conservation résiduelle (ResMem), qui utilise un coefficient de régression basé sur le voisin le plus proche pour l’ajustement résiduel du modèle. Enfin, le régulateur résiduel composite est ajouté au modèle original pour obtenir une prédiction. ResMem est conçu pour enregistrer explicitement les étiquettes de formation. Les chercheurs ont démontré de manière empirique que, grâce à une combinaison de normes de vision et de traitement du langage naturel standard de l’industrie, ResMem augmente continuellement la généralisabilité de l’ensemble de tests au modèle de prédiction d’origine. En tant qu’exercice théorique, ils formalisent un problème de régression linéaire simplifié et démontrent précisément comment ResMem améliore le prédicteur principal en termes de risque de test.


scanner le papier. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Dhanshree Shenwai est un ingénieur en informatique avec une solide expérience dans les entreprises FinTech couvrant les domaines de la finance, des cartes, des paiements et de la banque avec un vif intérêt pour les applications d’IA. Elle est passionnée par l’exploration des nouvelles technologies et des développements dans le monde en évolution d’aujourd’hui, ce qui facilite la vie de chacun.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال