Le nouveau cadre d'apprentissage par renforcement (DRL) peut interagir avec les attaquants dans un environnement simulé et empêcher 95 % des cyberattaques avant qu'elles ne s'aggravent

Les défenseurs de la cybersécurité doivent adapter dynamiquement leurs techniques et tactiques à mesure que la technologie évolue et que le niveau de complexité du système. Alors que la recherche sur l’apprentissage automatique (ML) et l’intelligence artificielle (IA) a progressé au cours des dix dernières années, les cas d’utilisation de ces technologies ont également progressé dans divers domaines liés à la cybersécurité. Certaines des fonctionnalités de la plupart des applications de sécurité actuelles sont soutenues par de puissants algorithmes d’apprentissage automatique formés sur de grands ensembles de données. L’un de ces exemples est l’intégration au début des années 2010 d’algorithmes ML dans les passerelles de sécurité des e-mails.

En ce qui concerne le scénario du monde réel, la création de stratégies de défense du système informatique autonomes et de recommandations d’action est une tâche plutôt difficile. En effet, fournir une aide à la décision aux mécanismes de défense d’un cybersystème nécessite d’intégrer la dynamique entre les attaquants et les défenseurs et la caractérisation dynamique de l’incertitude de l’état du système. De plus, les défenseurs en ligne sont souvent confrontés à diverses contraintes de ressources, notamment celles liées au coût, à la main-d’œuvre et au temps. Même avec l’intelligence artificielle, développer un système capable de défense proactive reste un objectif idéologique.

Dans le but de fournir une solution à cet énoncé de problème, des chercheurs du Pacific Northwest National Laboratory (PNNL) du ministère de l’Énergie ont créé un nouveau système d’IA basé sur l’apprentissage par renforcement profond (DRL) capable de répondre aux attaquants dans un environnement simulé. Il peut stopper 95 % des cyberattaques avant qu’elles ne s’aggravent. Les chercheurs ont créé un environnement simulé personnalisé qui montre une lutte numérique en plusieurs étapes entre les attaquants et les défenseurs du réseau. Ensuite, ils ont formé quatre réseaux de neurones DRL en utilisant des principes d’apprentissage par renforcement, tels que la maximisation des récompenses en évitant les compromis et en minimisant les perturbations du réseau. Le travail de l’équipe a également été présenté à l’Association pour l’avancement de l’intelligence artificielle à Washington, D.C., où il a reçu de nombreux éloges.

🚨 Lisez notre dernière newsletter AI🚨

La philosophie de l’équipe dans le développement d’un tel système a été la première à montrer qu’une formation réussie en ingénierie DRL était possible. Avant de plonger dans des structures complexes, ils ont voulu nous montrer des métriques d’évaluation utiles. La première chose que les chercheurs ont faite a été de créer un environnement simulé abstrait à l’aide de la boîte à outils Open AI Gym. La phase suivante consistait à utiliser cet environnement pour développer des entités d’attaquant qui affichaient des niveaux de compétence et de persistance basés sur un sous-ensemble des 15 approches et sept tactiques du cadre MITRE ATT&CK. Le but des attaquants est de passer par les sept étapes de la chaîne d’attaque – de la phase initiale de portée et de reconnaissance aux autres phases de l’attaque jusqu’à ce qu’ils atteignent leur objectif final, qui est la phase d’impact et d’infiltration.

Il est important de se rappeler que l’équipe n’avait pas l’intention de développer un modèle pour bloquer l’ennemi avant qu’il ne puisse lancer une attaque à l’intérieur de l’environnement. Au lieu de cela, ils supposent que le système a déjà été piraté. Les chercheurs ont ensuite utilisé l’apprentissage par renforcement pour former quatre réseaux de neurones. Les chercheurs ont déclaré qu’il est concevable d’entraîner un tel modèle sans utiliser l’apprentissage par renforcement, mais qu’il faudrait beaucoup de temps pour développer un bon mécanisme. D’autre part, l’apprentissage par renforcement profond utilise très efficacement ce vaste espace de recherche en simulant certains aspects du comportement humain.

Les efforts des chercheurs pour démontrer que les systèmes d’IA peuvent être formés avec succès dans un environnement d’attaque simulée ont montré que le modèle d’IA est capable de réactions défensives aux attaques en temps réel. Pour évaluer rigoureusement les performances de quatre algorithmes DRL sans modèle par rapport à des séquences d’attaques à plusieurs étapes réelles, les chercheurs ont mené plusieurs expériences. Leurs recherches ont montré que les algorithmes DRL peuvent être formés sous des profils d’attaque à plusieurs niveaux avec différents niveaux de compétence et de persistance, produisant des résultats de défense efficaces dans des environnements simulés.


scanner le papier Et Article de référence. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.


Khushboo Gupta est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son baccalauréat en technologie de l’Indian Institute of Technology (IIT), Goa. Elle est passionnée par les domaines de l’apprentissage automatique, du traitement du langage naturel et du développement Web. Vous aimez en apprendre davantage sur le domaine technique en participant à divers défis.


Enregistrer un commentaire

Plus récente Plus ancienne

نموذج الاتصال