Lorsque des modèles d’apprentissage en profondeur sont déployés dans le monde réel, peut-être pour détecter la fraude financière liée à l’activité des cartes de crédit ou pour identifier le cancer dans les images médicales, ils sont souvent capables de surpasser les humains.
Mais qu’est-ce que les modèles d’apprentissage en profondeur apprennent exactement ? Un modèle est-il formé pour détecter le cancer de la peau dans des images cliniques, par exemple, en train d’apprendre les couleurs et les textures des tissus cancéreux, ou signale-t-il un autre trait ou motif ?
Ces puissants modèles d’apprentissage automatique s’appuient généralement sur des réseaux de neurones artificiels qui peuvent avoir des millions de nœuds qui traitent les données pour faire des prédictions. En raison de leur complexité, les chercheurs appellent souvent ces modèles des “boîtes noires” car même les scientifiques qui les construisent ne comprennent pas tout ce qui se passe sous le capot.
Stephanie Jegelka n’était pas satisfaite de l’interprétation “boîte noire”. Professeur agrégé nouvellement nommé au département de génie électrique et d’informatique du MIT, Jegelka se penche sur l’apprentissage en profondeur pour comprendre ce que ces modèles peuvent apprendre et comment ils se comportent, et comment intégrer certaines informations préalables dans ces modèles.
“En fin de compte, ce qu’un modèle d’apprentissage en profondeur apprendra dépend de nombreux facteurs. Mais la construction d’une compréhension pratiquement pertinente nous aidera à concevoir de meilleurs modèles et nous aidera également à comprendre ce qui se passe à l’intérieur afin que nous sachions quand nous pouvons déployer un modèle et quand nous ne pouvons pas », déclare Jegelka, qui est également membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et de l’Institut des données, des systèmes et de la société (IDSS) : C’est essentiel.
Jegelka s’intéresse particulièrement à l’optimisation des modèles d’apprentissage automatique lorsque les données d’entrée se présentent sous la forme de graphiques. Les données de graphe présentent des défis spécifiques : par exemple, les informations contenues dans les données consistent en des informations sur les nœuds et les bords individuels, ainsi que sur la structure : ce qui est connecté à quoi. De plus, les graphes ont des symétries mathématiques que le modèle de machine learning doit respecter, pour qu’un même graphe aboutisse toujours à la même prédiction par exemple. Construire de telles symétries dans un modèle d’apprentissage automatique n’est généralement pas facile.
Prenez les molécules, par exemple. Les molécules peuvent être représentées sous forme de graphes, avec des sommets correspondant aux atomes et des arêtes correspondant aux liaisons chimiques entre eux. Les sociétés pharmaceutiques peuvent souhaiter utiliser l’apprentissage en profondeur pour prédire rapidement les propriétés de nombreuses molécules, en réduisant le nombre qu’elles doivent tester physiquement dans un laboratoire.
Jegelka étudie des moyens de construire des modèles mathématiques d’apprentissage automatique qui peuvent effectivement prendre des données graphiques comme entrée et sortie de quelque chose d’autre, dans ce cas une prédiction des propriétés chimiques d’une molécule. Ceci est particulièrement difficile puisque les propriétés d’une molécule sont déterminées non seulement par les atomes qu’elle contient, mais aussi par les liaisons entre eux.
D’autres exemples d’apprentissage automatique sur les graphiques incluent le routage du trafic, la conception de puces et les systèmes de recommandation.
La conception de ces modèles est rendue plus difficile par le fait que les données utilisées pour les former diffèrent souvent des données que les modèles voient en pratique. Le modèle peut avoir été formé à l’aide de petits graphes moléculaires ou de réseaux de trafic, mais les graphes qu’il voit une fois déployés sont plus grands ou plus complexes.
Dans ce cas, qu’est-ce que les chercheurs s’attendraient à ce que le modèle apprenne, et fonctionnerait-il encore dans la pratique si les données du monde réel étaient différentes ?
“Votre modèle ne pourra pas tout apprendre à cause de certains problèmes de rigidité en informatique, mais ce que vous pouvez apprendre et ce que vous ne pouvez pas apprendre dépend de la façon dont vous configurez le modèle”, explique Jegelka.
Elle aborde cette question en combinant sa passion pour les algorithmes et les mathématiques discrètes avec son enthousiasme pour l’apprentissage automatique.
Des papillons à la bioinformatique
Jigelka a grandi dans une petite ville d’Allemagne et s’est intéressée aux sciences au lycée. Un enseignant qui l’a soutenue l’a encouragée à participer à un concours scientifique international. Elle et ses collègues des États-Unis et de Hong Kong ont remporté un prix pour un site Web qu’ils ont créé sur les papillons en trois langues.
Pour notre projet, nous avons pris des photos des ailes à l’aide d’un microscope électronique à balayage dans une université locale des sciences appliquées. J’ai également eu l’occasion d’utiliser une caméra haute vitesse Mercedes-Benz – cette caméra filme généralement des moteurs à combustion – que j’ai utilisée pour capturer une vidéo au ralenti du mouvement des ailes d’un papillon. C’était la première fois que je me connectais vraiment avec la science et l’exploration », se souvient-elle.
Intrigué à la fois par la biologie et les mathématiques, Jegelka a décidé d’étudier la bioinformatique à l’Université de Tübingen et à l’Université du Texas à Austin. Elle a eu quelques occasions de faire de la recherche au premier cycle, y compris un stage en neurosciences computationnelles à l’Université de Georgetown, mais elle ne savait pas quelle carrière poursuivre.
À son retour pour sa dernière année d’université, Jegelka a emménagé avec deux colocataires qui travaillaient comme assistants de recherche à l’Institut Max Planck de Tübingen.
“Ils travaillaient sur l’apprentissage automatique, et cela m’a semblé vraiment cool. Je devais rédiger mon mémoire de licence, alors j’ai demandé à l’institut s’ils avaient un projet pour moi. J’ai commencé à travailler sur l’apprentissage automatique à l’Institut Max Planck et J’ai adoré. J’ai beaucoup appris là-bas, et c’était un super endroit pour chercher”, dit-elle.
Je suis resté à l’Institut Max Planck pour terminer ma thèse de maîtrise, puis j’ai obtenu un doctorat en apprentissage automatique à l’Institut Max Planck et à l’EPF..
Au cours de mon doctorat, j’ai exploré comment les concepts des mathématiques discrètes peuvent aider à améliorer les techniques d’apprentissage automatique.
Modèles d’enseignement pour l’apprentissage
Plus Jegelka en apprenait sur l’apprentissage automatique, plus elle s’intéressait aux défis de comprendre comment les modèles se comportent et comment diriger ce comportement.
“Vous pouvez faire beaucoup avec l’apprentissage automatique, mais seulement si vous avez le bon modèle et les bonnes données. Ce n’est pas simplement une boîte noire où vous le jetez sur les données et cela fonctionne. Vous devez réellement y penser, ses caractéristiques, ce que vous voulez que le modèle apprenne et fasse », dit-elle.
Après avoir terminé son postdoc à l’UC Berkeley, Jegelka s’est impliqué dans la recherche et a décidé de poursuivre une carrière dans le milieu universitaire. Elle a rejoint la faculté du MIT en 2015 en tant que professeure adjointe.
“Ce que j’ai vraiment aimé au MIT, depuis le tout début, c’est que les gens se soucient vraiment de la recherche et de la créativité. C’est ce que j’apprécie le plus au MIT. Les gens ici apprécient vraiment l’originalité et la profondeur de la recherche”, dit-elle.
Cet accent mis sur la créativité a permis à Jegelka d’explorer un large éventail de sujets.
En collaboration avec d’autres professeurs du MIT, elle étudie les applications de l’apprentissage automatique en biologie, en imagerie, en vision par ordinateur et en science des matériaux.
Mais ce qui motive vraiment Jegelka, c’est l’étude des principes fondamentaux de l’apprentissage automatique et, plus récemment, la question de la robustesse. Souvent, le modèle fonctionne bien sur des données d’apprentissage, mais ses performances se dégradent lorsqu’il est déployé sur des données légèrement différentes. Construire des connaissances antérieures dans un modèle peut le rendre plus fiable, mais comprendre de quelles informations un modèle a besoin pour réussir et comment le construire n’est pas aussi simple, dit-elle.
Il explore également des moyens d’améliorer les performances des modèles d’apprentissage automatique pour la classification des images.
Les modèles de classification d’images sont partout, des systèmes de reconnaissance faciale sur les téléphones portables aux outils qui identifient les faux comptes sur les réseaux sociaux. Ces modèles ont besoin d’énormes quantités de données pour s’entraîner, mais comme il est coûteux pour les humains d’étiqueter manuellement des millions d’images, les chercheurs utilisent souvent des ensembles de données non étiquetés pour pré-tester les modèles à la place.
Ces modèles réutilisent ensuite les représentations qu’ils ont apprises lorsqu’ils sont ensuite adaptés à une tâche spécifique.
Idéalement, les chercheurs souhaitent que le modèle apprenne le plus possible lors de la pré-formation, afin qu’il puisse appliquer ces connaissances à sa tâche finale. Mais en pratique, ces modèles apprennent souvent quelques associations simples – comme quelle image a la lumière du soleil et laquelle a de l’ombre – et utilisent ces “raccourcis” pour classer les images.
“Nous avons montré qu’il s’agit d’un problème avec” l’apprentissage divergent “, qui est une technique de pré-formation standard, à la fois théoriquement et expérimentalement. Mais nous montrons également que vous pouvez influencer les types d’informations que le modèle apprendra à représenter en modifiant les types de données que vous affichez le modèle. C’est une étape. Une étape vers la compréhension de ce que les modèles feront réellement dans la pratique », dit-elle.
Les chercheurs ne comprennent toujours pas tout ce qui se passe à l’intérieur du modèle d’apprentissage en profondeur, ou les détails de la façon dont cela affecte ce que le modèle apprend et comment il se comporte, mais Jegelka a hâte de continuer à explorer ces sujets.
“Souvent, dans l’apprentissage automatique, nous voyons quelque chose se produire en action et essayons de le comprendre théoriquement. C’est un grand défi. Vous voulez construire une compréhension qui correspond à ce que vous voyez dans la pratique, afin que vous puissiez faire un meilleur travail. Nous sommes toujours au début de la compréhension », dit-elle.
En dehors du laboratoire, Jegelka est fan de musique, d’art, de voyages et de cyclisme. Mais ces jours-ci, elle aime passer la plupart de son temps libre avec sa fille d’âge préscolaire.