Dans le domaine de la science et de la technologie, il y a eu une poussée longue et constante vers l’amélioration de la précision des mesures de toutes sortes, ainsi que des efforts parallèles pour améliorer la précision des images. L’objectif connexe est de réduire l’incertitude dans les estimations qui peuvent être faites et les conclusions tirées des données (visuelles ou autres) recueillies. Cependant, l’incertitude ne peut pas être complètement éliminée. Et puisqu’il faut vivre avec, au moins dans une certaine mesure, il y a beaucoup à gagner à mesurer l’incertitude aussi précisément que possible.
Exprimé en d’autres termes, nous aimerions connaître l’étendue de notre incertitude.
Cette question est abordée dans une nouvelle étude, dirigée par Swami Sankaranarayanan, chercheur postdoctoral au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT, et ses co-auteurs Anastasios Angelopoulos et Stephen Bates de l’Université de Californie à Berkeley. Yaniv Romano du Technion, Institut israélien de technologie ; et Philip Isola, professeur agrégé de génie électrique et d’informatique au MIT. Non seulement ces chercheurs ont réussi à obtenir des mesures précises de l’incertitude, mais ils ont également trouvé un moyen de montrer l’incertitude d’une manière que la personne moyenne peut comprendre.
leur papier, Présenté en décembre lors de la conférence Neural Information Processing Systems à la Nouvelle-Orléans, il s’agit de la vision par ordinateur – un domaine de l’intelligence artificielle qui implique la formation d’ordinateurs pour recueillir des informations à partir d’images numériques. Cette recherche se concentre sur les images tachées ou partiellement endommagées (en raison de pixels manquants), Ainsi que des méthodes – algorithmes informatiques, en particulier – conçues pour révéler la partie du signal qui est déformée ou autrement cachée. Un algorithme de ce type, explique Sankaranarayanan, “prend l’image floue en entrée et vous donne une image nette en sortie” – un processus qui se déroule généralement en deux étapes.
Tout d’abord, il y a un encodeur, un type de réseau neuronal spécialement formé par des chercheurs pour la tâche de dé-flou des images bruitées. L’encodeur prend une image déformée, et à partir de là, crée une représentation abstraite (ou « latente ») d’une image propre sous une forme – consistant en une liste de nombres – qui serait compréhensible pour un ordinateur mais n’aurait pas de sens pour la plupart des humains. L’étape suivante est le décodeur, dont il existe deux types, qui sont généralement des réseaux de neurones. Sankaranarayanan et ses collègues ont travaillé avec un type de décodeur appelé le modèle “génératif”. En particulier, ils ont utilisé une version prête à l’emploi appelée StyleGAN, qui prend des nombres d’une représentation codée (d’un chat, par exemple) comme entrée, puis construit une image complète et formatée (pour ce chat particulier). Ainsi, l’ensemble du processus, y compris les phases d’encodage et de décodage, donne une image claire d’un spectacle déjà boueux.
Mais quelle confiance peut-on accorder à l’exactitude de l’image résultante ? Et comme indiqué dans l’article de décembre 2022, quelle est la meilleure façon de représenter l’incertitude dans cette image ? L’approche standard consiste à créer une «carte de salinité», qui attribue une valeur de probabilité – quelque part entre 0 et 1 – pour indiquer la confiance du modèle dans l’exactitude de chaque pixel, pris un par un. Cette stratégie présente un inconvénient, selon Sankaranarayanan, “parce que la prédiction est effectuée indépendamment pour chaque pixel. Mais des choses significatives se produisent au sein de groupes de pixels, pas au sein de pixels individuels”, ajoute-t-il, c’est pourquoi lui et ses collègues proposent une approche complètement différente. méthode d’évaluation de l’incertitude.
Leur approche est centrée sur les “caractéristiques sémantiques” d’une image – des groupes de pixels qui, lorsqu’ils sont réunis, ont une signification, formant un visage humain, disons, ou un chien, ou tout autre objet reconnaissable. L’objectif, affirme Sankaranarayanan, “est d’estimer l’incertitude d’une manière qui se rapporte aux groupes de pixels que les humains peuvent facilement interpréter”.
Alors que la méthode standard peut produire une seule image et faire une “meilleure estimation” de ce que devrait être l’image réelle, l’incertitude dans cette représentation est généralement difficile à discerner. Le nouveau document soutient que pour une utilisation dans le monde réel, l’incertitude doit être présentée d’une manière qui a du sens pour les personnes qui ne sont pas des experts en apprentissage automatique. Au lieu de produire une image unique, les auteurs ont conçu une procédure pour générer un ensemble d’images – dont chacune pourrait être correcte. De plus, ils peuvent placer des limites précises sur la plage, ou l’intervalle, et fournir une assurance probabiliste que l’imagerie réelle se situe quelque part dans cette plage. Une plage plus étroite peut être fournie si l’utilisateur est à l’aise avec, disons, une certitude de 90 %, et une plage encore plus étroite s’il existe des risques plus acceptables.
Les auteurs pensent que leur article présente le premier algorithme, conçu pour un modèle génératif, capable d’identifier les périodes d’incertitude liées aux caractéristiques significatives (linguistiquement interprétables) d’une image et s’accompagne d’une “garantie statistique formelle”. Bien qu’il s’agisse d’une étape importante, Sankaranarayanan n’y voit qu’une étape vers le « but ultime ». Jusqu’à présent, nous avons pu le faire pour des choses simples, comme la restauration d’images de visages humains ou d’animaux, mais nous voulons étendre cette approche à des domaines plus importants, comme l’imagerie médicale. , où notre “garantie statistique” est particulièrement importante.
Disons que le film, ou la radiographie, d’une radiographie pulmonaire n’est pas clair, ajoute-t-il, “et que vous voulez reconstruire l’image. Si on vous donne un ensemble d’images, vous voulez savoir que l’image réelle est en cette plage, afin de ne rien manquer d’important” – Informations qui peuvent révéler si un patient est atteint ou non d’un cancer du poumon ou d’une pneumonie. En fait, Sankaranarayanan et ses collègues ont déjà commencé à travailler avec des radiologues pour voir si leur algorithme de prédiction de la pneumonie pourrait être utile dans un cadre clinique.
Il dit que leur travail peut également être pertinent pour l’application de la loi. “L’image de la caméra de surveillance peut être floue, et vous voulez améliorer cela. Il existe déjà des modèles pour cela, mais il n’est pas facile de mesurer l’incertitude. Et vous ne voulez pas faire d’erreur dans une vie ou – situation de mort. Les outils que lui et ses collègues sont en train de développer pourraient aider à identifier le coupable et aider également à disculper une personne innocente.
Sankaranarayanan note qu’une grande partie de ce que nous faisons et de nombreuses choses qui se produisent dans le monde qui nous entoure sont entourées de mystère. Par conséquent, acquérir une meilleure compréhension de cette incertitude peut nous aider d’innombrables façons. D’une part, cela peut nous en dire plus sur ce que nous ne savons pas exactement.
Angelopoulos a été soutenu par la National Science Foundation. Bates a été soutenu par les fondateurs du Data Science Institute et du Simmons Institute. Romano a été soutenu par la Fondation des sciences d’Israël et une bourse d’avancement de carrière du Technion. Les recherches de Sankaranarayanan et d’Isola pour ce projet ont été parrainées par le laboratoire de recherche de l’US Air Force et l’accélérateur d’intelligence artificielle de l’US Air Force et ont été réalisées dans le cadre de l’accord de collaboration n° FA8750-19-2-1000. Le SuperCloud du MIT et le Supercomputing Center du Lincoln Lab ont également fourni le ressources qui ont contribué aux résultats rapportés dans ce travail.