Prévision du trafic avec des réseaux de neurones graphiques avancés

En s’associant à Google, DeepMind est en mesure d’apporter les avantages de l’IA à des milliards de personnes dans le monde. De réunir un usager avec un trouble de la parole avec voix originalePour aider les utilisateurs à découvrir applications personnaliséesNous pouvons appliquer des recherches avancées à des problèmes immédiats du monde réel à l’échelle de Google. Aujourd’hui, nous sommes ravis de partager les résultats de notre dernier partenariat, qui offre un impact véritablement mondial pour plus d’un milliard de personnes qui utilisent Google Maps.

Notre collaboration avec Google Maps

Les gens comptent sur Google Maps pour obtenir des prévisions de trafic précises et des heures d’arrivée estimées (ETA). Ce sont des outils importants qui sont particulièrement utiles lorsque vous devez être dirigé autour d’un embouteillage, si vous devez informer vos amis et votre famille que vous êtes en retard ou si vous devez partir à temps pour une réunion importante. Ces fonctionnalités sont également utiles pour les entreprises telles que les sociétés de covoiturage, qui utilisent la plate-forme Google Maps pour alimenter leurs services avec des informations sur les heures de prise en charge et de dépose, ainsi que des prix estimés en fonction de la durée du trajet.

Les chercheurs de DeepMind se sont associés à l’équipe de Google Maps pour améliorer la précision en temps réel de l’ETA jusqu’à 50 % dans des endroits comme Berlin, Jakarta, Sao Paulo, Sydney, Tokyo et Washington, D.C. en utilisant des techniques avancées d’apprentissage automatique, notamment des réseaux de neurones graphiques, comme le montre le graphique ci-dessous :

Comment Google Maps prédit-il les ETA ?

Pour calculer les ETA, Google Maps analyse les données de trafic en direct pour les segments de route du monde entier. Bien que ces données donnent à Google Maps une image précise de Cadeau Le trafic, il ne prend pas en compte le trafic qu’un conducteur peut s’attendre à voir 10, 20 ou même 50 minutes de conduite. prédire avec précision avenir Trafic Google Maps utilise l’apprentissage automatique pour combiner les conditions de circulation en temps réel avec les modèles de trafic historiques pour les routes du monde entier. Ce processus est complexe pour plusieurs raisons. Par exemple – bien que l’heure de pointe se produise inévitablement tous les matins et tous les soirs, l’heure exacte de l’heure de pointe peut varier considérablement d’un jour à l’autre et d’un mois à l’autre. Des facteurs supplémentaires tels que la qualité des routes, les limites de vitesse, les accidents et les fermetures peuvent ajouter à la complexité du modèle de prévision.

DeepMind s’est associé à Google Maps pour aider à améliorer la précision de leurs ETA dans le monde entier. Alors que les estimations d’accessibilité prévues par Google Maps étaient toujours exactes pour plus de 97 % des trajets, nous avons travaillé avec l’équipe pour réduire encore plus les erreurs restantes, parfois de plus de 50 % dans des villes comme Taichung. Pour ce faire à l’échelle mondiale, nous avons utilisé une architecture d’apprentissage automatique généralisée appelée réseaux de neurones graphiques qui nous permet d’effectuer un raisonnement temporel et spatial en incorporant des biais d’apprentissage relationnel pour modéliser l’architecture de connectivité des réseaux routiers du monde réel. Voici comment cela fonctionne:

Diviser les routes du monde en grands secteurs

Nous avons divisé les réseaux routiers en « super segments » composés de plusieurs segments de route adjacents qui partagent un volume de trafic important. Actuellement, le système de prévision du trafic de Google Maps comprend les composants suivants : (1) un analyseur d’itinéraire qui traite des téraoctets d’informations sur le trafic pour générer des supersegments et (2) un nouveau modèle de réseau neuronal graphique, qui est optimisé avec plusieurs objectifs et prédit le temps de trajet pour chaque segment Olya.

Modéliser l’architecture pour déterminer les itinéraires et les temps de trajet optimaux.

En route vers de nouvelles architectures de machine learning pour la prévision du trafic

Le plus grand défi à résoudre lors de la construction d’un système d’apprentissage automatique pour estimer les temps de trajet à l’aide de Supersegments est le défi architectural. Comment modéliser des exemples de segments connectés de taille dynamique avec une précision arbitraire de sorte qu’un modèle puisse réussir ?

Notre preuve de concept initiale a commencé par une approche simple qui utilisait autant que possible le système de trafic existant, en particulier la segmentation existante des réseaux routiers et le pipeline de données en temps réel associé. Cela signifie que le sommet couvre un groupe de segments de route, chaque segment ayant une longueur spécifique et des caractéristiques de vitesse correspondantes. Initialement, nous avons formé un modèle de réseau neuronal entièrement connecté pour chaque supersection. Ces premiers résultats sont prometteurs et montrent le potentiel d’utilisation des réseaux de neurones pour prédire le temps de trajet. Cependant, en raison de la taille dynamique des hypersegments, nous avions besoin d’un modèle de réseau neuronal formé séparément pour chacun d’eux. Pour déployer cela à grande échelle, nous aurions dû former des millions de ces modèles, ce qui aurait été un énorme défi d’infrastructure. Cela nous a conduit à examiner des modèles capables de gérer des séquences de longueur variable, tels que les réseaux de neurones récurrents (RNN). Cependant, intégrer davantage de structures du réseau routier s’est avéré difficile. Au lieu de cela, nous avons décidé d’utiliser les réseaux de neurones graphiques. Dans la modélisation du trafic, nous nous intéressons à la façon dont les voitures circulent dans un réseau de routes, et les réseaux de graphes neuronaux peuvent modéliser la dynamique du réseau et la propagation de l’information.

Notre modèle traite le réseau routier local comme un graphe, où chaque segment du chemin correspond à un nœud et des arêtes existent entre des segments successifs sur la même route ou reliés par une intersection. Dans le réseau neuronal graphique, l’algorithme de transmission de messages est implémenté là où les messages et leur effet sur les états de bord et les nœuds sont reconnus par les réseaux neuronaux. De ce point de vue, nos hyperboles sont des sous-graphes de routes, qui sont échantillonnés aléatoirement proportionnellement à l’intensité du trafic. Ainsi, un modèle peut être formé à l’aide de ces sous-échantillons, et il peut être déployé à grande échelle.

Les réseaux de neurones graphes étendent le biais d’apprentissage imposé par les réseaux de neurones convolutifs et les réseaux de neurones récurrents en généralisant le concept de “proximité”, nous permettant d’avoir des connexions arbitrairement complexes pour gérer non seulement le trafic devant ou derrière nous, mais aussi le long des routes adjacentes. réticule. Dans un réseau neuronal graphique, les nœuds voisins se transmettent des messages. En maintenant cette structure, nous imposons un biais local car les nœuds auront plus de facilité à s’appuyer sur les nœuds voisins (cela ne nécessite qu’une seule étape pour faire passer le message). Ces mécanismes permettent aux réseaux neuronaux de graphes de tirer parti plus efficacement de la structure de communication du réseau routier. Nos expériences ont montré des gains de puissance prédictive grâce à l’expansion pour inclure les routes adjacentes qui ne font pas partie de la route principale. Par exemple, considérez comment la congestion se propage dans une rue latérale pour affecter le trafic sur une route plus large. En mettant à l’échelle plusieurs intersections, le modèle acquiert la capacité de prédire de manière native les retards aux virages, les retards dus à la consolidation et le temps de traversée total dans le trafic intermittent. La capacité des réseaux de neurones de graphes à se généraliser aux espaces combinatoires est ce qui donne sa puissance à notre technique de modélisation. Chaque hyperflotte, qui peut être de longueur variable et de complexité variable – des simples chemins en deux parties aux chemins plus longs contenant des centaines de nœuds – peut néanmoins être gérée par même modèle de diagramme de réseau de neurones.

De la recherche fondamentale aux modèles d’apprentissage automatique prêts pour la production

Un défi majeur pour un système d’apprentissage automatique de production qui est souvent négligé dans le cadre académique implique la grande variabilité qui peut exister entre plusieurs cours de formation du même modèle. Alors que de petites différences de qualité peuvent simplement être ignorées en raison d’une mauvaise configuration dans des environnements plus académiques, ces petites différences peuvent avoir un impact énorme lorsqu’elles sont ajoutées à des millions d’utilisateurs. En tant que tel, rendre le Graph Neural Network robuste à cette asymétrie de formation a occupé le devant de la scène lorsque nous avons mis le modèle en production. Nous avons découvert que les réseaux de neurones de graphes sont particulièrement sensibles aux changements dans les approches de formation – une des principales raisons de cette instabilité est la grande variabilité des structures de graphes utilisées pendant la formation. Un seul ensemble de graphiques peut contenir n’importe où, des petits graphiques à 2 nœuds aux grands graphiques de plus de 100 nœuds.

Après de nombreux essais et erreurs, nous avons développé une approche pour résoudre ce problème en adaptant une nouvelle technique d’apprentissage par renforcement pour une utilisation dans un environnement supervisé.

Lors de la formation d’un système d’apprentissage automatique, le taux d’apprentissage d’un système détermine à quel point il est «plastique» – ou modifiable en nouvelles informations. Les chercheurs sous-estiment souvent le taux d’apprentissage de leurs modèles au fil du temps, car il existe un compromis entre l’apprentissage de nouvelles choses et l’oubli de caractéristiques importantes déjà apprises, par opposition au passage de l’enfance à l’âge adulte. Nous avons initialement utilisé un calendrier de taux d’apprentissage exponentiellement dégénéré pour stabiliser nos repères après une période de formation prédéterminée. Nous avons également exploré et analysé les techniques de regroupement de modèles qui se sont avérées efficaces dans des travaux antérieurs pour voir si nous pouvions réduire la variance du modèle entre les exécutions d’entraînement.

En fin de compte, l’approche la plus réussie à ce problème a été d’utiliser MetaGradients pour adapter dynamiquement le taux d’apprentissage pendant la formation – permettant ainsi au système d’apprendre son calendrier de taux d’apprentissage optimal. En adaptant automatiquement le taux d’apprentissage pendant la formation, notre modèle a non seulement atteint une meilleure qualité d’apprentissage qu’auparavant, mais a également réduit automatiquement le taux d’apprentissage. Cela s’est traduit par des résultats plus stables, ce qui nous a permis d’utiliser notre nouvelle architecture en production.

Générez des modèles grâce à des fonctions de perte personnalisées

Bien que l’objectif ultime de notre système de modélisation soit de réduire les erreurs dans les estimations de déplacement, nous avons constaté que l’utilisation d’une combinaison linéaire de plusieurs fonctions de perte (pondérées de manière appropriée) augmentait considérablement la généralisabilité du modèle. Plus précisément, nous avons formulé une cible de pertes multiples en utilisant un facteur de régularisation sur les poids du modèle, les pertes L_2 et L_1 dans les temps de parcours globaux, ainsi que les pertes Huber individuelles et la probabilité de log négatif (NLL) pour chaque nœud du graphique. En combinant ces pertes, nous avons pu orienter notre modèle et éviter le surajustement de l’ensemble de données d’apprentissage. Bien que les mesures de la qualité de la formation n’aient pas changé, les améliorations observées pendant la formation se sont directement traduites par les ensembles de tests retardés et par nos essais globaux.

Nous explorons actuellement si la technologie MetaGradient peut également être utilisée pour modifier la configuration d’une fonction de perte à plusieurs composants pendant la formation, en utilisant la minimisation des erreurs d’estimation de déplacement comme métrique directrice. Ce travail s’inspire des efforts de MetaGradient pour trouver le succès dans l’apprentissage par renforcement, et les premières expériences montrent des résultats prometteurs.

coopération

Grâce à notre collaboration étroite et fructueuse avec l’équipe de Google Maps, nous avons pu appliquer largement ces technologies nouvelles et nouvellement développées. Ensemble, nous avons pu surmonter des défis de recherche ainsi que des problèmes de production et d’évolutivité. En fin de compte, le modèle et les technologies finaux ont permis un lancement réussi, améliorant la précision des ETA sur Google Maps et les API Google Maps Platform dans le monde entier.

Opérer à l’échelle de Google avec les dernières recherches présente un ensemble unique de défis. Si vous souhaitez appliquer des technologies de pointe telles que les réseaux de neurones graphiques pour résoudre des problèmes du monde réel, apprenez-en plus sur l’équipe qui travaille sur ces problèmes ici.