Rozprawy doktorskie: „Apprentisage en profondeur”

1

Palli, Thazha Vyshakh. "Using context-cues and interaction for traffic-agent trajectory prediction". Electronic Thesis or Diss., Institut polytechnique de Paris, 2022. http://www.theses.fr/2022IPPAE001.

Pełny tekst źródła

Streszczenie:

La navigation autonome des véhicules dans les zones urbaines implique des interactions avec les différents usagers de la route ou agents de la circulation partageant le même réseau routier comme les voitures, les vélos et les piétons. La capacité du véhicule autonome à observer, comprendre et prédire le comportement de ces agents est très importante pour acquérir une bonne compréhension de la situation avant de décider de la manœuvre à suivre. Bien que cela soit réalisé à divers degrés de succès en utilisant des méthodes basées sur des modèles ou des données, les conducteurs humains restent beaucoup plus efficaces dans cette tâche, déduisant instinctivement différents mouvements d'agent même dans des situations inédites et difficiles. De plus, le contexte joue un rôle très important qui permet à nous les humains de comprendre ce qui est perçu et de faire des prédictions plus fines. La nécessité d'accroître la connaissance de la situation des véhicules autonomes, ainsi que des fonctions d'aide à la conduite liées à la sécurité, stimule notre objectif d'exploiter ces informations contextuelles pour prédire les trajectoires futures des agents observés dans différentes conditions.Au cours des dernières années, l'apprentissage automatique s'est avéré efficace pour résoudre une grande variété de problèmes, en particulier ceux associés à la perception. Cette thèse se concentre donc sur le développement de modèles d'apprentissage automatique pour exploiter des informations contextuelles afin d'observer et d'apprendre les trajectoires de différents agents en interaction. Alors que la plupart des modèles proposés dans le passé reposent sur un seul capteur et des techniques basées sur un modèle, les approches actuelles reposent souvent sur l'utilisation de plusieurs capteurs et traitent leurs sorties à l'aide de différentes méthodes d'apprentissage automatique. L'approche proposée dans cette thèse suit ces tendances en combinant les informations de différents capteurs pour prédire les trajectoires des agents observés à l'aide de l'apprentissage automatique, ainsi qu'en intégrant des informations contextuelles et des interactions dans le processus de prédiction.La thèse construit progressivement une architecture d'apprentissage automatique basée sur une formulation théorique et des expérimentations. Notre approche est basée sur un modèle d'encodeur-décodeur LSTM qui accepte les données de différentes entrées. Des observations de trajectoire à partir de données de nuages de points LiDAR 3D et d'informations sémantiques à partir de masques de carte sont utilisées. Les masques de cartes représentent des zones où les agents peuvent opérer ou non, de manière binaire. Les informations sur l'attention des piétons aux véhicules venant en sens inverse obtenues à partir des images des caméras sont également exploitées pour enrichir le système de prédiction de séquence. L'objectif est d'alimenter le modèle avec des indices contextuels et des informations sémantiques.Les architectures d'apprentissage sont construites à partir de jeux de données acquis à partir des capteurs de perception d'un véhicule. Étant donné qu'ils jouent un rôle important dans la résolution des problèmes d'apprentissage, les jeux de données annotés disponibles pour la navigation autonome ont été examinés en fonction de la disponibilité des données des capteurs et des informations contextuelles. Sur cette base, nos expériences ont permis de valider nos modèles et de construire progressivement leur architecture. Leurs performances sont démontrées à l'aide du célèbre jeu de données NuScenes acquis en milieu urbain. Les performances de l'approche proposée comparées aux approches basées sur des modèles et des données démontrent que l'ajout de multiples informations contextuelles et des interactions d'agents permet une augmentation substantielle des performances
Autonomous vehicle navigation in urban areas involves interactions with the different road-users or traffic-agents like cars, bicycles, and pedestrians, sharing the same road network. The ability of autonomous vehicle to observe, understand and predict the behaviour of these traffic-agents is very important to gain a good situation understanding prior to deciding what manoeuvre to follow. While this is achieved to various degrees of success using model-based or data-driven methods, human drivers remain much more efficient at this task, instinctively inferring different agent motions even in previously unseen and challenging situations. Moreover, context plays a very important role that enables us humans to understand what is being perceived and make finer predictions. The need to increase situational awareness of autonomous vehicles, as well as for safety related driving assistance functions, stimulates our goal to exploit contextual information to predict the future trajectories of the observed traffic-agents in different conditions.Over the past years, machine learning has proven to be efficient at solving a wide variety of problems, particularly those associated to machine perception. This thesis therefore focuses on developing machine learning models to exploit contextual information in order to observe and learn the trajectories of different interacting traffic-agents as perceived from an autonomous vehicle. While most models proposed in the past rely on a single sensor and model-based techniques, the current approaches often rely on the use of multiple sensors and process their outputs using different machine learning methods. The approach proposed in this thesis follows these trends by combining information from different sensors to predict the trajectories of the observed traffic-agents using machine learning, as well as integrating contextual information and interactions into the prediction process.The thesis gradually builds a machine learning architecture based on a theoretical formulation and experimentation. Our approach is based on an LSTM encoder-decoder model that accepts data from different inputs. Trajectory observations from 3D LiDAR point-cloud data and semantic information from map-masks are used. Map masks represent areas where the traffic-agents can operate or not, in a binary manner. The information on pedestrian attention to oncoming vehicles obtained from camera images is also exploited to enrich the sequence prediction system. The goal is to feed the model with context-cues and semantic information to enhance the prediction of the traffic-agent trajectories, by knowing whether or not the agents are aware of the presence of the subject vehicle and including knowledge on areas where they are likely to navigate. Moreover, interactions of the autonomous vehicle with traffic-agents often govern its behaviour as the vehicle navigates. A mechanism to incorporate this information to the machine learning model is also developed as an interaction-aware trajectory prediction system enhanced by context-cues.Machine learning architectures are built using datasets acquired from the perception sensors of a vehicle navigating in the expected workspace. As datasets play an important role in solving machine learning problems, available annotated datasets for autonomous navigation were reviewed according to their availability of sensor data and contextual information. Experiments were performed for our models to learn, and gradually build the resulting architecture. Their performance are demonstrated using the well-known NuScenes dataset acquired in urban settings. The performance of the proposed approach were compared with model and data-driven approaches, demonstrating that the incorporation of multiple contextual information and agent interactions provides a substantial performance increase