Comment candidater ?
Envoyez votre CV détaillé, une lettre de motivation et une copie de vos diplômes à aniti-phd@univ-toulouse.fr.
Des exemples de vos publications scientifiques et des lettres de recommandation seront un plus.
Les offres de thèses
Modélisation data driven pour la conception de systèmes complexes
Contacts : Nicolas Canouet : nicolas.canouet@liebherr.com Serge Gratton : serge.gratton@toulouse-inp.fr Fabrice Gamboa : fabrice.gamboa@math.univ-toulouse.fr
Salaire : 32 k€ brut
Durée: 3 ans à partir d’Octobre 2021 Domaine de formation et niveau : Data Science, Master ou d’un diplôme d’ingénieur
INTRODUCTION
Cette thèse CIFRE sera réalisée à Toulouse de la cadre de la participation de Liebherr à l’institut d’intelligence artificielle ANITI. L’étudiant(e) aura ainsi accès à l’environnement industriel et ses enjeux ainsi qu’à l’excellence académique en matière d’IA.
Présentation ANITI
ANITI has 3 main missions: scientific research, training and economic development related to AI. ANITI aims to develop a new generation of artificial intelligence called hybrid AI, integrating data driven learning techniques and symbolic or mathematical models that permit us to express constraints and to carry out logical reasoning. ANITI also has ambitious aims with regard to education and industrial development.
Sa spécificité est de développer une nouvelle génération d’intelligence artificielle dite hybride, associant de façon intégrée des techniques d’apprentissage automatique à partir de données et des modèles permettant d’exprimer des contraintes et d’effectuer des raisonnements logiques. Rassemblant environ 200 chercheur.e.s issu.e.s des universités, écoles d’ingénieurs et organismes de recherche scientifique et technologique de Toulouse et sa région, et d’une cinquantaine de partenaires. Les secteurs d’application stratégiques ciblés sont la mobilité et les transports et la robotique/cobotique pour l’industrie du futur.
Présentation LIEBHERR
Cette thèse sera réalisée en collaboration avec les équipes Datalab et Contrôle et Modélisation Dynamique. Liebherr Aerospace Toulouse produit des systèmes de gestion et de conditionnement d’air pour l’aéronautique. Dans ce contexte, le Data Lab a pour mission de développer des méthodes et outils dans le domaine data analytics pour supporter la démarche entreprise de réduction des coûts de développement, d’optimisation des procédés industriels et développement de nouveaux services digitaux.
L’équipe Contrôle Dynamique est en charge de la conception et la validation des lois de contrôles des systèmes dynamiques.
RÉSUMÉ DU PROJET DE RECHERCHE
Pour le développement des systèmes d’air Liebherr développe des modèles numériques sur la base de résolution d’équations. Ces modèles ont différentes échelles de représentativité : composant ou système.
Il s’agit de modèles dynamiques qui ont deux principaux objectifs :
- Définir et valider les algorithmes de contrôle des systèmes embarqués
- Améliorer le choix des paramètres de design des composants après intégration dans le système
Toutefois, ces méthodes de modélisation nécessitent la mise en équation des phénomènes. Cela peut s’avérer difficile pour certains problèmes physiques très complexes. C’est ainsi le cas pour les systèmes pile à combustible ou cycle vapeur décrits ci-après.
Liebherr dispose d’installation qui permettent de réaliser des essais des composants et des systèmes dans des environnements représentatifs. Des données d’essai contenant de nombreuses informations sur le comportement des produits sont donc disponibles. Naturellement, ces données sont coûteuses à acquérir et sont donc généralement disponibles en petite quantité.
Ce projet vise ainsi à développer un ensemble de méthodologies IA qui permettront de développer des modèles dynamiques basés sur des données dans ce contexte données rares et ainsi se doter des capacités d’optimisation du contrôle et du design même dans des cas de physiques complexes.
Le projet comportera 3 étapes
- Création de modèles données : apprentissage automatique sur les cas d’application proposés par Liebherr
- Intégration de connaissances physiques : amélioration des modèles données par prise en compte de connaissances physiques partielles
- Plan d’expérience séquentiel : définition de nouvelles données à acquérir pour optimiser la représentativité du modèle données
DESCRIPTION DÉTAILLÉE
Le plan de travail de cette thèse s’articule en 3 étapes
Etape 1 : création de modèles données
L’objet de cette première partie est d’optimiser l’usage ou d’améliorer les techniques d’apprentissage automatique adaptées aux séries temporelles afin de créer les meilleurs modèles à partir des données qui seront mises à disposition par Liebherr. Il s’agit donc d’une part de disposer des fondations pour se doter de la capacité à créer des modèles à partir de données uniquement et d’autre part disposer de modèles de référence qu’il s’agira d’améliorer lors des étapes suivantes de projet. L’évaluation de la qualité sera définie a priori en fonction de l’usage final que l’on souhaite en faire. La définition de ces critères d’évaluation est une activité préalable qui permettra de mesurer la qualité des modèles en fonction de leur objectif d’utilisation.
Les données seront de différentes natures : essais sur banc, essais en vol et éventuellement données d’opérations en service. S’agissant des essais nous disposerons de quelques dizaines d’essais pouvant durer de quelques dizaines de minutes à quelques heures. Les fréquences d’échantillonnage varient entre 1 Hertz et 10 Hertz. À chaque instant t, les capteurs mesurent les variables d’intérêt. Il s’agit donc de séries temporelles. Le modèle à apprendre va avoir en entrée une ou plusieurs séries temporelles et va devoir fournir en sortie une ou des séries temporelles. L’objectif est donc d’apprendre la relation entre ces séries en entrée et en sortie, relation qui correspondra au comportement d’un composant ou système.
Une première technique envisagée pour un tel apprentissage est une forme de réseaux de neurones récurrents : les réseaux LSTM. Le principe de récurrence permet au réseau de calculer une sortie en fonction de l’information actuelle mais aussi en fonction de la précédente. Ce principe est particulièrement adapté sur des séries temporelles où il y a des dépendances avec les données précédentes. Cependant on peut avoir des dépendances proches (quelques points précédemment) ou beaucoup plus lointaines (quelques dizaines/centaines de pas de temps précédents).
Un défi majeur sera la quantité de données mise à disposition pour cet apprentissage. Il s’agira donc d’optimiser l’utilisation des techniques : architecture, hyper-paramètres, choix de la fonction coût ou encore type/génération de sous-séquence dans le cas des LSTM. Parmi les architectures à étudier, nous nous focaliserons notamment sur des architectures récurrentes qui, comme le filtre de Kalman, sont capables d’alterner deux opérations : la propagation temporelle d’une part, et l’analyse à partir d’observations. Ces étapes, qui peuvent être vues dans le cas du filtre de Kalman comme des transformations de densités de probabilités paramétriques, seront estimées en utilisant des données de fonctionnement du dispositif expérimental. Cette approche a été formalisée récemment dans le cadre ANITI sous la forme d’une approche de Bayes variationnelle qui rivalise avec les algorithmes d’assimilation de données de l’état de l’art [REF au travail de AF] sur des systèmes académiques.
Ces résultats prometteurs obtenus, nous désirons à présent confronter notre approche à des situations industrielles réelles. De nombreuses questions se posent alors, pour que la technique puisse répondre à l’objectif de prédiction :
1) Quelles architectures neuronales sont les plus adéquates pour capturer la physique sous -jacente ? La physique sous-jacente prenant souvent la forme d’équations aux dérivées partielles les réseaux convolutifs semblent des candidats à considérer lorsque des couplages locaux sont à représenter dans les propagations temporelles. Les réseaux complètement connectés seront bien sûr à privilégier pour les transferts globaux d’information, où des champs réceptifs larges sont désirés. Les réseaux profonds seront probablement incontournables pour modéliser les fortes non-linéarités.
2) Quels algorithmes d’apprentissage peuvent être utilisés pour entraîner ces réseaux « reproduisant » la physique ? Par analogie avec la résolution classique de problèmes physique, des méthodes efficaces doivent être introduites pour les physiques complexes. En effet, les exigences en précision pour les problèmes physiques sont plus exigeants en précision (typiquement, des précisions relatives fiable sont demandée) que les problèmes classification d’image qui sont de nature discrète. Il sera important de trouver les bonnes techniques d’optimisation pour ces problèmes, parfois très non-convexes. On pourra s’appuyer sur l’expérience de l’équipe APO sur la méthode des régions de confiance [REF] et sur les méthodes de régularisation.
3) Une question centrale concerne la quantification l’erreur de généralisation des réseaux récurrent produits et la génération de données d’apprentissage pour les réseaux. Quels outils mathématiques permettent de garantir le contrôle de l’erreur de généralisation. Il s’agira de combiner l’universalité des réseaux de neurones avec des résultats de convergence statistiques. Le projet Graine permettra d’aller au-delà et d’affiner ces résultats de convergence en les ajustant sur la problématique spécifique de la pile à hydrogène. Il sera alors possible de s’appuyer sur des considérations physiques pour guider le choix de la géométrie des données la plus pertinente pour l’apprentissage.
4) Il est fort probable que les techniques d’optimisation utilisées pour les problèmes usuels de classification (les méthodes d’optimisation du premier ordre) soient mises en défaut pour ces problèmes d’apprentissages où en plus de la non-linéarité, il faudra faire face à des besoins de précision élevée. Il est fort probable qu’une réflexion doive être menée pour trouver les meilleurs optimiseurs, ce qui pourra être fait en collaboration avec les chercheurs ANITI impliqués en optimisation de grande taille.
La validation sera faite classiquement sur un jeu de test dédié avec des critères définis préalablement mais aussi après intégration dans la chaîne de traitement qui permettra d’utiliser le modèle pour son but applicatif.
Etape 2 : intégration de connaissances physiques
Le deuxième volet de ce travail consiste à augmenter la qualité du modèle données en prenant en compte des connaissances physiques. Plusieurs approches sont envisageables et seront naturellement très liées à la nature du problème à résoudre.
Dans le cas de modèle système, il peut être envisagé d’utiliser des modèles dits physique connus et disponibles de sous-ensembles du système. Cette première voie est donc une approche hybride intelligence artificielle et modélisation physique. Par exemple, il est possible de construire des réseaux récurrents dont sous-systèmes implantent des opérations « imitant » une physique pré-supposée agissant dans un espace latent. Ces opérations pourraient modéliser des phénomènes physiques répertoriés (une diffusion, une advection, une réaction) en implantant des schémas classiques et connus issu du domaine de la résolution numérique d’équations aux dérivées partielles. Cette approche permettrait d’introduire une forme d’explicabilité (de l’architecture) du réseau de Neurones, puisque son principe de construction ne seraient plus uniquement algébriques et intègrerait les types de physique désiré sous forme de sous-systèmes couplé. Si cette voie parait naturelle, elle introduit un certain nombre de questions :
1) Comment réaliser l’apprentissage statistique des sous-systèmes couplés ? Peut-on le réaliser par sous-système, ou une approche globale, plus optimale, devra être menée ? Une difficulté de l’approche globale est bien sûr liée au grand nombre de paramètres sur lequel porte l’échantillonnage et optimisation.
2) Si une approximation précise des sous-systèmes représente un intérêt applicatif en soi, et est à considérer, comment prendre ces spécifications de performance dans l’approche globale ?
3) Comment orchestrer la convergence de l’apprentissage sur les sous-systèmes couplé ? Est-il possible ou nécessaire de traiter les sous-systèmes d’une manière asymétrique (certain devant converger en priorité) ?
4) Si l’approche globale est favorisée en raison de son optimalité, peut-on utiliser des approches locales simplement pour accélérer le processus d’apprentissage (comme technique de pré-conditionnement)?
5) Si les physiques de certains sous-systèmes sont connues, mais couteuses à simulées, est-il intéressant de les remplacer par des modèles de substitution pour réduire les coûts de calcul.
Une deuxième voie sera d’adapter les architectures des réseaux afin de permettre de préserver des propriétés physiques des phénomènes à modéliser. Il s’agira ici de généraliser à des contraintes générales des techniques souvent utilisées au niveau des fonctions d’activation notamment pour imposer le signe ou plus généralement la plage de variation de certaines quantités. On pourrait forcer par exemple la conservation de certaines grandeurs au niveau de l’architecture même du réseau.
Enfin on cherchera à guider l’apprentissage. A titre d’exemple, il pourrait être possible pour le système VCS de reconstruire une variable additionnelle modélisant l’état de la phase du fréon au cours du temps. La prise en compte de cette variable comme variable explicative permettrait d’améliorer la qualité de l’inférence. Cette approche s’apparente au « feature engineering » qui permet plus généralement d’introduire des observables dont les quantités à prédire sont des fonctions faciles à découvrir pour le réseau.
Etape 3 : plan d’expérience séquentiel
Les modèles créés à l’étape 1 et améliorés à l’étape 2 seront limités par la quantité d’information contenues par les données utilisées pour l’apprentissage. Ces données sont obtenues en réalisant une première campagne d’essais ou à partir de données d’exploitations. L’objectif premier n’est pas nécessairement de fournir la matière pour créer un modèle. Ces essais ont une représentativité limitée liée à la taille ou la complexité des systèmes, la variété des conditions d’opérations à reproduire et le nombre d’essais réalisés qui doit être minimisés (accès aux ressources d’essais et coût des essais).
L’amélioration de la précision et de la représentativité des modèles passera par la génération de données additionnelles. Compte tenu des coûts d’acquisition de ces données, il est fondamental d’identifier les zones où le modèle doit être améliorés, identifier la valeur a priori qu’apporterait un nouvel essai et enfin définir la stratégie optimale d’essais additionnels à réaliser (i.e. scenario temporel, conditions). Des méthodes du type apprentissage actif seront étudiées.
La maîtrise d’une telle méthodologie apparait majeure dans la capacité à créer des modèles data-driven de qualité. Elle apporterait également une grande valeur dans la mise au point de tout modèle qui nécessite également des données d’essais pour ajuster des degrés de liberté et optimiser la fidélité du modèle.
Optimization of the structure and activation functions of deep neural networks for improved trajectory prediction of airliners
Advisors : Daniel Delahaye, Nicolas Couellan (ENAC), François Soumis (IVADO)
Contacts : Delahaye@recherche.enac.fr , niolos.couellan@recherche.enac.fr
Net Salary: 2 096€ per month with some teaching (64 hours per year on average)
Duration: 36 months
CONTEXT
Neural networks are currently able to rival or even surpass humans in games and control problems. However, these networks are often built by replicating the same structure on a set of fairly homogeneous layers. The learning of these networks is then done by optimizing the values of the neuronal weights without taking into account the structure of the network as well as the activation functions in the optimization process. The objective of this research is to use artificial evolution principles to jointly optimize the network structure and the associated activation functions in order to improve the global learning process. We propose to apply this methodology to the problem of predicting the trajectories of civil transport aircraft.
Description
In recent years, artificial neural networks (ANN [1]) have demonstrated impressive learning capabilities for a wide variety of tasks. These methods have recently been applied to reinforcement learning (RL), where ANNs have been trained to play video and board games, achieving human or higher levels of performance [2]. However, a number of limitations to deep learning remain. In particular, only neuron weights are optimized by optimization algorithms (gradient retro-propagation) but few initiatives explore the potential benefits of taking into account other network attributes in the optimization process.
At the same time, optimization methods have undergone very interesting developments, especially in the framework of meta-heuristics [3] which allow to address problems of great complexity in many fields of applications. This success is also linked to new developments in computers which have seen their power increase dramatically (GPU).
In this study, we propose to use artificial evolution principles [4] to optimize the structure and activation functions of neural networks in order to improve their learning and adaptation performances.
In order to validate this approach we propose to apply this methodology to a difficult problem from the field of air traffic management: trajectory prediction.
The aim of trajectory prediction is to estimate the future position of aircraft along their predicted trajectories in order to detect potential conflicts and optimize airspace occupancy. This prediction is an essential task of the air traffic control (ATC) process and has been studied for many years [5]. For future automation processes developed in the SESAR (Europe), NextGen (USA) and CARATS (Japan) projects, such trajectory prediction will be even more critical. In these projects, trajectory predictors generate aircraft prediction trajectories, usually for customer applications. Since there is always a discrepancy between the predicted wind/temperature (from the weather forecast) and the encountered temperature/wind, the main source of longitudinal (along-track) error between the predicted and actual trajectory is related to the weather estimate. Other factors also influence such a prediction such as aircraft weight, aircraft model parameters, intentions, etc.
In order to improve this trajectory prediction, we propose to use a hybrid approach based on a coupling of artificial evolution and neural networks.
This research, co-supervised by researchers from ENAC of the IVADO institute (Canada), will build on the existing collaboration between the OPTIM and IVADO research teams, and will be carried out in the framework of the ANITI chair entitled “Artificial Intelligence for Air Traffic Management and Large-Scale Urban Mobility” held by Daniel Delahaye. OPTIM is one of the four units of the ENAC research laboratory. It covers a large part of the optimization thematic spectrum (continuous and mixed optimization, discrete optimization, automatic learning, optimal control and air traffic applications). IVADO is one of the world’s leading institutes in the field of operational research and artificial learning. These entities are currently working on similar issues and have been collaborating for several years. Nicolas Couellan (ENAC/OPTIM/ANITI) and François Soumis (IVADO) will be in charge of the supervision.
References
[1] Deep Learning. Goodfellow and Yoshua Bengio and Aaron Courville. MIT Press. 2016
[2] Human-level control through deep reinforcement learning. Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., et al. Nature, 518(7540):529. 2015
[3] Handbook of Metaheuristics. International Series in Operations Research and Management Science book series. Vol 146, Editors M.Gendreau and J.Y. Potvin. Springer.2019
[4] Evolutionary Algorithms in Theory and Practice : evolution Strategies, Evolutionary Programming, Genetic Algorithms, T. Back. Oxford Univ. Press. 1996.
[5] A hybrid machine learning model for short-term estimated time of arrival prediction in terminal manoeuvring area. Transportation research. Zhengyi Wang, Man Liang, and Daniel Delahaye. Part C, Emerging technologies, 95:280 – 294, October 2018
Advanced data-driven techniques for the moment-SOS hierarchy
Advisors: Jean-Bernard Lasserre, Milan Korda, Victor Magron (LAAS-CNRS)
e-mail: lasserre@laas.fr | vmgron@laas.fr | korda@laas.fr
Net salary: 2 096€ per month with some teaching (64 hours per year on average)
Duration: 36 months.
Abstract
Many problems from various fields (optimization, statistics, dynamical systems, quantum physics) can be addressed by Lasserre’s hierarchy [1,2]. This unified approach solves a series of convex optimization problems of increasing size. In some of these applications, this approach has also required to be able to describe the support of a measurement from a finite number of its moments (precisely the information obtained in the Lasserre hierarchy), thanks to the Christoffel-Darboux kernel. An open question of importance is whether this approach can be applied in a “data driven” context (i.e. governed by the “data”) where the underlying model is unknown but its behaviour is described by some available “observations”. The project consists in exploring this research avenue based on promising early work [3]. Any progress in this direction would establish Lasserre’s hierarchy methodology as a new rigorous tool for certain “big data” applications, and a complement to current ad-hoc heuristic methods with limited mathematical foundations..
Description
The goal of this research is the extension of Lasserre’s hierarchy and Christoffel-Darboux’s core to a “data driven” context, i.e. a context governed no longer by an analytical model but rather by data or observations, and typically in some cases, a large amount of these data. It will be a question of developing new methods and, as far as possible, also providing an analysis of the guarantees of convergence, the influence of possible “decoys”, etc.
A first research “lead” is to try to extend the approach [4] to measures whose support is contained in certain classes of mathematical varieties. The intention is to apply this methodology to deep learning models (Deep Neural Networks) for which it is commonly accepted that a latent representation of observations corresponds to a variety of relatively small dimensions. For the validation of the results obtained, numerical experiments on several standard test benches are envisaged, including MNIST, CIFAR10, or fashion MNIST.
Other complementary avenues may include (but are not limited to) the analysis of adaptive sampling techniques and the choice of bases for the approach developed in [3], as well as the extension of the proposed method beyond the class of problems initially considered; for example, the extension to data-driven optimal control problems.
Another important direction of research, further upstream, consists in studying the reduction of computational complexity through the exploitation of parsimony and/or symmetry present in large-dimensional applications (a typical big-data context), or any other possible structural property to be discovered according to the type of application considered.
We insist on the large degree of freedom that we wish to grant to the successful candidate so that he can also give free rein to his creativity (as much as possible within the framework described above).
This thesis, co-funded by ANITI, will be co-supervised by Jean-Bernard Lasserre, DR CNRS in the MAC team of the LAAS and holder of the ANITI chair “Polynomial optimization and Christoffel function in ML & data analysis” as well as by Milan Korda and Victor Magron, and associate researchers of the same chair and CR CNRS in the MAC team at LAAS. It is fully part of the activities of the Laboratory – it is indeed part of the investment of LAAS and ANITI in the analysis of the robustness of machine learning algorithms and the study of their convergence properties.
References
[1] J.B. Lasserre (2001). Global optimization with polynomials and the problem of moments. SIAM Journal on optimization, 11(3), pp. 796–817.
[2] J.B. Lasserre (2010). Moments, Positive Polynomials and Their Applications. World Scientific, Singapore, 2010.
[3] M. Korda (2019). Data-driven computation of the maximum positively invariant set for nonlinear dynamical systems. FEANICSES workshop, https://cavale.enseeiht.fr/feanicses/files/
W2019/4-korda.pdf.
[4] E. Pauwels, M. Putinar and J.-B. Lasserre (2020). Data analysis from empirical moments and the Christoffel function. Foundations of Computational Mathematics, 2020. hal-01845137
[5] E. Pauwels and J.-B. Lasserre (2019). The empirical Christoffel function with application in data analysis. Advances in Computational Mathematics 45, pp. 1439–1468.
Improvement of data assimilation algorithms using latent spaces from machine learning
Advisors: Serge Gratton (Toulouse INP, IRIT)
e-mail: serge.gratton@toulouse-inp.fr
Net salary: 2 096€ per month with some teaching (64 hours per year on average)
Duration: 36 months.
Abstract
Data assimilation is a proven technique for predicting the state of a system using a mathematical representation of its dynamics and physical observations. It is for example, to cite a well-known application, the technique used to predict the weather in Meteorology, the behavior of oceans or rivers during floods.
This technique is implemented in major forecasting centers (Météo-France, European Center for Medium-Range Forecasting), or in smaller physical systems (EDF for example in Neutronics, for the forecast of the state of power plant cores). It requires significant computing power.
Machine learning is an artificial intelligence technique, which enables prediction tasks to be performed by adjusting the weight of deep neuron networks using a training procedure on data. This technique is in full expansion and its successes invite to consider its application outside its classical fields of use (which are signal and speech processing).
The central question for the thesis is: can we obtain more efficient approaches to achieve predictions in physical systems using artificial intelligence? We are looking here for algorithms that save computing power (memory, electrical energy, computing time) and are more reliable than classical data assimilation techniques.
Description
Several directions will be explored in the thesis to accelerate the methods of assimilation of reference data, based on nonlinear model reduction by using artificial intelligence. It will be a question of discovering if a physical system admits an optimized representation in an adapted base. The approach will be based on auto-encoders that will allow to discover a possible latent structure in the dynamics. The data assimilation will then be operated in the latent space by filters able to take into account the approximation error of the real dynamics by the latent dynamics.
More precisely, the thesis will have the following objectives:
- To develop a data assimilation algorithm for problems having a representation in a low dimensional space. An important point will be the statistical characterization of the gap between the real dynamics and the latent dynamics. Several algorithms will be developed, starting from algorithms that only integrate the system in a latent space, to algorithms that perform the entire data assimilation in this space.
- To generalize the algorithms to allow them to automatically detect whether such a latent structure, which is relevant for data assimilation, exists.
- To generalize the following approaches to online system monitoring when latent spaces are time-dependent.
The systems considered for the development and mathematical analysis of the algorithms will be derived from standard problems in data assimilation: Burgers’ system, shallow-water system, Lorentz’s system.
These algorithms will be exercised on problems where the aim is to predict physical fields that follow partially known laws because they are parametric or subject to errors with known statistics. The results will be implemented in commonly used platforms such as Pytorch.
This thesis is part of the Data Assimilation and Machine Learning Chair of the 3IA ANITI Institute.
The work will take place in Toulouse, within the institute in collaboration between the chairs of data assimilation and learning under physical constraints. The case studies will be representative case studies of forecasting problems in chaotic systems as encountered in meteorology) or non chaotic systems encountered in industrial design (aeronautics for example).
The student will be co-supervised by the main chair holder (S. Gratton, optimization and data assimilation) in cooperation with co-supervisors specialized in data assimilation and deep learning.
Towards sophisticated conversational assistants for aeronautics
Advisors: Nicholas Asher, Philippe Muller (IRIT)
e-mail: Nicholas.asher@irit.fr
Net salary: 2 096€ per month with some teaching (64 hours per year on average)
Duration: 36 months.
Abstract
The objective of the thesis is to significantly improve the performance of current solutions in order to reliably extract relevant semantic and pragmatic information from a conversation. The extraction of this information strongly depends on the discourse context of the conversation and on the way the information of a statement is integrated in this context.
The activities that will be carried out in this thesis will consist in particular in transcribing a speech recognition output to a command executable by the system, and in monitoring the correct transcription, in particular by providing a confidence indicator on the understanding of the speech command.
Context and Challenges:
The proposed use case for this subject concerns the aeronautical environment. Aircraft manufacturers and equipment manufacturers are planning to develop systems that perform various tasks on voice commands from operators or the control tower (air traffic control or ATC). These systems must be able to understand and correctly execute the tasks required. While there are currently powerful speech recognition solutions that can accurately transcribe a spoken sentence into a text, their performance is limited when it comes to extracting a somewhat complex goal or request from the sentence.
The average performance of complex request-to-action transcription systems stems directly from the fundamental difficulty of reliably extracting relevant semantic and pragmatic information from a conversation. This is largely due to the fact that the understanding of a conversation element, and thus the extraction of semantic and pragmatic information, is highly dependent on the discourse context of the conversation and on the way the information of an utterance is integrated in this context.
To illustrate, consider the following query:
“Houston ATC: N8937Y, turn left 240 direct Alexandria, then Husdzy four arrival into IAH. Descend and maintain FL310; expect lower in 5 minutes”.
In this communication, the understanding of the request involves the following elements:
- The system must already be certain that the aircraft is heading towards the Houston airport. If not, it must immediately request clarification from ATC.
- The system needs to understand that, from its current position, the aircraft must first turn left, then proceed directly to the Alexandria VOR (and that this heading will bring it to the desired VOR), and finally, execute the STAR HUDZY4 approach, which it must confirm it has in its repertoire.
This relatively classic example illustrates several key points of the problem. Firstly, an aspect of anchoring concepts and objects to the system’s knowledge base. Second, we see information inferred from the context. For example, the sequence of actions just described is not signaled by verbal tenses but by a discursive connector “then”. Third, the actions in this communication do not just form a simple sequence. The second sentence “Descend and maintain FL310; expect lower in 5 minutes” elaborates a facet of the trajectory. On its way to Alexandria, the aircraft must descend from its current altitude to 31,000 feet and plan a further descent in 5 minutes. This parallelism or “elaboration” of the plan is discursively inferred and is pragmatic information that dictates how to integrate the information contained in the statement.
Finally, in this framework, the exploitation of the conversational context is essential to guarantee the quality of the information extracted from a conversational tour. Such exploitation allows for questions, corrections or revisions of what an interlocutor has understood with dialogical devices such as questions of clarification. The purpose of these questions is to ensure that the interlocutor can confirm with the speaker the information he or she has extracted from the message or correct it if necessary.
Mastering these dialogical means would guarantee the transmission of semantic and pragmatic information in the context of a critical system.
Although we now have a good theoretical understanding of conversational tools that allow a mastered understanding of semantic and pragmatic information in a conversation [1]-[3], there are still difficulties in implementing these tools as is the case for many semantic inferences [4].
Objectives of the thesis :
The framework that we envisage is limited firstly by the fact that the tasks that motivate or provoke verbal communications can be cleared in advance, as ATC needs to communicate about weather conditions, changes in frequency, the prescribed route (ATC clearance), the modification of the flight path – commands to change altitude, direction or possibly part of the route.