Objectifs de la chaire
Cependant, l’extraction de ces variables à partir de données multi-sources est un défi en raison des spécificités des données d’observation de la Terre, telles que l’observation indirecte des variables d’intérêt, la résolution spatiale variable et les séries temporelles échantillonnées de manière irrégulière.
Principal investigators
- Jordi Inglada (Senior Expert CNES, CESBIO)
- Nicolas Dobigeon (Full Professor Toulouse-INP)
- Mathieu Fauvel (1st grade Researcher INRAe, CESBIO)
- Silvia Valero (Associate Professor
Université de Toulouse 3, CESBIO)
Les modèles d’apprentissage profond offrent des solutions prometteuses pour construire des modèles complexes à partir d’énormes quantités de données.
Cependant, la plupart des modèles récents manquent de cohérence physique et d’interprétabilité. En outre, ils ne sont pas capables de traiter des données avec un échantillonnage irrégulier et non aligné, ce qui est courant dans l’Observation de la Terre multimodale.
L’opération nécessite également de grandes quantités de données, qui sont rares et bruitées dans le domaine de l’observation de la Terre.
Par conséquent, les modèles actuels ont une utilisation limitée dans les systèmes d’observation de la Terre à grande échelle.
Co-chairs
-
- Thomas Oberlin (Associate Professor, ISAE-SUPAERO, Université de Toulouse)
- Julien Michel (Research Engineer CNES, CESBIO)
- Selime Gürol (Senior researcher, ALGO-COOP team, CERFACS)
Ce projet développera de nouvelles méthodes d’apprentissage de représentations auto supervisées afin de produire des représentations probabilistes et sémantiquement pertinentes à partir de données d’observation de la Terre multi-modales et de haute dimension.
L’originalité réside dans l’utilisation de connaissances préalables issues de modèles physiques dans les architectures de Deep Learning et dans la proposition d’avancées dans l’estimation de l’incertitude et l’interprétabilité.
Le système d’IA hybride proposé combinera les connaissances physiques et le Deep Learning pour pré-entraîner des modèles capables d’apprendre, des représentations sémantiquement riches liées aux variables essentielles; des représentations génériques (données prêtes pour l’IA) qui peuvent être utilisées pour des tâches en aval.
Le système traitera des données multimodales afin de capturer des modèles spatio-temporels complémentaires. Des méthodes de DL guidées par la physique seront conçues pour conditionner le décodage des représentations génériques afin d’extraire et de prévoir les variables essentielles et leurs incertitudes.
Pour assurer la continuité dans le suivi des surfaces continentales, le système utilisera de nouvelles stratégies d’assimilation de données combinant des observations satellitaires avec des prévisions de modèles pré-entraînés.
L’apprentissage continu sera utilisé pour mettre à jour les modèles en réponse aux nouvelles données d’observation de la Terre.
Les tendances non-stationnaires et à long terme au-delà de la plage temporelle de l’entraînement initial seront prises en compte.
Le projet soulève des questions scientifiques concernant l’apprentissage de représentations probabilistes conjointes, l’incorporation d’informations physiques a priori , l’utilisation efficace de modèles pré-entraînés et la mise à jour continue des modèles avec les données nouvellement acquises et les nouveaux capteurs en orbite.
- Apprentissage de représentations conjointes de données de télédétection multimodales hétérogènes dans le temps, l’espace et les mesures.
- Apprentissage de modèles génératifs évolutifs pour représenter les données et leurs incertitudes tout en tenant compte des distributions complexes multimodales.
- Introduction de biais inductifs et d’apprentissage via des simulateurs physiques de processus bio/géo-physiques des surfaces observées et des modèles génératifs.
- Décodage des représentations probabilistes génériques des observations dans des cartes de variables essentielles du climat et de la biodiversité avec les incertitudes associées à des échelles spatiales et temporelles définies par l’utilisateur.
- Conception d’un cadre multitâche auto-supervisé pour l’entraînement de bout en bout.
- Vito, CLS, CNES, DLR, GAF embh: EVOLAND: develop and test new and innovative methods, algorithms and candidate Copernicus Land Monitoring Service prototypes by integrating novel EO/in-situ data and latest Machine Learning techniques to continuously monitor the status, dynamics and biomass of the land surface (Jordi Inglada, Julien Michel, Silvia Valero)
- CS Group, ESA: Sentinel-2 Agriculture (2014-2017) developing an operational system for cropland
mapping (crop mask, crop type, vegetation status) using satellite RS imagery (Jordi Inglada, Silvia
Valero)
- Une infrastructure d’apprentissage et d’inférence pour les grands modèles d’observation de la Terre qui s’étend aux pétaoctets de données.
- Une nouvelle architecture d’apprentissage profond pour apprendre des représentations probabilistes à partir de données d’observation de la Terre multimodales et à grande échelle.
- Production de variables essentielles sur le climat et la biodiversité, avec une meilleure résolution et une plus grande précision par rapport aux méthodes actuelles.
- Évaluation du cadre proposé par le biais de cas d’utilisation représentatifs sélectionnés.