Objectifs de la chaire
L’apprentissage par renforcement profond (deep RL) – l’apprentissage de comportements optimaux à partir de données d’interaction, en utilisant des réseaux de neurones profonds – est souvent considéré comme l’une des prochaines frontières de l’intelligence artificielle.
Alors que les algorithmes actuels de RL n’échappent pas à la recherche incessante de modèles plus grands, de données plus volumineuses et de demandes de calcul plus importantes, nous supposons que les impacts du RL dans le monde réel proviendront également d’algorithmes pertinents dans le régime des petites données, sur des architectures de calcul raisonnables.
La recherche sur les réseaux neuronaux se trouve à un carrefour où l’on souhaite conserver la polyvalence et les capacités de représentation des réseaux neuronaux profonds, tout en faisant face à des données et des ressources limitées.
Dans ces conditions, il est essentiel de comprendre comment préserver les propriétés de convergence algorithmique, la robustesse aux incertitudes, les garanties dans le pire des cas, les caractéristiques transférables ou les éléments d’explication du comportement.
C’est pourquoi nous tentons de mettre le RL “au régime”, afin de mieux comprendre le RL frugal : ses fondements théoriques, les nombreuses façons de compenser des données limitées, les algorithmes solides que l’on peut concevoir, et les impacts pratiques qu’elle peut avoir sur les nombreuses applications du monde réel, où, intrinsèquement, les données sont coûteuses et les ressources limitées, aussi bien dans le domaine de la robotique autonome que dans celui de la médecine personnalisée.
Biais inductifs en tant que régularisateurs dans les processus de décision de Markov, y compris :
- Régularisateurs explicites à partir d’invariances expertes ou apprises
- Lien entre les pertes auxiliaires, les propriétés de généralisation et la frugalité des données
- Régularisateurs implicites forts pour le contrôle basé sur l’image
- L’adaptation des graphes de fonctions comme moyen d’atteindre l’efficacité de l’échantillonnage
- Biais inductifs à partir de démonstrations humaines
Transfert de connaissances des terrains de jeu gratuits aux problèmes complexes de la vie réelle
- Apprentissage invariant de la résolution et transfert dans des environnements de complexités diverses
- Apprentissage de représentation agnostique par rapport à la tâche
- Modèles de base pour le RL en tant que fondement de la frugalité
Méthodes d’optimisation adaptées au RL frugale
- RL basé sur des modèles avec de riches représentations de graphes de fonctions et une optimisation efficace des politiques
- La logique en tant que programmation semi-infinie et son lien avec l’apprentissage efficace par échantillonnage
- Soutien officiel d’AIRBUS, Vitesco Technologies, IRT Saint Exupéry, ONERA
- Robotique mobile autonome. Thèse en cours de H. Bonnavaud sur la planification des missions (débutée en 2021, avec l’AID), thèse en cours de A. Zouitine sur la commande robuste (début 2021, avec l’IRT Saint Exupéry)
- Contrôle de processus complexes de dynamique des fluides simulés ou réels. Projet de thèse en cours de B.Martin sur le contrôle des rafales (début 2020), projet pré-doctoral en cours de B. Corban sur le contrôle expérimental en conditions réelles (début 2023, avec l’EPFL), projet post-doctoral de S. Berger sur l’extensibilité et l’utilisabilité sur étagère des méthodes RL (2021-2023, avec l’AID)
- Régimes de traitement dynamiques pour les processus hôte/tumeur cancéreux. Projet de doctorat de H. Li (à partir de 2024, avec l’INSERM)
- Fondements formels de la logique logique frugale
- Nouvelles formulations et algorithmes pour la généralisation, le transfert et la robustesse du RL profond face à la rareté des données, et les défis qui y sont liés
- Algorithmes utilisables pour le RL dans la vie réelle