Chair objectives
Robotics has seen tremendous progress in recent years thanks to advances in simulators, optimizers, and reinforcement learning. Despite impressive demonstrations, however, these methods have yet to be fully deployed in real-world settings, and scaling beyond the lab remains a challenge.
Et si nous pouvions exploiter tout le potentiel de l’optimisation sous contrainte et de l’apprentissage par renforcement pour former des politiques sûres et efficaces pour les tâches de locomotion et de manipulation dynamiques ?
Dans le cadre de cette chaire, nous proposons d’atteindre cet objectif en revisitant le fonctionnement des algorithmes d’apprentissage par renforcement en tirant parti de l’expertise consolidée acquise par des années de progrès en commande prédictive numérique, et en exploitant les avancées récentes en matière de simulateurs différentiables.
Notre objectif est de parvenir à une convergence plus rapide et plus précise, en réduisant la charge de calcul et en fournissant des garanties strictes sur la politique optimale obtenue. Nous incorporerons ensuite des stratégies globales pour planifier à travers des modes dynamiques hybrides (par exemple, en raison d’interactions de contact intermittentes) et l’intégration d’informations sensorielles multimodales, y compris la détection de la force et du toucher.
These enhancements will increase the robustness and safety of our policies during physical interactions, enabling reliable robotic manipulation and locomotion in
complex environments.
Les capacités expérimentales uniques de notre équipe et sa forte expertise dans les domaines de l’apprentissage par renforcement et le contrôle optimal permettront d’établir un cadre complet pour l’optimisation et le contrôle des politiques robotiques permettant à terme le développement de robots capables de mouvements complexes, adaptatifs et fiables déployés dans des cas applications réelles.
The chair will benefit from strong interactions with the synergy chair C3PO as well as other chairs in numerical optimization and machine learning. Results will be translated on practical problems through an
effective collaboration with the robotic manufacturer PAL and with the end-user AIRBUS.
Le projet prendra également en compte les impacts socio-économiques directs avec une attention particulière portée sur la diffusion directe auprès des étudiants grâce à la création d’un programme d’échange international et le jeune public par le biais d’activités robotiques spécifiques.
- Cadre théorique unifié pour l’apprentissage par renforcement et la commande prédictive.
- Apprentissage par renforcement différentiable avec des modes mixtes discrets-continus.
- Détection multimodale pour les systèmes partiellement observés (y compris la rétroaction haptique).
- Optimisation sûre et efficace de politiques pour des comportements robotiques dynamiques (locomotion et manipulation).
- PAL and AIRBUS: the chair will deploy research results on their specific application needs, leveraging already existing collaborations with N. Mansard
- NYU – LAAS/CNRS – Vers un retour en force dans la commande prédictive par modèle, thèse de doctorat de S. Kleff à NYU, co-supervisée par L. Righetti and N.Mansard
- C3PO, planned co-supervised PhD thesis supervised by L. Righetti, N. Mansard and O. Stasse.
- International Student Exchange Program, M.Sc. students from NYU and the Toulouse region will be able to conduct research for a duration of 6 months in the laboratory of the other country
- Educational outreach, students from diverse socio-economic backgrounds, including an international robot programming competition with middle schools from New York City and the Toulouse region.
- Un cadre algorithmique complet pour des comportements robotiques évolutifs, complexes et fiables.
- Démonstration de nouveaux comportements de manipulation et de locomotion sur des robots réels (manipulateurs, quadrupèdes et humanoïdes).