Objectifs de la chaire
La robotique a connu d’énormes progrès ces dernières années grâce aux avancées des simulateurs, des optimiseurs et de l’apprentissage par renforcement. Malgré des démonstrations impressionnantes, ces méthodes n’ont pas encore été pleinement déployées dans le monde réel, et leur mise à l’échelle reste un défi.
Et si nous pouvions exploiter tout le potentiel de l’optimisation sous contrainte et de l’apprentissage par renforcement pour former des politiques sûres et efficaces pour les tâches de locomotion et de manipulation dynamiques ?
Dans le cadre de cette chaire, nous proposons d’atteindre cet objectif en revisitant le fonctionnement des algorithmes d’apprentissage par renforcement en tirant parti de l’expertise consolidée acquise par des années de progrès en commande prédictive numérique, et en exploitant les avancées récentes en matière de simulateurs différentiables.
Notre objectif est de parvenir à une convergence plus rapide et plus précise, en réduisant la charge de calcul et en fournissant des garanties strictes sur la politique optimale obtenue. Nous incorporerons ensuite des stratégies globales pour planifier à travers des modes dynamiques hybrides (par exemple, en raison d’interactions de contact intermittentes) et l’intégration d’informations sensorielles multimodales, y compris la détection de la force et du toucher.
Ces améliorations augmenteront la robustesse et la sécurité de nos politiques lors des interactions physiques, ce qui permettra une manipulation et une locomotion robotiques fiables dans des environnements complexes.
Les capacités expérimentales uniques de notre équipe et sa forte expertise dans les domaines de l’apprentissage par renforcement et le contrôle optimal permettront d’établir un cadre complet pour l’optimisation et le contrôle des politiques robotiques permettant à terme le développement de robots capables de mouvements complexes, adaptatifs et fiables déployés dans des cas applications réelles.
La chaire bénéficiera d’interactions fortes avec la chaire de synergie C3PO ainsi qu’avec d’autres chaires dans le domaine de l’optimisation numérique et de l’apprentissage automatique. Les résultats seront traduits en problèmes pratiques grâce à une collaboration efficace avec le fabricant de robots PAL et avec l’utilisateur final AIRBUS.
Le projet prendra également en compte les impacts socio-économiques directs avec une attention particulière portée sur la diffusion directe auprès des étudiants grâce à la création d’un programme d’échange international et le jeune public par le biais d’activités robotiques spécifiques.
- Cadre théorique unifié pour l’apprentissage par renforcement et la commande prédictive.
- Apprentissage par renforcement différentiable avec des modes mixtes discrets-continus.
- Détection multimodale pour les systèmes partiellement observés (y compris la rétroaction haptique).
- Optimisation sûre et efficace de politiques pour des comportements robotiques dynamiques (locomotion et manipulation).
- PAL et AIRBUS : la chaire déploiera les résultats de la recherche sur leurs besoins d’application spécifiques, en tirant parti des collaborations déjà existantes avec N. Mansard
- NYU – LAAS/CNRS – Vers un retour en force dans la commande prédictive par modèle, thèse de doctorat de S. Kleff à NYU, co-supervisée par L. Righetti and N.Mansard
- C3PO, chaire ANITI – projet de thèse de doctorat en cotutelle encadrée par L. Righetti, N. Mansard et O. Stasse
- Programme d’échange international d’étudiants. Des étudiants en M.Sc. de NYU et de la région toulousaine pourront mener des recherches pendant une durée de 6 mois dans le laboratoire du pays partenaire
- Sensibilisation à l’éducation avec des étudiants issus de divers milieux socio-économiques, y compris un concours international de programmation de robots avec des écoles secondaires de New York et de la région toulousaine.
- Un cadre algorithmique complet pour des comportements robotiques évolutifs, complexes et fiables.
- Démonstration de nouveaux comportements de manipulation et de locomotion sur des robots réels (manipulateurs, quadrupèdes et humanoïdes).