Notre objectif est d’obtenir une convergence plus rapide et plus précise en réduisant la charge de calcul et en fournissant des garanties strictes sur la politique optimale résultante. Nous intégrerons ensuite des stratégies globales pour échapper aux minima locaux et permettre la planification à travers divers modes de contact (par exemple, en raison d’interactions de contact intermittentes). Nous explorerons également l’intégration d’informations sensorielles multimodales, y compris la détection de force et de toucher, en tirant parti des résultats récents avec les modèles fondamentaux. Ces améliorations augmenteront la robustesse et la sécurité de nos politiques lors des interactions physiques, permettant une manipulation et une locomotion robotiques fiables dans des environnements complexes.
Les capacités expérimentales uniques de notre équipe et sa vaste expertise en apprentissage par renforcement et en commande optimale permettront l’établissement d’un cadre complet pour l’optimisation et le contrôle des politiques robotiques, permettant à terme le développement de robots capables de mouvements complexes, adaptatifs et fiables déployés dans des applications du monde réel.
La chaire bénéficiera de fortes interactions avec la chaire de synergie C3PO, ainsi qu’avec d’autres chaires en optimisation numérique et en apprentissage automatique. Les résultats seront traduits en problèmes pratiques grâce à une collaboration efficace avec le fabricant de robots PAL et l’utilisateur final AIRBUS. Le projet prendra également en compte les impacts socio-économiques directs, avec un accent particulier sur la sensibilisation directe des étudiants par la création d’un programme d’échange international et des jeunes publics par des activités robotiques spécifiques.