Objectifs de la chaire
Les modèles d’IA récents ont connu un succès remarquable dans des domaines spécifiques (par exemple, la vision, le langage, le contrôle d’agents robotiques, etc) et l’on s’oriente vers des modèles de plus en plus grands combinant plusieurs modalités d’entrée et de sortie.
En théorie, les représentations multimodales peuvent aider les spécialistes de la vision en dotant les entrées sensorielles d’informations sémantiques.
De même, les linguistes peuvent les utiliser pour ancrer les jetons NLP dans l’environnement sensorimoteur et créer une forme de sens référentiel.
Les roboticiens peuvent également tirer parti de ces représentations polyvalentes pour la navigation et la planification des actions.
Principal investigator
- Rufin VanRullen (Lead PI, DR CNRS, CerCo)
- Nicholas Asher (DR CNRS Emerite, IRIT)
- Thomas Serre (Professor, Brown University)
- Olivier Stasse (DR CNRS, LAAS)
Mais dans la pratique, les modèles actuels reposent sur des approches d’apprentissage par force brute utilisant des milliards d’exemples étiquetés alors que les ensembles de données et les ressources informatiques à la disposition des chercheurs universitaires et industriels sont généralement beaucoup plus petits.
Par rapport aux réseaux neuronaux artificiels, les vrais cerveaux apprennent beaucoup plus efficacement. Nous nous inspirons donc de l’idée des sciences cognitives d’un espace de travail global (GW) pour construire une nouvelle classe de systèmes d’IA.
L’espace de travail global, modèle unique d’ancrage multimodal (englobant la perception, l’action et les représentations sémantiques) peut favoriser les avancées dans les modèles perceptifs et soutenir les interactions descendantes (du langage et de la sémantique à la perception et à l’action) qui intéressent les linguistes et les interactions ascendantes (de la perception active et de la navigation aux abstractions sémantiques) qui intéressent les roboticiens.
L’hypothèse haut risque/haut gain est que les modalités se complètent de manière synergique, de sorte que l’ensemble du système est beaucoup plus efficace que la somme de ses parties, non seulement pour les tâches multimodales, mais aussi lorsqu’elles sont évaluées dans les domaines initiaux (vision, NLP, robotique).
Construire des modèles perceptifs et cognitifs frugaux qui peuvent prendre en charge l’ancrage et l’incarnation du langage et fournir des représentations sémantiques aux agents robotiques devrait avoir des conséquences bénéfiques pour les partenaires industriels d’ANITI (par exemple Airbus, Linagora).
Co-PI
-
- Alexandre Arnold (senior researcher, Airbus AI research accompanied by other Airbus personnel: Nahum Alvarez, Thiziri Belkacem, Nawal Ould-Amer and Caroline Sauget)
- Victor Boutin (researcher, CNRS, Serco)
- Thomas Flayols (Researcher, LAAS/CNRS)
- Julie Hunter (senior researcher, Linagora)
- Nicolas Mansard (Research Director, LAAS/CNRS)
- Philippe Muller (Associate Professor, UT3- IRIT: linguistics, NLP, deep learning)
- Thomas Pellegrini (Associate Professor, UT3-IRIT)
- Chloé Braud (Reseracher, CNRS, IRIT)
- Systèmes multimodaux frugaux inspirés par le cerveau et basés sur la théorie GW (PI : VanRullen)
- Perception avec et sans GW (PI : Serre)
- Voie descendante : de la sémantique du langage aux agents conversationnels situés via l’ancrage GW (PI : Asher)
- Voie ascendante : des robots mobiles aux agents conversationnels situés via l’ancrage GW (PI : Stasse)
- TUM, ICS Technical University of Munich, Institute of Cognitive Sciences
- University of Colorado @ Boulder, University of London on Minecraft
- University of Potsdam on COCOBOT project
- Imperial College London (UK) and Araya Inc (Japan) on ERC Glow
- Brown University, George Karniadakis via T.Serre
- Airbus Defense and Space: satellite image super-resolution (Computer Vision team: Mathieu LeGoff)
- Labsoft
- des systèmes multimodaux améliorés (plus frugaux, plus robustes, mieux ancrés, plus explicables…) et de nouvelles architectures d’apprentissage inspirées des neurosciences
- de nouvelles méthodes d’explication (pour la vision par ordinateur, par exemple)
- de meilleurs modèles de sémantique
- la transition vers l’industrie 4.0, c’est-à-dire le passage de robots codés en dur à des robots plus collaboratifs
- des cobots capables d’accomplir de manière fiable des tâches complexes dans un atelier industriel
- des robots capables de comprendre des ordres simples dans un contexte industriel
- des cobots dotés de compétences avancées en matière de conversation et d’interaction pour de nombreuses tâches critiques en matière de sécurité dans divers domaines (gestion du trafic aéroportuaire, opérations monopilotes, soins aux personnes âgées, etc.)