Objectifs de la chaire
Les processus de décision de Markov (PDM) et leurs équivalents dans l’apprentissage par renforcement ont été très efficaces pour résoudre des problèmes à grande échelle au cours des deux dernières décennies. Cependant, leur succès dépend souvent de ressources informatiques exceptionnelles, ce qui limite leur applicabilité dans des contextes où le volume de données ou la puissance de calcul sont restreints.
Principal investigator
- Urtzi AYESTA (Director of Research, CNRS, IRIT)
Contrairement à cette tendance générale, RL4SN vise à développer des algorithmes d’apprentissage adaptés aux situations où les données sont rares ou la puissance de calcul limitée, en mettant l’accent sur les réseaux stochastiques. Il s’agit de problèmes pertinents d’un point de vue pratique – par exemple les centres de données fournissent la principale infrastructure pour soutenir les applications Internet et les calculs scientifiques mais pour lesquels les techniques de RL développées jusqu’à présent ne sont pas directement applicables aux réseaux stochastiques.
Co-chair
- Matthieu JONCKHEERE (Director of Research, CNRS, LAAS)
Par exemple, les réseaux stochastiques peuvent avoir des récompenses non nulles rares et éparses, toutes les politiques ne sont pas stables (dans le sens où le nombre d’emplois est limité), les politiques optimales présentent des structures claires dans des régions disjointes, et les politiques dites d’indexation sont connues pour être très performantes. RL4SN est motivé par le potentiel d’amélioration significative que ces propriétés offrent aux algorithmes d’apprentissage.
L’objectif principal de RL4SN est donc d’exploiter les structures spécifiques des PDM sous-jacents des problèmes de réseaux stochastiques pour développer des algorithmes d’apprentissage sur mesure.
Pour atteindre cet objectif ambitieux, RL4SN est organisé en trois tâches principales, chacune visant un objectif distinct : (i) améliorer l’exploration des algorithmes d’apprentissage dans les réseaux stochastiques, (ii) la création d’algorithmes d’apprentissage plus efficaces et frugaux, et (iii) le développement d’algorithmes d’ensembles pour apprendre efficacement les politiques d’indexation dans les réseaux stochastiques.
- Concevoir des algorithmes susceptibles d’améliorer l’exploration des réseaux stochastiques, tout en réduisant le nombre de données nécessaires à l’apprentissage de la politique optimale.
- Exploiter le processus de décision de Markov sous-jacent pour développer des algorithmes d’apprentissage plus efficaces.
- Promouvoir l’applicabilité des politiques d’indexation pour une action continue
- Appliquer les techniques d’approximation de fonction et d’apprentissage par renforcement pour calculer les politiques d’indexation.
- Améliorer l’exploration grâce aux systèmes de particules
- La politique optimale en tant que problème de classification
- Approximation des fonctions et politiques d’indexation
Le projet a obtenu le soutien du partenaire industriel Nokia Bell Labs représenté par le chercheur Lorenzo Maggi. La participation de NOKIA Bell Labs découle de l’intérêt que L. Maggi porte aux algorithmes d’apprentissage et à leur utilisation pour résoudre des problèmes très concrets qui se posent dans le domaine des réseaux de communication.
Les interactions des doctorants avec le partenaire industriel NOKIA
leur donneront une idée de l’environnement de recherche et des problèmes abordés quotidiennement dans le monde de l’industrie.