Objectifs de la chaire

Les processus de décision de Markov (PDM) et leurs équivalents dans l’apprentissage par renforcement ont été très efficaces pour résoudre des problèmes à grande échelle au cours des deux dernières décennies. Cependant, leur succès dépend souvent de ressources informatiques exceptionnelles, ce qui limite leur applicabilité dans des contextes où le volume de données ou la puissance de calcul sont restreints.

Principal investigator

  • Urtzi AYESTA (Director of Research, CNRS, IRIT)

Contrairement à cette tendance générale, RL4SN vise à développer des algorithmes d’apprentissage adaptés aux situations où les données sont rares ou la puissance de calcul limitée, en mettant l’accent sur les réseaux stochastiques. Il s’agit de problèmes pertinents d’un point de vue pratique – par exemple les centres de données fournissent la principale infrastructure pour soutenir les applications Internet et les calculs scientifiques mais pour lesquels les techniques de RL développées jusqu’à présent ne sont pas directement applicables aux réseaux stochastiques.

Co-chair

  • Matthieu JONCKHEERE (Director of Research, CNRS, LAAS)

Par exemple, les réseaux stochastiques peuvent avoir des récompenses non nulles rares et éparses, toutes les politiques ne sont pas stables (dans le sens où le nombre d’emplois est limité), les politiques optimales présentent des structures claires dans des régions disjointes, et les politiques dites d’indexation sont connues pour être très performantes. RL4SN est motivé par le potentiel d’amélioration significative que ces propriétés offrent aux algorithmes d’apprentissage.

L’objectif principal de RL4SN est donc d’exploiter les structures spécifiques des PDM sous-jacents des problèmes de réseaux stochastiques pour développer des algorithmes d’apprentissage sur mesure.

Pour atteindre cet objectif ambitieux, RL4SN est organisé en trois tâches principales, chacune visant un objectif distinct : (i) améliorer l’exploration des algorithmes d’apprentissage dans les réseaux stochastiques, (ii) la création d’algorithmes d’apprentissage plus efficaces et frugaux, et (iii) le développement d’algorithmes d’ensembles pour apprendre efficacement les politiques d’indexation dans les réseaux stochastiques.

Ne manquez rien !

Inscrivez-vous pour recevoir l'actualité d'ANITI chaque mois.

Nous n’envoyons pas de messages indésirables !

fr_FRFrench