Apprentissage par renforcement profond avec contraintes et démonstrations

Statut

En cours

Disciplines scientifiques

Mathématiques

Direction de recherche

Sciences et technologies du numérique

Site de rattachement

Rueil-Malmaison

L’apprentissage par renforcement (RL, pour « Reinforcement Lerning ») a été appliqué avec succès à des problèmes variés, comme le contrôle robotique, la planification de tâches, les télécommunications.  
Dans le processus d’apprentissage progressif, les agents RL sont en général libres d’explorer tous les comportements potentiels. Or cette liberté n’est pas acceptable dans de nombreux cas d’applications réelles, où l’exploration « libre » pourrait amener à des actions dangereuses pouvant provoquer des endommagements au système ou même, dans certain cas, être nocives pour les personnes. Le premier objectif de cette thèse est donc de proposer une méthode capable de gérer des contraintes (telles que les contraintes « discounted cumulative », valeur moyenne, ou « state-wise ») qui sont couramment présentes dans les applications réelles. Le respect des contraintes tout au long de l'apprentissage est attendu afin de garantir les exigences de sécurité.
Le deuxième objectif de cette thèse est d'accélérer la vitesse de convergence. La motivation vient du fait que la convergence des algorithmes RL, lorsqu'elle a lieu, est souvent très lente. Une façon de l'accélérer est de profiter des connaissances humaines, qui indiquent généralement des données issues de démonstrations d'experts. La méthode développée dans cette thèse pourra utiliser des démonstrations d'experts d'IFPEN, y compris à la fois des données réelles mesurées et des solutions optimales venant d'optimisations déterministes.
De plus, il est connu que l'application réussie d'un algorithme RL à une application réelle est souvent un défi. Le dernier objectif de cette thèse est alors de rendre la méthode proposée facile à appliquer à des applications réelles. La méthode doit être testée sur quelques applications IFPEN, telles que l’éco-conduite, le contrôle des fermes d’éoliennes, et le contrôle du réseau électrique.

Mots clefs: apprentissage par renforcement, processus de décision Markovien contraint, contrôle optimal, optimisation

  • Directeur de thèse    CR, BUSIC Ana, Inria Paris / Département d’Informatique de l’ENS, Université PSL
  • Ecole doctorale    ED386 DI ENS, http://ed386.sorbonne-universite.fr/fr/index.html
  • Encadrant IFPEN    Dr, ZHU Jiamin, Contrôle, Signal et Système, jiamin.zhu@ifpen.fr
  • Localisation du doctorant    Département d’Informatique de l’ENS, Paris, France IFP Energies nouvelles, Rueil-Malmaison, France   
  • Durée et date de début    3 ans, début au cours du quatrième trimestre 2021 
  • Employeur    INRIA, Paris, France
  • Qualifications    Master approprié
  • Connaissances linguistique    Bonne maîtrise de l’anglais indispensable, français souhaitable
  • Autres qualifications    Connaissances en informatique, probabilités/ statistiques et sciences des données,  optimisation / contrôle optimal
     
Contact
Encadrant IFPEN :
Dr, ZHU Jiamin
Doctorant(e) de la thèse :
Promotion 2021-2024