Statut
Disciplines scientifiques
Direction de recherche
Sciences et technologies du numérique
Site de rattachement
Rueil-Malmaison
L’apprentissage par renforcement (RL, pour « Reinforcement Lerning ») a été appliqué avec succès à des problèmes variés, comme le contrôle robotique, la planification de tâches, les télécommunications.
Dans le processus d’apprentissage progressif, les agents RL sont en général libres d’explorer tous les comportements potentiels. Or cette liberté n’est pas acceptable dans de nombreux cas d’applications réelles, où l’exploration « libre » pourrait amener à des actions dangereuses pouvant provoquer des endommagements au système ou même, dans certain cas, être nocives pour les personnes. Le premier objectif de cette thèse est donc de proposer une méthode capable de gérer des contraintes (telles que les contraintes « discounted cumulative », valeur moyenne, ou « state-wise ») qui sont couramment présentes dans les applications réelles. Le respect des contraintes tout au long de l'apprentissage est attendu afin de garantir les exigences de sécurité.
Le deuxième objectif de cette thèse est d'accélérer la vitesse de convergence. La motivation vient du fait que la convergence des algorithmes RL, lorsqu'elle a lieu, est souvent très lente. Une façon de l'accélérer est de profiter des connaissances humaines, qui indiquent généralement des données issues de démonstrations d'experts. La méthode développée dans cette thèse pourra utiliser des démonstrations d'experts d'IFPEN, y compris à la fois des données réelles mesurées et des solutions optimales venant d'optimisations déterministes.
De plus, il est connu que l'application réussie d'un algorithme RL à une application réelle est souvent un défi. Le dernier objectif de cette thèse est alors de rendre la méthode proposée facile à appliquer à des applications réelles. La méthode doit être testée sur quelques applications IFPEN, telles que l’éco-conduite, le contrôle des fermes d’éoliennes, et le contrôle du réseau électrique.
Mots clefs: apprentissage par renforcement, processus de décision Markovien contraint, contrôle optimal, optimisation
- Directeur de thèse CR, BUSIC Ana, Inria Paris / Département d’Informatique de l’ENS, Université PSL
- Ecole doctorale ED386 DI ENS, http://ed386.sorbonne-universite.fr/fr/index.html
- Encadrant IFPEN Dr, ZHU Jiamin, Contrôle, Signal et Système, jiamin.zhu@ifpen.fr
- Localisation du doctorant Département d’Informatique de l’ENS, Paris, France IFP Energies nouvelles, Rueil-Malmaison, France
- Durée et date de début 3 ans, début au cours du quatrième trimestre 2021
- Employeur INRIA, Paris, France
- Qualifications Master approprié
- Connaissances linguistique Bonne maîtrise de l’anglais indispensable, français souhaitable
- Autres qualifications Connaissances en informatique, probabilités/ statistiques et sciences des données, optimisation / contrôle optimal