Séminaire R-D : La spécification de la sûreté dans un modèle d'apprentissage par renforcement

Séminaire R-D : La spécification de la sûreté dans un modèle d'apprentissage par renforcement
17/09/18 1h00
CRIM

La spécification de la sûreté dans un modèle d'apprentissage par renforcement

Conférencière

Arushi Jain, étudiante à la maîtrise en informatique à l’Université McGill et boursière au CRIM.

Résumé

Cette présentation explore la spécification de la sûreté dans un modèle d'apprentissage par renforcement. Cette technique consiste, pour un agent autonome (robot, etc.), à apprendre les mesures à prendre, à partir d'expériences, de façon à optimiser une récompense quantitative au cours du temps. La notion de spécification de la sureté (pour un agent actor-critic) vise à minimiser le comportement incertain ou incohérent de l'agent dans son environnement.

La présentation sera en anglais


Safe Actor-Critic

Speaker

Arushi Jain, master's student in Computer Science at McGill University and scholarship holder at CRIM.

Abstract

With the potential of Artificial Intelligence (AI) to transform society, safety becomes a critical part of designing any AI application. In this paper, we propose a safe policy learning framework in the actor-critic style. We based the safety criteria on the regularization of the variance of return in a learned policy : the higher the variance in the return, the higher the uncertainty in the value function. The notion of safety is based on minimizing the uncertain or inconsistent behavior of the agent in the environment. We estimated the variance of lambda-return directly using temporal difference (TD) approach.

This work provides an automatic approach to learning safe policy without any prior knowledge of safety perspective or human intervention in the given environment. We first demonstrated the effectiveness of this approach in the four rooms grid world environment, and then presented the results on four environments with continuous action tasks in Mujoco domain using distributed proximal policy optimization (DPPO) framework. The proposed algorithm outperformed the baselines in all the environments with a significant reduction in the standard deviation of the scores.

Biography

Arushi Jain is a Computer Science master student at McGill University, advised by Doina Precup. She is interested in reinforcement learning, hierarchical reinforcement learning  and solving problems pertaining to safety in AI. She has also held a research fellow position at Microsoft Research (2016-2017) and intern position in Amazon (Winter 2015). She graduated from IIIT-Delhi in 2016 with a Bachelor’s degree in Computer Science.


Les séminaires scientifiques du CRIM, gratuits et ouverts à tous, sont donnés par des experts de renommée internationale, des collaborateurs universitaires, le personnel de R-D et les boursiers de 2e et 3e cycles du CRIM. Au programme, des présentations conviviales sur les dernières avancées scientifiques et technologiques.

JE M'INSCRIS

Conférence gratuite. Inscription requise.

Lundi le 17 septembre 2018, de 13 h à 14h.  Au CRIM, 405, avenue Ogilvy, bureau 101, Montréal. 

  • #Bientôt ???? Le CRIM présentera le projet Application des technologies vocales aux langues autochtones le 19 novembre… https://t.co/FnO5IKw79H
  • Tom Landry RT @Tom_Landry_: Ce fût un réel plaisir que de partager ma vision de l'avenir de la géomatique. Et que dire des mots-clés sélectionné par l…