Deep learning methods for reinforcement learning

Daniel Luís Simões Marta

Key information

Authors:

Daniel Luís Simões Marta (Daniel Luís Simões Marta)

Supervisors:

Rodrigo Martins de Matos Ventura (Rodrigo Martins de Matos Ventura)

Published in

12/06/2016

Abstract

Esta tese foca-se no desafio de desacoplar a percepção de estados e aproximação de funções quando aplicamos Deep Learning a aprendizagem por reforço. Como ponto de partida, foram considerados os estados de dimensão elevada, sendo esta a razão fundamental da notória limitação da incorporação de algoritmos de aprendizagem por reforço a domínios reais. Abordando a temática da Curse of Dimensionality, propomo-nos reduzir a dimensionalidade dos estados através de métodos de Machine Learning, no sentido de obter representações sucintas e suficientes (representações internas de um sistema), que podem ser usadas como estados análogos para aprendizagem por reforço. No âmbito da mesma metodologia, foram exploradas alternativas para parametrizar a Q-function em tarefas com um espaço de estados bastante superior. Várias abordagens foram usadas ao longo das duas últimas décadas, incluindo Kernel Machines, onde a escolha de filtros apropriados para cada problema consumia a maior parte da investigação científica. Nesta tese foram exploradas técnicas de Machine Learning, nomeadamente técnicas com treino não supervisionado, com foco na arquitetura de redes neuronais que deram origem ao ramo Deep Learning. Uma das temáticas chave consiste na estimativa de Q-values para espaços de estados elevados, quando as abordagens tabulares são insuficientes. Como um meio de aproximar a Q-function foram explorados métodos de Deep Learning. Os principais objetivos incluem a exposição e compreensão dos métodos propostos com vista à implementação de um controlador neuronal. Várias simulações foram efetuadas, tendo em conta diferentes métodos de otimização e funções de custo com o propósito de retirar conclusões. Diversos procedimentos foram elaborados para aproximar a Q-value function. Para inferir melhores abordagens e possibilitar o aparecimento de aplicações reais, foram conduzidos testes entre duas arquiteturas distintas. Implementação de técnicas do estado da arte foram utilizadas e testadas em dois problemas clássicos de controlo. This thesis focuses on the challenge of decoupling state perception and function approximation when applying Deep Learning Methods within Reinforcement Learning. As a starting point, high-dimensional states were considered, being this the fundamental limitation when applying Reinforcement Learning to real world tasks. Addressing the Curse of Dimensionality issue, we propose to reduce the dimensionality of data in order to obtain succinct codes (internal representations of the environment), to be used as alternative states in a Reinforcement Learning framework. Different approaches were made along the last few decades, including Kernel Machines with hand-crafted features, where the choice of appropriate filters was task dependent and consumed a considerable amount of research. In this work, various Deep Learning methods with unsupervised learning mechanisms were considered. Another key thematic relates to estimating Q-values for large state-spaces, where tabular approaches are no longer feasible. As a mean to perform Q-function approximation, we search for supervised learning methods within Deep Learning. The objectives of this thesis include a detailed exploration and understanding of the proposed methods with the implementation of a neural controller. Several simulations were performed taking into account a variety of optimization procedures and increased parameters to draw several conclusions. Several architectures were used as a Q-value function approximation. To infer better approaches and hint for higher scale applications, a trial between two similar types of Q-networks were conducted. Implementations regarding state-of-the-art techniques were tested on classic control problems.