Tese de Doutoramento

Learnable sparsity and weak supervision for data-efficient, transparent, and compact neural models

Gonçalo Migueis de Matos Afonso Correia2022

Informações chave

Autores:

Gonçalo Migueis de Matos Afonso Correia (Gonçalo Migueis de Matos Afonso Correia)

Orientadores:

André Filipe Torres Martins (André Filipe Torres Martins); Vlad Niculae

Publicado em

20/06/2022

Resumo

Em aprendizagem automática, os modelos baseados em redes neuronais tornaram-se omnipresentes no estado da arte. A composição destes modelos baseia-se em blocos diferenciáveis que dão origem a representações vetoriais densas dos dados subjacentes. Para obter boas representações, os métodos convencionais requerem o manuseamento de muitos dados. Para além disso, embora obtenham excelente desempenho, estes modelos não são interpretáveis e não fornecem representações dos dados de forma compacta. Para resolver estes problemas, esta tese propõe soluções que envolvem esparsidade e várias formas de supervisão fraca. Para obter eficiência de dados, usamos técnicas de transferência de informação como uma forma de supervisão fraca. O modelo proposto tem um desempenho semelhante a modelos treinados em milhões de dados, embora tenha sido treinado em apenas poucos milhares de exemplos. Para obter transparência, propomos uma função de normalização que tem a capacidade de aprender a sua própria esparsidade, ou seja, capaz de aprender a atribuir valores nulos. Esta função é diferenciável e a esparsidade pode ser por isso adaptada de acordo com os dados e de acordo com o papel que a componente neuronal do modelo em que se insere. Sem custos no desempenho, a esparsidade ajuda a descobrir especializações das componentes neuronais, ajudando a interpretabilidade de um modelo de tradução automática. Para obter compacidade, propomos uma maneira de obter gradientes determinísticos de forma eficiente, no treino de modelos com variáveis latentes discretas ou estruturadas. Estas componentes discretas têm a capacidade de desvendar grupos e estruturas inerentes aos dados, compactando por isso a informação. No entanto, treinar estes modelos pode ser complexo, pois exige aproximações através de amostragem ou relaxamentos para o espaço contínuo. Com a técnica utilizada neste estudo, obtemos gradientes determinísticos ao parametrizar as distribuições com funções esparsas, tanto estruturadas como não-estruturadas. Obtemos bom desempenho em três aplicações diferentes, alcançando, de qualquer forma, as vantagens práticas das aproximações acima mencionadas. Graças a estas novas contribuições científicas, a presente tese desafia a doutrina atual de que modelos neuronais não são capazes de exibir eficiência de dados, transparência, nem compacidade. Neural network models have become ubiquitous in the machine learning literature. These models are compositions of differentiable building blocks that compute dense representations of the underlying data. To obtain good representations, conventional neural models require many training data points. Moreover, the representations obtained by neural models are largely uninterpretable, albeit capable of leading to high performance on many tasks. Neural models are also often overparameterized and give out representations that do not compactly represent the data. To address these issues, this thesis contributes with several solutions leveraging sparsity and various forms of weak supervision. For data-efficiency, we leverage transfer learning as a form of weak supervision. The proposed model can perform similarly to models trained on millions of data points on a sequence-to-sequence generation task, even though we only train it on a few thousand. For transparency, we propose a normalization function that can learn its sparsity. The model learns how sparse it needs to be at each layer, adapting the sparsity according to the neural component’s role in the overall structure. At no cost in accuracy, sparsity helps to uncover different specializations of the neural components, aiding the interpretability of a popular neural machine translation architecture. Finally, for compactness, we develop a procedure to efficiently obtain deterministic gradients of discrete and structured latent variable models. The discrete nodes in these models can compactly represent implicit clusters and structures in the data. Still, their training can often be complex and prone to failure since it usually requires approximations that rely on sampling or relaxations. We propose to train these models with deterministic gradients by parameterizing discrete distributions with sparse functions, both unstructured and structured. We obtain good performance on three latent variable model applications while still achieving the practicality of the approximations mentioned above. Through these novel contributions, we challenge the conventional wisdom that neural models cannot exhibit data efficiency, transparency, or compactness.

Detalhes da publicação

Autores da comunidade :

Orientadores desta instituição:

RENATES TID

101591900

Designação

Dotoramento em Engenharia Electrotécnica e de Computadores

Domínio Científico (FOS)

electrical-engineering-electronic-engineering-information-engineering - Engenharia Eletrotécnica, Eletrónica e Informática

Palavras-chave

  • Aprendizagem automática
  • processamento de linguagem natural
  • redes neuronais
  • esparsidade
  • modelos com variáveis latentes
  • Machine learning
  • natural language processing
  • neural networks
  • sparsity
  • latent variable models

Idioma da publicação (código ISO)

eng - Inglês

Acesso à publicação:

Acesso Aberto

Nome da instituição

Instituto Superior Técnico

Entidade financiadora da bolsa/projeto

European Research Council

Entidade financiadora da bolsa/projeto

Instituto de Telecomunicações