Tese de Doutoramento
Modeling structure with deep neural networks for natural language processing
2022
—Informações chave
Autores:
Orientadores:
Publicado em
27/07/2022
Resumo
Muitos problemas de processamento de linguagem natural (PLN) têm estrutura subjacente, que expressa relações e restrições. A maioria das abordagens existentes emprega modelos de linguagem pré-treinados com uma grande quantidade de parâmetros, consistindo em caixas pretas monolíticas que escondem do utilizador a estrutura subjacente ao problema. Nesta tese, propomos novos modelos que generalizam e combinam várias abordagens para modelação e previsão de estrutura em linguagem, empregando modelos de aprendizagem profunda. Experimentamos com os modelos propostos em várias tarefas de processamento de linguagem natural, incluindo tradução automática, inferência em linguagem natural, classificação de sentimentos e análise sintáctica de dependências. Abordamos a estrutura de duas formas: como uma saída do modelo e como uma variável latente intermédia, culminando num novo modelo que permite formas flexíveis de modelizar as relações entre as variáveis. Em primeiro lugar, abordamos uma importante limitação dos modelos autoregressivos para sequências, o viés de exposição: durante o treino, os modelos maximizam a probabilidade da próxima palavra dado o prefixo de referência, porém, depois de treinados e durante o processo de inferência, eles condicionam as previsões ao prefixo que o próprio modelo gerou, o que pode levar à propagação de erros. Para evitar este problema, adaptamos uma técnica, amostragem programada, para modelos baseados em transformadores. Em seguida, abordamos a estrutura de modelação para modelos com variáveis latentes discretas. Um desafio com estes modelos é que normalmente exigem o cálculo de um maximizador para a estrutura latente, uma operação que apresenta gradiente nulo, impossibilitando o uso do algoritmo da retropropagação do gradiente para treinar o modelo de ponta a ponta. Para colmatar esta lacuna, propomos uma família de métodos de gradientes directos estruturados baseados no algoritmo SPIGOT. Por fim, propomos redes neuronais não direccionadas – um novo modelo baseado em funções de energia que combina os pontos fortes dos gráficos de factores e das redes neuronais, permitindo diferentes direcções e ordens de computação. Mostramos como as redes neuronais não direccionadas incluem várias arquiteturas existentes e provamos que qualquer rede neuronal “feed-forward” pode ser representada como uma rede neural não direccionada. Demonstramos a eficácia das redes neuronais não direccionadas emdiversos problemas envolvendo linguagem e visão. Many natural language processing (NLP) problems have underlying structure, which expresses relations and constraints. The majority of the modern approaches to solving NLP problems rely on large pretrained language models, which in many cases serve as monolith black-boxes and do not allow the practitioner to be aware of the underlying structure. In this thesis, we propose new models, interpret and combine existing approaches related to modeling and predicting structure in language in deep learning models. We experiment with several natural language processing tasks, such as machine translation, natural language inference, sentiment classification and dependency parsing. We address structure as a model output, as a latent variable in the middle of the model, and we propose a new model which allows flexible ways of modeling relations between variables. First, we address an important limitation of auto-regressive sequence-to-sequence models, exposure bias: at training time, models maximize the likelihood of the next word given the gold target prefix, but at inference time, they condition on their own previous predictions, which may lead to error propagation. To avoid this, we propose adapting a technique, scheduled sampling, to transformer-based models. Then, we address modeling structure with discrete latent variable models. A challenge with these models is that they often require computing an arg-max for the latent structure, but this operation has null gradient, precluding the use of the gradient backpropagation for training the model end to end. We propose a family of structured straight-through gradient methods based on the SPIGOT algorithm, developing a framework which allows designing new surrogate gradient methods based on the observations. Lastly, we propose undirected neural networks – a new energy-based model which combines the strengths of factor graphs and neural networks, allowing different directions and orders of computation. We show how undirected neural networks subsume many existing architectures. We prove that any feed-forward neural network can be presented as an undirected neural network and we demonstrate the effectiveness of undirected neural networks with specific examples on several problems involving language and vision.
Detalhes da publicação
Autores da comunidade :
Tsvetomila Borisova Mihaylova
ist193877
Orientadores desta instituição:
André Filipe Torres Martins
ist46911
RENATES TID
101712375
Designação
Dotoramento em Engenharia Electrotécnica e de Computadores
Domínio Científico (FOS)
electrical-engineering-electronic-engineering-information-engineering - Engenharia Eletrotécnica, Eletrónica e Informática
Palavras-chave
- machine learning
- structure
- structured prediction
- neural networks
- natural language processing
- latent structures
- scheduled sampling
- factor graphs
- modularity
- aprendizagem automática
- estrutura
- previsão estruturada
- redes neuronais
- processamento de linguagem natural
Idioma da publicação (código ISO)
eng - Inglês
Acesso à publicação:
Acesso Aberto
Nome da instituição
Instituto Superior Técnico