Tese de Doutoramento

Selective sparsity for explainability with applications to translation quality estimation

Marcos Vinicius Treviso2023

Informações chave

Autores:

Marcos Vinicius Treviso (Marcos Vinicius Treviso)

Orientadores:

André Filipe Torres Martins (André Filipe Torres Martins)

Publicado em

03/07/2023

Resumo

Esta tese aborda o desafio de melhorar a interpretabilidade de redes neurais em Processamento de Linguagem Natural (NLP, do inglês Natural Language Processing), particularmente no contexto de estimativa de qualidade (QE, do inglês Quality Estimation) para tradução automática. Os modelos atuais de PNL são limitados por sua dependência de caixas pretas superparametrizadas, levantando preocupações sobre sua confiabilidade, confiança e imparcialidade. Embora várias abordagens de explicabilidade tenham sido propostas para esclarecer as decisões das redes neurais, variando de métodos embutidos (e.g., mecanismos de atenção) a métodos posthoc (e.g., medidas baseadas em gradiente), sua avaliação muitas vezes evita o aspecto crucial de efetivamente comunicar o comportamento subjacente do modelo para humanos. Nesta tese, propomos o desenvolvimento de frameworks para avaliar automaticamente os métodos de explicabilidade em termos de simulabilidade direta e contrafactual —a capacidade de usar explicações para prever saídas de modelos em novos exemplos. Também projetamos um complemento interpretável e mais eficiente para o mecanismo de atenção multicabeças encontrado em transformadores, a espinha dorsal dos modelos QE de última geração. Além disso, fornecemos avaliações empíricas da plausibilidade de vários métodos de explicabilidade para QE e projetamos novos métodos de explicabilidade para interpretar modelos de QE baseados em transformação, empregando esparsidade como a principal guia de interpretabilidade. Nossas descobertas revelam que a simulabilidade é uma ferramenta valiosa para avaliar métodos de explicabilidade sob uma única perspectiva, bem como para projetar explicadores mais plausíveis e robustos, enquanto a esparsidade é um recurso útil para melhorar a interpretabilidade de modelos baseados em transformadores. Em particular, nossas avaliações empíricas revelam que os métodos baseados em atenção geralmente superam outras abordagens para explicar os modelos de QE e que a esparsidade pode ser efetivamente aproveitada para identificar componentes internos relevantes, como cabeças de atenção, e para determinar palavras de entrada influentes. Além disso, demonstramos que sinais esparsos não servem apenas para orientar o design de mecanismos de atenção eficientes, mas também oferecem informações valiosas para a geração de textos contrafactuais. Nossas estratégias bem-sucedidas levaram a submissões vencedoras em duas edições consecutivas da Explainable QE Shared Task, em 2021 e 2022, destacando ainda mais a relevância e a eficácia de nossas abordagens. Ao melhorar a interpretabilidade de redes neurais ao longo dessas dimensões, esta tese contribui para o desenvolvimento de sistemas mais transparentes, eficientes e compreensíveis. Por fim, para fomentar pesquisas futuras nessa área, tornamos nosso código aberto e disponível ao público. This thesis addresses the challenge of improving the interpretability of neural networks in Natural Language Processing (NLP), particularly in the context of quality estimation (QE) for machine translation. Current NLP models are hindered by their dependence on over-parameterized black boxes, raising concerns about their reliability, confidence, and fairness. While several explainability approaches have been proposed for shedding light into neural networks’ decisions, ranging from built-in (e.g., attention mechanisms) to post-hoc methods (e.g., gradient-based measures), their evaluation often sidesteps the crucial aspect of effectively communicating the underlying model behavior to humans. In this thesis, we propose the development of frameworks to automatically evaluate explainability methods in terms of forward and counterfactual simulability—the ability to use explanations for predicting model outputs on unseen examples. We also design an interpretable and more efficient complement to the multi-head attention mechanism found in transformers, the backbone of state-of-the-art QE models. Moreover, we provide empirical evaluations of the plausibility of various explainability methods for QE, and design new explainability methods for interpreting transformed-based QE models, employing sparsity as key interpretability driver. Our findings reveal that simulability is a valuable tool for evaluating explainability methods under a single perspective, as well as for designing more plausible and robust explainers, while sparsity is a useful feature for improving the interpretability of transformer-based models. In particular, our empirical evaluations reveal that attention-based methods often outperform other approaches for explaining QE models, and that sparsity can be effectively leveraged to identify relevant internal components, such as attention heads, and to determine influential input words. Furthermore, we demonstrate that sparse signals not only serve to guide the design of efficient attention mechanisms, but also offer valuable information for counterfactual generation. Our successful strategies led to winning submissions in two consecutive editions of the Explainable Quality Estimation Shared Task, in 2021 and 2022, further highlighting the relevance and effectiveness of our approaches. By improving the interpretability of neural networks along these dimensions, this thesis contributes to the development of more transparent, efficient, and understandable systems. Finally, to foster future research in this area, we have made our code open-source and publicly available.

Detalhes da publicação

Autores da comunidade :

Orientadores desta instituição:

RENATES TID

101624085

Designação

Doutoramento em Engenharia Electrotécnica e de Computadores

Domínio Científico (FOS)

electrical-engineering-electronic-engineering-information-engineering - Engenharia Eletrotécnica, Eletrónica e Informática

Palavras-chave

  • Machine learning
  • natural language processing
  • explainability
  • sparsity
  • translation quality estimation
  • Aprendizado de máquina
  • processamento de linguagem natural
  • explicabilidade
  • esparsidade
  • estimativa de qualidade de tradução

Idioma da publicação (código ISO)

eng - Inglês

Acesso à publicação:

Acesso Aberto

Nome da instituição

Instituto Superior Técnico

Entidade financiadora da bolsa/projeto

European Research Council

Entidade financiadora da bolsa/projeto

Instituto de Telecomunicações