Tese de Doutoramento

Robust, interpretable and efficient MT evaluation with fine-tuned metrics

Ricardo Costa Dias Rei2024

Informações chave

Autores:

Ricardo Costa Dias Rei (Ricardo Costa Dias Rei)

Orientadores:

Maria Luísa Torres Ribeiro Marques da Silva Coheur (Maria Luísa Torres Ribeiro Marques da Silva Coheur); Alon Lavie

Publicado em

10/04/2024

Resumo

Com a crescente necessidade de Tradução Automática (TA) num mundo cada vez mais globalizado, existe também uma crescente necessidade de avaliar constantemente a qualidade das traduções produzidas. Esta avaliação pode ser realizada através de anotadores humanos que realizam avaliações de qualidade ou através da utilização de métricas automáticas. Embora a avaliação humana seja preferível, e cara e demorada. Consequentemente, ao longo da última década, o progresso na TA tem sido principalmente medido utilizando métricas automáticas que avaliam a similaridade lexical em relação a traduções de referência. No entanto, numerosos estudos demonstraram que as métricas baseadas em lexias não se correlacionam bem com os julgamentos humanos, lançando duvidas sobre a fiabilidade da investigação em TA. Motivado por estes desafios, o principal objetivo desta tese é melhorar o estado atual da avaliação da TA através do desenvolvimento de novas métricas automáticas que satisfaçam quatro critérios: 1) forte correlação com anotações humanas, 2) robustez em diferentes domínios e pares de línguas, 3) interpretabilidade e 4) eficiência. Com base nos recentes avanços em processamento de linguagem natural, propomos que uma métrica supervisionada que incorpora o texto a traduzir no processo de avaliação. Para validar esta hipótese, introduzimos o COMET (Crosslingual Optimized Metric for Evaluation of Translation), uma framework de aprendizagem profunda para treino de modelos de avaliação de TA. Os modelos desenvolvidos dentro desta framework são treinados para prever anotações humanas de TA, como Avaliações Diretas (AD), Métricas de Qualidade Multidimensional (MQM) ou Taxa de Edição de Tradução Mediada por Humanos (HTER). Os nossos resultados demonstram que as métricas desenvolvidas dentro da nossa framework alcançam correlações estado da arte com julgamentos humanos em vários domínios e pares de línguas. No entanto, métricas lexicais ainda tem méritos em termos de interpretabilidade e eficácia. Já métricas como as do COMET, baseadas em aprendizagem profunda, são consideradas” caixas-pretas” lentas. Para melhorar isso, usamos métodos de explicabilidade neuronal para mostrar como essas métricas usam informações de tokens ligadas a erros de tradução, comprovando sua interpretabilidade ao comparar mapas de saliência com anotações MQM. Também realizamos experiências para reduzir o custo computacional e tamanho dos modelos do COMET, mantendo suas correlações de estado da arte com anotações humanas, diminuindo a diferença de desempenho entre métricas lexicais e de redes neurais. Apesar da robustez das métricas de TA, argumentamos que, ao aplica-las e relata-las no nível do sistema, são insuficientes para uma avaliação eficaz. Defendemos uma análise mais detalhada ao nível do segmento para compreender verdadeiramente a qualidade da TA. Para isso, desenvolvemos o MT-TELESCOPE, uma ferramenta de analise comparativa entre sistemas de TA, que expõe fatores de desempenho e analisa fenómenos como entidades mencionadas. Ao longo dos últimos três anos, o COMET teve um impacto significativo na comunidade de investigação, com vários estudos a validar as nossas descobertas e a demonstrar a sua correlação superior com anotações humanas. Através deste trabalho, enfrentamos a tarefa ambiciosa de revolucionar a avaliação da TA introduzindo novas métricas que se destacam em termos de desempenho, robustez, interpretabilidade e eficiência computacional. Esta tese representa um progresso substancial para alcançar este objetivo. With the increasing need for Machine Translation (MT) in a world which is becoming globalized, there is also an increasing need to constantly evaluate the quality of the produced translations. This evaluation can be achieved through human annotators performing quality assessments or by employing automatic metrics. While human evaluation is preferred, it is expensive and time consuming. Consequently, over the past decade, MT progress has primarily been measured using automatic metrics that assess lexical similarity against reference translations. However, numerous studies have demonstrated that lexical-based metrics do not correlate well with human judgments, casting doubt on the reliability of research in MT. Motivated by these challenges, the main goal of this thesis is to enhance the current state of MT evaluation by developing new automatic metrics that satisfy four criteria: 1) strong correlation with human judgments, 2) robustness across different domains and language pairs, 3) interpretability, and 4) efficiency. Based on recent advancements in cross-lingual language modeling, we propose that a supervised metric incorporating the source-language input into the evaluation process will yield more accurate MT evaluation. To validate this hypothesis, we introduce COMET (Cross lingual Optimized Metric for Evaluation of Translation), a neural framework for training multilingual MT evaluation models that serve as metrics. Models developed within the COMET framework are trained to predict human judgments of MT quality, such as Direct Assessments (DA), Multidimensional Quality Metrics (MQM), or Human-mediated Translation Edit Rate (HTER). Our results demonstrate that metrics developed within our framework achieve state-of-the-art correlations with human judgments across various domains and language pairs. Nevertheless, lexical metrics still possess redeeming qualities in terms of interpretability and lightweight nature. In contrast, fine-tuned neural metrics like COMET are considered “slow black boxes”. To address this, we employ neural explain ability methods to reveal that these metrics leverage token-level information directly associated with translation errors. We showcase their effectiveness for interpreting state-of-the-art fine-tuned neural metrics by comparing token-level neural saliency maps with MQM annotations. Additionally, we present several experiments aimed at reducing the computational cost and model size of COMET while maintaining its state-of-the-art correlation with human judgments, thus bridging the performance gap between lexical and model-based metrics. Notwithstanding the strength of MT metrics, we argue that, when applied and reported at the system level, these are insufficient for effective MT evaluation. We claim that to truly understand the underlying MT quality, we need more fine-grained analysis built around segment-level scoring. To showcase the strength of more fine-grained segment-level analysis we developed MT-TELESCOPE. MT-TELESCOPE is an analysis tool for contrastive MT evaluation that takes system-level comparisons a step further by exposing the underlying factors behind performance and zooms into a fine-grained analysis of translation accuracy down to individual phenomena (e.g named entities). Over the past three years, COMET has made a significant impact in the research community, with multiple studies validating our findings and demonstrating its superior correlation with human judgments. Through this work, we undertake the ambitious task of revolutionizing MT evaluation by introducing new metrics that excel in terms of performance, robustness, interpretability, and lightweight nature. This thesis represents substantial progress towards achieving this goal.

Detalhes da publicação

Autores da comunidade :

Orientadores desta instituição:

RENATES TID

101685572

Designação

Doutoramento em Engenharia Informática e de Computadores

Domínio Científico (FOS)

electrical-engineering-electronic-engineering-information-engineering - Engenharia Eletrotécnica, Eletrónica e Informática

Palavras-chave

  • Processamento de Linguagem Natural
  • Tradução Automática
  • Avaliação
  • Qualidade Estimada
  • MT Evaluation
  • Automatic Evaluation
  • Machine Translation
  • Quality Estimation
  • COMET

Idioma da publicação (código ISO)

eng - Inglês

Acesso à publicação:

Acesso Aberto

Nome da instituição

Instituto Superior Técnico