Energy efficiency in natural language processing

Pedro José Guerreiro Castelo Ramos

Key information

Authors:

Pedro José Guerreiro Castelo Ramos (Pedro José Guerreiro Castelo Ramos)

Supervisors:

André Filipe Torres Martins (André Filipe Torres Martins); Ricardo Rei (Ricardo Costa Dias Rei)

Published in

11/17/2023

Abstract

O surgimento de large language models (LLMs) levou a uma procura cada vez maior por poder computacional em NLP. Este aumento de procura é uma séria preocupação ambiental, uma vez que modelos maiores implicam um aumento no consumo de energia. Adicionalmente, estes modelos traduzem-se em maiores custos de treino, o que significa um acesso menos equitativo para os investigadores, e maiores tempos de treino e inferência, o que invalida diversas aplicações onde existe uma restrição de poder computacional, ou se pretende realizar um grande número de inferências. Nesta tese, focamo-nos na avaliação de tradução automática, um problema que utiliza LLMs para avaliar a qualidade de uma determinada tradução. Como esta tarefa é computacionalmente intensiva, resulta em alto consumo de energia, principalmente durante a inferência. Ao mesmo tempo, é uma tarefa que exige tempos de inferência baixos, o que geralmente significa balancear a necessidade de alta precisão com a necessidade de ter um modelo menor e mais rápido. A nossa principal contribuição é a introdução de um modelo de avaliação de tradução automática que não necessita de utilizar referências, e apesar do modelo ser 2.3 vezes maior, é 2.1 vezes mais rápido que o nosso anterior trabalho no Cometinho com referências. Este novo modelo mostra uma evolução significativa na correlação com avaliação humana utilizando MQM, melhorando a correlação em 27 pontos no coeficiente Kendall's Tau (9%) quando comparado com o Cometinho e apenas 11 pontos (3%) abaixo do estado da arte no início do desenvolvimento desta tese (CometKiwi-22). The rise of large language models (LLMs) has led to an ever-growing demand for computational power in natural language processing (NLP). This increase in demand is a serious environmental concern since larger models imply an increase in energy consumption. In addition, these models translate into higher training costs, which means less equitable access for researchers, and longer training and inference times, which invalidates various applications where there is a restriction in computing power or where one wants to perform a large number of inferences. In this work, we focus on the evaluation of machine translation, a task that uses LLMs to assess the quality of a given translation. Since this task is computationally expensive, it results in high energy consumption, mostly during inference. At the same time, it is a task that demands low inference times, which generally means trading off model performance for a smaller and faster model. Our main contribution is the introduction of a reference-free machine translation evaluation model, which despite being 2.3 times larger, is 2.1 times faster than our previous work on the reference-based Cometinho. This new model shows large improvements in correlation with human evaluation using multidimensional quality metrics (MQM) scores, improving by 27 Kendall’s Tau points (9%) when compared to Cometinho and only 11 Kendall’s Tau points (3%) below the state-of-the-art at the start of the development of this thesis (CometKiwi-22).