Dissertação de Mestrado

TRANSdutor: a rewriting approach for gender inclusivity in Portuguese

Leonor Silva Pereira de Sousa Veloso2023

Informações chave

Autores:

Leonor Silva Pereira de Sousa Veloso (Leonor Silva Pereira de Sousa Veloso)

Orientadores:

Maria Luísa Torres Ribeiro Marques da Silva Coheur (Maria Luísa Torres Ribeiro Marques da Silva Coheur); Rui Orlando Magalhães Ribeiro (Rui Orlando Magalhães Ribeiro)

Publicado em

13/11/2023

Resumo

A integração de linguagem género-neutra e inclusiva em modelos de Processamento de Linguagem Natural é um tópico de interesse na literatura atual. Um tópico específico que tem ganho tracção e vindo a ser de particular interesse prático e teórico é a reescrita de linguagem género-neutra (gender-neutral rewriting, em Inglês). Esta tarefa consiste em converter linguagem que apenas contém pronomes masculinos ou femininos — os pronomes binários — em linguagem género-neutra. As abordagens atuais para esta tarefa tendem a depender de um grande volume de dados, o que pode não ser uma abordagem viável para linguagens que possuem menos recursos, tal como é o caso do Português. Nesta tese, apresentamos dois modelos que abordam a tarefa de reescrita de linguagem género-neutra: um modelo baseado em regras e um modelo neuronal. A nossa abordagem neuronal consiste em afinar grandes modelos multilíngues de Tradução Automática, utilizando como dados de treino exemplos gerados pelo modelo baseado em regras. Avaliamos ambos os modelos em frases de diferentes fontes e contextos. As contribuições desta tese consistem na primeira coleção de dados em Português que contém explicitamente linguagem género-neutra e neopronomes, bem como uma coleção dourada de 500 frases manualmente anotadas que permitem a avaliação deste trabalho e de possível trabalho futuro. In recent years, there has been a notable rise in research interest regarding the integration of gender-inclusive and gender-neutral language in Natural Language Processing models. A specific area of focus that has gained practical and academically significant interest is gender-neutral rewriting, which involves converting binary-gendered text to its gender-neutral counterpart. However, current approaches to gender-neutral rewriting for gendered languages tend to rely on large datasets, which may not be an option for languages with fewer resources, such as Portuguese. In this thesis, we present a rule-based and a neural-based tool for gender-neutral rewriting for Portuguese, a heavily gendered Romance language whose morphology creates different challenges from the ones tackled by other gender-neutral rewriters. Our neural approach relies on fine-tuning large multilingual Machine Translation models on examples generated by the rule-based model. We evaluate both models on texts from different sources and contexts. Results show that both rule-based and neural approaches reach a similar level of performance, although the rule-based model performs marginally better in most types of text. We provide the first Portuguese dataset explicitly containing gender-neutral language and neopronouns, as well as a manually annotated golden collection of 500 sentences that allows for the evaluation of future work.

Detalhes da publicação

Autores da comunidade :

RENATES TID

203837436

Designação

Mestrado em Engenharia Informática e de Computadores

Domínio Científico (FOS)

electrical-engineering-electronic-engineering-information-engineering - Engenharia Eletrotécnica, Eletrónica e Informática

Idioma da publicação (código ISO)

eng - Inglês

Acesso à publicação:

Embargo levantado

Data do fim do embargo:

16/09/2024

Nome da instituição

Instituto Superior Técnico