Privacy-preserving machine learning for remote speech processing

Francisco Saraiva Sepúlveda Teixeira

Key information

Authors:

Francisco Saraiva Sepúlveda Teixeira (Francisco Saraiva Sepúlveda Teixeira)

Supervisors:

Isabel Maria Martins Trancoso (Isabel Maria Martins Trancoso); Alberto Abad (Alberto Abad Gareta); Bhiksha Raj

Published in

July 11, 2024

Abstract

Com o aumento do número de serviços e aplicações que funcionam de forma remota e que utilizam a fala como uma forma de interação, autenticação ou extração de informação, tem simultaneamente crescido a necessidade de desenvolver soluções que preservem a privacidade do sinal de fala dos utilizadores destas aplicações. Nesta tese, é abordado o problema da aprendizagem automática privada para processamento da fala. Concretamente, são desenvolvidos métodos que permitem proteger a privacidade da fala de utilizadores de sistemas remotos, tendo por base dois paradigmas: processamento criptográfico e manipulação da fala orientada à privacidade. Como exemplos do primeiro paradigma, propõem-se métodos criptográficos para a deteção privada de doenças como a doença de Parkinson e a apneia obstrutiva do sono, e para a extração de representações de orador em tarefas de reconhecimento automático e diarização de orador. Os resultados obtidos mostram que, apesar destes métodos criptográficos oferecerem fortes garantias de privacidade, o seu custo computacional poderá ser demasiado alto, dificultando a sua adaptação a tarefas de processamento da fala complexas. No entanto, os protocolos criptográficos poderão ser a solução mais adequada para tarefas onde é difícil separar informação relacionada com o orador da informação relacionada com a tarefa, sendo a melhor solução para situações em que a privacidade é fundamental. Em alternativa, como segundo paradigma, propõem-se métodos de manipulação da fala orientados à privacidade, com base em aprendizagem automática, que possibilitam a supressão de informação do orador. Os resultados obtidos mostram que estes métodos têm um custo computacional muito inferior ao das abordagens baseadas em protocolos criptográficos, sendo também mais independentes das tarefas a jusante. Apesar de oferecerem garantias de privacidade mais fracas, estes métodos permitem que os utilizadores possam escolher um bom compromisso entre privacidade e usabililidade em aplicações de fala. Como contribuição final, exploram-se técnicas de inferência de pertença como ferramenta de auditoria de modelos de reconhecimento automático da fala, relativamente ao uso não autorizado de dados de utilizadores. No seu todo, esta tese pretende contribuir com avanços nos dois principais paradigmas explorados e abrir novas vias para investigação futura sobre o problema cada vez mais premente da privacidade em processamento da fala. As an increasing number of remote services and applications turn to speech as a means of interaction, authentication, or information extraction, there is a growing demand for privacy-preserving solutions that protect the user’s speech data while it is being processed in remote servers. In this thesis, we address this issue by developing new methods to protect user privacy in remote speech processing, based on two main paradigms: cryptographic processing, and privacy-oriented speech manipulation. Initially, we propose cryptographic-based methods for the privacy-preserving detection of Parkinson’s disease and Obstructive Sleep Apnea detection, as well as for the extraction of speaker representations for Automatic Speaker Recognition and Diarization. The results obtained for these methods show that, although cryptographic methods provide strong privacy guarantees, they may be too computationally expensive and difficult to adapt to complex speech-processing tasks. However, we argue that cryptographic protocols may be the most adequate solution for tasks where it is difficult to disentangle speaker and task-related information, such as clinical applications, and remain the best solution for scenarios where privacy is paramount. Our following approach consists of machine-learning-based privacy-oriented speech manipulation methods that are able to remove sensitive speaker-related information, such as the speaker’s age and sex. We show that these methods are more computationally lightweight and more independent of downstream tasks than cryptographic protocols. Despite their weaker privacy guarantees, we show that our privacy-oriented speech manipulation methods provide users with finer-grained control over the information that should be kept private, allowing them to trade off privacy for utility in speech applications. In a final contribution, we explore membership inference in Automatic Speech Recognition and showcase its potential to act as a tool to audit the training data of these models with regard to the unauthorised use of data. Overall, this thesis contributes with advances in the two main explored paradigms, provides insights into different trade-offs, and opens new avenues for future research in the increasingly important problem of privacy in speech processing.