Tese de Doutoramento
Privacy-preserving machine learning for remote speech processing
2024
—Informações chave
Autores:
Orientadores:
Publicado em
11/07/2024
Resumo
Com o aumento do número de serviços e aplicações que funcionam de forma remota e que utilizam a fala como uma forma de interação, autenticação ou extração de informação, tem simultaneamente crescido a necessidade de desenvolver soluções que preservem a privacidade do sinal de fala dos utilizadores destas aplicações. Nesta tese, é abordado o problema da aprendizagem automática privada para processamento da fala. Concretamente, são desenvolvidos métodos que permitem proteger a privacidade da fala de utilizadores de sistemas remotos, tendo por base dois paradigmas: processamento criptográfico e manipulação da fala orientada à privacidade. Como exemplos do primeiro paradigma, propõem-se métodos criptográficos para a deteção privada de doenças como a doença de Parkinson e a apneia obstrutiva do sono, e para a extração de representações de orador em tarefas de reconhecimento automático e diarização de orador. Os resultados obtidos mostram que, apesar destes métodos criptográficos oferecerem fortes garantias de privacidade, o seu custo computacional poderá ser demasiado alto, dificultando a sua adaptação a tarefas de processamento da fala complexas. No entanto, os protocolos criptográficos poderão ser a solução mais adequada para tarefas onde é difícil separar informação relacionada com o orador da informação relacionada com a tarefa, sendo a melhor solução para situações em que a privacidade é fundamental. Em alternativa, como segundo paradigma, propõem-se métodos de manipulação da fala orientados à privacidade, com base em aprendizagem automática, que possibilitam a supressão de informação do orador. Os resultados obtidos mostram que estes métodos têm um custo computacional muito inferior ao das abordagens baseadas em protocolos criptográficos, sendo também mais independentes das tarefas a jusante. Apesar de oferecerem garantias de privacidade mais fracas, estes métodos permitem que os utilizadores possam escolher um bom compromisso entre privacidade e usabililidade em aplicações de fala. Como contribuição final, exploram-se técnicas de inferência de pertença como ferramenta de auditoria de modelos de reconhecimento automático da fala, relativamente ao uso não autorizado de dados de utilizadores. No seu todo, esta tese pretende contribuir com avanços nos dois principais paradigmas explorados e abrir novas vias para investigação futura sobre o problema cada vez mais premente da privacidade em processamento da fala. As an increasing number of remote services and applications turn to speech as a means of interaction, authentication, or information extraction, there is a growing demand for privacy-preserving solutions that protect the user’s speech data while it is being processed in remote servers. In this thesis, we address this issue by developing new methods to protect user privacy in remote speech processing, based on two main paradigms: cryptographic processing, and privacy-oriented speech manipulation. Initially, we propose cryptographic-based methods for the privacy-preserving detection of Parkinson’s disease and Obstructive Sleep Apnea detection, as well as for the extraction of speaker representations for Automatic Speaker Recognition and Diarization. The results obtained for these methods show that, although cryptographic methods provide strong privacy guarantees, they may be too computationally expensive and difficult to adapt to complex speech-processing tasks. However, we argue that cryptographic protocols may be the most adequate solution for tasks where it is difficult to disentangle speaker and task-related information, such as clinical applications, and remain the best solution for scenarios where privacy is paramount. Our following approach consists of machine-learning-based privacy-oriented speech manipulation methods that are able to remove sensitive speaker-related information, such as the speaker’s age and sex. We show that these methods are more computationally lightweight and more independent of downstream tasks than cryptographic protocols. Despite their weaker privacy guarantees, we show that our privacy-oriented speech manipulation methods provide users with finer-grained control over the information that should be kept private, allowing them to trade off privacy for utility in speech applications. In a final contribution, we explore membership inference in Automatic Speech Recognition and showcase its potential to act as a tool to audit the training data of these models with regard to the unauthorised use of data. Overall, this thesis contributes with advances in the two main explored paradigms, provides insights into different trade-offs, and opens new avenues for future research in the increasingly important problem of privacy in speech processing.
Detalhes da publicação
Autores da comunidade :
Francisco Saraiva Sepúlveda Teixeira
ist175212
Orientadores desta instituição:
Isabel Maria Martins Trancoso
ist11803
Alberto Abad Gareta
ist90700
RENATES TID
101623860
Designação
Doutoramento em Engenharia Electrotécnica e de Computadores
Domínio Científico (FOS)
electrical-engineering-electronic-engineering-information-engineering - Engenharia Eletrotécnica, Eletrónica e Informática
Palavras-chave
- Speech
- Machine Learning
- Privacy
- Cryptography
- Remote Processing
- Fala
- Aprendizagem Automática
- Privacidade
- Criptografia
- Processamento Remoto
Idioma da publicação (código ISO)
eng - Inglês
Acesso à publicação:
Acesso Aberto
Nome da instituição
Instituto Superior Técnico