Speech as biomarker for multidisease screening

Maria Catarina Tavares Botelho

Key information

Authors:

Maria Catarina Tavares Botelho (Maria Catarina Tavares Botelho)

Supervisors:

Isabel Maria Martins Trancoso (Isabel Maria Martins Trancoso); Alberto Abad Gareta (Alberto Abad Gareta); Tanja Schultz

Published in

11/18/2024

Abstract

Atualmente, os sistemas de saúde estão sobrecarregados em todo o mundo e enfrentam enormes desafios agravados pelo envelhecimento da população.A fala emerge como um biomarcador rico e ubíquo, com enorme potencial para o desenvolvimento de ferramentas remotas, de baixo custo e larga escala para o rastreio de várias doenças do foro respiratório e psiquiátrico, bem como doenças neurodegenerativas. Este potencial deriva do envolvimento dos sistemas respiratório, nervoso e muscular na produção da fala, que, consequentemente, contém informações sobre disfunções em qualquer um desses sistemas. Em todos os níveis da produção de fala, biossinais podem ser captados e estudados para obter informação sobre o seu conteúdo linguístico e paralinguístico. Esta tese começou por explorar um desses biossinais — os sinais de eletromiografia (EMG) produzidos durante a articulação da fala — contribuindo para estabelecer os fundamentos de uma nova área de investigação, a Paralinguística Computacional Silenciosa. Durante a pandemia COVID-19, o foco foi redirecionado para outros biomarcadores, capazes de ser recolhidos remotamente. Exploraram-se imagens faciais e visual speech como modalidades complementares do sinal acústico para a deteção de apneia obstrutiva do sono, obtendo-se resultados promissores com transfer learning e características baseadas em conhecimento específico, num estudo com 40 sujeitos. Não obstante os resultados promissores obtidos, persistem dúvidas sobre o que estes modelos realmente aprendem e em que informações se baseiam para fazer a predição de doenças. Assegurar a fiabilidade e a generalização dos resultados é crucial. Esta tese propõe um modelo robusto e interpretável, adequado para a deteção de múltiplas doenças. Propõe-se uma framework que define a fala normativa através de intervalos de referência de características acústicas e linguísticas com significado clínico. Os desvios em relação a esta referência são usados para a classificação de doenças como as de Alzheimer e Parkinson, utilizando diferentes classificadores, nomeadamente Modelos Aditivos Neurais para uma maior interpretabilidade. Finalmente, numa tentativa de conciliar modelos do tipo caixa negra com interpretabilidade, explorase o uso de large language models para anotar características de fala de alto nível e baixa dimensionalidade, denominadas macro-descritores (e.g., coerência textual, diversidade lexical). Utilizando apenas quatro macro-descritores, supera-se a deteção da doença de Alzheimer utilizando características convencionais. Overburdened health systems worldwide face challenges exacerbated by an aging population. Speech, a rich and ubiquitous biomarker, offers the potential for a widespread low-cost detection of neurodegenerative, psychiatric, and respiratory diseases. This potential stems from the involvement of the respiratory, nervous, and muscular systems in speech production, which encodes information on dysfunctions in any of these systems. At all levels of speech production, biosignals can be captured and studied to obtain paralinguistic information. This thesis begins by exploring one such biosignal–electromyography signals (EMG) produced during speech articulation–establishing the foundation for Silent Computational Paralinguistics. During COVID19, remote biomarkers gained importance. We explored facial images and visual speech combined with acoustic speech to detect obstructive sleep apnea, achieving promising results with knowledge-based and transfer learning methods in a pilot study of 40 subjects. Despite high performance in the automatic detection of speech-affecting diseases, questions remain about what these models are actually learning and the basis for their predictions, which can significantly impact patients’ lives. Ensuring the reliability and generalizability of the results is crucial. We advocate for a robust and interpretable health monitoring model, suitable for the simultaneous detection of several diseases, as speech-affecting disorders often have overlapping effects on the speech signal. We propose a framework for defining normative speech through reference intervals of clinically significant features. We leverage deviations from this model to perform the detection of Alzheimer’s and Parkinson’s diseases, using different classifiers, namely Neural Additive Models for enhanced interpretability. Furthermore, in a quest to bridge black-box models and interpretability, we explore large language models to annotate high-level, low-dimensional interpretable speech characteristics, termed macrodescriptors (e.g., text coherence, lexical diversity). Using only four macro-descriptors, we outperform Alzheimer’s detection with conventional language-based features. This thesis contributes to a deeper understanding of the multifaceted potential of speech as a biomarker for holistic health.