Master's Thesis In: cienciavitae

Automatic identification of regions of interest in dermoscopy images using vision transformers and weakly supervised learning

Diogo José Pereira Araújo2023

Key information

Authors:

Diogo José Pereira Araújo (Diogo José Pereira Araújo)

Supervisors:

Carlos Jorge Andrade Mariz Santiago (Carlos Jorge Andrade Mariz Santiago); Ana Catarina Fidalgo Barata (Ana Catarina Fidalgo Barata)

Published in

11/24/2023

Abstract

O cancro da pele é uma preocupação crescente em termos de saúde pública. A deteção atempada da lesão desempenha um papel fundamental para garantir o sucesso do tratamento do cancro. Os dermatologistas utilizam critérios como a lista de verificação de 7 pontos, que se baseia em características dermatoscópicas específicas sem considerar a sua distribuição espacial na lesão. Multiple Instance Learning (MIL) é uma técnica de aprendizagem com supervisão fraca que serve de aproximação a este critério no domínio da aprendizagem profunda. Em contraste com estes métodos, os Vision Transformers (ViTs) mostraram recentemente uma potencialidade notável, embora utilizem, ao mesmo tempo, as características espaciais de todas as partes da imagem. Este contraste motiva-nos a abordar duas questões no centro da análise de imagens dermatoscópicas: (1) a compreensão de se todas as zonas são relevantes para a classificação da imagem, e (2) a influência da localização espacial dessas zonas na exatidão da classificação. Para abordar estas questões, introduzimos uma estrutura de dois componentes que combina uma arquitetura baseada no ViT com um modelo de MIL. Abordamos tanto a classificação binária (melanoma vs. nevo) como a classificação multi-classe (com oito tipos de cancros da pele). O nosso trabalho apresenta uma nova formulação MIL de duas etapas orientada para a classificação binária, e estendemo-la a uma abordagem de três etapas para a classificação multi-classe. As nossas conclusões revelam que apenas determinadas áreas são essenciais para uma classificação acertada e que a informação espacial melhora a exatidão na classificação de cancro da pele. Skin cancer is a growing public health concern. Early detection of the lesion plays a critical role in ensuring successful treatment of the cancer. Dermatologists traditionally use criteria like the 7-point checklist, which focuses on specific dermoscopic characteristics without considering their spatial distribution in the lesion. Multiple Instance Learning (MIL) is a weakly supervised learning technique that serves as an approximation to this criterion in the field of deep learning. In contrast to these methods, Vision Transformers (ViTs) have recently shown remarkable promise, while at the same time using spatially aware information from all the patches in the image. This contrast motivates us to address two questions in dermoscopy image analysis: (1) the understanding of whether all patches are relevant for skin cancer diagnosis, and (2) the influence of the spatial arrangement of the patches on diagnostic accuracy. To address these questions, we introduce a two-branch framework that combines a ViT-based architecture with a MIL model. We tackle both binary classification (melanoma vs. nevus) and multi-class classification (with eight skin disease types). Our work presents a novel two-stage MIL formulation oriented towards binary classification, and we extend it to a three-stage approach for multi-class classification. Our results consistently demonstrate the competitive performance of these formulations in both binary and multi-class contexts. Our findings reveal that only certain patches are critical for correct classification, and that adding spatial information slightly improves classification accuracy.

Publication details

Authors in the community:

Supervisors of this institution:

Degree Name

Mestrado em Engenharia Eletrotécnica e de Computadores

Fields of Science and Technology (FOS)

electrical-engineering-electronic-engineering-information-engineering - Electrical engineering, electronic engineering, information engineering

Keywords

  • Skin Cancer
  • Vision Transformers
  • Multiple Instance Learning
  • Cancro da Pele

Publication language (ISO code)

eng - English

Rights type:

Embargo lifted

Date available:

10/19/2024

Institution name

Instituto Superior Técnico