Semantic-based active perception for humanoid visual tasks: scene exploration and visual search in foveal scenes using deep object detection models

João Miguel Barradas Luzio

Key information

Authors:

João Miguel Barradas Luzio (João Luzio)

Supervisors:

Alexandre José Malheiro Bernardino (Alexandre José Malheiro Bernardino); Plinio Moreno Lopez (Plinio Moreno Lopez)

Published in

November 30, 2023

Abstract

Neste trabalho, estuda-se até que ponto um modelo de perceção ativa foveal baseado, baseado em informação semântica, é capaz de completar tarefas visuais que são regularmente praticadas por humanos, nomeadamente, exploração do campo visual e a procura visual de objetos. Para o efeito, a precisão do modelo baseado em informação semântica é comparada com a de um modelo tradicional baseado em análise de saliência, derivado de desenvolvimentos nos domínios da neurologia e da psicologia, que tenta reproduzir aspetos da cognição visual humana. Relativamente à tarefa de exploração de cenários visuais, a abordagem baseado em informação semântica supera de forma convincente o modelo tradicional, baseado em saliência, quando se trata de mapear com precisão o conteúdo semântico contido no campo visual. À luz das experiências de procura visual, concluiu-se que uma abordagem preditiva em informação semântica supera significativamente o modelo de saliência, bem como uma seleção aleatória do próximo ponto focal, tanto em termos de precisão como de custo computacional relativo. Estes últimos resultados foram obtidos durante a procura de instâncias de uma classe-alvo num campo visual, na presença de múltiplos objetos de distração. In this work, it is studied how well a semantic-based foveal active perception model is able to complete visual tasks that are regularly performed by humans, namely, scene exploration and visual search. To this end, the accuracy of the semantic-based model is compared with with the accuracy of a traditional saliency-based model, derived from past developments in the fields of neurology and psychology, that attempt to reproduce aspects of humanoid visual cognition. Regarding the scene exploration task, the semantic-based approach convincingly outperforms the traditional saliency-based model, when it comes to accurately mapping the semantic content contained by the visual field. In light of the visual search experiments, it was concluded that the semantic-based predictive approach significantly outperforms the saliency-based model, as well as a random gaze selection algorithm, both in accuracy and relative computational cost. The latter results were obtained while searching for instances of a target class in a visual field containing multiple distractors.