Diz-me o que escreves, dir-te-ei quem és : processamento de língua natural aplicado à literatura

Vanessa Alves Feliciano Baptista

Informações chave

Autores:

Vanessa Alves Feliciano Baptista (Vanessa Alves Feliciano Baptista)

Orientadores:

Maria Luísa Torres Ribeiro Marques da Silva Coheur (Maria Luísa Torres Ribeiro Marques da Silva Coheur); João Paulo Baptista de Carvalho (João Paulo Baptista de Carvalho)

Publicado em

02/06/2015

Resumo

As tarefas de identificação do autor de um documento são há muito tempo alvo do interesse da comunidade académica. A base deste trabalho é uma framework desenvolvida por Homem e Carvalho [1], em que a tarefa de identificar o autor de um documento se baseia nas top-k palavras mais frequentes de cada autor. O objetivo desta tese é avaliar se a utilização de conjunto de dados estatísticos de cada documento em conjunto com os dados relativos às top-k palavras mais frequentes, pode enriquecer a framework existente. Na tarefa de classificação dos documentos foi utilizado o Weka. Para além disso, avaliou-se o impacto da exclusão das Stop Words da lista de palavras mais frequentes. Os resultados obtidos sugerem que a utilização das features estatísticas, em conjunto com as top-k palavras mais utilizadas, veio enriquecer a framework existente. Além do mais, observou-se que a exclusão de stop Words da lista de palavras mais frequentes aumenta o desempenho desta metodologia. Finalmente, testou-se a aplicação da metodologia na tarefa de identificar outras características do autor de um documento, tais como: sexo, século de nascimento e década de nascimento. Demonstrou-se que é possível identificar o sexo do autor de um documento e o seu século de nascimento. Mas, quando se tenta identificar a década de nascimento de um autor os resultados obtidos são francamente inferiores. The author identification tasks of a document have long been the target of the academic community interest. The basis of this work is a framework developed by Homem and Carvalho [1], based on top-k most frequent words for each author. Our goal is to evaluate if the use of statistical data for each document and the top-k most frequent words, can improve the existing framework. In the classification task of the documents it used the Weka. In addition, we evaluated the impact of excluding stop words from the list of most frequent words. Finally, the application of the methodology was tested in the task of identifying other author attributes, such as: sex, birth century and decade of birth. The results suggest that the use of statistical features, together with the top-k-used words, has improved the existing framework. Furthermore, it was observed that remobing stop words of the most frequent words enhances the performance of this methodology. Finally, it was shown that it is possible to identify the sex of the author of a document and its century of birth. But when trying to identify the decade of birth the results are clearly below.