PhD Thesis
Towards effective and effortless data cleaning: from automatic approaches to user involvement
2023
—Key information
Authors:
Supervisors:
Published in
02/24/2023
Abstract
Nos últimos anos, devido à rápida disseminação de dados e aos sensores com custo reduzido, os dados foram criados a um ritmo muito rápido. Os dados são continuamente produzidos, examinados e cada vez mais usados para tomar decisões importantes. Recomendações automáticas e tomadas de decisão com base nesses dados podem levar a enormes benefícios para a sociedade. Por outro lado, a existência de abundantes quantidades de dados aumenta a probabilidade de ocorrerem problemas de qualidade de dados com impacto negativo nas decisões baseadas em dados. Os problemas de qualidade de dados podem ser erros, valores ausentes, valores com significado duvidoso, valores duplicados e inconsistências. Um processo de limpeza de dados desempenha um papel importante na correção desses problemas. Portanto, nesta tese, abordamos dois assuntos principais: (i) expansão de acrónimos para atribuir uma expansão a acrónimos encontrados no texto de forma a melhorar a legibilidade do texto e (ii) suporte para o envolvimento do utilizador durante um processo de limpeza de dados, para reduzir o esforço de produzir efetivamente dados limpos. A existência de acrónimos sem expansão no texto é considerado um problema de qualidade dos dados, mas que tem não tem sido examinado pela comunidade de limpeza de dados. De facto, existe a necessidade de um sistema de software de expansão de acrónimos disponível que possa encontrar automaticamente as expansões dos acrónimos em documentos textuais e que seja devidamente avaliado. Além disso, nos casos em que um acrónimo tem mais de uma expansão disponível, o critério geralmente aplicado para selecionar a expansão correta é a similaridade por cosseno (Cosine similarity) entre uma representação do documento contendo o acrónimo e uma representação de cada documento contendo uma expansão. Afirmamos que o processo para selecionar a expansão certa pode ser melhorado com outras representações de termos e documentos, assim como técnicas de aprendizagem de máquina que substituem a similaridade por cosseno. Um processo de limpeza de dados é geralmente um processo iterativo porque pode precisar ser executado e refinado repetidamente até ser capaz de produzir a mais alta qualidade de dados possível. Além disso, devido à especificidade de alguns problemas de qualidade de dados e à limitação das regras de qualidade de dados para cobrir todos os problemas de limpeza de dados, muitas vezes um utilizador deve estar ativamente envolvido na execução de um programa de limpeza de dados reparando os dados manualmente. No entanto, não existe uma estrutura que suporte o envolvimento do utilizador no processo iterativo de limpeza de dados. Além disso, as ferramentas usadas para limpeza de dados que de alguma forma envolvem o utilizador no processo não foram avaliadas com utilizadores reais para avaliar o esforço do utilizador ao desenhar programas de limpeza de dados e ao reparar dados manualmente. Neste trabalho contribuímos com novas abordagens que proporcionam um processo de limpeza de dados eficaz e sem esforço. Em particular, propusemos: (i) um sistema end-to-end para expandir acrónimos e extensível com novas abordagens de extração de pares acrónimo-expansão, e desambiguação de acrónimos, juntamente com três benchmarks para avaliar o desempenho de sistemas end-to-end, das abordagens para extrair pares acrónimo-expansão e das abordagens para de sambiguar acrónimos no texto; e (ii) uma framework melhorada para a limpeza de dados com suporte para o envolvimento do utilizador durante um processo iterativo de limpeza de dados e realizamos uma comparação experimental de ferramentas usadas para a limpeza de dados com utilizadores reais e simulados. Finalmente, avaliamos as nossas contribuições. Especificamente, a melhor variante do nosso sistema para expandir acrónimos obteve 54,97% da medida F1 para expandir acrónimos, enquanto o único sistema presente no trabalho relacionado, MadDog, obteve 32,93%. Para a framework de limpeza de dados, com base nas respostas aos questionários do utilizador e no esforço do utilizador medido verificamos que de facto ajuda a reduzir o esforço do utilizador, obtendo pontuações mais altas do que as outras ferramentas de software utilizadas para a comparação (Pentaho Data Integration e OpenRefine). Por exemplo, os utilizadores especializados, no questionário de satisfação do Modelo de Aceitação de Tecnologia {Technology Acceptance Model - TAM) deram em média 30 em 42 pontos para facilidade de uso e utilidade. Os mesmos utilizadores, efetuaram em média 95 cliques a menos ao usar a nossa framework de limpeza de dados para limpar dados manualmente. Assim, concluímos que o sistema de expansão de acrónimos e a framework de limpeza de dados fornecem novas formas eficazes de obter expansões de acrónimos automaticamente e limpar os dados com menos esforço do utilizador. In recent years, due to fast data spreading and low cheap sensors, data has been created in a very fast pace. Data is continuously produced, scrutinized and increasingly used to make important decisions. Automated recommendations and decision-making based on these data can lead to enormous societal benefits. Conversely, the existence of large amounts of data increases the probability of occurring data quality problems with negative impact on data-based decisions. Data quality problems can be errors, missing values, values with doubtful meaning, duplicates and inconsistencies. A data cleaning process plays an important role in correcting these problems. Therefore, in this thesis, we address two main subjects: (i) acronym expansion that expands acronyms found in text to improve readability and (ii) support for the user involvement during a data cleaning process, to reduce the effort to effectively produce clean data. The existence of acronyms with no expansion in text is considered a data quality problem, and it has been lacking attention from the data cleaning community. In fact, there is a lack of an acronym expansion software system available that can automatically find the expansions for the acronyms found in textual documents, and that is properly evaluated. Furthermore, in cases where an acronym has more than one expansion available, the criterion usually applied to select the right expansion is the cosine similarity between a representation of the document containing the acronym and a representation of each document containing an expansion. We claim that selecting the right expansion can be improved with other term and document representations and machine learning techniques that replace the cosine similarity. A data cleaning process is usually an iterative process because it may need to be repeatedly executed and refined in order to be able to produce the highest possible data quality. Moreover, due to the specificity of some data quality problems and the limitation of data quality rules to cover all data cleaning problems, often a user has to be actively involved in the execution of a data cleaning program by manually repairing data. However, there is no framework that supports the user involvement in such iterative data cleaning process. Moreover, tools used for data cleaning that somehow involve the user in the process have not been evaluated with real users to access the user effort when designing data cleaning programs and manually repairing data. In this work, we contribute with new approaches that provide an effective and effortless data cleaning process. In particular, we proposed: (i) an extensible end-to-end acronym expander system with novel acronym and expansion extraction and acronym disambiguation approaches together with three benchmarks to evaluate the performance of end-to-end systems and approaches for acronym and expansion extraction, and acronym disambiguation; and (ii) an improved data cleaning framework with support for user involvement during an iterative data cleaning process and conducted an experimental comparison of tools used for data cleaning with real and simulated users. Finally, we evaluated our contributions. Specifically, the acronym expander system best pipeline scored 54.97% of F1-measure for expanding acronyms while the only related work system, MadDog, scored 32.93%. For the data cleaning framework, based on the answers to user questionnaires and the user effort measured, it helps to reduce the user effort, scoring higher than the other software tools used for comparison (Pentaho Data Integration and OpenRefine). For instance, expert users on the Technology Acceptance Model (TAM) satisfaction questionnaire gave on average 30 in 42 points for ease of use and usefulness and on average did 95 clicks less when using our data cleaning framework to manually clean data. Thus, we conclude that the acronym expander system and the data cleaning framework provide new effective ways to obtain acronym expansions automatically and to clean data with less user effort.
Publication details
Authors in the community:
João Pedro Lebre Magalhães Pereira
ist164790
Supervisors of this institution:
Helena Isabel De Jesus Galhardas
ist13078
RENATES TID
101497970
Degree Name
Doutoramento em Engenharia Informática e de Computadores
Fields of Science and Technology (FOS)
electrical-engineering-electronic-engineering-information-engineering - Electrical engineering, electronic engineering, information engineering
Keywords
- Limpeza de dados
- Aprendizagem de máquina
- Expansão de acrónimos
- Desambiguação de acrónimos
- Envolvimento do utilizador
- Data Cleaning
- Machine Learning
- Acronym Expansion
- Acronym Disambiguation
- User Involvement
Publication language (ISO code)
eng - English
Rights type:
Open access
Financing entity
Universidade de Lisboa
Financing entity
Fundação para a Ciência e a Tecnologia