Use este identificador para citar ou linkar para este item: https://repositorio.ifgoiano.edu.br/handle/prefix/6340
Tipo: Trabalho de Conclusão de Curso
Título: Comparação de Métodos de Balanceamento de Dados em Diferentes Cenários
Autor(es): Sousa, Souto, José Antonio Ribeiro Flávio Diniz de
Primeiro Orientador: Costa, Nattane
Primeiro Membro da Banca: Costa, Nattane
Segundo Membro da Banca: Cardoso, Cristiane
Terceiro Membro da Banca: Carvalho, Amaury
Resumo: O desbalanceamento de classes ocorre quando há uma distribuição desigual entre as classes de um conjunto de dados, de modo que uma delas possui número significativamente inferior de instâncias em relação às demais. Esse cenário constitui um dos desafios presentes em tarefas de aprendizado de máquina, impactando diretamente o desempenho de modelos preditivos. Este trabalho tem como objetivo comparar diferentes técnicas de balanceamento de dados, incluindo métodos de oversampling, undersampling e abordagens híbridas, aplicadas a múltiplas bases de dados com diferentes níveis de desbalanceamento. Foram conduzidos experimentos utilizando os algoritmos de classificação como Árvore de Decisão(C5.0), Random Forest, Rede Neural Artificial(ANN), Regressão Logística e SVM que foram avaliados por meio das seguintes métricas de desempenho: acurácia, precisão, recall e F1-score. A análise dos resultados permitiu identificar o impacto das técnicas de balanceamento em distintos cenários experimentais, bem como suas limitações e vantagens. De modo geral, observou-se que técnicas de oversampling frequentemente apresentaram desempenho superior ou equivalente aos demais métodos avaliados, enquanto o uso de dados sem balanceamento tendeu a apresentar resultados inferiores em algumas métricas e algoritmos específicos. Além disso, modelos baseados em árvores, como o Random Forest, demonstraram maior robustez nos diferentes cenários analisados. Os achados deste estudo buscam fornecer subsídios para a escolha adequada de métodos de balanceamento, contribuindo para o desenvolvimento de modelos mais robustos e confiáveis.
Abstract: Class imbalance occurs when there is an unequal distribution among the classes in a dataset, such that one class has a significantly smaller number of instances compared to the others. This scenario represents one of the challenges present in machine learning tasks, directly impacting the performance of predictive models. This study aims to compare different data balancing techniques, including oversampling, undersampling, and hybrid approaches, applied to multiple datasets with different levels of imbalance. Experiments were conducted using classification algorithms such as Decision Tree (C5.0), Random Forest, Artificial Neural Networks (ANN), Logistic Regression, and SVM, which were evaluated using the following performance metrics: accuracy, precision, recall, and F1-score. The analysis of the results made it possible to identify the impact of balancing techniques in different experimental scenarios, as well as their limitations and advantages. In general, oversampling techniques frequently showed superior or equivalent performance compared to the other evaluated methods, while the use of unbalanced data tended to present inferior results for certain metrics and algorithms. In addition, tree-based models, such as Random Forest, demonstrated greater robustness across the different analyzed scenarios. The findings of this study aim to provide support for the appropriate selection of balancing methods, contributing to the development of more robust and reliable models.
Palavras-chave: Aprendizado de máquina
Desbalanceamento de classes
Balanceamento de dados
Classificação binária
Avaliação de modelos
Área do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS
Idioma: por
Pais: Brasil
Editor: Instituto Federal Goiano
Sigla da Instituição: IF Goiano
Campus: Campus Urutaí
Tipo de Acesso: Acesso Aberto
URI: https://repositorio.ifgoiano.edu.br/handle/prefix/6340
Data do documento: 11-Mar-2026
Aparece nas coleções:Bacharelado em Sistemas de Informação



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.