Use este identificador para citar ou linkar para este item:
https://repositorio.ifgoiano.edu.br/handle/prefix/6340| Tipo: | Trabalho de Conclusão de Curso |
| Título: | Comparação de Métodos de Balanceamento de Dados em Diferentes Cenários |
| Autor(es): | Sousa, Souto, José Antonio Ribeiro Flávio Diniz de |
| Primeiro Orientador: | Costa, Nattane |
| Primeiro Membro da Banca: | Costa, Nattane |
| Segundo Membro da Banca: | Cardoso, Cristiane |
| Terceiro Membro da Banca: | Carvalho, Amaury |
| Resumo: | O desbalanceamento de classes ocorre quando há uma distribuição desigual entre as classes de um conjunto de dados, de modo que uma delas possui número significativamente inferior de instâncias em relação às demais. Esse cenário constitui um dos desafios presentes em tarefas de aprendizado de máquina, impactando diretamente o desempenho de modelos preditivos. Este trabalho tem como objetivo comparar diferentes técnicas de balanceamento de dados, incluindo métodos de oversampling, undersampling e abordagens híbridas, aplicadas a múltiplas bases de dados com diferentes níveis de desbalanceamento. Foram conduzidos experimentos utilizando os algoritmos de classificação como Árvore de Decisão(C5.0), Random Forest, Rede Neural Artificial(ANN), Regressão Logística e SVM que foram avaliados por meio das seguintes métricas de desempenho: acurácia, precisão, recall e F1-score. A análise dos resultados permitiu identificar o impacto das técnicas de balanceamento em distintos cenários experimentais, bem como suas limitações e vantagens. De modo geral, observou-se que técnicas de oversampling frequentemente apresentaram desempenho superior ou equivalente aos demais métodos avaliados, enquanto o uso de dados sem balanceamento tendeu a apresentar resultados inferiores em algumas métricas e algoritmos específicos. Além disso, modelos baseados em árvores, como o Random Forest, demonstraram maior robustez nos diferentes cenários analisados. Os achados deste estudo buscam fornecer subsídios para a escolha adequada de métodos de balanceamento, contribuindo para o desenvolvimento de modelos mais robustos e confiáveis. |
| Abstract: | Class imbalance occurs when there is an unequal distribution among the classes in a dataset, such that one class has a significantly smaller number of instances compared to the others. This scenario represents one of the challenges present in machine learning tasks, directly impacting the performance of predictive models. This study aims to compare different data balancing techniques, including oversampling, undersampling, and hybrid approaches, applied to multiple datasets with different levels of imbalance. Experiments were conducted using classification algorithms such as Decision Tree (C5.0), Random Forest, Artificial Neural Networks (ANN), Logistic Regression, and SVM, which were evaluated using the following performance metrics: accuracy, precision, recall, and F1-score. The analysis of the results made it possible to identify the impact of balancing techniques in different experimental scenarios, as well as their limitations and advantages. In general, oversampling techniques frequently showed superior or equivalent performance compared to the other evaluated methods, while the use of unbalanced data tended to present inferior results for certain metrics and algorithms. In addition, tree-based models, such as Random Forest, demonstrated greater robustness across the different analyzed scenarios. The findings of this study aim to provide support for the appropriate selection of balancing methods, contributing to the development of more robust and reliable models. |
| Palavras-chave: | Aprendizado de máquina Desbalanceamento de classes Balanceamento de dados Classificação binária Avaliação de modelos |
| Área do CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::BANCO DE DADOS |
| Idioma: | por |
| Pais: | Brasil |
| Editor: | Instituto Federal Goiano |
| Sigla da Instituição: | IF Goiano |
| Campus: | Campus Urutaí |
| Tipo de Acesso: | Acesso Aberto |
| URI: | https://repositorio.ifgoiano.edu.br/handle/prefix/6340 |
| Data do documento: | 11-Mar-2026 |
| Aparece nas coleções: | Bacharelado em Sistemas de Informação |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| TC_ Flávio Sousa; José Antônio SoutoComparação_de_Métodos_de_Balanceamento_de_Dados_em_Diferentes_Cenários.pdf | 6,13 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.