Use este identificador para citar ou linkar para este item:
https://repositorio.ifgoiano.edu.br/handle/prefix/5568
Tipo: | Trabalho de Conclusão de Curso |
Título: | CLUSTERIZAÇÃO DE DADOS EM DIFERENTES AMBIENTES: UMA ANÁLISE DE CUSTO, TEMPO E QUALIDADE |
Título(s) alternativo(s): | Clustering of Data in Different Environments: An Analysis of Cost, Time, and Quality |
Autor(es): | Dutra, Guilherme Correia |
Primeiro Orientador: | Gaia, Felipe Nunes |
Primeiro Coorientador: | Francisco, Rodrigo Elias |
Primeiro Membro da Banca: | Melo, Marcel da Silva |
Segundo Membro da Banca: | Ferreira, Gabriel Coutinho Sousa |
Terceiro Membro da Banca: | Santos, Paulo Victor dos |
Resumo: | Este trabalho tem como objetivo analisar o desempenho da aplicação de algoritmos de clusterização em dois ambientes computacionais distintos: local e em nuvem. A pesquisa foi desenvolvida com enfoque quantitativo e experimental, buscando mensurar e comparar o desempenho de quatro algoritmos – KMeans, MiniBatchKMeans, DBSCAN e HDBSCAN – com base em métricas como tempo de execução, custo operacional e qualidade dos agrupamentos. Os dados utilizados foram extraídos do Exame Nacional de Desempenho dos Estudantes (ENADE) de 2022, especificamente das questões relacionadas às percepções dos estudantes sobre o impacto da pandemia em sua formação acadêmica. O tratamento dos dados incluiu limpeza, normalização e estruturação para análise em ambos os ambientes. A implementação foi realizada com ferramentas como Python, PostgreSQL, Visual Studio Code e Amazon SageMaker, mantendo os parâmetros consistentes em todos os experimentos e a análise de dados foi feita utilizando a ferramenta Metabase. A avaliação da qualidade dos clusters foi baseada principalmente no índice de Silhouette, complementada por análise de complexidade computacional e tempo de execução. Os resultados demonstraram que o ambiente em nuvem apresentou melhor desempenho em termos de tempo, com destaque para o MiniBatchKMeans, enquanto o ambiente local foi mais econômico em termos de custo total. Não foram observadas diferenças significativas na qualidade dos agrupamentos entre os ambientes. Conclui-se que a escolha entre ambientes locais e em nuvem deve considerar o perfil do projeto, o volume de dados, a urgência de processamento e os recursos disponíveis. O estudo contribui para a compreensão prática das vantagens e limitações de cada infraestrutura, oferecendo subsídios para decisões técnicas e estratégicas na área de ciência de dados, especialmente em contextos educacionais. O trabalho também reforça a importância da replicabilidade, da automação de testes e da escolha criteriosa de métricas de avaliação para garantir resultados confiáveis em experimentos com dados reais. |
Abstract: | This study aims to analyze the efficiency of applying clustering algorithms in two distinct computational environments: local and cloud-based. The research adopts a quantitative and experimental approach, seeking to measure and compare the performance of four algorithms — KMeans, MiniBatchKMeans, DBSCAN, and HDBSCAN — based on metrics such as execution time, operational cost, and clustering quality. The dataset was extracted from the 2022 National Student Performance Exam (ENADE), specifically from questions related to students’ perceptions of the pandemic's impact on their academic experience. Data processing included cleaning, normalization, and structuring for analysis in both environments. Implementation was carried out using tools such as Python, PostgreSQL, Visual Studio Code, and Amazon SageMaker, maintaining consistent parameters across all experiments. The quality of the clusters was primarily assessed using the Silhouette index, along with computational complexity and processing time analysis. Results showed that the cloud environment outperformed in terms of execution time, with MiniBatchKMeans standing out, while the local environment was more economical in terms of total cost. No significant differences were observed in the quality of clustering between the two environments. It is concluded that the choice between local and cloud computing environments should consider the project profile, data volume, processing urgency, and available resources. This research contributes to the practical understanding of the advantages and limitations of each infrastructure, providing insights for technical and strategic decision-making in the data science field, especially in educational contexts. It also emphasizes the importance of replicability, test automation, and careful metric selection to ensure reliable results in real-world data experiments. |
Palavras-chave: | Ciência de dados Computação em nuvem Clusterização Ambiente local ENADE Silhouette Score |
Área do CNPq: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
Idioma: | por |
Pais: | Brasil |
Editor: | Instituto Federal Goiano |
Sigla da Instituição: | IF Goiano |
Campus: | Campus Morrinhos |
Tipo de Acesso: | Acesso Aberto |
metadata.dc.identifier.doi: | C824c |
URI: | https://repositorio.ifgoiano.edu.br/handle/prefix/5568 |
Data do documento: | 1-Jul-2025 |
Aparece nas coleções: | Bacharelado em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
TCC - Guilherme Correia Dutra.pdf | 1,51 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.