Use este identificador para citar ou linkar para este item: https://repositorio.ifgoiano.edu.br/handle/prefix/5568
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisor1Gaia, Felipe Nunes-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6859709829955408pt_BR
dc.contributor.advisor-co1Francisco, Rodrigo Elias-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/0223761087254210pt_BR
dc.contributor.referee1Melo, Marcel da Silva-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/3668921090442237pt_BR
dc.contributor.referee2Ferreira, Gabriel Coutinho Sousa-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7841119917403090pt_BR
dc.contributor.referee3Santos, Paulo Victor dos-
dc.creatorDutra, Guilherme Correia-
dc.creator.Latteshttp://lattes.cnpq.br/7982228264236209pt_BR
dc.date.accessioned2025-07-04T17:40:18Z-
dc.date.available2025-07-03-
dc.date.available2025-07-04T17:40:18Z-
dc.date.issued2025-07-01-
dc.identifier.doiC824cpt_BR
dc.identifier.urihttps://repositorio.ifgoiano.edu.br/handle/prefix/5568-
dc.description.abstractThis study aims to analyze the efficiency of applying clustering algorithms in two distinct computational environments: local and cloud-based. The research adopts a quantitative and experimental approach, seeking to measure and compare the performance of four algorithms — KMeans, MiniBatchKMeans, DBSCAN, and HDBSCAN — based on metrics such as execution time, operational cost, and clustering quality. The dataset was extracted from the 2022 National Student Performance Exam (ENADE), specifically from questions related to students’ perceptions of the pandemic's impact on their academic experience. Data processing included cleaning, normalization, and structuring for analysis in both environments. Implementation was carried out using tools such as Python, PostgreSQL, Visual Studio Code, and Amazon SageMaker, maintaining consistent parameters across all experiments. The quality of the clusters was primarily assessed using the Silhouette index, along with computational complexity and processing time analysis. Results showed that the cloud environment outperformed in terms of execution time, with MiniBatchKMeans standing out, while the local environment was more economical in terms of total cost. No significant differences were observed in the quality of clustering between the two environments. It is concluded that the choice between local and cloud computing environments should consider the project profile, data volume, processing urgency, and available resources. This research contributes to the practical understanding of the advantages and limitations of each infrastructure, providing insights for technical and strategic decision-making in the data science field, especially in educational contexts. It also emphasizes the importance of replicability, test automation, and careful metric selection to ensure reliable results in real-world data experiments.pt_BR
dc.description.resumoEste trabalho tem como objetivo analisar o desempenho da aplicação de algoritmos de clusterização em dois ambientes computacionais distintos: local e em nuvem. A pesquisa foi desenvolvida com enfoque quantitativo e experimental, buscando mensurar e comparar o desempenho de quatro algoritmos – KMeans, MiniBatchKMeans, DBSCAN e HDBSCAN – com base em métricas como tempo de execução, custo operacional e qualidade dos agrupamentos. Os dados utilizados foram extraídos do Exame Nacional de Desempenho dos Estudantes (ENADE) de 2022, especificamente das questões relacionadas às percepções dos estudantes sobre o impacto da pandemia em sua formação acadêmica. O tratamento dos dados incluiu limpeza, normalização e estruturação para análise em ambos os ambientes. A implementação foi realizada com ferramentas como Python, PostgreSQL, Visual Studio Code e Amazon SageMaker, mantendo os parâmetros consistentes em todos os experimentos e a análise de dados foi feita utilizando a ferramenta Metabase. A avaliação da qualidade dos clusters foi baseada principalmente no índice de Silhouette, complementada por análise de complexidade computacional e tempo de execução. Os resultados demonstraram que o ambiente em nuvem apresentou melhor desempenho em termos de tempo, com destaque para o MiniBatchKMeans, enquanto o ambiente local foi mais econômico em termos de custo total. Não foram observadas diferenças significativas na qualidade dos agrupamentos entre os ambientes. Conclui-se que a escolha entre ambientes locais e em nuvem deve considerar o perfil do projeto, o volume de dados, a urgência de processamento e os recursos disponíveis. O estudo contribui para a compreensão prática das vantagens e limitações de cada infraestrutura, oferecendo subsídios para decisões técnicas e estratégicas na área de ciência de dados, especialmente em contextos educacionais. O trabalho também reforça a importância da replicabilidade, da automação de testes e da escolha criteriosa de métricas de avaliação para garantir resultados confiáveis em experimentos com dados reais.pt_BR
dc.description.provenanceSubmitted by Guilherme Correia Dutra (guilherme.dutra@estudante.ifgoiano.edu.br) on 2025-07-04T02:32:09Z No. of bitstreams: 1 TCC - Guilherme Correia Dutra.pdf: 1542256 bytes, checksum: db6e4cc870df2ae6fdf35337c756c6ca (MD5)en
dc.description.provenanceApproved for entry into archive by Morgana Bruno Henrique Guimaraes (morgana.guimaraes@ifgoiano.edu.br) on 2025-07-04T17:35:38Z (GMT) No. of bitstreams: 1 TCC - Guilherme Correia Dutra.pdf: 1542256 bytes, checksum: db6e4cc870df2ae6fdf35337c756c6ca (MD5)en
dc.description.provenanceApproved for entry into archive by Morgana Bruno Henrique Guimaraes (morgana.guimaraes@ifgoiano.edu.br) on 2025-07-04T17:40:18Z (GMT) No. of bitstreams: 1 TCC - Guilherme Correia Dutra.pdf: 1542256 bytes, checksum: db6e4cc870df2ae6fdf35337c756c6ca (MD5)en
dc.description.provenanceMade available in DSpace on 2025-07-04T17:40:18Z (GMT). No. of bitstreams: 1 TCC - Guilherme Correia Dutra.pdf: 1542256 bytes, checksum: db6e4cc870df2ae6fdf35337c756c6ca (MD5) Previous issue date: 2025-07-01en
dc.languageporpt_BR
dc.publisherInstituto Federal Goianopt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentCampus Morrinhospt_BR
dc.publisher.initialsIF Goianopt_BR
dc.relation.referencesALMEIDA, Vinícius Gabriel; SILVA, Thais RM; SILVA, Fabrício A. Bus&City: Dados de Transporte Coletivo Urbano Enriquecidos com Informações Criminais e de Relevo. In: Dataset Showcase Workshop (DSW). SBC, 2024. p. 23-33. Disponível em: https://sol.sbc.org.br/index.php/dsw/article/view/30612. Acesso em: fev. 2025. BRASIL. Lei nº 13.709, de 14 de agosto de 2018. Lei Geral de Proteção de Dados Pessoais. Diário Oficial da União, 2018. Disponível em: https://www2.camara.leg.br/legin/fed/lei/2018/lei-13709-14-agosto-2018-787077-normaatualizada-pl.pdf. Acesso em: fev. 2025. CAVALCANTE, Sara M.; BOERES, Cristina; REBELLO, Vinod EF. Explorando a Eficiência de Serviços de Conteinerização AWS. In: Escola Regional de Alto Desempenho do Rio de Janeiro (ERAD-RJ). SBC, 2024. p. 34-36. Disponível em: https://sol.sbc.org.br/index.php/eradrj/article/view/31881. Acesso em: fev. 2025. CHICON, Diogo; TELOCKEN, Felipe. Estratégias para otimização da clusterização em grandes volumes de dados. Revista Brasileira de Computação Aplicada, v. 13, n. 2, p. 45-58, 2021. EMMONS, Scott; KOBOUROV, Stephen; GALLANT, Mike; BÖRNER, Katy. Analysis of Network Clustering Algorithms and Cluster Quality Metrics at Scale. arXiv preprint. 2016. Disponível em: https://arxiv.org/abs/1605.05797. Acesso em: fev. 2025. FERREIRA, Poliana N. Aprendizado de máquina. Editora Senac São Paulo, 2024.Disponível em: https://www.google.com/books?hl=pt-BR&lr=&id=52syEQAAQBAJ&oi=fnd&pg=PT2&dq=AVALIA%C3%87%C3%83O+DA+QUALIDADE+DA+CLUSTERIZA%C3%87%C3%83O+4.1%09M%C3%A9trica+de+Silhouette+Score&ots=w4DwmvewZj&sig=hxgz2bKyz0Fuws9yEPSvBGqjFqI. Acesso em: fev. 2025. FREIRE, Victor Hugo Wanderley; BASTOS FILHO, Carmelo José Albanez; RABBANI, Emilia Rahnemay Kohlman. Análise do Programa de Extensão Tecnológica de Pernambuco utilizando Técnicas de Aglomeração de Dados. Revista de Engenharia e Pesquisa Aplicada, v. 2, pág. 118-128, 2022. Disponível em: http://revistas.poli.br/index.php/repa/article/view/2224. Acesso em: fev. 2025. FREITAS, Isabela; MAGALHÃES, Nathally Coutinho Lopes COSTA, Aline Cristina Gomes. Utilização da Ferramenta Amazon Forecast em Previsões de Demanda para o setor de Logística. Revista do Encontro de Gestão e Tecnologia, v. 1, n. 08, p. e427-e427, 2024. Disponível em: http://revista.fateczl.edu.br/index.php/engetec_revista/article/view/204. Acesso em: fev. 2025. GONÇALVES, Raphael Hendrigo; SANTOS, Wendel Marcos. Identificação e mapeamento de hotspots de acidentes de trabalho no Brasil utilizando técnicas de machine learning e análise espacial. Dataset Reports, v. 3, n. 1, p. 141-148, 2024. Disponível em: https://journals.royaldataset.com/dr/article/view/116. Acesso em: fev. 2025. HORCHULHACK, Pedro et al. Detecçao de Overbooking em Aplicaçoes Baseadas em Docker Através de Aprendizagem de Máquina. In: Simpósio Brasileiro de Redes de Computadores e Sistemas Distribuídos (SBRC). SBC, 2022. p. 209-216. Disponível em: https://sol.sbc.org.br/index.php/sbrc_estendido/article/view/21438. Acesso em: fev. 2025. IMPETO Informática. Servidor na Nuvem ou Local? Comparamos os Custos Para Você. IMPETO Blog. 2019. Disponível em: https://impeto.com.br/servidor-nuvem-ou-local/. Acesso em: fev. 2025. JASKOWIAK, Pablo Andretta; COSTA, Ivan Gesteira; CAMPELLO, Ricardo José Gabrielli Barreto. The Area Under the ROC Curve as a Measure of Clustering Quality. arXiv preprint. 2020. Disponível em: https://arxiv.org/abs/2009.02400. Acesso em: fev. 2025. JÚNIOR, Wládisson Mancinelli; SANTOS, Clayton Eduardo. Implementação de ERP em nuvem em pequenas e médias empresas: comparativos, segurança, benefícios e desafios. Revista Científica e-Locução, v. 1, n. 21, p. 24-24, 2022. Disponível em: https://periodicos.faex.edu.br/index.php/e-Locucao/article/download/462/308. Acesso em: fev. 2025. KREMERS, Bart J. J.; HO, Aaron; CITRIN, Jonathan; PLASSCHE, Karel L. Two step clustering for data reduction combining DBSCAN and k-means clustering. arXiv preprint. 2021. Disponível em: https://arxiv.org/abs/2111.12559. Acesso em: fev. 2025. LORENZI, Uriel Mafra; GREIN, Willian; CORCINI, Luiz Fernando. Computação em nuvem: conceitos, aplicações e novas tecnologias. Revista das Faculdades Santa Cruz, v. 13, n. 1, 2022. Disponível em: https://periodicos.unisantacruz.edu.br/index.php/revusc/article/view/8. Acesso em: fev. 2025. MALISZEWSKI, Anderson et al. Ambiente de Nuvem Computacional Privada para Teste e Desenvolvimento de Programas Paralelos. Minicursos da XXI Escola Regional de Alto Desempenho da Região Sul, 2021. Disponível em: https://repositorio.pucrs.br/dspace/bitstream/10923/24105/2/Ambiente_de_Nuvem_Computacional_Privada_para_Teste_e_Desenvolvimento_de_Programas_Paralelos.pdf. Acesso em: fev. 2025. MEJIA, Wilson; CURASMA, Herminio. A Cloud Based Recommender System for Competitive Programming Platforms with Machine and Deep Learning. In: Anais do VIII Congresso sobre Tecnologias na Educação. SBC, 2023. p. 11-20. Disponível em: Acesso em: fev. 2025. MELO, Rafaela; PESSOA, Marcela; FERNANDES, David. Clusterização de soluções de exercícios de programação: um mapeamento sistemático da literatura. Simpósio Brasileiro de Informática na Educação (SBIE), p. 1715-1729, 2024. Disponível em: https://sol.sbc.org.br/index.php/sbie/article/view/31352. Acesso em: fev. 2025. OLIVEIRA, Pamella Letícia Silva et al. Identificação de Pesquisas e Análise de Algoritmos de Clusterização para a Descoberta de Perfis de Engajamento. Revista Brasileira de Informática na Educação, v. 30, p. 01-19, 2022. Disponível em: https://journals-sol.sbc.org.br/index.php/rbie/article/view/2508. Acesso em: fev. 2025. REIS, Thiago Nelson Faria et al. Uma Proposta de Classificação para Rotular a Eficiência Energética na Computação em Nuvem Verde. Boletim de Conjuntura (BOCA), v. 17, n. 49, p. 761-793, 2024. Disponível em: https://revista.ioles.com.br/boca/index.php/revista/article/view/3255. Acesso em: fev. 2025. SANTOS, Frances A. et al. Processamento de Linguagem Natural em Textos de Mídias Sociais: Fundamentos, Ferramentas e Aplicações. Sociedade Brasileira de Computação, 2022. Disponível em: https://sol.sbc.org.br/livros/index.php/sbc/catalog/download/106/473/746-1. Acesso em: fev. 2025. SCHUSSLER, Brenda S. et al. Comparando o Desempenho entre Computaçao em Nuvem e Servidor Local na Execuçao do Método Fletcher. In: Anais da XXIII Escola Regional de Alto Desempenho da Região Sul. SBC, 2023. p. 33-36. Disponível em: https://sol.sbc.org.br/index.php/eradrs/article/view/24495. Acesso em: fev. 2025. SILVA, Anildo Joaquim. Segurança de informação no ambiente da computação na nuvem. Revista Primeira Evolução, v. 1, n. 38, p. 13-25, 2023. Disponível em: http://primeiraevolucao.com.br/index.php/R1E/article/view/393. Acesso em: fev. 2025. SILVA, Carla M.; PEREIRA, João V.; SAQUI, Rafael T. Aplicação de modelos híbridos de clusterização em sistemas de recomendação. Revista Brasileira de Informática Educacional, v. 29, n. 3, p. 223-237, 2023. SILVA, Heberty Alves; PEREIRA, Larissa; SAQUI, Diego. Recomendação de livros baseada em clusterização e algoritmos de filtragem colaborativa. 15º jornada científica e tecnológica e 12 º simpósio de pós-graduação do ifsuldeminas, v. 15, n. 3, 2023. Disponível em: https://josif.ifsuldeminas.edu.br/ojs/index.php/anais/article/view/962. Acesso em: fev. 2025. SILVA, Marcos A. Computação em nuvem e segurança da informação: desafios contemporâneos. Revista de Tecnologia e Sociedade, v. 15, n. 1, p. 60-74, 2023. SILVA, Maria Gabriely Lima et al. Mineração de Dados para Obtenção do Grau de Complexidade de Processos Judiciais. Revista de Engenharia e Pesquisa Aplicada, v. 6, n. 5, p. 56-64, 2021. Disponível em: http://revistas.poli.br/index.php/repa/article/view/1755. Acesso em: fev. 2025. VYSALA, Anupriya; GOMES, Joseph. Evaluating and Validating Cluster Results. arXiv preprint. 2020. Disponível em: https://arxiv.org/abs/2007.08034. Acesso em: fev. 2025.pt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectCiência de dadospt_BR
dc.subjectComputação em nuvempt_BR
dc.subjectClusterizaçãopt_BR
dc.subjectAmbiente localpt_BR
dc.subjectENADEpt_BR
dc.subjectSilhouette Scorept_BR
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.titleCLUSTERIZAÇÃO DE DADOS EM DIFERENTES AMBIENTES: UMA ANÁLISE DE CUSTO, TEMPO E QUALIDADEpt_BR
dc.title.alternativeClustering of Data in Different Environments: An Analysis of Cost, Time, and Qualitypt_BR
dc.typeTrabalho de Conclusão de Cursopt_BR
Aparece nas coleções:Bacharelado em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC - Guilherme Correia Dutra.pdf1,51 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.