Use este identificador para citar ou linkar para este item: https://repositorio.ifgoiano.edu.br/handle/prefix/5143
Tipo: Trabalho de Conclusão de Curso
Título: USO DE VISUALIZAÇÃO DE INFORMAÇÃO PARA INVESTIGAÇÃO DA CLASSIFICAÇÃO SUPERVISIONADA DE GÊNEROS MUSICAIS
Autor(es): Rezende, Arthur de Melo
Primeiro Orientador: Oliveira, Douglas Cedrim
Primeiro Membro da Banca: Bailão, Adriano Soares de Oliveira
Segundo Membro da Banca: Barbosa, Danilo Pereira
Resumo: Este trabalho de conclusão de curso propõe apresentar os resultados dos testes referente a apli- cação de Redes Neurais Artificiais (RNAs) na classificação de músicas em diferentes gêneros utilizando o conjunto de dados GTZAN. O objetivo principal é utilizar a visualização de informa- ção para investigação da classificação supervisionada de gêneros musicais. Para tanto utilizou-se os Coeficientes Cepstrais de Frequência Mel (MFCCs) para extrair as características dos áudios utilizados para o treinamento e teste de um modelo de Perceptron Multicamadas (MLP), aliado a técnicas de visualização de informações para análise do processo de treinamento. O estudo demonstra que a utilização de 15 coeficientes MFCC resulta na maior acurácia de 99,25%, distinguindo efetivamente entre os gêneros musicais. Os resultados destacam a capaci- dade da RNA de generalizar entre diferentes entradas de áudio e seu potencial uso em sistemas de recomendação musical. Os achados reforçam a relevância do ajuste de parâmetros, das téc- nicas de extração de características e da aplicação de métodos de visualização para melhorar o desempenho e a interpretabilidade dos modelos de redes neurais na classificação de gêneros musicais.
Abstract: This work investigates the application of Artificial Neural Networks (ANNs) for classifying music into different genres using the GTZAN dataset. The primary focus is on leveraging Mel-Frequency Cepstral Coefficients (MFCCs) as features for training and testing a Multilayer Perceptron (MLP) model, combined with information visualization techniques to analyze the training process. The study demonstrates that using 15 MFCC coefficients results in the highest accuracy of 99.25%, effectively distinguishing between musical genres. Additionally, multidi- mensional visualization using the t-SNE technique provided a detailed understanding of how the model processes various audio features, aiding in pattern identification and training improve- ments. The results highlight the ANN’s ability to generalize across different audio inputs and its potential application in music recommendation systems. The findings underscore the relevance of parameter tuning, feature extraction techniques, and visualization methods to improve the performance and interpretability of neural network models in music genre classification.
Palavras-chave: Redes Neurais Artificiais (RNAs)
Perceptron Multicamadas (MLP)
Inteligência artificial explicável (xAI)
Projeção multidimensional
Coeficientes Cepstrais de Frequência Mel (MFCC)
Área do CNPq: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
Pais: Brasil
Editor: Instituto Federal Goiano
Sigla da Instituição: IF Goiano
Campus: Campus Rio Verde
Tipo de Acesso: Acesso Aberto
URI: https://repositorio.ifgoiano.edu.br/handle/prefix/5143
Data do documento: 6-Fev-2025
Aparece nas coleções:Bacharelado em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
tcc_Arthur de Melo Rezende.pdf18,53 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.