Use este identificador para citar ou linkar para este item:
https://repositorio.ifgoiano.edu.br/handle/prefix/5143
Tipo: | Trabalho de Conclusão de Curso |
Título: | USO DE VISUALIZAÇÃO DE INFORMAÇÃO PARA INVESTIGAÇÃO DA CLASSIFICAÇÃO SUPERVISIONADA DE GÊNEROS MUSICAIS |
Autor(es): | Rezende, Arthur de Melo |
Primeiro Orientador: | Oliveira, Douglas Cedrim |
Primeiro Membro da Banca: | Bailão, Adriano Soares de Oliveira |
Segundo Membro da Banca: | Barbosa, Danilo Pereira |
Resumo: | Este trabalho de conclusão de curso propõe apresentar os resultados dos testes referente a apli- cação de Redes Neurais Artificiais (RNAs) na classificação de músicas em diferentes gêneros utilizando o conjunto de dados GTZAN. O objetivo principal é utilizar a visualização de informa- ção para investigação da classificação supervisionada de gêneros musicais. Para tanto utilizou-se os Coeficientes Cepstrais de Frequência Mel (MFCCs) para extrair as características dos áudios utilizados para o treinamento e teste de um modelo de Perceptron Multicamadas (MLP), aliado a técnicas de visualização de informações para análise do processo de treinamento. O estudo demonstra que a utilização de 15 coeficientes MFCC resulta na maior acurácia de 99,25%, distinguindo efetivamente entre os gêneros musicais. Os resultados destacam a capaci- dade da RNA de generalizar entre diferentes entradas de áudio e seu potencial uso em sistemas de recomendação musical. Os achados reforçam a relevância do ajuste de parâmetros, das téc- nicas de extração de características e da aplicação de métodos de visualização para melhorar o desempenho e a interpretabilidade dos modelos de redes neurais na classificação de gêneros musicais. |
Abstract: | This work investigates the application of Artificial Neural Networks (ANNs) for classifying music into different genres using the GTZAN dataset. The primary focus is on leveraging Mel-Frequency Cepstral Coefficients (MFCCs) as features for training and testing a Multilayer Perceptron (MLP) model, combined with information visualization techniques to analyze the training process. The study demonstrates that using 15 MFCC coefficients results in the highest accuracy of 99.25%, effectively distinguishing between musical genres. Additionally, multidi- mensional visualization using the t-SNE technique provided a detailed understanding of how the model processes various audio features, aiding in pattern identification and training improve- ments. The results highlight the ANN’s ability to generalize across different audio inputs and its potential application in music recommendation systems. The findings underscore the relevance of parameter tuning, feature extraction techniques, and visualization methods to improve the performance and interpretability of neural network models in music genre classification. |
Palavras-chave: | Redes Neurais Artificiais (RNAs) Perceptron Multicamadas (MLP) Inteligência artificial explicável (xAI) Projeção multidimensional Coeficientes Cepstrais de Frequência Mel (MFCC) |
Área do CNPq: | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | por |
Pais: | Brasil |
Editor: | Instituto Federal Goiano |
Sigla da Instituição: | IF Goiano |
Campus: | Campus Rio Verde |
Tipo de Acesso: | Acesso Aberto |
URI: | https://repositorio.ifgoiano.edu.br/handle/prefix/5143 |
Data do documento: | 6-Fev-2025 |
Aparece nas coleções: | Bacharelado em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
tcc_Arthur de Melo Rezende.pdf | 18,53 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.