Use este identificador para citar ou linkar para este item: https://repositorio.ifgoiano.edu.br/handle/prefix/6143
Tipo: Trabalho de Conclusão de Curso
Título: AVALIAÇÃO AUTOMÁTICA DE RESPOSTAS CURTAS EM PORTUGUÊS BRASILEIRO: UM ESTUDO SOBRE MODELOS DE LINGUAGEM, ENGENHARIA DE PROMPT E CARACTERÍSTICAS TEXTUAIS
Título(s) alternativo(s): Automatic Short Answer Grading in Brazilian Portuguese: A Study on Language Models, Prompt Engineering, and Textual Characteristics
Autor(es): Santos, Heder Filho Silva
Primeiro Orientador: Pereira Junior, Cleon Xavier
Primeiro Coorientador: Rodrigues, Luiz Antonio Lima
Primeiro Membro da Banca: Vieira, Marcos Alves
Segundo Membro da Banca: Lopes, Lais Candido Rodrigues da Silva
Resumo: A Correção Automática de Respostas Curtas (em inglês, Automatic Short Answer Grading - ASAG) tem se destacado como alternativa promissora para reduzir o esforço humano em avaliações educacionais, embora ainda existam poucas investigações voltadas ao português brasileiro. Este estudo analisa o desempenho de três Modelos de Linguagem de Grande Escala (GPT-4o-mini, Sabiazinho-3 e Gemini 2.0-Flash) na tarefa de ASAG, avaliando todas as 128 combinações possíveis de sete componentes de engenharia de prompt e examinando como características textuais das respostas como número de palavras e riqueza lexical, influenciam o desempenho dos modelos. Os resultados indicam que a combinação de exemplos few-shot com rubrica explícita foi a mais eficaz, enquanto o raciocínio passo a passo beneficiou especialmente o GPT-4o-mini. O Sabiazinho-3 apresentou a maior concordância com avaliadores humanos, o Gemini 2.0-Flash obteve o menor erro médio absoluto, embora com alta taxa de alucinações, e o GPT-4o-mini produziu as saídas numéricas mais estáveis. Por fim, verificou-se que o perfil lexical das respostas impacta significativamente a qualidade da avaliação automática, sendo a faixa de riqueza lexical média a mais desafiadora para todos os modelos.
Abstract: Automatic Short Answer Grading (ASAG) has emerged as a promising approach to reducing human effort in large-scale educational assessments, but studies focused on Brazilian Portuguese remain limited. This work evaluates the performance of three Large Language Models (GPT-4o-mini, Sabiazinho-3, and Gemini 2.0-Flash) in ASAG, testing all 128 possible combinations of seven prompt engineering components and examining how textual characteristics—such as word count and lexical richness—affect model accuracy. Results show that combining few-shot examples with explicit rubrics was the most effective strategy, while step-by-step reasoning particularly benefited GPT-4o-mini. Sabiazinho-3 achieved the highest agreement with human evaluators, Gemini 2.0-Flash obtained the lowest mean absolute error but exhibited a high hallucination rate, and GPT-4o-mini produced the cleanest and most consistent numeric outputs. Furthermore, the lexical profile of student responses significantly influenced model performance, with medium levels of lexical richness posing the greatest challenge across all models.
Palavras-chave: Correção Automática de Respostas Curtas
Modelos de Linguagem de Grande Escala
Engenharia de Prompt
Português Brasileiro
Automatic Short Answer Grading
Large Language Models
Prompt Engineering
Brazilian Portuguese
Área do CNPq: CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
Pais: Brasil
Editor: Instituto Federal Goiano
Sigla da Instituição: IF Goiano
Campus: Campus Iporá
Tipo de Acesso: Acesso Aberto
URI: https://repositorio.ifgoiano.edu.br/handle/prefix/6143
Data do documento: 3-Dez-2025
Aparece nas coleções:Bacharelado em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TCC_final_heder.pdf995,3 kBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.