MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA
Este trabalho apresenta um benchmark experimental para avaliação comparativa de Modelos de
Linguagem de Grande Porte (LLMs) aplicados à tarefa de extração automática de informações a partir de
documentos corporativos em formato PDF. O objetivo principal consiste em identificar qual modelo apresenta
maior eficiência e confiabilidade na conversão de informações textuais não estruturadas em uma estrutura de
dados padronizada no formato JSON, adequada ao armazenamento em banco de dados. O estudo foi conduzido
utilizando um corpus composto por 50 comunicados ao mercado e fatos relevantes emitidos por empresas
brasileiras de diferentes setores, incluindo instituições financeiras e empresas do setor de commodities. Para
viabilizar a avaliação, foi desenvolvido um pipeline automatizado responsável pela extração do texto dos
documentos, envio das informações aos modelos de linguagem avaliados e análise das respostas geradas. A
avaliação considerou métricas estruturais e semânticas, incluindo validade do JSON gerado, completude dos
campos obrigatórios e similaridade semântica entre o título extraído e o conteúdo do documento. Foram
avaliados diferentes modelos disponíveis por meio de APIs com planos gratuitos, incluindo GPT-OSS-120B,
DeepSeek-V3.1-671B, Llama-3.3-70B, GLM-4.6, Qwen3-235B-A22B e Gemini-2.5-Flash. Os resultados
demonstram que os modelos GPT-OSS-120B, DeepSeek-V3.1-671B e Gemini-2.5-Flash apresentaram
desempenho superior e alta consistência estrutural, com geração confiável de JSON válido em todas as
avaliações. O modelo GPT-OSS-120B obteve o maior score geral no benchmark e foi selecionado para a
implementação do sistema final de extração automatizada. Os resultados evidenciam a importância de avaliar
simultaneamente a qualidade semântica e a consistência estrutural em sistemas baseados em LLMs voltados à
automação de pipelines de ingestão de dados.
MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA
-
DOI: https://doi.org/10.22533/at.ed.394122608018
-
Palavras-chave: Large Language Models; Extração de Informação; Processamento de Documentos PDF; Benchmark; Inteligência Artificial.
-
Keywords: ...
-
Abstract: ......
- Matheus Souza Rosa,
- Fabio Marques da Cruz