MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA

Matheus Souza Rosa,; Fabio Marques da Cruz

doi:https://doi.org/10.22533/at.ed.394122608018

MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA

Este trabalho apresenta um benchmark experimental para avaliação comparativa de Modelos de Linguagem de Grande Porte (LLMs) aplicados à tarefa de extração automática de informações a partir de documentos corporativos em formato PDF. O objetivo principal consiste em identificar qual modelo apresenta maior eficiência e confiabilidade na conversão de informações textuais não estruturadas em uma estrutura de dados padronizada no formato JSON, adequada ao armazenamento em banco de dados. O estudo foi conduzido utilizando um corpus composto por 50 comunicados ao mercado e fatos relevantes emitidos por empresas brasileiras de diferentes setores, incluindo instituições financeiras e empresas do setor de commodities. Para viabilizar a avaliação, foi desenvolvido um pipeline automatizado responsável pela extração do texto dos documentos, envio das informações aos modelos de linguagem avaliados e análise das respostas geradas. A avaliação considerou métricas estruturais e semânticas, incluindo validade do JSON gerado, completude dos campos obrigatórios e similaridade semântica entre o título extraído e o conteúdo do documento. Foram avaliados diferentes modelos disponíveis por meio de APIs com planos gratuitos, incluindo GPT-OSS-120B, DeepSeek-V3.1-671B, Llama-3.3-70B, GLM-4.6, Qwen3-235B-A22B e Gemini-2.5-Flash. Os resultados demonstram que os modelos GPT-OSS-120B, DeepSeek-V3.1-671B e Gemini-2.5-Flash apresentaram desempenho superior e alta consistência estrutural, com geração confiável de JSON válido em todas as avaliações. O modelo GPT-OSS-120B obteve o maior score geral no benchmark e foi selecionado para a implementação do sistema final de extração automatizada. Os resultados evidenciam a importância de avaliar simultaneamente a qualidade semântica e a consistência estrutural em sistemas baseados em LLMs voltados à automação de pipelines de ingestão de dados.

Ler mais

MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA

DOI: https://doi.org/10.22533/at.ed.394122608018
Palavras-chave: Large Language Models; Extração de Informação; Processamento de Documentos PDF; Benchmark; Inteligência Artificial.
Keywords: ...
Abstract: ......

Matheus Souza Rosa,
Fabio Marques da Cruz

Download

Artigo

Baixe agora

MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA

MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA