MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA - Atena EditoraAtena Editora

Artigo

Baixe agora

Livros

MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA

Este trabalho apresenta um benchmark experimental para avaliação comparativa de Modelos de Linguagem de Grande Porte (LLMs) aplicados à tarefa de extração automática de informações a partir de documentos corporativos em formato PDF. O objetivo principal consiste em identificar qual modelo apresenta maior eficiência e confiabilidade na conversão de informações textuais não estruturadas em uma estrutura de dados padronizada no formato JSON, adequada ao armazenamento em banco de dados. O estudo foi conduzido utilizando um corpus composto por 50 comunicados ao mercado e fatos relevantes emitidos por empresas brasileiras de diferentes setores, incluindo instituições financeiras e empresas do setor de commodities. Para viabilizar a avaliação, foi desenvolvido um pipeline automatizado responsável pela extração do texto dos documentos, envio das informações aos modelos de linguagem avaliados e análise das respostas geradas. A avaliação considerou métricas estruturais e semânticas, incluindo validade do JSON gerado, completude dos campos obrigatórios e similaridade semântica entre o título extraído e o conteúdo do documento. Foram avaliados diferentes modelos disponíveis por meio de APIs com planos gratuitos, incluindo GPT-OSS-120B, DeepSeek-V3.1-671B, Llama-3.3-70B, GLM-4.6, Qwen3-235B-A22B e Gemini-2.5-Flash. Os resultados demonstram que os modelos GPT-OSS-120B, DeepSeek-V3.1-671B e Gemini-2.5-Flash apresentaram desempenho superior e alta consistência estrutural, com geração confiável de JSON válido em todas as avaliações. O modelo GPT-OSS-120B obteve o maior score geral no benchmark e foi selecionado para a implementação do sistema final de extração automatizada. Os resultados evidenciam a importância de avaliar simultaneamente a qualidade semântica e a consistência estrutural em sistemas baseados em LLMs voltados à automação de pipelines de ingestão de dados.
Ler mais

MODELOS DE LINGUAGEM DE GRANDE ESCALA PARA EXTRAÇÃO DE INFORMAÇÕES ESTRUTURADAS DE DOCUMENTOS FINANCEIROS: UMA AVALIAÇÃO COMPARATIVA

  • DOI: https://doi.org/10.22533/at.ed.394122608018

  • Palavras-chave: Large Language Models; Extração de Informação; Processamento de Documentos PDF; Benchmark; Inteligência Artificial.

  • Keywords: ...

  • Abstract: ......

  • Matheus Souza Rosa,
  • Fabio Marques da Cruz
Fale conosco Whatsapp