ANÁLISE DE AGRUPAMENTO PARA APRIMORAR A EXTRAÇÃO AUTOMÁTICA DE DEMONSTRATIVOS FINANCEIROS COM ESTUDO DE ESCALABILIDADE
A análise das demonstrações financeiras é parte fundamental do processo de atribuição do risco de crédito, produzindo documentos que são fontes valiosas de informação sobre o património económico e financeiro das empresas. Grandes volumes desse tipo de documento exigem extração automática de dados e os localizadores conduzem as ferramentas para essa tarefa. Porém, por falta de regulamentação, não existe um layout padronizado para esses documentos, o que origina uma variedade de estruturas documentais. Essa variedade onera as ferramentas de extração de recursos, reduzindo seu desempenho. A análise de agrupamento supera essa sobrecarga ao encontrar os melhores grupos de documentos, permitindo o desenvolvimento de localizadores ajustados para cada grupo com base em suas características principais. Extensão de um trabalho anterior, este trabalho mostra que aplicar técnicas de agrupamento de última geração, RNG-HDBSCAN*, FOSC e MustaCHE, sobre documentos de demonstrações financeiras para avaliar seus grupos e estruturas principais, separar anomalias e analisar suas características principais, permite que os especialistas definam localizadores adequados para cada grupo, aumentando o desempenho das ferramentas de extração de dados. No entanto, com uma grande quantidade de documentos para serem agrupados, métodos sequenciais e centralizados tornam-se incapazes de executar essa tarefa em tempo hábil. Adicionalmente, o presente trabalho estuda maneiras de adaptação dessa solução para modelos escaláveis.
ANÁLISE DE AGRUPAMENTO PARA APRIMORAR A EXTRAÇÃO AUTOMÁTICA DE DEMONSTRATIVOS FINANCEIROS COM ESTUDO DE ESCALABILIDADE
-
DOI: 10.22533/at.ed.5922228012
-
Palavras-chave: ciência de dados, agrupamento, extração de características
-
Keywords: data science, clustering, feature extraction
-
Abstract:
The financial statement analysis is a fundamental part of the credit risk attribution process, producing documents that are valuable sources of information about companies' economic and financial wealth. Large volumes of that type of document demand automatic data extraction, and locators drive the tools for that task. However, due to the lack of regulation, there is not a standard layout for such documents, which originates from a variety of document structures. Such variety burdens the feature extraction tools, reducing their performance. This work is an extension of previous work, where clustering analysis overcomes such burden by finding the best document clusters, allowing the development of fine-tuned locators for each cluster based on their main characteristics. We adopted state-of-the-art clustering techniques, RNG-HDBSCAN*, FOSC and MustaCHE, over financial statements documents to assess their clusters and main structures, separate outliers, and analyze their main features, allowing the specialists to define proper locators for each cluster, increasing the performance of the data extraction tools. Nevertheless, with a large number of documents, sequential or centralized clustering may not run in a timely manner. Additionally, this work studies ways to adapt the proposed solution to scalable models.
-
Número de páginas: 22
- Igor Raphael Magollo
- Gabriel Olivato
- Victor Vieira Ferraz
- Murilo Coelho Naldi