Employing Gradient Boosting and Anomaly Detection for Prediction of Frauds in Energy Consumption
A Fraude em consumo de energia elétrica é um grande problema para distribuidoras de energia elétrica no Brasil. Neste trabalho é descrita a aplicação de algoritmos recentes de aprendizagem de máquina, denominados XGBoost e Isolation Forest, para predição de irregularidades no consumo de energia elétrica. Tendo modelos de regressão logística como algoritmo base de comparação, mostra-se que o uso do método XGBoost permite obter um aumento de performance significativo no valor de F1-score para predição de fraudes em dois cenários distintos, com a presença ou ausência de dados históricos de inspeções de equipamentos in loco. Além disso, descreve-se o uso do algoritmo de Isolation Forest para detecção de anomalias no consumo de energia elétrica. Mostra-se que esta estratégia é útil na situação em que históricos de inspeções não estão disponíveis, resultando em uma capacidade preditiva superior à aleatoriedade.
Employing Gradient Boosting and Anomaly Detection for Prediction of Frauds in Energy Consumption
-
DOI: 10.22533/at.ed.6132004094
-
Palavras-chave: Aprendizagem de máquina, fraude em distribuição de energia, XGBoost, detecção de anomalias
-
Keywords: machine learning, energy Fraud, XGBoost, anomaly detection
-
Abstract:
Energy fraud is a critical economical burden for electric power or- ganizations in Brazil. In this paper we present the application of cutting-edge Machine Learning algorithms, namely XGBoost and Isolation Forest, for prediction of irregularities in electrical energy consumption. By using a Logistic Regression model as a benchmark, we show that the use of XGBoost results in a significant improvement in the F1-score for fraud predictions in two different scenarios: with and without inspection history features. Moreover, we also propose the use of the Isolation Forest algorithm for detection of anomalies in electrical energy consumption. We show that this approach may be useful in the case of lack of inspection history features, surpassing dummy classifiers.
-
Número de páginas: 14
- Sami Yamouni
- Renato Vicente
- Tales Fonte Boa Souza
- Juliano Andrade Silva
- Ramon Vilarino
- Estevão Uyrá
- Beatriz Albiero
- Ricardo Nascimento dos Santos