ANÁLISE DOS EFEITOS DA MÉTRICA DE DIST NCIA NA EXTRAÇÃO DE CONJUNTOS DE SIMILARIDADE
O conjunto de similaridade é um conceito definido para tratar de forma natural dados complexos em sistemas de gerenciamento de banco de dados. Trata-se de um grupo de dados onde nenhum par de elementos são suficientemente similares entre si. O processo de extração de conjuntos de similaridade envolve vários procedimentos e variáveis, uma delas sendo a métrica de distância utilizada para comparar os dados. Neste artigo, foram feitos experimentos computacionais para extrair conjuntos de similaridade utilizando-se métricas de distância diferentes a fim de se fazer uma análise estatística para descobrir se a métrica de distância influencia o resultado da extração e qual métrica é mais indicada para cada caso, onde se concluiu que a escolha da métrica realmente influencia o resultado e, para situações onde se deseja extrair conjuntos de similaridade com menor tamanho possível é indicado a métrica cityblock e na situação contrária, indica-se a métrica Chebyshev.
ANÁLISE DOS EFEITOS DA MÉTRICA DE DIST NCIA NA EXTRAÇÃO DE CONJUNTOS DE SIMILARIDADE
-
DOI: 10.22533/at.ed.19221291110
-
Palavras-chave: Conjuntos de similaridade, grafos, dados complexos, métrica de distância, teste de hipótese.
-
Keywords: Similarity sets, graphs, complex data, distance metrics, hypothesis tests.
-
Abstract:
Similarity Sets are a concept defined to naturally manage complex data in database management systems. They are a group of data where no pair of elements are sufficiently similar between each other. The process to extract similarity sets contains many steps and variables, one of them being the distance metric used to compare the data. In this paper, computational experiments were made using different distance metrics with the objective to find, using statistical tests, if the distance metrics matters to the final result of the extraction and which metric is better for each case. It was concluded that the distance metrics indeed matter for the results, and for situations where it’s wanted to extract a similarity set with the lowest length it’s better to use the cityblock metric, otherwise it’s better to use the Chebyshev distance metric.
-
Número de páginas: 16
- Bruno Duarte
- Ives Renê Venturini Pola
- Dalcimar Casanova
- Marco Antonio de Castro Barbosa
- André Eduardo Alessi