Artigo - Atena Editora

Artigo

Baixe agora

Livros

capa do ebook Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo

Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo

O reconhecimento de voz é

uma forma de acessibilidade utilizada para

executar tarefas com as mãos e os olhos

livres em aparelhos eletrônicos, e isso é

vantajoso independente do tipo de usuário. O

reconhecimento de voz é realizado por meio

de APIs, que apresentam algumas limitações:

(i) dependem de conexão com a internet; e (ii)

muitas vezes são softwares proprietários, ou

seja, há um custo para a aquisição de licenças

de uso. Visando a solução dessas limitações,

o presente trabalho propõe o desenvolvimento

do reconhecimento off-line de voz contínuo.

Inicialmente, realizou-se uma revisão

sistemática da literatura para obter o estado

da arte da pesquisa. Após a leitura dos artigos

selecionados, foram identificadas bibliotecas

para facilitar a implementação, tais como

CMUSphinx, HTK e Kaldi. Para cada biblioteca

foram criados 10 arquivos de configuração de

treinamento. As configurações que obtiveram

as melhores métricas de avaliação foram

implementadas e testadas. Para cada biblioteca,

realizou-se a análise de desempenho, no qual

foram verificados os percentuais de uso do

processador e de memória. A biblioteca Kaldi

obteve o melhor resultado, e apresentou uma

taxa de erro (WER) de 5,05% no corpus de voz

com vários locutores e 1,48% no corpus com

apenas um locutor.

Ler mais

Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo

DOI: 10.22533/at.ed.44619220523
Palavras-chave: Reconhecimento de Voz, Contínuo, Off-line.
Keywords: Speech Recognition, Continuous, Offline.
Abstract:
Voice recognition is a form of
accessibility used in electronic devices to
perform tasks with free hands and eyes, and
this is advantageous regardless of the type of
user. Voice recognition is performed through
APIs, which have some limitations: (i) depend on
internet connection; and (ii) are often proprietary
software, so there is a cost to purchase usage
licenses. In order to solve these limitations,
the present work proposes the development of
off-line voice recognition. Initially, a systematic
literature review was conducted to obtain the
state of the art of the research. After reading the
selected articles, libraries such as CMUSphinx,
HTK and Kaldi were identified and selected to
facilitate implementation. For each library, 10 training configuration files were created.
The configurations that obtained the best evaluation metrics were implemented and
tested. In order to verify the percentages of processor and memory usage, performance
analysis was performed for each library. The Kaldi library obtained the best result,
presenting an error rate (WER) of 5.05% in the voice corpus with several speakers and
1.48% in the corpus with only one speaker.
Número de páginas: 15

Aluizio Haendchen Filho
Rudimar Luís Scaranto Dazzi
Lucas Debatin