Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo
O reconhecimento de voz é
uma forma de acessibilidade utilizada para
executar tarefas com as mãos e os olhos
livres em aparelhos eletrônicos, e isso é
vantajoso independente do tipo de usuário. O
reconhecimento de voz é realizado por meio
de APIs, que apresentam algumas limitações:
(i) dependem de conexão com a internet; e (ii)
muitas vezes são softwares proprietários, ou
seja, há um custo para a aquisição de licenças
de uso. Visando a solução dessas limitações,
o presente trabalho propõe o desenvolvimento
do reconhecimento off-line de voz contínuo.
Inicialmente, realizou-se uma revisão
sistemática da literatura para obter o estado
da arte da pesquisa. Após a leitura dos artigos
selecionados, foram identificadas bibliotecas
para facilitar a implementação, tais como
CMUSphinx, HTK e Kaldi. Para cada biblioteca
foram criados 10 arquivos de configuração de
treinamento. As configurações que obtiveram
as melhores métricas de avaliação foram
implementadas e testadas. Para cada biblioteca,
realizou-se a análise de desempenho, no qual
foram verificados os percentuais de uso do
processador e de memória. A biblioteca Kaldi
obteve o melhor resultado, e apresentou uma
taxa de erro (WER) de 5,05% no corpus de voz
com vários locutores e 1,48% no corpus com
apenas um locutor.
Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo
-
DOI: 10.22533/at.ed.44619220523
-
Palavras-chave: Reconhecimento de Voz, Contínuo, Off-line.
-
Keywords: Speech Recognition, Continuous, Offline.
-
Abstract:
Voice recognition is a form of
accessibility used in electronic devices to
perform tasks with free hands and eyes, and
this is advantageous regardless of the type of
user. Voice recognition is performed through
APIs, which have some limitations: (i) depend on
internet connection; and (ii) are often proprietary
software, so there is a cost to purchase usage
licenses. In order to solve these limitations,
the present work proposes the development of
off-line voice recognition. Initially, a systematic
literature review was conducted to obtain the
state of the art of the research. After reading the
selected articles, libraries such as CMUSphinx,
HTK and Kaldi were identified and selected to
facilitate implementation. For each library, 10 training configuration files were created.
The configurations that obtained the best evaluation metrics were implemented and
tested. In order to verify the percentages of processor and memory usage, performance
analysis was performed for each library. The Kaldi library obtained the best result,
presenting an error rate (WER) of 5.05% in the voice corpus with several speakers and
1.48% in the corpus with only one speaker.
-
Número de páginas: 15
- Aluizio Haendchen Filho
- Rudimar Luís Scaranto Dazzi
- Lucas Debatin