Artigo - Atena Editora

Artigo

Baixe agora

Livros
capa do ebook Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo

Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo

O reconhecimento de voz é

uma forma de acessibilidade utilizada para

executar tarefas com as mãos e os olhos

livres em aparelhos eletrônicos, e isso é

vantajoso independente do tipo de usuário. O

reconhecimento de voz é realizado por meio

de APIs, que apresentam algumas limitações:

(i) dependem de conexão com a internet; e (ii)

muitas vezes são softwares proprietários, ou

seja, há um custo para a aquisição de licenças

de uso. Visando a solução dessas limitações,

o presente trabalho propõe o desenvolvimento

do reconhecimento off-line de voz contínuo.

Inicialmente, realizou-se uma revisão

sistemática da literatura para obter o estado

da arte da pesquisa. Após a leitura dos artigos

selecionados, foram identificadas bibliotecas

para facilitar a implementação, tais como

CMUSphinx, HTK e Kaldi. Para cada biblioteca

foram criados 10 arquivos de configuração de

treinamento. As configurações que obtiveram

as melhores métricas de avaliação foram

implementadas e testadas. Para cada biblioteca,

realizou-se a análise de desempenho, no qual

foram verificados os percentuais de uso do

processador e de memória. A biblioteca Kaldi

obteve o melhor resultado, e apresentou uma

taxa de erro (WER) de 5,05% no corpus de voz

com vários locutores e 1,48% no corpus com

apenas um locutor.

Ler mais

Uma abordagem para o desenvolvimento e análise de desempenho do reconhecimento off-line de voz contínuo

  • DOI: 10.22533/at.ed.44619220523

  • Palavras-chave: Reconhecimento de Voz, Contínuo, Off-line.

  • Keywords: Speech Recognition, Continuous, Offline.

  • Abstract:

    Voice recognition is a form of

    accessibility used in electronic devices to

    perform tasks with free hands and eyes, and

    this is advantageous regardless of the type of

    user. Voice recognition is performed through

    APIs, which have some limitations: (i) depend on

    internet connection; and (ii) are often proprietary

    software, so there is a cost to purchase usage

    licenses. In order to solve these limitations,

    the present work proposes the development of

    off-line voice recognition. Initially, a systematic

    literature review was conducted to obtain the

    state of the art of the research. After reading the

    selected articles, libraries such as CMUSphinx,

    HTK and Kaldi were identified and selected to

    facilitate implementation. For each library, 10 training configuration files were created.

    The configurations that obtained the best evaluation metrics were implemented and

    tested. In order to verify the percentages of processor and memory usage, performance

    analysis was performed for each library. The Kaldi library obtained the best result,

    presenting an error rate (WER) of 5.05% in the voice corpus with several speakers and

    1.48% in the corpus with only one speaker.

  • Número de páginas: 15

  • Aluizio Haendchen Filho
  • Rudimar Luís Scaranto Dazzi
  • Lucas Debatin
Fale conosco Whatsapp