Construção de um sistema livre para sintetização de voz a partir de texto
A síntese de voz a partir de texto tem se tornado cada dia mais presente na vida cotidiana. De forma simplificada, pode-se dizer que o software é capaz de “ler textos”, convertendo informações textuais em sonoras. Este trabalho tem como objetivo construir, apresentar pormenores e oferecer facilidades para o uso de um software (com bibliotecas livres, freeware) para síntese e reprodução de voz a partir de texto. Com isso, uma interface gráfica (GUI, graphical user interface) foi desenvolvida, facilitando o uso também por leigos em programação. O software desenvolvido é livre, podendo ser aplicado em outras pesquisas e/ou na elaboração de outras tecnologias assistivas. Seu desenvolvimento foi realizado com linguagem de programação Python, que é livre para uso (ou seja, sem custo para desenvolvedor e usuários) e independente de sistema operacional (isto é, pode rodar em Windows, MacOS e Linux). As bibliotecas gTTS (Google text-to-speech) e PyQt5 foram utilizadas, constituindo os elementos centrais do aplicativo desenvolvido. Elas são empregadas, respectivamente, para construção dos algoritmos de síntese de voz e para a elaboração da GUI (tornando assim o aplicativo mais amigável). A concepção deste sistema computacional livre (freeware) resulta em uma ferramenta gratuita de síntese de fala, que pode ser usada por profissionais e/ou estudantes, sejam eles das áreas técnicas ou da saúde (em pesquisas e monografias, por exemplo). O aplicativo está disponibilizado de forma online, na plataforma de hospedagem GitHub (que detém todas as informações necessárias para uso, além dos códigos comentados). Por fim, pode-se comentar que é de conhecimento da comunidade científica que vozes sintéticas têm limitações no que diz respeito à compreensão do receptor. Outrossim, estima-se que ela possa ajudar em estudos de reabilitação e/ou na assimilação de texto-fala. Os áudios gerados pelo aplicativo podem ser tanto utilizados de forma praticamente instantânea (dependendo da internet), quanto gravados em um arquivo de áudio, em formato wave ou mp3, por exemplo.
Construção de um sistema livre para sintetização de voz a partir de texto
-
DOI: 10.22533/at.ed.8792121058
-
Palavras-chave: síntese de voz, texto para áudio, software livre, acústica, processamento digital de sinais
-
Keywords: speech synthesis, text-to-audio, open-software, acoustics, digital signal processing
-
Abstract:
Text-based voice synthesis has become more and more present in our daily lives. Put simply, one could say the software is able to “read texts” in converting textual information into sounds. The objective of this study is to construct, present details, and offer facilities for the use of a freeware software which synthesizes and reproduces speech from text. With it, a graphical user interface (GUI) was developed, facilitating its use among programming lay-people. The software developed through this study is open-source, available for application in other research and/or the elaboration of other assistive technologies. It was developed using Python programming language, also free for use (in other words at no cost for the developer or users) and can run on Windows, MacOS, and/or Linux, independent from any specific operating system (OS). The gTTS (Google text-to-speech) and PyQt5 libraries were utilized, constituting the central elements of the applicative developed. These are employed to construct the voice-synthesis algorithms and to elaborate the GUI (making the app more user-friendly), respectively. The conception of this freeware computing system results in a free speech synthesizing tool that may be used by professionals and/or students, both those in technical areas or health care (in research or thesis projects, for example). The applicative is available online on the host platform GitHub (which detains all the necessary information for its use, as well as the commented codes). Finally, it must be stated that it is well understood in the scientific community that synthetic speech is limited with respect to the listener comprehension. Likewise, it is estimated that it may aid with rehabilitation studies and/or speech-text assimilation. The audios generated by the applicative may be used as much in their practically instant form (depending on one’s internet connection) as recorded in an audio file format such as wave or mp3, for example.
-
Número de páginas: 13
- Bárbara Circe Costa Silveira
- Leonardo Jacomussi Pereira de Araujo
- Paulo Henrique Mareze
- William D'Andrea Fonseca