Return to list
Sistemas de síntese de fala em português europeu
João Paulo Teixeira | Universidade de Braga, Portugal

Introdução

A pesquisa ou investigação em Português Europeu desenvolvida por grupos de investigação Portugueses é demasiado extensa e diversificada que não é possível de a referir toda neste verbete. Assim, apresenta-se uma a investigação sobre uma aplicação em Português Europeu, e algumas contribuições relacionadas, ficando os outros temas para serem desenvolvido em futuros verbetes. 

Sistemas TTS Clássicos

Um sistema de síntese de fala (Text-To-Speech – TTS) clássico tem uma estrutura genérica que permite incorporar qualquer língua (Teixeira, J. P., Barros, M. J. and Freitas D., 2003; Dutoit, T., 1997). Contudo, há um conjunto de blocos que são específicos para cada uma das línguas. Estes sistemas estão organizados geralmente com uma estrutura que recebe o texto na entrada, tem um bloco de pré-processamento desse texto, seguido de um bloco de processamento linguístico-prosódico e um bloco de processamento acústico. O pré-processamento do texto converte tudo o que não é texto, como números, datas, acrónimos, abreviaturas, símbolos e até pode identificar e converter os sinais de pontuação que serão depois usados como delimitadores de estruturas sintáticas no bloco seguinte. O bloco de processamento linguístico-prosódico integra a conversão do texto numa sequência de fonemas (transcrição fonética), representando o que vai ser reproduzido, e o processamento prosódico. O processamento prosódico pode usar mais ou menos recursos linguísticos para definir a entoação (curvas de frequência fundamental – F0), as durações segmentais (ritmo e pausas), e eventualmente a intensidade, representando a forma como vai ser reproduzido (Barbosa, P., 2020). Para isso será útil efetuar a divisão silábica, marcação da sílaba tónica, identificação de grupos entoacionais, marcação do foco da frase, etc. Estas marcações serão usadas num modelo de prosódia que gera as durações segmentais, controlando o ritmo, e as curvas de F0 definindo a entoação. O bloco de processamento acústico gera o sinal de fala de acordo com a sequência de fonemas e a prosódia recebidas do bloco anterior. O processamento acústico tem vindo ter modelos cada vez mais evoluídos de forma a ter uma fala sintetizada com maior naturalidade (E. Keller, G. Bailly, A. Monaghan, J. Terken, M. Huckvale, 2001). Os blocos referidos anteriormente são dependentes da língua. Por exemplo o conjunto de fonemas e as regras de conversão do texto numa sequência de fonemas é específico de cada língua, bem como a prosódia, e mesmo o bloco de processamento acústico, quanto mais não seja devido à sua especificidade fonética/fonológica.

End-to-End TTS

Mais recentemente, com o desenvolvimento na inteligência artificial de modelos de aprendizagem profunda, surgiram sistemas TTS denominados end-to-end TTS em que todas as regras inerentes a uma língua são apreendidas pelo sistema sem necessidade de desenvolvimento de blocos específicos, carecendo apenas das marcações do texto. O sistema aprende a converter um texto num sinal de fala por um processo complexo de aprendizagem profunda. Nestes sistemas TTS o processo de aprendizagem necessita de um larguíssimo conjunto de pares de entrada-saída (texto-fala) como exemplo, para se ajustar internamente de forma a que em situações semelhantes de texto na entrada disponibilize na saída o sinal de fala de acordo com a sua aprendizagem. Estes sistemas têm excelentes desempenhos num contexto similar ao da aprendizagem, mas apresentam menor qualidade em outros contextos (Yibin Zheng, Jianhua Tao, Wen. Zhengqi, and Jiangyan Yi, 2019). Isso coloca o desafio da criação de datasets de grande dimensão (pares de texto-fala) para os diversos contextos. Por outro lado, começam a ser incorporados na entrada destes sistemas parâmetros linguístico-prosódicos com o propósito de melhorar a pronunciação, a prosódia e a naturalidade da fala sintetizada (Guo, H., Soong, F.K., He, L., Xie, L., 2019).

Sistemas TTS em Português Europeu

Os sistemas de conversão texto-fala (TTS) em Português Europeu começaram por ter desenvolvimentos em centros de investigação em Portugal, com é o caso do sistema DIXI que teve inicio em 1991 (Luis C. Oliveira, Céu Viana, Isabel Trancoso, 1991) com um modelo de formantes (Klatt, 1980) a realizar o processamento acústico. Este sistema teve desenvolvimentos posteriores em 2008 (Sérgio Paulo, et al., 2008), com um modelo acústico baseado em concatenação de unidades (Black, A.W., Taylor, P., 1997). O sistema para invisuais multilingue MULTIVOX incorporou o Português Europeu em 1998 (Teixeira, J. P., Freitas, D. R., Gouveia, P. D., Olaszy, G. and Németh, G., 1998) usando um modelo de formantes no seu bloco de processamento acústico. Também este sistema teve melhoramentos apresentados em 2002 (Freitas, D., et. al., 2002). Houve mais algumas abordagens experimentais (Weiss Maria João, Maia Ranniery, Tokuda Keiichi, Resende Fernando and Freitas Diamantino, 2005) usando a plataforma HTK com modelos baseados em HMM (T. Masuko, K. Tokuda, T. Kobayashi, and S. Imai, 1996; J. Yamagishi, 2006). Posteriormente começaram a surgir os sistemas comerciais com vozes masculinas (Eusébio e Tiago) e femininas (Amália, Joana, Leonor) disponibilizadas no demonstrador da Oddcast, com uma grande dinâmica imposta pela industria da tecnologia da fala. Esta dinâmica tem alterado muito os sistemas disponíveis online. Atualmente podem ouvir-se também as vozes de Celia (Acapela), ou a voz do narrador Hélia no Windows 10 Pro.

Não se conhecem ainda sistemas end-to-end em português Europeu.

Contribuições para os Sistemas TTS em PE

Os sistemas TTS clássicos incorporaram diversos componentes desenvolvidos especificamente para o Português Europeu como resultado de uma investigação científica. Como exemplos referem-se os algoritmos de divisão silábica automática (Gouveia, P., Teixeira, J. P. e Freitas, D., 2000), os sistemas de conversão grafema-fonema (D. A. Caseiro, I. Trancoso, 2002; Daniela Braga, Luís Coelho, Fernando Resende Jr, 2006), ou os modelos de prosódia (Teixeira, 2012).

Não obstante às aplicações desenvolvidas especificamente para aplicações TTS, outros resultados sobre prosódia (Sónia Frota, 2000; Coimbra, R. L., Gómez Bautista, A. & Moutinho, L. de C., 2020; Marina Vigário, 2003) são contributos fundamentais para as aplicações referidas anteriormente.


Referências:

Barbosa, P. (2020) Prosódia. São Paulo: Parábola.

Black, A.W., Taylor, P.: Automatically clustering similar units for unit selectionin speech synthesis. In: Eurospeech 1997.

Coimbra, R. L., Gómez Bautista, A., & Moutinho, L. de C. (2020). Estudo de caso em prosódia no nordeste de Portugal: contributos para um atlas multimédia das línguas românicas. Lletres Asturianes, (123), 97-108. https://doi.org/10.17811/llaa.123.2020.

D. A. Caseiro, I. Trancoso, “Grapheme-to-Phone Using Finite-State  Transducers”, in 2002 IEEE Workshop on Speech Synthesis, September, 2002.

Daniela Braga, Luís Coelho, Fernando Gil Vianna Resende Jr. A Rule-Based Grapheme-to-Phone Converter for TTS Systems in European Portuguese. VI International Telecommunications Symposium (ITS2006),  September 3-6, 2006, Fortaleza-CE, Brazil

Dutoit, T. (1997). An introduction to text-to-speech synthesis. Nova Iorque: Springer Science & Business Media.

Keller, G. Bailly, A. Monaghan, J. Terken, M. Huckvale. Improvements in Speech Synthesis: Cost 258: The Naturalness of Synthetic Speech. Wiley, 2001.

Freitas, D.; Moura, A.; Braga, D.; Ferreira, H.; Teixeira, J. P.; Barros, M. J.; Gouveia, P. and Latsch, V.; "A Project of Speech Input and Output in an E-commerce Application"; pp. 141-150; in "Advances in Natural Language Processing” by Elisabete Ranchhod, Nuno Mamede (Editors), Edited by Springer. ISBN 3-540-43829-7, 2002.

Gouveia, P., Teixeira, J. P. e Freitas, D. "Divisão Silábica Automática do Texto Escrito e Falado"., in atas do V PROPOR – Processamento Computacional da Língua Portuguesa Escrita e Falada, Atibaia – S. Paulo, November 2000.

Guo, H., Soong, F.K., He, L., Xie, L. (2019) Exploiting Syntactic Features in a Parsed Tree to Improve End-to-End TTS. Proc. Interspeech 2019, 4460-4464, DOI: 10.21437/Interspeech.2019-2167. DOI: 10.21437/Interspeech.

J. Yamagishi, "An introduction to hmm-based speech synthesis", Technical Report, 2006.

Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. In The journal of the Acoustical Society of America, vol. 67, pp. 971-995.

Luis C. Oliveira, Céu Viana, Isabel Trancoso. DIXI - portuguese text-to-speech system. Second European Conference on Speech Communication and Technology, EUROSPEECH 1991, Genova, Italy, September 24-26, 1991.

Marina Vigário. Prosody and sentence disambiguation in European Portuguese. Catalan Journal of Linguistics 2, December 2003.

Sérgio Paulo, Luís C. Oliveira, Carlos Mendes, Luís Figueira, Renato Cassaca, Céu Viana and Helena Moniz. DIXI – A Generic Text-to-Speech System for European Portuguese. Computational Processing of the Portuguese Language, 8th International Conference, PROPOR 2008, Aveiro, Portugal, September 8-10, 2008.

Sonia Frota. Prosody and focus in European Portuguese. Phonological phrasing and intonation. Garland Publishing, 2000.

Masuko, K. Tokuda, T. Kobayashi, and S. Imai. Speech synthesisusing HMMs with dynamic features. InProc. ICASSP-96, pages 389–392, May 1996.

Teixeira, J. P., Barros, M. J. and Freitas D., "Sistemas de Conversão Texto-Fala". Atas do 3º Congresso Luso-Moçambicano de Engenharia. Pag.1361-1374, 2003.

Teixeira, J. P., Freitas, D. R., Gouveia, P. D., Olaszy, G. and Németh, G., "MULTIVOX – Conversor Texto Fala Para Português", in III PROPOR - Encontro Para o Processamento Computacional da Língua Portuguesa Escrita e Falada, Porto Alegre – Brasil, November 1998.

Teixeira, J. P., Prosody Generation Model for TTS Systems - Segmental Durations and F0 Contours with Fujisaki Model. LAP LAMBERT Academic Publishing ISBN-13: 978-3-659-16277-0, 2012.

Weiss Maria João, Maia Ranniery, Tokuda Keiichi, Resende Fernando and Freitas Diamantino. HMM-based european Portuguese TTS system. INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005.

Yibin Zheng, Jianhua Tao, Wen. Zhengqi, and Jiangyan Yi. Forward–backward decoding sequence for regularizing end-to-end tts. IEEE/ACM Trans. Audio Speech & Lang. Process., 27(12): 2067–2079, 2019.