Return to list
Ciências da fala
Plínio A. Barbosa | Instituto de Estudos da Linguagem, UNICAMP

Embora não haja uma ciência unificada da fala, há um conjunto de ciências que colaboram para o estudo desse objeto multifacetado, entre elas as ciências da biologia da fala, as ciências da produção e percepção da fala, a fonética que, interagindo há muitas décadas, produziram aplicações em áreas tão diversas quanto a síntese e o reconhecimento da fala, os sistemas automáticos de diálogo mediado  pela fala, a fonética forense, a fonética clínica, entre outras.

A fala é o resultado da coordenação de um conjunto dos subsistemas respiratório, laríngeo e supralaríngeo que se organizam funcionalmente para produzir os sons de uma determinada língua a partir da seleção do que se vai dizer até a movimentação dos articuladores de fala que geram esses sons.

Um trecho de fala carrega informações de diversas naturezas: fonética (segmental e prosódica), afetiva (e.g., atitudes em relação ao interlocutor, como a hostilidade e a gentileza ou em relação à proposição, como a dúvida, emoções e humor, entre outros), indexical (e.g., faixa etária, sexo, nível social, dialeto, condições de saúde) e relativa ao ambiente e canal (e.g., distância do interlocutor, se por canal telefônico ou outro e nível de ruído). Não é verdade que podemos dizer, de um curto trecho de fala de um conhecido se está gripado ou não, se está desanimado ou não, se fala ao telefone ou de local distante? Também não podemos inferir, com grau variado de precisão, de um interlocutor que vimos pela primeira vez se é idoso ou jovem, se é uma mulher ou um homem, se vem da capital ou do interior?

Mas o que tem a fala de especial, se comparada às vocalizações dos animais, que podem conter combinações de sequências que funcionam como uma proto-sintaxe, como no caso dos macacos-de-Campbell? Certamente é a dupla articulação, a das unidades significativas ou morfemas, partilhadas pelo sistema de vocalizações dos macacos-de-Campbell e a dos fonemas, que são os elementos finitos que se combinam de forma variada, criando infinitas possibilidades de morfemas, algo que só se encontra na espécie humana.

A segunda articulação evoluiu a partir do mecanismo de oscilação mandibular que produz vogais, quando de sua abertura, e consoantes, quando de seu fechamento. Esse movimento, que se manifesta claramente no balbucio do bebê, serve de ancoragem para a produção silábica e, posteriormente, para a inserção dos variados sons da fala. Mas a fala não surgiu pronta para o homem, pois evoluiu a partir de estruturas que serviam apenas para mastigar, deglutir e respirar que foram como que aproveitadas para a produção da fala.

Como qualquer som, o som da fala é o efeito final da perturbação de pressão do ar feita pelas duas atividades acima sobre os "sensores" de nosso sistema auditivo e, em seguida, sobre as vias auditivas superiores no cérebro, pois falamos para sermos ouvidos, não é? E queremos ser ouvidos em qualquer língua que falamos, no seio de qualquer comunidade linguística, dentro da miríade de sons que compõem a paisagem sonora proveniente das cerca de 5 mil línguas do mundo.

Entre essas línguas, há aquelas com poucas vogais, como o árabe clássico, com apenas três, e outras com 17 vogais, como o sueco, para citar línguas mais conhecidas. Quanto ao número de consoantes, enquanto o português faz uso de 19 consoantes, o Rotokas, falada numa ilha de Papua-Nova Guiné, tem apenas seis e o !Xu tem mais de 90 consoantes, a depender do dialeto, sendo em maior número os chamados cliques, que podem ser ouvidos no filme Pantera Negra, herói da Marvel, que contém diálogos em !Xhosa, língua da família !Xu.

A composição sonora de uma língua constitui parte de sua identidade. Não é interessante constatar, por exemplo, que basta ouvir La Vie en Rose para nos sentirmos em Paris ou para lá desejar viajar, ou basta ouvir uma conversa em italiano, com os gestos tão característicos das mãos que acompanham a fala, mesmo nas crianças pequenas, para nos sentirmos na Itália, convivendo com seus habitantes ou comendo um baba em Nápoles?

Entrar no universo da fala de outra comunidade e percorrer uma trajetória de produção e percepção de novos sons é a forma mais divertida de aprender uma língua estrangeira. Bem pronunciar uma língua nova para nós requer uma espécie de RPG dos órgãos da fala, isto é, aprender a fazer as posturas adequadas dos articuladores que produzirão os sons das consoantes e vogais e a prosódia da língua. Por exemplo, fazer um som de [y] em francês requer manter a língua na postura de [i] enquanto se arredondam os lábios como se fosse um [u], com a língua permanecendo em sua posição anterior. Essa nova coordenação dos articuladores da fala para determinado som da fala é algo que se vai aprendendo aos poucos, da mesma forma que um dia aprendemos a andar e a comer, a correr e a nadar, a tocar piano ou a manipular um mouse.

A compreensão dos mecanismos de produção e percepção da fala, com sua capacidade de infinitas modulações expressivas não possibilita apenas nos deleitarmos com a capacidade vocal de alguns atores na criação de personagens com vozes únicas, como o Golum do Senhor dos Anéis, mas permitiu o surgimento de inúmeras aplicações.

Algumas dessas aplicações ainda estão envoltas num certo glamour, como a Fonética Forense, provavelmente por conta de séries como C.S.I. A realidade, no entanto, está longe da certeza encontrada na ficção, pois é área que requer muito estudo e cuidadosa investigação tendo em vista que, diferentemente de nossas impressões digitais, a fala varia muito na mesma pessoa em função de uma série de fatores, entre eles, a tensão e o estresse de um indivíduo durante o ato criminoso em que usou a fala.

Outra aplicação importante  para esses tempos de hipercomunicação são as oriundas das tecnologias de fala, especialmente os sistemas automáticos de diálogo, como aqueles de empresas que procuram conduzir, através de um sistema de perguntas e respostas, o cliente para a solução de determinado problema. As frustrações por que muitos de nós passaram quando de uma experiência dessas é sinal do muito que as ciências da fala têm que contribuir para o aperfeiçoamento das tecnologias de fala.

Esse contributo, em tempos de pandemia em que se interroga se alguma alteração na fala pode servir de diagnóstico prévio para essa virose ou outras doenças, também advoga eloquentemente por uma saudável relação entre ciência básica e aplicada.

Vida nova às relações entre conhecimento acadêmico-científico e seu desenvolvimento na indústria.


Bibliografia básica

Kent, R. D. (1997). The speech sciences. San Diego, EUA: Singular Publishing Group.

Raphael, L. J.; Borden, G. J.; Harris, K. S. (2007). Speech science primer: Physiology, acoustics, and perception of speech. Lippincott Williams & Wilkins.

Origens e biologia da fala

Lieberman, P. (2000). Human Language and Our Reptilian Brain: The subcortical bases of speech, syntax, and thought. Harvard: Harvard University Press.

MacNeilage, P. F. (1998). The frame/content theory of evolution of speech production. Behavioral and brain sciences, 21(4), 499-511.

McNeill, D. (2012). How language began: Gesture and speech in human evolution. Cambridge: Cambridge University Press.

Produção da fala

Hardcastle, W. J.; Hewlett, N. (Eds.). (1999). Coarticulation: Theory, data and techniques (Vol. 24). Cambridge University Press.

Harrington, J., & Tabain, M. (Eds.). (2013). Speech production: Models, phonetic processes, and techniques. Nova Iorque: Psychology Press.

Redford, M. A. (2015). The Handbook of SpeechPproduction. Chichester, Reino Unido: John Wiley & Sons.

Percepção da fala

Pisoni, D.; Remez, R. (Eds.). (2008). The handbook of speech perception. John Wiley & Sons.

Fonética (geral)

Hardcastle, W. J.; Laver, J. (Eds.). (1997). The Handbook of Phonetic Sciences. Oxford: Blackwell.

Fonética acústica

Barbosa, P. A.; Madureira, S. (2015). Manual de fonética acústica experimental: aplicações a dados do português. São Paulo: Cortez.

Johnson, K. (2011). Acoustic and auditory phonetics. Oxford: Blackwell.

Kent, R. D.; Read, C.(1992). The acoustic analysis of speech. San Diego: Singular Publishing Group.

Ladefoged, P. (1996). Elements of acoustic phonetics. Chicago: University of Chicago Press.

Fonética forense

Baldwin, J. R.; French, P. (1990). Forensic phonetics. Londres: Pinter Publishers.

Barbosa, P.A.; Cazumbá, L.A.F; Constantini, A.C.; Machado, A.P.; Passetti, R.R.; Sanches, A.P. (2020) [Org.] Análise Fonético-Forense: em tarefa de Comparação de Locutor. Campinas: Millennium Editora.

Hollien, H. (2013). The acoustics of crime: The new science of forensic phonetics. Nova Iorque: Springer Science & Business Media.

Jessen, M. (2008). Forensic phonetics. Language and linguistics compass, 2(4), 671-711.

Fonética clínica

Shriberg, L. D.; Kent (2003). Clinical phonetics. Boston, MA: Allyn and Bacon.

Síntese da fala

Dutoit, T. (1997). An introduction to text-to-speech synthesis. Nova Iorque: Springer Science & Business Media.

Klatt, D. H. (1987). Review of text‐to‐speech conversion for English. The Journal of the Acoustical Society of America, 82(3), 737-793.

Reconhecimento de fala

Rabiner, L.; Juang, B. H. (1993). Fundamentals of speech recognition. PTR Prentice-Hall. Inc., New Jersey.

Rabiner, L. R.; Schafer, R. W. (2007). Introduction to digital speech processing. Now Publishers Inc.

Fala expressiva

Hinton, L.; Nichols, J.; Ohala, J. J. (Eds.). (2006). Sound symbolism. Cambridge: Cambridge University Press.

Madureira, S. (2011). The Investigation of Speech Expressivity. In: H. Mello; A. Panunzi; T. Raso (Eds). (Org.). Illocution, modality, attitude, information patterning and speech annotation. Firenze: Firenze University Press, v. 01, p. 101-118.