Return to list
Fala e multimodalidade
Albert Olivier Blaise Rilliard | LIMSI, Paris

Estudos de processos envolvidos na comunicação falada demonstram sua complexidade, e em particular enfatizam que o corpo inteiro participa da comunicação, e não apenas a modalidade acústica. Trabalhos sobre gesto e comunicação fornecem uma boa introdução à multiplicidade dos usos das modalidades na comunicação (McNeill, 2005).

O que viria a ser uma modalidade?

No âmbito das ciências da linguagem, modalidade é um termo que tem vários usos e sentidos. Pode ser utilizado para designar o modo principal de expressão da linguagem: modalidade escrita, oral, ou de sinais, indicando o tipo de representação da linguagem e suas qualidades. Nas ciências da fala, âmbito das ciências da linguagem que estuda especificamente a comunicação oral, a palavra modalidade está relacionada aos aspectos de percepção e às diferentes dimensões sensoriais dos seres humanos. Modalidade se refere ao jeito com que os diferentes sentidos participam da percepção da fala: a audição com a modalidade áudio e a visão com a modalidade visual são os dois sentidos principais, razão pela qual também se denomina fala audiovisual. O tato pode ser utilizado na comunicação falada, por exemplo no método chamado “Tadoma” (Reed et al., 1982); entretanto nesse verbete trataremos apenas das modalidades áudio e visual. Diferentes aspectos de uma modalidade veiculam informações diversas, e podem inclusive ser chamados de modalidade em si: é o caso das ditas modalidades gestual e facial, ambas veiculadas visualmente, ou ainda dos chamados níveis vocal vs. verbal, ambos veiculados auditivamente.

Sob quais aspectos podemos dizer que as modalidades são múltiplas?

Referimo-nos a multimodalidade quando mais de uma modalidade participa na transmissão de uma função linguística. Assim, para salientar uma parte do discurso, dispomos concomitantemente de diversos recursos: por exemplo, alongar sílabas e ampliar o movimento entonativo ao mesmo tempo em que destacamos essa parte do discurso com gestos manuais, movimentos de sobrancelhas ou maior abertura da boca. Os diversos recursos utilizados ajudam os interlocutores a perceber a mensagem, especialmente em condições de comunicação adversas (na presença de ruídos, em língua estrangeira, por pessoas com necessidades especiais, etc.); nessas condições adversas a multimodalidade da produção da fala a torna mais fiável e robusta. As diversas modalidades são produzidas conjuntamente e apresentam padrões de sincronização; sua percepção é feita por diferentes sentidos (audição e visão), sendo as informações de cada modalidade integradas durante o processo cognitivo de interpretação do sinal da fala para a construção de sentidos.

Para que servem as modalidades na produção da fala?

Assim como a produção da fala é um processo que implica diferentes níveis funcionais (fonético, fonológico, sintático etc.), a multimodalidade na produção da fala pode ser observada de diversas maneiras e em diferentes níveis.

Estudos sobre o desenvolvimento da comunicação em crianças demonstram a importância da modalidade visual nesse processo. Dois exemplos podem ser citados. Um deles se refere à observação dos gestos de dêixis, que aparecem em crianças antes delas terem a capacidade de falar, e que demonstram capacidades interacionais e comunicativas complexas. Em particular, esses gestos podem ser interpretados como atos comunicativos protoimperativos, se eles incitam o parceiro a fazer algo (e.g., trazer um objeto), ou atos protodeclarativos, se dão uma informação (e.g., informar onde está um boneco). Segundo Tomasello, a complexidade das interações baseadas em tais gestos só seria possível com uma capacidade de intencionalidade compartilhada que pressupõe compreensão do contexto e inferências sobre o estado mental do parceiro; essas interações permitem o desenvolvimento das premissas de uma gramática que propiciaria o desenvolvimento da linguagem (Tomasello; Carpenter; Liszkowski, 2007). O segundo exemplo é a expressão da negação observada também em crianças: os trabalhos de Morgenstern e colegas mostram a importância dessa função comunicativa, que permite às crianças a expressão de suas necessidades e vontades, elemento importante para a construção de suas respectivas personalidades. Negações são primeiramente expressadas por meio de vocalizações ou movimentos, e só passam a ter uma forma simbólica (i.e., movimentos passam a ser gestos e vocalizações, a produções verbais, com uma forma e um sentido reproduzível) quando a criança tem aproximadamente um ano de idade. As expressões da negação começam no processo de aquisição com produções multimodais e sentidos gerais, e se individualizam desenvolvendo sentidos mais precisos e adaptados para cada uma das modalidades (Beaupoil-Hourdel; Morgenstern; Boutet, 2016).

Na fala audiovisual, os gestos articulatórios (os que produzem os fonemas) têm uma natureza multimodal, por implicar movimentos de partes do corpo que são visíveis (lábios, mandíbula, língua). Assim, mesmo se não for intencional (a pessoa falando move seus lábios a fim de produzir os sons com uma forma acústica distintiva para os fonemas), diferenças entre categorias de fonemas podem ser reconhecidas visualmente, graças, especialmente, à forma dos lábios (fechados para /p, b, m/, estendidos para /i/). Essas formas visuais são chamadas por Benoît de visemas (em analogia ao fonema) por serem formas visualmente distintivas no que diz respeito a categorias de fonemas idênticos em termos de geometrias dos lábios. Benoît e seus colegas demonstraram que a apresentação de um modelo de lábios (uma “cabeça falante” virtual, mas só com os lábios, sem a face) pode aumentar em 20% a identificação da fala em condições áudio severamente degradadas (Benoît; Le Goff, 1998). Essa capacidade da modalidade visual de melhorar nossa percepção da fala é comumente conhecida como a capacidade de leitura labial. A relação entre articulação (cujo objetivo primeiro é o de dar forma ao sinal acústico) e as restrições importantes e claramente visíveis que essa articulação introduz nos movimentos da face (mandíbula, lábios, língua) é causal, pois temos que articular para produzir fala, portanto, a visibilidade dos movimentos não é intencional (Vatikiotis-Bateson; Munhall, 2015). Embora a visibilidade da articulação não seja intencional, ela é uma parte importante do processo comunicativo.

A comunicação falada consiste em parte na expressão de atos ilocutórios e atitudinais, que participam da gestão da interação, permitindo, e.g., a adição de um aspecto imperativo em um pedido. As nuances de sentido que são eventualmente expressadas na interação são possíveis graças à multiplicidade de recursos expressivos – e em particular às múltiplas possibilidades que oferecem os recursos multimodais. Uma asserção simples com ou sem encolhimento de ombros resulta em dois atos de fala diferentes. A expressão da dúvida com relação a uma asserção do interlocutor é mais eficiente com o franzimento das sobrancelhas e uma determinada entoação do que com a expressão verbal de uma perífrase completa (Moraes; Rilliard, 2014). Tais produções audiovisuais oferecem uma ampla gama de possibilidades expressivas ao falante. A maioria das produções são feitas a partir dessa dimensão multimodal da fala, usando recursos de expressões faciais, gestualidade, variação da qualidade de voz ou prosódia. Coocorrências sistemáticas podem ser descritas entre tal movimento na face e tal forma entonativa: essas relações são funcionais, e não causais, no sentido de que uma não é fruto da outra (como é o caso de visemas). As várias modalidades contribuem, ou têm a capacidade de contribuir, na realização do mesmo objetivo comunicativo; as coocorrências podem desaparecer se uma modalidade precisa preencher uma outra função (por exemplo se a entoação for acionada para marcar um foco).

Na funcionalidade das modalidades e da multimodalidade, podemos observar que há algumas preferências de uso específico, ou de dominância, para algumas funções. Assim, quanto mais uma função implicar em modificação do sentido de um ato de fala, maior será a probabilidade de que recursos da modalidade áudio sejam acionados, ou tenham um papel dominante. Ao contrário, quanto maior for a importância da marcação de funções comportamentais e da gestão das relações sociais (que têm uma relação direta com aspetos expressivos e afetivos, mas não necessariamente com aspectos que modificam o sentido proposicional) se observa uma dominância da modalidade visual (Moraes; Rilliard, 2014). As duas modalidades, áudio e visual, compartilham o espaço expressivo e funcional dos dois sistemas de comunicação principais dos seres humanos: o sistema intencional de signos linguísticos dominado pela modalidade áudio – a agilidade do sistema articulatório sendo um pré-requisito evolucionário por a aparição desse sistema (Fitch, 2018) – e o sistema simbólico das expressões emocionais, dominado pela modalidade visual (Mortillaro; Mehu; Scherer, 2013). Esses sistemas são interrelacionados na filogênese da comunicação humana.

Em quais aspectos a multimodalidade participa da percepção da fala?

Vimos que os gestos labiais são visíveis, em consequência de uma relação causal do processo articulatório. Mas mesmo que esses gestos não sejam necessariamente produzidos para serem vistos, a observação da face da pessoa falando ajuda à percepção da fala (i.e., à identificação robusta e correta do conteúdo e da intencionalidade). A participação das modalidades auditiva e visual concomitantes no processo de decodificação dos fonemas foi demonstrada experimentalmente pelo processo de ilusão perceptiva conhecido como “efeito McGurk”. Numa tarefa de identificação de sílabas construídas com uma consoante plosiva e com a vogal /a/, a apresentação áudio de um /ba/ junto com a apresentação visual de um /ga/ gera a percepção de /da/: a consoante com o lugar de articulação intermediário aos estímulos áudio e visual. Considerando que as apresentações unimodais são bem identificadas e que as bimodais incongruentes não o são, fica demonstrada a participação de ambas as modalidades no processo cognitivo de identificação dos fonemas (Mcgurk; Macdonald, 1976). Efeitos similares de interações entre modalidades foram observados no processo de percepção / interpretação da fala (Alsius; Paré; Munhall, 2018). O efeito McGurk gerou uma literatura importante e suscitou uma série de  perguntas teóricas sobre o funcionamento cognitivo da percepção da fala: e.g., sobre o modo de integração ou de fusão entre modalidades, ou ainda sobre a importância da causalidade intermodal na ilusão (Magnotti; Beauchamp, 2017; Nahorna; Berthommier; Schwartz, 2015). 

Quando as diversas modalidades têm uma relação funcional (e não causal), a multimodalidade tipicamente se expressa dentro do que foi chamado de “prosódia audiovisual”; campo de estudo que vem demonstrando como uma gama variada de funções comunicativas são veiculadas por mais de uma modalidade; as funções comunicativas descritas vão desde a realização do modo frásico ou do fraseamento, até a realização de atos ilocutórios (Krahmer; Swerts, 2009). A interação entre modalidades na realização dessas funções também foi demostrada no nível da percepção, ainda que nesses casos, modalidades sejam mais independentes do que quando têm uma relação causal. Assim, tanto a modalidade visual pode suprir deficiências na modalidade áudio em condições ruidosas (Miranda et al., 2020), quanto a modalidade visual pode vir a modificar a interpretação dos estímulos apresentados somente em modalidade áudio (Nadeu; Prieto, 2011). As duas modalidades também concorrem na expressão de alguns sentidos complexos – como é o caso da ironia, figura retórica em que o sentido intencional é contrário ao sentido proposicional: expressões de ironia podem ser compostas de duas expressividades separadas, que são interpretadas como ironia quando essas modalidades são apresentadas em conjunto (Mixdorff et al., 2017). Em apresentações de estímulos com duas modalidades que veiculam expressividades incongruentes, é possível observar como a modalidade secundária abaixa as performances de identificação de apresentações unimodais – permitindo também determinar qual modalidade seria a mais robusta na expressão de certos tipos de funções. Miranda e colegas demonstraram assim o papel primordial do áudio para a expressão do modo da frase, enquanto que a modalidade visual parece ser a primordial para a expressão de emoções (Miranda et al., 2020; Provost; Shangguan; Busso, 2015) 

A comunicação humana aproveita as capacidades do corpo humano ao máximo, considerando as restrições de uma situação particular, mas sempre aproveitando de forma ótima as capacidades particulares de cada modalidade. Assim, no caso de comunicações entre distâncias importantes (em regiões montanhosas, tipicamente) observamos o desenvolvimento de versões assobiadas de algumas linguagens (Meyer, 2008); por outro lado, em povoamentos com alta incidência de pessoas surdas ou surdocegas, observamos o desenvolvimento de línguas de sinais ou de línguas de sinais táteis (Braithwaite, 2019).


Bibliografia
Parte introdutória

Alsius, A.; Paré, M.; Munhall, K. G. (2018) Forty Years After Hearing Lips and Seeing Voices: the McGurk Effect Revisited. Multisensory Research, v. 31, n. 1–2, p. 111–144.

Beaupoil-Hourdel, P.; Morgenstern, A.; Boutet, D. A. (2016) Child’s Multimodal Negations from 1 to 4: The Interplay Between Modalities. In: Larrivée, P.; Lee, C. (Eds.). . Negation and Polarity: Experimental Perspectives. Language, Cognition, and Mind. Cham: Springer International Publishing, 2016. v. 1p. 95–123.

Benoît, C.; Le Goff, B. (1998) Audio-visual speech synthesis from French text: Eight years of models, designs and evaluation at the ICP. Speech Communication, v. 26, n. 1–2, p. 117–129.

Krahmer, E.; Swerts, M. (2009) Audiovisual Prosody – Introduction to the Special Issue. Language and Speech, v. 52, n. 2–3, p. 129–133, jun. 2009.

Massaro, D. W. et al. (1993) Bimodal speech perception: an examination across languages. Journal of Phonetics, v. 21, n. 4, p. 445–478, out. 1993.

Massaro, D. W.; Cohen, M. M.; Smeele, P. M. T. (1996) Perception of asynchronous and conflicting visual and auditory speech. The Journal of the Acoustical Society of America, v. 100, n. 3, p. 1777–1786, set. 1996.

Mcgurk, H.; Macdonald, J. (1976) Hearing lips and seeing voices. Nature, p. 746–748.

McNeill, D. (2005) Gesture and thought. Chicago: University of Chicago Press.

Ménard, L. (2015) Multimodal Speech Production. In: Redford, M. A. (Ed.). The Handbook of Speech Production. Hoboken, NJ: John Wiley & Sons, Inc. p. 200–221.

Moraes, J. A.; Rilliard, A. (2014) Illocution, attitudes and prosody: A multimodal analysis. [s.l.] John Benjamins Publishing Company.

Mortillaro, M.; Mehu, M.; Scherer, K. R. (2013) The evolutionary origin of multimodal synchronisation and emotional expression. In: Altenmüller, E.; Schmidt, S.; Zimmermann, E. (Eds.). Evolution of emotional communication: from sounds in nonhuman mammals to speech and music in man. Series in affective science. 1st ed. Oxford: Oxford University Press, p. 3–25.

Sekiyama, K.; Burnham, D. (2008) Impact of language on development of auditory-visual speech perception. Developmental Science, v. 11, n. 2, p. 306–320, mar. 2008.

Vatikiotis-Bateson, E.; Munhall, K. G. (2015) Auditory-Visual Speech Processing: Something Doesn’t Add Up. The Handbook of Speech Production, p. 178–199.

Parte de aprofundamento

Braithwaite, B. (2019) Sign language endangerment and linguistic diversity. Language, v. 95, n. 1, p. e161–e187.

Fitch, W. T. (2018) The Biology and Evolution of Speech: A Comparative Analysis. Annual Review of Linguistics, v. 4, n. 1, p. 255–279, 14 jan. 2018.

Magnotti, J. F.; Beauchamp, M. S. (2017) A Causal Inference Model Explains Perception of the McGurk Effect and Other Incongruent Audiovisual Speech. PLOS Computational Biology, v. 13, n. 2, p. e1005229, 16 fev. 2017.

Meyer, J. (2008) Typology and acoustic strategies of whistled languages: Phonetic comparison and perceptual cues of whistled vowels. Journal of the International Phonetic Association, v. 38, n. 01, abr. 2008.

Miranda, L. et al. (2020) The role of the auditory and visual modalities in the perceptual identification of Brazilian Portuguese statements and echo questions. Language and Speech.

Mixdorff, H. et al. (2017) Audio-visual expressions of attitude: How many different attitudes can perceivers decode? Speech Communication, v. 95, p. 114–126, dez. 2017.

Nadeu, M.; Prieto, P. (2011) Pitch range, gestural information, and perceived politeness in Catalan. Journal of pragmatics, v. 43, n. 3, p. 841–854.

Nahorna, O.; Berthommier, F.; Schwartz, J.-L. (2015) Audio-visual speech scene analysis: Characterization of the dynamics of unbinding and rebinding the McGurk effect. The Journal of the Acoustical Society of America, v. 137, n. 1, p. 362–377, jan. 2015.

Provost, E. M.; Shangguan, Y.; Busso, C. Umeme. (2015) University of Michigan Emotional McGurk Effect Data Set. IEEE Transactions on Affective Computing, v. 6, n. 4, p. 395–409, 1 out. 2015.

Reed, C. M. et al. (1982) Analytic Study of the Tadoma Method: Further Experiments with Inexperienced Observers. Journal of Speech, Language, and Hearing Research, v. 25, n. 2, p. 216–223.

Swerts, M.; Krahmer, E. (2005) Audiovisual prosody and feeling of knowing. Journal of Memory and Language, v. 53, n. 1, p. 81–94.

Tomasello, M.; Carpenter, M.; Liszkowski, U. (2007) A New Look at Infant Pointing. Child Development, v. 78, n. 3, p. 705–722, maio 2007.