Acústica das comunicações

Bruno S. Masiero | Dept. Comunicações, Faculdade de Engenharia Elétrica e Computação, Unicamp

How to cite:

Masiero, Bruno S. (2021) Acústica das comunicações. In: Speech Sciences Entries. Speech Prosody Studies Group. Disponível em: https://gepf.falar.org/entries/25

O mito de Mehrabian^[1], amplamente divulgado na internet, diz que o tom de voz e as expressões corporais são mais importantes do que as próprias palavras sendo ditas. Mas este é apenas mais um de diversos exemplos onde estudos científicos são erroneamente interpretados e uma versão distorcida daquela informação que acaba sendo apresentada como a verdade. Fato é que a comunicação verbal, ou mais amplamente a comunicação sonora, é uma das principais modalidades de comunicação, principalmente na comunicação interpessoal.

A comunicação sonora sempre foi de fundamental importância para a comunicação humana e o que vimos durante a pandemia do Covid-19 foi que ela ganhou ainda mais relevância dentro do contexto de distanciamento social, com boa parte das interações sociais ocorrendo de forma virtual via sistemas de videoconferência pela internet.

Estes sistemas de comunicação remota são o epicentro de todo desenvolvimento associado à Acústica das Comunicações, definida por Jens Blauert como as áreas da acústica que se relacionam com as ciências e tecnologias da comunicação e da informação. Este desenvolvimento começou ainda no século 19, quando as pesquisas em acústica eram feitas em dois frontes principais: a acústica física, marcada pelos trabalhos de Lord Rayleigh, e a percepção sonora, marcada pelos trabalhos de Hermann von Helmholtz, que reúne as bases para a psicoacústica.

Estas áreas da acústica e percepção não tiveram grandes avanços até o desenvolvimento das válvulas no início do século XX (e depois dos transistores a partir dos anos 1950), que permitiam a amplificação de pequenas correntes e, consequentemente, a construção de instrumentos para a medição de eventos sonoros com boa confiabilidade. Estes desenvolvimentos deram início ao que hoje conhecemos por eletroacústica, área do conhecimento que combina acústica, percepção sonora e engenharia elétrica, e que permitiu a popularização de dispositivos com componentes eletroacústicos, como rádio, televisão e sistemas de sonorização.

A popularização dos computadores pessoais a partir dos anos 1980 trouxe a reboque as técnicas de processamento digital de sinais (PDS). E o uso de PDS na eletroacústica permitiu o nascimento da acústica das comunicações, que moldou o mundo contemporâneo, com tecnologias como gravação e distribuição de áudio digital, sintetizadores e instrumentos virtuais, sistemas de som envolvente (home theatre), sistemas de medição acústica microprocessados (sonômetros digitais), ferramentas de simulação acústica, auralização e realidade virtual, além de próteses auditivas e implantes cocleares. E o desenvolvimento tecnológico em curso ainda nos trará muitas mudanças significativas na maneira como lidamos com o som.

Quando usamos, por exemplo, nosso telefone celular, seus microfones não captam somente a nossa voz, mas também interferências e ruído de fundo. Além disto, com grande frequência não fazemos uso destes aparelhos em campo aberto, mas sim dentro de espaços fechados. Neste caso, o campo sonoro captado por nossos ouvidos ou microfones será a superposição do som direto e de várias reflexões desta onda nas paredes da sala, o que é conhecido por reverberação.

A presença de uma reverberação prolongada impacta negativamente na inteligibilidade da fala, o que requer que aparelhos de telefonia celular ou assistentes pessoais utilizem técnicas para melhorar a qualidade do som captado. Uma estratégia para realçar o sinal de interesse é o emprego de arranjos de microfones, isto é, um conjunto de microfones distribuídos espacialmente, cujos sinais são tratados conjuntamente por meio de técnicas avançadas de processamento de sinais. Arranjos de microfones estão cada vez mais frequentes nos aparelhos eletrônicos por conta da miniaturização propiciada pelos transdutores MEMS (micro electro-mechanical systems). Por outro lado, o uso de técnicas de aprendizado de máquina tem ganhado força em aplicações de separação e realce de fala e identificação de locutor.

Após a captação e processamento dos sinais de fala pelos nossos sistemas de comunicação, o sinal resultante é então transmitido para um servidor ou outro usuário através de uma conexão de banda limitada, ou seja, que permite enviar e receber apenas uma quantidade limitada de informação a cada segundo. Isto torna imprescindível que estes sistemas enviem o mínimo de informação possível. E este é o papel dos CODECs, acrônimo para codificador-decodificador, que convertem sinais analógicos (contínuos no tempo) em sinais digitais (sequências de bits), além de comprimir este sinal digital. E esta é uma área que não para de evoluir, permitindo enviar sinais de voz ou música com cada vez melhor resolução, mesmo com as taxas limitadas de transmissão. Um exemplo recente é a introdução do Enhanced Voice Services (EVS) para telefonia 4G, que utiliza tecnologias como Codificação por Predição Linear (LPC) e Compressão Perceptual, fortemente baseadas nos conhecimentos da fisiologia do sistema fonador e em um modelo psicoacústico da audição. E, aqui também, existem pesquisas de como o aprendizado de máquinas pode permitir a construção de CODECs ainda mais eficiente.

Os atuais sistemas de videoconferência permitem a comunicação efetiva, mas ainda não são capazes de garantir imersão, ou seja, a impressão de que as pessoas estão juntas no mesmo ambiente. Atingir este objetivo envolve o desenvolvimento de técnicas de gravação, síntese e reprodução de áudio espacial, para que os participantes de uma reunião tenham a impressão de realmente estar presente em um mesmo ambiente, com o som sendo percebido como vindo de diferentes direções, o que induz o realismo. Em conjunto com aplicações de realidade virtual e realidade aumentada, as pesquisas na área de áudio espacial têm evoluído rapidamente em anos recentes, com foco principal nos sistemas de reprodução biauricular (também conhecidos por áudio binaural).

Até agora falamos de comunicação sonora para pessoas com audição normal. Mas segundo dados de 2010 do IBGE, cerca de 5% da população brasileira tem algum nível de perda auditiva, sendo um quinto deste total surdos profundos. Toda esta parcela da população poderia se beneficiar do uso de próteses auditivas ou implantes cocleares. O desenvolvimento destes equipamentos também é uma atividade do ramo da acústica das comunicações, que envolve, entre outras coisas, miniaturização da eletroacústica e desenvolvimento de algoritmo de processamento de sinais sob fortes restrições de capacidade de processamento e consumo de energia. É, portanto, uma área de intensa pesquisa e desenvolvimento.

Por fim, qual a próxima evolução disruptiva que podemos esperar no campo da acústica das comunicações? Jens Blauert, corifeu da área, advoga que este próximo passo será a acústica cognitiva, que irá permitir aos sistemas de comunicação irem além do simples processamento do sinal acústico. Com o advento do aprendizado de máquina e big data, os sistemas de comunicação tendem a se tornar “inteligentes”, de forma a serem capazes de atribuir significado aos objetos e cenas sonoras por eles captados. Isso irá permitir, por exemplo, a realização de sistemas robustos de transcrição de fala. Ou, ao ser capaz de determinar o tipo de ambiente e de ruído presente na cena, tais dispositivos permitirão o desenvolvimento de melhores algoritmos de desreverberação e eliminação de ruído, entre outras muitas coisas que esse futuro imprevisível nos reserva.

[1] Storytelling with Impact | Exploring the Mehrabian Myth

Acústica das Comunicações

Blauert, J. (ed.) (2005) Communication Acoustics. Springer.

Pulkki, V. and Karjalainen, M. (2015) Communication Acoustics: An Introduction to Speech, Audio and Psychoacoustics. Wiley.

Acústica física

Rayleigh, J W S. (1896) The theory of sound. Reprint (1945), Dover, New York.

Morse, P.M. and Ingard, K.U. (1968) Theoretical Acoustics. McGraw-Hill.

Fahy, F. J. (2001). Foundations of Engineering Acoustics. Academic Press.

Rossing, T.D., Moore, F.R., and Wheeler, P.A. (2001) The Science of Sound, 3rd ed. Addison-Wesley.

Kuttruff, H. (2007). Acoustics: An Introduction. Taylor & Francis.

Psicoacústica

von Helmholz, H. (1863) Sensation of tone as a physiological basis for the theory of music. Reprint (2005), Kessinger Publishing, LLC.

Zwicker E. and Fastl H. (1990) Psychoacoustics. Facts and models. Springer, Berlin.

Plack, C. J. (2013) The Sense of Hearing. Psychology Press

Richard F. Lyon (2017) Human and Machine Hearing: Extracting Meaning from Sound. Cambridge University Press.

Eletroacústica

Hunt, V. (1954) Electroacoustics. Acoustical Society of America Publications, Sewickley, PA.

Davis, D. and Patronis, E. (2006) Sound System Engineering. Taylor & Francis.

Kleiner, M. (2013) Electroacoustics. CRC press.

Anatomia, fisiologia e modelos da audição

Békésy, G. (1960) Experiments in hearing. McGraw-Hill, New York.

Moore, B.C.J. (ed.) (1995) Hearing. Academic Press.

Massaro, D. W. (1998) Perceiving talking faces. From speech perception to a behavioral principle. MIT Press, Cambridge, MA.

Greenberg S. and Stanley M. (eds) (2001) Computational models of auditory function. IOS Press, Amsterdam.

Møller, A. R. (2006) Hearing: Anatomy, Physiology, and Disorders of the Auditory System. Elsevier.

Schnupp, J., Nelken, I., and King, A. (2011) Auditory Neuroscience: Making sense of sound. MIT Press.

Moore, B. C. J. (2013) An introduction to the psychology of hearing. 6ª ed. Academic Press, London

Gelfand, S. A. (2017) Hearing: An introduction to psychological and physiological acoustics. CRC press.

Audição biauricular

Gatehouse W (ed) (1982) Localization of sound: theory and applications, Amphora Press, Groton CN.

Møller H (1992) Fundamentals of binaural technology. Applied Acoustics, 36:171– 218.

Blauert J (1996) Spatial hearing: the psychophysics of human sound localization. MIT Press, Cambridge, MA.

Xie, B. (2013) Head-Related Transfer Function and Virtual Auditory Display. J. Ross Publishing.

Blauert, J. (2013) The Technology of Binaural Listening. Springer.

Fala

Barbosa, Plínio A. 2020. Ciências da fala. In: Verbetes LBASS. Disponível em: http://www.letras.ufmg.br/lbass/

Fant, G. (1970) Acoustic theory of speech production. 2nd ed, Mouton, The Hague–Paris.

Flanagan, J. L. (1972) Speech Analysis, Synthesis and Perception. Springer.

Sundberg, J. (1977) The Acoustics of the Singing Voice. Scientific American.

O’Shaughnessy, D. (1987) Speech Communication–Human and Machine. Addison-Wesley.

Titze, I. R. (1994) Principles of Voice Production. Prentice-Hall.

Jurafsky, D. and Martin, J. H. (2008) Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech, 2ª ed. Pearson Prentice Hall.

Processamento de Sinais

Rabiner L. R. and Schafer, R. W. (1978) Digital processing of speech signals. Prentice-Hall, Englewood Cliffs, N. J.

Nelson, P. and Elliott, S. (1992) Active Control of Sound. Academic Press.

Orfanidis, S. J. (1995) Introduction to Signal Processing. Prentice-Hall.

Oppenheim, A. V., Willsky, A. S. and Nawab, S. H. (1996). Signals and Systems. Prentice-Hall.

Kahrs M. and Brandenburg K. (ed) (1998) Applications of digital signal processing to audio and acoustics. Chap 5, Kluwer, Norwell, MA.

Proakis, J. G. (2007) Digital Signal Processing: Principles, Algorithms, and Applications, 4ª ed. Pearson Education.

Zölzer, U. (2008) Digital Audio Signal Processing. John Wiley & Sons.

Smith, J. O. (2011) Spectral Audio Signal Processing. W3K publishing.

Gold, B., Morgan, N., and Ellis, D. (2011) Speech and Audio Signal Processing: Processing and Perception of Speech and Music. John Wiley & Sons.

Reiss, J. D. and McPherson, A. P. (2014) Audio Effects: Theory, Implementation and Application. CRC Press.

Análise Sonora

Bregman, A. S. (1990) Auditory scene analysis: The perceptual organization of sound. MIT Press, Cambridge MA.

Jekosch, U. (2006) Voice and Speech Quality Perception: Assessment and Evaluation. Springer.

Wang, D. and Brown, G.J. (2006) Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. Wiley-IEEE Press.

Schnupp, J., Nelken, I., and King, A. (2011) Auditory Neuroscience: Making Sense of Sound. MIT Press.

Lerch, A. (2012) An Introduction to Audio Content Analysis: Applications in signal processing and music informatics. John Wiley & Sons.

Schuller, B.W. (2013) Intelligent Audio Analysis. Springer.

Codificação de áudio e fala

Markel J. D., and Gray A. H. (1980) Linear prediction of speech. Springer.

Kleijn, W. B. and Paliwal, K. K. (1995) Speech Coding and Synthesis. Elsevier Science.

Godsill S., and Rayner P. (1998) Digital audio restoration: a statistical model based approach. Springer.

Möller S. (2000) Assessment and prediction of speech quality in telecommunications. Kluwer Academic Publ, Boston

Chu, W.C. (2004) Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. John Wiley & Sons.

Möller S. (2005) Quality of telephone-based spoken dialogue systems. Springer, New York.

Bech S. and Zacharov, N. (2006) Perceptual Audio Evaluation, Wiley.

Breebaart, J. and Faller, C. (2008) Spatial Audio Processing: MPEG Surround and Other Applications. John Wiley & Sons.

Acústica de Salas

Beranek, L. (ed.) (1996) Concert and Opera Halls – How they Sound. Acoustical Society of America.

Cox T. and D’Antonio P. (2004) Acoustic absorbers and diffusers: theory, design and application. Spon Press, London.

Kuttruff, H. (2009). Room acoustics. 5ª ed. Spon Press.

Simulação e auralização

Gilkey R. H., and Anderson T. R. (1997) Binaural and spatial hearing in real and virtual environments. Lawrence Erlbaum, Mahwah, N. J.

Vorländer, M. (2007) Auralization: Fundamentals of Acoustics, Modelling, Simulation, Algorithms and Acoustic Virtual Reality. Springer.

Acústica Musical

Farnell, A. (2010) Designing Sound. MIT Press.

Fletcher, N.H. and Rossing, T.D. (1998) The Physics of Musical Instruments. Springer.

Roederer, J.G. (1975) The Physics and Psychophysics of Music: An Introduction. Springer.

Gravação e Reprodução Sonora

Begault, D. (1994) 3-D sound for virtual reality and multimedia. Academic Press Professional, Cambridge, MA.

Gardner, W. (1998) 3-D audio using loudspeakers. Kluwer Academic Publishers, Norwell, MA.

Rumsey, F. (2001) Spatial audio. Focal Press, Oxford.

Toole, F. (2012) Sound Reproduction: the Acoustics and Psychoacoustics of Loudspeakers and Rooms. Focal Press.

Ahrens, Jens (2012) Analytic Methods of Sound Field Synthesis. Springer.

Zotter, F. and Frank, M. (2019) Ambisonics: A Practical 3D Audio Theory for Recording, Studio Production, Sound Reinforcement, and Virtual Reality. Springer.

Arranjos de microfones

Brandstein, M. and Ward, D. (eds) (2001) Microphone Arrays. Springer.

Benesty, J., Chen, J., and Huang, Y. (2008) Microphone Array Signal Processing. Springer.

Paisagens sonoras

Murray Schafer, R. (1993) The Soundscape. Destiny Books.

Farnell, A. (2010) Designing Sound. MIT Press.

Franinovic, K. and Serafin, S. (eds) (2013) Sonic Interaction Design. MIT Press.

Cox, T. (2014) The Sound Book: The Science of the Sonic Wonders of the World. W. W. Norton & Company.

Próteses e Implantes

Kates, J. M. (1998) Signal Processing for Hearing Aids. Kluwer Academic Publishers.

Dillon, H. (2001) Hearing aids. Boomerang press, Sydney.

Clark, G. (2003) Cochlear Implants: Fundamentals and applications. Springer.

Zeng, F. G., Popper, A. N., and Fay, R. R. (2003) Cochlear Implants: Auditory prostheses and electrical hearing. Springer

Martin, F. N. and Clark, J. G. (2006) Introduction to Audiolog