Return to list
Fonética forense
Renata Regina Passetti | PUCSP

A Fonética Forense pode ser definida como “a aplicação de conhecimentos, teorias e métodos da fonética geral em tarefas práticas que emergem da atuação policial ou da apresentação de evidências em tribunais, bem como o desenvolvimento de novos conhecimentos, teorias e métodos especificamente fonético-forenses” [1] (JESSEN, 2008, p. 671, tradução nossa).  

Embora a fala seja considerada evidência de crimes há séculos – um dos primeiros registros de crimes envolvendo uma identificação de locutor data do século XVII (cf. ERIKSSON, 2011) – apenas em 1991 o termo Fonética Forense foi reconhecido oficialmente quando da fundação da International Association for Forensic Phonetics and Acoustics (IAFPA)[2], sediada em York, Inglaterra. A criação desta associação teve papel fundamental na divulgação científica da área por meio da promoção de conferências anuais e da criação do periódico The International Journal of Speech, Language and the Law (IJSLL)[3].

A Fonética Forense é uma área interdisciplinar. A atuação na área, profissional ou em pesquisa, exige uma sólida formação em Fonética Acústica Experimental e em Fonética Perceptiva, bem como conhecimentos em outras áreas das Ciências da Fala. No Brasil, a atuação profissional na área é possível por meio de três formas principais: (1) como perito oficial, vinculado a órgãos oficiais de perícia (polícias estaduais ou federal) e cujo ingresso ocorre por meio de concursos públicos; (2) como perito judicial, por meio de nomeação ad hoc para atuação em casos específicos, atribuídos conforme a expertise do perito, e não restritos à área criminal; e (3) como assistente técnico, contratado para atuar junto à parte representada (acusação ou defesa).

Em muitos órgãos oficiais brasileiros, a Fonética Forense compõe o quadro de atuação de setores de perícias em audiovisuais e eletrônicos. Trata-se, portanto, de um setor que realiza também outros tipos de análises, não restritas a análises fonéticas, como em imagens e equipamentos eletrônicos. Por essa razão, a equipe de peritos geralmente é composta por engenheiros e outros profissionais da área de Exatas. No entanto, a importância de linguistas como parte da equipe de peritos em Fonética Forense é consenso entre os profissionais da área.

A figura do foneticista forense é comum em órgãos de perícia de nações europeias, como no Reino Unido, na Alemanha (parte da equipe de especialistas do Bundeskriminalamt's Forensic Science Institute é formada por linguistas[4]) e na Suécia. No Brasil, a atuação desses profissionais junto a órgãos oficiais apesar de ainda incipiente, caminha para um maior reconhecimento. A divulgação científica da área e a importância do profissional linguista têm sido difundidas por grupos de pesquisa vinculados a instituições de ensino superior. Entre os grupos que desenvolvem pesquisas em Fonética Forense estão o Grupo de Estudos em Fonética Forense (GEFF) da UNICAMP, o Laboratório de Fonética da UFSCar, o Laboratório Integrado de Análise Acústica e Cognição (LIAAC) da PUCSP e o Laboratório de Áudio e Fonética Acústica (LAFA) da Escola Politécnica da PUCRS (PASSETTI; ARANTES, 2021).

Nas próximas seções, apresentaremos um panorama da área de Fonética Forense. Essa visão geral contemplará (i) as principais tarefas desenvolvidas na área, (ii) os parâmetros fonético-acústicos comumente investigados e (iii) desafios tanto para a pesquisa quanto para a atuação profissional na área.

Principais tarefas da Fonética Forense

As principais tarefas da Fonética Forense estão associadas a uma área mais geral denominada “Identificação de Locutor”, cujo objetivo consiste em identificar um locutor desconhecido, por meio das características da sua voz e fala, como pertencente (ou não) a um conjunto de locutores conhecidos.

As amostras de fala relacionadas a um locutor desconhecido são denominadas questionadas, enquanto as amostras de fala relacionadas aos suspeitos são chamadas de referência ou padrão. As condições envolvidas em tarefas de identificação de locutores não são favoráveis, uma vez que geralmente o locutor não é cooperativo, não é possível estabelecer uma comparação direta entre as amostras de fala analisadas (as amostras de fala questionadas geralmente possuem baixa qualidade acústica, há presença de ruídos de fundo e o sinal acústico está degradado, enquanto as amostras de fala de referência são obtidas através de equipamentos de gravação com excelente qualidade acústica) e a comparação pode envolver conjuntos de amostras de referência abertos, isto é, não é possível garantir que o locutor desconhecido está entre os suspeitos gravados (NOLAN, 1997; ROSE, 2002).

Compõem o quadro de tarefas associadas à Identificação de Locutor a Comparação de Locutor e a elaboração de perfis de fala. Além destas, outras tarefas desempenhadas na Fonética Forense são a análise de conteúdo de áudios e o processamento digital de sinal.

Comparação de Locutor

Consiste em determinar a probabilidade de amostras de fala comparadas terem sido produzidas pelo mesmo indivíduo. Para isso, o foneticista forense deve proceder às análises linguística e acústica do material de fala com a intenção de buscar por padrões semelhantes e divergentes entre as amostras de fala questionada e de referência. Trata-se da tarefa desenvolvida com maior frequência na área de Fonética Forense

Há diferentes métodos de análise possíveis para a condução da tarefa de Comparação de Locutor, no entanto o mais indicado consiste na combinação dos métodos fonético-auditivo e fonético-acústico. Este método é denominado “híbrido/combinado” ou “acústico-auditivo” (GOLD; FRENCH, 2011; ERIKSSON, 2012).

Elaboração de Perfis de Fala

Consiste na descrição das características de voz e da fala de um indivíduo, a fim de estreitar o conjunto de possíveis suspeitos. Trata-se de uma tarefa comumente empregada quando a investigação não possui suspeitos, isto é, quando há apenas a amostra de fala questionada. Nessas situações, o foneticista forense conduz análises linguística e sociofonética nas amostras de fala questionadas para auxiliar no andamento da investigação (JESSEN, 2008).

A elaboração de um perfil de fala pode envolver a observação de características linguísticas relacionadas ao uso de elementos sintáticos e lexicais, de processos fonético-fonológicos, do emprego de pausas, hesitações, marcadores conversacionais e cliques, da presença de disfluências e de idiossincrasias articulatórias (e.g. avanço de ponta/lâmina de língua). A observação dessas características permite ao foneticista forense inferir informações sobre a proveniência regional, idade e nível de escolaridade, pertencimento a grupos, profissões, uso de substâncias químicas, etc. do locutor alvo de investigação (PASSETTI; ARANTES, 2020).

Análise do conteúdo de áudios e processamento digital de sinal

Em algumas situações forenses, o conteúdo da amostra de fala questionada pode estar severamente comprometido por motivos técnicos ou comportamentais (JESSEN, 2008). Exemplos do primeiro caso envolvem a degradação do sinal acústico relacionada, por exemplo, à análise de amostras provenientes de interceptação telefônica, de gravações obtidas em ambientes ruidosos ou de áudios captados distantes do locutor. Os aspectos comportamentais, por sua vez, podem envolver disfarces vocais, amostras de fala de locutores com alguma patologia de fala ou, ainda, a fala produzida sob efeito de substâncias químicas.

A etapa mais importante da análise do conteúdo de áudios consiste na transcrição ortográfica do teor dos áudios de interesse. Essa análise pode ser necessária ao andamento da investigação, por exemplo, para busca por pistas relacionadas a palavras específicas, nomes e endereços, ou desenvolvida como uma etapa do exame de Comparação de Locutor. O processamento digital de sinal, por outro lado, é empregado para aprimorar a inteligibilidade de um áudio com baixa qualidade acústica ou para verificar a possibilidade de ter havido edição em uma gravação e, por isso, envolve a aplicação de técnicas sofisticadas de engenharia.

Parâmetros fonético-acústicos importantes para a Fonética Forense

Frequência Fundamental 

A frequência fundamental é um parâmetro frequentemente investigado em análises fonético-forenses (cf. GOLD; FRENCH, 2011). A importância desse parâmetro no contexto forense deve-se ao seu potencial de distinção entre falantes, pois está associado à frequência de vibração das pregas vocais e é o correlato acústico da entoação. Assim, como os indivíduos possuem pregas vocais com diferentes comprimentos e massas, a vibração delas para produção de sons vozeados resulta em padrões entoacionais distintos.

Embora seja um parâmetro dependente de fatores fisiológicos, comportamentais e psicológicos, como idade, tabagismo e estado emocional (BRAUN, 1995), estudos têm demonstrado a robustez de medidas de longo termo da frequência fundamental, como é o caso do valor de base da frequência fundamental (baseline) (LINDH; ERIKSSON, 2004).

Outro fator que corrobora a utilização deste parâmetro em situações forenses é o baixo limiar de duração da amostra de fala necessário para sua estabilização, de forma que as medidas extraídas sejam consideradas confiáveis. Essa questão é central na Fonética Forense, dado que nem sempre os peritos dispõem de gravações questionadas de longa duração. Estudos sobre o tema (ARANTES; ERIKSSON, 2014; ARANTES; ERIKSSON; GUTZEIT, 2017) demonstraram que o limiar de duração das amostras de fala para estabilização da frequência fundamental varia entre 10 a 15 segundos - valores de duração considerados baixos e representativos da maioria das amostras de fala questionadas.

Frequência de Formantes

Os formantes correspondem a ondas estacionárias no trato vocal e são caracterizados por uma intensificação de energia em região de frequência devido ao fenômeno de ressonância. Além das condições físicas do meio, também são necessárias configurações específicas do trato vocal durante a formação de formantes.

Como os falantes possuem tratos vocais com órgãos de dimensão, tamanho e massa distintos, as frequências dos formantes produzidos por diferentes falantes tendem a ser distintas, o que os torna potencialmente bons candidatos para análises forenses.

Estudos na área atestam o maior potencial discriminatório de frequências de formantes mais altos, como é o caso do terceiro e quarto formantes, se comparados a frequências de formantes mais baixos, como o primeiro e segundo formantes (CAO; DELLWO, 2019; CAVALCANTI; ERIKSSON; BARBOSA, 2021). Com a popularização dos aplicativos de mensagens de áudio e o aumento de casos forenses que os utilizam como evidências em tribunais, este é um importante achado, tendo em vista a maior largura de banda das mensagens de áudios desses aplicativos comparada à largura de banda de gravações telefônicas (vide seção “Desafios da Fonética Forense”). Áudios do aplicativo WhatsApp (WhatsApp Inc., 2022), por exemplo, apresentam informação espectral até 8000 Hertz, o que possibilita a análise do terceiro e quarto formantes das vogais orais do português brasileiros e de segmentos fricativos alveolares e pós-alveolares.

Parâmetros do tempo de fala

Medidas do tempo de fala têm sido empregadas em situações fonético-forenses dado seu potencial distintivo, uma vez que demonstram variação interfalantes e estabilidade intrafalante (ERIKSSON, 2011). A preferência por essa classe de parâmetros também está relacionada a situações envolvendo gravações de baixa qualidade acústica. Nessas situações, quando a análise de parâmetros segmentais está severamente comprometida, a análise de parâmetros temporais pode apresentar-se como uma alternativa (CONSTANTINI, 2014).

Medidas que envolvem o cálculo do número de unidades de fala por unidade de tempo, como a taxa de elocução e a taxa de articulação, são comumente empregadas em exames fonético-forenses (KÜNZEL, 1997; GONÇALVES, 2017).

Qualidade de voz

Em sentido amplo, a qualidade de voz é definida como a combinação de ajustes laríngeos e supralaríngeos, de curto e longo termo, que caracterizam a fala de um indivíduo e que podem ser utilizados para fins linguísticos e paralinguísticos (LAVER, 1980). Devido a sua propriedade indexical, a qualidade de voz é portadora de informações intraespecíficas de um falante e, portanto, importante para análises fonético-forenses. Além disso, dada a baixa qualidade acústica do material de fala, a análise perceptivo-auditiva da qualidade de voz pode ser a única estratégia possível em investigações forenses (KÖSTER; KÖSTER, 2004).

Nos últimos anos, estudos têm investigado a aplicabilidade de protocolos de análise perceptivo-auditiva da qualidade de voz no contexto forense. Dentre os protocolos, destaca-se o Vocal Profile Analysis (VPA) (LAVER; WIRZ, MACKENZIE-BECK; HILLER, 1991). Trata-se de um sistema de base fonética que analisa a voz de maneira componencial, isto é, por meio de características que em conjunto contribuem para a forma como uma voz se projeta, e que possui como unidade de análise o “ajuste” (setting), relacionado a modos de configuração, extensão e tensão do trato vocal (MACKENZIE-BECK, 2005).

Esses estudos propõem modificações no VPA, como a redução do número de ajustes e da escala dos graus de ajustes não neutros, além da remoção da marcação de ajustes intermitentes, com o objetivo de amenizar problemas associados à multidimensionalidade da qualidade de voz e viabilizar o uso do VPA em diferentes contextos, além de facilitar análises de similaridade interfalantes (San Segundo; Mompean, 2017; San Segundo et al., 2019). Há também estudos que utilizam o VPA para investigar como fontes de variação extralinguísticas (e.g. transmissão telefônica) impactam a análise perceptivo-auditiva da qualidade de voz (PASSETTI; CONSTANTINI, 2019).

Desafios da Fonética Forense

As análises fonético-forenses estão suscetíveis à influência de uma grande gama de fatores linguísticos e extralinguísticos que podem prejudicar, ou até mesmo inviabilizar, seu uso em investigações. Dentre esses fatores, pode-se destacar o efeito causado pela transmissão telefônica na análise de parâmetros acústicos em segmentos vocálicos e consonantais (e.g. segmentos fricativos), uma vez que o canal telefônico possui um filtro passa-faixas que filtra o sinal acústico de 300 a 3400 Hz (KÜNZEL, 2001; BYRNE; FOULKES, 2004; PASSETTI, 2015).

A transmissão telefônica pode afetar também a avaliação perceptiva de atributos supralaríngeos, como a percepção da nasalidade, uma vez que ressonância nasal gera formante abaixo do limiar do filtro passa-baixa do telefone (i.e. 300 Hz), e laríngeos, como aqueles relacionados aos modos de fonação voz soprosa e voz crepitante, devido à presença de ruídos concomitantes à fonte sonora (NOLAN, 2005). Além disso, variações na taxa de elocução e no esforço vocal também influenciam o cálculo de frequências formânticas (ERIKSSON, 2011).

Outro desafio da perícia em Fonética Forense está relacionado à ausência de dados estatísticos sobre parâmetros fonético-acústicos de populações de referência (JESSEN, 2008; ROSE, 2002). A elaboração de bancos de dados de referência para diferentes parâmetros acústicos e sobre características de variantes sociofonéticas é de extrema importância para se avaliar o peso de um achado, isto é, de uma evidência em Fonética Forense, uma vez que permitem avaliar a tipicidade dos fenômenos linguísticos identificados numa análise fonético-forense. A noção de tipicidade diz respeito a quão típico um fenômeno linguístico ou um determinado valor de parâmetro acústico é em uma população de referência. Assim, se os valores obtidos para determinado parâmetro acústico estiverem próximos à distribuição média da população de referência para este parâmetro, o peso dessa evidência será, consequentemente, menor. A elaboração de bancos de referência está relacionada, portanto, ao potencial distintivo e individualizante de fenômenos linguísticos.

Grande parte desses desafios tem sido explorada pela literatura científica em Fonética Forense, como é o caso de pesquisas que envolvem a degradação do sinal acústico pela transmissão telefônica e por ruídos ambientais. O incentivo ao trabalho conjunto entre pesquisadores e profissionais da área por meio de parcerias entre a academia e órgãos públicos atuantes na área de Fonética Forense também é muito importante. Nesse sentido, pode-se destacar o “Protocolo Geral para Exame de Comparação de Locutor”, fruto da parceria em pesquisa entre o Grupo de Estudos em Fonética Forense da UNICAMP e a Escola Superior do Ministério Público de São Paulo, com financiamento FAPESP. Este protocolo consiste num conjunto de documentos de orientação e exemplificação, scripts de análise acústica e materiais de fala com o objetivo de auxiliar as etapas do exame de Comparação de Locutor e está disponível on-line para a comunidade científica[5].

No entanto, alguns temas ainda precisam de aprofundamento, principalmente em relação a dados do português brasileiro. Esse é o caso de estudos voltados para a elaboração de bancos de referência com amostras de populações heterogêneas em termos de gênero, faixa etária, nível de escolaridade e dialeto. Além disso, dada a rápida incorporação de novas tecnologias, é preciso também estimular pesquisas que avaliem o impacto dessas novas tecnologias em materiais de fala comumente analisados em situações forenses.

[1] No original: “the application of the knowledge, theories and methods of general phonetics to practical tasks that arise out of a context of police work or the presentation of evidence in court, as well as the development of new, specifically forensic-phonetic, knowledge, theories and methods.” (JESSEN, M. 2008, p. 671).

[2] https://www.iafpa.net/

[3] https://journals.equinoxpub.com/index.php/IJSLL

[4]https://www.bka.de/EN/TheBKA/OrganisationChart/OrganisationalUnits/ForensicScienceInstitute/forensicscienceinstitute_node.html

[5] Disponível em: <https://drive.google.com/drive/folders/1I-bcm5uVLgaiZDQpci8agkJMf2fdULXf>


Bibliografia básica

Barbosa, P.A.; Cazumbá, L.A.F; Constantini, A.C.; Machado, A.P.; Passetti, R.R.; Sanches, A.P. [Org.]. Análise Fonético-Forense: em tarefa de Comparação de Locutor. Campinas: Millennium Editora. 2020.

BARBOSA, P. A.; MADUREIRA, S.; PASSETTI, R. R.; BRESCANCINI, C. R. Fonética, que bicho é esse? Cadernos de Linguística, v. 2, p. 01-19, 2021. https://cadernos.abralin.org/index.php/cadernos/article/view/325

ERIKSSON, A. Aural/acoustic vs. automatic methods in forensic phonetic case work. In: Neustein, A.; Patil, H. A. (Orgs.). Forensic Speaker Recognition: Law Enforcement and Counter-terrorism. Nova York: Springer-Verlag New York Inc, p. 41-69, 2011.

GOLD, E; FRENCH, P. International practices in forensic speaker comparison. International Journal of Speech, Language and the Law, v. 18, n. 2, p. 293-307, 2011. 

JESSEN, M. Forensic Phonetics In: Language and Linguistics Compass 2 (4): 671-711. 2008.

NOLAN, F. Speaker Recognition and Forensic Phonetics. In: W. Hardcastle and J. Laver (eds), A Handbook of Phonetic Science. Oxford: Blackwell, 1997. 

PASSETTI, R. R.; ARANTES, P. Considerações sobre o ensino da Fonética Forense para estudantes de Letras e Linguística. Estudos Linguísticos (São Paulo. 1978), v. 50, n. 1, p. 357-383, 2021.

PASSETTI, R. R.; ARANTES, P. Iniciação à Fonética Forense. In: I Escola de Estudos Linguísticos do GEL [Minicurso]. São Carlos, SP, 2020.

ROSE, P. Forensic speaker identification. Francis & Taylor. 2002.

HOLLIEN, H. Forensic Voice Identification. London: Academic Press. 2002 

Degradação do sinal acústico

BYRNE, C.; FOULKES, P. The ‘Mobile Phone Effect’ on Vowel Formants. The International Journal of Speech, Language and the Law – Equinox Publishing, v. 17, n.1, p.83-102, 2004.

KÜNZEL, H. J. Beware of the ‘telephone effect’: the influence of the telephone transmission on the measurement of formant frequencies. In: Forensic Linguistics 8(1): 80-99, 2001.

PASSETTI, R.R. O efeito do telefone celular no sinal da fala: uma análise fonético-acústica com implicações para a verificação de locutor em português brasileiro. 2015. 106 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: <http://www.repositorio.unicamp.br/handle/REPOSIP/271133>.

Qualidade de voz

KÖSTER, O.; KÖSTER, JP. The auditory-perceptual evaluation of voice quality in forensic speaker recognition. The Phonetician, v. 89, p. 9-37, 2004.

LAVER, J. The phonetic description of voice quality. Cambridge Studies in Linguistics London, v. 31, p. 1-186, 1980.

LAVER, J.; WIRZ S., MACKENZIE-BECK J.; HILLER S.M. A perceptual protocol for the analysis of vocal profiles. In: LAVER, J. (Ed). The gift of speech. Edinburgh University Press, 1991, p. 265-280.

MACKENZIE-BECK, J. Perceptual analysis of voice quality: The place of Vocal Profile Analysis. In HARDCASTLE, W J.; MACKENZIE-BECK, J (Eds.) A Figure of Speech: A Festschrift for John Laver. Routledge, 2005. p. 285-322.

MACKENZIE-BECK, J. Vocal profile analysis scheme: A user’s manual. Edinburgh: Queen Margaret University College QMUC, Speech Science Research Centre, 2007.

NOLAN, F. Forensic speaker Identification and the phonetic description of voice quality. In HARDCASTLE, W J.; MACKENZIE-BECK, J (Eds.) A Figure of Speech: A Festschrift for John Laver. Routledge, 2005. p. 385-411.

PASSETTI, R. R.; CONSTANTINI, A. C. The effect of telephone transmission on voice quality perception. Journal of Voice, v. 33, n. 5, p. 649-658, 2019.

SAN SEGUNDO, E.; MOMPEAN, J. A. A simplified vocal profile analysis protocol for the assessment of voice quality and speaker similarity. Journal of Voice, v. 31, n. 5, p. 644. e11-644. e27, 2017.

SAN SEGUNDO, E. et al. The use of the Vocal Profile Analysis for speaker characterization: Methodological proposals. Journal of the International Phonetic Association, v. 49, n. 3, p. 353-380, 2019.

Parâmetros fonético-acústicos na Fonética Forense

ARANTES, P.; ERIKSSON, A. Temporal stability of long-term measures of fundamental frequency. In: International Conference On Speech Prosody, 7th, 2014, Dublin. Proceedings… Dublin: s.n., 2014.

ARANTES, P.; ERIKSSON, A.; GUTZEIT, S. Effect of language, speaking style and speaker on long-term f0 estimation. In: Interspeech. 2017. p. 3897-3901.

BRAUN, A. Fundamental frequency: how speaker-specific is it?. Beiträge zur Phonetik und Linguistik, v. 64, p. 9-23, 1995.

CAO, H; DELLWO, V. The role of the first five formants in three vowels of mandarin for forensic voice analysis. In: International Congress of Phonetic Sciences, Melbourne, 5 – 9 August 2019, 617-621.

CAVALCANTI, J.C.; ERIKSSON, A.; BARBOSA, P. A. Acoustic analysis of vowel formant frequencies in genetically-related and non-genetically related speakers with implications for forensic speaker comparison. Plos one, v. 16, n. 2, 2021, p. e0246645. doi: https://doi.org/10.1371/journal.pone.0246645

CONSTANTINI, A. C. Caracterização prosódica de sujeitos de diferentes variedades da fala do português brasileiro em diferentes relações sinal-ruído. Tese de Doutorado [Linguística]. Campinas, São Paulo: Biblioteca Digital da Unicamp. Disponível em: <http://www.bibliotecadigital.unicamp.br/>. 

GONÇALVES, C S. Taxa de elocução e taxa de articulação em corpus utilizado na perícia de Comparação de Locutores. Letras de Hoje, 52(1), 2017, p. 15-25. doi: https://doi.org/10.15448/1984-7726.2017.1.25540

KÜNZEL, H. J. Some general phonetic and forensic aspects of speaking tempo. Forensic Linguistics, v. 4, n. 1, p. 48–83, 1997. 

LINDH, J.; ERIKSSON, A. Robustness of Long Time Measures of Fundamental Frequency. In: Proceedings of the Interspeech 2007. Anwerp, Belgium, 27-31 August, p. 2025-2028, 2007.

Desafios da Fonética Forense

ERIKSSON, A. Tutorial on Forensic Phonetics. In: European Conference on Speech Communication and Technology, 9th, 2005, Lisboa. Proceedings... Lisboa: s.n., 2005.

ERIKSSON, A.; PASSETTI, R. R.; CAVALCANTI, J.C; BARBOSA, P.A. Open Science: the case of Forensic Phonetics. In: XII Congresso Internacional da Abralin, 2021. Disponível em: https://interab12.abralin.org/en/eventos/open-science-the-case-of-forensic-phonetics/