Return to list
Corpora orais
Heliana Mello | Universidade Federal de Minas Gerais

O que são corpora orais

Corpora orais compõem uma tipologia específica dentro do universo da Linguística de Corpus (LC). Comecemos por indicar o que se entende por corpus no contexto específico da LC. Um corpus é um conjunto de dados linguísticos, coletados a partir de ocorrências naturais de uso, acessível em formato digital e passível de leitura por um computador. Um corpus deve ter, previamente à sua compilação, um planejamento de forma a torná-lo representativo daquilo que se deseja estudar, seja um fenômeno linguístico específico, uma variedade linguística, um período histórico de uma língua, dentre outras possibilidades. Corpora idealmente devem também ser balanceados, i.e., devem trazer em sua composição amostras balanceadas das diferentes tipologias que os integram.

Um corpus oral, portanto, deve retratar algum aspecto relevante para o estudo da língua assim como falada. Note-se que um corpus oral, na acepção da LC, difere de um banco de dados de fala (database) ou de um conjunto de dados de fala (data set). Na literatura internacional costuma-se distinguir Speech Corpus de Spoken Corpus. O primeiro engloba dados experimentais coletados seja para fins de análises fonéticas finas, ou aplicações industriais e tecnológicas, geralmente ligadas ao reconhecimento e síntese de fala. Já o segundo tipo é coletado com o propósito de se estudar a linguagem humana de um ponto de vista estritamente linguístico, bem como para aplicações voltadas para processos comunicacionais, para o ensino de língua materna e estrangeira, produção de materiais como gramáticas, dicionários, dentre outros. Neste verbete o nosso foco é em corpora de fala do segundo tipo (Spoken Corpora) – ou seja, corpora de fala para fins de estudos linguísticos – que aqui chamaremos de corpora orais.

Há diferentes objetivos para a compilação de corpora orais, que influenciam diretamente o nível de variação dos distintos diassistemas que integram a língua. Assim, pode-se favorecer a variação diafásica (favorecendo-se estudos pragmáticos), a diatópica (favorecendo-se estudos dialetais), a diastrática (favorecendo-se estudos sociolinguísticos) e a diamésica (favorecendo-se os estudos multimodais). É certo que os diassistemas não são excludentes e quanto mais bem planejado e financiado for o corpus, maiores são as chances de se representarem múltiplos fenômenos, abrindo-se a possibilidade para estudos com focos e objetivos variados. Sempre que possível, o planejamento de um corpus oral deve tirar máximo proveito da documentação da variabilidade da fala, de forma a que o corpus possa, de fato, ser representativo das interações orais in natura, fornecendo aos pesquisadores maiores possibilidades de se estudar a linguagem humana empiricamente, como de fato acontece na experiência humana real.

Corpora orais encampam coletas efetuadas em contextos interacionais preferencialmente naturais, englobando a fala espontânea em contexto natural, midiático, telefônico, dentre outros. Há exigências metodológicas específicas associadas à coleta de dados de um corpus oral. Assim, num corpus de fala natural não devem constar coletas resultantes de experimentos gravados em laboratórios fonéticos, da leitura de um texto ou frases pré-planejadas, ou de um mesmo texto lido por diversos falantes. A fala atuada (novelas, sitcoms, peças de teatro, recitações) também não configura o tipo de material normalmente desejado em corpora orais.

Gerações de corpora orais

Corpora orais podem ser tipificados através dos avanços tecnológicos que permitem a sua caracterização em pelo menos três cenários distintos, dependentes do tipo de dados disponibilizados ao usuário final. Na terceira década do século XXI estamos entrando no quarto cenário de desenvolvimento.

A primeira geração de corpora orais disponibilizou apenas as transcrições das gravações dos dados coletados originalmente. Assim, a única possibilidade de estudo era aquela caracterizada pelo estudo da fala através da escrita. Apesar da grande contribuição representada por essa primeira geração de corpora orais à sua época, a sua utilidade nos dias atuais é obviamente muito limitada e apresenta um viés da escrita que metodologicamente não é mais aceitável. Das contribuições feitas nessa primeira geração, um exemplo de referência é o London-Lund Corpus of Spoken British English, cuja compilação foi iniciada em 1959 por Randolph Quirk com o projeto Survey of English Usage na University College of London, sucedido nesta missão em 1983 por Sydney Greebaum.  Em 1975, Jan Svartvik iniciou o projeto Survey of English Usage na University of Lund. Os dois projetos resultaram na composição do corpus London-Lund.

A segunda geração de corpora orais trouxe dados disponibilizados através de arquivos de som e suas respectivas transcrições. Apesar do avanço representado em relação à primeira geração de corpora orais, pelo passo metodológico de disponibilização de arquivos de som, ele é considerado insuficiente atualmente. Para grandes quantidades de dados é literalmente impossível a um pesquisador buscar nos arquivos de som o que está presente nos arquivos de transcrição. Em termos de tempo e custo, essa operação é inviável e relega aos interessados efetuar o necessário alinhamento entre arquivos de som e suas respectivas transcrições. Um exemplo de corpus de fala de segunda geração é o corpus francês Corpus de Français Parlé Parisien des années 2000 (CFPP), compilado por Branca-Rosoff et al. nos anos 2000.

A terceira geração de corpora orais traz além dos arquivos de som e suas respectivas transcrições, os arquivos de alinhamento síncrono som/texto (MELLO et al., 2021). O ganho metodológico desse tipo de corpus é enorme, uma vez que possibilita ao pesquisador, acesso imediato ao cotejamento dos segmentos dos arquivos de produção de fala que são do seu interesse, com as suas respectivas transcrições. Para tal alinhamento, realizado manualmente, são utilizados software especializados, como ELAN e Praat, dentre outros. O alinhamento automático som/texto de grandes quantidades de dados de fala ainda não é viável com acurácia garantida, apesar dos avanços que têm sido alcançados, como por exemplo, com o WEBMaus (Strunk & Seifart, 2014). Nesta geração de corpora temos, como exemplo: SBCSAE (DU BOIS et al., 2001-2005), C-ORAL-ROM (CRESTI & MONEGLIA, 2005), C-ORAL-BRASIL (RASO & MELLO, 2012), CorpAFroAs (METTOUCHI et al., 2015).

A quarta geração de corpora orais traz além dos arquivos de som, suas transcrições e alinhamentos áudio/texto, gravações das imagens das cenas interativas e seu alinhamento temporal com os demais arquivos. Este tipo de corpus tem um custo ainda mais alto que os que o antecederam, além de grandes desafios metodológicos, ainda não resolvidos. Dentre estes figuram o número e posicionamento de câmeras para a filmagem de cenas interativas naturais, além da necessidade do desenvolvimento de esquemas específicos de anotação gestual e seu alinhamento com o fluxo da fala e suas transcrições escritas. Isso leva à consequente escassez de exemplos desse tipo de corpus, da sua pouca variação situacional e interacional passíveis de serem representadaa e do seu tamanho ainda muito reduzido. As gravações são, via de regra, feitas em laboratórios através de entrevistas e contação de histórias. Há gravações feitas em salas de aula, quando as limitações tecnológicas se mostram ainda mais agudas porque as capturas de câmera e de gravadores geralmente ficam altamente prejudicadas, exibindo baixa acuidade acústica e de imagens. Esses corpora são também conhecidos como corpora multimodais e podem ser exemplificados pelo Corpus HuComTech (Hungarian Multimodal Corpus), um corpus multimodal de mais de 50 horas de gravação de entrevistas com 112 participantes. As gravações foram feitas em ambiente de laboratório, equipado com múltiplas câmeras e microfones, e capturaram postura, gestos manuais, expressões faciais, movimento ocular, além das características acústicas da fala. O HuComTech possui 47 camadas de anotação, resultantes de anotações manuais e semi-automáticas.

Passos metodológicos para a compilação de corpora orais

Há passos metodológicos fundamentais para a compilação de corpora orais, bem como há também escolhas a serem feitas, dependendo dos objetivos de um dado projeto e os recursos disponíveis à sua equipe (MELLO, 2014).

Conforme já indicado, um corpus de fala pressupõe grande e complexo planejamento que antecede a sua compilação. Muitos corpora planejados, ou até mesmo iniciados, nunca são concluídos, dadas as dificuldades já mencionadas de custo e percalços na manutenção de grandes equipes, que levam à suspensão de projetos e os deixam inacabados. É necessário que seja estabelecido o propósito e a exequibilidade de um projeto de corpus de fala antes do início da sua coleta; a partir daí uma série de decisões sobre o seu planejamento precisam ser tomadas. A infraestrutura básica necessária à compilação de dados de fala inclui gravadores portáteis e microfones de boa qualidade (sem fio, de preferência, para garantir a mobilidade dos falantes) e pode incluir console de mixagem, além de câmeras para a filmagem de cenas, no caso de corpora que incluam sessões multimodais.

Todos os participantes das gravações devem ter ciência dos objetivos do projeto no qual se inserem os dados coletados e devem assinar termos de consentimento. Nos dias atuais não são aceitáveis gravações secretas e sem consentimento dos participantes. Na nossa experiência como compiladores de corpora orais, uma vez que se utilizem instrumentos de gravação pouco intrusivos e portáteis, após alguns minutos de interação, os participantes tendem a não se incomodar com a presença dos equipamentos e passam a uma interação natural e espontânea, principalmente se estão empenhados em alguma tarefa, para além da simples interação conversacional. Como exemplo de como se pode obter grande nível de acionalidade linguística e naturalidade interativa, recomendamos a checagem da variação diafásica obtida no corpus C-ORAL-BRASIL, no qual se alcançou qualidade acústica de nível bom a excelente em situações interacionais diversificadas, como partida de jogo de futebol, garçons interagindo com convidados de festa ao servi-los, aula de direção gravada dentro de um automóvel, dentre outras situações emblemáticas de acionalidade.

É preciso que sejam definidos os critérios para a transcrição, comumente de base ortográfica (evita-se a transcrição fonética, que melhor se aplica a amostras pequenas, dedicadas a estudos fonéticos mais minuciosos). Mesmo que a transcrição seja de base ortográfica, é preciso serem considerados: turnos de fala, interrupções, sobreposições, falsos inícios, trechos inaudíveis, pausas preenchidas, dentro outros fenômenos característicos da fala que se deseja tornar estudáveis através de localização e extração automática. É preciso que se estabeleçam as unidades de segmentação do fluxo discursivo.  A segmentação prosódica que delimita unidades entoacionais e enunciados é um imprescindível nível de anotação de um corpus oral e é requisito indispensável para o alinhamento síncrono som/texto (cf. MONELIA; CRESTI, 1997). Outros níveis de anotação podem ser acrescentados, dependendo dos objetivos do projeto. Assim pode-se acrescentar anotação prosódica para além da segmentação, transcrição fonética, além de anotações comuns também a corpora escritos, como PoS, parsing, lematização, anotação semântica, dentre outras. Os diferentes níveis de anotação podem ser combinados em um mesmo arquivo, o que limita a usabilidade do corpus; ou podem ser mantidos em camadas distintas, ou até mesmo, arquivos distintos.

O formato dos arquivos de um corpus é relevante, bem como a sua codificação, havendo diversas opções. Os formatos mais comuns são TXT e XML. Essa escolha é relevante para as buscas e contagens automáticas que venham a ser feitas, e até mesmo para a legibilidade do corpus por diferentes ferramentas especializadas.

A documentação do corpus deve ser minuciosa e um fluxograma pode ser feito a fim de garantir que todos os passos previstos no planejamento sejam cumpridos. Para tal, é necessário que todas as etapas da execução do projeto sejam validadas. Por exemplo, a qualidade das gravações deve ser checada e assegurada, a equipe de transcrição e segmentação deve ser treinada seguindo exatamente os mesmos critérios e o texto transcrito e segmentado deve passar por revisores qualificados que assegurem a qualidade e corrijam possíveis erros para que se possam reduzi-los, já que nenhum tipo de anotação e revisão, seja manual ou automático, alcança 100% de acerto (cf. WISSLER et. Al., 2014). O objetivo deve ser alcançar o que se considera o padrão-ouro. A consistência nas etapas previstas e a uniformidade da sua execução são cruciais para assegurar a qualidade de um corpus oral. Sempre que possível, a validação da qualidade dos resultados alcançados pode ser feita através de testes estatísticos de concordância entre transcritores, segmentadores e anotadores.

Uma tarefa metodológica importante é a organização dos metadados de cada gravação. O tipo de padrão de codificação de metadados varia, mas o seu conteúdo deve incluir especificações tais como: características identitárias dos participantes da gravação (faixa etária, nível educacional, procedência, etc), local da gravação, descrição da cena da gravação, quaisquer intercorrências ou informações que ajudem na compreensão do contexto de interação gravado. Outros elementos que podem constar dos metadados dizem respeito a fenômenos vocalizados, mas não lexicalizados, como tosse e imitação de ruídos, descrição de gestos com potencial ilocucionário, eventos não linguísticos com possibilidade de intervir na gravação, mudança na qualidade vocal, dentre outros. Quanto maior o detalhamento dos metadados, maiores as chances de a interação ser bem compreendida em seus aspectos pragmáticos e interacionais, o que se reflete nos estudos a serem posteriormente conduzidos, inclusive por pesquisadores que utilizem os dados, mas não participaram diretamente da sua coleta. A usabilidade do corpus se amplia dessa maneira e o torna mais útil à comunidade científica.

Por fim, a acessibilidade ao corpus é um aspecto metodológico a ser planejado. Mais e mais, os preceitos da ciência aberta estimulam que corpora sejam disponibilizados gratuitamente para download e consultas. O tipo de consulta a ser feita requer levar-se em conta as características do corpus e as suas camadas de anotação. Idealmente, diferentes níveis de anotação e aspectos catalogados nos metadados devem ser combinados e cruzados, possibilitando assim uma ampla gama de buscas aos mais diversos fenômenos linguísticos. Naturalmente, os arquivos de som devem igualmente estar disponíveis para consulta e download, para além dos dados transcritos e anotados. Para consultas mais minuciosas e específicas, frequentemente é necessário que o pesquisador tenha um bom nível de destreza em programação e desenvolva scripts que atendam às suas necessidades individuais de pesquisa.

Dificuldades e perspectivas

A primeira grande dificuldade encontrada na compilação de corpora orais é o seu custo, tanto em termos de recursos financeiros, quanto de tempo e de equipe. Corpora orais demandam um longo período de tempo entre o seu planejamento, a sua gravação, o tratamento dos arquivos de som, via processos subsequentes de transcrição, segmentação e anotação, em grande medida, feitos manualmente ou semi-automaticamente, até poder ser disponibilizado à comunidade. O custo de corpora orais deveria ser um grande estímulo à cooperação entre equipes e à reutilização o mais ampla possível dos corpora disponíveis.

A falta de protocolos e padrões internacionalmente acordados e adotados torna o universo dos corpora orais extremamente heterogêneo. Grandes dificuldades encontradas na utilização de corpora orais são a variedade de critérios de compilação e anotação, formatos e a falta de interoperabilidade entre diferentes sistemas de anotação e buscas em corpora.

A falta de documentação adequada (critérios de compilação e anotação explicitados, metadados) praticamente impede a reutilização de corpora orais, uma vez que os usuários não dispõem de elementos fundamentais para que se efetuem análises linguísticas significativas.

Além disso, a disponibilização de corpora orais não é trivial. Alguns projetos fazem a disponibilização de corpora em seus sites; estes, entretanto requerem manutenção ao longo do tempo e atualização de formatos para que a usabilidade dos arquivos disponibilizados possa ser garantida, já que formatos tornam-se obsoletos e são substituídos no eixo do tempo.


Exemplos de portais de recursos, corpora orais e bancos de fala

CLARIN
https://www.clarin.eu/resource-families/spoken-corpora#introduction

Open SLR
https://www.openslr.org/resources.php

TalkBank
https://www.talkbank.org/

Exemplos de ferramentas utilizadas no tratamento e anotação de corpora orais

ELAN < https://archive.mpi.nl/tla/elan >: ferramenta de anotação de arquivos de áudio e vídeo, permite a criação de diversas camadas de anotação e sua sincronização com os arquivos originais de áudio e vídeo.

EMU Speech Database Management System <http://ips-lmu.github.io/EMU.html>:  O MEU-SDMD é um conjunto de ferramentas para a criação, manipulação e análise de base de dados de fala.  Suas principais características são o processamento de dados acústicos e articulatórios, anotações sequenciais e hierárquicas com e sem alinhamento temporal, processamento de sinal, ferramenta de anotação, interface do R para análises diversas.

PRAAT <https://www.fon.hum.uva.nl/praat/>: conjunto de ferramentas para análise e síntese de fala. Permite o desenvolvimento de experimentos auditivos, criação de gráficos e geração de estatísticas, dentre outras propriedades.

WEBMaus < https://www.bas.uni-muenchen.de/Bas/BasMAUS.html#webmaus>: aplicação web de alinhamento automático de arquivos de som com a sua transcrição textual, oriunda do projeto Munich Automatic Segmentation System.

Exemplos de corpora orais  

CorpAfroAs
http://corpafroas.tge-adonis.fr/ 

Corpus de Français Parlé Parisien des années 2000 (CFPP)
https://cocoon.huma-num.fr/exist/crdo/meta/cocoon-8bc96a4e-9899-30e4-99be-c72d216eb38b?lang=en

C-ORAL-BRASIL
https://www.c-oral-brasil.org/

C-ORAL-ROM 
https://catalogue.elra.info/en-us/repository/browse/ELRA-S0172/

HuComTech Corpus (Corpus Multimodal)
https://tla.nytud.hu/ds/asv/?1

London-Lund Corpus of Spoken British English:
http://korpus.uib.no/icame/manuals/LONDLUND/INDEX.HTM
http://hdl.handle.net/20.500.12024/0168

Santa Barbara Corpus of Spoken American English
https://www.linguistics.ucsb.edu/research/santa-barbara-corpus

Bibliografia Básica

Branca-Rosoff S., Fleury S., Lefeuvre F., Pires M., 2012, "Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000).

Chafe, W. Integration and involvement in speaking, writing, and oral literature. In Spoken and Written Language: Exploring Orality and Literacy, ed. D. Tannen, 35–53. Norwood, New Jersey: Ablex Publishing Corporation. 1982.

Emanuela, Cresti, and Massimo Moneglia. C-oral-rom: Integrated Reference Corpora for Spoken Romance Languages. Amsterdam: J. Benjamins, p. 235-256, 2005.

Du Bois, John W., Wallace L. Chafe, Charles Meyer, Sandra A. Thompson, Robert Englebretson, and Nii Martey. Santa Barbara corpus of spoken American English, Parts 1-4. Philadelphia: Linguistic Data Consortium. 2000-2005. 

Gut, U.  Spoken Corpora. In Paquot, M., Gries, S. (Eds.), A Practical Handbook of Corpus Linguistics. Switzerland: Springer. 2020.

Halliday, M.A.K. Spoken and Written Modes of Meaning, Comprehending Oral and Written Language. San Diego, CA: Academic Press. 1987.

Hunyadi, Laszlo; Tamás Váradi, István Szekrényes, György Kovács, Hermina Kiss and Karolina Takács. Human-human, human-machine communication: on the HuComTech multimodal corpus. Selected papers from the CLARIN Annual Conference 2018. Linköping Electronic Conference Proceedings 159: 56–65. 2019

Mello, H. Methodological issues for spontaneous speech corpora compilation. In Raso, T. & Mello, H. (eds). Amsterdam/Philadelphia: John Benjamins, p. 27-68, 2014.

Mello, Heliana, Amina Mettouchi, Marianne Mithun, Alessandro Panunzi, and Tommaso Raso. Prosody and Corpora. Cadernos de Linguística. 2:1, 2021.

Moneglia, M.; Cresti, E. L´intonazione e i criteri di trascrizione del parlato adulto e infantile. In: Bortolini, U. – Pizzuto, E. Il Progetto CHILDES Italia. Pisa: Del Cerro, 1997, pp. 57-90.

Raso, T. & Mello, H. C-oral-Brasil I: corpus de referência do português brasileiro falado informal. Belo Horizonte: EDUFMG. 2012.

Ruhi, ¸S., Haugh, M., Schmidt, T., and Wörner, K. (eds.) Best Practices for Spoken Corpora in Linguistic Research. Newcastle upon Tyne: Cambridge Scholars Publishing. 2014.

Stenström, A.-B., G. Andersen, and I.K. Hasund. Trends in Teenage Talk: Corpus Compilation, Analysis and Findings. Amsterdam: John Benjamins Publishing Company. 2002.

Svartvik, Jan (ed), The London Corpus of Spoken English: Description and Research. Lund Studies in English 82. Lund University Press, 1990.

Thompson, P. (2004) Spoken Language Corpora in Wynne, M. (ed.) Developing Linguistic Corpora: a Guide to Good Practice. Disponível online: https://users.ox.ac.uk/~martinw/dlc/chapter5.htm

Wissler, Lars; Almashraee, Mohammed; Monett, Dagmar; Paschke, Adrian. The Gold Standard in Corpus Annotation. 5th IEEE Germany Student Conference At: Passau, Germany. 2014. DOI:10.13140/2.1.4316.3523.

Bibliografia avançada

Durand, J., Gut, U., and Kristoffersen, G. (eds.) 2014. Oxford Handbook of Corpus Phonology. Oxford: Oxford University Press.

Hunyadi, Laszlo. Uncertainty in Conversation: Its Formal Cues Across Modalities and Time In: Szekrényes, István; Hunyadi, Laszlo (eds.) The Temporal Structure of Multimodal Communication Cham : Springer International Publishing (2020) pp. 113-135.

Laszlo Hunyadi, István Szekrényes (eds) The Temporal Structure of Multimodal Communication: Theory, Methods and Applications. Intelligent Systems Reference Library 164. Springer. 2020.

Pápay, K., Szeghalmy, S., and Szekrényes, I. (2011). Hucomtech multimodal corpus annotation. Argumentum 7, 330–347. Disponível online: http://argumentum.unideb.hu/2011-anyagok/works/PapayK_SzeghalmySz_SzekrenyesI.pdf

Raso, T., & Mello, H. (Eds.). Spoken corpora and linguistic studies. Amsterdam/Philadelphia: John Benjamins. 2014. 

Strunk J, Schiel F, Seifart F (2014): Untrained Forced Alignment of Transcriptions and Audio for Language Documentation Corpora using WebMAUS. In: Proceedings of the Nineth International Conference on Language Resources and Evaluation (LREC'14), Editors: Calzolari N, Choukri Kh, Declerck Th, DoÄŸan M U, Maegaard B, Mariani J, Odijk J and Piperidis St, European Language Resources Association (ELRA):Paris, France, isbn: 978-2-9517408-8-4. Disponível online: https://www.bas.uni-muenchen.de/forschung/publikationen/StrunkSchielSeifart_LREC2014.pdf