Taxa de elocução e taxa de articulação em <i>corpus</i> utilizado na perícia de Comparação de Locutores

Gonçalves, Cintia Schivinscki

doi:10.15448/1984-7726.2017.1.25540

Resumo:

Neste estudo verificou-se a taxa de elocução (TE) e de articulação (TA), bem como a adequação do uso dessas medidas temporais na perícia de Comparação de Locutores. Calculou-se a TE/TA global e local média nas amostras de fala espontânea questionada (interceptações telefônicas judicialmente autorizadas realizadas sem a ciência dos locutores) e padrão (entrevista semidirigida gravada com o consentimento dos locutores) de sete falantes nativos do português brasileiro, de ambos os sexos, com idades entre 14 e 33 anos. Definiu-se o potencial individualizante da TE/TA e a relação entre essas e as variáveis independentes idade, sexo, escolaridade, tempo transcorrido entre as amostras (gap temporal), tipo de gravação e tamanho do intervalo de fala. Como resultado obteve-se coeficiente de correlação intraclasse satisfatório associado à TA, diferença significativa quanto à ciência da gravação na TE e correlação significativa entre gap temporal e TA e entre tamanho do intervalo de fala e TE.

Palavras-chave:
Taxa de elocução; Taxa de articulação; Fonética forense; Comparação de Locutores

Abstract:

This study examined the speech rate (SR) and the articulation rate (AR), as well as the appropriateness of the use of these temporal measures in the forensic Speaker Comparison. The global and local mean SR/AR in spontaneous speech samples - obtained from unaware audio recordings (legally authorized telephone interceptions) and known ones (semistructured interview) - from seven native speakers of Brazilian Portuguese, of both sexes, aged between 14 and 33 years were considered. The speaker-discriminating power of SR and AR and the relationship between rates and the independent variables age, sex, formal education, temporal gap between the recordings, type of recording, length of speech stretch were defined. As a result we obtained satisfactory intraclass correlation coefficient for the AR, significant difference between the factors of the variable type of recording in SR and significant correlation between temporal gap and AR and between length of speech stretch and SR.

Keywords:
Speech rate; Articulation rate; Forensic phonetics; Speaker Comparison

Sobre a Perícia de Comparação de Locutores

A Comparação de Locutores é um dos tipos de perícia realizado na área de Fonética Forense, compreendendo o confronto entre duas amostras de fala com vistas a definir se essas foram produzidas por um único indivíduo, ou seja, se elas têm uma mesma origem. Nela, coteja-se o perfil de voz e fala do locutor questionado (aquele que se deseja conhecer a identidade) com o do locutor suspeito da autoria, elencando-se os parâmetros indicativos de convergência e de divergência entre as amostras.

Quanto aos elementos técnico-comparativos considerados no exame, são consolidados ao menos dois posicionamentos: o primeiro concernente à inexistência de parâmetro capaz de, de maneira isolada, identificar inequivocamente um falante e, o segundo, relativo à necessidade de se ter por base na expressão dos resultados tanto a resposta quanto à existência de convergência/divergência entre as amostras (similitude) quanto o potencial discriminante dos parâmetros que compõem o corpo probatório (tipicidade).

Sobre as medidas do tempo de fala

Apesar de ser um elemento variável na fala, especialmente na fala espontânea, sujeito inclusive a modificações intencionais, as medidas de emprego do tempo na fala têm indicação de uso na perícia de Comparação de Locutores (CAO e WANG, 2011CAO, Honglin; WANG, Yingli. A forensic aspect of articulation rate variation in Chinese. In: XVII ICPhS, Proceedings. Hong Kong, 2011. p. 396-399.; ERIKSSON, 2012ERIKSSON, Anders. Aural/Acoustical vs. Automatic Methods in Forensic Phonetic case Work. In: NEUSTEIN, Amy; PATIL, Hemant A. Forensic Speaker Recognition: Law Enforcement and Counter-terrorism New York: Springer-Werlag, 2012.; FRENCH e HARRISON, 2007FRENCH, Peter; HARRISON, Philip. Position Statement concerning use of impressionistic likelihood terms in forensic speaker comparison cases. The International Journal of Speech, Language and the Law, v. 14, n. 1, p. 137-144, 2007.; FRENCH et al., 2010FRENCH, Peter; NOLAN, Francis; FOULKES, Paul; HARRISON, Philip; McDOUGALL, Kirsty. The UK position statement on forensic speaker comparison: a rejoinder to Rose and Morrison. The International Journal of Speech, Language and the Law, v. 17, n. l, p. 143-152, 2010.; GOLD, 2012GOLD, Erica. Articulation rate as a discriminant in forensic speaker comparisons. In: UNSW Forensic Speech Science Conference, Proceedings. Sydney, 2012.; GOLD e FRENCH, 2011GOLD, Erica; FRENCH, Peter. International practices in forensic speaker comparison. International Journal of Speech, Language and the Law, v. 18, n. 2, p. 293-307, 2011.; HOLLIEN, 2002HOLLIEN, Harry. Forensic Voice Identification. London: Academic Press, 2002.; JESSEN, 2007JESSEN, Michael. Forensic Reference Data on Articulation Rate in German. Science & Justice, v. 47, n. 2, p. 50-67, 2007.; KÜNZEL, 1997KÜNZEL, Hermann J. Some General Phonetic and Forensic Aspects of Speaking Tempo. International Journal of Speech, Language and the Law, v. 4, n. 1, p. 48-83, 1997. e ROSE, 2002ROSE, Philip. Forensic Speaker Identification. London: Taylor & Francis, 2002.). Tal indicação pode ser atribuída ao fato de que alguns indivíduos, além de manifestarem taxas associáveis a contextos comunicativos específicos, falam habitualmente mais rápido ou mais lento do que outros (MEIRELES e BARBOSA, 2009MEIRELES, Alexsandro Rodrigues; BARBOSA, Plínio Almeida. O papel da taxa de elocução nos processos dinâmicos de mudança lingüística. Revista (con) textos linguísticos (UFES), v. 3, p. 91-116, 2009.; TSAO et al., 2006TSAO, Ying Chiao; WEISMER, Gary; IQBAL, Kamran. Interspeaker Variation in Habitual Speaking Rate: Additional Evidence. Journal of Speech, Language, and Hearing Research, v. 49, p. 1156-1164, 2006. e TSAO e WEISMER, 1997TSAO, Ying Chiao; WEISMER, Gary. Interspeaker Variation in Habitual Speaking Rate: Evidence for a Neuromuscular Component. Journal of Speech, Language, and Hearing Research, v. 40, p. 858-866, 1997.). Tais diferenças individuais devem-se, segundo Jacewicz et al. (2010)JACEWICZ, Ewa; FOX, Robert Allen; WEI, Lai. Between-Speaker and Within-Speaker Variation in Speech Tempo of American English. Journal of the Acoustical Society of America, v. 128, n. 2, p. 839-850, 2010. e Eefting (1988)EEFTING, Wieke. Temporal Variation in Natural Speech: Some Explorations. In: 7th FASE Symposium, Proceedings. Edinburgh, 1988. p. 503-507., ao caráter individualizante da velocidade dos gestos articulatórios, assim como ao uso singular da prosódia e das pausas no discurso.

No Brasil, os peritos em Fonética Forense que incluem em suas análises a verificação do tempo de fala, avaliam-no, normalmente, de forma impressionística, expressando qualitativamente o que de oitiva constatam. Os resultados consideram uma escala que classifica globalmente o tempo de fala habitual do sujeito, através do julgamento subjetivo de parecença com o que seria uma taxa normal de fala, uma taxa rápida ou uma taxa lenta, o que não só denota a carência de cientificismo no emprego do parâmetro no mencionado tipo de perícia, como evidencia a necessidade de se ajustar os métodos de mensuração do tempo de fala então utilizados para outros fins ao contexto (e limitações) da aplicação forense.

Sobre a pesquisa desenvolvida

Neste estudo, observou-se o comportamento das duas medidas temporais de fala mais difundidas - a taxa de elocução (doravante simplesmente TE) e a taxa de articulação (doravante simplesmente TA), em fala espontânea produzida em conversação ao telefone (gravada sem a ciência dos locutores do diálogo, por isso “gravação não avisada”) e presencialmente (gravada com a ciência dos locutores do diálogo, exatamente para fins de confronto pericial, por isso “gravação avisada”)¹ 1 O desenvolvimento do estudo contou com a autorização administrativa do Instituto-Geral de Perícias, órgão da Secretaria da Segurança Pública do Estado do Rio Grande do Sul (Ofício nº 1815/2009-DG/IGP) e com a carta de aprovação junto ao Comitê de Ética em Pesquisa da Pontifícia Universidade Católica do Rio Grande do Sul (OF.CEP-1107/10). ^,² 2 A díade interceptação telefônica/gravação ambiental constitui, no Brasil, o par situacional prevalentemente submetido à perícia de Comparação de Locutores. . O corpus considerado conta com amostras de fala já utilizadas em perícias com resultado positivo para o confronto forense, perfazendo pares de áudios questionado/padrão de sete indivíduos falantes do português brasileiro (doravante PB), todos vinculados à prática delituosa e integrantes do banco de dados do órgão pericial oficial do Estado do Rio Grande do Sul.³ 3 No Brasil, diferentemente do que ocorre em alguns outros países, a perícia criminal está exclusivamente a cargo do Estado, cabendo à iniciativa privada somente a participação autónoma como Perito Judicial (nomeado pelo juiz) ou Assistente Técnico (contratado pela parte).

Na presente investigação, admite-se a perspectiva em que a TE é o número de unidades linguísticas constantes em um turno de fala dividido pela duração do mesmo, no caso da TE local, ou o resultado da soma das unidades linguísticas constantes nos diversos turnos de fala do locutor no diálogo dividido pelo resultado da soma das respectivas durações, no caso da TE global. Já a TA, é concebida como sendo o número de unidades linguísticas constantes em um intervalo de fala antecedido e sucedido por pausas silenciosas (de duração adiante definida) dividido pela duração do mesmo, no caso da TA local, ou o resultado da soma das unidades linguísticas constantes nos diversos intervalos interpausais do locutor no diálogo dividido pelo resultado da soma das respectivas durações, no caso da TA global.

As escolhas teórico-metodológicas

O procedimento de mensuração de tempo de fala proposto implica o posicionamento teórico-metodológico quanto, ao menos, às seguintes questões: (a) qual unidade linguística utilizar no cálculo (se sentença, palavra, sílaba, unidade VV⁴ 4 A unidade VV é “[…] constituída por uma vogal e todos os segmentos assilábicos que a seguem, independentemente da fronteira silábica, até o onset da vogal seguinte […]” (BARBOSA, 2006, p.30). , mora, segmento ou outra); (b) qual o status a ser atribuído à unidade selecionada (se fonético, fonológico, ortográfico ou outro); (c) qual a abrangência da análise (se global e/ou local); (d) qual o tipo de material de fala examinado (se espontâneo ou não, condições de gravação e forma de eliciação); (e) qual a conduta adotada com relação às pausas silenciosas (cutoff point), às pausas preenchidas e à fala disfluente e (f) qual o tipo e tamanho do intervalo de fala admitido para análise.

Nesse sentido, optou-se pela consideração de um único tipo de unidade de contagem para ambas as taxas investigadas - a sílaba. Considerando que a maioria dos estudos sobre TE e TA expressa seus resultados em sílabas por segundo e que é difundido o uso da sílaba fonética (CAO e WANG, 2011CAO, Honglin; WANG, Yingli. A forensic aspect of articulation rate variation in Chinese. In: XVII ICPhS, Proceedings. Hong Kong, 2011. p. 396-399.; DANCOVIČOVÁ, 1997DANKOVIČOVÁ, Jana. The Domain of Articulation Rate in Czech. Journal of Phonetics, v. 25, p. 287-312, 1997. e 2001DANKOVIČOVÁ, Jana. The Linguistic Basis of Articulation Rate Variation in Czech. Forum Phoneticum, v. 71, 2001.; HEWLETT e REND ALL, 1998HEWLETT, Nigel; RENDALL, Monica. Rural Versus Urban Accent as an Influence on the Rate of Speech. Journal of International Phonetic Association, v. 28, p. 63-71, 1998.; JACEWICZ et al., 2009JACEWICZ, Ewa; FOX, Robert Allen; O'NEILL, Caitlin; Salmons, Joseph. Articulation Rate Across Dialect, Age, and Gender. Language Variation and Change, v. 21, p. 233-256, 2009. e 2010JACEWICZ, Ewa; FOX, Robert Allen; WEI, Lai. Between-Speaker and Within-Speaker Variation in Speech Tempo of American English. Journal of the Acoustical Society of America, v. 128, n. 2, p. 839-850, 2010.; JESSEN, 2007JESSEN, Michael. Forensic Reference Data on Articulation Rate in German. Science & Justice, v. 47, n. 2, p. 50-67, 2007.; KENDAL, 2009KENDALL, Tyler. Speech Rate, Pause, and Linguistic Variation: An Examination Through the Sociolinguistic Archive and Analysis Project. (Doctoral Dissertation) - Duke University, Durham, 2009.; ROBB et al., 2004ROBB, Michael P; MACLAGAN, Mergaret A.; CHEN, Yang. Speaking Rates of American and New Zealand Varieties of English. Clinical Linguistics & Phonetics, v. 18, n. 1, p. 1-15, 2004. e TSAO e WEISMER, 1997TSAO, Ying Chiao; WEISMER, Gary. Interspeaker Variation in Habitual Speaking Rate: Evidence for a Neuromuscular Component. Journal of Speech, Language, and Hearing Research, v. 40, p. 858-866, 1997.), assumiu-se no cálculo das taxas aqui examinadas a perspectiva fonética de sílaba, as quais, após auditivamente percebidas, têm a presença definida (manual e isoladamente)⁵ 5 Por se tratar de fala verdadeiramente naturalística, previu-se que o grande número de fenômenos adversos à eficiente detecção silábica automatizada conduziria a um alto índice de erros de marcação (tanto falsos positivos quanto falsos negativos) e, por consequência, a um exaustivo trabalho de conferência, optando-se então pela detecção manual. em razão da existência, à inspeção acústica, de ao menos um dos vestígios vocálicos associados às vogais plenas (silábicas) ou de “pistas remanescentes do gesto vocálico” (MENESES, 2012MENESES, Francisco de Oliveira. As vogais desvozeadas no português brasileiro: investigação acústico-articulatória. 2012. 123 f. Dissertação (Mestrado em Linguística) - Instituto de Estudos da Linguagem, UNICAMP, Campinas, 2012.).

A diferenciação entre os vocoides silábicos [i, u] e os correspondentes não silábicos [j, w], não computáveis para fins de cálculo das taxas estudadas, foi estabelecida a partir da observação de trecho estável no segundo formante do segmento (F2), critério indicado por Padgett (2008)PADGETT, Jaye. Glides, vowels, and features. Lingua, v. 118, p. 1937-1955, 2008.. Os alongamentos vocálicos foram contados como uma sílaba quando imersos no texto, em visível ênfase, e como pausa preenchida, quando utilizados como partícula preenchedora associada à situação de hesitação. Os alongamentos consonantais de fricativa, no entanto, foram acostados ao núcleo silábico antecedente ou seguinte, de acordo com a emissão, não tendo sido computados como unidade na contagem.

Reitera-se que a fala avaliada é espontânea, como na prática forense, e advêm dois tipos de gravação: uma delas de diálogo ao telefone celular entre locutores conhecidos ou que ao menos desenvolvem atividades ilícitas afins, gravado sem a ciência dos locutores que dele participam, sem rotina predefinida ou ingerência de terceiros e obtido por meio de interceptação telefônica judicialmente autorizada e, a outra, de diálogo presencial entre um acusado e um ou mais peritos, em coleta técnica de padrão vocal para fins periciais⁶ 6 A gravação avisada é recolhida pelos próprios peritos em procedimento de coleta técnica de padrão vocal, procedimento que compreende um prólogo sobre o procedimento a ser realizado (estando os locutores frente a frente, com o microfone em pedestal de mesa localizado a pouca distância do fornecedor do padrão), gravação de fala espontânea sobre tema de interesse do fornecedor do material (sendo comuns relatos sobre história de vida pessoal e sobre as circunstâncias de eventuais aprisionamentos), atentando-se para que haja mínima interferência dos peritos. , em registro ambiental nos moldes de uma entrevista semidirigida, na qual o locutor é solicitado a discorrer livremente sobre sucessivos temas de seu interesse ou propostos, com ocasionais interpelações, estando todos os presentes cientes e, salvo exceções, cooperativos.

Cabe salientar que o tratamento dado à pausa é de especial interesse no cálculo da TA (taxa por conceito pausa-excludente). Considerando que os intervalos de silêncio promovidos pela pausa silenciosa podem ser atribuídos inadvertidamente ao tempo não vocalizado necessário para reposicionamento dos articuladores (pausa articulatória), toma-se indispensável a definição criteriosa do limiar temporal para diferenciação entre a pausa silenciosa e a articulatória. Neste estudo, admitiu-se 130ms como cut-off point, em razão de ser esse o limiar adotado em três obras específicas (DANCOVIČOVÁ, 1997DANKOVIČOVÁ, Jana. The Domain of Articulation Rate in Czech. Journal of Phonetics, v. 25, p. 287-312, 1997. e 2001DANKOVIČOVÁ, Jana. The Linguistic Basis of Articulation Rate Variation in Czech. Forum Phoneticum, v. 71, 2001. e HIEKE et al., 1983HIEKE, Adolf E.; KOWAL, Sabine; O'CONNEL, Daniel C. The Trouble with “Articulatory” Pauses. Language and Speech, v. 26, Part 3, 1983.) e de que o mesmo é um valor intermediário entre os referidos nas demais bibliografias consultadas. Já as pausas preenchidas, foram admitidas como material de fala útil no cálculo da TE (quando denotando expressividade) e descartadas como não útil no cálculo da TA. Considerando que a produção oral disfluente (repetições, alongamentos e/ou falsos começos) é prevalentemente não admitida como material de fala útil para fins de cálculo da TA e que a sua transcrição é árdua e morosa, pois implica inúmeras revisões, essa foi admitida exclusivamente para fins de cálculo na TE.

No que se refere ao tipo de intervalo de fala a ser submetido ao exame local, em razão de figurar entre os objetivos do presente estudo a verificação da existência de diferença significativa entre as formas de mensuração (global/local média) e entre os tipos de taxa (TE/TA), considerando-se, ainda, que nos diálogos a maior unidade linguística produzida pelo locutor-alvo é o turno de fala e que o tipo de intervalo mais utilizado no cálculo da TA é o intervalo interpausal, admitiu-se que o método em questão contemplaria o cálculo global e local das taxas e teria como intervalo de fala a ser submetido ao cálculo da TE/TA, respectivamente, o turno de fala e o intervalo interpausal. Quanto ao tamanho do intervalo de fala a ser considerado, há na literatura tanto referência à redução das mencionadas taxas quando admitidos no exame intervalos de fala muito curtos como quanto à aceleração da taxa tipicamente associado à produção de enunciados longos (JACEWICZ et al., 2010JACEWICZ, Ewa; FOX, Robert Allen; WEI, Lai. Between-Speaker and Within-Speaker Variation in Speech Tempo of American English. Journal of the Acoustical Society of America, v. 128, n. 2, p. 839-850, 2010.; JESSEN, 2007JESSEN, Michael. Forensic Reference Data on Articulation Rate in German. Science & Justice, v. 47, n. 2, p. 50-67, 2007.; MILLER et al., 1984MILLER, Joanne L.; GROSJEAN, François; LOMANTO, Concetta. Articulation Rate and Its Variability in Spontaneous Speech: A Reanalysis and Some Implications. Phonetica, v. 41, p. 215-225, 1984. e TROUVAIN, 2004TROUVAIN, Jürgen. Tempo Variation in Speech Production: Implications for Speech Synthesis. Saarbrücken: Institute of Phonetics, Saarland University, 2004. (PHONUS 8).). Em razão de ser um valor médio dentre os referidos e o adotado em um dos estudos de concepção mais próxima (JESSEN, 2007JESSEN, Michael. Forensic Reference Data on Articulation Rate in German. Science & Justice, v. 47, n. 2, p. 50-67, 2007.), assumiu-se nesta pesquisa o número de quatro sílabas como tamanho mínimo de intervalo de fala para fins de cálculo da TE/TA. Quanto ao possível viés gerado pelo tamanho máximo do enunciado, planejou-se a verificação da correlação existente entre os valores de TE/TA empregados pelos sujeitos pesquisados e as durações dos respectivos intervalos de fala.

As variáveis do estudo

São variáveis dependentes neste estudo a TE e a TA. Como independentes, tem-se as variáveis extralinguísticas idade, sexo, escolaridade, gap temporal e tipo de gravação⁷ 7 A variável tipo de gravação (a despeito de ter seus fatores denotando claramente a ciência/não ciência acerca da gravação) foi enquadrada como extralinguística, por compreender espaço de variação estilística que opõe, segundo Labov (1972), fala casual e espontânea. ^,⁸ 8 Devido à impossibilidade de acesso ao histórico linguístico dos locutores cuja fala é interceptada, a maior parte deles previsivelmente com exposição linguística diferenciada devido aos ocasionais aprisionamentos, a variável dialeto não pode ser contemplada. e a variável linguística tamanho do intervalo de fala. Para que fosse possível a observação das variações das taxas entre os participantes da pesquisa, foi incluída, ainda, a variável “sujeito”, enquadrada como não linguística.

Com relação às variáveis admitidas, ressalta-se que em razão da não contemporaneidade das gravações, os sujeitos apresentam uma idade associada à gravação não avisada e outra à gravação avisada e que o não pareamento do número dos sujeitos quanto ao sexo deve-se à existência de prevalência, ao menos no Brasil, de homens como autores de crimes relacionados a tráfico de drogas e homicídio. Pontua-se, ainda, que não foi encontrado no levantamento bibliográfico realizado estudo precedente sobre TE e/ou TA que tenha considerado as variáveis escolaridade, gap temporal e tipo de gravação denotando a ciência de estar sendo gravado. No entanto, observa-se na casuística da perícia criminal em registros de áudio que a escolaridade dos sujeitos tende a ser restrita e que na Comparação de Locutores a existência gap temporal entre as gravações confrontadas e a não ciência da gravação questionada por parte do locutor-alvo são compulsórias.

Síntese do procedimento de cálculo das TEs/TAs

A seleção dos sujeitos, caracterizados na Figura 1, valeu-se da amostragem por conveniência, pois a estratificação encontrava-se limitada às características do conteúdo armazenado no banco de dados utilizado.

Figura 1
Dados dos sete sujeitos selecionados para participação no estudo.

Nota: Os valores mínimos e máximos de escolaridade, idade e gap temporal aparecem destacados por sombreamento.

No trabalho foram utilizados os softwares de análise acústica Adobe Audition (versão 2.0) e Praat (versão 5.3.23) e os com recursos de análise estatística PASW Statistics (versão 18) e Microsoft Excel (versão 2003); além de fones de ouvido marca Roland (modelo RH-200), placa de captura de som marca Edirol (modelo UA-25), microfone cardioide marca Shure (modelo SM58) e pedestal de mesa.

Aos sinais de áudio vincularam-se cinco grades de texto, como ilustrado na Figura 2, que alocavam, de cima para baixo, a identificação dos turnos úteis de fala do locutor-alvo; a degravação e definição das sílabas constantes nos turnos de fala úteis, admitidos para cálculo da TE; a explicitação numérica da quantidade de sílabas em cada turno de fala útil; a identificação dos intervalos interpausais úteis e a exposição numérica da quantidade de sílabas presentes nos intervalos interpausais úteis, admitidos para cálculo da TA.

Figura 2
Exemplar da etiquetagem utilizada no procedimento do estudo.

Os turnos de fala exclusiva do locutor-alvo foram avaliados qualitativamente, tendo sido identificadas cinco situações que lhe denotavam caráter inservível: ininteligibilidade total ou parcial ou qualidade acústica que impede o estabelecimento da existência de algum segmento ou do(s) limite(s) do(s) segmento(s) fronteiriços; ocorrência de vocalização(ões) não linguísticas como riso, tosse, pigarro ou clique labial prévio ao início da emissão de fala; número de sílabas inferior ao mínimo estabelecido; falha na transmissão telefónica e existência de impedimento ético à divulgação (conteúdo capaz de levar à identificação civil do(s) locutor(es) do diálogo ou de outro por eles referido).

Cada um dos turnos de fala identificados como úteis foi submetido à transcrição alfabética da versão implementada da fala (tendo-se registrado a aplicação de processos envolvendo apagamento ou inserção de segmento ou sílaba), recorrendo-se à transcrição fonética local apenas quando a informação fosse capaz de interferir na especificação quantitativa de sílabas existentes no turno de fala sob exame.

No preparo do material a ser utilizado no cálculo da TA, foram examinados todos os turnos de fala úteis visando localizar e delimitar as pausas. O procedimento de descarte de intervalos, nos moldes do da TE, acrescendo-se apenas a restrição à fala disfluente, foi efetuado, assim como o apontamento numérico do total de sílabas presentes em cada intervalo interpausal considerado útil.

A fim de realizar o cálculo das taxas nos intervalos de fala transportaram-se, do Praat para tabelas do Excel, as listas de dados com o número de sílabas e a respectiva duração de intervalo de fala. Calculou-se a TE/TA global nos dois tipos de gravação de cada um dos sete sujeitos (através da divisão do resultado da soma do número de sílabas em todos os turnos de fala ou intervalos interpausais pelo resultado da soma da duração dos mesmos), assim como a taxa local nos 1.287 intervalos de fala (através da divisão do número de sílabas em cada intervalo de fala pela respectiva duração), sendo 539 turnos de fala e 748 intervalos interpausais, e a taxa local média (através da média aritmética das taxas individualmente obtidas).

Resultados obtidos

A observação local das taxas estudadas é prevalentemente representada neste estudo através da média aritmética das tomadas individuais. A inclusão da variável tamanho do intervalo de fala, no entanto, demanda a consideração das múltiplas tomadas locais (539 turnos de fala e 748 intervalos interpausais), razão pela qual o tratamento estatístico realizado considerou valores globais, locais médios e locais individuais de taxa. Na Tabela 1 é exibido o resultado da análise univariada, que informa quanto à tendência central, variabilidade das taxas e normalidade dos dados.

Thumbnail

Tabela 1
Resumo estatístico relativo às quatro variáveis de resposta do estudo

Quanto ao tipo de taxa, observa-se que as médias da TE são menores do que as da TA, condição prevista na literatura e atribuída logicamente à maior duração do intervalo de fala, provocada pelas pausas e eventos de disfluência constantes exclusivamente no material de fala considerado para cálculo da TE. Conforme a variância, o desvio padrão e a amplitude, a TE apresenta variabilidade destacadamente maior do que a TA, embora a diferença entre os tipos de taxa nas formas de mensuração análogas, segundo o Teste F realizado, seja não significativa (razão entre a TE global e a TA global: F=0,284; G1 1=13; G1 2=13 e p=0,539 e entre a TE local média e a TA local média: F=0,279; G1 1=13; G1 2=13 e p=0,526). A amplitude, que tem valores mais altos associados à TE, corrobora a maior variabilidade deste tipo de taxa.

Quanto à forma de mensuração, tanto na TE quanto na TA são menos variáveis os resultados obtidos a partir da média das mensurações locais se comparados aos obtidos por meio da mensuração global. De acordo com o Teste F (razão entre a TE global e a TE local média: F=1,025; G11=13; G12=13 e p=0,4 83 e entre TA global e a TA local média: F=1,018; G11=13; G12=13 e p=0,487) e a correlação intrataxa realizados (visualizada na Tabela 2), no entanto, tal diferença é não significativa, mostrando-se essas duas formas de mensuração fortemente correlacionadas. Já o Teste t para amostras pareadas por forma de mensuração (global e local média), nos dois tipos de taxa, conforme visualizado na Tabela 3, evidenciou diferença significativa entre as duas formas de mensuração (ao nível de 5%) no caso da TE, não sendo o mesmo observado, contudo, no caso da TA.

Thumbnail

Tabela 2
Correlação entre as formas de mensuração das taxas pesquisadas

Thumbnail

Tabela 3
Teste t para amostras pareadas quanto à forma de mensuração

Quanto ao sexo e tipo de gravação, evidenciou-se, conforme visualizado respectivamente nas Tabelas 4 e 5, a ausência de diferença significativa (ao Teste t) entre os fatores da variável sexo (valor de p>0,05) em ambas as taxas estudadas, independente da forma de mensuração, e a presença de diferenças significativas (α=5%) entre os fatores da variável tipo de gravação na TE global e local média, diferentemente do que se observa na TA, em que, independente da forma de mensuração, o tipo de gravação tem associado níveis descritivos de teste maiores que 0,05 (TA global com valor de p=0,192 e TA local média com valor de p=0,176).

Thumbnail

Tabela 4
Estatísticas descritivas e Teste t para amostras independentes por sexo

Thumbnail

Tabela 5
Estatísticas descritivas e Teste t para amostras pareadas por tipo de gravação

Tendo-se, ainda, o sexo e o tipo de gravação como fonte de variação, realizou-se a análise de variância (ANOVA de dois fatores) das TEs/TAs globais e locais médias das duas gravações dos sete sujeitos. Os resultados, respectivamente apontados nas Tabelas 6 e 7, evidenciam diferença significativa (ao nível de 1%) exclusivamente no que se refere à variável tipo de gravação na TE, independente da forma de mensuração, achado concordante com o apresentado nas Tabelas 4 e 5.

Thumbnail

Tabela 6
Análise de variância da TE global e local média quanto ao sexo e tipo de gravação

Thumbnail

Tabela 7
Análise de variância da TA global e local média quanto ao sexo e tipo de gravação

O comportamento das médias das TEs e das TAs, globais e locais médias, nos dois tipos de gravação, por sexo, é mais facilmente compreendido através dos respectivos gráficos de médias marginais, apresentados na Figura 3. De maneira geral, observa-se que, independente do sexo, são empregadas menores taxa quando há ciência da gravação, o que é caracterizado pela inclinação descendente das oito retas apresentadas (cujos extremos referem, da esquerda para a direita, a média obtida pelo sexo na gravação não avisada e na gravação avisada), e que as taxas globais e locais médias mais altas, exceto na TA global, estão associadas prevalentemente ao sexo masculino na gravação não avisada e ao sexo feminino na gravação avisada. Contudo, o exame da diferença entre as médias de TA global masculina (6,15 síl/s) e feminina (6,27 síl/s) na gravação não avisada evidenciou, de acordo com o Teste F da análise de variância das TEs e das TAs exibido nas Tabelas 6 e 7, que a diferença existente não é estatisticamente significativa.

Figura 3
Médias de TE global e local média por tipo de gravação e sexo.

Quanto à variabilidade intra e interindividual, foram verificadas as TEs/TAs globais e locais médias dos sete sujeitos pesquisados, individualmente, nos dois tipos de gravação em separado e, após, em um conjunto de dados indistinto quanto ao tipo de gravação. Os valores de taxa obtidos são apresentados na Tabela 8. Destaca-se que a variabilidade intrassujeito é indicada pelo desvio padrão da média das múltiplas tomadas locais de TE/TA e, excepcionalmente, no caso da descrição indistinta, pelo desvio padrão da média estabelecida entre a taxa (TE ou TA, em mensuração global ou local) nos dois tipos de gravação (não avisada e avisada).

Thumbnail

Tabela 8
TE e TA global e local média dos sujeitos por tipo de gravação

Quanto ao poder discriminante de indivíduo, para estimar que fração da variabilidade total das medidas decorre das variações entre os indivíduos, ou seja, o quanto de variação é previsto para o grupo e o que pode ser atribuído à variação própria do indivíduo, utilizou-se o coeficiente de correlação intraclasse (CCI)⁹ 9 O CCI é um coeficiente utilizado na verificação da reprodutibilidade dos estudos, que estima, da fração da variabilidade total, quais são devidas às variações que aconteceram entre os indivíduos. , sendo sua aplicação em estudos sociofonéticos referida por Thomas (2011)THOMAS, Erik. Sociophonetics: an introduction. New York: Palgrave Macmillian, 2011. ¹⁰ 10 O autor afirma que tal coeficiente é utilizado para determinar o grau de diferença entre conjuntos pareados de dados. . Ressalta-se que o CCI é determinado pela razão de duas somas de quadrados (intrassujeito e intersujeitos) e que na literatura sobre Reconhecimento de Locutor encontra-se referência à razão F (“F-ratio”) para estabelecimento do potencial individualizante dos parâmetros técnico-comparativos (NOLAN, 1983NOLAN, Francis. The phonetic bases of speaker recognition. Cambridge: Cambridge University Press, 1983. e ROSE, 2002ROSE, Philip. Forensic Speaker Identification. London: Taylor & Francis, 2002.), sendo essa entendida como correspondente à distribuição de probabilidade F e constituída, assim como o CCI, de uma razão entre duas variâncias independentes¹¹ 11 Conforme Nolan (1983, p. 12) “O “F ratio of analysis of variance […] é calculado através da razão entre a variância dos valores médios de um parâmetro nos falantes (variação intersujeitos) e a variância média intrassujeito”. .

As estimativas da variância intersujeitos e intrassujeito, bem como os CCIs obtidos, por tipo de taxa e forma de mensuração, são expostos na Tabela 9. Os resultados apresentados indicam que somente a TA (global e local média) alcança a desejável superioridade da variância intersujeito em relação à variância intrassujeito. A interpretação dos valores de CCI exibidos na coluna homônima corrobora a percepção de que só a TA (nas duas formas de mensuração investigadas) apresenta poder discriminatório passível de ser enquadrado como satisfatório¹² 12 Conforme Lin (1989), CCIs menores do que 0,4 apresentam pobre poder discriminatório e maiores do que 0,4, poder discriminatório satisfatório. Classificação mais detalhada, no entanto, é encontrada em Pestana e Gageiro (2003), para quem: CCIs <0,40 = pobre (reprodutibilidade), CCI ≥ 0,40 e < 0,75 = satisfatório e CCI ≥ 0,75 = excelente. . Relativamente à TE, os CCIs obtidos (inferiores a 0,2) indicam pobre poder discriminatório de indivíduo, achado condizente com o fato da variância intrassujeito ser maior do que a variância intersujeitos nesse tipo de taxa (na medida global 0,802 > 0,232 e na medida local média 0,786 > 0,224).

Thumbnail

Tabela 9
Estimativas da variância e CCI para as quatro variáveis de resposta

Quanto à idade, escolaridade e gap temporal¹³ 13 A análise da variável escalar tamanho do intervalo de fala requer a consideração das múltiplas observações locais, individualmente, e não a média das mesmas, por isso será feita em separado. , efetuou-se a correlação entre essas e as quatro variáveis de resposta admitidas (TE global, TE local média, TA global e TA local média). Segundo os resultados obtidos, exibidos na Tabela 10, inexiste correlação significativa (α=5%) entre as medidas de TE global e local média e as variáveis idade, escolaridade e gap temporal, contudo, nota-se tendência à correlação positiva entre a TE, nas duas formas de mensuração, e as variáveis escolaridade e gap temporal, e tendência à correlação negativa entre a TE e a variável idade. Quanto à TA global e local média, há correlação significativa (ao nível de 5%) entre essas e, somente, a variável gap temporal, mas tendência à correlação positiva com a variável escolaridade e à correlação negativa com a variável idade).

Thumbnail

Tabela 10
Correlação entre as taxas pesquisadas e as variáveis idade, escolaridade e gap temporal

Quanto ao tamanho do intervalo de fala, estabeleceu-se a correlação entre as TEs (539 turnos de fala úteis) e as TAs (748 intervalos interpausais úteis) e a duração temporal das respectivas 1.287 observações. O resultado alcançado indica que há, no caso das TEs, correlação significativa (α=5%) entre essas e os tamanhos de intervalo de fala (correlação de −0,340 e valor de p<0,001), diferentemente das TAs, que se mostram com esses não correlacionadas (correlação= −0,007 e valor de p= 0,844). Destaca-se que em ambos os casos, a despeito da não significância encontrada nas TAs, a correlação estimada é negativa, ou seja, o aumento no valor da TE/TA implica a redução da duração temporal do intervalo de fala.

Discussão acerca dos resultados e conclusões

A aplicação do procedimento de verificação da TE/TA em um corpus forense evidenciou, como previsto, que a análise da fala espontânea (muito bem-vinda, uma vez que na comparação forense é esse o tipo de material utilizado pelos peritos) é extremamente complexa. No desenvolvimento do trabalho, diversas circunstâncias para as quais não se encontrou na literatura argumento robusto e/ou apontamento de conduta a ser admitida, tiveram de ser enfrentadas. Nesse sentido, pode-se citar, ao menos, a situação das vogais com configurações acústicas não tão óbvias; os alongamentos segmentais não associados à disfluência, mas sim a ênfases típicas da fala espontânea e o impasse quanto ao acolhimento ou não da pausa preenchida no material a ser submetido ao cálculo da TA. A disfluência foi encontrada como elemento altamente recorrente nos corpora dos sujeitos pesquisados, merecendo cuidadosa abordagem, uma vez que a produção de segmentos consonantais desacompanhada de vogais agrega tempo à duração total do intervalo de fala, afetando diretamente o resultado da taxa (diminuindo-a).

Quanto ao objetivo geral de investigar o potencial individualizante da TE/TA com vistas à verificação da efetividade da incorporação dessas ao rol de parâmetros técnico-comparativos utilizados na realização da perícia de Comparação de Locutores, a análise da variabilidade inter e intrassujeito da TE/TA apontou a inexistência de diferença intersujeito significativa. Contudo, considerando que os níveis de significância do teste são consideravelmente menores para a TA (nas duas formas de mensuração), infere-se que havendo um conjunto amostrai maior mais facilmente encontrar-se-ão diferenças significativas na TA do que na TE, o que vai ao encontro do CCI de satisfatório poder discriminatório obtido na TA e de pobre poder discriminatório obtido na TE. Ao considerar-se, ainda, que a TA mostrou-se a taxa intraindividualmente mais estável, tem-se que ela é, segundo os dados de amostras forenses analisados, o tipo de taxa mais indicado para utilização na Comparação de Locutores. A despeito da não significância encontrada no caso da TA no que se refere à forma de mensuração, tem-se como mais proveitoso, posto ser menos variável, o emprego da média das observações locais.

A TE média dos sete sujeitos amalgamados mostrou-se inferior à TA média assim também obtida (5,37 síl/s < 6.20 síl/s)¹⁴ 14 Resultado da média aritmética entre as taxas globais e locais médias apresentadas na Tabela 1. . achado condizente com o apontado na literatura, tendo sido claramente observado durante a aplicação do procedimento de cálculo das TEs dos sujeitos o impacto causado pelos trechos de pausa.

A variável idade evidenciou correlação não significativa com a TE e com a TA, nas duas formas de mensuração, mas tendência concordante com o apregoado na literatura (JACEWICZ et al., 2009JACEWICZ, Ewa; FOX, Robert Allen; O'NEILL, Caitlin; Salmons, Joseph. Articulation Rate Across Dialect, Age, and Gender. Language Variation and Change, v. 21, p. 233-256, 2009.; RAMIG, 1983RAMIG, Lorraine A. Effects of Physiological Aging on Speaking and Reading Rates. Journal of Communication Disorders, v. 16, p. 217-226, 1983.; VERHOEVEN et al., 2004VERHOEVEN, Jo; DE PAUW, Guy; KLOOTS, Hanne. Speech Rate in a Pluricentric Language: A Comparison Between Dutch in Belgium and the Netherlands. Language and Speech, v. 47, n. 3, p. 297-308, 2004. e YUAN et al., 2006YUAN, Jiahong; LIBERMAN, Mark; CIERI, Chistopher. Towards an Integrated Understanding of Speaking Rate in Conversation. In: International ` on Spoken Language Processing, Proceeding. Pittsburgh, 2006.) e com o aqui admitido, de diminuição das taxas à medida que aumenta a idade do indivíduo. Tal comportamento, no entanto, diferentemente do previsto, não se confirmou quanto ao gap temporal (cujo aumento está associado ao avanço na idade do indivíduo), observando-se, nesse caso, significativamente na TA e em nível de tendência na TE, que o aumento do tempo existente entre a gravação não avisada e avisada dos sujeitos conduz ao aumento da TE e da TA¹⁵ 15 A referida discrepância entre o comportamento das variáveis idade e gap temporal pode dever-se ao limitado número de dados, assim como a não estratificação da idade. De fato, a correlação de Pearson realizada entre as variáveis mostrou-se não significativa (p = 0,656), entretanto, a consideração de uma amostra maior e mais equilibrada permitiria verificar a hipótese de existência de um comportamento não linear (supõe-se, em parábola), envolvendo as variáveis idade e gap temporal em relação às taxas estudadas (TE e TA). .

A variável sexo apresentou variância não significativa tanto na TE quanto na TA, nas duas fornias de mensuração (global e local média), divergindo, em primeira análise, da hipótese de trabalho (formulada a partir de Hewlett e Rendall 1998HEWLETT, Nigel; RENDALL, Monica. Rural Versus Urban Accent as an Influence on the Rate of Speech. Journal of International Phonetic Association, v. 28, p. 63-71, 1998.; Jacewicz et al., 2009JACEWICZ, Ewa; FOX, Robert Allen; O'NEILL, Caitlin; Salmons, Joseph. Articulation Rate Across Dialect, Age, and Gender. Language Variation and Change, v. 21, p. 233-256, 2009. e 2010JACEWICZ, Ewa; FOX, Robert Allen; WEI, Lai. Between-Speaker and Within-Speaker Variation in Speech Tempo of American English. Journal of the Acoustical Society of America, v. 128, n. 2, p. 839-850, 2010.; Kendal, 2009KENDALL, Tyler. Speech Rate, Pause, and Linguistic Variation: An Examination Through the Sociolinguistic Archive and Analysis Project. (Doctoral Dissertation) - Duke University, Durham, 2009. e Verhoeven et al., 2004VERHOEVEN, Jo; DE PAUW, Guy; KLOOTS, Hanne. Speech Rate in a Pluricentric Language: A Comparison Between Dutch in Belgium and the Netherlands. Language and Speech, v. 47, n. 3, p. 297-308, 2004.). Ao se verificar possíveis diferenças no comportamento do grupo por sexo em razão do tipo de gravação, no entanto, encontraram-se, em nível de tendência, na gravação não avisada, os homens como os falantes com maiores taxas. O achado sugere que na fala verdadeiramente naturalística, confirma-se o apontamento prevalente na literatura: a preponderância do sexo masculino na aplicação de maiores valores de taxas (TEs e TAs). Na gravação avisada (e, excepcionalmente, na mensuração global da TA), contudo, foram as mulheres que apresentaram as maiores taxas, superioridade encontrada também por Syrdal (1996)SYRDAL, Ann K. Acoustic Variability in Spontaneous Conversational Speech of American English Talkers. In: ICSLP, Proceedings. Philadelphia, 1996. p. 438-441. e Yuan et al. (2006)YUAN, Jiahong; LIBERMAN, Mark; CIERI, Chistopher. Towards an Integrated Understanding of Speaking Rate in Conversation. In: International ` on Spoken Language Processing, Proceeding. Pittsburgh, 2006. em dados provenientes de gravação de conversação telefónica consentida.

A variável tipo de gravação mostrou-se significativa à análise de variância, nas duas formas de mensuração da TE, o que não ocorreu com a TA, embora em ambos os casos (tanto na TE quanto na TA) tenha se confirmando, em nível de tendência, a previsão de que a ciência de estar sendo gravado interfere na taxa empregada pelo indivíduo, diminuindo-a.

A variável escolaridade apresentou correlação não significativa com as quatro variáveis de resposta (TE/TA global e TE/TA local média), tendência contrária à hipótese formulada de que o sujeito mais instruído exerceria mais controle sobre a própria fala, pois a partir dos corpora dos sujeitos pesquisados o aumento da escolarização conduziu ao aumento de ambas as taxas, nas duas formas de mensuração. Tratando-se de variável, até onde se tem conhecimento, inédita, cabe o aprofundamento da verificação de sua interferência no uso do tempo de fala.

A variável tamanho do intervalo de fala mostrou correlação significativa com as TEs (globais e locais médias), mas não com as TAs (independente da forma de mensuração), evidenciando, no entanto, tendência condizente com o previsto em hipótese (o aumento da duração do intervalo de fala, seja ele um turno de fala ou um intervalo interpausal, conduz ao aumento do tempo de fala nele empregado).

Os comportamentos não previstos encontrados naturalmente desencadeiam questionamentos, ainda pendentes de resposta cientificamente fundamentada: Por que somente na TE a forma de mensuração, o tipo de gravação e o tamanho do intervalo de fala são significativos? Por que somente na TA o gap temporal é significativo? Por que o aumento da escolaridade tende a fazer aumentar a TE e a TA? Por que os homens tendem a controlar mais do que as mulheres as suas TEs e TAs quando sabem que estão sendo gravados?

Os resultados permitem concluir que é a TA, em mensuração local média, o tipo de taxa mais indicado para uso na Comparação de Locutores, pois essa é menos variável, apresenta um melhor poder discriminante de indivíduo se comparado à TE e se mostra resistente ao condicionamento gerado (na TE) pelo tipo de gravação e tamanho do intervalo de fala. É possível concluir, ainda, quanto à importância de se primar pela máxima contemporaneidade entre as amostras de fala cotejadas, assim como pela adoção de providências que minimizem o impacto da ciência da gravação, de elementos referentes ao estilo de fala próprio a cada um dos tipos de gravação confrontados e de eventuais incrementos na escolarização que venham a ocorrer durante o gap temporal existente entre as amostras utilizadas.

1
O desenvolvimento do estudo contou com a autorização administrativa do Instituto-Geral de Perícias, órgão da Secretaria da Segurança Pública do Estado do Rio Grande do Sul (Ofício nº 1815/2009-DG/IGP) e com a carta de aprovação junto ao Comitê de Ética em Pesquisa da Pontifícia Universidade Católica do Rio Grande do Sul (OF.CEP-1107/10).
2
A díade interceptação telefônica/gravação ambiental constitui, no Brasil, o par situacional prevalentemente submetido à perícia de Comparação de Locutores.
3
No Brasil, diferentemente do que ocorre em alguns outros países, a perícia criminal está exclusivamente a cargo do Estado, cabendo à iniciativa privada somente a participação autónoma como Perito Judicial (nomeado pelo juiz) ou Assistente Técnico (contratado pela parte).
4
A unidade VV é “[…] constituída por uma vogal e todos os segmentos assilábicos que a seguem, independentemente da fronteira silábica, até o onset da vogal seguinte […]” (BARBOSA, 2006BARBOSA, Plínio Almeida. Incursões em tomo do ritmo da fala. Campinas: Pontes Editores, 2006., p.30).
5
Por se tratar de fala verdadeiramente naturalística, previu-se que o grande número de fenômenos adversos à eficiente detecção silábica automatizada conduziria a um alto índice de erros de marcação (tanto falsos positivos quanto falsos negativos) e, por consequência, a um exaustivo trabalho de conferência, optando-se então pela detecção manual.
6
A gravação avisada é recolhida pelos próprios peritos em procedimento de coleta técnica de padrão vocal, procedimento que compreende um prólogo sobre o procedimento a ser realizado (estando os locutores frente a frente, com o microfone em pedestal de mesa localizado a pouca distância do fornecedor do padrão), gravação de fala espontânea sobre tema de interesse do fornecedor do material (sendo comuns relatos sobre história de vida pessoal e sobre as circunstâncias de eventuais aprisionamentos), atentando-se para que haja mínima interferência dos peritos.
7
A variável tipo de gravação (a despeito de ter seus fatores denotando claramente a ciência/não ciência acerca da gravação) foi enquadrada como extralinguística, por compreender espaço de variação estilística que opõe, segundo Labov (1972)LABOV, William. Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press, 1972., fala casual e espontânea.
8
Devido à impossibilidade de acesso ao histórico linguístico dos locutores cuja fala é interceptada, a maior parte deles previsivelmente com exposição linguística diferenciada devido aos ocasionais aprisionamentos, a variável dialeto não pode ser contemplada.
9
O CCI é um coeficiente utilizado na verificação da reprodutibilidade dos estudos, que estima, da fração da variabilidade total, quais são devidas às variações que aconteceram entre os indivíduos.
10
O autor afirma que tal coeficiente é utilizado para determinar o grau de diferença entre conjuntos pareados de dados.
11
Conforme Nolan (1983NOLAN, Francis. The phonetic bases of speaker recognition. Cambridge: Cambridge University Press, 1983., p. 12) “O “F ratio of analysis of variance […] é calculado através da razão entre a variância dos valores médios de um parâmetro nos falantes (variação intersujeitos) e a variância média intrassujeito”.
12
Conforme Lin (1989)LIN, Lawrence I-Kuei. A concordance correlation coefficient to evaluate reproducibility. Biometrics, v. 45, n. 1, p. 255-268, 1989., CCIs menores do que 0,4 apresentam pobre poder discriminatório e maiores do que 0,4, poder discriminatório satisfatório. Classificação mais detalhada, no entanto, é encontrada em Pestana e Gageiro (2003)PESTANA, Maria Helena; GAGEIRO, João Nunes. Análise de dados para ciências sociais: a complementaridade do SPSS. 3. ed. Lisboa: Edições Sílabo, 2003., para quem: CCIs <0,40 = pobre (reprodutibilidade), CCI ≥ 0,40 e < 0,75 = satisfatório e CCI ≥ 0,75 = excelente.
13
A análise da variável escalar tamanho do intervalo de fala requer a consideração das múltiplas observações locais, individualmente, e não a média das mesmas, por isso será feita em separado.
14
Resultado da média aritmética entre as taxas globais e locais médias apresentadas na Tabela 1.
15
A referida discrepância entre o comportamento das variáveis idade e gap temporal pode dever-se ao limitado número de dados, assim como a não estratificação da idade. De fato, a correlação de Pearson realizada entre as variáveis mostrou-se não significativa (p = 0,656), entretanto, a consideração de uma amostra maior e mais equilibrada permitiria verificar a hipótese de existência de um comportamento não linear (supõe-se, em parábola), envolvendo as variáveis idade e gap temporal em relação às taxas estudadas (TE e TA).

Referências

BARBOSA, Plínio Almeida. Incursões em tomo do ritmo da fala. Campinas: Pontes Editores, 2006.
CAO, Honglin; WANG, Yingli. A forensic aspect of articulation rate variation in Chinese. In: XVII ICPhS, Proceedings. Hong Kong, 2011. p. 396-399.
DANKOVIČOVÁ, Jana. The Domain of Articulation Rate in Czech. Journal of Phonetics, v. 25, p. 287-312, 1997.
DANKOVIČOVÁ, Jana. The Linguistic Basis of Articulation Rate Variation in Czech. Forum Phoneticum, v. 71, 2001.
EEFTING, Wieke. Temporal Variation in Natural Speech: Some Explorations. In: 7^th FASE Symposium, Proceedings. Edinburgh, 1988. p. 503-507.
ERIKSSON, Anders. Aural/Acoustical vs. Automatic Methods in Forensic Phonetic case Work. In: NEUSTEIN, Amy; PATIL, Hemant A. Forensic Speaker Recognition: Law Enforcement and Counter-terrorism New York: Springer-Werlag, 2012.
FRENCH, Peter; HARRISON, Philip. Position Statement concerning use of impressionistic likelihood terms in forensic speaker comparison cases. The International Journal of Speech, Language and the Law, v. 14, n. 1, p. 137-144, 2007.
FRENCH, Peter; NOLAN, Francis; FOULKES, Paul; HARRISON, Philip; McDOUGALL, Kirsty. The UK position statement on forensic speaker comparison: a rejoinder to Rose and Morrison. The International Journal of Speech, Language and the Law, v. 17, n. l, p. 143-152, 2010.
GOLD, Erica. Articulation rate as a discriminant in forensic speaker comparisons. In: UNSW Forensic Speech Science Conference, Proceedings. Sydney, 2012.
GOLD, Erica; FRENCH, Peter. International practices in forensic speaker comparison. International Journal of Speech, Language and the Law, v. 18, n. 2, p. 293-307, 2011.
GONÇALVES, Cintia Schivinscki. Taxa de elocução e de articulação em corpus forense do português brasileiro. 192 f. 2013. Tese (Doutorado em Letras) - Faculdade de Letras, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2013.
HEWLETT, Nigel; RENDALL, Monica. Rural Versus Urban Accent as an Influence on the Rate of Speech. Journal of International Phonetic Association, v. 28, p. 63-71, 1998.
HIEKE, Adolf E.; KOWAL, Sabine; O'CONNEL, Daniel C. The Trouble with “Articulatory” Pauses. Language and Speech, v. 26, Part 3, 1983.
HOLLIEN, Harry. Forensic Voice Identification. London: Academic Press, 2002.
JACEWICZ, Ewa; FOX, Robert Allen; O'NEILL, Caitlin; Salmons, Joseph. Articulation Rate Across Dialect, Age, and Gender. Language Variation and Change, v. 21, p. 233-256, 2009.
JACEWICZ, Ewa; FOX, Robert Allen; WEI, Lai. Between-Speaker and Within-Speaker Variation in Speech Tempo of American English. Journal of the Acoustical Society of America, v. 128, n. 2, p. 839-850, 2010.
JESSEN, Michael. Forensic Reference Data on Articulation Rate in German. Science & Justice, v. 47, n. 2, p. 50-67, 2007.
KENDALL, Tyler. Speech Rate, Pause, and Linguistic Variation: An Examination Through the Sociolinguistic Archive and Analysis Project. (Doctoral Dissertation) - Duke University, Durham, 2009.
KÜNZEL, Hermann J. Some General Phonetic and Forensic Aspects of Speaking Tempo. International Journal of Speech, Language and the Law, v. 4, n. 1, p. 48-83, 1997.
LABOV, William. Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press, 1972.
LIN, Lawrence I-Kuei. A concordance correlation coefficient to evaluate reproducibility. Biometrics, v. 45, n. 1, p. 255-268, 1989.
MEIRELES, Alexsandro Rodrigues; BARBOSA, Plínio Almeida. O papel da taxa de elocução nos processos dinâmicos de mudança lingüística. Revista (con) textos linguísticos (UFES), v. 3, p. 91-116, 2009.
MENESES, Francisco de Oliveira. As vogais desvozeadas no português brasileiro: investigação acústico-articulatória. 2012. 123 f. Dissertação (Mestrado em Linguística) - Instituto de Estudos da Linguagem, UNICAMP, Campinas, 2012.
MILLER, Joanne L.; GROSJEAN, François; LOMANTO, Concetta. Articulation Rate and Its Variability in Spontaneous Speech: A Reanalysis and Some Implications. Phonetica, v. 41, p. 215-225, 1984.
NOLAN, Francis. The phonetic bases of speaker recognition. Cambridge: Cambridge University Press, 1983.
PADGETT, Jaye. Glides, vowels, and features. Lingua, v. 118, p. 1937-1955, 2008.
PESTANA, Maria Helena; GAGEIRO, João Nunes. Análise de dados para ciências sociais: a complementaridade do SPSS. 3. ed. Lisboa: Edições Sílabo, 2003.
RAMIG, Lorraine A. Effects of Physiological Aging on Speaking and Reading Rates. Journal of Communication Disorders, v. 16, p. 217-226, 1983.
ROBB, Michael P; MACLAGAN, Mergaret A.; CHEN, Yang. Speaking Rates of American and New Zealand Varieties of English. Clinical Linguistics & Phonetics, v. 18, n. 1, p. 1-15, 2004.
ROSE, Philip. Forensic Speaker Identification. London: Taylor & Francis, 2002.
SYRDAL, Ann K. Acoustic Variability in Spontaneous Conversational Speech of American English Talkers. In: ICSLP, Proceedings. Philadelphia, 1996. p. 438-441.
THOMAS, Erik. Sociophonetics: an introduction. New York: Palgrave Macmillian, 2011.
TROUVAIN, Jürgen. Tempo Variation in Speech Production: Implications for Speech Synthesis. Saarbrücken: Institute of Phonetics, Saarland University, 2004. (PHONUS 8).
TSAO, Ying Chiao; WEISMER, Gary. Interspeaker Variation in Habitual Speaking Rate: Evidence for a Neuromuscular Component. Journal of Speech, Language, and Hearing Research, v. 40, p. 858-866, 1997.
TSAO, Ying Chiao; WEISMER, Gary; IQBAL, Kamran. Interspeaker Variation in Habitual Speaking Rate: Additional Evidence. Journal of Speech, Language, and Hearing Research, v. 49, p. 1156-1164, 2006.
VERHOEVEN, Jo; DE PAUW, Guy; KLOOTS, Hanne. Speech Rate in a Pluricentric Language: A Comparison Between Dutch in Belgium and the Netherlands. Language and Speech, v. 47, n. 3, p. 297-308, 2004.
YUAN, Jiahong; LIBERMAN, Mark; CIERI, Chistopher. Towards an Integrated Understanding of Speaking Rate in Conversation. In: International ` on Spoken Language Processing, Proceeding. Pittsburgh, 2006.

Datas de Publicação

Publicação nesta coleção
Jan-Mar 2017

Histórico

Recebido
14 Out 2016
Aceito
06 Mar 2017

Este artigo está licenciado sob forma de uma licença Creative Commons Atribuição 4.0 Internacional, que permite uso irrestrito, distribuição e reprodução em qualquer meio, desde que a publicação original seja corretamente citada.

[1] 1
O desenvolvimento do estudo contou com a autorização administrativa do Instituto-Geral de Perícias, órgão da Secretaria da Segurança Pública do Estado do Rio Grande do Sul (Ofício nº 1815/2009-DG/IGP) e com a carta de aprovação junto ao Comitê de Ética em Pesquisa da Pontifícia Universidade Católica do Rio Grande do Sul (OF.CEP-1107/10).

[2] 2
A díade interceptação telefônica/gravação ambiental constitui, no Brasil, o par situacional prevalentemente submetido à perícia de Comparação de Locutores.

[3] 3
No Brasil, diferentemente do que ocorre em alguns outros países, a perícia criminal está exclusivamente a cargo do Estado, cabendo à iniciativa privada somente a participação autónoma como Perito Judicial (nomeado pelo juiz) ou Assistente Técnico (contratado pela parte).

[4] 4
A unidade VV é “[…] constituída por uma vogal e todos os segmentos assilábicos que a seguem, independentemente da fronteira silábica, até o onset da vogal seguinte […]” (BARBOSA, 2006BARBOSA, Plínio Almeida. Incursões em tomo do ritmo da fala. Campinas: Pontes Editores, 2006., p.30).

[5] 5
Por se tratar de fala verdadeiramente naturalística, previu-se que o grande número de fenômenos adversos à eficiente detecção silábica automatizada conduziria a um alto índice de erros de marcação (tanto falsos positivos quanto falsos negativos) e, por consequência, a um exaustivo trabalho de conferência, optando-se então pela detecção manual.

[6] 6
A gravação avisada é recolhida pelos próprios peritos em procedimento de coleta técnica de padrão vocal, procedimento que compreende um prólogo sobre o procedimento a ser realizado (estando os locutores frente a frente, com o microfone em pedestal de mesa localizado a pouca distância do fornecedor do padrão), gravação de fala espontânea sobre tema de interesse do fornecedor do material (sendo comuns relatos sobre história de vida pessoal e sobre as circunstâncias de eventuais aprisionamentos), atentando-se para que haja mínima interferência dos peritos.

[7] 7
A variável tipo de gravação (a despeito de ter seus fatores denotando claramente a ciência/não ciência acerca da gravação) foi enquadrada como extralinguística, por compreender espaço de variação estilística que opõe, segundo Labov (1972)LABOV, William. Sociolinguistic Patterns. Philadelphia: University of Pennsylvania Press, 1972., fala casual e espontânea.

[8] 8
Devido à impossibilidade de acesso ao histórico linguístico dos locutores cuja fala é interceptada, a maior parte deles previsivelmente com exposição linguística diferenciada devido aos ocasionais aprisionamentos, a variável dialeto não pode ser contemplada.

[9] 9
O CCI é um coeficiente utilizado na verificação da reprodutibilidade dos estudos, que estima, da fração da variabilidade total, quais são devidas às variações que aconteceram entre os indivíduos.

[10] 10
O autor afirma que tal coeficiente é utilizado para determinar o grau de diferença entre conjuntos pareados de dados.

[11] 11
Conforme Nolan (1983NOLAN, Francis. The phonetic bases of speaker recognition. Cambridge: Cambridge University Press, 1983., p. 12) “O “F ratio of analysis of variance […] é calculado através da razão entre a variância dos valores médios de um parâmetro nos falantes (variação intersujeitos) e a variância média intrassujeito”.

[12] 12
Conforme Lin (1989)LIN, Lawrence I-Kuei. A concordance correlation coefficient to evaluate reproducibility. Biometrics, v. 45, n. 1, p. 255-268, 1989., CCIs menores do que 0,4 apresentam pobre poder discriminatório e maiores do que 0,4, poder discriminatório satisfatório. Classificação mais detalhada, no entanto, é encontrada em Pestana e Gageiro (2003)PESTANA, Maria Helena; GAGEIRO, João Nunes. Análise de dados para ciências sociais: a complementaridade do SPSS. 3. ed. Lisboa: Edições Sílabo, 2003., para quem: CCIs <0,40 = pobre (reprodutibilidade), CCI ≥ 0,40 e < 0,75 = satisfatório e CCI ≥ 0,75 = excelente.

[13] 13
A análise da variável escalar tamanho do intervalo de fala requer a consideração das múltiplas observações locais, individualmente, e não a média das mesmas, por isso será feita em separado.

[14] 14
Resultado da média aritmética entre as taxas globais e locais médias apresentadas na Tabela 1.

[15] 15
A referida discrepância entre o comportamento das variáveis idade e gap temporal pode dever-se ao limitado número de dados, assim como a não estratificação da idade. De fato, a correlação de Pearson realizada entre as variáveis mostrou-se não significativa (p = 0,656), entretanto, a consideração de uma amostra maior e mais equilibrada permitiria verificar a hipótese de existência de um comportamento não linear (supõe-se, em parábola), envolvendo as variáveis idade e gap temporal em relação às taxas estudadas (TE e TA).

Medida	TE global	TE local média	TA global	TA local média
Média	5,27 (0,196)¹ 1 Desvio padrão da média;	5,47 (0,194)¹ 1 Desvio padrão da média;	6,19 (0,142)¹ 1 Desvio padrão da média;	6,20(0,141)¹ 1 Desvio padrão da média;
Variância	0,539	0,526	0,284	0,279
Desvio padrão² 2 Desvio padrão amostral;	0,734	0,725	0,533	0,528
Mínimo	4,21	4,43	5,38	5,31
Máximo	6,51	6,61	6,93	6,99
Amplitude	2,30	2,18	1,55	1,68
Assimetria	0,090	0,089	-0,231	-0,166
Curtose	-1,217	-1,310	-1,090	-1,004
Teste de normalidade^* * Teste de Shapiro-Wilk (com 14 graus de liberdade).	0,953 (0,607)³ 3 Estatística (valor de p).	0,937 (0,383)³ 3 Estatística (valor de p).	0,934 (0,347)³ 3 Estatística (valor de p).	0,962 (0.754)³ 3 Estatística (valor de p).

Par	Correlação	Valor de p (bicaudal)
Par 1 - TE global e TE local média	0,968	0,000
Par 2 - TA global e TA local média	0,987	0,000

Par	Média	Desvio padrão	Erro padrão médio	Estatística	Gl	Valor de p (bicaudal)
TE global e TE local média	-0,201	0,184	0,049	-4,091	13	0,001
TA global e TA local média	-0,016	0,084	0,023	-0,692	13	0,501

Taxa e mensuração	Sexo	N	Média	Desvio padrão	Estatística	Gl	Valor de p (bicaudal)
TE global	M	10	5,19	0,818	0,635	12	0,537
TE global	F	4	5,47	0,502	0,635	12	0,537
TE local média	M	10	5,44	0,806	0,245	12	0,811
TE local média	F	4	5,55	0,563	0,245	12	0,811
TA global	M	10	6,15	0,493	0,357	12	0,727
TA global	F	4	6,27	0,698	0,357	12	0,727
TA local média	M	10	6,18	0,514	0,259	12	0,800
TA local média	F	4	6,26	0,638	0,259	12	0,800

Par	Média	Desvio padrão	Erro padrão médio	Estatística	Gl	Valor de p (bicaudal)
Par 1 - TE global não avisada e TE global avisada	-1,176	0,508	0,192	-6,128	6	0,001
Par 2 - TE local média não avisada e TE local média avisada	-1,121	0,605	0,228	-4,906	6	0,003
Par 3 - TA global não avisada e TA global avisada	-0,281	0,506	0,191	-1,470	6	0,192
Par 4 - TA local média não avisada e TA local média avisada	-0,301	0,520	0,197	-1,533	6	0,176

Brasil

Brasil

Taxa de elocução e taxa de articulação em corpus utilizado na perícia de Comparação de Locutores

Speech rate and articulation rate in corpus used in the forensic Speaker Comparison

Resumo:

Abstract:

Sobre a Perícia de Comparação de Locutores

Sobre as medidas do tempo de fala

Sobre a pesquisa desenvolvida

As escolhas teórico-metodológicas

As variáveis do estudo

Síntese do procedimento de cálculo das TEs/TAs

Resultados obtidos

Discussão acerca dos resultados e conclusões

Referências

Datas de Publicação

Histórico

Fonte de variação	Mensuração	Gl	Média quadrática	F	Valor de p	Poder^a a Computado a partir de alpha = 0,05.
Tipo de gravação	Global	1	3,040	18,811	0,001	0,973
Tipo de gravação	Local média	1	2,761	13,102	0,005	0,902
Sexo	Global	1	0,228	1,411	0,262	0,190
Sexo	Local média	1	0,034	0,161	0,697	0,065
Tipo de gravação x sexo	Global	1	0,324	2,002	0,187	0,249
Tipo de gravação x sexo	Local média	1	0,298	1,415	0,262	0,190
Erro	Global	10	0,162	–	–	–
Erro	Local média	10	0,211	–	–	–

Fonte de variação	Mensuração	Gl	Média quadrática	F	Valor de p	Poder^a a Computado a partir de alpha = 0,05.
Tipo de gravação	Global	1	0,195	0,580	0,464	0,106
Tipo de gravação	Local média	1	0,150	0,468	0,509	0,095
Sexo	Global	1	0,039	0,115	0,741	0,061
Sexo	Local média	1	0,020	0,063	0,807	0,056
Tipo de gravação x sexo	Global	1	0,006	0,018	0,895	0,052
Tipo de gravação x sexo	Local média	1	0,082	0,255	0,625	0,074
Erro	Global	10	0,337	-	-	-
Erro	Local média	10	0,320	-	-	-

Taxa	Gravação	Mensuração	S1	S2	S3	S4	S5	S6	S7
TE	Não avisada	Global	6.51	5.89	5.92	5.72	5.49	6.22	5.26
	Não avisada	Local média (dp)	6.61 (1,42)	6.30 (1,43)	6.18(1,55)	5.58 (1,31)	5.77 (1,15)	6.41 (1,03)	5.38 (1,20)
	Avisada	Global	4.46	4.38	5.48	4.77	4.54	4.94	4.21
	Avisada	Local média (dp)	4.43 (0,98)	4.57 (0,77)	5.63 (1,16)	4.81 (1,27)	4.81 (0,92)	5.41 (1,10)	4.72(1,20)
	Geral	Global (dp)	5,48 (1,45)	5,13(1,07)	5,70 (0,31)	5,24 (0,67)	5,01 (0,67)	5,58 (0,90)	4,73 (0,74)
	Geral	Local média (dp)	5,52 (1,54)	5,43 (1,22)	5,90 (0,39)	5,19(0,54)	5,29 (0,67)	5,91 (0,71)	5,05 (0,47)
TA	Não avisada	Global	6.92	6.48	6.73	6.03	6.09	6.59	5.47
	Não avisada	Local média (dp)	6.99 (1,37)	6.58 (1,28)	6.67 (1,49)	5.92 (1,15)	6.16 (0,81)	6.64 (0,85)	5.53 (1,21)
	Avisada	Global	6.41	6.37	6.93	5.40	5.38	5.83	6.02
	Avisada	Local média (dp)	6.43 (1,01)	6.22 (0,95)	6.92 (1,09)	5.55 (0,90)	5.31 (0,74)	5.87 (0,91)	6.08(1,14)
	Geral	Global (dp)	6,66 (0,36)	6,42 (0,08)	6,83 (0,14)	5,71 (0,44)	5,73 (0,50)	6,21 (0,54)	5,74 (0,39)
	Geral	Local média (dp)	6,71 (0,40)	6,40 (0,25)	6,79 (0,18)	5,73 (0,26)	5,73 (0,60)	6,25 (0,54)	5,80 (0,39)

Taxa e mensuração	Variância intersujeito	Variância intrassujeito	CCI
TE global	0,232	0,802	0,199
TE local média	0,224	0,786	0,196
TA global	0,441	0,150	0,716
TA local média	0,415	0,161	0,688

Taxa e mensuração	Medidas	Idade	Escolaridade	Gap temporal
TE global	Correlação de Pearson	-0,251	0,177	0,169
TE global	Valor de p (bicaudal)	0,386	0,546	0,564
TE local média	Correlação de Pearson	-0,360	0,037	0,199
TE local média	Valor de p (bicaudal)	0,206	0,901	0,496
TA global	Correlação de Pearson	-0,022	0,293	0,675^* * Correlação significante ao nível de 0,05.
TA global	Valor de p (bicaudal)	0,940	0,310	0,008
TA local média	Correlação de Pearson	-0,018	0,321	0,631^* * Correlação significante ao nível de 0,05.
TA local média	Valor de p (bicaudal)	0,951	0,263	0,016