Margens de tolerância e valores de referência para os formantes de vogais orais para uso em terapias de voz para surdos em computador comercial

Leme, André Luis Maciel; Marcelino, Márcio Abud; Prado, Pedro Paulo Leite do

doi:10.1590/2317-1782/20162015104

RESUMO

Objetivo

Este trabalho apresenta as margens de tolerâncias mínimas e máximas para as frequências dos três primeiros formantes (F1, F2 e F3) na pronúncia das vogais orais do português brasileiro para utilização em terapias de voz para surdos.

Método

As frequências foram obtidas a partir da colaboração voluntária de 53 indivíduos adultos que tiveram as vozes gravadas e convertidas em sinais digitais durante a emissão de cada uma das sete vogais (/a/, /e/, /Ɛ/, /i/, /o/, /ᴐ/, /u/), de maneira sustentada por cerca de um segundo. As amostras foram distribuídas em dois grupos, um masculino e outro feminino. A gravação e a extração dos formantes foram efetuadas através de software próprio desenvolvido para este fim na plataforma MATLAB, utilizando o algoritmo LPC (Linear Predictive Coding) de oito coeficientes.

Resultados

Os resultados mostraram que uma referência consistente para os valores médios das frequências de F1, F2 e F3 pôde ser obtida através da análise gráfica e estatística das amostras de sinais de voz coletada.

Conclusão

Os valores de referência encontrados foram analisados e podem ser usados para calibração de dispositivos e podem servir de base para o treinamento de oralização para surdos.

Descritores:
Formantes; Oralização; Surdo; Vogais; Tolerância

ABSTRACT

Purpose

This study presents the margins of minimum and maximum tolerances for the frequencies of the first three formants (F1, F2, and F3) in the pronunciation of vowels of Brazilian Portuguese for use in voice therapy for the deaf.

Methods

The frequencies were obtained from the voluntary collaboration of 53 adults who had their voices recorded and converted into digital signals during the phonation of each of the seven vowels (/a/, /e/, /Ɛ/, /i/, /o/, /ᴐ/, /u/) sustained for approximately one second. The samples were divided into two groups: male and female. The recording and extraction of the formants were conducted by software developed exclusively for this purpose in MATLAB platform using the eight-coefficient LPC (Linear Predictive Coding) algorithm.

Results

The results showed that a consistent reference for the mean values of the F1, F2, and F3 frequencies can be obtained through graphical and statistical analysis of the samples collected from the voice signals.

Conclusion

The reference values obtained were analyzed and can be used for the calibration of devices and serve as a basis for training oralization for the deaf.

Keywords:
Formants; Oralization; Deaf; Vowels; Tolerance

INTRODUÇÃO

Indivíduos surdos apresentam dificuldade para falar pela única razão de que não conseguem ouvir, exceção se faz àqueles que apresentam algum problema no aparelho fonador que os impeça de emitir sons. Indivíduos ouvintes repetem os sons que ouvem para assim construir seu repertório oral. A capacidade de realimentação dos sons que ouvintes têm é limitada ou nula nos surdos. O presente artigo aborda essa questão considerando que o estabelecimento de frequências de referência para os três primeiros formantes dos sons das vogais pode auxiliar no treino vocal de adultos surdos que desejam aperfeiçoar ou adquirir a oralização no português brasileiro.

Na história, o sujeito surdo está envolto pela ideologia, poder e interesses ouvintistas⁽¹1 Schubert SEM, Coelho LAB. A matemática e a surdez: existem barreiras na aprendizagem da disciplina? In: X Congresso Nacional de Educação; 2011 Nov 7-10; Curitiba, PR. Anais. Curitiba: PUC-PR; 2011. p. 2087-99.⁾, termo utilizado por Skliar⁽²2 Skliar C. Uma perspectiva sócio-histórica sobre a psicologia e a educação dos surdos. Porto Alegre: Mediação; 1997.⁾ para referir que os surdos têm que seguir todos os conceitos dos ouvintes.

O surdo pode ser completamente alfabetizado em português e em LIBRAS, pode possuir a capacidade de leitura labial e ainda assim não será capaz de externar adequadamente suas ideias e pensamentos para pessoas ouvintes, analfabetas em LIBRAS, literalmente pela barreira idiomática, assim como um brasileiro que só fala seu idioma nativo teria dificuldades em ser ouvido por interlocutores russos que também só conhecem o seu idioma.

A questão da oralidade para surdos permeia a história da educação desde tempos remotos. Na antiguidade greco-romana, a fala era associada diretamente ao pensamento a ponto de considerar que o pensamento não podia se desenvolver sem o desenvolvimento da fala⁽³3 Moura MC, Lodi ACB, Harrison KMR. História e educação: o surdo, a oralidade e o uso de sinais. São Paulo: Roca; 1997.⁾. As primeiras iniciativas que buscaram uma forma de educação para surdos tiveram motivação financeira e se restringiram aos filhos de famílias mais abastadas, preocupadas com a passagem dos bens para seus descendentes surdos. Embora sem o cunho inclusivo, essas iniciativas geraram frutos por servirem de base para outros educadores que reproduziram os métodos de ensino a partir do contato com filhos surdos de famílias nobres que foram educados por estes métodos⁽⁴4 Lane H. When the mind hears: a history of the deaf. New York: Vintage Books; 1989.⁾.

Esta menção histórica à educação para surdos remete ao fato de que indivíduos surdos têm sido foco de atenção pela sua dificuldade de se comunicar com uma sociedade predominantemente ouvinte. No Brasil existem cerca de 2 milhões de surdos⁽⁵5 IBGE: Instituto Brasileiro de Geografia e Estatística. Estatísticas de gênero [Internet]; 2010 [citado em 2013, Ago 13]. Disponível em: http://www.ibge.gov.br/apps/snig/v1/?loc=0&cat=-1,-2,-3,128&ind=4648
http://www.ibge.gov.br/apps/snig/v1/?loc... ⁾, classificados como portadores de “Deficiência auditiva severa”, conforme a convenção sobre os Direitos das Pessoas com Deficiência ratificada pelo Brasil. Neste ponto, encontra-se um dos pontos causadores de divergências de opinião. O surdo não é um deficiente, ele apenas é diferente e necessita de outros meios para se comunicar. Nesse sentido, a história da educação de surdos no Brasil se confunde com a história da profissão de fonoaudiologia⁽⁶6 Nascimento LCR. Fonoaudioloia e surdez: uma análise dos percursos dircursivos da prática fonoaudiológica no Brasil [dissertação]. Campinas: Universidade Estadual de Campinas, Faculdade de Educação; 2002.⁾. Em linhas gerais, esse profissional é aquele que tem o primeiro contato com a surdez, juntamente com o médico. O papel da fonoaudiologia vai além da aplicação de técnicas bimodais, oralistas ou bilinguistas. O profissional de fonoaudiologia tem um papel mais abrangente no contato com a surdez porque não implica só realizar um tratamento, trata-se de fazer a diferença na vida de uma pessoa. Usando uma ou outra abordagem, o trabalho deve, na verdade, propiciar o desenvolvimento global do indivíduo, não importando se ele utiliza esta ou aquela forma de comunicação. Desenvolvimento global se refere a desenvolvimento linguístico, intelectual, social, acadêmico e principalmente de uma identidade preservada⁽³3 Moura MC, Lodi ACB, Harrison KMR. História e educação: o surdo, a oralidade e o uso de sinais. São Paulo: Roca; 1997.⁾.

Este trabalho tem como proposta oferecer uma pequena contribuição para apoiar os profissionais de fonoaudiologia em seu trabalho junto à comunidade surda adulta.

OBJETIVO

O objetivo deste trabalho é a identificação de valores de referência e margem de tolerância para as frequências dos formantes F1, F2 e F3, conforme o gênero e a faixa etária, para as sete vogais do português brasileiro (/a/, /e/, /Ɛ/, /i/, /o/, /ᴐ/, /u/), as quais constituem o núcleo das sílabas das palavras deste idioma⁽⁷7 Miranda ARM, Matzenauer CLB. Aquisição da fala e da escrita: relações com a fonologia. Cad Educ. 2010 Jan-Abr;35:359-405.⁾.

Espera-se que esses valores de referência possam permitir ao surdo adulto, supervisionado e orientado por um profissional de fonoaudiologia, treinar a oralização através de um recurso computacional que lhe proporcione a visualização gráfica dos valores de referência e os valores de sua produção do som, ajudando-o a calibrar sua voz o mais próximo possível da referência apresentada.

O uso de um computador comum, seja de mesa ou do tipo portátil, com um microfone simples a ele conectado, proporcionará ao profissional de fonoaudiologia uma ferramenta de custo acessível para apoiar as terapias de voz. Dentro deste contexto, o presente trabalho visa encontrar valores para composição dos parâmetros a serem utilizados na configuração de um sistema para treinamento vocal de surdos adultos.

Os valores de referência encontrados serão utilizados na construção de um sistema computacional conforme as especificações do pedido de patente “Sistema Interativo para Auxílio a Deficiente Auditivo”⁽⁸8 Prado PPL, Marcelino MAinventoresSistema interativo para auxílio a deficiente auditivoBrasilpatent 0215612-1A22011Ago04⁾ que busca proporcionar ao fonoaudiólogo uma ferramenta de apoio a terapias de desenvolvimento da linguagem oral em indivíduos com deficiência auditiva severa.

O sistema contará com recursos gráficos em três dimensões das frequências produzidas pela vocalização feita pelo surdo, coletadas e calculadas em tempo real.

As frequências formadas no trato vocal serão exibidas em sobreposição, no mesmo cenário, aos valores de referência obtidos para as frequências de F1, F2 e F3. A margem de tolerância será representada por uma figura geométrica tridimensional semitransparente.

Toda a operação do sistema será feita por fonoaudiólogo. Desta forma, o adulto surdo contará com o suporte visual na tela do computador de modo a permitir uma equiparação entre a produção de sua fala e as referências obtidas a partir de indivíduos da mesma faixa etária e gênero.

MÉTODO

O processo de produção da voz e toda a dinâmica a ela associada, retratando aspectos físicos, mecânicos e acústicos de todo o aparelho fonador envolvido no processo, está amplamente descrito na literatura da acústica da fala.

Os estudos de Chiba e Kajiyama⁽⁹9 Chiba T, Kajiyama M. The vowel: its nature and structure. Tokyo: Tokyo-Kaiseikan; 1941.⁾, dois pesquisadores japoneses, têm sido considerados marco inicial no desenvolvimento da área de conhecimento voltada para o estudo da acústica envolvida no processo de produção da fala. A obra The Vowel, de 1941, consolida sua pesquisa e foi amplamente citada ao longo do século XX e ainda nos dias atuais.

Outro personagem que trouxe grande contribuição aos estudos da produção da fala foi Gunnar Fant⁽¹⁰10 Fant G. Acoustic theory of speech production. 2nd ed. Mouton: The Hague; 1970.^-¹¹11 Fant G. Speech acoustics and phonetics. 24th ed. Dordrecht: Kluwer Academic Publishers; 2004.⁾, um pesquisador sueco que dedicou sua vida a pesquisas relacionadas à produção vocálica desde sua graduação no Departamento de Telegrafia e Telefonia do Royal Institute of Technology⁽¹²12 Mikhailov VGG. Fant's the acoustic theory os speech production. In: XVI Session of Russian Acoustical Society; 2005 Nov 14; Leninskie Gory, Moscou. Proceedings. Moscou: RAS; 2005. p. 14-18.⁾. Em 1960, Gunnar Fant publicou seu trabalho causando grande impacto na evolução dos estudos da produção vocálica. Seus experimentos e cálculos proporcionaram uma clara relação entre os parâmetros acústicos da produção vocálica e o os sinais artificiais produzidos por um modelo⁽¹³13 Fant G. Structural classification of Swedish phonemes. STL-QPSR. 1960;1(2):010-5.⁾.

Autores como Stevens⁽¹⁴14 Stevens KN. Acoustic phonetics. 30th ed. Cambridge: MIT Press; 2000.⁾, O’Shaughnessy e Deng⁽¹⁵15 Deng L, O’Shaughnessy D. Speech processing: a dynamic and optimization-oriented approach. New York: Marcel Dekker; 2003.⁾ e Flanagan⁽¹⁶16 Flanagan JL, Allen JB, Hansegawa-Johnson MA. Speech analysis synthesis and perception. 3rd ed. New York: Springer-Verlag; 2008.⁾ abordam não só os aspectos fisiológicos como a física envolvida no processo de produção da fala. Estes autores demonstram com base matemática como as frequências observadas durante a fala podem ser calculadas. Consideram variáveis como viscosidade e espessura do trato vocal e a seção considerada para a obtenção da frequência.

Um dos aspectos deste processo é a identificação das frequências das ondas de ressonância que caracterizam determinado som produzido. Essas características específicas são obtidas a partir da análise matemática da função de transferência da passagem da onda acústica ao longo do trato vocal, a partir de sua produção nas pregas vocais até a saída pelos lábios. Elementos como densidade e velocidade do ar, comprimento do trato vocal, área do corte em que a onda é analisada, entre outros itens, compõem a modelagem deste sistema resultando no cálculo da pressão sonora produzida⁽¹¹11 Fant G. Speech acoustics and phonetics. 24th ed. Dordrecht: Kluwer Academic Publishers; 2004.^,¹⁴14 Stevens KN. Acoustic phonetics. 30th ed. Cambridge: MIT Press; 2000.^-¹⁵15 Deng L, O’Shaughnessy D. Speech processing: a dynamic and optimization-oriented approach. New York: Marcel Dekker; 2003.⁾.

Existem diversas técnicas utilizadas para tratamento do sinal de voz. Em geral, tais técnicas têm como base as pequenas variações anatômicas do trato vocal durante a produção do som. A onda sonora produzida pela vibração das pregas vocais ressoa ao longo do trato vocal encontrando menor ou maior constrição à sua passagem, conforme a configuração dos elementos que compõem o sistema (língua, palato mole, palato duro, etc.).

Uma das técnicas utilizadas para modelar o processo de produção da voz é aquela denominada Linear Predictive Coding (LPC), que foi proposta pelo Departamento de Defesa dos Estados Unidos em 1984, inicialmente como um modelo para codificação da fala humana⁽¹⁷17 Bradbury J. Linear Predictive Coding [Internet]. 2000 [citado em 2014 July 30]. Disponível em: http://my.fit.edu/~vkepuska/ece5525/lpc_paper.pdf
http://my.fit.edu/~vkepuska/ece5525/lpc_... ⁾.

O aspecto mais importante do LPC é o filtro de predição linear que permite que o valor da amostra seguinte seja determinado por uma combinação linear das anteriores⁽¹⁷17 Bradbury J. Linear Predictive Coding [Internet]. 2000 [citado em 2014 July 30]. Disponível em: http://my.fit.edu/~vkepuska/ece5525/lpc_paper.pdf
http://my.fit.edu/~vkepuska/ece5525/lpc_... ⁾.

Esta e outras abordagens técnicas foram utilizadas no processo computacional para extração dos formantes a partir dos sinais de voz coletados, como descrito a seguir.

A gravação dos sinais de voz foi feita em computador do tipo notebook, com um microfone a ele conectado. A taxa de aquisição foi de 11025Hz. Participaram do experimento 53 indivíduos, sendo 40 do gênero masculino (≅75%), com faixa etária de 17 a 59 anos; 12 do gênero feminino (≅23%), com faixa etária de 17 a 55 anos; e uma criança, também do gênero feminino, com 6 anos (≅2%). Nenhum dos participantes apresentava problemas na fala. A participação foi voluntária e cada colaborador assinou o Termo de Consentimento Livre e Esclarecido aprovado pelo Comitê de Ética em Pesquisa (CEP) da Universidade de Taubaté, submetido pela Plataforma Brasil com os demais dados e documentos exigidos - Parecer número 985459 com data da relatoria de 13/3/2015.

Aos voluntários foi dada uma explicação sobre o teor do projeto e a importância de sua contribuição para as pesquisas voltadas para o desenvolvimento humano e terapias com tecnologia assistiva⁽¹⁸18 Filho TAG. Tecnologia assistiva para uma escola inclusiva: apropriação, demandas e perspectivas [dissertação]. Salvador: Universidadde Federal da Bahia, Faculdade de Educação; 2009.⁾. Foi feita uma demonstração do procedimento para a gravação do som para que o colaborador se familiarizasse com o processo.

O procedimento consiste em respirar levemente, obtendo ar suficiente para que a produção do som não aconteça de maneira forçada, que alteraria a proposta de emissão normal do som de uma vogal. Em seguida, o indivíduo aproxima o microfone a sua boca, deixando-o cerca de dois centímetros de distância dos lábios e emite o som da vogal solicitada por cerca de um segundo. A interface gráfica do software exibe um quadrilátero verde no canto superior direito e um gráfico com os três primeiros formantes e ainda a mensagem “Gravação Efetuada com Sucesso” conforme apresentado na Figura 1.

Figura 1
Interface Gráfica do Software para Coleta da Amostragem

Os dados foram armazenados no formato de vetores unidimensionais prontos para utilização pelos scripts do MATLAB. Assim, a cada amostra individual (indivíduo e vogal), pôde ser aplicado o algoritmo de extração dos formantes, que consiste em três sub-rotinas principais: Filtragem do Sinal: janelamento hamming, pré-ênfase e filtragem passa-alto; Extração dos formantes: LPC de 8 coeficientes; e Seleção de Faixas: seleciona faixas maiores que 90Hz (formante) e banda passante menor que 400Hz.

Dos 53 indivíduos participantes, a amostra que se mostrou mais significativa foi a de adultos do gênero masculino na faixa etária entre 19 e 59 anos, portanto, para este artigo, os números considerados residem no substrato de 38 amostras de indivíduos do gênero masculino. Dentre as 38 amostras, todas de indivíduos sem problemas na fala, 22 são naturais do Estado de São Paulo, 12 do Estado de Minas Gerais e os demais de outros estados. A distribuição das idades é: dois com 19 anos; quatro com 20 anos; quatro com 21 anos; três com 22 anos; quatro com 23 anos; dois com 25 anos; dois com 26 anos; um com 27 anos; três com 29 anos; um com 34 anos; dois com 38 anos; dois com 39 anos; um com 50 anos; um com 51 anos; dois com 52 anos; um com 57 anos; um com 58 anos; e dois com 59 anos.

Para a análise dos dados, foram criados alguns programas utilitários para otimizar e agilizar a extração dos formantes de toda a amostra, de forma a garantir a integridade dos dados, isto é, garantir que a extração dos formantes de cada amostra passou pelo mesmo processo. Os dados individualizados foram armazenados em um repositório em formato texto para ser importado dentro de uma planilha Excel para auxílio na montagem dos gráficos e cálculos estatísticos.

A análise dos dados foi feita usando conceitos da estatística (desvio padrão, mediana e coeficiente de variação)⁽¹⁹19 Spinelli W, Souza MHS. Introdução à estatística. São Paulo: Ática; 1990.⁾. Cada formante e fonema recebeu tratamento individualizado para obtenção dos dados. Para ilustrar o método de obtenção dos valores de referência, tomaram-se como exemplo os dados obtidos do primeiro formante (F1) do fonema /a/ a partir da amostra indicada, conforme apresentado na Figura 2.

Figura 2
Dados das frequências do primeiro formante (F1) do fonema /a/ obtidos de uma amostra de gravação de voz de 38 indivíduos adultos do gênero masculino, sem problemas na fala

O número de classes (blocos de agrupamento) foi definido pela regra de Sturges⁽²⁰20 Doane DP, Seward LE. Estatística aplicada à administração e economia. São Paulo: McGraw Hill Brasil; 2014.⁾ e o intervalo entre as classes foi baseado no número de amostras utilizado⁽²⁰20 Doane DP, Seward LE. Estatística aplicada à administração e economia. São Paulo: McGraw Hill Brasil; 2014.⁾. O valor para a margem de tolerância foi calculado através do coeficiente de variação encontrado. O valor da mediana (centro de referência) foi utilizado para a representação gráfica das frequências de cada um dos formantes. A margem de tolerância foi desenhada subtraindo e somando o valor resultante da aplicação do coeficiente de variação sobre o valor da mediana. Estes valores permitiram desenhar uma figura tridimensional em torno do ponto central, como demonstrado mais adiante.

Por fim, cabe acrescentar que neste trabalho o algoritmo foi estruturado em programa único para garantir a integridade dos dados extraídos.

RESULTADOS

O resultado dos dados obtidos com o método descrito, para as amostras escolhidas, encontra-se consolidado na Tabela 1, conforme cada fonema.

Thumbnail

Tabela 1
Consolidação dos valores de referência e margem de tolerância das frequências dos formantes extraídos da gravação de voz de 38 indivíduos adultos do gênero masculino sem quaisquer problemas na fala

A opção por utilizar a mediana da amostra e não a média se deve ao fato de que as frequências (em Hz) muito fora da linha normal da amostragem poderiam afetar o resultado. As diferenças são pequenas, mas a proposta deste trabalho é uma aproximação mais apurada possível dos valores de referência dos formantes das vogais.

Para corroborar com os resultados deste trabalho, foram tomadas frequências de formantes de estudos anteriores obtidos a partir da produção das vogais do português brasileiro.

Oliveira apresentou em sua pesquisa uma tabela (Tabela 4 da página 112 da referência)⁽²¹21 Oliveira M, Pacheco V. Produção vocálica: análise acústica e Síndrome de Down. Diadorim. 2013 Dez;14:99-126.⁾ com valores médios de formantes F1, F2 e F3 para o fonema /a/ de dois indivíduos do gênero masculino sem quaisquer deficiências, com idades de 18 e 21 anos, respectivamente. Os valores extraídos da referida tabela foram aqueles obtidos quando a palavra pronunciada, conforme método da pesquisa em citação, continha o fonema /a/ em sua sílaba tônica. São eles: para o primeiro indivíduo, F1=769Hz e F2=1325Hz; para o segundo indivíduo, F1=845Hz e F2=1371Hz.

Um estudo clássico de Behlau⁽²²22 Behlau M. Uma análise das vogais do português falado em São Paulo: perceptual, espectrográfica, de formantes e computadorizada de freqüência fundamental [dissertação]. São Paulo: Escola Paulista de Medicina; 1984.⁾ apresenta uma tabela de valores para F1 e F2 das vogais tônicas para homens, mulheres e crianças. Os valores para homens para o /a/ são F1=807Hz e F2=1440Hz.

Um estudo mais recente, de 2013, mostra um comparativo da produção das vogais entre crianças, homens e mulheres. Neste artigo, os valores de /a/ para homens são: F1=620Hz e F2=1478Hz⁽²³23 Brod LEM, Seara IC. As vogais orais do português brasileiro na fala infantil e adulta: uma análise comparativa. Ling Ensino. 2013 Jun;16(1):111-30.⁾.

A Tabela 2 abaixo mostra uma comparação dos valores obtidos neste trabalho com as frequências dos outros três trabalhos.

Thumbnail

Tabela 2
Comparação das frequências dos formantes F1 e F2 entre os valores encontrados neste trabalho e os valores obtidos em outros três trabalhos

Como pode ser observado, as diferenças de valores estão dentro da margem de tolerância encontrada para F1, que é de 171,983hz, e para F2, que é de 410,408Hz.

Apresentação gráfica dos resultados

Em uma abordagem gráfica comparativa entre F1, F2 e F3, das sete vogais, colocando como ponto central a mediana das frequências da amostra, circundada por um paralelepípedo que representa a margem de tolerância encontrada, pode-se observar a distinção visual entre as vogais - um dos objetivos secundários deste trabalho - proporcionando um retorno visual da pronúncia da vogal, conforme apresentado em diversas formas na Figura 3.

Figura 3
Visão comparativa entre as frequências de referência e margem de tolerância dos três primeiros formantes das sete vogais obtidos da gravação de voz de 38 indivíduos adultos do gênero masculino. Em (A) pode ser observada a comparação entre F1 (horizontal) e F2 (vertical), em (B) as frequências de F3 e em (C) a visão tridimensional dos três formantes - F1 (eixo horizontal à direita), F2 (eixo horizontal à esquerda) e F3 (eixo vertical)

A exibição gráfica em três visões diferentes reforça as pesquisas em que o padrão de formantes caracteriza as vogais conforme a configuração do trato vocal⁽²⁴24 Hayward K. Experimental phonetics. New York: Routledge; 2000.⁾. A predominância de F1 e F2 na caracterização da vogal é conhecida, porém a literatura coloca como referência os três primeiros formantes para identificação das vogais⁽²⁵25 Gregio FN. Configuração do trato vocal supraglótico na produção das vogais do português brasileiro: dados de imagens de ressonância magnética [dissertação]. São Paulo: Pontifícia Universidade Católica de São Paulo; 2006. (Report No. 1).⁾.

DISCUSSÃO

Com a utilização da abordagem e plotagem de todos os formantes e sua margem de tolerância em visão conjunta, bidimensional e tridimensional, pôde ser observado que os valores de frequência obtidos permitem o uso destas referências de frequência como base para treino vocal uma vez que apresentam a distinção entre as vogais orais do português brasileiro através dos três primeiros formantes.

Para validação dos valores de referência encontrados, foi realizado um experimento utilizando uma interface de treinamento vocal, desenvolvida para este trabalho, na qual é exibida a referência de formantes para um hipotético treino de oralização do fonema /a/.

Os pontos mais claros (em verde) representam a pronúncia dos demais fonemas e também do próprio /a/ por um hipotético indivíduo em terapia, conforme apresentado na Figura 4.

Figura 4
Plotagem de formantes de referência para a vogal /a/ e da emissão das demais vogais para demonstrar que a referência caracteriza a vogal /a/. O ponto 1 plotado é a pronúncia da vogal /a/ que aparece próxima à referência e dentro da margem de tolerância

O resultado deste experimento mostra ser possível utilizar as referências apuradas como base para caracterizar cada uma das sete vogais do português brasileiro, proporcionando aos profissionais de fonoaudiologia e pesquisadores nesta área mais uma ferramenta de apoio.

Vale observar que dois pares de fonemas - /Ɛ/ e /ᴐ/ - /o/ e /u/ - mostraram uma sobreposição de valores, conforme apresentado na Figura 5.

Figura 5
Visões diferentes dos valores de referência das frequências de F1, F2 e F3 obtidos de uma amostra de gravação de voz de 38 indivíduos adultos do gênero masculino. Em (A) pode ser observada sobreposição que ocorre para as vogais /Ɛ/ e /ᴐ/. Em (B) a sobreposição para as vogais /o/ e /u/

Como a proposta é oferecer instrumentos para apoio aos profissionais que atuam nesta área, esta sobreposição de frequências deve ser tratada caso a caso no momento de sua utilização e dentro do contexto da abordagem adotada para seu uso terapêutico.

CONCLUSÃO

Este trabalho apresentou uma valiosa gama de informações para uso como referência de frequências para caracterizar as sete vogais do português brasileiro. Esses valores de referência poderão ser usados para apoiar a calibração de dispositivos e também para a produção de novas tecnologias assistivas voltadas para terapia de voz.

Nota-se claramente que a visão tridimensional proposta apresenta distinção visual entre as vogais. Quando elas são exibidas no mesmo cenário é possível observar o distanciamento entre elas. Os valores de referência as posicionam em regiões espaciais diferentes. As margens de tolerância encontradas permitem proporcionar ao indivíduo em terapia de voz um referencial para a emissão do fonema dentro de frequências que tornam o som inteligível e distinguível por um sujeito ouvinte. O treino vocal repetitivo auxiliará o surdo a posicionar corretamente o trato vocal quando tiver que pronunciar uma das vogais.

Trabalho realizado no Programa de Pós-graduação em Engenharia Mecânica, Universidade de Taubaté – UNITAU - Taubaté (SP), Brasil.
Fonte de financiamento: nada a declarar.

REFERÊNCIAS

¹
Schubert SEM, Coelho LAB. A matemática e a surdez: existem barreiras na aprendizagem da disciplina? In: X Congresso Nacional de Educação; 2011 Nov 7-10; Curitiba, PR. Anais. Curitiba: PUC-PR; 2011. p. 2087-99.
²
Skliar C. Uma perspectiva sócio-histórica sobre a psicologia e a educação dos surdos. Porto Alegre: Mediação; 1997.
³
Moura MC, Lodi ACB, Harrison KMR. História e educação: o surdo, a oralidade e o uso de sinais. São Paulo: Roca; 1997.
⁴
Lane H. When the mind hears: a history of the deaf. New York: Vintage Books; 1989.
⁵
IBGE: Instituto Brasileiro de Geografia e Estatística. Estatísticas de gênero [Internet]; 2010 [citado em 2013, Ago 13]. Disponível em: http://www.ibge.gov.br/apps/snig/v1/?loc=0&cat=-1,-2,-3,128&ind=4648
» http://www.ibge.gov.br/apps/snig/v1/?loc=0&cat=-1,-2,-3,128&ind=4648
⁶
Nascimento LCR. Fonoaudioloia e surdez: uma análise dos percursos dircursivos da prática fonoaudiológica no Brasil [dissertação]. Campinas: Universidade Estadual de Campinas, Faculdade de Educação; 2002.
⁷
Miranda ARM, Matzenauer CLB. Aquisição da fala e da escrita: relações com a fonologia. Cad Educ. 2010 Jan-Abr;35:359-405.
⁸
Prado PPL, Marcelino MAinventoresSistema interativo para auxílio a deficiente auditivoBrasilpatent 0215612-1A22011Ago04
⁹
Chiba T, Kajiyama M. The vowel: its nature and structure. Tokyo: Tokyo-Kaiseikan; 1941.
¹⁰
Fant G. Acoustic theory of speech production. 2nd ed. Mouton: The Hague; 1970.
¹¹
Fant G. Speech acoustics and phonetics. 24th ed. Dordrecht: Kluwer Academic Publishers; 2004.
¹²
Mikhailov VGG. Fant's the acoustic theory os speech production. In: XVI Session of Russian Acoustical Society; 2005 Nov 14; Leninskie Gory, Moscou. Proceedings. Moscou: RAS; 2005. p. 14-18.
¹³
Fant G. Structural classification of Swedish phonemes. STL-QPSR. 1960;1(2):010-5.
¹⁴
Stevens KN. Acoustic phonetics. 30th ed. Cambridge: MIT Press; 2000.
¹⁵
Deng L, O’Shaughnessy D. Speech processing: a dynamic and optimization-oriented approach. New York: Marcel Dekker; 2003.
¹⁶
Flanagan JL, Allen JB, Hansegawa-Johnson MA. Speech analysis synthesis and perception. 3rd ed. New York: Springer-Verlag; 2008.
¹⁷
Bradbury J. Linear Predictive Coding [Internet]. 2000 [citado em 2014 July 30]. Disponível em: http://my.fit.edu/~vkepuska/ece5525/lpc_paper.pdf
» http://my.fit.edu/~vkepuska/ece5525/lpc_paper.pdf
¹⁸
Filho TAG. Tecnologia assistiva para uma escola inclusiva: apropriação, demandas e perspectivas [dissertação]. Salvador: Universidadde Federal da Bahia, Faculdade de Educação; 2009.
¹⁹
Spinelli W, Souza MHS. Introdução à estatística. São Paulo: Ática; 1990.
²⁰
Doane DP, Seward LE. Estatística aplicada à administração e economia. São Paulo: McGraw Hill Brasil; 2014.
²¹
Oliveira M, Pacheco V. Produção vocálica: análise acústica e Síndrome de Down. Diadorim. 2013 Dez;14:99-126.
²²
Behlau M. Uma análise das vogais do português falado em São Paulo: perceptual, espectrográfica, de formantes e computadorizada de freqüência fundamental [dissertação]. São Paulo: Escola Paulista de Medicina; 1984.
²³
Brod LEM, Seara IC. As vogais orais do português brasileiro na fala infantil e adulta: uma análise comparativa. Ling Ensino. 2013 Jun;16(1):111-30.
²⁴
Hayward K. Experimental phonetics. New York: Routledge; 2000.
²⁵
Gregio FN. Configuração do trato vocal supraglótico na produção das vogais do português brasileiro: dados de imagens de ressonância magnética [dissertação]. São Paulo: Pontifícia Universidade Católica de São Paulo; 2006. (Report No. 1).

Datas de Publicação

Publicação nesta coleção
Out 2016

Histórico

Recebido
20 Maio 2015
Aceito
23 Jun 2015

Este é um artigo publicado em acesso aberto (Open Access) sob a licença Creative Commons Attribution, que permite uso, distribuição e reprodução em qualquer meio, sem restrições desde que o trabalho original seja corretamente citado.

[1] Trabalho realizado no Programa de Pós-graduação em Engenharia Mecânica, Universidade de Taubaté – UNITAU - Taubaté (SP), Brasil.

[2] Fonte de financiamento: nada a declarar.

Fonema	Mediana			Margem de Tolerância
Fonema	F1	F2	F3	F1	F2	F3
/a/	690,412	1320,648	3053,270	171,983	410,408	513,845
/e/	348,628	2108,066	3080,864	52,681	255,704	317,906
/Ɛ/	508,730	1920,590	2872,906	77,775	222,408	273,125
/i/	275,810	2339,031	3250,589	39,006	448,630	271,076
/o/	388,536	1437,203	3208,146	81,623	793,545	432,587
/ᴐ/	589,081	1667,094	3338,410	96,529	865,978	420,796
/u/	325,173	1129,021	3234,571	57,121	653,504	403,147

Valores obtidos neste trabalho	F1 (Hz)		F2 (Hz)		Diferenças
Valores obtidos neste trabalho	(a) 690,41		(A) 1320,65		F1 (Hz)		F2 (Hz)
Valores obtidos por Oliveira⁽ ^²¹21 Oliveira M, Pacheco V. Produção vocálica: análise acústica e Síndrome de Down. Diadorim. 2013 Dez;14:99-126. ⁾
Indivíduo 1	(c)	769	(C)	1325	(c)-(a)	78,588	(C)-(A)	4,352
Indivíduo 2	(d)	845	(D)	1371	(d)-(a)	154,588	(D)-(A)	50,352
Valores obtidos por Behlau⁽ ^²²22 Behlau M. Uma análise das vogais do português falado em São Paulo: perceptual, espectrográfica, de formantes e computadorizada de freqüência fundamental [dissertação]. São Paulo: Escola Paulista de Medicina; 1984. ⁾	(e)	807	(E)	1440	(e)-(a)	116,588	(E)-(A)	119,352
Valores obtidos por Brod⁽ ^²³23 Brod LEM, Seara IC. As vogais orais do português brasileiro na fala infantil e adulta: uma análise comparativa. Ling Ensino. 2013 Jun;16(1):111-30. ⁾	(f)	620	(F)	1478	(f)-(a)	-70,412	(F)-(A)	157,352