Acustica de voz_Final.pdf

8/15/2019 Acustica de voz_Final.pdf

1/50

BRASÍLIA -DF.

ACÚSTICA DA VOZ


2/50

Elaboração

Carolina Ghelli Ferreira de Melo

Produção

Equipe Técnica de Avaliação, Revisão Linguística e Editoração


3/50

Sumário

APRESENTAÇÃO ................................................................................................................................. 4

ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 5

INTRODUÇÃO.................................................................................................................................... 7

UNIDADE I

LABORATÓRIO DE VOZ .......................................................................................................................... 9

CAPÍTULO 1

ANÁLISES ................................................................................................................................. 9

CAPÍTULO 2

CUIDADOS ESPECIAIS NA AVALIAÇÃO ACÚSTICA .................................................................... 15

UNIDADE II

ESPECTROGRAFIA ACÚSTICA ............................................................................................................... 20

CAPÍTULO 1

CONCEITO E FUNDAMENTOS ASSOCIADOS ............................................................................ 20

CAPÍTULO 2TERMINOLOGIA ASSOCIADA ................................................................................................. 24

CAPÍTULO 3

PARÂMETROS ACÚSTICOS ...................................................................................................... 34

CAPÍTULO 4

PARÂMETROS AUDITIVOS E CORRELATOS ESPECTROGRÁFICOS ACÚSTICOS ............................. 41

UNIDADE III

SOFTWARES DISPONÍVEIS NO MERCADO PARA ANÁLISE ACÚSTICA ...................................................... 44

CAPÍTULO 1

SOFTWARES DISPONÍVEIS NO MERCADO PARA ANÁLISE ACÚSTICA .......................................... 44

PARA (NÃO) FINALIZAR .................................................................................................................... 47

REFERÊNCIAS .................................................................................................................................. 48


4/50

4

Apresentação

Caro aluno

A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem

necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela

atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade

de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD.

Pretende-se, com este material, levá-lo à reexão e à compreensão da pluralidade dos conhecimentos

a serem oferecidos, possibilitando-lhe ampliar conceitos especícos da área e atuar de forma

competente e conscienciosa, como convém ao prossional que busca a formação continuada para vencer os desaos que a evolução cientíco-tecnológica impõe ao mundo contemporâneo.

Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar

sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na prossional. Utilize-a

como instrumento para seu sucesso na carreira.

Conselho Editorial


5/50

5

Organização do Cadernode Estudos e Pesquisa

Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de

forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões

para reexão, entre outros recursos editoriais que visam a tornar sua leitura mais agradável. Ao

nal, serão indicadas, também, fontes de consulta, para aprofundar os estudos com leituras e

pesquisas complementares.

A seguir, uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos

e Pesquisa.

Provocação

Textos que buscam instigar o aluno a refletir sobre determinado assunto antes

mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor

conteudista.

Para refletir

Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita

sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante

que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As

reflexões são o ponto de partida para a construção de suas conclusões.

Sugestão de estudo complementar

Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo,

discussões em fóruns ou encontros presenciais quando for o caso.

Praticando

Sugestão de atividades, no decorrer das leituras, com o objetivo didático de fortalecer

o processo de aprendizagem do aluno.

Atenção

Chamadas para alertar detalhes/tópicos importantes que contribuam para a

síntese/conclusão do assunto abordado.


6/50

6

Saiba mais

Informações complementares para elucidar a construção das sínteses/conclusões

sobre o assunto abordado.

Sintetizando

Trecho que busca resumir informações relevantes do conteúdo, facilitando o

entendimento pelo aluno sobre trechos mais complexos.

Exercício de fixação

Atividades que buscam reforçar a assimilação e fixação dos períodos que o autor/

conteudista achar mais relevante em relação a aprendizagem de seu módulo (não

há registro de menção).

Avaliação Final

Questionário com 10 questões objetivas, baseadas nos objetivos do curso,

que visam verificar a aprendizagem do curso (há registro de menção). É a única

atividade do curso que vale nota, ou seja, é a atividade que o aluno fará para saber

se pode ou não receber a certificação.

Para (não) finalizar

Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem

ou estimula ponderações complementares sobre o módulo estudado.


7/50

7

Introdução

A avaliação acústica está cada vez mais presente na realidade fonoaudiológica e tem sido utilizada

como uma importante ferramenta nas avaliações de vozes patológicas e prossionais, e o seu

emprego nas análises da qualidade vocal tem crescido bastante nos últimos anos. Pode-se dizer que

essa análise é uma técnica não invasiva, baseada no processamento digital do sinal de voz, podendo

ser utilizada como um instrumento eciente para a detecção precoce e auxílio ao diagnóstico de

patologias vocais e, também, no controle e na evolução da qualidade vocal de prossionais da

voz, tais como atores, cantores, locutores, dentre outros. Além da utilização dessa técnica para

determinação objetiva de alterações da função vocal, pode ser aplicada também nas avaliações de

cirurgias, nos tratamentos farmacológicos e na reabilitação vocal.

Para a discriminação de vozes patológicas, por meio de análise acústica, é essencial que o processo

de caracterização acústica da patologia seja bem-estabelecido. Para isso, existem correlatos

espectrográcos acústicos que diferenciam uma voz patológica de uma voz normal e que facilitam a

visualização dessa diferença ou mesmo a sugestão do tipo de patologia existente, o que otimiza um

treinamento da leitura acústica. Entretanto, a literatura ainda não é conclusiva e insuciente com

relação às características acústicas ou aos parâmetros mais adequados para modelagem de uma

patologia em particular. Frequentemente, a maioria das pesquisas fundamenta-se na discriminação

entre vozes normais e patológicas, sem especicar a patologia. Alguns estudos focalizam uma

determinada patologia sem, no entanto, apresentar um modelo acústico correspondente. Sendoassim, a pesquisa para uma análise acústica é ainda um campo promissor e crescente.

A análise acústica está inserida em um contexto de avaliação vocal e faz parte de uma série de

procedimentos que têm por objetivo principal identicar e conhecer o comportamento vocal de um

indivíduo, de maneira que contribua para o estabelecimento da melhor conduta pelo terapeuta.

É importante dizer que essa análise deve ser utilizada como técnica complementar aos métodos

usados para se avaliar a voz de um indivíduo, tal como a avaliação perceptivo-auditiva e outros

exames e avaliações relacionados, sendo que nenhum substitui o outro, mas, sim, integram um

conjunto de ferramentas para que se possa traçar a linha de base de uma voz.

No tocante à voz prossional, como dito anteriormente, a análise em questão tem sido utilizada

crescentemente na prática clínica como uma maneira de se acompanhar o desenvolvimento de uma

voz ao longo do tempo, de forma que a melhor conduta para reabilitação ou treinamento seja tomada.

É importante também que seja dito e reforçado que a análise acústica não se restringe somente a ns

clínicos, ela tem sido utilizada em uma área relativamente nova, na realidade brasileira é chamada

de Fonoaudiologia Forense. Nesta análise, busca-se, prioritariamente, identicar o falante, por meio

de critérios técnicos de comparação, identicação e interpretação dos materiais sonoros, apoiados

por programas (softwares) especícos para tal avaliação.


8/50

8

Objetivos

» Oferecer maior compreensão acústica.

» Estreitar linhas de associação entre as análises perceptivo-auditiva e acústica.

» Incentivar o raciocínio clínico por meio de dados objetivos.

» Promover o conhecimento de softwares especícos para a análise em questão e sua

aplicação nas avaliações vocais.

» Proporcionar os conhecimentos acerca das contribuições da análise acústica para a

avaliação e o monitoramento terapêutico de pacientes nas áreas de voz.

» Orientar sobre os cuidados necessários durante a coleta de dados para análise

acústica, com vistas à obtenção de resultados conáveis.

» Desmisticar o emprego da análise acústica na prática clínica e a ideia de que ela

requer recursos sosticados e caros.

» Enriquecer a prática clínica e prossional na área de voz.


9/50

9

UNIDADE ILABORATÓRIO DE

VOZ

CAPÍTULO 1 Análises

Análise acústica

“A mente que se abre a uma nova ideia jamais voltará ao seu

tamanho original”.

( Albert Einstein – Nota: Autoria não confirmada. Frase adaptada do original de Oliver Wendell Holmes)

Será apresentada aqui a conceituação e a contextualização da análise acústica, sua

importância na avaliação de uma voz e da qualidade vocal. É destacado, ainda, o

uso da análise acústica como ferramenta auxiliar em procedimentos de diagnóstico

de desordens vocais e patologias da laringe, e acompanhamento terapêutico e

profissional.

A análise acústica realiza mensurações do sinal sonoro vocal, enquanto a avaliação

perceptivo-auditiva oferece uma descrição do sinal vocal tendo como instrumento

básico apenas a audição.

De maneira simplificada, a avaliação acústica quantifica o sinal sonoro vocal, o quedireciona a uma análise objetiva da voz, e a avaliação perceptivo-auditiva direciona

a uma análise subjetiva. Entretanto, mesmo nas análises objetivas, existe um

componente subjetivo presente. Assim, é importante se reconhecer que não existe

uma análise puramente objetiva, visto que a interpretação de dados é subjetiva e

o ouvido humano participa em maior ou menor grau desse processo em questão,

em que variáveis independentes e interdependentes são apresentadas para a

compreensão do resultado acústico observado.


10/50

10

UNIDADE I │ LABORATÓRIO DE VOZ

Conceito e contextualização

Os laboratórios de voz apresentam métodos e programas objetivos especícos utilizados na avaliação,

pesquisa e terapia dos distúrbios da voz e no acompanhamento de vozes prossionais. De maneira

didática e para melhor entendimento, são consideradas análises básicas de um laboratório de vozas seguintes: laringoestroboscopia, análise acústica, eletroglotograa, eletromiograa, ltragem

inversa e uxometria (BEHLAU et al ., 2001). De forma geral, os métodos de análise permitem a

avaliação objetiva, traçando uma linha de base da voz de um indivíduo, útil para medir o grau de

evolução do padrão vocal, permitindo, portanto, mensurar a evolução da fonoterapia ou de algum

tipo de treinamento especíco. É tão útil também na avaliação dos momentos pré e pós-operatório

de cirurgias laríngeas.

A análise acústica integra um dos métodos de análise do laboratório de voz e realiza mensurações

do sinal sonoro vocal. Apesar do seu recente uso na prática clínica e prossional, já demonstrou

utilidades inquestionáveis, conforme já citados brevemente. Corroborando, apresentam-se na

presente leitura os ganhos mais imediatos na utilização da análise acústica, com ns essencialmente

clínicos, descritos por Behlau (1997): prover dados normativos para diferentes realidades vocais

(culturais, prossionais ou patológicas), oferecer dados sucientes para traçar a linha de base da voz

de um indivíduo (uso prossional ou terapêutico), monitorar a evolução de um tratamento vocal,

comparar resultados de diferentes procedimentos terapêuticos, convergir as linhas de associação

entre as análises perceptivo-auditiva e acústica, acompanhar o desenvolvimento de uma voz

prossional ao longo do tempo e auxiliar na detecção precoce de problemas vocais e laríngeos.

A espectrograa acústica, discutida adiante, é um dos principais métodos dessa análise, a qualfornece uma representação gráca (monitoramento visual) das características acústicas de uma

emissão.

Ao contrário do que muitos imaginam, a análise acústica é uma técnica de custo relativamente

baixo quando comparada aos exames médicos usuais, utilizados em grande parte nas avaliações

otorrinolaringológicas, os quais precisam de fontes de luz especiais, instrumentos endoscópicos e

equipamentos de videocâmera especializados (GODINO-LLORENTE et al ., 2006).

HistóricoO século XX marcou o período moderno da análise acústica de sons. Na década de 1920, aconteceu

a produção de oscilogramas, que são grácos que representam a variação da amplitude do som

em função do tempo. Nessa época, as análises vocais eram feitas, preferencialmente, por meio de

amostras de vogais sustentadas, por serem mais fáceis de analisar.

Na década de 1940, na Segunda Guerra Mundial, houve um grande avanço dessa tecnologia, quando

se desenvolveu uma máquina chamada de espectrógrafo do som, cuja utilidade inicial era detectar

o deslocamento das tropas do eixo, por meio da análise da voz do operador de rádio. Tecnicamente,

esse aparelho registrava o sinal a ser analisado em um tambor magnético, associado a uma taloop e a diversos ltros que auxiliavam a determinar as diferentes regiões de frequências do som.

Assim, a corrente do sinal elétrico era transferida para um papel termossensível que se queimava


11/50

11

LABORATÓRIO DE VOZ│ UNIDADE I

em diferentes graus de escurecimento, de acordo com o som analisado. O registro dessa análise,

ou seja, o gráco nal impresso, é um gráco tridimensional chamado espectrograma (Figura 1)

(representado detalhadamente e discutido adiante).

Na década de 1970, houve um novo avanço, por meio da introdução do processamento digital desinais, ou seja, os computadores produziam espectrogramas semelhantes aos espectrógrafos de

som, conferindo maior rapidez e conabilidade na obtenção de parâmetros acústicos, e ainda outras

vantagens: eliminação do processo de queima do papel e armazenamento digital.

A avaliação acústica clínica foi introduzida na década de 1990 na realidade brasileira.

Figura 1: Representação de um espectrograma de uma vogal [i], sustentada por um cantor, de uma gravação

de cerca de 9.9 segundos. Há uma representação das frequências no eixo vertical (Y) e do tempo no eixo

horizontal, com aplicação de filtro de banda estreita, evidenciando os harmônicos (espectrograma gerado nosoftware Praat).

Legenda: Time – Tempo; (s) – segundos.

Aplicações e deficiências

À medida que o laboratório vocal computadorizado torna-se habitual na prática clínica, suas

aplicações mostram-se mais notórias e evidentes. Até o presente momento, podem-se enumerar

importantes sugestões no emprego da análise espectrográca acústica (detalhada adiante) (BEHLAUet al ., 2001):


12/50

12


a. é a melhor análise para fala encadeada;

b. evidencia os aspectos temporais da emissão e características de coarticulação dos

sons da fala;

c. demonstra a contribuição da fonte e da ressonância do trato vocal1;

d. evidencia os formantes das vogais e as zonas de incremento de energia das

consoantes.

e. permite a identicação do formante do cantor e a vericação do índice de brilho de

uma voz;

f. a medição dos formantes das vogais e das zonas de alta energia das consoantes é

feita em Hertz (Hz), assim como suas larguras de bandas.

No que diz respeito às deciências, a análise acústica mostra-se tão mais conável quanto mais

próxima do padrão normal de produção vocal encontra-se a voz avaliada, ou seja, quanto maior o

grau de severidade da alteração (patologia), menos conáveis apresentam-se os resultados acústicos.

Nesses casos ou, ainda, quando todos os outros métodos de avaliação falham, cona-se no poder

do ouvido humano, isto é, na audição do avaliador e em sua análise perceptivo-auditiva. Portanto,

a análise perceptivo-auditiva deve sempre preceder a acústica, sendo a acústica dependente da

auditiva, da qual é complementar (BEHLAU et al ., 2001). Outra limitação da análise em questão

e que é amplamente discutida na literatura é a questão da inexistência de protocolos especícos e

do estabelecimento de dados normativos para o português brasileiro (BEHLAU, 1997). Em umaimportante produção, Titze (1994) tece considerações sobre o porquê denir os padrões oustandards

e destaca quatro pontos básicos: standards educam, simplicam, economizam e certicam. Essa

normatização é uma questão que o clínico deve ter, haja vista a formação acadêmica que geralmente

não privilegiou o conhecimento acerca de medidas acústicas e sua interpretação correta. Mas,

também, é importante ter atenção para que os standards não bloqueiem ou desestimulem os

progresso das pesquisas. A padronização é importante para se ter parâmetros, mas eles precisam ser

questionados, aperfeiçoados e também descartados quando necessário para que a ciência progrida

adequadamente.

Faça um resumo da conceituação, da contextualização, do histórico e das aplicações

e deficiências da análise acústica, de forma que você possa fixar as informações

recebidas até aqui e seguir com clareza.

1 Entende-se por trato vocal todas as estruturas que em comprimento se estendem desde a glote até os lábios (NEMETZ, M. A.et al., 2005)


13/50

13


Análise perceptivo-auditiva x análise acústica

Por muito tempo, a prática fonoaudiológica se baseou exclusivamente na análise perceptiva da voz.

Trata-se de uma avaliação tradicional de caráter impressionístico (voz rouca, soprosa, comprimida

etc.) e qualitativo, utilizada para descrever o sinal vocal (DE BODT et al ., 1996; FAWCUS, 2001).Segundo Fex (1992), a avaliação perceptivo-auditiva é a avaliação clássica da qualidade vocal, ela é

tradicional na prática clínica, embora existam críticas feitas à subjetividade e à imprecisa terminologia

envolvida nesse procedimento. A questão da conabilidade das avaliações auditivas da qualidade

vocal é a questão central na pesquisa de voz, já que a comparação de vozes envolve um sistema

de referência interno (preferências), que é utuante, e fatores como experiência e treinamento

anteriores podem interferir na avaliação em questão. Por outro lado, pesquisas comprovam que

a audição pode e deve ser treinada clinicamente, o que gera maior conabilidade a esse tipo de

análise (DE BODT et al., 1996). Uma vez que o assunto referente à avaliação perceptivo-auditiva

tem sido discutido neste capítulo, vale chamar a sua atenção sobre um protocolo para julgamentode qualidade vocal de vozes disfônicas que tem sido frequentemente utilizado nas pesquisas

clínicas: a escala GRBASI, elaborada pela Sociedade Japonesa de Logopedia e Foniatria (HIRANO,

1981), e modicada por Dejonckere e Leback (1996). Essa escala é composta por seis parâmetros

perceptivo-auditivos: (G) grau geral da disfonia, (R) ruído, (B) soprosidade, (A) astenia, (S) tensão

e (I) instabilidade; e fornece informações importantes sobre a produção vocal e o grau da alteração.

Pinho e Pontes (2008) adaptaram a escala à realidade brasileira, nomeada como RASATI (leitura

complementar).

Pelo fato de a avaliação perceptivo-auditiva resultar em dado subjetivo e depender da percepção

particular de cada ouvinte, tentou-se encontrar um meio de avaliação mais preciso (BEHLAU et

al ., 1995). Com a evolução da informática, surgiram os laboratórios de voz, conforme mencionado

anteriormente, que contam com análises mais objetivas da voz (BAKEN; ORLIKOFF, 2000) e

que oferecem diversos tipos de mensurações e índices (discutidos adiante) do sinal sonoro vocal,

especialmente, por meio da emissão de uma simples vogal sustentada. Tais análises reetem uma

mínima interferência do avaliador nos resultados obtidos (BEHLAU et al ., 2005). E, de acordo

com Behlau et al . (2005), a avaliação acústica é complementar à análise perceptivo-auditiva e é um

poderoso instrumento para o detalhamento da função vocal do indivíduo.

Análise acústica e a avaliação vocal

Para que uma avaliação de voz seja completa e satisfatória, ela deve contemplar diversos

prossionais e procedimentos. Os prossionais envolvidos em uma avaliação vocal são médicos,

especialmente, otorrinolaringologista e fonoaudiólogos. Uma anamnese detalhada, realizada pelo

avaliador, faz toda a diferença na correlação dos dados encontrados adiante. A avaliação clínica do

comportamento vocal ca por conta do fonoaudiólogo e a avaliação médica e laringológica, pelo

otorrinolaringologista; se preciso for, outros prossionais farão uma análise nosológica. A análise

acústica é um tipo de procedimento que deve ser inserido, sempre que possível, nesse contextoavaliativo, pois oferece dados importantes e objetivos sobre a função vocal do indivíduo.


14/50

14


Detalhadamente, a anamnese vocal fonoaudiológica tem por objetivo identicar a participação do

comportamento vocal na gênese ou manutenção de uma patologia ou disfonia e para tanto, são

pesquisados dados relacionados a: história pregressa da queixa, situações de uso vocal, hábitos

vocais inadequados, demanda de uso da voz, antecedentes familiares e pessoais, dentre outros.

Assim, é possível traçar o perl vocal do sujeito. Aliado a isso, a avaliação do comportamento vocal é a base da clínica fonoaudiológica e baseia-se na observação clínica e medidas simples não

instrumentais. Incluem-se a avaliação perceptivo-auditiva para julgamento da qualidade vocal e

seus parâmetros associados, assim como uma análise das habilidades gerais e da comunicação do

indivíduo e a vericação do impacto da difonia em sua qualidade de vida.

No tocante à avaliação acústica computadorizada, ela complementa a avaliação clínica vocal,

e oferece vários tipos de mensurações do sinal sonoro e parâmetros acústicos, conforme dito

anteriormente, que são objetivos e tão mais conáveis o quão próximo de um padrão normal a voz

em questão apresentar-se. Por sua vez, a espectrograa acústica proporciona avaliações qualitativasda qualidade vocal, por meio da análise qualitativa dos espectrogramas gerados, e oferece dados

também sobre a fonte sonora e os ltros de ressonância (apresentados adiante), sendo considerada

uma boa avaliação para a análise da fala encadeada. Os protocolos e sistemas de gravação, as

condições de registro e a análise qualitativa do sinal sonoro serão discutidos no próximo capítulo,

referente aos cuidados especiais na avaliação acústica.

Lembre-se de que as avaliações acústica e perceptivo-auditiva complementam-se

e nenhuma substitui a outra, a acústica caracteriza-se por ser objetiva e a auditiva,

subjetiva.

Sob tensão clínica, devemos confiar, prioritariamente, no nosso ouvido!

Após a sua avaliação clínica e perceptivo-auditiva, é detectado que o paciente

apresenta uma voz extremamente desviada dos padrões normais. Você considera

que será útil fazer uma avaliação acústica? Caso faça, os resultados obtidos serão

confiáveis como se avaliasse uma voz normal ou levemente desviada? Pense nisso...


15/50

15

CAPÍTULO 2Cuidados especiais na avaliação

acústica

Diversos textos oferecem sugestões para se obter um registro de áudio de vozes, com qualidade,

como o de Behlau, 1997; Titze, 1994, dentre outros. Este capítulo é de fundamental importância para

o prossional que vai atuar com avaliações acústicas, pois a conabilidade dos dados obtidos pelas

análises feitas pelos softwares acústicos estão diretamente ligados à qualidade do áudio captado.

Por uma questão didática e de fácil entendimento, os cuidados especiais que serão discorridos a

seguir estão apoiados nas sugestões de Behlau et al . (2001).

Condições de registro

Conforme dito anteriormente, qualquer método de aquisição e armazenamento de sinais sonoros

pode afetar fortemente a qualidade do sinal.

a. As gravações devem ser realizadas em ambientes silentes, com ruído ambiental

inferior a 50 dB, em circunstâncias controladas e que sejam passíveis de

reprodutibilidade.

b. O indivíduo deve car preferencialmente de pé e com o corpo livre.

c. O microfone deve ser instalado em um pedestal, de forma que a distância permaneça

xa em relação à sua boca, e posicionado em um ângulo de 45 a 90° em relação a

ela. Para as vogais sustentadas, é indicada uma distância menor que 10 cm, ao redor

de 3 a 4 cm, para que não ocorram interferências no sinal, e que a dosagem de

ruído seja baixa e não comprometa a gravação; para a fala encadeada, é necessário

manter uma distância de pelo menos 10 cm e menor que 20 cm, a m de que o ruído

respiratório não contamine a gravação. No tocante à voz cantada, a distância tanto

para a emissão de vogal sustentada como para um trecho cantado normalmente émaior do que as das indicações acima, especialmente para cantores treinados (em

que a projeção vocal é considerável), a distância entre a boca do cantor e o microfone

precisam ser cuidadosamente recomendadas.

d. Caso a emissão tenha um excesso de ar, como nos casos de vozes soprosas e nas

vogais posteriores ([o], [u]), posicione o microfone na lateral da boca do indivíduo,

podendo chegar a 90 graus de deslocamento lateral, com o intuito de reduzir o

ruído aerodinâmico na gravação, o qual inuencia negativamente no sinal acústico.

e. A captação direta da voz no computador é ideal, para tanto, é indicado que amáquina disponha de uma boa placa de som (mínimo recomendado: 16 bit de placa

analógico-digital). Quando a tecnologia da placa apresentada pelo computador


16/50

16


não obedecer aos pré-requisitos mínimos satisfatórios, existem placas de

som (interfaces de áudio) disponíveis no mercado, com preços acessíveis e de fácil

conexão ao computador (USB).

f. É indicado vericar parcialmente o nível de ruído introduzido no sinalpelo sistema de gravação ou captura de voz para se ter a certeza de

que ruídos do maquinário ou externos não inuenciem negativamente

a qualidade das amostras. Primeiramente, obtém-se o sinal com o microfone

desligado e, logo em seguida, desliga-se o microfone e verica-se o sinal obtido,

estes devem ter amplitudes semelhantes.

g. É indicado vericar a impedância do microfone para que não aconteça

distorções na gravação.

Uma curiosidade: um estudo feito por Yamasaki e Behlau (1997), mostrou que a frequênciafundamental foi o único parâmetro resistente às diferentes condições de registro e que a proporção

harmônico-ruído (HNR) foi o parâmetro mais sensível.

Protocolos de gravação

Não existe uma normatização com relação aos protocolos utilizados para análise acústica, mas

existem sugestões de tarefas fonatórias para ns clínicos, conforme sugeriu Behlau et al . (2001).

a. No registro do indivíduo, além de sua identicação, deve-se incluir pelo menos a

emissão de uma vogal sustentada e um trecho de uma sequência automática de fala

encadeada, a m de se vericar o impacto da alteração de voz na inteligibilidade

de fala ou na efetividade da comunicação.

b. Sugere-se que o protocolo obedeça sempre a mesma sequência de tarefas fonatórias

para facilitar a posterior edição. Pelas sugestões do Centro de Estudos em Voz, o

protocolo inclui as vogais [e], [a], [i] e [u] na frequência e intensidades habituais

do falante, emitidas isoladamente e sustentadas; e, ainda, incluem-se os dias da

semana, os meses do ano, a contagem de 1 a 30, uma emissão de voz cantada em“Parabéns a você” e, por m, um depoimento sobre a própria voz.

c. Conforme dito anteriormente, deve-se selecionar o material de fala conveniente

para a análise que se propõe, especialmente, com ns cientícos.

d. Para análise de qualidade vocal, use preferencialmente uma amostra de fala

encadeada.

e. Para a análise de frequência fundamental e seus índices de perturbação ( jitter,

shimmer, tremor e vibrato), devem ser registradas vogais sustentadas e não falaencadeada; há sugestões de que sejam analisadas uma vogal aguda [i] e outra grave

[o], para melhor descrição e entendimento das perturbações.


17/50

17


f. Lembre-se que quanto maior for o desvio vocal a ser analisado, mais cuidados e

maior número de análises devem ser realizadas.

g. É muito comum que aconteça problemas técnicos nos registros e falhas

nas gravações, portanto, após cada gravação, verique se está tudodentro do proposto e esperado.

Sistemas de gravação

É indicado que as gravações sejam registradas no próprio computador. Quando isso não for possível,

seguem aqui algumas sugestões de gravadores para registro do material sonoro.

a. Caso utilize algum gravador, ele deve ser prossional, condensador, mono,

unidirecional, com sensibilidade mínima de -60dB e deslocado da unidade degravação, para que seja evitada a captação do ruído do maquinário.

b. Os gravadores de ta cassete, pouco utilizados atualmente, permitem apenas a

extração da frequência fundamental e a análise espectrográca descritiva. Não

utilize as tas minicassetes nem as cassetes de longa duração (C90 ou C120), porque

sua resistência é menor.

c. Os gravadores prossionais com ta DAT ( Digital Audio Tapes) apresentam boa

qualidade e durabilidade de registro, mas têm caído gradualmente no desuso por

conta da evolução dos minidiscs.

d. Minidiscs prossionais (não os populares) são uma tendência moderna de gravação

e oferecem os resultados qualitativos mais próximos dos resultados obtidos pelas

gravações feitas diretamente no computador. Entretanto, deve-se ter cautela na

passagem dos arquivos para o computador ou para outras mídias, porque o sistema

de compressão pode alterar parâmetros acústicos mais sensíveis.

e. Os Minidiscs populares possuem boa qualidade quando comparados aos não

prossionais, mas não são indicados para gravações cientícas.

f. O CD-R (recordable compact disc) e o CD-RW (compact disc rewritable)

são considerados excelentes mídias para o registro de vozes, tanto no quesito

durabilidade como na delidade da qualidade dos arquivos gravados.

g. As tas VHS (tas de vídeo) podem ser analisadas somente auditivamente ou

perceptualmente e não acusticamente, visto que o sinal geralmente é insuciente

para uma análise acústica de qualidade e acontece um acréscimo de energia nas

regiões agudas do espectro do som. Somente em situações de extrema necessidade

analisa-se acusticamente os registros de uma ta VHS.


18/50

18


Análise qualitativa do sinal sonoro

No tocante aos sinais acústicos, ressalta-se nesta seção somente os pontos importantes para

identicação dos sinais acústicos vocais passíveis de análise e conáveis, haja vista a necessidade de

prévios conhecimentos físicos e acústicos bastante técnicos por parte do leitor. A quem interessar,recomenda-se a leitura (leitura complementar) do documento Workshop on Acoustic Analysis,

elaborado por Titze (1995) e apresentado por Behlau et al . (2001), com base nele, apresenta-se

aqui, resumida e didaticamente:

a. Sinal tipo 1: é um sinal quase que periódico e permite mensurações de F0, jitter,

shimmer, harmonicidade e análise qualitativa das perturbações de onda. Vozes

normais ou levemente alteradas produzem sinais desse tipo.

b. Sinal tipo 2: é um sinal acústico que apresenta alterações qualitativas, como

bifurcações, intermitência, sub-harmônicos e modulações. Sugere-se que sejaavaliado somente o traçado espectrográco deste sinal, pois as mensurações

acústicas podem se apresentar comprometidas. A maior parte das vozes patológicas

produzem um sinal desta natureza.

c. Sinal tipo 3: é um sinal aperiódico ou caótico, sem uma estrutura aparente, que

não permite mensuração conável e nem a análise visual, como nos sinais do

tipo 2. Vozes patológicas como nos casos de disfonias neurológicas ou disfonias

espasmódicas são características.

Figura 2: Exemplo esquemático de sinal do tipo 1 (adaptado de BEHLAU et al., 2001).

Figura 3: Exemplo esquemático de sinais do tipo 2 e 3, respectivamente (adaptado de BEHLAU et al., 2001).


19/50

19


Com relação aos sinais sonoros, pode-se dizer que a obtenção de medidas acústicas

e a análise do traçado espectrográfico é confiável somente nos sinais do tipo 1. As

vozes patológicas ou disfônicas, com poucos desvios, apresentam sinais do tipo 2 e

permitem a análise confiável do traçado espectrográfico. Nos sinais do tipo 3, que

são caracterizadas por vozes bastante desviadas, a análise acústica não é confiável e

a análise perceptivo-auditiva é a indicada e soberana.

cuidados especiais na avaliação acústica, liste os protocolos de

gravação para que as tarefas fonatórias fiquem bem-definidas para

você. Faça também uma descrição, sucinta, dos 3 tipos de sinais listados

anteriormente e sua associação com os tipos de vozes esperadas.


20/50

20

UNIDADE IIESPECTROGRAFIA ACÚSTICA

CAPÍTULO 1Conceito e fundamentos associados

Há, em vários estudos, a tentativa de denição e análise dos diferentes parâmetros que se alteram

na presença de uma patologia de voz, uma preocupação com a análise detalhada de parâmetros

acústicos, tais como o pitch, jitter, shimmer e ruído.

A avaliação acústica realiza mensurações do sinal sonoro vocal. A análise espectrográcaacústica mede a distribuição espectral da onda sonora vocal, detectando sutilezas do sinal vocale fornecendo uma representação tridimensional, melhor detalhada a seguir. Esta representaçãorevela dados sobre as fontes do som da voz, friccionais ou glóticas, e ainda características deressonância do trato vocal. Por meio do espectrograma, é possível identicar característicastemporais da onda sonora, tais como: harmônicos vocais e regularidade no traçado, formantes dasvogais, regiões de incremento de energia das consoantes, denição de frequência ou intensidade(BEHLAU et al., 2001; BEHLAU e RUSSO, 1993; ELLIOT et al ., 1995; SATALLOF et al .,1990).

Didaticamente, para melhor entendimento da espectrograa, seguem algumas considerações pertinentes: é por meio de um método número chamado FFT ( Fast Fourrier Transform) queas ondas sonoras complexas2 das vogais são decompostas em seus diferentes constituintes(frequência e amplitude), estas componentes constituem a série harmônica do som, sendo que

existe uma frequência fundamental (F0 – primeiro harmônico) e todos os outros componentesharmônicos são considerados múltiplos inteiros dessa F

0. Duas representações principais são

utilizadas na análise acústica: a representação do sinal no domínio do tempo, que é a sequênciatemporal de amplitudes em determinada taxa de amostragem (forma de onda), e a representaçãono domínio das frequências, que explicita a distribuição dos componentes sonoros (harmônicose formantes) no espectro audível. É muito comum uma representação que mostra a variaçãoespectral no tempo, por meio da concatenação de análises espectrais sucessivas. É o caso dosespectrogramas (gura 5), que são uma representação gráca em dois ou três eixos ortogonais,dos quais um está ligado ao tempo e o outro às frequências. A amplitude dos parciais harmônicos

pode ser representada em um terceiro eixo ou por meio da intensidade dos pontos em um gráco bidimensional, conforme se observa na gura 4:

2 Pode ser entendida como uma sobreposição de duas ou mais ondas sinusoidais (ondas seno) .


21/50

21

ESPECTROGRAFIA ACÚSTICA │ UNIDADE II

Figura 4 – Os dois gráficos referem-se a uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada

por um tenor, na nota Dó 3 (261.6 Hz). Há uma representação da amplitude no eixo vertical e do tempo no eixo

horizontal. Em ambos ocorrem representações no domínio do tempo, sendo o primeiro com a duração total e o

segundo com os primeiros 100 milissegundos.



22/50

22

UNIDADE II │ESPECTROGRAFIA ACÚSTICA

Figura 5 – Espectrograma. O gráfico acima se refere à mesma gravação, de cerca de 2.1 segundos de uma

vogal [a] sustentada por um tenor, na nota Dó 3 (261.6 Hz). A representação em questão está no domínio

das frequências (eixo vertical) de todo o sinal, visualizando-se a variação do tempo (eixo horizontal) e pode-se

observar também a amplitude do sinal no grau de escurecimento do traçado.

Legenda: Time – Tempo; (s) – segundos; Frequency – Frequência; (Hz) – Hertz.

É importante ressaltar que a representação no domínio das frequências pode assumir formas

bastante distintas, de acordo com a escolha do intervalo temporal sobre o qual se fará a análise

espectral. Há sempre uma compensação entre as resoluções temporais e de frequência: quanto maisresolução temporal, menos resolução em frequência, e vice-versa.

Encontramos as expressões wide-band (banda larga) e narrow-band (banda estreita) para as

ltragens realizadas pelas transformadas de Fourier em intervalos temporais curtos e em intervalos

mais longos, respectivamente. Na análise vocal, deve-se sempre buscar o intervalo mais adequado

para cada caso, já que as rápidas variações consonantais demandam um intervalo curto e a análise

vocal um intervalo mais longo. Didaticamente, os ltros de banda estreita privilegiam a visualização

dos harmônicos e os ltros de banda larga privilegiam a visualização de formantes.

A gura a seguir, retirada do Handbook of Phonetic Sciences, ilustra os efeitos dessa escolha,utilizando-se uma banda estreita de cerca de 45 Hz e uma banda larga de cerca de 300 Hz. Nesse

caso, o intervalo temporal da ltragem com banda larga é 6.6 maior do que o da banda estreita.


23/50

23


Figura 6 – Os gráficos se referem a três gravações da frase “That›s wonderful ”, em entonações distintas:

a) entonação normal; b) tom de pergunta com surpresa; c) entonação excitada, com destaque nas

palavras “that ” e “wonderful ”. A linha superior traz espectrogramas com banda estreita de filtragem,

evidenciando os harmônicos e a inferior com banda larga, evidenciando os formantes

(fonte: Handbook of Phonetic Sciences, p. XX).

A análise espectrográfica oferece dados sobre a fonte do som e o sistema de

ressonância, evidenciando também aspectos temporais da onda sonora.

O espectrograma é um gráfico tridimensional e que apresenta a variação do tempo

no eixo horizontal, a variação da frequência no eixo vertical e a intensidade no grau

de escurecimento do traçado.

Um espectrograma de faixa estreita ou banda estreita (filtro de 45 Hz) evidencia os

harmônicos do som, enquanto que um espectrograma de faixa larga ou banda larga

(filtro de 300 Hz) evidencia os formantes do som.


24/50

24

CAPÍTULO 2Terminologia associada

Para o melhor entendimento da espectrograa acústica, faz-se necessário a denição de uma

terminologia frequentemente utilizada e que é de interesse para a atuação clínica.

Frequência, frequência fundamental (F0) ePitch

A frequência é um atributo físico do sinal: velocidade de repetição de uma onda (BAKEN e

ORLIKOFF, 2000).

A frequência fundamental (F0) é uma medida objetiva, um atributo físico do sinal: velocidade de

repetição de uma onda (BAKEN e ORLIKOFF, 2000). É a velocidade na qual uma forma de onda

se repete por unidade de tempo (ciclos por segundo), sendo determinada siologicamente pelo

número de ciclos que as pregas vocais fazem em um segundo (PINHO e CAMARGO, 2001).

É também conhecida como frequência da voz e siologicamente está relacionada à frequência de

vibração das pregas vocais. Este parâmetro é o reexo das características biodinâmicas das pregas

vocais e de sua integração com a pressão subglótica. Portanto, qualquer ajuste que reduza os ciclos

glóticos reduzirá também a frequência fundamental, e o contrário também (BEHLAU et al ., 2005).De maneira didática e para melhor elucidação, quanto menor a frequência fundamental, mais grave

apresenta-se o som. O contrário também é válido, quanto maior a F0, mais agudo apresenta-se o som.

Dentre os parâmetros acústicos, a F0 tem se mostrado o mais consistente parâmetro entre diferentes

sistemas de análise acústica, assim como o parâmetro menos sensível às características de gravação

da voz (BEHLAU et al ., 2001; BARROS e CARRARA-DE ANGELIS, 2002).

Ainda no que se relaciona com a frequência de uma voz, é importante que seja feita a diferenciação

entre F0 e Pitch: este é a sensação psicofísica da frequência fundamental, portanto, não deve ser

confundida com a medida da frequência em si. O Pitch aumenta com a elevação da F0, mas essarelação não é linear, isso ocorre porque nosso sistema auditivo é mais sensível a algumas mudanças

de frequências que outras (BEHLAU et al ., 2001).

Segundo Behlauet al . (1985), as frequências fundamentais médias para homens, mulheres e crianças,

em uma população de 90 sujeitos da cidade de São Paulo, são respectivamente: 113 Hz, 204 Hz e

235 Hz. No entanto, estas medidas não se apresentam estáticas; na voz cantada, por exemplo, são

comuns F0 abaixo dos 100 Hz em homens; no entanto, os tenores podem conseguir alcançar os 600

Hz (BEHLAU e RUSSO, 1993). Para as mulheres, a frequência fundamental mais baixa estará perto

dos 150 Hz, enquanto que o limite para um soprano pode ultrapassar os 1.300 Hz (TITZE, 1994).


25/50

25


A gura 7 traz a representação gráca do cálculo de F0 para uma vogal sustentadacantada:

Figura 7 – Curva de variação da frequência fundamental de uma nota cantada C3 (261.6 Hz). Ressalta-se que asrepresentações gráficas das curvas de F0 são denominadas como “Pitch (Hz)”, pelo programa Praat.

Legenda: Time – Tempo; (s) – segundos; Pitch – F0; (Hz) – Hertz.

Intensidade, Loudness e amplitude

A intensidade, por sua vez, está ligada diretamente à pressão subglótica da coluna aérea. Esta

depende de fatores como amplitude de vibração e tensão das pregas vocais, mais especicamente

da resistência glótica. As variações de intensidade são também dependentes da frequência. Vozes

agudas tendem a ser mais intensas, pois o aumento da tonicidade laríngea gera maior resistência

glótica e consequentemente maior intensidade (BEHLAU e PONTES, 1995; BEHLAU e REHDER,

1997). Ainda no que se refere à intensidade, vale ressaltar que a forma como um ouvinte julga um

som como fraco, adequado ou forte é uma avaliação perceptiva, portanto, refere-se à sensação

psicofísica da intensidade: Loudness (BEHLAU et al ., 2001).

Didaticamente, a amplitude de uma onda é a medida da magnitude da máxima perturbação do meio

durante um ciclo da onda. A unidade utilizada para a medida depende do tipo da onda. Por exemplo,

a amplitude de ondas de som e sinais de áudio pode ser expressa em pressão sonora (Pascal – Pa),

como se dá na gura 8. É também comum que se utilize uma escala de decibéis (dB) e esta escala é

comumente usada na prática, conforme se vê na gura 9.


26/50

26


Figura 8 – O gráco refere-se a uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada por um tenor,

na nota Dó 3 (261.6 Hz). Há uma representação da amplitude no eixo vertical e do tempo no eixo horizontal. Ocorre

aqui representação no domínio do tempo, nos primeiros 100 milissegundos.


A gura 9 traz a representação gráca de uma curva de intensidade:

Figura 9 – O gráfico refere-se a uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada e mostra

a curva de variação da intensidade (imagem gerada pelo programa Praat ).

Legenda: Time – Tempo; (s) – segundos; Intensity : Intensidade; (dB) – decibéis.

Fontes e filtros do aparelho fonador

Tendo por base estudos preliminares, Gunnar Fant desenvolve e publica a sua “Teoria Acústica

de Produção da Fala”, em 1970. Esta teoria tem sido utilizada para explicar o modelo de produção


27/50

27


da voz e relaciona três fenômenos acústicos: fonte sonora, ltro acústico e radiação. Para melhor

entendimento da combinação desses fenômenos, hipoteticamente não dependentes, segue uma

breve explicação: para qualquer som produzido no aparelho fonador, existe uma fonte sonora (ou

de ruído) que proporciona a entrada de energia acústica no sistema e também um ltro que se

responsabiliza por modicar e amplicar seletivamente (ltrar) os sons provenientes desta fonte,os quais serão irradiados (efeito de radiação) pela boca (FANT, 1970 apud KENT e READ, 1992;

TITZE, 1994).

A fonte sonora pode ter sua origem associada a três fatores: vozeamento, ruído turbulento do ar

originado por constrição e combinação das duas fontes citadas anteriormente. No que diz respeito

ao vozeamento, o som é produzido exclusivamente pela vibração das pregas vocais e constitui a fonte

de energia sonora necessária à produção das vogais (FANT, 1970 apud KENT e READ, 1992). O

ruído turbulento está relacionado à produção das consoantes pelo estreitamento ou pela obstrução

dos articuladores do trato vocal à passagem do ar e, neste caso, as pregas vocais não são utilizadas

como fonte. Por m, é possível a combinação de sons vozeados pelas pregas vocais e de um ruído

turbulento gerado por constrição do trato vocal, originando as consoantes vozeadas, como, por

exemplo, [v] e [z]. É importante frisar que por meio da vibração das pregas vocais é produzida uma

série de ondas relativamente periódicas e complexas, sendo que o número de ciclos dessas ondas

determina, em Hz, o valor da frequência fundamental de uma voz, F0, e uma série harmônica.

Já o ltro é comparado com um tubo (Figura 10) que contém um dos lados abertos, representando

a boca, e o outro fechado, representando as pregas vocais. O tubo é o ressonador e vai favorecer ou

abafar seletivamente as frequências de acordo com sua forma e seu comprimento. Seguindo essa

analogia e exemplicando o que foi dito anteriormente, tratos vocais mais compridos favorecem

as frequências mais baixas e os mais curtos favorecem as frequências mais altas. As frequências

de ressonância são denominadas de formantes e são representadas por picos no espectro sonoro.

Tradicionalmente, o trato vocal possui quatro ou cinco formantes mais relevantes, os quais sofrerão

o efeito de radiação e serão irradiados em todas as direções ao sair da boca. Nesse processo, ocorre

uma nova ltragem do tipo passa-altas, pois há uma tendência de as altas frequências propagarem-

se em linha reta, enquanto que as baixas tendem a se difratar (espalhar). Portanto, a uma longa

distância do locutor, predominam as altas frequências (FANT, 1970 apud KENT e READ, 1992).

A gura 11 mostra o processo de produção das vogais como um todo e ilustra o que foi dito

anteriormente.

Figura 10 – Acima, um tubo uniforme com um dos lados fechados, simulando o trato vocal (adaptado de KENT;

READ, 1992).


28/50

28


Figura 11 – Representação esquemática do processo de produção de vogais fundamentado na teoria fonte-

filtro. A equação diz que a pressão espectral P(s) é o resultado do espectro produzido pela fonte glótica (pregas

vocais), modificada pela função de transferência T(s) do trato vocal e pelo efeito de radiação R(s). Pelo (s)

entende-se por diferentes frequências amplificadas ou produzidas durante todo o processo (adaptado de KENT;

READ, 1992).

O som laríngeo é produzido pela vibração das pregas vocais, considerada como

fonte ou fonte glótica (associada à produção de sons vozeados – vogais e/ou ruído

turbulento-consoantes vozeadas). O filtro pode ser considerado o trato vocal que

vai modificar ou modelar o som originado na fonte, abafando ou amplificando

frequências, de acordo com sua conformação anatômica. Sendo assim, o trato

vocal (filtro) é responsável pela maior parte da informação de um sinal vocal, mas aqualidade e o tipo de sonoridade percebidos são decorrentes da combinação desses

dois fenômenos: fonte e filtro.

Harmônicos e Formantes do som

De acordo com Behlau e Russo (1993), a vibração das pregas vocais determina a frequência glótica

da emissão e, por denição, a frequência da onda complexa é a frequência do primeiro harmônico

(F0).


29/50

29


É bastante comum a abordagem do aparelho fonador a partir de um modelo caracterizado como

fonte-ltro (source-flter). Didaticamente, e reforçando o que foi dito, de um lado, atuam como

fonte sonora principalmente as vibrações das pregas vocais, que no caso das vogais geram um som

com uma frequência fundamental F0 e certo conteúdo harmônico. O trato vocal atua como um ltro,

apresentando diferentes seções ressonantes capazes de se acoplar de diversas maneiras. As variadasformas de interação entre fonte e ltro geram a riqueza acústica que caracteriza a expressão vocal

humana. Se o espectro sonoro do som produzido pelas pregas vocais pode ser considerado o mesmo

para as diferentes vogais de uma mesma frequência, são as características de ressonância do trato

vocal que geram as diferenças de timbre claramente perceptíveis (SHADLE, 1999).

Visto de outro modo: os harmônicos são gerados pelas vibrações das pregas vocais. A energia relativa

entre os harmônicos é modicada pela forma do trato vocal, dando origem às diferentes sonoridades

vocais. Dependendo da forma assumida pelo trato vocal, certas regiões de frequência são mais

amplicadas do que outras, dando origem aos formantes, que são, dentre outras características,responsáveis pela diferenciação entre as vogais. A gura a seguir traz o espectrograma de uma

gravação de uma voz masculina, não treinada, sustentando a nota Dó 2 (130.8 Hz), na sequência

das vogais [a], [e], [i], [o] e [u]. Pode-se observar que não há variação da frequência fundamental

nem da energia média dos primeiros harmônicos.

Legenda: Time – Tempo; (s) – segundos; Frequency: Frequência; (Hz) – Hertz.Figura 12 – Espectrograma de uma gravação de voz masculina não treinada, emitindo a nota Dó 2 (130.8 Hz), sustentandosucessivamente as vogais [a], [e], [i], [o], [u], com aplicação de filtro de banda estreita (imagem gerada pelo programa Praat ).

Os harmônicos aparecem no espectrograma como estrias dispostas horizontalmente com espaço

regular entre si e múltiplos inteiros da frequência fundamental, tendo maior importância em

análise acústica os harmônicos até 5.000 Hz. A distribuição dos harmônicos no espectro oferece

uma indicação sobre a ressonância e projeção vocal, fatores esses de grande importância para a

voz de um cantor. Ao alcançar as cavidades de ressonância, alguns desses harmônicos, quando


30/50

30


sua frequência tem compatibilidade com a do trato vocal, são amplicados, criando os formantes

(BEHLAU et al., 2001; CORDEIRO et al ., 2007; PINHO, 2001; SUNDBERG, 1991).

Os formantes, na maioria das vezes, são expressos por meio de seu valor médio em Hertz (Hz), ou

ciclos por segundo, e designados por F1, F2, F3... Fn, de modo progressivo (BEHLAU, 2001). Deacordo com Dinville (1993, p. 45), “os formantes são frequências que servem para determinar o

timbre”. Dinville (1993) e Cordeiro et al. (2007) descrevem ainda a localização no trato vocal de cada

formante armando que o primeiro formante (F1) ocorre na cavidade posterior da boca e está em

torno de 250 a 700 Hz. Dinville (1993) arma que o segundo formante (F2) ca situado na cavidade

oral entre os valores de 700 a 2.500 Hz. Por sua vez, Cordeiro et al . (2007) concordam que o segundo

formante ca localizado na parte anterior da cavidade oral. Segundo Cukier e Camargo (2005), o

primeiro formante (F1) está relacionado à abertura da boca e à altura da língua na cavidade oral, e o

segundo formante (F2) tem relação com o deslocamento anteroposterior da língua. Para Sundberg

(1987 apud BARRICHELO 2007), o primeiro formante (F1) é sensível à abertura da mandíbula, já que quanto maior a abertura da boca, mais aguda ca a frequência do formante. Para Camargo

et al . (2007), as frequências dos três primeiros formantes determinam a identidade fonética da

vogal, especialmente a dos dois primeiros. Para Cordeiro et al. (2007), o quarto formante (F4)

provavelmente tem ligação com o comprimento do tubo laríngeo. Em relação ao quinto formante

(F5), não há referência quanto ao local para sua produção, mas é praticamente unânime que o F4 e

F5 são responsáveis pela qualidade vocal e pelo timbre da voz (formante do cantor) (CORDEIROet

al ., 2007).

Corroborando o que foi dito anteriormente e em acréscimo a essas informações, de acordo com

Pinho (2001), para que os formantes sejam gerados, é necessária a produção de harmônicospela mucosa das pregas vocais, dessa forma, pode-se pressupor que a produção de harmônicos

e formantes relacionam-se à integridade da mucosa das pregas vocais. Quanto maior a série de

harmônicos, mais individualizados e com traçado linear, maior é a estabilidade da emissão e

mais rica é a qualidade vocal (BEHLAU et al ., 2005; SATALLOF et al ., 1990). Tal representação

é tanto pior quanto maior o comprometimento vibratório das pregas vocais, como nos casos de

rouquidão ou aspereza (BEHLAU et al ., 2001). Nesses casos, o espectrograma será caracterizado

pelo espaçamento irregular entre os harmônicos, pela perturbação na forma da onda, pelo traçado

gráco irregular e, ainda, pela amplitude da frequência fundamental baixa, o que caracteriza a

falta de intensidade vocal do indivíduo devido à insuciência glótica (BEHLAU; RUSSO, 1993). Veja, abaixo, dois exemplos de espectrogramas: o primeiro com uma série harmônica deciente, o

que sugere uma voz patológica e o segundo com uma rica série harmônica, o que sugere uma voz

treinada.


31/50

31


Figura 13 – Espectrograma de uma gravação de uma voz não treinada, emitindo a vogal sustentada [u], com aplicação defiltro de banda estreita, evidenciando uma deficiência da série harmônica, visível até a faixa de 1.000Hz, aproximadamente,

sugerindo uma voz patológica (imagem gerada pelo programa Praat ).

Legenda: Time – Tempo; (s) – segundos; Frequency : Frequência; (Hz) – Hert z

Figura 14 – Espectrograma de uma gravação de uma cantora profissional, emitindo a vogal sustentada [a], com

aplicação de filtro de banda estreita, evidenciando uma riqueza de harmônicos até a faixa de 8.000 Hz (imagem

gerada pelo programa Praat ).

Legenda: Time – Tempo; (s) – segundos; Frequency : Frequência; (Hz) – Hert z. Ct – cantor(a).


32/50

32


Os formantes determinam a qualidade das vogais e contribuem muito para o timbre pessoal do

cantor (CORDEIRO et al ., 2007). Assim, em uma análise acústica, observa-se que os primeiros

cinco formantes são os de maior interesse, sendo que os três primeiros são responsáveis pela

identidade das vogais e possuem características instáveis, já que podem apresentar variações de

vogal para vogal, enquanto que o quarto e o quinto formantes não têm a mesma variação, sendoentão considerados estáveis e responsáveis pelo timbre pessoal, ou seja, pela qualidade e pelo brilho

da voz (BEHLAU, 2001). Sobre esta questão, Medeiros (2004) ressalta que há uma diferença entre o

padrão formântico das vogais faladas em relação às vogais cantadas. O que se observa é que na vogal

cantada há uma distorção do formante, tanto acusticamente quanto articulatoriamente em relação

à vogal falada, ocorrendo uma sobreposição do primeiro formante das vogais [a], [e] e [o]. Dessa

forma, ca sendo responsabilidade do segundo formante a diferenciação acústica dessas vogais, já

que não se observa a sobreposição do segundo formante.

O formante do cantor

O cantor treinado tem a capacidade de sobressair-se ao som de uma orquestra sem fazer uso de

amplicação sonora como o microfone e sem prejudicar seu aparelho fonador. Na maioria das vezes,

o responsável por esse fenômeno é o formante do cantor (CORDEIRO et al., 2007; SUNDBERG,

1974).

O formante do cantor é encontrado geralmente em vozes com treinamentos especícos do canto

erudito e é denido pela amplicação sonora das frequências entre 2.000 e 4.000 Hz, sendo

demonstradas no espectro acústico pela junção do terceiro, quarto e quinto formantes superiores(F3, F4 e F5). Isso se deve à sua localização na região aguda e ao elevado pico de amplitude, desta

forma, não se tem ocorrência em outras vozes ou mesmo em instrumentos da orquestra (BEHLAU

et al., 2001; CORDEIRO et al., 2007; SUNDBERG, 1987). Segundo Fant (1970 apud KENT e READ,

1992), o trato vocal, por meio do controle ativo no canto, pode incrementar de 3 a 5 dB na amplitude

das frequências agudas, além do acréscimo natural de 10 a 15 dB já existente.

Segundo Sundberg (1987 apud BARRICHELO et al ., 2005) a técnica lírica é utilizada pelos cantores

de ópera, que apresentam mecanismos “inteligentes” para destacarem suas vozes da orquestra, por

isso suas vozes apresentam um pico espectral intenso e largo em torno de 3.000 Hz. É este pico que

proporciona aos harmônicos uma maior amplitude relativa e o agrupamento dos formantes que,conforme descrito por este autor, proporciona ao ouvinte a sensação de “brilho” e “projeção vocal”.

Raticando, o responsável pelo fenômeno descrito é o formante do cantor e a ocorrência desta

manifestação está relacionada ao abaixamento da laringe e ao alargamento da cavidade faríngea,

embora este não seja o único mecanismo existente.

Abaixo, seguem guras que contribuem para o entendimento sobre o formante do cantor:


33/50

33


Figura 15 – Espectro do formante do cantor e sua comparação com a orquestra, note que ocorre um pico

espectral por volta da região de 3.000 Hz (adaptado de YASUNORI et al ., 2005).


34/50

34

CAPÍTULO 3Parâmetros acústicos

F0 e seus índices de perturbação

Jitter e shimmer

As variações em altura da F0 e em intensidade da amplitude de cada período são respectivamente

denominadas jitter e shimmer. Estes se apresentam como medidas de estabilidade fonatória

(BEHLAU, 1997; 2001).

A perturbação da frequência em curto prazo é normalmente designada por jitter, representando a

variação da frequência fundamental de um ciclo para outro (BAKEN, ORLIKOFF, 2000; BEHLAU

et al., 2001) e indica a variabilidade da frequência. É uma medida de curto termo (ciclo a ciclo)

de variabilidade involuntária do F0, o que permite determinar o grau de estabilidade do sistema

fonatório (BAKEN; ORLIKOFF, 2000; BEHLAU et al., 2001). Os resultados da perturbação são

apresentados em milissegundos ou microssegundos (BAKEN; ORLIKOFF, 2000). A partir do

momento em que o jitter não é zero, a perturbação de frequência é um correlato acústico dos

padrões vibratórios erráticos, ou seja, é uma medida que representa a aperiodicidade vocal (LAVER,

1981 apud BEHLAU et al ., 2001). Os valores de jitter em indivíduos normais podem representaruma pequena variação na massa ou na tensão das pregas vocais, na distribuição do muco sobre

elas, na simetria das estruturas ou ainda na atividade muscular ou neural envolvida (BAKEN, 1987

apud BEHLAU et al ., 2001). Entretanto, os valores de jitter encontram-se aumentados na presença

de lesões que afetam as pregas vocais, devido ao aumento da aperidiodicidade nas vibrações

(BEHLAU et al., 2001) e torna-se não conável quando a aperiodicidade aumenta (LAVER, 1981

apud BEHLAU et al ., 2001).

Os softwares disponíveis no mercado oferecem as medidas de jitter, cada qual ao seu critério e

disponibilidade. Certamente, o software Praat é um programa que oferece as cinco medidas de jitter, todas relacionadas ao mesmo fenômeno e descritas por Behlau et al . (2001). O jitter local/

absoluto é a média dos valores absolutos das diferenças entre períodos consecutivos do trecho

analisado e é expresso em segundos ou em suas subdivisões. O jitter local é derivado do valor

calculado acima dividido pelo período médio do trecho em questão, expresso em porcentagem (%).

Os demais cálculos levam em conta mais períodos vizinhos, efetuando uma espécie de ltragem

que desconsidera alterações muito rápidas. São eles: jitter (rap) – relative average perturbation

– jitter (ppq5) – fve point period perturbation quocient – e jitter (ddp), cujo valor é três vezes o

valor do jitter (rap). Com exceção do jitter local/absoluto, os demais valores de jitter são relativos e

sempre expressos em %.

Os valores limites de normalidade para jitter podem variar de acordo com o software ou autor

estabelecido, por exemplo: o valor limite de normalidade para o jitter local é de 0.5% (BEHLAU et


35/50

35


al., 2001). Boersma traz no manual do Praat o valor de 1.04% como esse limite, mas indica que esse

valor deve ser provavelmente menor, já que as medições realizadas no cálculo foram inuenciadas

por ruídos. O valor de referência estabelecido por Viera et al. (1997) para vozes não disfônicas é o de

0,30%. Vê-se que não acontece uma padronização das medidas de jitter dentre os autores, portanto,

esta medida deve ser usada com cautela.

Com relação às sugestões na obtenção das medidas de jitter, vale ressaltar que deve ser medido por

análise de vogais sustentadas, numa única frequência, sem variação musical ou de intensidade, em

emissão habitual, eliminando-se o início e o m da produção, por suas características irregulares

(BEHLAU et al., 2001).

Outro parâmetro que deve ser levado em consideração refere-se à medida da variação da amplitude

da vibração. Esta medida recebe o nome deshimmer e o seu conceito pode ser explicado por analogia

ao seu “companheiro de perturbação”, o jitter. Shimmer representa a variação da amplitude de ciclo

para ciclo e permite quanticar as alterações mínimas da amplitude do sinal, com base em cada ciclo

fonatório (COLTON; CASPER, 1998). Se, em termos de fonação, a voz humana fosse absolutamente

estável, tal medida seria zero. No entanto, assim como o jitter, havendo uma patologia em termos

de funcionamento da laringe, por exemplo, tais valores serão sempre elevados.

Assim como acontece no jitter, existe uma diversidade de valores limites para a normalidade do

shimmer, dependendo do programa ou do autor escolhido para referência. Pelo fato de o software

Praat oferecer com maior completude as medidas acústicas, ele é citado como referência. O respectivo

software oferece seis valores de shimmer: o shimmer local é calculado de forma análoga ao jitter

local, sendo resultado da divisão da média dos valores absolutos das diferenças de amplitude entreperíodos vizinhos pela amplitude média do trecho analisado. É também expresso em %. O shimmer

(local, dB), expresso em decibéis, é resultado da multiplicação por 20 do logaritmo de base 10 da

média dos valores absolutos das diferenças de amplitude. As outras medidas são shimmer (apq3),

shimmer (apq5), shimmer (apq11), shimmer (dpp), cujos métodos de cálculo estão detalhados no

manual do software.

Todas as medidas relativas de shimmer são oferecidas em porcentagem e o valor limite de shimmer

local é de 3% (BEHLAU et al., 2001). Boersma e Weenink (2010) estabelecem 3,81% como um

limite para a patologia, no Praat .

Tremor e vibrato

Assim como o jitter e o shimmer, o tremor e o vibrato representam índices de perturbação da

frequência fundamental (F0) e possuem representações espectrográcas que podem ocasionar

dúvida se não forem bem-compreendidas.

Fisiologicamente, o tremor vocal patológico caracteriza-se pelo movimento rítmico da laringe, que

produz alterações rítmicas de pitch e loudness durante a fonação. Estes movimentos laríngeos são

muitas vezes acompanhados de tremor da cabeça e de extremidades (INAMURA; TSUJI, 2006

apud ARONSON et al ., 1968) e podem ser provenientes de um ou de vários componentes da fala,


36/50

36


seja relacionado à respiração, fonação ou articulação (BEHLAU et al ., 2001). O tremor pode estar

presente apenas durante a fonação ou aparecer no repouso. Apesar de ser identicável durante a

fala encadeada em alguns indivíduos, é mais facilmente reconhecido durante a emissão de vogal

sustentada. Casos graves de tremor vocal podem cursar com interrupções fonatórias similares

àquelas da disfonia espasmódica de adução. No que diz respeito ao tremor vocal siológico, estepode ocorrer em situações de frio, estresse ou emoção, ou ainda, na presbifonia (BEHLAU et

al ., 2001). Acusticamente e de maneira geral, o tremor neurológico vocal caracteriza-se por uma

modulação de ordem de 1 a 20 Hz, sendo que o tremor lento varia de 1 a 2 Hz e uma oscilação de

10 Hz, aproximadamente, está associada ao tremor rápido, como nos casos de esclerose múltipla.

Estabelece-se o limite para normalidade, a frequência e a amplitude do tremor ao redor de 1 a 2 Hz

(BEHLAU et al ., 2001).

Ao contrário do tremor, o vibrato caracteriza-se, acusticamente, pela modulação regular da

frequência fundamental e é utilizado pelos cantores líricos e por alguns populares como umrecurso estético que confere expressividade ao canto. Pode ser visto como um tremor siológico

ordenado e faz com que a F0

oscile para cima e para baixo, em uma amplitude pequena e algumas

vezes por segundo (DEJONCKERE et al ., 1995). Normalmente, a variação do vibrato possui uma

média que ca entre 2 e 8 Hz em cantores líricos e a extensão da intensidade varia entre 2 e 3

dB. Ressalta-se que o vibrato pode ser de frequência somente e/ou de amplitude (BEHLAU et al .,

2001). Fisiologicamente, o vibrato não é um acontecimento bem-denido e há sugestões de que

pode ocorrer como uma oscilação da musculatura cricotireoidea, uma contração alternada da

musculatura laríngea e diafragmática ou, também, como um tremor da musculatura respiratória e

do trato vocal. Mas nos cantores que possuem boa técnica, como os eruditos, o vibrato é controlado

e regular.

Abaixo, seguem dois exemplos, representados gracamente em espectrogramas, de vibratos. Em

ambos os casos, foram aplicados ltros de banda estreita.

O primeiro espectrograma (Figura 16) pode ser considerado como de um cantor com um treinamento

não tão apurado quanto o cantor da gura 17, que pode ser visto como um cantor com excelente

treinamento técnico, certamente, com técnica lírica ou erudita.

Observe que, em ambos os grácos, ocorrem emissões de vogal sustentada cantada, em uma

única nota, e os harmônicos encontram-se individualizados. Observa-se, ainda, um incremento deenergia (harmônicos mais escuros) ao redor de 3.000 Hz, onde está situado o formante do cantor.

Entretanto, nota-se no primeiro espectrograma, uma emissão entrecortada e pouca denição da

variação do vibrato e, já no segundo espectrograma, é visível a boa denição e regularidade do

traçado espectrográco (harmônicos) e com considerável energia (harmônicos mais escuros).

Figura 17 – Espectrograma de emissão de uma vogal sustentada, cantada, por cantor, evidenciando

um vibrato entrecortado e com intervalos irregulares (imagem gerada pelo software Gram 5.0).


37/50

37


Figura 18 – Espectrograma de emissão de uma vogal sustentada, cantada, por cantor erudito, evidenciando o

vibrato vocal (adaptado de BEHLAU et al ., 2001) (imagem gerada pelo software Gram 5.0).

Medidas de ruído (HNR) ou harmonicidade

A harmonicidade ou Harmonic Noise Ratio (HNR) é uma medida que relaciona a componente

harmônica com a componente de ruído da onda, ou seja, contrasta o sinal regular das pregas vocais

com o sinal irregular das pregas e do trato vocal (BEHLAU et al., 2001). Resumidamente, oferece

um índice que relaciona o componente harmônico versus o componente de ruído da onda acústica.

A harmonicidade é um dos parâmetros acústicos que representa a medida de ruído presente nosinal de voz. Representa o grau da periodicidade acústica (BOERSMA; WEENINK, 2003); esta

medida é expressa em dB: se 99% da energia do sinal for periódica e 1% representar ruído, o HNR é


38/50

38


10 * log10(99/1) = 20dB. A HNR de 0 dB signica que há energia igual nos harmônicos e no ruído.

Valores inferiores a 7 dB são necessariamente patológicos (BEHLAU, 1997). Quanto mais elevada

a frequência, maior o componente harmônico da onda acústica para indivíduos normais, por isso,

geralmente, mulheres apresentam valores de harmonicidade mais elevados que homens.

Por exemplo, um falante saudável pode produzir uma vogal sustentada [a] ou [i] comum harmonicidade de cerca de 20 dB e um [u] em torno de 40 dB, a diferença vem dasaltas frequências em [a] e [i] versus as baixas frequências em [u], resultando em umamaior sensibilidade de HNR de jitter em [a] e [i] do que em [u]. Falantes roucos terãoum [a] com um harmonicidade muito menor do que 20 dB (BOERSMA, WEENINK,2003).

Abaixo, para ilustração, um exemplo de uma curva de harmonicidade. A harmonicidademédia do trecho medido é de 31.2 dB, demonstrando uma voz normal e com boa HNR.Foram eliminados os 100 milissegundos iniciais e nais do sinal gravado nos cálculosefetuados.

Figura 19 – Curva de harmonicidade de uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada

por um tenor, na nota Dó 3 (261.6 Hz). Há uma representação da harmonicidade no eixo vertical e do tempo no

eixo horizontal (imagem gerada pelo software Praat).

Legenda: Time – Tempo; (s) – segundos; Harm – Harmonicidade; (dB) – decibéis.

1. A frequência fundamental (F0) é uma medida extremamente confiável,

mesmo em condições adversas de gravação.

2. A série harmônica (infinita) é produzida pela vibração das pregas vocais,

sendo o primeiro harmônico denominado frequência fundamental (F0).

3. Frequência fundamental (F0) pode ser entendida como frequência glótica

(Fg) e os harmônicos subsequentes são múltiplos inteiros da frequênciafundamental. Como exemplo: se a F

0de uma voz é 200 Hz, o segundo

harmônico possui o valor de 400 Hz e assim por diante.


39/50

39


4. A série de harmônicos é tão mais rica quanto melhor a coaptação glótica.

5. Formantes do som podem ser considerados como frequências de

facilitação de ressonância do trato vocal, que abafa ou amplifica

determinados grupos de harmônicos conforme a configuração de suasestruturas.

6. Os formantes do som, assim como os harmônicos, apresentam uma série

infinita e são mostrados pela frequência média do grupo de harmônicos

que os integram (F1 – primeiro formante, F2 – segundo formante e assim

por diante).

7. As vogais utilizam apenas a fonte glótica em sua produção, o som

produzido é considerado quase que periódico, somente as vogais têm

formantes.

8. As consoantes são sons aperiódicos, considerados como ruídos de

intensidade relativamente fraca quando comparadas com as vogais.

9. As consoantes não possuem formantes, mas, sim, regiões de incrementos

de energia.

10. As perturbações da onda acústica podem ser observadas em curto prazo,

por meio do jitter e shimmer, e em longo prazo, por meio do tremor e do

vibrato.

11. O componente de ruído pode ser gerado na glote ou em diferentes regiões

do trato vocal.

12. Quanto maior o componente harmônico de uma voz, menor é o índice

de ruído que ela produz, gerando, assim, um considerável valor de

harmonicidade.

13. Quanto mais saudável ou mais treinada é uma voz, mais limpo é o

espectrograma e não há o preenchimento dos espaços entre as faixas deenergia por estrias verticais, também conhecidas como recheio de ruído.

14. As análises de parâmetros isolados não traçam o perfil vocal do indivíduo.

Os dados precisam ser correlacionados com a avaliação clínica.

1. Se o quinto (5º) harmônico possui um valor de 600 Hz, qual será o valor da

frequência fundamental desta voz?

2. Uma voz apresenta uma qualidade vocal rouca e com pitch grave,

para uma mulher, que foi diagnosticada como um quadro de DisfoniaOrganofuncional, apresentando uma lesão chamada de Edema de Reinke.


40/50

40


O que se pode esperar com relação à frequência fundamental dessa voz

que esteja rebaixada ou aumentada?

3. Um paciente apresenta um sulco vocal e com qualidade vocal julgada

como áspera, qual o picth esperado (grave ou agudo)? Sua frequênciafundamental é rebaixada ou aumentada?

4. O que se esperaria de um espectrograma de uma voz dita normal? Que

seja limpo ou com recheios de ruído?

5. Os recheios de ruído são encontrados em vozes normais ou patológicas?

6. Caso você avalie um paciente que apresenta uma patologia vocal, por

exemplo, um nódulo, você espera uma rica sequência de harmônicos?

7. Se a frequência fundamental de uma voz é de 180 Hz, qual a medida do

7º harmônico vocal? Espera-se que seja um falante do gênero masculino

ou feminino?

8. Caso um paciente apresente uma lesão de massa ou mesmo um edema

difuso nas pregas vocais, quais resultados você esperaria das medidas de

jitter e shimmer ? Alterados ou normais?

9. Se, após a sua avaliação perceptivo-auditiva, julgar a voz em

questão como rouca ou soprosa, esperaria medidas de shimmernormais ou alteradas?

10. Um valor extremamente alterado e aumentado de jitter pode ser indicativo,

fisiologicamente, de um controle adequado de vibração das pregas vocais

ou inadequado?


41/50

41

CAPÍTULO 4Parâmetros auditivos e correlatos

espectrográficos acústicosNa realidade brasileira, no ano de 1999, Behlau publicou diversos correlatos espectrográcos

acústicos vinculados a parâmetros auditivos especícos. Os correlatos espectrográcos podem ser

vistos como descrições qualitativas do traçado espectrográco de acordo com a qualidade associada.

Como os correlatos são diversos, serão mostrados, neste capítulo, os espectrogramas relacionados

a qualidades vocais que frequentemente são encontradas na prática clínica e seus correlatos

espectrográcos acústicos, conforme se vê abaixo.

Sugere-se a leitura do capítulo 3 (Avaliação de Voz) do livro Voz I , de Mara Behlau,

para que você tenha acesso e conhecimento das qualidades vocais listadas e de seus

correlatos espectrográficos correspondentes, ou na própria publicação feita pela

autora no ano de 1999.

Atente-se para os correlatos espectrográcos descritos por Behlau (1999) e compare com os grácos

apresentados adiante, lembrando que cada correlato deve ser associado à qualidade vocal em

questão, seguem:

a. qualidade vocal rouca: perturbação da forma de onda, registro dos formantes

substituído por ruído e, dependendo da gravidade da lesão que gera tal qualidade vocal,

os harmônicos podem não existir. Imagem de “esburacamento” no traçado de faixa-

larga. Conforme dito, quanto maior o grau de rouquidão, mais os formantes superiores

vão sendo decompostos. A marca siológica da qualidade vocal rouca é apresentar uma

a aperiodicidade de vibração das pregas vocais e/ou uxo de ar turbulento na glote,

como é característico nos casos de nódulos vocais ou nas fendas glóticas;

b. qualidade vocal soprosa: apresenta nível de energia reduzido no espectro, abaixo de

5.000 Hz; formantes fracos e claros (indicando rebaixamento da intensidade); o nível

de energia que pode gurar acima de 5.000 Hz está relacionado à presença de ruído

(ar não sonorizado), nota-se um preenchimento por meio de estrias verticais, no

espectrograma de faixa larga; quanto maior a soprosidade, mais escuras e denidas

apresentam-se as estrias na região aguda do espectro e mais claras na região mais

grave do espectro; no espectrograma de faixa estreita, os harmônicos são fracos,

com recheio de ruído entre eles, ou seja, entenda por uma imagem hachurada entre

as linhas dos harmônicos, o que congura os casos de pregas vocais com coaptação

insuciente, como nas fendas glóticas ou no sulco vocal.

c. qualidade vocal tensa: apresenta uma frequência fundamental aguda e com alto

nível de energia, o traçado espectrográco é bem-denido, o que caracteriza,

siologicamente, pouca massa em vibração, como nos casos de sulco vocal (rigidez

de mucosa) ou na muda vocal incompleta.


42/50

42


Apresentação de diferentes qualidades vocais

Em todos os trechos foram utilizadas vogais sustentadas, com registros intermitentes, para facilitar

a leitura dos traçados espectrográcos. As emissões apresentam-se intermitentes, como dito e na

seguinte ordem de qualidade vocal: rouca, soprosa e áspera-comprimida.

As imagens foram geradas pelo programa Dr. Speech, 4.0, Tiger DRS, módulo Real Analysis.

É importante se dizer que a gura 20, apresenta um espectrograma de banda estreita, ou seja, com

aplicação de um ltro de banda estreita de 60 Hz, para evidenciar os harmônicos do som. A gura 21

apresenta um espectrograma de banda larga, é representado pelo “C” e apresenta um espectrograma

de banda larga, ou seja, com aplicação de um ltro de banda larga de com um ltro de 240 Hz, para

evidenciar os formantes do som.

Nas guras abaixo, seguem os espectrogramas:

1. Com aplicação de ltro de banda estreita.

Figura 20: espectrograma de banda estreita, evidenciando os harmônicos, de vogal sustentada. No eixo vertical

(Y), acontece a variação da frequência; no eixo horizontal (X), está representado o tempo e a intensidade no grau

de escurecimento do traçado. A primeira emissão é caracterizada pela qualidade vocal rouca, com uma série

harmônica definida e F0 mais grave que nas outras emissões, note também os ruídos entre os harmônicos (áreas

hachuradas) o que demonstra a existência de ar não sonorizado. Na segunda emissão, com qualidade vocal

soprosa, nota-se uma F0 mais aguda que na emissão rouca e também uma serie harmônica reduzida. Notetambém um preenchimento de ruído entre harmônicos mais considerável que na qualidade vocal rouca e com

um diferencial: na região mais aguda do gráfico, os harmônicos são substituídos pelo recheio de ruído, típico de

uma voz soprosa. Na terceira e última emissão, note que há praticamente uma substituição da série harmônica

por ruído, com definição praticamente do traçado da F0 (adaptado de BEHLAU et al ., 2001).


43/50

43


2. Com aplicação de ltro de banda larga.

Figura 21: espectrograma de banda larga, evidenciando os formantes, de vogal sustentada. No eixo vertical (Y),

acontece a varia

Documents

Acustica de voz_Final.pdf