Upload
tato-oliveira
View
237
Download
2
Embed Size (px)
Citation preview
8/15/2019 Acustica de voz_Final.pdf
1/50
BRASÍLIA -DF.
ACÚSTICA DA VOZ
8/15/2019 Acustica de voz_Final.pdf
2/50
Elaboração
Carolina Ghelli Ferreira de Melo
Produção
Equipe Técnica de Avaliação, Revisão Linguística e Editoração
8/15/2019 Acustica de voz_Final.pdf
3/50
Sumário
APRESENTAÇÃO ................................................................................................................................. 4
ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA .................................................................... 5
INTRODUÇÃO.................................................................................................................................... 7
UNIDADE I
LABORATÓRIO DE VOZ .......................................................................................................................... 9
CAPÍTULO 1
ANÁLISES ................................................................................................................................. 9
CAPÍTULO 2
CUIDADOS ESPECIAIS NA AVALIAÇÃO ACÚSTICA .................................................................... 15
UNIDADE II
ESPECTROGRAFIA ACÚSTICA ............................................................................................................... 20
CAPÍTULO 1
CONCEITO E FUNDAMENTOS ASSOCIADOS ............................................................................ 20
CAPÍTULO 2TERMINOLOGIA ASSOCIADA ................................................................................................. 24
CAPÍTULO 3
PARÂMETROS ACÚSTICOS ...................................................................................................... 34
CAPÍTULO 4
PARÂMETROS AUDITIVOS E CORRELATOS ESPECTROGRÁFICOS ACÚSTICOS ............................. 41
UNIDADE III
SOFTWARES DISPONÍVEIS NO MERCADO PARA ANÁLISE ACÚSTICA ...................................................... 44
CAPÍTULO 1
SOFTWARES DISPONÍVEIS NO MERCADO PARA ANÁLISE ACÚSTICA .......................................... 44
PARA (NÃO) FINALIZAR .................................................................................................................... 47
REFERÊNCIAS .................................................................................................................................. 48
8/15/2019 Acustica de voz_Final.pdf
4/50
4
Apresentação
Caro aluno
A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem
necessários para o desenvolvimento do estudo com segurança e qualidade. Caracteriza-se pela
atualidade, dinâmica e pertinência de seu conteúdo, bem como pela interatividade e modernidade
de sua estrutura formal, adequadas à metodologia da Educação a Distância – EaD.
Pretende-se, com este material, levá-lo à reexão e à compreensão da pluralidade dos conhecimentos
a serem oferecidos, possibilitando-lhe ampliar conceitos especícos da área e atuar de forma
competente e conscienciosa, como convém ao prossional que busca a formação continuada para vencer os desaos que a evolução cientíco-tecnológica impõe ao mundo contemporâneo.
Elaborou-se a presente publicação com a intenção de torná-la subsídio valioso, de modo a facilitar
sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na prossional. Utilize-a
como instrumento para seu sucesso na carreira.
Conselho Editorial
8/15/2019 Acustica de voz_Final.pdf
5/50
5
Organização do Cadernode Estudos e Pesquisa
Para facilitar seu estudo, os conteúdos são organizados em unidades, subdivididas em capítulos, de
forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões
para reexão, entre outros recursos editoriais que visam a tornar sua leitura mais agradável. Ao
nal, serão indicadas, também, fontes de consulta, para aprofundar os estudos com leituras e
pesquisas complementares.
A seguir, uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos
e Pesquisa.
Provocação
Textos que buscam instigar o aluno a refletir sobre determinado assunto antes
mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor
conteudista.
Para refletir
Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita
sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio. É importante
que ele verifique seus conhecimentos, suas experiências e seus sentimentos. As
reflexões são o ponto de partida para a construção de suas conclusões.
Sugestão de estudo complementar
Sugestões de leituras adicionais, filmes e sites para aprofundamento do estudo,
discussões em fóruns ou encontros presenciais quando for o caso.
Praticando
Sugestão de atividades, no decorrer das leituras, com o objetivo didático de fortalecer
o processo de aprendizagem do aluno.
Atenção
Chamadas para alertar detalhes/tópicos importantes que contribuam para a
síntese/conclusão do assunto abordado.
8/15/2019 Acustica de voz_Final.pdf
6/50
6
Saiba mais
Informações complementares para elucidar a construção das sínteses/conclusões
sobre o assunto abordado.
Sintetizando
Trecho que busca resumir informações relevantes do conteúdo, facilitando o
entendimento pelo aluno sobre trechos mais complexos.
Exercício de fixação
Atividades que buscam reforçar a assimilação e fixação dos períodos que o autor/
conteudista achar mais relevante em relação a aprendizagem de seu módulo (não
há registro de menção).
Avaliação Final
Questionário com 10 questões objetivas, baseadas nos objetivos do curso,
que visam verificar a aprendizagem do curso (há registro de menção). É a única
atividade do curso que vale nota, ou seja, é a atividade que o aluno fará para saber
se pode ou não receber a certificação.
Para (não) finalizar
Texto integrador, ao final do módulo, que motiva o aluno a continuar a aprendizagem
ou estimula ponderações complementares sobre o módulo estudado.
8/15/2019 Acustica de voz_Final.pdf
7/50
7
Introdução
A avaliação acústica está cada vez mais presente na realidade fonoaudiológica e tem sido utilizada
como uma importante ferramenta nas avaliações de vozes patológicas e prossionais, e o seu
emprego nas análises da qualidade vocal tem crescido bastante nos últimos anos. Pode-se dizer que
essa análise é uma técnica não invasiva, baseada no processamento digital do sinal de voz, podendo
ser utilizada como um instrumento eciente para a detecção precoce e auxílio ao diagnóstico de
patologias vocais e, também, no controle e na evolução da qualidade vocal de prossionais da
voz, tais como atores, cantores, locutores, dentre outros. Além da utilização dessa técnica para
determinação objetiva de alterações da função vocal, pode ser aplicada também nas avaliações de
cirurgias, nos tratamentos farmacológicos e na reabilitação vocal.
Para a discriminação de vozes patológicas, por meio de análise acústica, é essencial que o processo
de caracterização acústica da patologia seja bem-estabelecido. Para isso, existem correlatos
espectrográcos acústicos que diferenciam uma voz patológica de uma voz normal e que facilitam a
visualização dessa diferença ou mesmo a sugestão do tipo de patologia existente, o que otimiza um
treinamento da leitura acústica. Entretanto, a literatura ainda não é conclusiva e insuciente com
relação às características acústicas ou aos parâmetros mais adequados para modelagem de uma
patologia em particular. Frequentemente, a maioria das pesquisas fundamenta-se na discriminação
entre vozes normais e patológicas, sem especicar a patologia. Alguns estudos focalizam uma
determinada patologia sem, no entanto, apresentar um modelo acústico correspondente. Sendoassim, a pesquisa para uma análise acústica é ainda um campo promissor e crescente.
A análise acústica está inserida em um contexto de avaliação vocal e faz parte de uma série de
procedimentos que têm por objetivo principal identicar e conhecer o comportamento vocal de um
indivíduo, de maneira que contribua para o estabelecimento da melhor conduta pelo terapeuta.
É importante dizer que essa análise deve ser utilizada como técnica complementar aos métodos
usados para se avaliar a voz de um indivíduo, tal como a avaliação perceptivo-auditiva e outros
exames e avaliações relacionados, sendo que nenhum substitui o outro, mas, sim, integram um
conjunto de ferramentas para que se possa traçar a linha de base de uma voz.
No tocante à voz prossional, como dito anteriormente, a análise em questão tem sido utilizada
crescentemente na prática clínica como uma maneira de se acompanhar o desenvolvimento de uma
voz ao longo do tempo, de forma que a melhor conduta para reabilitação ou treinamento seja tomada.
É importante também que seja dito e reforçado que a análise acústica não se restringe somente a ns
clínicos, ela tem sido utilizada em uma área relativamente nova, na realidade brasileira é chamada
de Fonoaudiologia Forense. Nesta análise, busca-se, prioritariamente, identicar o falante, por meio
de critérios técnicos de comparação, identicação e interpretação dos materiais sonoros, apoiados
por programas (softwares) especícos para tal avaliação.
8/15/2019 Acustica de voz_Final.pdf
8/50
8
Objetivos
» Oferecer maior compreensão acústica.
» Estreitar linhas de associação entre as análises perceptivo-auditiva e acústica.
» Incentivar o raciocínio clínico por meio de dados objetivos.
» Promover o conhecimento de softwares especícos para a análise em questão e sua
aplicação nas avaliações vocais.
» Proporcionar os conhecimentos acerca das contribuições da análise acústica para a
avaliação e o monitoramento terapêutico de pacientes nas áreas de voz.
» Orientar sobre os cuidados necessários durante a coleta de dados para análise
acústica, com vistas à obtenção de resultados conáveis.
» Desmisticar o emprego da análise acústica na prática clínica e a ideia de que ela
requer recursos sosticados e caros.
» Enriquecer a prática clínica e prossional na área de voz.
8/15/2019 Acustica de voz_Final.pdf
9/50
9
UNIDADE ILABORATÓRIO DE
VOZ
CAPÍTULO 1 Análises
Análise acústica
“A mente que se abre a uma nova ideia jamais voltará ao seu
tamanho original”.
( Albert Einstein – Nota: Autoria não confirmada. Frase adaptada do original de Oliver Wendell Holmes)
Será apresentada aqui a conceituação e a contextualização da análise acústica, sua
importância na avaliação de uma voz e da qualidade vocal. É destacado, ainda, o
uso da análise acústica como ferramenta auxiliar em procedimentos de diagnóstico
de desordens vocais e patologias da laringe, e acompanhamento terapêutico e
profissional.
A análise acústica realiza mensurações do sinal sonoro vocal, enquanto a avaliação
perceptivo-auditiva oferece uma descrição do sinal vocal tendo como instrumento
básico apenas a audição.
De maneira simplificada, a avaliação acústica quantifica o sinal sonoro vocal, o quedireciona a uma análise objetiva da voz, e a avaliação perceptivo-auditiva direciona
a uma análise subjetiva. Entretanto, mesmo nas análises objetivas, existe um
componente subjetivo presente. Assim, é importante se reconhecer que não existe
uma análise puramente objetiva, visto que a interpretação de dados é subjetiva e
o ouvido humano participa em maior ou menor grau desse processo em questão,
em que variáveis independentes e interdependentes são apresentadas para a
compreensão do resultado acústico observado.
8/15/2019 Acustica de voz_Final.pdf
10/50
10
UNIDADE I │ LABORATÓRIO DE VOZ
Conceito e contextualização
Os laboratórios de voz apresentam métodos e programas objetivos especícos utilizados na avaliação,
pesquisa e terapia dos distúrbios da voz e no acompanhamento de vozes prossionais. De maneira
didática e para melhor entendimento, são consideradas análises básicas de um laboratório de vozas seguintes: laringoestroboscopia, análise acústica, eletroglotograa, eletromiograa, ltragem
inversa e uxometria (BEHLAU et al ., 2001). De forma geral, os métodos de análise permitem a
avaliação objetiva, traçando uma linha de base da voz de um indivíduo, útil para medir o grau de
evolução do padrão vocal, permitindo, portanto, mensurar a evolução da fonoterapia ou de algum
tipo de treinamento especíco. É tão útil também na avaliação dos momentos pré e pós-operatório
de cirurgias laríngeas.
A análise acústica integra um dos métodos de análise do laboratório de voz e realiza mensurações
do sinal sonoro vocal. Apesar do seu recente uso na prática clínica e prossional, já demonstrou
utilidades inquestionáveis, conforme já citados brevemente. Corroborando, apresentam-se na
presente leitura os ganhos mais imediatos na utilização da análise acústica, com ns essencialmente
clínicos, descritos por Behlau (1997): prover dados normativos para diferentes realidades vocais
(culturais, prossionais ou patológicas), oferecer dados sucientes para traçar a linha de base da voz
de um indivíduo (uso prossional ou terapêutico), monitorar a evolução de um tratamento vocal,
comparar resultados de diferentes procedimentos terapêuticos, convergir as linhas de associação
entre as análises perceptivo-auditiva e acústica, acompanhar o desenvolvimento de uma voz
prossional ao longo do tempo e auxiliar na detecção precoce de problemas vocais e laríngeos.
A espectrograa acústica, discutida adiante, é um dos principais métodos dessa análise, a qualfornece uma representação gráca (monitoramento visual) das características acústicas de uma
emissão.
Ao contrário do que muitos imaginam, a análise acústica é uma técnica de custo relativamente
baixo quando comparada aos exames médicos usuais, utilizados em grande parte nas avaliações
otorrinolaringológicas, os quais precisam de fontes de luz especiais, instrumentos endoscópicos e
equipamentos de videocâmera especializados (GODINO-LLORENTE et al ., 2006).
HistóricoO século XX marcou o período moderno da análise acústica de sons. Na década de 1920, aconteceu
a produção de oscilogramas, que são grácos que representam a variação da amplitude do som
em função do tempo. Nessa época, as análises vocais eram feitas, preferencialmente, por meio de
amostras de vogais sustentadas, por serem mais fáceis de analisar.
Na década de 1940, na Segunda Guerra Mundial, houve um grande avanço dessa tecnologia, quando
se desenvolveu uma máquina chamada de espectrógrafo do som, cuja utilidade inicial era detectar
o deslocamento das tropas do eixo, por meio da análise da voz do operador de rádio. Tecnicamente,
esse aparelho registrava o sinal a ser analisado em um tambor magnético, associado a uma taloop e a diversos ltros que auxiliavam a determinar as diferentes regiões de frequências do som.
Assim, a corrente do sinal elétrico era transferida para um papel termossensível que se queimava
8/15/2019 Acustica de voz_Final.pdf
11/50
11
LABORATÓRIO DE VOZ│ UNIDADE I
em diferentes graus de escurecimento, de acordo com o som analisado. O registro dessa análise,
ou seja, o gráco nal impresso, é um gráco tridimensional chamado espectrograma (Figura 1)
(representado detalhadamente e discutido adiante).
Na década de 1970, houve um novo avanço, por meio da introdução do processamento digital desinais, ou seja, os computadores produziam espectrogramas semelhantes aos espectrógrafos de
som, conferindo maior rapidez e conabilidade na obtenção de parâmetros acústicos, e ainda outras
vantagens: eliminação do processo de queima do papel e armazenamento digital.
A avaliação acústica clínica foi introduzida na década de 1990 na realidade brasileira.
Figura 1: Representação de um espectrograma de uma vogal [i], sustentada por um cantor, de uma gravação
de cerca de 9.9 segundos. Há uma representação das frequências no eixo vertical (Y) e do tempo no eixo
horizontal, com aplicação de filtro de banda estreita, evidenciando os harmônicos (espectrograma gerado nosoftware Praat).
Legenda: Time – Tempo; (s) – segundos.
Aplicações e deficiências
À medida que o laboratório vocal computadorizado torna-se habitual na prática clínica, suas
aplicações mostram-se mais notórias e evidentes. Até o presente momento, podem-se enumerar
importantes sugestões no emprego da análise espectrográca acústica (detalhada adiante) (BEHLAUet al ., 2001):
8/15/2019 Acustica de voz_Final.pdf
12/50
12
UNIDADE I │ LABORATÓRIO DE VOZ
a. é a melhor análise para fala encadeada;
b. evidencia os aspectos temporais da emissão e características de coarticulação dos
sons da fala;
c. demonstra a contribuição da fonte e da ressonância do trato vocal1;
d. evidencia os formantes das vogais e as zonas de incremento de energia das
consoantes.
e. permite a identicação do formante do cantor e a vericação do índice de brilho de
uma voz;
f. a medição dos formantes das vogais e das zonas de alta energia das consoantes é
feita em Hertz (Hz), assim como suas larguras de bandas.
No que diz respeito às deciências, a análise acústica mostra-se tão mais conável quanto mais
próxima do padrão normal de produção vocal encontra-se a voz avaliada, ou seja, quanto maior o
grau de severidade da alteração (patologia), menos conáveis apresentam-se os resultados acústicos.
Nesses casos ou, ainda, quando todos os outros métodos de avaliação falham, cona-se no poder
do ouvido humano, isto é, na audição do avaliador e em sua análise perceptivo-auditiva. Portanto,
a análise perceptivo-auditiva deve sempre preceder a acústica, sendo a acústica dependente da
auditiva, da qual é complementar (BEHLAU et al ., 2001). Outra limitação da análise em questão
e que é amplamente discutida na literatura é a questão da inexistência de protocolos especícos e
do estabelecimento de dados normativos para o português brasileiro (BEHLAU, 1997). Em umaimportante produção, Titze (1994) tece considerações sobre o porquê denir os padrões oustandards
e destaca quatro pontos básicos: standards educam, simplicam, economizam e certicam. Essa
normatização é uma questão que o clínico deve ter, haja vista a formação acadêmica que geralmente
não privilegiou o conhecimento acerca de medidas acústicas e sua interpretação correta. Mas,
também, é importante ter atenção para que os standards não bloqueiem ou desestimulem os
progresso das pesquisas. A padronização é importante para se ter parâmetros, mas eles precisam ser
questionados, aperfeiçoados e também descartados quando necessário para que a ciência progrida
adequadamente.
Faça um resumo da conceituação, da contextualização, do histórico e das aplicações
e deficiências da análise acústica, de forma que você possa fixar as informações
recebidas até aqui e seguir com clareza.
1 Entende-se por trato vocal todas as estruturas que em comprimento se estendem desde a glote até os lábios (NEMETZ, M. A.et al., 2005)
8/15/2019 Acustica de voz_Final.pdf
13/50
13
LABORATÓRIO DE VOZ│ UNIDADE I
Análise perceptivo-auditiva x análise acústica
Por muito tempo, a prática fonoaudiológica se baseou exclusivamente na análise perceptiva da voz.
Trata-se de uma avaliação tradicional de caráter impressionístico (voz rouca, soprosa, comprimida
etc.) e qualitativo, utilizada para descrever o sinal vocal (DE BODT et al ., 1996; FAWCUS, 2001).Segundo Fex (1992), a avaliação perceptivo-auditiva é a avaliação clássica da qualidade vocal, ela é
tradicional na prática clínica, embora existam críticas feitas à subjetividade e à imprecisa terminologia
envolvida nesse procedimento. A questão da conabilidade das avaliações auditivas da qualidade
vocal é a questão central na pesquisa de voz, já que a comparação de vozes envolve um sistema
de referência interno (preferências), que é utuante, e fatores como experiência e treinamento
anteriores podem interferir na avaliação em questão. Por outro lado, pesquisas comprovam que
a audição pode e deve ser treinada clinicamente, o que gera maior conabilidade a esse tipo de
análise (DE BODT et al., 1996). Uma vez que o assunto referente à avaliação perceptivo-auditiva
tem sido discutido neste capítulo, vale chamar a sua atenção sobre um protocolo para julgamentode qualidade vocal de vozes disfônicas que tem sido frequentemente utilizado nas pesquisas
clínicas: a escala GRBASI, elaborada pela Sociedade Japonesa de Logopedia e Foniatria (HIRANO,
1981), e modicada por Dejonckere e Leback (1996). Essa escala é composta por seis parâmetros
perceptivo-auditivos: (G) grau geral da disfonia, (R) ruído, (B) soprosidade, (A) astenia, (S) tensão
e (I) instabilidade; e fornece informações importantes sobre a produção vocal e o grau da alteração.
Pinho e Pontes (2008) adaptaram a escala à realidade brasileira, nomeada como RASATI (leitura
complementar).
Pelo fato de a avaliação perceptivo-auditiva resultar em dado subjetivo e depender da percepção
particular de cada ouvinte, tentou-se encontrar um meio de avaliação mais preciso (BEHLAU et
al ., 1995). Com a evolução da informática, surgiram os laboratórios de voz, conforme mencionado
anteriormente, que contam com análises mais objetivas da voz (BAKEN; ORLIKOFF, 2000) e
que oferecem diversos tipos de mensurações e índices (discutidos adiante) do sinal sonoro vocal,
especialmente, por meio da emissão de uma simples vogal sustentada. Tais análises reetem uma
mínima interferência do avaliador nos resultados obtidos (BEHLAU et al ., 2005). E, de acordo
com Behlau et al . (2005), a avaliação acústica é complementar à análise perceptivo-auditiva e é um
poderoso instrumento para o detalhamento da função vocal do indivíduo.
Análise acústica e a avaliação vocal
Para que uma avaliação de voz seja completa e satisfatória, ela deve contemplar diversos
prossionais e procedimentos. Os prossionais envolvidos em uma avaliação vocal são médicos,
especialmente, otorrinolaringologista e fonoaudiólogos. Uma anamnese detalhada, realizada pelo
avaliador, faz toda a diferença na correlação dos dados encontrados adiante. A avaliação clínica do
comportamento vocal ca por conta do fonoaudiólogo e a avaliação médica e laringológica, pelo
otorrinolaringologista; se preciso for, outros prossionais farão uma análise nosológica. A análise
acústica é um tipo de procedimento que deve ser inserido, sempre que possível, nesse contextoavaliativo, pois oferece dados importantes e objetivos sobre a função vocal do indivíduo.
8/15/2019 Acustica de voz_Final.pdf
14/50
14
UNIDADE I │ LABORATÓRIO DE VOZ
Detalhadamente, a anamnese vocal fonoaudiológica tem por objetivo identicar a participação do
comportamento vocal na gênese ou manutenção de uma patologia ou disfonia e para tanto, são
pesquisados dados relacionados a: história pregressa da queixa, situações de uso vocal, hábitos
vocais inadequados, demanda de uso da voz, antecedentes familiares e pessoais, dentre outros.
Assim, é possível traçar o perl vocal do sujeito. Aliado a isso, a avaliação do comportamento vocal é a base da clínica fonoaudiológica e baseia-se na observação clínica e medidas simples não
instrumentais. Incluem-se a avaliação perceptivo-auditiva para julgamento da qualidade vocal e
seus parâmetros associados, assim como uma análise das habilidades gerais e da comunicação do
indivíduo e a vericação do impacto da difonia em sua qualidade de vida.
No tocante à avaliação acústica computadorizada, ela complementa a avaliação clínica vocal,
e oferece vários tipos de mensurações do sinal sonoro e parâmetros acústicos, conforme dito
anteriormente, que são objetivos e tão mais conáveis o quão próximo de um padrão normal a voz
em questão apresentar-se. Por sua vez, a espectrograa acústica proporciona avaliações qualitativasda qualidade vocal, por meio da análise qualitativa dos espectrogramas gerados, e oferece dados
também sobre a fonte sonora e os ltros de ressonância (apresentados adiante), sendo considerada
uma boa avaliação para a análise da fala encadeada. Os protocolos e sistemas de gravação, as
condições de registro e a análise qualitativa do sinal sonoro serão discutidos no próximo capítulo,
referente aos cuidados especiais na avaliação acústica.
Lembre-se de que as avaliações acústica e perceptivo-auditiva complementam-se
e nenhuma substitui a outra, a acústica caracteriza-se por ser objetiva e a auditiva,
subjetiva.
Sob tensão clínica, devemos confiar, prioritariamente, no nosso ouvido!
Após a sua avaliação clínica e perceptivo-auditiva, é detectado que o paciente
apresenta uma voz extremamente desviada dos padrões normais. Você considera
que será útil fazer uma avaliação acústica? Caso faça, os resultados obtidos serão
confiáveis como se avaliasse uma voz normal ou levemente desviada? Pense nisso...
8/15/2019 Acustica de voz_Final.pdf
15/50
15
CAPÍTULO 2Cuidados especiais na avaliação
acústica
Diversos textos oferecem sugestões para se obter um registro de áudio de vozes, com qualidade,
como o de Behlau, 1997; Titze, 1994, dentre outros. Este capítulo é de fundamental importância para
o prossional que vai atuar com avaliações acústicas, pois a conabilidade dos dados obtidos pelas
análises feitas pelos softwares acústicos estão diretamente ligados à qualidade do áudio captado.
Por uma questão didática e de fácil entendimento, os cuidados especiais que serão discorridos a
seguir estão apoiados nas sugestões de Behlau et al . (2001).
Condições de registro
Conforme dito anteriormente, qualquer método de aquisição e armazenamento de sinais sonoros
pode afetar fortemente a qualidade do sinal.
a. As gravações devem ser realizadas em ambientes silentes, com ruído ambiental
inferior a 50 dB, em circunstâncias controladas e que sejam passíveis de
reprodutibilidade.
b. O indivíduo deve car preferencialmente de pé e com o corpo livre.
c. O microfone deve ser instalado em um pedestal, de forma que a distância permaneça
xa em relação à sua boca, e posicionado em um ângulo de 45 a 90° em relação a
ela. Para as vogais sustentadas, é indicada uma distância menor que 10 cm, ao redor
de 3 a 4 cm, para que não ocorram interferências no sinal, e que a dosagem de
ruído seja baixa e não comprometa a gravação; para a fala encadeada, é necessário
manter uma distância de pelo menos 10 cm e menor que 20 cm, a m de que o ruído
respiratório não contamine a gravação. No tocante à voz cantada, a distância tanto
para a emissão de vogal sustentada como para um trecho cantado normalmente émaior do que as das indicações acima, especialmente para cantores treinados (em
que a projeção vocal é considerável), a distância entre a boca do cantor e o microfone
precisam ser cuidadosamente recomendadas.
d. Caso a emissão tenha um excesso de ar, como nos casos de vozes soprosas e nas
vogais posteriores ([o], [u]), posicione o microfone na lateral da boca do indivíduo,
podendo chegar a 90 graus de deslocamento lateral, com o intuito de reduzir o
ruído aerodinâmico na gravação, o qual inuencia negativamente no sinal acústico.
e. A captação direta da voz no computador é ideal, para tanto, é indicado que amáquina disponha de uma boa placa de som (mínimo recomendado: 16 bit de placa
analógico-digital). Quando a tecnologia da placa apresentada pelo computador
8/15/2019 Acustica de voz_Final.pdf
16/50
16
UNIDADE I │ LABORATÓRIO DE VOZ
não obedecer aos pré-requisitos mínimos satisfatórios, existem placas de
som (interfaces de áudio) disponíveis no mercado, com preços acessíveis e de fácil
conexão ao computador (USB).
f. É indicado vericar parcialmente o nível de ruído introduzido no sinalpelo sistema de gravação ou captura de voz para se ter a certeza de
que ruídos do maquinário ou externos não inuenciem negativamente
a qualidade das amostras. Primeiramente, obtém-se o sinal com o microfone
desligado e, logo em seguida, desliga-se o microfone e verica-se o sinal obtido,
estes devem ter amplitudes semelhantes.
g. É indicado vericar a impedância do microfone para que não aconteça
distorções na gravação.
Uma curiosidade: um estudo feito por Yamasaki e Behlau (1997), mostrou que a frequênciafundamental foi o único parâmetro resistente às diferentes condições de registro e que a proporção
harmônico-ruído (HNR) foi o parâmetro mais sensível.
Protocolos de gravação
Não existe uma normatização com relação aos protocolos utilizados para análise acústica, mas
existem sugestões de tarefas fonatórias para ns clínicos, conforme sugeriu Behlau et al . (2001).
a. No registro do indivíduo, além de sua identicação, deve-se incluir pelo menos a
emissão de uma vogal sustentada e um trecho de uma sequência automática de fala
encadeada, a m de se vericar o impacto da alteração de voz na inteligibilidade
de fala ou na efetividade da comunicação.
b. Sugere-se que o protocolo obedeça sempre a mesma sequência de tarefas fonatórias
para facilitar a posterior edição. Pelas sugestões do Centro de Estudos em Voz, o
protocolo inclui as vogais [e], [a], [i] e [u] na frequência e intensidades habituais
do falante, emitidas isoladamente e sustentadas; e, ainda, incluem-se os dias da
semana, os meses do ano, a contagem de 1 a 30, uma emissão de voz cantada em“Parabéns a você” e, por m, um depoimento sobre a própria voz.
c. Conforme dito anteriormente, deve-se selecionar o material de fala conveniente
para a análise que se propõe, especialmente, com ns cientícos.
d. Para análise de qualidade vocal, use preferencialmente uma amostra de fala
encadeada.
e. Para a análise de frequência fundamental e seus índices de perturbação ( jitter,
shimmer, tremor e vibrato), devem ser registradas vogais sustentadas e não falaencadeada; há sugestões de que sejam analisadas uma vogal aguda [i] e outra grave
[o], para melhor descrição e entendimento das perturbações.
8/15/2019 Acustica de voz_Final.pdf
17/50
17
LABORATÓRIO DE VOZ│ UNIDADE I
f. Lembre-se que quanto maior for o desvio vocal a ser analisado, mais cuidados e
maior número de análises devem ser realizadas.
g. É muito comum que aconteça problemas técnicos nos registros e falhas
nas gravações, portanto, após cada gravação, verique se está tudodentro do proposto e esperado.
Sistemas de gravação
É indicado que as gravações sejam registradas no próprio computador. Quando isso não for possível,
seguem aqui algumas sugestões de gravadores para registro do material sonoro.
a. Caso utilize algum gravador, ele deve ser prossional, condensador, mono,
unidirecional, com sensibilidade mínima de -60dB e deslocado da unidade degravação, para que seja evitada a captação do ruído do maquinário.
b. Os gravadores de ta cassete, pouco utilizados atualmente, permitem apenas a
extração da frequência fundamental e a análise espectrográca descritiva. Não
utilize as tas minicassetes nem as cassetes de longa duração (C90 ou C120), porque
sua resistência é menor.
c. Os gravadores prossionais com ta DAT ( Digital Audio Tapes) apresentam boa
qualidade e durabilidade de registro, mas têm caído gradualmente no desuso por
conta da evolução dos minidiscs.
d. Minidiscs prossionais (não os populares) são uma tendência moderna de gravação
e oferecem os resultados qualitativos mais próximos dos resultados obtidos pelas
gravações feitas diretamente no computador. Entretanto, deve-se ter cautela na
passagem dos arquivos para o computador ou para outras mídias, porque o sistema
de compressão pode alterar parâmetros acústicos mais sensíveis.
e. Os Minidiscs populares possuem boa qualidade quando comparados aos não
prossionais, mas não são indicados para gravações cientícas.
f. O CD-R (recordable compact disc) e o CD-RW (compact disc rewritable)
são considerados excelentes mídias para o registro de vozes, tanto no quesito
durabilidade como na delidade da qualidade dos arquivos gravados.
g. As tas VHS (tas de vídeo) podem ser analisadas somente auditivamente ou
perceptualmente e não acusticamente, visto que o sinal geralmente é insuciente
para uma análise acústica de qualidade e acontece um acréscimo de energia nas
regiões agudas do espectro do som. Somente em situações de extrema necessidade
analisa-se acusticamente os registros de uma ta VHS.
8/15/2019 Acustica de voz_Final.pdf
18/50
18
UNIDADE I │ LABORATÓRIO DE VOZ
Análise qualitativa do sinal sonoro
No tocante aos sinais acústicos, ressalta-se nesta seção somente os pontos importantes para
identicação dos sinais acústicos vocais passíveis de análise e conáveis, haja vista a necessidade de
prévios conhecimentos físicos e acústicos bastante técnicos por parte do leitor. A quem interessar,recomenda-se a leitura (leitura complementar) do documento Workshop on Acoustic Analysis,
elaborado por Titze (1995) e apresentado por Behlau et al . (2001), com base nele, apresenta-se
aqui, resumida e didaticamente:
a. Sinal tipo 1: é um sinal quase que periódico e permite mensurações de F0, jitter,
shimmer, harmonicidade e análise qualitativa das perturbações de onda. Vozes
normais ou levemente alteradas produzem sinais desse tipo.
b. Sinal tipo 2: é um sinal acústico que apresenta alterações qualitativas, como
bifurcações, intermitência, sub-harmônicos e modulações. Sugere-se que sejaavaliado somente o traçado espectrográco deste sinal, pois as mensurações
acústicas podem se apresentar comprometidas. A maior parte das vozes patológicas
produzem um sinal desta natureza.
c. Sinal tipo 3: é um sinal aperiódico ou caótico, sem uma estrutura aparente, que
não permite mensuração conável e nem a análise visual, como nos sinais do
tipo 2. Vozes patológicas como nos casos de disfonias neurológicas ou disfonias
espasmódicas são características.
Figura 2: Exemplo esquemático de sinal do tipo 1 (adaptado de BEHLAU et al., 2001).
Figura 3: Exemplo esquemático de sinais do tipo 2 e 3, respectivamente (adaptado de BEHLAU et al., 2001).
8/15/2019 Acustica de voz_Final.pdf
19/50
19
LABORATÓRIO DE VOZ│ UNIDADE I
Com relação aos sinais sonoros, pode-se dizer que a obtenção de medidas acústicas
e a análise do traçado espectrográfico é confiável somente nos sinais do tipo 1. As
vozes patológicas ou disfônicas, com poucos desvios, apresentam sinais do tipo 2 e
permitem a análise confiável do traçado espectrográfico. Nos sinais do tipo 3, que
são caracterizadas por vozes bastante desviadas, a análise acústica não é confiável e
a análise perceptivo-auditiva é a indicada e soberana.
cuidados especiais na avaliação acústica, liste os protocolos de
gravação para que as tarefas fonatórias fiquem bem-definidas para
você. Faça também uma descrição, sucinta, dos 3 tipos de sinais listados
anteriormente e sua associação com os tipos de vozes esperadas.
8/15/2019 Acustica de voz_Final.pdf
20/50
20
UNIDADE IIESPECTROGRAFIA ACÚSTICA
CAPÍTULO 1Conceito e fundamentos associados
Há, em vários estudos, a tentativa de denição e análise dos diferentes parâmetros que se alteram
na presença de uma patologia de voz, uma preocupação com a análise detalhada de parâmetros
acústicos, tais como o pitch, jitter, shimmer e ruído.
A avaliação acústica realiza mensurações do sinal sonoro vocal. A análise espectrográcaacústica mede a distribuição espectral da onda sonora vocal, detectando sutilezas do sinal vocale fornecendo uma representação tridimensional, melhor detalhada a seguir. Esta representaçãorevela dados sobre as fontes do som da voz, friccionais ou glóticas, e ainda características deressonância do trato vocal. Por meio do espectrograma, é possível identicar característicastemporais da onda sonora, tais como: harmônicos vocais e regularidade no traçado, formantes dasvogais, regiões de incremento de energia das consoantes, denição de frequência ou intensidade(BEHLAU et al., 2001; BEHLAU e RUSSO, 1993; ELLIOT et al ., 1995; SATALLOF et al .,1990).
Didaticamente, para melhor entendimento da espectrograa, seguem algumas considerações pertinentes: é por meio de um método número chamado FFT ( Fast Fourrier Transform) queas ondas sonoras complexas2 das vogais são decompostas em seus diferentes constituintes(frequência e amplitude), estas componentes constituem a série harmônica do som, sendo que
existe uma frequência fundamental (F0 – primeiro harmônico) e todos os outros componentesharmônicos são considerados múltiplos inteiros dessa F
0. Duas representações principais são
utilizadas na análise acústica: a representação do sinal no domínio do tempo, que é a sequênciatemporal de amplitudes em determinada taxa de amostragem (forma de onda), e a representaçãono domínio das frequências, que explicita a distribuição dos componentes sonoros (harmônicose formantes) no espectro audível. É muito comum uma representação que mostra a variaçãoespectral no tempo, por meio da concatenação de análises espectrais sucessivas. É o caso dosespectrogramas (gura 5), que são uma representação gráca em dois ou três eixos ortogonais,dos quais um está ligado ao tempo e o outro às frequências. A amplitude dos parciais harmônicos
pode ser representada em um terceiro eixo ou por meio da intensidade dos pontos em um gráco bidimensional, conforme se observa na gura 4:
2 Pode ser entendida como uma sobreposição de duas ou mais ondas sinusoidais (ondas seno) .
8/15/2019 Acustica de voz_Final.pdf
21/50
21
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
Figura 4 – Os dois gráficos referem-se a uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada
por um tenor, na nota Dó 3 (261.6 Hz). Há uma representação da amplitude no eixo vertical e do tempo no eixo
horizontal. Em ambos ocorrem representações no domínio do tempo, sendo o primeiro com a duração total e o
segundo com os primeiros 100 milissegundos.
Legenda: Time – Tempo; (s) – segundos.
8/15/2019 Acustica de voz_Final.pdf
22/50
22
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
Figura 5 – Espectrograma. O gráfico acima se refere à mesma gravação, de cerca de 2.1 segundos de uma
vogal [a] sustentada por um tenor, na nota Dó 3 (261.6 Hz). A representação em questão está no domínio
das frequências (eixo vertical) de todo o sinal, visualizando-se a variação do tempo (eixo horizontal) e pode-se
observar também a amplitude do sinal no grau de escurecimento do traçado.
Legenda: Time – Tempo; (s) – segundos; Frequency – Frequência; (Hz) – Hertz.
É importante ressaltar que a representação no domínio das frequências pode assumir formas
bastante distintas, de acordo com a escolha do intervalo temporal sobre o qual se fará a análise
espectral. Há sempre uma compensação entre as resoluções temporais e de frequência: quanto maisresolução temporal, menos resolução em frequência, e vice-versa.
Encontramos as expressões wide-band (banda larga) e narrow-band (banda estreita) para as
ltragens realizadas pelas transformadas de Fourier em intervalos temporais curtos e em intervalos
mais longos, respectivamente. Na análise vocal, deve-se sempre buscar o intervalo mais adequado
para cada caso, já que as rápidas variações consonantais demandam um intervalo curto e a análise
vocal um intervalo mais longo. Didaticamente, os ltros de banda estreita privilegiam a visualização
dos harmônicos e os ltros de banda larga privilegiam a visualização de formantes.
A gura a seguir, retirada do Handbook of Phonetic Sciences, ilustra os efeitos dessa escolha,utilizando-se uma banda estreita de cerca de 45 Hz e uma banda larga de cerca de 300 Hz. Nesse
caso, o intervalo temporal da ltragem com banda larga é 6.6 maior do que o da banda estreita.
8/15/2019 Acustica de voz_Final.pdf
23/50
23
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
Figura 6 – Os gráficos se referem a três gravações da frase “That›s wonderful ”, em entonações distintas:
a) entonação normal; b) tom de pergunta com surpresa; c) entonação excitada, com destaque nas
palavras “that ” e “wonderful ”. A linha superior traz espectrogramas com banda estreita de filtragem,
evidenciando os harmônicos e a inferior com banda larga, evidenciando os formantes
(fonte: Handbook of Phonetic Sciences, p. XX).
A análise espectrográfica oferece dados sobre a fonte do som e o sistema de
ressonância, evidenciando também aspectos temporais da onda sonora.
O espectrograma é um gráfico tridimensional e que apresenta a variação do tempo
no eixo horizontal, a variação da frequência no eixo vertical e a intensidade no grau
de escurecimento do traçado.
Um espectrograma de faixa estreita ou banda estreita (filtro de 45 Hz) evidencia os
harmônicos do som, enquanto que um espectrograma de faixa larga ou banda larga
(filtro de 300 Hz) evidencia os formantes do som.
8/15/2019 Acustica de voz_Final.pdf
24/50
24
CAPÍTULO 2Terminologia associada
Para o melhor entendimento da espectrograa acústica, faz-se necessário a denição de uma
terminologia frequentemente utilizada e que é de interesse para a atuação clínica.
Frequência, frequência fundamental (F0) ePitch
A frequência é um atributo físico do sinal: velocidade de repetição de uma onda (BAKEN e
ORLIKOFF, 2000).
A frequência fundamental (F0) é uma medida objetiva, um atributo físico do sinal: velocidade de
repetição de uma onda (BAKEN e ORLIKOFF, 2000). É a velocidade na qual uma forma de onda
se repete por unidade de tempo (ciclos por segundo), sendo determinada siologicamente pelo
número de ciclos que as pregas vocais fazem em um segundo (PINHO e CAMARGO, 2001).
É também conhecida como frequência da voz e siologicamente está relacionada à frequência de
vibração das pregas vocais. Este parâmetro é o reexo das características biodinâmicas das pregas
vocais e de sua integração com a pressão subglótica. Portanto, qualquer ajuste que reduza os ciclos
glóticos reduzirá também a frequência fundamental, e o contrário também (BEHLAU et al ., 2005).De maneira didática e para melhor elucidação, quanto menor a frequência fundamental, mais grave
apresenta-se o som. O contrário também é válido, quanto maior a F0, mais agudo apresenta-se o som.
Dentre os parâmetros acústicos, a F0 tem se mostrado o mais consistente parâmetro entre diferentes
sistemas de análise acústica, assim como o parâmetro menos sensível às características de gravação
da voz (BEHLAU et al ., 2001; BARROS e CARRARA-DE ANGELIS, 2002).
Ainda no que se relaciona com a frequência de uma voz, é importante que seja feita a diferenciação
entre F0 e Pitch: este é a sensação psicofísica da frequência fundamental, portanto, não deve ser
confundida com a medida da frequência em si. O Pitch aumenta com a elevação da F0, mas essarelação não é linear, isso ocorre porque nosso sistema auditivo é mais sensível a algumas mudanças
de frequências que outras (BEHLAU et al ., 2001).
Segundo Behlauet al . (1985), as frequências fundamentais médias para homens, mulheres e crianças,
em uma população de 90 sujeitos da cidade de São Paulo, são respectivamente: 113 Hz, 204 Hz e
235 Hz. No entanto, estas medidas não se apresentam estáticas; na voz cantada, por exemplo, são
comuns F0 abaixo dos 100 Hz em homens; no entanto, os tenores podem conseguir alcançar os 600
Hz (BEHLAU e RUSSO, 1993). Para as mulheres, a frequência fundamental mais baixa estará perto
dos 150 Hz, enquanto que o limite para um soprano pode ultrapassar os 1.300 Hz (TITZE, 1994).
8/15/2019 Acustica de voz_Final.pdf
25/50
25
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
A gura 7 traz a representação gráca do cálculo de F0 para uma vogal sustentadacantada:
Figura 7 – Curva de variação da frequência fundamental de uma nota cantada C3 (261.6 Hz). Ressalta-se que asrepresentações gráficas das curvas de F0 são denominadas como “Pitch (Hz)”, pelo programa Praat.
Legenda: Time – Tempo; (s) – segundos; Pitch – F0; (Hz) – Hertz.
Intensidade, Loudness e amplitude
A intensidade, por sua vez, está ligada diretamente à pressão subglótica da coluna aérea. Esta
depende de fatores como amplitude de vibração e tensão das pregas vocais, mais especicamente
da resistência glótica. As variações de intensidade são também dependentes da frequência. Vozes
agudas tendem a ser mais intensas, pois o aumento da tonicidade laríngea gera maior resistência
glótica e consequentemente maior intensidade (BEHLAU e PONTES, 1995; BEHLAU e REHDER,
1997). Ainda no que se refere à intensidade, vale ressaltar que a forma como um ouvinte julga um
som como fraco, adequado ou forte é uma avaliação perceptiva, portanto, refere-se à sensação
psicofísica da intensidade: Loudness (BEHLAU et al ., 2001).
Didaticamente, a amplitude de uma onda é a medida da magnitude da máxima perturbação do meio
durante um ciclo da onda. A unidade utilizada para a medida depende do tipo da onda. Por exemplo,
a amplitude de ondas de som e sinais de áudio pode ser expressa em pressão sonora (Pascal – Pa),
como se dá na gura 8. É também comum que se utilize uma escala de decibéis (dB) e esta escala é
comumente usada na prática, conforme se vê na gura 9.
8/15/2019 Acustica de voz_Final.pdf
26/50
26
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
Figura 8 – O gráco refere-se a uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada por um tenor,
na nota Dó 3 (261.6 Hz). Há uma representação da amplitude no eixo vertical e do tempo no eixo horizontal. Ocorre
aqui representação no domínio do tempo, nos primeiros 100 milissegundos.
Legenda: Time – Tempo; (s) – segundos.
A gura 9 traz a representação gráca de uma curva de intensidade:
Figura 9 – O gráfico refere-se a uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada e mostra
a curva de variação da intensidade (imagem gerada pelo programa Praat ).
Legenda: Time – Tempo; (s) – segundos; Intensity : Intensidade; (dB) – decibéis.
Fontes e filtros do aparelho fonador
Tendo por base estudos preliminares, Gunnar Fant desenvolve e publica a sua “Teoria Acústica
de Produção da Fala”, em 1970. Esta teoria tem sido utilizada para explicar o modelo de produção
8/15/2019 Acustica de voz_Final.pdf
27/50
27
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
da voz e relaciona três fenômenos acústicos: fonte sonora, ltro acústico e radiação. Para melhor
entendimento da combinação desses fenômenos, hipoteticamente não dependentes, segue uma
breve explicação: para qualquer som produzido no aparelho fonador, existe uma fonte sonora (ou
de ruído) que proporciona a entrada de energia acústica no sistema e também um ltro que se
responsabiliza por modicar e amplicar seletivamente (ltrar) os sons provenientes desta fonte,os quais serão irradiados (efeito de radiação) pela boca (FANT, 1970 apud KENT e READ, 1992;
TITZE, 1994).
A fonte sonora pode ter sua origem associada a três fatores: vozeamento, ruído turbulento do ar
originado por constrição e combinação das duas fontes citadas anteriormente. No que diz respeito
ao vozeamento, o som é produzido exclusivamente pela vibração das pregas vocais e constitui a fonte
de energia sonora necessária à produção das vogais (FANT, 1970 apud KENT e READ, 1992). O
ruído turbulento está relacionado à produção das consoantes pelo estreitamento ou pela obstrução
dos articuladores do trato vocal à passagem do ar e, neste caso, as pregas vocais não são utilizadas
como fonte. Por m, é possível a combinação de sons vozeados pelas pregas vocais e de um ruído
turbulento gerado por constrição do trato vocal, originando as consoantes vozeadas, como, por
exemplo, [v] e [z]. É importante frisar que por meio da vibração das pregas vocais é produzida uma
série de ondas relativamente periódicas e complexas, sendo que o número de ciclos dessas ondas
determina, em Hz, o valor da frequência fundamental de uma voz, F0, e uma série harmônica.
Já o ltro é comparado com um tubo (Figura 10) que contém um dos lados abertos, representando
a boca, e o outro fechado, representando as pregas vocais. O tubo é o ressonador e vai favorecer ou
abafar seletivamente as frequências de acordo com sua forma e seu comprimento. Seguindo essa
analogia e exemplicando o que foi dito anteriormente, tratos vocais mais compridos favorecem
as frequências mais baixas e os mais curtos favorecem as frequências mais altas. As frequências
de ressonância são denominadas de formantes e são representadas por picos no espectro sonoro.
Tradicionalmente, o trato vocal possui quatro ou cinco formantes mais relevantes, os quais sofrerão
o efeito de radiação e serão irradiados em todas as direções ao sair da boca. Nesse processo, ocorre
uma nova ltragem do tipo passa-altas, pois há uma tendência de as altas frequências propagarem-
se em linha reta, enquanto que as baixas tendem a se difratar (espalhar). Portanto, a uma longa
distância do locutor, predominam as altas frequências (FANT, 1970 apud KENT e READ, 1992).
A gura 11 mostra o processo de produção das vogais como um todo e ilustra o que foi dito
anteriormente.
Figura 10 – Acima, um tubo uniforme com um dos lados fechados, simulando o trato vocal (adaptado de KENT;
READ, 1992).
8/15/2019 Acustica de voz_Final.pdf
28/50
28
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
Figura 11 – Representação esquemática do processo de produção de vogais fundamentado na teoria fonte-
filtro. A equação diz que a pressão espectral P(s) é o resultado do espectro produzido pela fonte glótica (pregas
vocais), modificada pela função de transferência T(s) do trato vocal e pelo efeito de radiação R(s). Pelo (s)
entende-se por diferentes frequências amplificadas ou produzidas durante todo o processo (adaptado de KENT;
READ, 1992).
O som laríngeo é produzido pela vibração das pregas vocais, considerada como
fonte ou fonte glótica (associada à produção de sons vozeados – vogais e/ou ruído
turbulento-consoantes vozeadas). O filtro pode ser considerado o trato vocal que
vai modificar ou modelar o som originado na fonte, abafando ou amplificando
frequências, de acordo com sua conformação anatômica. Sendo assim, o trato
vocal (filtro) é responsável pela maior parte da informação de um sinal vocal, mas aqualidade e o tipo de sonoridade percebidos são decorrentes da combinação desses
dois fenômenos: fonte e filtro.
Harmônicos e Formantes do som
De acordo com Behlau e Russo (1993), a vibração das pregas vocais determina a frequência glótica
da emissão e, por denição, a frequência da onda complexa é a frequência do primeiro harmônico
(F0).
8/15/2019 Acustica de voz_Final.pdf
29/50
29
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
É bastante comum a abordagem do aparelho fonador a partir de um modelo caracterizado como
fonte-ltro (source-flter). Didaticamente, e reforçando o que foi dito, de um lado, atuam como
fonte sonora principalmente as vibrações das pregas vocais, que no caso das vogais geram um som
com uma frequência fundamental F0 e certo conteúdo harmônico. O trato vocal atua como um ltro,
apresentando diferentes seções ressonantes capazes de se acoplar de diversas maneiras. As variadasformas de interação entre fonte e ltro geram a riqueza acústica que caracteriza a expressão vocal
humana. Se o espectro sonoro do som produzido pelas pregas vocais pode ser considerado o mesmo
para as diferentes vogais de uma mesma frequência, são as características de ressonância do trato
vocal que geram as diferenças de timbre claramente perceptíveis (SHADLE, 1999).
Visto de outro modo: os harmônicos são gerados pelas vibrações das pregas vocais. A energia relativa
entre os harmônicos é modicada pela forma do trato vocal, dando origem às diferentes sonoridades
vocais. Dependendo da forma assumida pelo trato vocal, certas regiões de frequência são mais
amplicadas do que outras, dando origem aos formantes, que são, dentre outras características,responsáveis pela diferenciação entre as vogais. A gura a seguir traz o espectrograma de uma
gravação de uma voz masculina, não treinada, sustentando a nota Dó 2 (130.8 Hz), na sequência
das vogais [a], [e], [i], [o] e [u]. Pode-se observar que não há variação da frequência fundamental
nem da energia média dos primeiros harmônicos.
Legenda: Time – Tempo; (s) – segundos; Frequency: Frequência; (Hz) – Hertz.Figura 12 – Espectrograma de uma gravação de voz masculina não treinada, emitindo a nota Dó 2 (130.8 Hz), sustentandosucessivamente as vogais [a], [e], [i], [o], [u], com aplicação de filtro de banda estreita (imagem gerada pelo programa Praat ).
Os harmônicos aparecem no espectrograma como estrias dispostas horizontalmente com espaço
regular entre si e múltiplos inteiros da frequência fundamental, tendo maior importância em
análise acústica os harmônicos até 5.000 Hz. A distribuição dos harmônicos no espectro oferece
uma indicação sobre a ressonância e projeção vocal, fatores esses de grande importância para a
voz de um cantor. Ao alcançar as cavidades de ressonância, alguns desses harmônicos, quando
8/15/2019 Acustica de voz_Final.pdf
30/50
30
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
sua frequência tem compatibilidade com a do trato vocal, são amplicados, criando os formantes
(BEHLAU et al., 2001; CORDEIRO et al ., 2007; PINHO, 2001; SUNDBERG, 1991).
Os formantes, na maioria das vezes, são expressos por meio de seu valor médio em Hertz (Hz), ou
ciclos por segundo, e designados por F1, F2, F3... Fn, de modo progressivo (BEHLAU, 2001). Deacordo com Dinville (1993, p. 45), “os formantes são frequências que servem para determinar o
timbre”. Dinville (1993) e Cordeiro et al. (2007) descrevem ainda a localização no trato vocal de cada
formante armando que o primeiro formante (F1) ocorre na cavidade posterior da boca e está em
torno de 250 a 700 Hz. Dinville (1993) arma que o segundo formante (F2) ca situado na cavidade
oral entre os valores de 700 a 2.500 Hz. Por sua vez, Cordeiro et al . (2007) concordam que o segundo
formante ca localizado na parte anterior da cavidade oral. Segundo Cukier e Camargo (2005), o
primeiro formante (F1) está relacionado à abertura da boca e à altura da língua na cavidade oral, e o
segundo formante (F2) tem relação com o deslocamento anteroposterior da língua. Para Sundberg
(1987 apud BARRICHELO 2007), o primeiro formante (F1) é sensível à abertura da mandíbula, já que quanto maior a abertura da boca, mais aguda ca a frequência do formante. Para Camargo
et al . (2007), as frequências dos três primeiros formantes determinam a identidade fonética da
vogal, especialmente a dos dois primeiros. Para Cordeiro et al. (2007), o quarto formante (F4)
provavelmente tem ligação com o comprimento do tubo laríngeo. Em relação ao quinto formante
(F5), não há referência quanto ao local para sua produção, mas é praticamente unânime que o F4 e
F5 são responsáveis pela qualidade vocal e pelo timbre da voz (formante do cantor) (CORDEIROet
al ., 2007).
Corroborando o que foi dito anteriormente e em acréscimo a essas informações, de acordo com
Pinho (2001), para que os formantes sejam gerados, é necessária a produção de harmônicospela mucosa das pregas vocais, dessa forma, pode-se pressupor que a produção de harmônicos
e formantes relacionam-se à integridade da mucosa das pregas vocais. Quanto maior a série de
harmônicos, mais individualizados e com traçado linear, maior é a estabilidade da emissão e
mais rica é a qualidade vocal (BEHLAU et al ., 2005; SATALLOF et al ., 1990). Tal representação
é tanto pior quanto maior o comprometimento vibratório das pregas vocais, como nos casos de
rouquidão ou aspereza (BEHLAU et al ., 2001). Nesses casos, o espectrograma será caracterizado
pelo espaçamento irregular entre os harmônicos, pela perturbação na forma da onda, pelo traçado
gráco irregular e, ainda, pela amplitude da frequência fundamental baixa, o que caracteriza a
falta de intensidade vocal do indivíduo devido à insuciência glótica (BEHLAU; RUSSO, 1993). Veja, abaixo, dois exemplos de espectrogramas: o primeiro com uma série harmônica deciente, o
que sugere uma voz patológica e o segundo com uma rica série harmônica, o que sugere uma voz
treinada.
8/15/2019 Acustica de voz_Final.pdf
31/50
31
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
Figura 13 – Espectrograma de uma gravação de uma voz não treinada, emitindo a vogal sustentada [u], com aplicação defiltro de banda estreita, evidenciando uma deficiência da série harmônica, visível até a faixa de 1.000Hz, aproximadamente,
sugerindo uma voz patológica (imagem gerada pelo programa Praat ).
Legenda: Time – Tempo; (s) – segundos; Frequency : Frequência; (Hz) – Hert z
Figura 14 – Espectrograma de uma gravação de uma cantora profissional, emitindo a vogal sustentada [a], com
aplicação de filtro de banda estreita, evidenciando uma riqueza de harmônicos até a faixa de 8.000 Hz (imagem
gerada pelo programa Praat ).
Legenda: Time – Tempo; (s) – segundos; Frequency : Frequência; (Hz) – Hert z. Ct – cantor(a).
8/15/2019 Acustica de voz_Final.pdf
32/50
32
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
Os formantes determinam a qualidade das vogais e contribuem muito para o timbre pessoal do
cantor (CORDEIRO et al ., 2007). Assim, em uma análise acústica, observa-se que os primeiros
cinco formantes são os de maior interesse, sendo que os três primeiros são responsáveis pela
identidade das vogais e possuem características instáveis, já que podem apresentar variações de
vogal para vogal, enquanto que o quarto e o quinto formantes não têm a mesma variação, sendoentão considerados estáveis e responsáveis pelo timbre pessoal, ou seja, pela qualidade e pelo brilho
da voz (BEHLAU, 2001). Sobre esta questão, Medeiros (2004) ressalta que há uma diferença entre o
padrão formântico das vogais faladas em relação às vogais cantadas. O que se observa é que na vogal
cantada há uma distorção do formante, tanto acusticamente quanto articulatoriamente em relação
à vogal falada, ocorrendo uma sobreposição do primeiro formante das vogais [a], [e] e [o]. Dessa
forma, ca sendo responsabilidade do segundo formante a diferenciação acústica dessas vogais, já
que não se observa a sobreposição do segundo formante.
O formante do cantor
O cantor treinado tem a capacidade de sobressair-se ao som de uma orquestra sem fazer uso de
amplicação sonora como o microfone e sem prejudicar seu aparelho fonador. Na maioria das vezes,
o responsável por esse fenômeno é o formante do cantor (CORDEIRO et al., 2007; SUNDBERG,
1974).
O formante do cantor é encontrado geralmente em vozes com treinamentos especícos do canto
erudito e é denido pela amplicação sonora das frequências entre 2.000 e 4.000 Hz, sendo
demonstradas no espectro acústico pela junção do terceiro, quarto e quinto formantes superiores(F3, F4 e F5). Isso se deve à sua localização na região aguda e ao elevado pico de amplitude, desta
forma, não se tem ocorrência em outras vozes ou mesmo em instrumentos da orquestra (BEHLAU
et al., 2001; CORDEIRO et al., 2007; SUNDBERG, 1987). Segundo Fant (1970 apud KENT e READ,
1992), o trato vocal, por meio do controle ativo no canto, pode incrementar de 3 a 5 dB na amplitude
das frequências agudas, além do acréscimo natural de 10 a 15 dB já existente.
Segundo Sundberg (1987 apud BARRICHELO et al ., 2005) a técnica lírica é utilizada pelos cantores
de ópera, que apresentam mecanismos “inteligentes” para destacarem suas vozes da orquestra, por
isso suas vozes apresentam um pico espectral intenso e largo em torno de 3.000 Hz. É este pico que
proporciona aos harmônicos uma maior amplitude relativa e o agrupamento dos formantes que,conforme descrito por este autor, proporciona ao ouvinte a sensação de “brilho” e “projeção vocal”.
Raticando, o responsável pelo fenômeno descrito é o formante do cantor e a ocorrência desta
manifestação está relacionada ao abaixamento da laringe e ao alargamento da cavidade faríngea,
embora este não seja o único mecanismo existente.
Abaixo, seguem guras que contribuem para o entendimento sobre o formante do cantor:
8/15/2019 Acustica de voz_Final.pdf
33/50
33
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
Figura 15 – Espectro do formante do cantor e sua comparação com a orquestra, note que ocorre um pico
espectral por volta da região de 3.000 Hz (adaptado de YASUNORI et al ., 2005).
8/15/2019 Acustica de voz_Final.pdf
34/50
34
CAPÍTULO 3Parâmetros acústicos
F0 e seus índices de perturbação
Jitter e shimmer
As variações em altura da F0 e em intensidade da amplitude de cada período são respectivamente
denominadas jitter e shimmer. Estes se apresentam como medidas de estabilidade fonatória
(BEHLAU, 1997; 2001).
A perturbação da frequência em curto prazo é normalmente designada por jitter, representando a
variação da frequência fundamental de um ciclo para outro (BAKEN, ORLIKOFF, 2000; BEHLAU
et al., 2001) e indica a variabilidade da frequência. É uma medida de curto termo (ciclo a ciclo)
de variabilidade involuntária do F0, o que permite determinar o grau de estabilidade do sistema
fonatório (BAKEN; ORLIKOFF, 2000; BEHLAU et al., 2001). Os resultados da perturbação são
apresentados em milissegundos ou microssegundos (BAKEN; ORLIKOFF, 2000). A partir do
momento em que o jitter não é zero, a perturbação de frequência é um correlato acústico dos
padrões vibratórios erráticos, ou seja, é uma medida que representa a aperiodicidade vocal (LAVER,
1981 apud BEHLAU et al ., 2001). Os valores de jitter em indivíduos normais podem representaruma pequena variação na massa ou na tensão das pregas vocais, na distribuição do muco sobre
elas, na simetria das estruturas ou ainda na atividade muscular ou neural envolvida (BAKEN, 1987
apud BEHLAU et al ., 2001). Entretanto, os valores de jitter encontram-se aumentados na presença
de lesões que afetam as pregas vocais, devido ao aumento da aperidiodicidade nas vibrações
(BEHLAU et al., 2001) e torna-se não conável quando a aperiodicidade aumenta (LAVER, 1981
apud BEHLAU et al ., 2001).
Os softwares disponíveis no mercado oferecem as medidas de jitter, cada qual ao seu critério e
disponibilidade. Certamente, o software Praat é um programa que oferece as cinco medidas de jitter, todas relacionadas ao mesmo fenômeno e descritas por Behlau et al . (2001). O jitter local/
absoluto é a média dos valores absolutos das diferenças entre períodos consecutivos do trecho
analisado e é expresso em segundos ou em suas subdivisões. O jitter local é derivado do valor
calculado acima dividido pelo período médio do trecho em questão, expresso em porcentagem (%).
Os demais cálculos levam em conta mais períodos vizinhos, efetuando uma espécie de ltragem
que desconsidera alterações muito rápidas. São eles: jitter (rap) – relative average perturbation
– jitter (ppq5) – fve point period perturbation quocient – e jitter (ddp), cujo valor é três vezes o
valor do jitter (rap). Com exceção do jitter local/absoluto, os demais valores de jitter são relativos e
sempre expressos em %.
Os valores limites de normalidade para jitter podem variar de acordo com o software ou autor
estabelecido, por exemplo: o valor limite de normalidade para o jitter local é de 0.5% (BEHLAU et
8/15/2019 Acustica de voz_Final.pdf
35/50
35
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
al., 2001). Boersma traz no manual do Praat o valor de 1.04% como esse limite, mas indica que esse
valor deve ser provavelmente menor, já que as medições realizadas no cálculo foram inuenciadas
por ruídos. O valor de referência estabelecido por Viera et al. (1997) para vozes não disfônicas é o de
0,30%. Vê-se que não acontece uma padronização das medidas de jitter dentre os autores, portanto,
esta medida deve ser usada com cautela.
Com relação às sugestões na obtenção das medidas de jitter, vale ressaltar que deve ser medido por
análise de vogais sustentadas, numa única frequência, sem variação musical ou de intensidade, em
emissão habitual, eliminando-se o início e o m da produção, por suas características irregulares
(BEHLAU et al., 2001).
Outro parâmetro que deve ser levado em consideração refere-se à medida da variação da amplitude
da vibração. Esta medida recebe o nome deshimmer e o seu conceito pode ser explicado por analogia
ao seu “companheiro de perturbação”, o jitter. Shimmer representa a variação da amplitude de ciclo
para ciclo e permite quanticar as alterações mínimas da amplitude do sinal, com base em cada ciclo
fonatório (COLTON; CASPER, 1998). Se, em termos de fonação, a voz humana fosse absolutamente
estável, tal medida seria zero. No entanto, assim como o jitter, havendo uma patologia em termos
de funcionamento da laringe, por exemplo, tais valores serão sempre elevados.
Assim como acontece no jitter, existe uma diversidade de valores limites para a normalidade do
shimmer, dependendo do programa ou do autor escolhido para referência. Pelo fato de o software
Praat oferecer com maior completude as medidas acústicas, ele é citado como referência. O respectivo
software oferece seis valores de shimmer: o shimmer local é calculado de forma análoga ao jitter
local, sendo resultado da divisão da média dos valores absolutos das diferenças de amplitude entreperíodos vizinhos pela amplitude média do trecho analisado. É também expresso em %. O shimmer
(local, dB), expresso em decibéis, é resultado da multiplicação por 20 do logaritmo de base 10 da
média dos valores absolutos das diferenças de amplitude. As outras medidas são shimmer (apq3),
shimmer (apq5), shimmer (apq11), shimmer (dpp), cujos métodos de cálculo estão detalhados no
manual do software.
Todas as medidas relativas de shimmer são oferecidas em porcentagem e o valor limite de shimmer
local é de 3% (BEHLAU et al., 2001). Boersma e Weenink (2010) estabelecem 3,81% como um
limite para a patologia, no Praat .
Tremor e vibrato
Assim como o jitter e o shimmer, o tremor e o vibrato representam índices de perturbação da
frequência fundamental (F0) e possuem representações espectrográcas que podem ocasionar
dúvida se não forem bem-compreendidas.
Fisiologicamente, o tremor vocal patológico caracteriza-se pelo movimento rítmico da laringe, que
produz alterações rítmicas de pitch e loudness durante a fonação. Estes movimentos laríngeos são
muitas vezes acompanhados de tremor da cabeça e de extremidades (INAMURA; TSUJI, 2006
apud ARONSON et al ., 1968) e podem ser provenientes de um ou de vários componentes da fala,
8/15/2019 Acustica de voz_Final.pdf
36/50
36
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
seja relacionado à respiração, fonação ou articulação (BEHLAU et al ., 2001). O tremor pode estar
presente apenas durante a fonação ou aparecer no repouso. Apesar de ser identicável durante a
fala encadeada em alguns indivíduos, é mais facilmente reconhecido durante a emissão de vogal
sustentada. Casos graves de tremor vocal podem cursar com interrupções fonatórias similares
àquelas da disfonia espasmódica de adução. No que diz respeito ao tremor vocal siológico, estepode ocorrer em situações de frio, estresse ou emoção, ou ainda, na presbifonia (BEHLAU et
al ., 2001). Acusticamente e de maneira geral, o tremor neurológico vocal caracteriza-se por uma
modulação de ordem de 1 a 20 Hz, sendo que o tremor lento varia de 1 a 2 Hz e uma oscilação de
10 Hz, aproximadamente, está associada ao tremor rápido, como nos casos de esclerose múltipla.
Estabelece-se o limite para normalidade, a frequência e a amplitude do tremor ao redor de 1 a 2 Hz
(BEHLAU et al ., 2001).
Ao contrário do tremor, o vibrato caracteriza-se, acusticamente, pela modulação regular da
frequência fundamental e é utilizado pelos cantores líricos e por alguns populares como umrecurso estético que confere expressividade ao canto. Pode ser visto como um tremor siológico
ordenado e faz com que a F0
oscile para cima e para baixo, em uma amplitude pequena e algumas
vezes por segundo (DEJONCKERE et al ., 1995). Normalmente, a variação do vibrato possui uma
média que ca entre 2 e 8 Hz em cantores líricos e a extensão da intensidade varia entre 2 e 3
dB. Ressalta-se que o vibrato pode ser de frequência somente e/ou de amplitude (BEHLAU et al .,
2001). Fisiologicamente, o vibrato não é um acontecimento bem-denido e há sugestões de que
pode ocorrer como uma oscilação da musculatura cricotireoidea, uma contração alternada da
musculatura laríngea e diafragmática ou, também, como um tremor da musculatura respiratória e
do trato vocal. Mas nos cantores que possuem boa técnica, como os eruditos, o vibrato é controlado
e regular.
Abaixo, seguem dois exemplos, representados gracamente em espectrogramas, de vibratos. Em
ambos os casos, foram aplicados ltros de banda estreita.
O primeiro espectrograma (Figura 16) pode ser considerado como de um cantor com um treinamento
não tão apurado quanto o cantor da gura 17, que pode ser visto como um cantor com excelente
treinamento técnico, certamente, com técnica lírica ou erudita.
Observe que, em ambos os grácos, ocorrem emissões de vogal sustentada cantada, em uma
única nota, e os harmônicos encontram-se individualizados. Observa-se, ainda, um incremento deenergia (harmônicos mais escuros) ao redor de 3.000 Hz, onde está situado o formante do cantor.
Entretanto, nota-se no primeiro espectrograma, uma emissão entrecortada e pouca denição da
variação do vibrato e, já no segundo espectrograma, é visível a boa denição e regularidade do
traçado espectrográco (harmônicos) e com considerável energia (harmônicos mais escuros).
Figura 17 – Espectrograma de emissão de uma vogal sustentada, cantada, por cantor, evidenciando
um vibrato entrecortado e com intervalos irregulares (imagem gerada pelo software Gram 5.0).
8/15/2019 Acustica de voz_Final.pdf
37/50
37
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
Figura 18 – Espectrograma de emissão de uma vogal sustentada, cantada, por cantor erudito, evidenciando o
vibrato vocal (adaptado de BEHLAU et al ., 2001) (imagem gerada pelo software Gram 5.0).
Medidas de ruído (HNR) ou harmonicidade
A harmonicidade ou Harmonic Noise Ratio (HNR) é uma medida que relaciona a componente
harmônica com a componente de ruído da onda, ou seja, contrasta o sinal regular das pregas vocais
com o sinal irregular das pregas e do trato vocal (BEHLAU et al., 2001). Resumidamente, oferece
um índice que relaciona o componente harmônico versus o componente de ruído da onda acústica.
A harmonicidade é um dos parâmetros acústicos que representa a medida de ruído presente nosinal de voz. Representa o grau da periodicidade acústica (BOERSMA; WEENINK, 2003); esta
medida é expressa em dB: se 99% da energia do sinal for periódica e 1% representar ruído, o HNR é
8/15/2019 Acustica de voz_Final.pdf
38/50
38
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
10 * log10(99/1) = 20dB. A HNR de 0 dB signica que há energia igual nos harmônicos e no ruído.
Valores inferiores a 7 dB são necessariamente patológicos (BEHLAU, 1997). Quanto mais elevada
a frequência, maior o componente harmônico da onda acústica para indivíduos normais, por isso,
geralmente, mulheres apresentam valores de harmonicidade mais elevados que homens.
Por exemplo, um falante saudável pode produzir uma vogal sustentada [a] ou [i] comum harmonicidade de cerca de 20 dB e um [u] em torno de 40 dB, a diferença vem dasaltas frequências em [a] e [i] versus as baixas frequências em [u], resultando em umamaior sensibilidade de HNR de jitter em [a] e [i] do que em [u]. Falantes roucos terãoum [a] com um harmonicidade muito menor do que 20 dB (BOERSMA, WEENINK,2003).
Abaixo, para ilustração, um exemplo de uma curva de harmonicidade. A harmonicidademédia do trecho medido é de 31.2 dB, demonstrando uma voz normal e com boa HNR.Foram eliminados os 100 milissegundos iniciais e nais do sinal gravado nos cálculosefetuados.
Figura 19 – Curva de harmonicidade de uma gravação de cerca de 2.1 segundos de uma vogal [a] sustentada
por um tenor, na nota Dó 3 (261.6 Hz). Há uma representação da harmonicidade no eixo vertical e do tempo no
eixo horizontal (imagem gerada pelo software Praat).
Legenda: Time – Tempo; (s) – segundos; Harm – Harmonicidade; (dB) – decibéis.
1. A frequência fundamental (F0) é uma medida extremamente confiável,
mesmo em condições adversas de gravação.
2. A série harmônica (infinita) é produzida pela vibração das pregas vocais,
sendo o primeiro harmônico denominado frequência fundamental (F0).
3. Frequência fundamental (F0) pode ser entendida como frequência glótica
(Fg) e os harmônicos subsequentes são múltiplos inteiros da frequênciafundamental. Como exemplo: se a F
0de uma voz é 200 Hz, o segundo
harmônico possui o valor de 400 Hz e assim por diante.
8/15/2019 Acustica de voz_Final.pdf
39/50
39
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
4. A série de harmônicos é tão mais rica quanto melhor a coaptação glótica.
5. Formantes do som podem ser considerados como frequências de
facilitação de ressonância do trato vocal, que abafa ou amplifica
determinados grupos de harmônicos conforme a configuração de suasestruturas.
6. Os formantes do som, assim como os harmônicos, apresentam uma série
infinita e são mostrados pela frequência média do grupo de harmônicos
que os integram (F1 – primeiro formante, F2 – segundo formante e assim
por diante).
7. As vogais utilizam apenas a fonte glótica em sua produção, o som
produzido é considerado quase que periódico, somente as vogais têm
formantes.
8. As consoantes são sons aperiódicos, considerados como ruídos de
intensidade relativamente fraca quando comparadas com as vogais.
9. As consoantes não possuem formantes, mas, sim, regiões de incrementos
de energia.
10. As perturbações da onda acústica podem ser observadas em curto prazo,
por meio do jitter e shimmer, e em longo prazo, por meio do tremor e do
vibrato.
11. O componente de ruído pode ser gerado na glote ou em diferentes regiões
do trato vocal.
12. Quanto maior o componente harmônico de uma voz, menor é o índice
de ruído que ela produz, gerando, assim, um considerável valor de
harmonicidade.
13. Quanto mais saudável ou mais treinada é uma voz, mais limpo é o
espectrograma e não há o preenchimento dos espaços entre as faixas deenergia por estrias verticais, também conhecidas como recheio de ruído.
14. As análises de parâmetros isolados não traçam o perfil vocal do indivíduo.
Os dados precisam ser correlacionados com a avaliação clínica.
1. Se o quinto (5º) harmônico possui um valor de 600 Hz, qual será o valor da
frequência fundamental desta voz?
2. Uma voz apresenta uma qualidade vocal rouca e com pitch grave,
para uma mulher, que foi diagnosticada como um quadro de DisfoniaOrganofuncional, apresentando uma lesão chamada de Edema de Reinke.
8/15/2019 Acustica de voz_Final.pdf
40/50
40
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
O que se pode esperar com relação à frequência fundamental dessa voz
que esteja rebaixada ou aumentada?
3. Um paciente apresenta um sulco vocal e com qualidade vocal julgada
como áspera, qual o picth esperado (grave ou agudo)? Sua frequênciafundamental é rebaixada ou aumentada?
4. O que se esperaria de um espectrograma de uma voz dita normal? Que
seja limpo ou com recheios de ruído?
5. Os recheios de ruído são encontrados em vozes normais ou patológicas?
6. Caso você avalie um paciente que apresenta uma patologia vocal, por
exemplo, um nódulo, você espera uma rica sequência de harmônicos?
7. Se a frequência fundamental de uma voz é de 180 Hz, qual a medida do
7º harmônico vocal? Espera-se que seja um falante do gênero masculino
ou feminino?
8. Caso um paciente apresente uma lesão de massa ou mesmo um edema
difuso nas pregas vocais, quais resultados você esperaria das medidas de
jitter e shimmer ? Alterados ou normais?
9. Se, após a sua avaliação perceptivo-auditiva, julgar a voz em
questão como rouca ou soprosa, esperaria medidas de shimmernormais ou alteradas?
10. Um valor extremamente alterado e aumentado de jitter pode ser indicativo,
fisiologicamente, de um controle adequado de vibração das pregas vocais
ou inadequado?
8/15/2019 Acustica de voz_Final.pdf
41/50
41
CAPÍTULO 4Parâmetros auditivos e correlatos
espectrográficos acústicosNa realidade brasileira, no ano de 1999, Behlau publicou diversos correlatos espectrográcos
acústicos vinculados a parâmetros auditivos especícos. Os correlatos espectrográcos podem ser
vistos como descrições qualitativas do traçado espectrográco de acordo com a qualidade associada.
Como os correlatos são diversos, serão mostrados, neste capítulo, os espectrogramas relacionados
a qualidades vocais que frequentemente são encontradas na prática clínica e seus correlatos
espectrográcos acústicos, conforme se vê abaixo.
Sugere-se a leitura do capítulo 3 (Avaliação de Voz) do livro Voz I , de Mara Behlau,
para que você tenha acesso e conhecimento das qualidades vocais listadas e de seus
correlatos espectrográficos correspondentes, ou na própria publicação feita pela
autora no ano de 1999.
Atente-se para os correlatos espectrográcos descritos por Behlau (1999) e compare com os grácos
apresentados adiante, lembrando que cada correlato deve ser associado à qualidade vocal em
questão, seguem:
a. qualidade vocal rouca: perturbação da forma de onda, registro dos formantes
substituído por ruído e, dependendo da gravidade da lesão que gera tal qualidade vocal,
os harmônicos podem não existir. Imagem de “esburacamento” no traçado de faixa-
larga. Conforme dito, quanto maior o grau de rouquidão, mais os formantes superiores
vão sendo decompostos. A marca siológica da qualidade vocal rouca é apresentar uma
a aperiodicidade de vibração das pregas vocais e/ou uxo de ar turbulento na glote,
como é característico nos casos de nódulos vocais ou nas fendas glóticas;
b. qualidade vocal soprosa: apresenta nível de energia reduzido no espectro, abaixo de
5.000 Hz; formantes fracos e claros (indicando rebaixamento da intensidade); o nível
de energia que pode gurar acima de 5.000 Hz está relacionado à presença de ruído
(ar não sonorizado), nota-se um preenchimento por meio de estrias verticais, no
espectrograma de faixa larga; quanto maior a soprosidade, mais escuras e denidas
apresentam-se as estrias na região aguda do espectro e mais claras na região mais
grave do espectro; no espectrograma de faixa estreita, os harmônicos são fracos,
com recheio de ruído entre eles, ou seja, entenda por uma imagem hachurada entre
as linhas dos harmônicos, o que congura os casos de pregas vocais com coaptação
insuciente, como nas fendas glóticas ou no sulco vocal.
c. qualidade vocal tensa: apresenta uma frequência fundamental aguda e com alto
nível de energia, o traçado espectrográco é bem-denido, o que caracteriza,
siologicamente, pouca massa em vibração, como nos casos de sulco vocal (rigidez
de mucosa) ou na muda vocal incompleta.
8/15/2019 Acustica de voz_Final.pdf
42/50
42
UNIDADE II │ESPECTROGRAFIA ACÚSTICA
Apresentação de diferentes qualidades vocais
Em todos os trechos foram utilizadas vogais sustentadas, com registros intermitentes, para facilitar
a leitura dos traçados espectrográcos. As emissões apresentam-se intermitentes, como dito e na
seguinte ordem de qualidade vocal: rouca, soprosa e áspera-comprimida.
As imagens foram geradas pelo programa Dr. Speech, 4.0, Tiger DRS, módulo Real Analysis.
É importante se dizer que a gura 20, apresenta um espectrograma de banda estreita, ou seja, com
aplicação de um ltro de banda estreita de 60 Hz, para evidenciar os harmônicos do som. A gura 21
apresenta um espectrograma de banda larga, é representado pelo “C” e apresenta um espectrograma
de banda larga, ou seja, com aplicação de um ltro de banda larga de com um ltro de 240 Hz, para
evidenciar os formantes do som.
Nas guras abaixo, seguem os espectrogramas:
1. Com aplicação de ltro de banda estreita.
Figura 20: espectrograma de banda estreita, evidenciando os harmônicos, de vogal sustentada. No eixo vertical
(Y), acontece a variação da frequência; no eixo horizontal (X), está representado o tempo e a intensidade no grau
de escurecimento do traçado. A primeira emissão é caracterizada pela qualidade vocal rouca, com uma série
harmônica definida e F0 mais grave que nas outras emissões, note também os ruídos entre os harmônicos (áreas
hachuradas) o que demonstra a existência de ar não sonorizado. Na segunda emissão, com qualidade vocal
soprosa, nota-se uma F0 mais aguda que na emissão rouca e também uma serie harmônica reduzida. Notetambém um preenchimento de ruído entre harmônicos mais considerável que na qualidade vocal rouca e com
um diferencial: na região mais aguda do gráfico, os harmônicos são substituídos pelo recheio de ruído, típico de
uma voz soprosa. Na terceira e última emissão, note que há praticamente uma substituição da série harmônica
por ruído, com definição praticamente do traçado da F0 (adaptado de BEHLAU et al ., 2001).
8/15/2019 Acustica de voz_Final.pdf
43/50
43
ESPECTROGRAFIA ACÚSTICA │ UNIDADE II
2. Com aplicação de ltro de banda larga.
Figura 21: espectrograma de banda larga, evidenciando os formantes, de vogal sustentada. No eixo vertical (Y),
acontece a varia