23
Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Embed Size (px)

Citation preview

Page 1: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Mel Frequency Cepstral Coefficients for Music Modeling

Autores : Beth Logan

Cambridge Research Laboratory ISMIR - 2003

Page 2: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

O que são Mel Frequency Cepstral Coefficients ?

MFCC são geralmente usados como features de sistemas de reconhecimento de fala.

Um exemplo seria um sistema de SAC que pode reconhecer automaticamente números falados em um telefone.

Page 3: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Introdução

Neste trabalho foi examinado com alguns detalhes Mel Frequency Cepstral Coefficients ( MFCCs ), que são features dominantes usadas no reconhecimento da fala.

Investigamos a aplicabilidade destas features na modelagem musical.

. A composição espectral de um sinal contém muita informação.

. São features sensíveis ao ruído.

Page 4: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Introdução

MFCCs são features de curto prazo, elas são calculadas como segue:

1 – Divide o sinal em Frames. 2 - Para cada Frame, obtém a amplitude do

espectro. 3 – Aplica-se logaritmo. 4 – Aplica-se DCT ( Discrete Cosine Transform ) .

Page 5: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Introdução

Examinamos 2 dos principais pressupostos no processo de formação de MFCC:

1 - A utilização de Mel Frequency scale para modelar o espectro.

2 - Discrete Cosine Transform (DCT ) para “decorrelate” Mel-spectral vectors.

Page 6: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

MFCC for Speech Recognition

MFCC são as features dominantes utilizadas no reconhecimento da fala.

Seu sucesso é devido a capacidade de representar a amplitude do espectro da fala de uma forma compacta.

Page 7: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

MFCC for Speech Recognition

Page 8: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

MFCC for Speech Recognition

A escala Mel é baseada em um mapeamento entre a frequência real e o pitch aparentemente percebido do sistema auditivo humano.

Page 9: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

MFCCs for Music Analysis

Como visto anteriormente o processo de cálculo de MFFCs para fala consiste em 5 etapas:

.Dividir o sinal em frames

.Obter a amplitude do espectro .Transformar para Logaritimo .Converter para espectro Mel .Aplicar DCT

Vamos procurar determinar se este processo é adequado na criação de features para um modelo musical

Page 10: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Mel vs Linear Spectral Modeling

Para investigar se é apropriado para determinar o spectrum da música usando a escala mel, usamos um áudio de speech/music simples.

Temos disponíveis cerca de 3 horas de dados rotulados de um programa de transmissão de rádio.

O programa contém entrevistas, comerciais e uma série de segmentos de músicas.

Page 11: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Mel vs Linear Spectral Modeling

Os dados são divididos da seguinte maneira :

.2 horas de dados de treino - 10% rotulados como música.

. 40 minutos de dados de teste - 14 % rotulados como música.

Page 12: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Mel vs Linear Spectral Modeling

Nós convertemos os dados de treinamento para a escala ‘Mel’ e para ‘um Linear Spectral Modeling’.

Usando uma versão padrão de algoritmos EM ( Expectation – Maximization ) nos treinamos uma mistura de Classificadores Gaussianos para rotular segmentos de fala/música dos dados de treinamento.

Page 13: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Mel vs Linear Spectral Modeling

Page 14: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Using the DCT to Approximate the KL Transform

Oque é um Karhumen – Loève ?

A KL é uma transformação linear que permite a representação de funções utilizando funções-base formadas pelos “eigenVectors” ( autovetores) da matriz de correlação do sinal.

A KL é uma transformação linear que geralmente é realizada para encontrar ‘eigenValues” ( autovalores ) da matriz de covariância.

Page 15: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

KL Transform

A transformação KL converte um vetor u de dimensão m em um vetor v de dimensão n onde :

. n <= m e v é “uncorrelated”

. Isso é expresso como : v = Ou

Page 16: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

KL Transform

Obs : The speech used is the trainning set for TIMIT( Garofolo et al. 1993) which is a speaker independent, clean speech database ( 3 hours of speech ).

Page 17: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Usando DCT

Na comunidade de reconhecimento de fala é usado um DCT ( Discrete Cosine Transform ) para aproximar da transformação KL.

A transformação é escrita como : c = Du

onde c é o coeficiente cepstral de u e D que é n x m matrix of cosine basis.

Page 18: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Usando DCT Pelos nossos estudos, observamos que o DCT está próximo do

ótimo para a função de “decorrelated” para fala.

Page 19: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

KL transform for music spectra

Vamos agora examinar a transformação KL para música.

A figura a seguir mostra os “eigenValues” e os 15 primeiros “eigenVectors” para uma sequência de Mel Log Spectral vectores coletados de Músicas dos Beatles (289 minutos de música no total).

Page 20: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

KL transform for music spectra

Page 21: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Conclusão

Neste paper, procurou-se construir um caso de sucesso na comunidade de reconhecimento de fala pela investigação de como aplicável é, usar features dominantes da fala (spectral features ) para a modelagem de música.

Page 22: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

Referências

Foote, J.T. (1997), Content-based retrieval of music and audio, in ‘SPIE’,pp. 138-147.

Garolfo, J.S. Et al. (1993), Darpa timit. acoustic-phonetic continuous speech corpus. Nistir 4930, Technical report, DARPA.

Logan, B. T. & Chu, S. (2000), Music summarization using key phrases, in ‘Proceedings IEEE International Conference in Spoken Language Processing’

Page 23: Mel Frequency Cepstral Coefficients for Music Modeling Autores : Beth Logan Cambridge Research Laboratory ISMIR - 2003

EigenValues and EingenVectors

Vejamos um exemplo de eigenValue e EigenVector:

Se vc for perguntado se é um eigenVector correspondente do

eigenValue para voce pode descobrir, subistituindo x, e A na equação :