6
SISTEMA VISUAL PARA INTERA¸ C ˜ AO HUMANO-M ´ AQUINA Carolina M. Salcedo * , J´ es de Jesus Cerqueira * , Antonio M. N. Lima * Programa de P´os-Gradua¸ c˜ao em Engenharia El´ etrica Escola Polit´ ecnica da Universidade Federal da Bahia Rua Aristides Novis, 02, Federa¸ c˜ao, Salvador, Bahia, Brasil Telefone: +55-71-3283-9776 Centro de Engenharia El´ etrica e Inform´atica Departamento de Engenharia El´ etrica da Universidade Federal de Campina Grande Rua Apr´ ıgio Veloso, 882, Bodocong´o, Campina Grande, Para´ ıba, Brasil Telefone: +55-83-310-1136 Emails: [email protected], [email protected], [email protected] Abstract— This paper presents preliminary results about the development of a real time vision system for human-machine interaction (HMI). The purpose of such vision system is to develop a tool that provides additional information for the caregiver (therapist, teacher, etc.), concerning the emotional behavior of people with limited social interaction. The vision system integrates the detection, tracking and facial expression recognition of human. The techniques for detection and tracking of faces are based on a combination of techniques which allows to obtain greater robustness of the system. The recognition of facial expressions is based on Active Shapes Models (ASM) and Facial Action Coding Systems (FACS). Experimental results are presented, and shown to be satisfactory, with a success rate of 82.25%. Keywords— HMI, Detector, ASM, FACS, features. Resumo— Este artigo apresenta resultados preliminares do desenvolvimento de um sistema de vis˜ao em tempo real para intera¸c˜ao humano-m´aquina. O objetivo de tal sistema de vis˜ao´ e desenvolver uma ferramenta que forne¸ca informa¸c˜ ao adicional ao cuidador (terapeuta, professor, etc.), acerca do comportamento emocional de pessoas comlimita¸c˜aonaintera¸c˜aosocial. O sistema de vis˜ ao cont´ em: (i) detec¸c˜ ao e rastreamento de faces humanas em tempo real; e (ii) reconhecimento de express˜oes faciais. As t´ ecnicas de detec¸ c˜ao e rastreamento de faces s˜ao baseadas numa combina¸c˜ao de t´ ecnicas que permite obter maior robustez do sistema. O reconhecimento das express˜oes faciais´ e baseado no Modelo de Forma Ativa (ASM) e unidades de codifica¸c˜ aodea¸c˜aofacial(FACS). Resultados experimentais s˜ao apresentados, e mostram-se satisfat´orios, com uma taxa de acerto de 82.25%. Palavras-chave— IHM, Detector, ASM, FACS, carater´ ısticas 1 INTRODU ¸ C ˜ AO Um dos principais objetivos na ´area de tecnologia dainforma¸c˜ ao, ´ e dotar o computador de um com- portamento inteligente (um comportamento hu- mano, por assim dizer), o que tem levado a pesqui- sas e desenvolvimento de in´ umeros estudos que po- dem trazer melhorias significativas na ´area da in- tera¸c˜ ao humano-m´ aquina, tornando-se ao mesmo tempo uma contribui¸c˜ ao relevante para as ciˆ encias cognitivas, que vˆ em mostrando avan¸cos significa- tivos no auxilio de terapias para autismo; terapias para pessoas com deficiˆ encias f´ ısicas; em psicope- dagogia e medicina. Diversos pesquisadores argumentam que existe um conjunto de emo¸c˜ oes denominadas b´ a- sicas ou primarias, que foram preservadas durante processos de evolu¸ ao, pois elas possibilitam a adapta¸c˜ ao do comportamento dos organismos a diversas situa¸ oes com as quais as criaturas se de- param diariamente. Entre as apresentadas na li- teratura como b´ asicas, podem-se citar a raiva, a alegria, o medo, tristeza e a surpresa. Estas emo- ¸c˜ oes servem a prop´ ositos espec´ ıficos e emergem em determinados contextos do ambiente, para pre- parar o organismo a responder apropriadamente (Almejrad, 2010; Ekman e Friesen, 1978). A habilidade de imitar express˜ oes faciais hu- manas estabelece as bases para uma comunica¸c˜ ao ao-verbal significativa entre humanos e m´aqui- nas. A an´ alise de express˜ oes faciais nasceu de Darwin, no s´ eculo XIX onde ele propˆ os o conceito de express˜ oes faciais universais em homens e ani- mais. Pesquisas recentes em terapia de Transtorno do espectro Autista - TEA, est˜ ao fazendo uso daIntera¸c˜ ao Humano-M´ aquina como auxilio `as mesma, e tˆ em-se apresentado avan¸cos consider´ a- veis. Os pesquisadores tˆ em-se focado em desenvol- ver sistemas que permitam reconhecer e ensinar emo¸c˜ oes a este tipo de pacientes. Mas o problema ao se radica a´ ı; ´ e importante saber se o que o paciente est´ a aprendendo ´ e realmente o tipo de express˜ ao adequada e, caso apare¸ cam erros, ter outras ferramentas para corrigi-los. Na literatura t´ ecnica existem propostos v´ arios sistemas de vis˜ ao para intera¸c˜ ao humano-m´ aquina que reconhecem express˜ oes faciais. Em Azcarate et al. (2005) por exemplo, constru´ ıram uma m´as- cara que ´ e deformada com os movimentos faci- ais realizados quando o usu´ ario muda a express˜ ao facial, utilizando os classificadores Naive Bayes (Precis˜ ao 64.3%.). Bahonar e Charkari (2009), detectam regi˜ oes da face, tais como olhos, sobran- celhas, nariz e boca. Zhao et al. (2012), imple-

Carolina M. Salcedo , J es de Jesus Cerqueira · 2015-02-07 · yCentro de Engenharia El etrica e Informatica Departamento de Engenharia El etrica da Universidade Federal de Campina

Embed Size (px)

Citation preview

SISTEMA VISUAL PARA INTERACAO HUMANO-MAQUINA

Carolina M. Salcedo∗, Jes de Jesus Cerqueira∗, Antonio M. N. Lima†

∗Programa de Pos-Graduacao em Engenharia EletricaEscola Politecnica da Universidade Federal da Bahia

Rua Aristides Novis, 02, Federacao, Salvador, Bahia, Brasil Telefone: +55-71-3283-9776

†Centro de Engenharia Eletrica e InformaticaDepartamento de Engenharia Eletrica da Universidade Federal de Campina Grande

Rua Aprıgio Veloso, 882, Bodocongo, Campina Grande, Paraıba, Brasil Telefone: +55-83-310-1136

Emails: [email protected], [email protected], [email protected]

Abstract— This paper presents preliminary results about the development of a real time vision system forhuman-machine interaction (HMI). The purpose of such vision system is to develop a tool that provides additionalinformation for the caregiver (therapist, teacher, etc.), concerning the emotional behavior of people with limitedsocial interaction. The vision system integrates the detection, tracking and facial expression recognition of human.The techniques for detection and tracking of faces are based on a combination of techniques which allows to obtaingreater robustness of the system. The recognition of facial expressions is based on Active Shapes Models (ASM)and Facial Action Coding Systems (FACS). Experimental results are presented, and shown to be satisfactory,with a success rate of 82.25%.

Keywords— HMI, Detector, ASM, FACS, features.

Resumo— Este artigo apresenta resultados preliminares do desenvolvimento de um sistema de visao em temporeal para interacao humano-maquina. O objetivo de tal sistema de visao e desenvolver uma ferramenta que fornecainformacao adicional ao cuidador (terapeuta, professor, etc.), acerca do comportamento emocional de pessoascom limitacao na interacao social. O sistema de visao contem: (i) deteccao e rastreamento de faces humanasem tempo real; e (ii) reconhecimento de expressoes faciais. As tecnicas de deteccao e rastreamento de faces saobaseadas numa combinacao de tecnicas que permite obter maior robustez do sistema. O reconhecimento dasexpressoes faciais e baseado no Modelo de Forma Ativa (ASM) e unidades de codificacao de acao facial (FACS).Resultados experimentais sao apresentados, e mostram-se satisfatorios, com uma taxa de acerto de 82.25%.

Palavras-chave— IHM, Detector, ASM, FACS, caraterısticas

1 INTRODUCAO

Um dos principais objetivos na area de tecnologiada informacao, e dotar o computador de um com-portamento inteligente (um comportamento hu-mano, por assim dizer), o que tem levado a pesqui-sas e desenvolvimento de inumeros estudos que po-dem trazer melhorias significativas na area da in-teracao humano-maquina, tornando-se ao mesmotempo uma contribuicao relevante para as cienciascognitivas, que vem mostrando avancos significa-tivos no auxilio de terapias para autismo; terapiaspara pessoas com deficiencias fısicas; em psicope-dagogia e medicina.

Diversos pesquisadores argumentam queexiste um conjunto de emocoes denominadas ba-sicas ou primarias, que foram preservadas duranteprocessos de evolucao, pois elas possibilitam aadaptacao do comportamento dos organismos adiversas situacoes com as quais as criaturas se de-param diariamente. Entre as apresentadas na li-teratura como basicas, podem-se citar a raiva, aalegria, o medo, tristeza e a surpresa. Estas emo-coes servem a propositos especıficos e emergem emdeterminados contextos do ambiente, para pre-parar o organismo a responder apropriadamente(Almejrad, 2010; Ekman e Friesen, 1978).

A habilidade de imitar expressoes faciais hu-manas estabelece as bases para uma comunicacaonao-verbal significativa entre humanos e maqui-nas. A analise de expressoes faciais nasceu deDarwin, no seculo XIX onde ele propos o conceitode expressoes faciais universais em homens e ani-mais.

Pesquisas recentes em terapia de Transtornodo espectro Autista - TEA, estao fazendo usoda Interacao Humano-Maquina como auxilio asmesma, e tem-se apresentado avancos considera-veis. Os pesquisadores tem-se focado em desenvol-ver sistemas que permitam reconhecer e ensinaremocoes a este tipo de pacientes. Mas o problemanao se radica aı; e importante saber se o que opaciente esta aprendendo e realmente o tipo deexpressao adequada e, caso aparecam erros, teroutras ferramentas para corrigi-los.

Na literatura tecnica existem propostos variossistemas de visao para interacao humano-maquinaque reconhecem expressoes faciais. Em Azcarateet al. (2005) por exemplo, construıram uma mas-cara que e deformada com os movimentos faci-ais realizados quando o usuario muda a expressaofacial, utilizando os classificadores Naive Bayes(Precisao 64.3%.). Bahonar e Charkari (2009),detectam regioes da face, tais como olhos, sobran-celhas, nariz e boca. Zhao et al. (2012), imple-

mentaram o reconhecimento da expressao facialusando modelos de Forma Ativa (ASM) e carac-terısticas de padroes binarios locais (LBP) comum desempenho de 85%.

O objetivo deste artigo e apresentar os resul-tados preliminares do desenvolvimento de um sis-tema visao que permita fornecer dados adicionaisdo comportamento emocional. as pessoas com li-mitacao na interacao social (especificamente pes-soas com Transtorno do Espectro Autista-TEA).As informacoes obtidas neste sistema de visao, vaopermitir a identificacao do estado emocional doautista, e assim, fornecer esta informacao ao pro-fissional (professor, terapeuta, ou mesmo a pessoaque cuida do autista) como auxilio nas terapias.Este sistema de visao, futuramente sera combi-nado com BCI (Interface Cerebro-Computador),com a finalidade de obter um sistema de percepcaomais robusto para detectar emocoes.

A organizacao do artigo e como segue: na se-cao 2 sao apresentados alguns conceitos acerca deinteracao humano-maquina no autismo; os meto-dos de deteccao e rastreamento de faces utilizadossao apresentados na secao 3.1; na secao 4 e apre-sentado o metodo de reconhecimento da expressaofacial; os resultados experimentais sao mostradosna secao 5; e seguidamente algumas consideracoesfinais, e referencias utilizadas.

2 Interacao Humano-Maquina

Inumeros sao os problemas que envolvem o de-senvolvimento das pessoas com autismo. Dentreeles, podemos citar as dificuldades em expressar osproprios sentimentos, de uma forma que os outrospossam compreende-los e aceita-los. Outro pro-blema basico refere-se a inadequacao ou falta douso da imaginacao. A ausencia de habilidade paraperceber e compreender expressoes emocionais emoutras pessoas parece relacionar-se com a limita-cao, ou mesmo falta da capacidade de imaginarqualquer coisa.

Segundo o professor e psicologo ArmindoFreitas-Magalhaes, director do Facial EmotionExpression Lab (FEELab) da Universidade Fer-nando Pessoa, em Portugal, dados preliminares deum estudo revelam que os deficientes mentais temdeficit cognitivo na identificacao das emocoes ba-sicas – a alegria, a tristeza, a surpresa, o medo, acolera e a aversao. Estas revelacoes podem ter im-plicacoes praticas na forma como se reeduca crian-cas com deficiencias mentais, ja que demonstramque estas podem interpretar mal a reacao de umcolega ou de um educador. Assim, e importanteverificar ate que ponto e possıvel alterar as prati-cas educacionais e ajudar um deficiente a ter outrotipo de atitude, interpretando bem as expressoesfaciais de quem trabalha com eles.

Assim, a necessidade de desenvolver ferramen-tas que ajudem a monitorar estados emocionaisde pessoas com limitacoes na interacao social (au-tistas, como um exemplo), permite auxiliar aoscuidadores nas suas atividades, por exemplo emuma escola, onde o professor tem varios alunoscom este tipo de deficiencia, fornecer informacaocomportamental emocional e uma grande ajuda.

3 Deteccao e Rastreamento de Faces

O detector proposto neste trabalho esta inspiradono modelo de Viola e Jones (2004), que e um dosmetodos mais usados e citados pela comunidadecientıfica, e nas posteriores modificacoes feitas.Este detector e baseado em uma cascata de classi-ficadores que explora toda a imagem em multiplasescalas e localizacoes. Cada etapa da cascata e ba-seada no uso de caracterısticas do tipo Haar, quesao eficientemente computadas utilizando a ima-gem integral, selecionadas e combinadas por meiodo metodo AdaBoost durante o treinamento (vejasecao 3.2).

3.1 Descritores de Haar para Deteccao de Faces

Ha tres contribuicoes fundamentais: a primeirae a introducao da integral da imagem, que per-mite que as caracterısticas usadas pelo detectorsejam processadas atraves de uma unica passa-gem pela imagem. A segunda e um classifica-dor simples e eficiente que e construıdo usandoo AdaBoost, que seleciona um pequeno numerode caracterısticas visuais crıticas de um conjuntomuito grande de potenciais caracterısticas. A ter-ceira consiste num metodo para combinar os clas-sificadores numa cascata, que permite descartaras regioes de fundo da imagem de forma rapida,focando-se assim apenas nas regioes de maior in-teresse.

3.2 Aprendizagem com Adaboost

O princıpio do Adaboost e combinar um conjuntode classificacao simples ou fracos1 para formaruma funcao de classificacao forte. A eficienciadeste esquema reside no fato que os falsos nega-tivos (ou componentes classificadas abaixo de umlimiar) sao eliminados progressivamente, de formaque as primeiras etapas eliminam um grande nu-mero deles com pouco processamento. Isto per-mite que as etapas finais tenham o tempo sufici-ente para classificar corretamente os casos maisdifıceis (Salcedo et al., 2012b).

Uma funcao de classificacao fraca hi(x, f, p, θ)e constituıda de um descritor fi, de um limiar θi,

1A funcao de classificacao fraca, so e capaz de reconhe-cer pelo menos duas classes.

e de uma paridade pi que indica a direcao do sinalde desigualdade na forma

hi(x, f, p, θ) =

{1 se pifi(x) < piθi

0 em outro caso, (1)

onde x e uma janela da imagem de entrada.

Os passos descritos para a implementacao doalgoritmo de Adaboost sao a seguir apresenta-dos (Freund e Schapire, 1995).

Entrada: S = {(x1, y1), . . . , (xm, ym)};xi ∈ X, yi ∈ {0, 1}

0.1 Inicialize w1,i =1

2m∀(xi, yi) ∈ S

0.2 para t = 1, . . . , T faca0.3 Normalize os pesos

w1,i ←−wt,j∑nj=1 wt,j

0.4 Selecione o melhor classificadorbaseado no peso de erroϵt = minf,p,θ

∑i wi|h(xi, f, p, θ)−yi|

0.5 Defina ht(x) = h(x, ft, pt, θt)0.6 Atualize os pesos

wt+1,i = wt,iβ1−eit , onde ei = 0 se a

amostra xi e classificadacorretamente, ei = 1 caso contrario,

e βt =ϵt

1− ϵt0.7 O classificador robusto final e dado por:

C(x) =

{1

∑Tt=1 αtht(x) ≥

1

2

∑Tt=1 αt,

0 em outro caso,

onde αt = log1

βt

1.8 Algoritmo 1: Adaboost, (Freund eSchapire, 1995)

3.3 Rastreamento de Faces Usando CamShift

A tecnica de segmentacao aqui usada e baseadae chamada de CamShift (Continuously Adaptive

Mean Shift). E uma segmentacao de cor de ima-

gens apresentado por Bradski (1998). E baseadonuma tecnica estatıstica onde se busca o pico en-tre distribuicoes de probabilidade em gradientesde densidade. Esta tecnica e chamada de “me-dia por deslocamento” (mean shift) e foi adap-tada no Camshift para tratar a mudanca dinamicadas distribuicoes de probabilidade das cores numasequencia de vıdeo (Bradski, 1998).

Para cada quadro, a imagem e convertida paraoutra de distribuicao de probabilidade de cor atra-ves de um modelo de histograma da cor da pele.

O centro e o tamanho da face que se quer rastrearsao encontrados atraves do CamShift operando naimagem de probabilidade de cores. O tamanho ea localizacao corrente da face sao informados eusados para definir o tamanho e a localizacao dajanela de busca da proxima imagem de vıdeo.

O custo computacional deste algoritmo e re-lativamente baixo e e bastante preciso. Apos estafase e necessario que se faca uma conversao daimagem para uma escala de cinza, facilitando osprocessamentos posteriores. O uso de CamShiftacentua a capacidade do uso software em ambi-entes de baixa iluminacao (Salcedo et al., 2012a).O algoritmo CamShift, pode ser resumido nos se-guintes passos:

1.1 Eleicao de um tamanho de janela deprocuracao.

1.2 Eleicao da localizacao inicial dessajanela.

1.3 Calcular Meanshift (uma ou variasinteracoes em funcao da convergencia).Se armazena o momento de ordem zero(area da distribuicao de probabilidade).

1.4 Tomar como novo tamanho da janela 1de tal forma que seja funcao domomento de ordem zero (area).

1.5 Repetir os dois passos anteriores atechegar a convergencia (a localizacaomedia esta separada do centro atual dajanela num valor que nao supera umumbral definido).

2.6 Algoritmo 2: Camshift,(Bradski, 1998)

4 Extracao de Caracterısticas Faciais

Em Ekman e Friesen (1978), e feita uma classifica-cao de seis emocoes basicas que, segundo os auto-res, sao universais para todos os seres humanos:angry (raiva), disgust (desgosto), fear (medo),happy (feliz), sad (triste), and surprise (surpreso).Os mesmos autores, desenvolveram o sistema deacao de codificacao facial (FACS) para analisar esintetizar a expressao facial com base em unidadesde acao muscular (Action Units- AU), que descre-vem movimentos faciais basicos. Uma vez que asunidades de acao muscular sao independentes dequalquer interpretacao, elas podem ser usadas emconjunto com outros descritores, o que inclui a suaassociacao ao reconhecimento de emocoes basicas.Este metodo e um dos mais usados na literatura

para o desenvolvimento de sistemas de reconheci-mento de expressoes faciais.

Cada unidade de acao (AU) tem como baseestudos relacionados a anatomia dos musculos fa-ciais. Muitos pesquisadores se inspiraram nessasAU fazendo uso de processamento de imagem evıdeo para automaticamente rastrear caracterısti-cas faciais e entao utiliza-las para categorizar asdiferentes expressoes. Por meio da utilizacao decombinacoes diferentes destas unidades de acao,e possıvel definir um largo espectro de expressoesfaciais.

4.1 Modelo de Forma Ativa (ASM)

O Modelo de Forma Ativa (ASM), representaum modelo parametrico deformavel, onde e cons-truıdo um modelo estatıstico da variacao da formaglobal de um conjunto de treinamento. Este mo-delo, chamado de Modelo Pontual de Distribui-cao (PDM), e utilizado para ajustar um mo-delo de ocorrencias invisıveis do objeto anterior-mente anotado no conjunto de treinamento (Zhaoet al., 2012). A variabilidade da forma e apren-dida off-line usando Analise de Componentes Prin-cipais (PCA).

A abordagem ASM trabalha com formas dosobjetos mapeados no plano 2D, logo qualquerforma de um objeto pode ser descrita tambemcomo um vetor de m pares de pontos (x, y) quecontornam essa forma, como pode ser visto naequacao (2).

x = (x1, . . . , xm, y1, . . . , ym)T . (2)

Esta equacao reduz a relacao dos pares decoordenadas (x, y) para apenas uma forma. Seao contrario, houver mais exemplos do objetode estudo, havera entao um vetor xi para cadadiferente forma (i = 1, 2, . . . , N), formando as-sim uma matriz de dados X. Se e consideradoque um determinado ponto (x, y) de uma imagemI(x, y) esta correlacionado com os outros pares(x, y) de todas as imagens da matriz de formasX = (x1, x2, . . . , xN ), entao podera se aplicar aanalise de componentes principais (PCA) paradeterminar a variancia do conjunto de formas emX.

Porem, antes da matriz X ser calculada peloPCA, e necessario um alinhamento das formasem tx, ty (translacao), s (escala) e θ (rotacao), istoporque o que se deseja conhecer e como se distri-buem os pontos em ℜn em relacao a uma formabase.

x = Ttx,ty,s,θ(X) (3)

A forma media neste domınio alinhado e dadacomo:

x =1

N

n∑i=1

xi (4)

E o desvio de cada forma, a partir da forma mediaxi − x. A estimativa da matriz de covariancia Σda matriz X e dada por

Σ =1

N

n∑i=1

(xi − x)(xi − x)T , (5)

Para calcular os autovalores e autovetores deΣ, deve-se resolver a equacao ΣΦ = λiΦ, onde λi

e o i-esimo valor proprio de Σ(λi ≥ λi+1) e ΦTΦ.Sabe-se que os vetores proprios da matriz de cova-riancias, Σ, correspondentes aos valores propriosmais elevados descrevem a maior parte das varia-coes admissıveis, e a proporcao da variancia totalexplicada por cada vector proprio e igual ao va-lor proprio correspondente. Assim, a maior parteda variancia da forma pode ser explicada por umpequeno numero de vetores proprios t, chamadosmodos de variacao. Desta forma, cada objeto doconjunto de treino pode ser descrito pela formamedia e pela combinacao dos primeiros t veto-res proprios obtidos: x = x + Φf bf , onde Φf =(Φf1Φf2 . . .Φft) representa a matriz dos primei-ros t autovetores das formas e bf = (bf1bf2 . . . bft)e o vetor de pesos de cada autovetor. Os auto-vetores sao ortogonais e portanto ΦT

f Φf = I e

bf = ΦTf (x− x) (Cootes e Taylor, 2004).

A figura 1 mostra exemplos de formas faciais.Qualquer nova forma x e uma deformacao daforma media x, dado pela combinacao linear dosautovetores Φf e o vetor de pesos bf . Variando-se os valores do vetor bf , pode-se modelar line-armente outras formas diferentes em relacao aoconjunto de treinamento.

Figura 1: Exemplos de formas faciais do conjuntode treinamento. Adaptado de Cootes e Taylor(2004).

Como a variancia de bf sobre o conjunto detreino e dada por λi, os seus limites estao no in-tervalo −3

√λi ≤ bfi ≤ 3

√λi, dado que, a popu-

lacao esta concentrada entre tres desvios padroesda media (Cootes et al., 1995).

5 Resultados

O programa para o sistema de visao proposto aquifoi desenvolvido em linguagem C++ e testado em

um computador com sistema operacional Win-dows 7.

Primeiramente foi implementado um detec-tor de faces e o seu rastreamento em tempo realusando uma combinacao dos metodos de HaarCascades e Camshift.

Na Figura 2 e apresentado o resultado da de-teccao de faces utilizando caracterısticas de Haarem combinacao com o metodo de Camshift. A tec-

Figura 2: Deteccao e rastreamento de face.

nica para a extracao de expressoes envolve a cri-acao de modelos ASM treinados em imagens defaces (45 pessoas, entre homens e mulheres parao treinamento) tomadas de um banco de dadosde disponibilidade publica apresentada em Luceyet al. (2010), que contem 123 pessoas, cada umaapresentando sete expressoes diferentes, cada ima-gem e marcada com a emocao correspondente.Para algumas pessoas no banco de dados, nem to-das as emocoes estao disponıveis. Nesta etapa detreinamento sao marcados os pontos que definemo contorno da face, para isto foi usada a livrariaasmlibrary. A figura 3 mostra o processo de alo-cacao dos pontos fiduciais formando o ASM.

Figura 3: Alocacao de pontos fiduciais usando omodelo ASM.

Uma vez alocados os pontos na face,identificam-se as unidades de acao facial propos-tas por Ekman e Friesen (1978) para representarcada expressao utilizando a livraria OpenCV. EmCootes et al. (1995), e mostrada a numeracao naalocacao destes pontos, que pode ser vista na fi-gura 4.

Figura 4: Alocacao de pontos fiduciais enumera-dos usando ASM.

As figuras 5 e 6 mostram o resultado da de-teccao e o reconhecimento das expressoes faciaisanteriormente nomeadas. Foram realizados expe-rimentos durante a implementacao e na fase detestes, utilizando uma amostra (35 pessoas) dabase de dados nomeada anteriormente. O metodoproposto obteve uma taxa media de deteccao de82.25%, calculada usando o as taxas de Falsa Acei-tacao (FAR) e Falsa Rejeicao (FRR) calculadascomo apresentadas em Ribeiro et al. (2010), natabela 1 podem ser vistas as taxas de reconheci-mento para cada expressao.

Tabela 1: Resultados da classificacao por expres-sao facial.

expressao facial Taxa de ReconhecimentoConfused 74%Surprised 76%Happy 88%Neutral 91%

Figura 5: Resultados do reconhecimento de ex-pressoes faciais.

6 Comentarios Finais

Neste artigo sao apresentados os resultados pre-liminares do desenvolvimento de um sistema depercepcao visual para interacao humano-maquinaque permite fornecer informacao comportamental(emocional) no auxilio a cuidadores de pessoas

Figura 6: Resultados do reconhecimento de ex-pressoes faciais.

com autismo, este sistema inclui a deteccao, ras-treamento de faces usando os metodos de Viola-Jones e Camshift, e reconhecimento de expressoesfaciais usando modelos de forma ativa (ASM), emtempo real.

O sistema completo de reconhecimento e de-teccao desenvolvido neste trabalho mostrou-se efi-ciente, conseguindo trabalhar em tempo real comuma definicao de 640 × 480 pixels. Tambem eimportante anotar que sistemas de interacao ba-seados em Visao Computacional podem ser im-plementados em computadores convencionais uti-lizando como dispositivos de captura e interacaocameras USB convencionais e de baixo custo.

Como trabalhos futuros estao adicionar maisexpressoes faciais, combinar os ASM com umclassificador como maquinas de vetores de suporte- SVM, por exemplo, e usar metodos de deteccaode novidades com a classificacao dos padroes.

Agradecimentos

Os autores deste artigo gostariam de agradecer asinstituicoes a seguir o apoio dado ao desenvolvi-mento desta pesquisa: FAPESB - Fundacao deAmparo a Pesquisa do Estado da Bahia; CNPq -Conselho Nacional de Desenvolvimento cientıficoe Tecnologico; e CAPES - Coordenacao de Aper-feicoamento de Pessoal de Nıvel Superior.

Referencias

Almejrad, A. S. (2010). Human emotions detec-tion using brain wave signals: A challen-ging. European Journal of Scientific Research44(4), 640–659.

Azcarate, A., F. Hageloh, K. V. D. Sande e R. Va-lenti (2005). Automatic facial emotion recog-nition. Universiteit van Amsterdam p. 110.

Bahonar, H. e M. A. Charkari (2009). Facial fe-ature detection and extraction using sym-metry and region-based deformable template

matching.. Em: 14th International ComputerConference. Tehran, Iran. pp. 664–669.

Bradski, G. R. (1998). Computer video face trac-king for use in a perceptual user interface.Intel Technology Journal Q2 28, 115.

Cootes, T. F., C. J. Taylor, D. H. Cooper eJ. Graham (1995). Active shape modelstheirtraining and application. Computer Visionand Image Understanding 61(1), 38–59.

Cootes, T. F. e C. J. Taylor (2004). Statisticalmodels of appearance for computer vision.

Ekman, P. e W.V. Friesen (1978). Facial ActionCoding System: a Technique for the Measu-rement of Facial Movement. Consulting Psy-chologists Press. Palo Alto.

Freund, Y. e R. E. Schapire (1995). A decision-theoretic generalization of on-line learningand an application to boosting.

Lucey, P., J. F. Cohn, T. Kanade, J. Saragih,Z. Ambadar e I. Matthews (2010). The ex-tended cohn-kande dataset (ck+): A com-plete facial expression dataset for action unitand emotion-specified expression. Em: ThirdIEEE Workshop on CVPR for Human Com-municative Behavior Analysis. San Francisco,CA, USA.

Ribeiro, I., G. Chiachia e A. N. Marana (2010).Reconhecimento de faces utilizando analisede componentes principais e a transformadacensus. Em: VI Workshop de Visao Compu-tacional. pp. 25–30.

Salcedo, C. M., C. A. Pena, J. J. Cerqueira eA. M. N. Lima (2012a). Designing a realtime artificial vision system for human inte-raction with an omnidirectional mobile plat-form. Em: Robotics Symposium and LatinAmerican Robotics Symposium SBR/LARS.pp. 21–26.

Salcedo, C. M., J. J. Cerqueira e A. M. N.Lima (2012b). Sistema de visao para intera-cao homem-robo. Em: XIX Congresso Bra-sileiro de Automatica. pp. 4873–4880.

Viola, P. e M. Jones (2004). Robust real-time facedetection. Computer Vision 57(2), 137 –154.

Zhao, X., H. Zhang e Z. Xu (2012). Expression re-cognition by extracting facial features of sha-pes and textures. Journal of ComputationalInformation Systems 8(8), 3377–3384.