71
SmartContentProvider | Entidade Promotora: Parceiros: 2/2 Projeto em curso com o apoio de: 01/02/2013 Estado da Arte sobre Business Analytics e perspectivas futuras

QREN SmartCP Estado Da Arte Sobre Business Analytics e Perspectivas Futuras 1.1

Embed Size (px)

DESCRIPTION

O presente documento “Estado da Arte sobre Business Analytics e Perspectivas Futuras” constitui um dos resultados da fase de “Estudos Preliminares” do projecto SmartCP. Em particular sumariza o trabalho realizado no contexto das tarefas “Levantamento do estado da arte, estudo e experimentação sobre business analytics” e “Tendências e evoluções futuras na área de business analytics”.

Citation preview

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    01/02/2013

    Estado da Arte sobre Business Analytics e perspectivas futuras

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    ndice

    ndice de Figuras ......................................................................................................................................... 2

    ndice de Tabelas ........................................................................................................................................ 4

    Introduo .................................................................................................................................................. 5

    O que so Business Analytics ..................................................................................................................... 7

    reas de utilizao de Business Analytics ................................................................................................ 11

    Business Analytics, diferentes tipos ......................................................................................................... 12

    Descrio .............................................................................................................................................. 12

    Perspectiva ........................................................................................................................................... 12

    Preditivos .............................................................................................................................................. 13

    Anlise a diferentes abordagens em Business Analytics .......................................................................... 19

    1 Abordagem Workflows simples e dashboards ............................................................................. 19

    2 Abordagem Workflows complexos, Pivot Tables e Dashboards................................................... 23

    3 Abordagem Pivot Tables Complexas, rvores de deciso e clusterizao de dados .................... 30

    4 Abordagem Validao cruzada e tabelas de contingncia ........................................................... 40

    5 Abordagem Filtragem interactiva de dados e grficos de disperso............................................ 48

    Perspectivas Futuras ................................................................................................................................ 54

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    ndice de Figuras

    Figura 1: rvore de deciso simples ......................................................................................................... 15

    Figura 2: Seleco de modelo e de workflow de processamento ............................................................ 20

    Figura 3: Visualizao por variveis dos modelos utilizados no modelo ................................................. 21

    Figura 4: Dashboard interactivo para manipulao das variveis e obteno de alteraes imediatas . 22

    Figura 5: Obteno dos dados a partir de operaes elementares e tabelas de bases de dados ........... 23

    Figura 6: Criao de relaes que no existam j nas diversas tabelas associadas ................................. 24

    Figura 7: Deteco de erros ou inconsistncias nas operaes pretendidas........................................... 25

    Figura 8: Fluxo completo de processamento ........................................................................................... 26

    Figura 9: Observao de resultados ......................................................................................................... 26

    Figura 10: Visualizao alternativa em Dashboard dos dados processados ............................................ 27

    Figura 11: Reutilizao do fluxo anterior como um componente de um novo fluxo............................... 29

    Figura 12: Insero de dados atravs de um pivot table ......................................................................... 30

    Figura 13: Tabela em bruto e ordenao ................................................................................................. 31

    Figura 14: Segunda ordenao e primeira filtragem ................................................................................ 32

    Figura 15: Resultado final das ordenaes e filtragens............................................................................ 33

    Figura 16: Eliminao de outliners e valores aberrante ........................................................................... 33

    Figura 17: Diversas visualizaes dos dados ............................................................................................ 35

    Figura 18: Alterao manual e de fine-tuning das rvores de deciso .................................................... 36

    Figura 19: Criao automtica de cluster a partir dos dados ................................................................... 37

    Figura 20: Comparao dos resultados obtidos pelos diversos modelos ................................................ 39

    Figura 21: Diagrama geral desta abordagem de business analytics ........................................................ 40

    Figura 22: Definio dos conjuntos para validao cruzada .................................................................... 41

    Figura 23: Modelao avanada baseada na validao cruzada .............................................................. 42

    Figura 24:rea de comparao entro os diversos modelos aplicados ao mesma tema .......................... 43

    Figura 25: Testes de contingncia e no paramtricos ............................................................................ 44

    Figura 26: Anlise estatstica aos dados finais obtidos ............................................................................ 45

    Figura 27: Insero/edio e remoo dos dados com visualizao imediata ........................................ 49

    Figura 28: Viso expandida de anlise dos dados .................................................................................... 50

    Figura 29: Exemplo de possveis resultados em grficos de disperso .................................................... 51

    Figura 30: Viso mista de visualizao e de interaco ........................................................................... 53

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 31: Representao temporal de grafo com background geogrfico ............................................. 56

    Figura 32: Visualizao de classes e subclasses de dados em anis ........................................................ 57

    Figura 33: Conjugao de diferentes formas de visualizao e de interaco ........................................ 58

    Figura 34: Zoom com capacidade de viso geral e de detalhe ................................................................ 58

    Figura 35: Deteco de relaes entre as variveis ................................................................................. 60

    Figura 36: Visualizao de classes e subclasses dos dados em mosaicos ................................................ 61

    Figura 37: Outra forma de conjugao de diferentes formas de visualizar dados .................................. 62

    Figura 38: Grafo com muitos dados e confuso ........................................................................................ 63

    Figura 39: O mesmo grafo com interactividade e destaques .................................................................. 64

    Figura 40: Filtragem de diversas variveis ............................................................................................... 65

    Figura 41: Associao de nmero ou importncia de eventos por dia .................................................... 66

    Figura 42: Representao de classes e subclasses de dados em estruturas circulares ........................... 66

    Figura 43: Grficos interactivos de evoluo com noo temporal ......................................................... 67

    Figura 44: Sliders mltiplos em grficos para filtragens dinmicas em tempo real ................................ 67

    Figura 45: Grfico com dados reais e dados futuros estimados .............................................................. 68

    Figura 46: Grfico interactivo com filtragem de dados e mapeamento para grfico circular ................. 69

    Figura 47: Grfico interactivo com definio do intervalo e das variveis de anlise ............................. 70

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    ndice de Tabelas

    Tabela 1: Exemplo de tabela de contingncia .......................................................................................... 45

    Tabela 2: Exemplo de tabela de confuso ................................................................................................ 46

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Introduo

    O presente documento Estado da Arte sobre Business Analytics e Perspectivas Futuras constitui um

    dos resultados da fase de Estudos Preliminares do projecto SmartCP. Em particular sumariza o

    trabalho realizado no contexto das tarefas Levantamento do estado da arte, estudo e experimentao

    sobre business analytics e Tendncias e evolues futuras na rea de business analytics.

    Com este estudo, pretende-se ganhar conhecimento e uma viso geral do panorama referente s

    diversas abordagens e tcnicas de Business Analytics, nomeadamente das suas capacidades, abordagens

    / funcionalidades e interfaces com o utilizador. Desta forma, pretende-se apreender ao mximo as

    metodologias e tecnologias utilizadas nas diferentes abordagens de representar e interagir com

    informao / dados para a extrao de conhecimento. pretendido ainda identificar pontos fortes e

    pontos fracos nas diversas abordagens.

    ainda de salientar, que o foco do presente documento no analisar aplicaes e ferramentas

    concretas dedicadas a Business Analytics, mas sim, obter uma viso transversal dos vrios tipos de

    Analytics que se encontram disponveis.

    Por fim, com este documento e aps o seu estudo inicial de estado da arte na rea de Business Analytics,

    pretende-se ainda inferir possveis evolues futuras no domnio dos Business Analytics e das suas

    funcionalidades.

    O documento encontra-se dividido em 5 seces. Sendo elas:

    O que so Business Analytics onde se faz uma introduo e explicao dos principais conceitos,

    funcionalidades e objectivos dos Business Analytics

    reas de utilizao dos Business Analytics, nesta seco so apresentadas as diversas reas de

    aplicao dos Business Analytics e so apresentados alguns exemplos concretos para cada rea

    com o objectivo de melhor elucidar sobre as suas aplicaes prticas.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Business Analytics, diferentes tipos Esta seco dedica-se a apresentar e a aprofundar os

    diferentes subtipos de Business Analytics, nomeadamente os de Descrio, de Perspectiva e os

    Predictivos. No subtipo de Business Analytics preditivos so ainda aprofundados alguns

    conceitos tericos do seu funcionamento.

    Anlise das diferentes abordagens em Business Analytics, esta seco faz uma anlise genrica

    s diferentes formas e abordagens de executar processos de Business Analytics. Desde as mais

    simplistas s mais complexas. Nesta seco existe uma subseco para cada abordagem,

    nomeadamente:

    o Workflows simples e dashboards

    o Workflows complexos, Pivot Tables e Dashboards

    o Pivot Tables Complexas, rvores de deciso e clusterizao de dados

    o Validao cruzada e tabelas de contingncia

    o Filtragem interactiva de dados e grficos de disperso

    Perspectivas Futuras a ltima seco do presente documento e dedica-se a registar e a relectir

    sobre eventuais melhorias e evolues que os Business Analytics possam sofrer nos prximos

    tempos. no entanto dada uma especial ateno parte das interfaces ricas que permitam uma

    melhor percepo e interaco exploratria do utilizador com os dados.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    O que so Business Analytics

    O conceito de Business Analytics remete para um conjunto de tcnicas, tecnologias, aplicaes e prticas

    que permitam de uma forma iterativa e interactiva, explorar e investigar dados referentes ao processo

    e fluxo de negcio. Este conceito aplicado a este tipo de dados, tem o objectivo e.g. incrementar a

    eficcia e margens associadas a um modelo de negcio, expondo os pontos mais e menos eficientes

    (com um destaque sobretudo nos menos eficientes de forma a poderem ser aplicadas medidas

    corretivas) e analisar as correlaes (e suas consequncias) no modelo de negcio. Estas medidas tanto

    podem ser aplicadas em dados em bruto, como em dados indirectos obtidos previamente a partir de

    mtodos e modelos estatsticos (sendo que com uma maior taxa de erro associado).

    Os Business Analytics, para alm de efectuarem uma utilizao intensiva de dados em bruto, dados

    estatsticos e de anlises quantitativas, tm sempre uma forte componente exploratria e por vezes

    tambm de modelao preditiva.

    A sua componente exploratria, remete para o facto de o utilizador ter sempre um papel bastante

    importante na manipulao, combinao e arranjo dos dados de modo a que consiga obter novas

    mtricas e concluses. Por norma, esta interaco com o utilizador segue sempre a via de interfaces

    muito visuais, tanto para a insero das operaes desencadeadas pelo utilizador, como para o obteno

    e visualizao dos dados e concluses finais obtidas.

    A modelao predictiva outra funcionalidade importante dos sistemas e aplicaes de Business

    Analytics. Esta remete para o conceito anteriormente apresentado de manipulao, combinao e

    arranjo dos dados, de modo a conseguir-se obter novas mtricas e concluses, mas por via automtica

    ou parcialmente automtica, ao invs de ser inteiramente manual e dependente do utilizador.

    Estes automatismos predictivos que recorrem a tcnicas de inteligncia artificial e aprendizagem

    automtica, tanto podem ser utilizados para a anlise dos dados manipulados pelo utilizador e

    apresentar concluses automaticamente extradas da, ou podem ser utilizados para inferir e sugerir

    operaes e manipulaes nos dados que o utilizador pode ou no acatar.

    Outra vertente ainda importante dentro dos Business Analytics a justificao da anlise exploratria,

    das relaes descobertas e das concluses obtidas. Esta etapa bastante importante, pois se o utilizador

    (por via manual ou semiautomtica) obter concluses teis e interessantes, ser til tambm, perceber

    o porqu e o que levou a obter essas concluses.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Os Business Analytics, de uma forma mais objectiva, podem ainda ajudar na obteno de perguntas e

    respostas do tipo:

    O que aconteceu para

    Quantos influenciaram

    Quantas vezes ocorreu

    Onde est o problema

    O elemento restritivo do fluxo

    Quais as aces para melhorar uma limitao

    Qual a melhor aco para um problema

    Porque que aconteceu

    Ser que esta tendncia contnua

    O que ocorrer a seguir

    Se tomarmos estas medidas, o que ocorrer

    Como optimizar o fluxo

    Do ponto de vista histrico, os Business Analytics esto intimamente ligados aos processos de

    industrializao iniciados no fim do seculo XIX. Com o surgimento de linhas de produo, fluxos

    industriais, de distribuio e de retalho complexos, surgiu ento a necessidade de colectar dados sobre

    as diversas etapas dos processos e efectuar estudos e concluses sobre esses mesmos dados. Tendo em

    conta que essas necessidades surgiram antes do surgimento e massificao dos sistemas

    computacionais, essas anlises e cruzamento de dados para obter novas concluses, eram efectuadas

    manualmente, desde o registo manuscrito dos dados, ao seu tratamento, processamento e

    apresentao de resultados em tabelas e grficos. Com essas ferramentas bastante rudimentares

    tambm podiam ser efectuados estudos predictivos recorrendo a amostragens estatsticas. No entanto

    tais aces eram pouco utilizadas devido a serem um processo moroso, dispendioso e inteiramente

    manual.

    Dos nomes mais sonantes dos pioneiros da utilizao destes estudos sobre as primeiras linhas de

    montagem esto nomes como o de Frederick Taylor e de Henry Ford. Frederick Taylor desenvolveu

    vrios conceitos tericos sobre a optimizao dos processos de trabalho das indstrias e o seu

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    consequente aumento de eficincia, para tal recorrendo recolha de dados de todas as etapas e

    consequente anlise e optimizao. Por sua vez, Henry Ford foi um dos pioneiros que primeiro aplicou

    estas medidas na prtica, optimizando de um maneira nunca antes vista todo o processo das linhas de

    montagem do fabrico de automveis.

    Esse processo de anlise e de estudo, s se tornou mais gil, inteligente e sobretudo rpido a partir da

    dcada de 1960, em que a utilizao dos computadores se massificou tanto para uso empresarial como

    para uso pessoal. At aos dias de hoje, estes processos tm sofrido inmeras evolues devido ao

    aumento da capacidade de processamento e de armazenamento de dados. No entanto, as evolues

    principais tm ocorrido na rea de novos algoritmos matemticos e na criao de novos interfaces

    grficos que permitiram revolucionar a interaco e visualizao dos dados com o utilizador.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    reas de utilizao de Business Analytics

    As diversas tcnicas e abordagens de Business Analytics podem ser utilizadas em diversas reas e

    contextos aplicacionais, nomeadamente:

    Gesto de stock

    Cadeias de transporte

    Telecomunicaes

    Preveno e deteco de fraudes

    Anlise de preos

    Deteco de comportamentos

    Deteco de coleces

    Anlise na rea de Marketing

    Anlise ao risco financeiro e ao crdito

    Apoio a decises financeiras

    Anlise de trfego web

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Business Analytics, diferentes tipos

    Os Business Analytics podem ser divididos em trs sub-tipos distintos tendo em conta os seus fins e

    objectivos principais.

    Nomeadamente, esses tipos so de:

    Descrio

    Perspectiva

    Predictivos

    Descrio

    Os Business Analytics de Descrio, como o nome indica, so destinados principalmente a obter e retirar

    novo conhecimento ou concluses a partir de dados armazenados ao longo do tempo. Este tipo de

    aces, recorre fortemente a grandes quantidades de dados armazenados em bases de dados. A sua

    aco, muitas vezes semelhante a tcnicas de data-warehousing e de clustering. Este tipo de Business

    Analytics so utilizados para quantificar e qualificar relaes nem sempre explcitas.

    Um exemplo concreto de utilizao deste tipo de Business Analytics a anlise e classificao de clientes

    de acordo com as suas preferncias, gostos, historial e hbitos de consumo.

    Perspectiva

    J os Business Analytics de Perspectiva so os destinados a auxiliar em decises, baseando-se em

    tcnicas de optimizao e de simulao. Esta abordagem tem conhecimento de todas as variveis que

    envolvem e contextualizam uma deciso. Essas variveis, podem at incluir outros resultados

    provenientes de tcnicas de Business Analytics Preditivos.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Todos estes modelos de apoio deciso so optimizados no sentido de maximizar algumas variveis e

    frequentemente de em simultneo, minimizar outras.

    Um exemplo concreto na tomada de deciso sobre a compra ou no de determinados ttulos de aces

    em bolsa, fundos de investimento ou mercado primrio de obrigaes. Nestes casos, a principal varivel

    de maximizao a probabilidade de ganhos. J a varivel de minimizao ser o factor risco, por

    desvalorizao das aces, fundos de investimento ou no caso das obrigaes, do risco associado ao

    incumprimento por parte da entidade emissora das obrigaes. No entanto, podem existir variveis

    secundrias, como por exemplo, ndices de conjectura econmica, volatilidade, ou reas de preferncia

    como por exemplo mercados emergentes.

    Preditivos

    Os Business Analytics Preditivos so utilizados em conjunto com modelos de previso estatstica,

    modelos predictivos e tcnicas de inteligncia artificial, mais concretamente, aprendizagem e

    classificao automtica.

    A fronteira de separao entre os Business Analytics Preditivos e os Business Analytics de Perspectiva

    muito tnue, pois embora tenham fins e objectivos diferentes, um acaba por utilizar o outro e vice versa

    durante as suas operaes.

    O objectivo dos Business Analytics Preditivos tentar encontrar padres em dados e identificar e

    antever riscos ou oportunidades. So mais frequentemente utilizadas estas tcnicas nas reas de

    marketing, de servios financeiros, em seguradoras, na rea de telecomunicaes, de retalho e de

    farmcia e sade.

    Existem diversas tcnicas para obter resultados esperados nos Business Analytics preditivos, os mais

    utilizados so:

    A aprendizagem Bayesiana, uma grande famlia de algoritmos de aprendizagem automtica. Todos os

    algoritmos pertencentes a esta famlia se baseiam em clculos probabilsticos que tm como base o

    teorema de Bayes. Dentro desta famlia destaca-se o Naive Bayes. Este algoritmo um dos algoritmos

    de aprendizagem automtica mais conhecido e utilizado. A sua designao de "Naive" provm do

    algoritmo pressupor que os vrios atributos que descrevem os objectos so independentes, o que na

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    realidade raramente acontece. Assim, entre os vrios atributos que discriminam a classe do objecto,

    cada atributo contribui independentemente para a probabilidade do objecto fazer parte de uma classe

    ou outra, no havendo qualquer correlao entre os diversos atributos na hora de decidir a classe do

    objecto.

    No entanto, o facto do algoritmo fazer essa simplificao no implica que ele obtenha maus resultados.

    Pelo contrrio, o algoritmo Naive Bayes um algoritmo que na maior parte dos domnios apresenta

    bons resultados.

    SVMs, Suport Vector Machines, so uma famlia de algoritmos de aprendizagem automtica

    desenvolvida inicialmente por Vapnik e Chervonenkis. De uma maneira muito simplista, temos os

    objectos da nossa coleco que pretendemos classificar. Esses objectos podem ser classificados de modo

    binrio e sendo caracterizados por n atributos presentes em todos os objectos em anlise.

    Cada objecto pode ser representado na estrutura de SVM's como sendo um vector n-dimensional num

    espao vectorial de dimenso n obtendo uma determinada disposio geogrfica consoante os valores

    dos seus atributos.

    O classificador dos SVM's surge como um algoritmo que vai obter e optimizar um hiperplano de

    dimenso n-1 dentro do nosso espao n-dimensional, que separa as duas classes. Esse hiperplano pode

    ser visto como uma fronteira, mas ao invs de ser uma fronteira bidimensional como a dos mapas,

    uma fronteira de dimenso n-1.

    Quando qualquer novo objecto for adicionado coleco e se pretender efectuar a sua classificao

    referente classe a que pertence, basta representar esse objecto no espao vectorial n-dimensional e

    ver se a sua representao ocorre de um lado ou de outro da "fronteira" que separa as classes.

    No entanto, no espao vectorial pode existir uma infinidade de hiperplanos capazes de dividir as duas

    classes de objectos, levantando a questo de qual hiperplano se adequa melhor. Sendo o algoritmo

    SVM's responsvel por essa deciso.

    Essa deciso baseada numa optimizao matemtica, que por norma, tenta obter o hiperplano que

    consegue maximizar a separao entre as classes, de modo a que a distncia mdia do hiperplano aos

    elementos das classes seja a maior possvel.

    Uma das maiores famlias de algoritmos de aprendizagem a famlia dos algoritmos baseados em

    rvores de deciso. Esta tambm uma das famlias mais fceis de perceber conceptualmente o seu

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    funcionamento. Simplesmente baseiam-se em simples rvores de deciso onde cada n uma condio

    e cada folha um resultado final. A Figura 1 apresenta um exemplo para determinar se um dia indicado

    ou no para jogar tnis.

    Figura 1: rvore de deciso simples

    O funcionamento da rvore muito simples. Parte-se da raiz, que o primeiro n e onde se encontra a

    primeira condio, depois segue-se caminho conforme o atributo que cumpre essa condio. Cada ramo

    da rvore corresponde a um dos valores possveis do atributo do n de onde partem esses ramos. Segue-

    se sucessivamente para o n seguinte at chegar s folhas da rvore. Cada folha tem a classificao final,

    podendo haver vrias folhas com o mesmo resultado.

    Desta descrio possvel concluir que uma rvore de deciso no passa de uma disjuno de

    conjunes lgicas sendo os ramos as conjunes e os ns as disjunes.

    Como se pode verificar, o funcionamento dos algoritmos de aprendizagem baseados em rvores de

    deciso bastante simples. No entanto, a construo da rvore em si, um processo mais complicado

    e a, que geralmente residem as diferenas entre os vrios algoritmos concretos desta famlia.

    Uma das principais caractersticas utilizadas para construir a rvore, saber obter a deciso em cada n

    que permita ter uma entropia mnima, o que equivalente a dizer, obter a deciso em cada n com o

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    maior ganho de informao possvel. Isto com o objectivo de tornar a rvore o mais pequena possvel e

    consequentemente com menos testes condicionais para se chegar aos resultados finais.

    Os algoritmos de rvores de aprendizagem mais largamente utilizados so o ID3 e o C4.5

    O algoritmo de aprendizagem automtica ID3 foi inventado por Ross Quinlan e considerado um marco

    e um ponto de partida nos algoritmos de rvores de deciso, pois um dos mais simples e fceis de

    compreender. O seu modo de criao da rvore de deciso baseado no clculo da entropia e do ganho

    de informao j anteriormente referidos. Simplesmente ele calcula o ganho de informao para todas

    as disjunes de atributos sobre o nosso conjunto. O atributo/disjuno que apresentar maior ganho de

    informao ser imediatamente colocado na raiz da rvore. Depois disto todo o processo repetido

    iterativamente para cada sub-ramo da rvore, at esgotar os atributos diferenciadores dos nossos

    elementos do conjunto em estudo.

    No entanto, o algoritmo ID3, devido a seguir a regra da escolha dos ns sempre em funo da menor

    entropia possvel, resulta num algoritmo com tendncias para sobre-ajustamento. Assim obtm bons

    resultados a classificar o conjunto de treino usado para a sua aprendizagem, mas os resultados so

    fracos quando testado sobre um novo conjunto de dados diferentes dos dados utilizados durante a

    aprendizagem.

    Para superar este problema e permitir que o algoritmo consiga mais facilmente identificar e classificar

    correctamente novos casos foram implementadas varias melhorias, culminando no algoritmo de

    aprendizagem automtica C4.5.

    A diferenciao do C4.5 e o que o torna numa verso melhorada do ID3 que conta com nova

    abordagem e regras na construo da rvore, para que ela no seja sobre-ajustada aos casos de treino.

    Este algoritmo tambm foi desenvolvido pelo mesmo autor do ID3, Ross Quinlan.

    Tanto o algoritmo ID3 como o C4.5 so algoritmos open source e livres o que explica em parte a sua

    grande adopo pelos mais diversos sistemas e ferramentas. No entanto, existe uma verso comercial

    do C4.5 com alguns melhoramentos matemticos chamada de C5.0.

    Todo o processo de construo da rvore de deciso do C4.5 igual ao do algoritmo ID3. A principal

    diferena e melhoria que o C4.5 aps efectuar a construo da rvore de deciso, efectua a chamada

    poda da rvore, com o objectivo de cortar da rvore os ramos demasiado longos. Esses ramos

    demasiado longos so ao mesmo tempo ramos demasiado especficos e que so responsveis por sobre

    ajustar a rvore ao conjunto de aprendizagem.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Esta tcnica chamada de ps-poda, pois ocorre aps a rvore estar toda criada. Existem tambm

    outros algoritmos da famlia das rvores de deciso que usam outra tcnica apelidada de pr-poda, que

    consiste em restringir o crescimento da rvore logo durante a sua criao, tornando o algoritmo mais

    gil e rpido.

    A ps-poda do C4.5 tem como objectivo reduzir a complexidade da rvore, que implica eliminar algumas

    das suas sub-rvores, reduzindo assim a altura da rvore e aproximar as folhas raiz.

    Para ser efectuada uma determinada poda efectuada uma avaliao estatstica. Para cada n so

    avaliados os erros de classificao que resultam desse n e dos seus ns descendentes; s efectuada

    a poda do n se esta no implicar uma reduo no desempenho da rvore. Neste aspecto o C4.5 um

    pouco conservador, pois esta avaliao pessimista, de modo a que no se corra o risco de reduzir a

    eficcia da rvore. Existem outros algoritmos que "ariscam" mais e efectuam uma poda mais drstica da

    rvore.

    Outra caracterstica e melhoria do C4.5 em relao ao ID3, que este permite trabalhar com atributos

    contnuos ou discretos, enquanto o ID3 apenas permite atributos discretos. Para trabalhar com esses

    valores contnuos o C4.5 estima um parmetro de deciso, e consoante o valor da varivel contnua for

    superior ou inferior a esse valor assim convertida em valores discretos.

    O C4.5, ao contrario do ID3, permite ainda usar atributos desconhecidos durante a criao da rvore, e

    que os atributos tenham diferentes pesos entre si.

    As redes neuronais tambm so outra famlia bastante utilizada. O seu nome deve-se ao facto de

    conceptualmente imitarem as ligaes e a forma com que os neurnios interagem uns com os outros

    no crebro humano. Do ponto de vista puramente matemtico, elas so simplesmente modelos

    estatsticos de modelao no linear. A principal utilidade e vantagem desta famlia de algoritmos que

    ao contrrio das anteriormente referidas, nesta podem ser criados modelos sem que se conhea ou

    perceba as relaes entre os dados de input e de output. As redes neuronais tanto podem ser analgicas

    ou discretas. Nas redes neuronais analgicas, todos os dados processados so contnuos. J nas redes

    neuronais discretas processam valores de natureza discreta, por norma valores lgicos booleanos. Este

    segundo tipo por norma o mais amplamente utilizado nos contextos de business Analytics.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Anlise a diferentes abordagens em Business Analytics

    No presente captulo sero apresentados diversos conceitos e abordagens que so utilizados em

    Business Analytics. Os conceitos apresentados tero sempre como foco de anlise, as interfaces grficas

    utilizadas, assim como os procedimentos para interagir com os dados e efectuar as diferentes

    experincias combinatrias para se obter novas concluses ou observaes sobre esses mesmos dados.

    1 Abordagem Workflows simples e dashboards

    Na primeira abordagem apresentada (Figura 2, Figura 3 e Figura 4) apresentado um menu onde so

    seleccionados os dados que vo ser utilizados para efectuar Business Analytics de Descrio, isto ,

    estudo e cruzamento de dados j existentes com o objectivo de descobri novas concluses ou relaes

    implcitas nos dados.

    Para alm de ser indicada a origem dos dados, tambm so seleccionados os modelos de anlise (ex.

    regresso, logisitc, championFilter, etc.)

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 2: Seleco de modelo e de workflow de processamento

    A Figura 3 j apresenta a segunda etapa deste procedimento em que possvel analisar individualmente

    ou em conjunto as diversas variveis obtidas pela insero dos dados e dos modelos na etapa anterior.

    Esta etapa destina-se a que o utilizador possa efectuar um estudo prvio, e que adquira conhecimento

    sobre os dados e variveis com que est a manipular.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 3: Visualizao por variveis dos modelos utilizados no modelo

    Na Figura 4 apresentado um Dashboard criado automaticamente em relao aos dados, modelos e

    variveis inseridas nas etapas anteriores. Como possvel visualizar, existem diversos switches de

    controlo, um para cada tipo de variveis que podem ser manipuladas para a obteno de novas

    combinaes e resultados. Em algumas variveis, apenas possvel escolher estados discretos, noutras

    existe um slider que permite efectuar um controlo mais continuo dessa varivel. Aps efectuar as

    alteraes nas variveis, o utilizador, pode sempre observar os novos grficos obtidos na Figura 3 e

    tentar obter nova informao a partir do rearranjar das diversas variveis.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 4: Dashboard interactivo para manipulao das variveis e obteno de alteraes imediatas

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    2 Abordagem Workflows complexos, Pivot Tables e Dashboards

    Outra abordagem possvel, a definio de fluxos ou workflows sequenciais sobre os diversos dados

    analisados. Desta forma, o utilizador pode facilmente adicionar funcionalidades ou mdulos de

    processamento a esses workflows de dados. Assim, fcil e rpido aplicar novas combinaes e observar

    os efeitos nos dados e tentar depreender novas concluses.

    Essa abordagem tambm comea com a insero de dados que sero analisados. Na Figura 5

    apresentada a obteno desses dados. Onde foram seleccionadas diferentes tabelas de bases de dados

    semelhantes, neste caso, com informaes sobre clientes. So ainda adicionadas algumas operaes a

    algumas tabelas, neste caso concerto, operaes de ordenao e por fim a unio dessas tabelas para se

    obter um conjunto nico onde se ir efectuar a explorao dos dados. ainda possvel observar, a

    notificao de erros sobre as operaes ou associaes que se pretendem efectuar nos dados.

    A Figura 6 apresenta por sua vez, uma ferramenta onde efectuada a seleco de detalhe da unio

    entre diferentes tabelas. Esta ferramenta assegura que o utilizador mantenha a coerncia das diversas

    fontes de dados, na criao da nova coleco.

    Figura 5: Obteno dos dados a partir de operaes elementares e tabelas de bases de dados

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 6: Criao de relaes que no existam j nas diversas tabelas associadas

    Na Figura 7, ento efectuada a utilizao dos dados anteriormente obtidos em conjunto com

    workflows de algumas ferramentas que vo produzir concluses sobre os dados em bruto. No exemplo

    concreto da Figura 7, a castanho, so apresentados os dados e a azul todos os mecanismos / ferramentas

    que vo permitir a extraco de Business Analytics. Neste caso concreto, funcionalidades de ranking, de

    filtragem e de anlise.

    Ainda nesta fase de construo do fluxo, so tambm indicados imediatamente, os erros presentes no

    fluxo (vermelho), isto acontece porque ou o mdulo utilizado no aplicvel ao tipo de dados ou porque

    os atributos do mdulo no se encontram correctamente configurados.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 7: Deteco de erros ou inconsistncias nas operaes pretendidas

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 8: Fluxo completo de processamento

    Figura 9: Observao de resultados

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    A Figura 8 j apresenta todo o fluxo devidamente configurado, operacional e pronto a obter dados e

    mtricas de anlise sobre o processamento efectuado. J a Figura 9, apresenta alguns desses resultados

    simplesmente na forma grfica. No entanto, estes dois ltimos passos so iterativos e o utilizador pode

    voltar aos mdulos de processamento (Figura 8) sempre que desejar alterar os blocos de processamento

    e anlise, e assim, efectuar a experimentao e recombinao de dados para simplesmente navegar de

    diferentes formas na informao ou para obter novas concluses.

    Figura 10: Visualizao alternativa em Dashboard dos dados processados

    Na Figura 10 apresentada outra forma de visualizao dos mesmos dados j processados pelo fluxo

    anterior. No caso concreto da Figura 10, apresentado um dashboard com trs elementos distintos, um

    mostrador analgico, um grfico e por fim uma tabela. Esta forma mais elstica e enriquecida de

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    visualizar os dados com recurso a um dashboard pretende tambm facultar ao utilizador novas formas

    de visualizar e oportunidades de obter novas concluses.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Na Figura 11 possvel observar a reutilizao do fluxo anteriormente construdo como um simples

    elemento de um novo fluxo mais completo / complexo. Desta forma os fluxos de processamento sobre

    os dados, podem ser combinados uns com os outros no sentido de permitir novas associaes e novas

    concluses sobre os dados.

    Figura 11: Reutilizao do fluxo anterior como um componente de um novo fluxo

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    3 Abordagem Pivot Tables Complexas, rvores de deciso e clusterizao de

    dados

    A abordagem apresentada de seguida destinada principalmente a Business Analytics Predictivos. Esta

    abordagem consiste numa primeira fase em obter os dados de aprendizagem ou de estudo. Na segunda

    fase, so filtrados os valores aberrantes da amostra de dados, ou tambm designados por outliars,

    valores atpicos. Esses valores so descartados pois por serem to afastados da populao normal so

    considerados erros. Na terceira etapa criado o modelo de aprendizagem propriamente dito. So ainda

    efectuadas aces de fine tuning para ajustar o modelo o mais possvel ao pretendido, e por fim, os

    resultados so apresentados com hiptese de iterar e voltar aos passos de fine-tuning do modelo e gerar

    novos resultados.

    Figura 12: Insero de dados atravs de um pivot table

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    A Figura 12 apresenta o primeiro passo destinado obteno dos dados. Como ponto de partida tem-

    se uma pivot table (fundo da Figura 12). As vantagens de uma pivot table em relao a uma tabela

    normal so inmeras, nomeadamente a facilidade em filtrar dados, ordenar, efectuar contagens e obter

    contagens estatsticas. A Figura 12, primeiro plano, j apresenta um menu de seleco das colunas que

    sero importadas para o modelo de Business Analytics preditivo.

    A titulo de exemplo das vantagens de utilizar pivot tables de seguida apresentado um exemplo

    concreto da sua utilizao.

    Figura 13: Tabela em bruto e ordenao

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 14: Segunda ordenao e primeira filtragem

    Na Figura 13 do lado esquerdo, apresentada uma tabela de dados em bruto sem qualquer filtragem

    ou ordenao. A mesma Figura 13 do lado direito, j apresenta a mesma tabela ordenada por ordem

    alfabtica do atributo da localidade. Na Figura 14, apresentada uma segunda ordenao sobre a

    primeira j efectuada. Desta forma possvel observar que para cada localidade (que j se encontram

    ordenadas) efectuado um sub-ordenamento no escalo.

    Aps estas ordenaes, so ento efectuadas filtagens. Na Figura 14 apresentada a aco de filtrar

    apenas por um tipo de localidade, sendo o resultado apresentado na Figura 15 (lado esquerdo). Ainda

    na Figura 15 apresentado o resultado de outra filtragem sobre a anterior, nomeadamente a filtragem

    por localidade de vora e com propina paga.

    Desta forma possvel observar que com poucos passos possvel com um pivot table, ordenar e filtrar

    mltiplas vezes obtendo de uma forma rpida e intuitiva um sub conjunto especifico e eliminar assim a

    informao suprflua que no pretendida. Este mecanismo muito importante como primeiro passo

    de qualquer mecanismo de Business Analytics, pois permite que sejam analisados apenas os dados

    interessantes, excluindo assim os que iriam gerar entropia sem adicionar valor ou concluses.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 15: Resultado final das ordenaes e filtragens

    Figura 16: Eliminao de outliners e valores aberrante

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Aps os dados serem importados a partir da pivot table, pode ser efectuado um aprimoramento dos

    dados. A Figura 16 apresenta a remoo de valores outliners ou aberrantes. Este tipo de valores so

    registos que se destacam anormalmente da distribuio normal dos dados e por isso so considerados

    aberrantes. A eliminao destes valores de extrema importncia, porque iriam ter efeitos bastante

    negativos no modelo e nos resultados preditivos no sistema de Business Analytics.

    Para tal ser efectuado, o utilizador apenas tem de seleccionar uma linha da tabela da Figura 16, sendo

    imediatamente apresentado um grfico da distribuio dessa varivel num grfico. Nela, o utilizador

    apenas tem de marcar a amarelo, como visvel na Figura 16, a zona que pretende que os valores sejam

    excludos.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 17: Diversas visualizaes dos dados

    Aps os dados serem inseridos a partir de pivot tables e eliminados os valores aberrantes, existe a

    possibilidade (Figura 17) de visualizar os dados em diversos grficos e tabelas de disperso onde

    possvel obter um apanhado geral dos dados que vo alimentar o modelo de aprendizagem.

    Na Figura 17 possvel encontrar diferentes tipos de grficos para permitirem uma melhor anlise dos

    dados. Alguns so dedicados apenas a uma varivel, outros exibem vrias, no entanto alguns ainda

    mostram os relacionamentos entre diversas variveis. Do lado esquerdo so apresentados trs grficos.

    O primeiro (topo), uma simples frequncia de contagem de uma nica varivel binria. Por baixo,

    encontra-se outro grfico de frequncia de uma varivel discreta. Em baixo, um grfico circular que

    efectua a contagem e comparao da frequncia de diversas variveis.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Do lado esquerdo da Figura 17, no topo, est presente um dos grficos mais importantes da figura. Esse

    grfico faz um cruzamento das variveis entre si, em todas as combinaes possveis, sendo uma ptima

    maneira de identificar relaes entre os diferentes pares de variveis.

    Do lado direito, centro da Figura 17 aparece um grfico de box plot para cada varivel, estando aqui

    tambm latente o sentido de comparao e de obteno de similaridades entre as diversas variveis

    envolvidas.

    Por fim, no lado direito inferior da Figura 17 so apresentadas as tabelas com as diversas variveis e com

    os diversos resultados em cada varivel.

    Figura 18: Alterao manual e de fine-tuning das rvores de deciso

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Na Figura 18 apresenta j a definio da rvore de deciso que vai ser utilizada para apresentar os dados

    de Business Analytics Preditivos. Neste passo, o utilizador pode manualmente alterar os diferentes ns

    de deciso da rvore e observar imediatamente o efeito dessas alteraes nos grficos que representam

    a amostragem de uma ou vrias variveis.

    Para uma maior informao sobre a constituio e funcionamento das rvores de deciso, assim como

    obter os melhores resultados delas a partir de ns de mnima entropia, consultar a Seco de Business

    Analytics Preditivos na pgina 13.

    Figura 19: Criao automtica de cluster a partir dos dados

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    A Figura 19, apresenta os resultados de clusterizao a partir dos dados. Essa aco tem como por

    objectivo segmentar os dados e determinar os quais so relevantes, ou no, para a rvore de deciso

    anteriormente definida.

    No topo esquerdo da Figura 19 apresentado novamente um grfico circular onde possvel observar

    o peso de cada varivel para o modelo construdo tendo em conta a rvore de deciso definido

    anteriormente. No canto inferior esquerdo da Figura 19 apresentado um diagrama onde possvel

    visualizar as separaes dos dados num determinado n da rvore para os dados de teste em questo.

    J do lado direito da Figura 19, no topo apresentada uma simples tabela com os valores das diversas

    variveis. No entanto os grficos mais importantes da Figura 19 so os que ocupam toda a parte direita

    inferior da figura. Eles so gerados automaticamente e atravs de algoritmos de clustering, Nestes

    grficos possvel observar a criao de grupos dentro de cada varivel. Isto bastante til para quando

    se pretende identificar grupos, famlias ou relaes que priori no se sabia que existiam.

    Por fim a Figura 20 apresenta os resultados finais do modelo utilizado. Permite ainda que sejam

    efectuadas comparaes com os dados de aprendizagem e com outros modelos previamente

    construdos. Assim e tendo sempre como referencia os dados de aprendizagem, o utilizador por via de

    comparaes, pode seleccionar qual o modelo com melhor resultados e assim optimizar os resultados

    finais da aplicao deste tipo de ferramentas de Bussines Analytics. No canto superior esquerdo da

    Figura 20 e no lado direito possvel efectuar a comparao entre o modelo de treino o resultado dos

    diversos modelos obtidos. Nesses grficos possvel efectuar essas comparaes na preciso, cobertura,

    erro, medida-F e ROC (Rate Of Change). No canto inferior direito da Figura 20 so apresentados os

    mesmos dados mas na forma de simples tabela.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 20: Comparao dos resultados obtidos pelos diversos modelos

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    4 Abordagem Validao cruzada e tabelas de contingncia

    Esta abordagem tambm se destina a fins de Business Analytics preditivos semelhana da anterior, no

    entanto mais complexa e com hiptese de apresentar melhor os resultados pretendidos, pois permite

    efectuar os testes com diferentes modelos e/ou diferentes abordagens, assim como efectuar

    comparaes visuais entre os resultados.

    A Figura 21 apresenta as cinco etapas principais desta abordagem.

    Figura 21: Diagrama geral desta abordagem de business analytics

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 22: Definio dos conjuntos para validao cruzada

    As etapas desta abordagem, so elas, a obteno dos dados, a etapa de treino, validao e teste por via

    de tcnicas de validao cruzada, a etapa de modelao avanada, onde podem ser efectuadas

    optimizaes e alteraes no funcionamento do modelo criado. Depois, surge ainda, a etapa de

    comparao entre os modelo e por fim a gerao de relatrios grficos e tabelas para ajudar

    interpretao dos resultados finais.

    A validao cruzada uma tcnica para avaliar a eficcia de um modelo de aprendizagem, a partir de

    um conjunto de dados. Esta tcnica amplamente aplicada a problemas com o objectivo de criar um

    modelo de aprendizagem ou de efectuar predies.

    O conceito central das tcnicas de validao cruzada a partio do conjunto de dados em subconjuntos

    exclusivos. Posteriormente, utiliza-se alguns destes subconjuntos para a aprendizagem do modelo

    (dados de treino) e os restantes subconjuntos sero utilizados para validao ou teste do modelo criado.

    Existem diversas formas de realizar o particionamento dos dados, no entanto, a mais utilizada a k-fold.

    Este tipo de validao cruzada, consiste em dividir o conjunto total de dados em k subconjuntos

    exclusivos do mesmo tamanho. A partir deste ponto, um subconjunto utilizado para teste e os k-1

    restantes, so utilizados para a aprendizagem do modelo. Este processo realizado k vezes alternando

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    de forma circular o subconjunto de teste. No final das k iteraes, calculam-se ento mtricas de

    preciso e de cobertura sobre os testes efectuados.

    A Figura 22 apresenta a obteno dos dados partindo de uma pivot table para melhor flexibilidade, na

    Figura 13 e na Figura 14 na Pgina 32 so apresentados em maior detalhe os benefcios das pivot tables.

    De seguida, ocorre a definio dos subconjuntos da amostra, que serviro para o treino, validao e

    testes dos modelos que sero gerados e utilizados no processo de Business Analytics. A prpria

    aplicao, apresenta inicialmente intervalos para esses subconjuntos que serviro de base para a

    validao cruzada. No entanto, o utilizador pode manualmente e com uma aco de tipo slide, alterar a

    dimenso desses conjuntos e assim obter conjuntos de aprendizagem, teste e validao maiores ou mais

    pequenos.

    Figura 23: Modelao avanada baseada na validao cruzada

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Na Figura 23, apresenta-se onde so definidas as medidas de modelao avanadas que iro ser

    aplicadas na criao do modelo. Ainda referente Figura 23, no topo esquerdo, so apresentados

    parmetros e propriedades referentes ao algoritmo utilizado por via de uma interface grfica. No topo

    direito, so apresentados os mesmos atributos, mas em ficheiro de configuraes sem a interface

    grfica. Por fim, na mesma figura na parte inferior, so apresentadas as distribuies das variveis

    consoante as alteraes efectuadas.

    Figura 24:rea de comparao entro os diversos modelos aplicados ao mesma tema

    A Figura 24 j apresenta a etapa seguinte, em que possvel comparar os resultados dos diversos

    modelos construdos. Cada coluna representa uma nica varivel, mas com os resultados obtidos nos

    diferentes modelos. Desta forma, o utilizador pode facilmente escolher o melhor modelo ou detectar

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    incongruncias que tm de ser corrigidas iterativamente na fase anterior do fine-tuning dos diversos

    modelos.

    Figura 25: Testes de contingncia e no paramtricos

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 26: Anlise estatstica aos dados finais obtidos

    Na Figura 25 e na Figura 26 so apresentados diversas formas de anlise aos resultados obtidos. Os

    resultados so sempre apresentados de forma a permitir, por um lado, uma noo geral e abrangente

    dos conjuntos e permitir ento obter novas concluses ou previses. Tambm so orientados no sentido

    para facilitar que o utilizador identifique pontos que preciso de ser melhorados.

    Na Figura 25, por exemplo, so apresentadas matrizes de contingncia e de confuso, assim como

    representaes grficas em mosaico das diversas variveis envolvidas.

    Quando se refere a matrizes ou tabelas de contingncia estamos a falar de tabelas que permitem

    analisar o relacionamento entre diferentes variveis. De seguida apresentado um exemplo simples de

    uma tabela de contingncia de comparao de duas variveis, a varivel se destro ou esquerdino e a

    varivel se gnero masculino ou feminino

    Tabela 1: Exemplo de tabela de contingncia

    Masculino Feminino Total

    Destro 21 23 44

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Esquerdino 8 6 14

    Total 29 29 58

    J a matriz confuso uma matriz que permite avaliar o desempenho de um determinado algoritmo de

    aprendizagem automtica, pois para um domnio de testes, relaciona a classificao realizada pelo

    algoritmo com a classificao verdadeira desse domnio de testes, dando assim no s a quantidade de

    erros e acertos, mas tambm os tipos de erros.

    Tabela 2: Exemplo de tabela de confuso

    Valores Reais

    A B

    Valores Estimados

    A VP FP

    B FN VN

    Na tabela/matriz de confuso possvel identificar os seguintes valores:

    VP - O nmero de verdadeiros positivos, isto , exemplos positivos que foram correctamente

    classificados como positivos.

    VN - O nmero de verdadeiros negativos, isto , exemplos negativos que foram correctamente

    classificados como negativos.

    FP - O nmero de falsos positivos, isto , exemplos negativos que foram erradamente

    classificados como positivos. Este tipo de erro tambm conhecido por erro de tipo 1, ou erro

    .

    FN - O nmero de falsos negativos, isto , exemplos positivos que foram erradamente

    classificados como negativos. Este tipo de erro tambm conhecido por erro de tipo 2, ou erro

    .

    Por sua vez, quando referido o conceito de testes no paramtricos est-se a referir a todos os

    problemas de anlise ou de predio de uma varivel em que essa varivel no segue uma amostragem

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    ou distribuio normal e a sua varincia no homognea. Por norma quando se utiliza o termo de

    testes no paramtricos no contexto da anlise e predio em Business Analytics, pretende-se passar a

    ideia qua as ferramentas e mecanismos de anlise no funcionam apenas em casos simples, mas

    tambm em casos complexos de dados que podem seguir qualquer distribuio.

    J na Figura 26 so apresentadas medidas de anlise estatstica sobre os conjuntos de dados. Desde

    mnimos, mximos, medias, modas, medianas, percentis e quartis, assim como mais grficos das

    distribuies dos dados que foram previstos. Desta forma encerrado o fluxo deste processo de

    Business Analytics Preditivo.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    5 Abordagem Filtragem interactiva de dados e grficos de disperso

    Neste subcaptulo vai ser apresentada outra abordagem de Business Analytics destinada essencialmente

    rea de descrio. Ou seja, que permita ao utilizador interagir com informao j existente, navegar e

    explorar essa informao por via de interfaces grficas ricas e interactivas.

    Esta abordagem tem como ponto de partida os conceitos afectos a diversas aplicaes comerciais e

    open source na rea do data mining e de data visualization. Ferramentas essas, que por esta via

    oferecem aos utilizadores, meios de anlise de dados e de pesquisa. O resultado dessas anlises

    apresentado de forma grfica para permitir uma rpida compreenso do que se pretende encontrar nos

    dados analisados.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 27: Insero/edio e remoo dos dados com visualizao imediata

    A Figura 27 apresenta o conceito de importao de dados em bruto de outras fontes. No mesmo ecr

    possvel efectuar edies e remoes sobre esses dados e visualizar de imediato, as alteraes nos

    grficos que representam essas mesmas variveis no lado direito da Figura 27.

    Esta abordagem, torna possvel a anlise de dados complexos, reconhecimento de relaes entre

    classes, definio de grupos alvo e suporte tomada de decises. Isto tudo sem que o utilizador que

    interage com a ferramenta, tenha conhecimentos avanados em estatstica.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 28: Viso expandida de anlise dos dados

    Tanto a Figura 28 como a Figura 30 apresentam j a anlise e interaco em simultneo com os dados

    previamente inseridos. Na Figura 28, para alm dos grficos de diferentes formatos, existem algumas

    tabelas interactivas, ou seja, no so apenas de visualizao, o utilizador pode seleccionar diferentes

    opes e editar os valores que dizem respeito forma como os grficos so mapeados a partir dos dados

    em bruto. Desta forma, torna-se bastante acessvel para o utilizador, efectuar diversas experimentaes

    e combinaes para obter novas interpretaes dos dados.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    A Figura 30 j apresenta outra visualizao, em que a dominar todo o lado esquerdo da figura so

    apresentados grficos multivariveis de disperso.

    Um grfico de disperso efectua a representao de duas ou mais variveis que so organizadas num

    nico grfico, em que uma das variveis est em funo da outra. Uma das variveis representada no

    eixo dos x e a outra no eixo dos y no grfico.

    Quando uma varivel aumenta com o aumento da outra diz-se que esto positivamente relacionadas.

    Por exemplo, quanto maior o ordenado mdio, mais cara a viatura automvel adquirida.

    Quando uma das varivel tem o seu valor diminudo com o aumento da outra, diz-se que elas so

    negativamente correlacionadas. Por exemplo, a venda de carros menor com o aumento do

    desemprego.

    Figura 29: Exemplo de possveis resultados em grficos de disperso

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Na Figura 29 so apresentados diversos exemplos de correlao, nomeadamente a correlao forte

    positiva, moderada positiva, sem correlao, moderada negativa, forte correlao negativa e correlao

    curvilnea.

    Este tipo de grfico, permite ainda que seja efectuada uma regresso linear e determinada uma recta,

    que mostra o relacionamento mdio linear entre as duas variveis. Com essa recta, acha-se a funo

    que nos d o "comportamento" da relao entre as duas variveis, que por sua vez utilizada em

    diversos algoritmos de predio utilizados em Business Analytics.

    Muitas ferramentas de Business Analytics efectuam este tipo de anlise entre todas as variveis

    envolvidas num problema, numa tentativa de evidenciar novas possveis relaes entre certas variveis,

    relaes essas que podem ser importantes para tirar concluses sobre os dados.

    Do lado direito, aparece um conjunto de grficos para cada varivel. As barras apresentadas nesse

    grfico servem para representar a contagem ou frequncia, consoante o contexto, de cada varivel. No

    entanto, as barras de cada grfico so interactivas e podem ser arrastadas como se fossem um controlo

    de slider. Dessa forma, o utilizador ao mov-las, obtm em tempo real, a respectiva actualizao nos

    grficos do lado direito.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 30: Viso mista de visualizao e de interaco

    Para concluir, todos estes elementos grficos de visualizao e de manipulao so pensados no sentido

    de apresentar e utilizar o mximo de informao relativa a um conjunto de dados e auxiliar o utilizador

    na tomada de decises. Com este tipo de abordagem, a manipulao dos dados rpida e intuitiva e

    especialmente interactiva.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Perspectivas Futuras

    A nvel de perspectivas futuras na rea de Business Analytics esperado uma forte evoluo, tanto no

    sentido da eficincia e da interactividade com o utilizador. ainda esperado um aumento da propagao

    destas tecnologias para ambiente mobile e tablet.

    Ao nvel da eficincia, essas evolues sero em parte, devidas ao aumento das capacidades de

    performance computacional, tanto por incremento das capacidades de hardware e de software. Ao nvel

    de hardware as melhorias esperadas sero na rea do processamento, das memrias e capacidade de

    armazenamento. Ao nvel do software esperado que surjam novos algoritmos matemticos ou a

    melhoria dos algoritmos j existentes e que so aplicados nos contextos de Business Analytics. Esses

    algoritmos matemticos so muito importantes, pois so a base de todo o Business Analytics no que diz

    respeito deteco de padres ou coleces nos dados, deduo de concluses e predio de novos

    resultados ou cenrios.

    A evoluo nesta rea algo que decorre essencialmente em contextos acadmicos muito especficos e

    complicado antever quais os desenvolvimentos acadmicos que esto a ser desenvolvidos mas que

    ainda no foram publicados nem validados pela comunidade acadmica.

    A propagao as tecnologias moveis e tablet algo que j esta a decorrer a grande velocidade nos dias

    de hoje. No entanto, o peso dos dados e a complexidade dos processamentos inerentes aos Business

    Analytics ainda algo demasiado complexo para ser inteiramente efectuado em ambiente mobile e

    tablet. Assim, necessrio continuar a desenvolver mecanismos inteligentes que mantenham a carga

    da maior parte dos dados e do processamentos em servidores centrais e passar apenas o essencial para

    o dispositivo mvel, de acordo com as suas capacidades de processamento e de largura de banda.

    Tambm necessrio ter em conta, que a vertente dos Business Analytics com mais relevo e interesse

    de ser utilizada em dispositivos mveis a de visualizao e explorao dos dados finais do processo de

    Business Analytics.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    A vertente de Business Analytics que pode mais facilmente ser antecipada e vista com exemplos

    concretos de perspectiva futura a rea de visualizao, anlise, explorao e de interaco com os

    dados finais dos diversos processos de Business Analytics. Desta forma, esta vertente ser a mais

    explorada e aprofundada no que diz respeito s perspectivas futuras na rea de Business Analytics.

    de salientar que o factor visual e interactivo muito importante para o utilizador conseguir observar,

    apreender, analisar e concluir sobre os dados apresentados. Para esse processo ser eficaz, no basta

    recorrer apenas a simples grficos de barras ou simples tabelas. necessrio utilizar mtodos disruptivos

    de visualizao e de interaco para garantir que o utilizador obtm valor acrescentado na utilizao de

    sistemas e plataformas de Business Analytics de descrio.

    De seguida sero apresentados um conjunto de vrias ideias, conceitos e abordagens de visualizao

    e/ou interaco com dados e que facilmente poder ser implementada e adaptada num futuro prximo

    aos contextos de utilizao dos Business Analytics.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 31: Representao temporal de grafo com background geogrfico

    Na Figura 31 apresentada uma forma de visualizao e de interaco com os dados relacionados entre

    si. Essa relao entre os elementos assume a forma de um grafo, no entanto, os ns do mesmo

    encontram-se sobre reas que se interceptam entre si. Por exemplo, no lado direito da figura possvel

    observar uma regio maior referente Europa que por sua vez engloba vrios pases e no caso do Reino

    Unido ainda apresenta subconjuntos referentes a algumas cidades. Desta forma, todas as relaes

    existentes e ns existentes no grafo, esto contextualizadas geograficamente, informao que seria

    perdida se fosse apresentado um grafo simples.

    Para completar a interaco com o utilizador, existe na parte inferior um slider referente escala

    temporal e que ao ser arrastada permite ver em tempo real a evoluo das ligaes e o surgimento de

    novos ns ao longo do tempo. Desta forma, este grafo enriquecido em relao aos grafos normais,

    oferece mais interaco e o ganho da informao espacial/geogrfica e a informao temporal que

    seriam impossveis de obter com um grafo simples.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 32: Visualizao de classes e subclasses de dados em anis

    A Figura 32 apresenta um mtodo de visualizao em que por um lado se pode ter a noo hierrquica

    das diferentes classes de dados. Por outro lado tambm se pode obter facilmente a noo de proporo

    das classes de cada nvel. No exemplo apresentado na Figura 32 apenas so apresentados os dados a

    dois nveis, no entanto, esta metodologia pode ser aplica a diversos nveis sem que o diagrama se torne

    confuso.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 33: Conjugao de diferentes formas de visualizao e de interaco

    Figura 34: Zoom com capacidade de viso geral e de detalhe

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    A Figura 33 apresenta outra conjugao de diversas formas de visualizao e de interaco com diversos

    dados. Nesta abordagem apresentada informao geogrfica, assinalada em destaque no mapa,

    grficos de barras com informao referente aos diversos pases da regio previamente assinalada no

    mapa. Ainda sobreposto sobre o mapa um misto de grfico de radar/circular com percentagens. Cada

    uma dessas percentagens tem uma cor que equivale/representa os diversos logotipos apresentados na

    parte inferior da imagem.

    Ao nvel da interactividade, o utilizador pode escolher a zona geogrfica (no lado esquerdo da figura) e

    o logotipo apresentado na parte inferior da figura. Com estas aces todo o diagrama readaptado e

    reorganizado de modo a exibir a informao pretendida.

    Em certas situaes que necessrio observar grandes quantidades de dados e ao mesmo tempo poder

    ter-se muito detalhe e foco sobre esses mesmos dados so geradas situaes de compromisso. Em que

    ao ter-se uma viso geral perdemos detalhe. Por outro lado se tivermos bastante detalhe acabamos por

    perder a viso geral do conjunto de dados.

    A Figura 34 apresenta um soluo grfica para tentar solucionar ou pelo menos para minimizar esse

    problema. So apresentados dois grficos, o inferior apresenta-nos a viso geral de todos os dados, onde

    possvel ter uma viso clara de todo o conjunto. Ainda sobre esse grfico inferior, existe uma janela de

    seleco que permite ser arrastada ao longo desse grfico. Toda a rea abrangida por essa janela

    representada em pormenor e detalhe no grfico superior.

    Assim desta forma consegue-se minimizar a problemtica de ter uma viso global em simultneo com a

    viso detalhada.

    Na Figura 35 apresentado um mtodo alternativo de visualizao de dados e sobretudo de cruzamento

    de dados para tentar antever relaes e efeitos entre as diversas variveis. Neste exemplo da Figura 35

    apresentada uma legenda sobre o tipo de dados de cada cor. Na diagonal principal da matriz de

    resultados, encontram-se as variveis que vo ser cruzadas entre si. Este cruzamento uma mistura

    entre as tabelas de contingncia e os grficos de disperso, anteriormente introduzidos na pgina 45 e

    51, respectivamente. Desta associao de grficos de disperso numa tabela de contingncia consegue-

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    se obter um novo grau de observao e deteco visual de relaes ou efeitos colaterais entre as

    diversas variveis presentes nos dados.

    Figura 35: Deteco de relaes entre as variveis

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 36: Visualizao de classes e subclasses dos dados em mosaicos

    A Figura 36 apresenta um simples, mas interessante mapeamento do nmero de ocorrncias de cada

    varivel para uma representao de rea. Desta forma, possvel observar quais so as variveis

    dominantes, e mais importante ainda, relacionar a ordem de grandeza entre elas.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 37: Outra forma de conjugao de diferentes formas de visualizar dados

    Na Figura 37 tambm so conjugadas diversas formas de visualizar e de interagir com os dados. Aqui a

    interaco do utilizador resume-se a seleccionar um pais para obter sua a informao especifica, ou a

    clicar nas zonas de oceano para obter informaes ao nvel global. Sobre cada pais representada um

    circulo que representa os dados assinalados, consoante o tamanho desse circulo assim representada

    a sua ordem de grandeza, possibilitando a comparao entre pases. Sempre que o utilizador selecciona

    uma regio diferente, obtm imediatamente os grficos por sector (parte inferior direita da figura) assim

    como o histrico ao longo do tempo (parte inferior esquerda da figura).

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 38: Grafo com muitos dados e confuso

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 39: O mesmo grafo com interactividade e destaques

    A Figura 38 e a Figura 39 representam uma situao de melhoria de visualizao e de interaco com

    grafos. Na Figura 38 apresentado um exemplo infelizmente muito frequente, de um grafo que por

    conter muitos dados, se encontra saturado e a sua legibilidade e interpretao dos dados

    comprometida. Uma das formas de contornar esse problema aplicar interactividade ao grafo e quando

    o utilizador selecciona um dos ns so destacadas todas as ligaes desse n com os seus imediatos,

    como possvel observar na Figura 39. Outra soluo era esbater/desvanecer as restantes ligaes e

    ns que no faziam parte da malha de proximidade do n seleccionado.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 40: Filtragem de diversas variveis

    Na Figura 40 apresentado um mecanismo de filtrar dados atravs de filtros visuais em diferentes

    variveis. Do lado esquerdo, so apresentadas as variveis de filtro e que o utilizador pode adicionar ou

    remover. No exemplo so apresentados as Vendas a Quantidade e o Lucro. Seguidamente na

    Figura 40 do lado direito so apresentados os trs filtros, sendo cada um uma recta vertical. Do lado

    esquerdo para o direito surge as Vendas, Quantidade e Lucro. O utilizador em cada linha/varivel

    vertical pode seleccionar o valor mximo e mnimo do intervalo de dados que so mostrados. Cada linha

    vertical passa a funcionar como um slider duplo. Desta forma, consegue-se obter conjuntos de dados

    que obedeam interseco dos intervalos dos filtros seleccionados.

    A Figura 41 apresenta uma abordagem para mapear num calendrio diferentes tipos de

    eventos/ocorrncias e a sua severidade ou contagem num determinado dia. Por exemplo, poder-se-ia

    associar a cor verde aos dias em que se obtm receitas, a vermelho os dias com despesas. O tamanho

    dos crculos assinalados no mapa iram ser valores relativos e representariam com diferentes tamanhos

    os diferentes valores de receitas e despesas.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 41: Associao de nmero ou importncia de eventos por dia

    Figura 42: Representao de classes e subclasses de dados em estruturas circulares

    A Figura 42 apresenta uma visualizao destinada representao de hierarquias de dados e onde

    determinadas classes de dados sejam superclasses ou subclasses de outros dados. Por exemplo, uma

    aplicao desta visualizao seria na organizao de uma empresa, onde se poderia observar as diversas

    sucursais, por sua vez, dentro de cada uma, visualizar os diferentes departamentos e por fim, dentro de

    cada departamento os diversos funcionrios afectos.

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Figura 43: Grficos interactivos de evoluo com noo temporal

    Figura 44: Sliders mltiplos em grficos para filtragens dinmicas em tempo real

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    A Figura 43 apresenta um conjunto de dados que por norma seriam apresentados num simples grfico

    de barras como o somatrio da pontuao de cada jogador. No entanto, nesta representao foi

    adicionada a noo temporal, obtendo assim, o percurso e evoluo de cada jogador ao longo do tempo.

    Este conceito de grfico extremamente importante para o contexto dos Business Analytics pois muitas

    vezes os dados so representados em totais ou somatrios, perdendo-se informao sobre esses valores

    ao longo do tempo, sendo um desperdcio, pois essa informao temporal est quase sempre presente

    nas bases de dados que do suporte aos Business Analytics.

    J na Figura 44 apresentado outra abordagem de filtros dinmicos, em que no topo so apresentados

    diversos grficos sobre os dados e em baixo apresentada a tabela com os dados. No entanto, possvel

    utilizar sliders duplos sobre os grficos e definir assim intervalos de visualizao. A interseco dos

    intervalos desses vrios grficos vai, em tempo real, actualizar o contedo da tabela. Desta forma o

    utilizador consegue explorar e filtrar os dados de uma forma rpida e ao mesmo tempo visual e

    apelativa.

    Figura 45: Grfico com dados reais e dados futuros estimados

  • SmartContentProvider | Entidade Promotora: Parceiros:

    2/2 Projeto em curso com o apoio de:

    Nas vertentes preditivas do Business Analytics existe tambm a necessidade de criar novas formas de

    representar os dados preditivos. Na Figura 45 apresentado um grfico que em parte um grfico

    completamente normal, mas depois a partir de certo ponto, a sua recta representativa dos dados, deixa

    de ser um simples segmento de recta e passa a ser uma rea com diverso tons da mesma cor do

    segmento de recta.

    A interpretao deste grfico preditivo efectuada com os dados concretos registados no passado, na

    rea a branco e com o segmento de recta. Na rea a cinzento, passam a ser exibidos os dados preditivos.

    Esses dados preditivos so apresentados com tons diferentes consoante o grau de certeza do algoritmo

    preditivo, isto , o tom mais escuro representa dados com probabilidade elevada de ocorrere