188
Prof.ª Sheila Regina Oro Projeto “Recursos Educacionais Digitais” PROBABILIDADE E ESTATÍSTICA INFERÊNCIA ESTATÍSTICA

PROBABILIDADE E ESTATÍSTICA INFERÊNCIA ESTATÍSTICApaginapessoal.utfpr.edu.br/sheilaro/probabilidade-e-e... · 2021. 1. 27. · EXEMPLO 8.8 (BARBETTA pg. 220) • O tempo para transmitir

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • Prof.ª Sheila Regina Oro

    Projeto “Recursos Educacionais Digitais”

    PROBABILIDADE E ESTATÍSTICA

    INFERÊNCIA ESTATÍSTICA

  • TESTE DE HIPÓTESES

    POPULAÇÃO

    Amostra

    Conjectura (hipótese), sobre o

    comportamento das variáveis.

    Resultados Reais Obtidos

    Decisão sobre

    admissibilidade

    da amostra.

  • TESTE DE HIPÓTESES

    • HIPÓTESE NULA:

    É a hipótese aceita como verdadeira, até prova

    estatística em contrário. Geralmente representa o

    contrário do que queremos provar;

    • HIPÓTESE ALTERNATIVA:

    Geralmente é formulada em termos de

    desigualdades, e comumente corresponde ao que se

    quer provar.

  • TESTE DE HIPÓTESES

    • As hipóteses podem ser:

    a) Substituindo o processador A pelo

    processador B, altera-se o tempo de resposta de um

    computador;

    H0: 𝜇𝐴 = 𝜇𝐵 e H1: 𝜇𝐴 ≠ 𝜇𝐵

    b) Aumentando a dosagem de cimento,

    aumenta-se a resistência do concreto;

    H0: 𝜇2 = 𝜇1 e H1: 𝜇2 > 𝜇1.

  • TESTE DE HIPÓTESES

    • a)H0: 𝜇𝐴 = 𝜇𝐵 e H1: 𝜇𝐴 ≠ 𝜇𝐵

    Onde:

    • 𝜇𝐴 é o tempo médio de resposta com o processador A;e

    • 𝜇𝐵 é o tempo médio de resposta com o processador B;

    • b)H0: 𝜇2 = 𝜇1 e H1: 𝜇2 > 𝜇1Onde:

    • 𝜇2 é a resistência média do concreto com a dosagemd2 de cimento; e

    • 𝜇1 é a resistência média do concreto com a dosagemd1 de cimento.

  • TESTE DE HIPÓTESES

    c) Uma certa campanha publicitária produz

    efeito positivo nas vendas;

    H0: 𝜇2 = 𝜇1 e H1: 𝜇2 > 𝜇1;

    d) A implementação de um programa de

    melhoria da qualidade em uma empresa prestadora

    de serviços melhora a satisfação de seus clientes;

    H0: 𝑝2 = 𝑝1 e H1: 𝑝2 < 𝑝1;

  • TESTE DE HIPÓTESES

    • As hipóteses podem ser colocadas em forma de

    parâmetros populacionais:

    a) A média dos tempos de resposta do

    equipamento com o processador A é diferente da

    média dos tempos de resposta com o processador B;

    b) A média dos valores de resistência do

    concreto com a dosagem de cimento é maior do que

    a média dos valores de resistência com a dosagem .

  • TESTE DE HIPÓTESES

    • Ex.:

    Suspeita-se que uma moeda não seja

    perfeitamente equilibrada (probab. de cara ≠ probab.

    de coroa ≠ 0,5)

    • 𝑝 = probabilidade de cara;

    H0: 𝑝 = 0,5;

    H1: 𝑝 ≠ 0,5.

  • NÍVEL DE SIGNIFICÂNCIA

    Representa a probabilidade tolerável de se

    rejeitar H0 quando esta for verdadeira.

    Os valores mais comuns para o nível de

    significância são 5%, 10% e 1%.

  • TESTE DE HIPÓTESES

    • Planejamento da amostra:

    lançamentos imparciais e independentes da

    moeda.

    Resultado da amostra:

    Situação 1: Valor obtido: y = 10 caras.

    • Hipóteses:

    H0: a moeda é honesta;

    H1: a moeda é viciada;

    • Qual seria a conclusão?

  • TESTE DE HIPÓTESES

    • Distribuição binomial:

    Valor esperado , sob H0.

  • PROBABILIDADE DE SIGNIFICÂNCIA OU

    VALOR-P

    • Probabilidade da estatística do teste acusar um

    resultado tão (ou mais) distante do esperado

    quanto o resultado ocorrido na amostra observada,

    supondo H0 como a hipótese verdadeira;

  • TESTE DE HIPÓTESES

    • SITUAÇÃO 1:

    CaraCoroa

    Valor 𝑝 = 0,002 ou 2%

  • TESTE DE HIPÓTESES

    • CONCLUSÃO:

    Valor 𝑝 = 0,002 é menor que o nível designificância, (probabilidade de uma moeda honesta

    acusar um valor tão distante quanto ao que se

    observou na amostra). Probabilidade muito

    pequena!!!

    • Qual é a conclusão?

    O teste rejeita H0, ou seja, prova-se

    estatisticamente que a moeda é viciada.

  • TESTE DE HIPÓTESES

    • Situação 2:

    Valor obtido: y = 7 caras.

    • Qual seria a conclusão?

  • TESTE DE HIPÓTESES

  • TESTE DE HIPÓTESES

    Valor 𝑝 = 0,344 maior que o nível designificância, (probabilidade de uma moeda honesta

    acusar um valor tão distante quanto ao que se

    observou na amostra). Não é muito pequeno!!!

    • Qual é a conclusão?

    O teste aceita H0, ou seja, não se pode afirmar

    que a moeda é viciada.

  • NÍVEL DE SIGNIFICÂNCIA

    • REGRA DE DECISÃO:

    Rejeita H0.( Aceita-se

    estatisticamente H1);

    Aceita H0.(Os dados não

    mostram evidências para

    aceitar H1).

    𝑝 ≤ 𝛼

    𝑝 ≤ 𝛼

  • NÍVEL DE SIGNIFICÂNCIA

    • EXEMPLO

    Para testar se existe diferença entre dois

    sistemas computacionais (A e B), observou-se o

    desempenho com 12 cargas de trabalho. Em 3 casos

    o sistema A apresentou melhor desempenho do que

    o B. Nos demais, o sistema B foi melhor. Qual a

    conclusão ao nível de significância de 5%?

  • NÍVEL DE SIGNIFICÂNCIA

    • RESPOSTAS:

    Hipóteses:

    H0: 𝑝 = 0,5;H1: 𝑝 ≠ 0,5;

    Onde:

    • 𝑝 : probabilidade do sistema A apresentar melhor desempenho que o sistema B.

  • NÍVEL DE SIGNIFICÂNCIA

    • Distribuição Binomial: (𝑛 = 12; p = 0,5);

    Valor esperado (𝜇) sob H0.

  • NÍVEL DE SIGNIFICÂNCIA

    𝑉𝑎𝑙𝑜𝑟 𝑝 = 𝑃{(𝑋 < 3) 𝑜𝑢 (𝑋 > 9)}:

    𝑣𝑎𝑙𝑜𝑟 − 𝑝 = 0,146 𝑜𝑢 14,6%

  • NÍVEL DE SIGNIFICÂNCIA

    • O teste aceita H0, ao nível de significância de 5%.

    Não se pode afirmar (ao nível de significância de 5%)

    que existe diferença entre os dois tipos de sistemas,

    em termos de desempenho.

    𝑉𝑎𝑙𝑜𝑟 − 𝑝 = 14,6 > 5% (𝛼 = 5%);

  • TIPOS DE ERROS

  • ABORDAGEM CLÁSSICA:

    Constrói a regra de decisão antes de observar a

    amostra;

    Retomando o experimento de lançar 10 vezes

    a moeda, a regra de decisão para α = 0,05 é

    construída com base na equação:

    𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼) = 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 | 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎) = 𝛼 = 0,05

    TIPOS DE ERROS

  • TIPOS DE ERROS

    ABORDAGEM CLÁSSICA:

    Regra de decisão em termos de Y = número

    de caras em 10 lançamentos da moeda, com 𝛼= 0,05.

    Aceita H0 Rejeita H0Rejeita H0

  • • Mas, existem situações em que queremos rejeitar

    H0 em apenas um dos sentido. Por exemplo, se

    suspeitamos tende a dar mais caras do que

    coroas. Neste caso o teste pode ser formulado da

    seguinte maneira:

    H0: 𝑝 = 0,5 (a moeda é honesta); e

    H1: 𝑝 > 0,5 (a moeda tende a dar mais caras do quecoroas).

    TESTES UNILATERAIS

  • TESTES UNILATERAIS

    𝑉𝑎𝑙𝑜𝑟 𝑝 = 𝑝(7) + 𝑝(8) + 𝑝(9) + 𝑝(10) = 0,172

  • TESTES PARA PROPORÇÃO

    VARIÁVEIS DISCRETAS

    • H0: 𝑝 = 𝑝0 e H1: 𝑝 ≠ 𝑝0 (𝑝0 é um valor dado);

    • No caso de teste unilateral, a hipótese alternativa

    seria H1’: 𝑝 > 𝑝0 (unilateral à direita) ou H1’’:𝑝 < 𝑝(unilateral à esquerda).

    • Suponha amostra suficientemente grande para

    aproximação da binomial à normal:

    𝑛. 𝑝0 ≥ 5 𝑒 𝑛. (1 – 𝑝0) ≥ 5.

  • TESTES PARA PROPORÇÃO

    • Sejam:

    𝑝 =𝑦

    𝑛=

    𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑐𝑜𝑚 𝑜 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒

    𝑛𝑦’ = 𝑦– 0,5 𝑠𝑒 𝑦 > 𝑛. 𝑝0; ou

    𝑦’ = 𝑦 + 0,5 𝑠𝑒 𝑦 < 𝑛. 𝑝0 (correção de continuidade).Onde:

    • 𝑝 : é a proporção de elementos com atributo deinteresse na amostra.

  • TESTES PARA PROPORÇÃO

    • Cálculo da estatística do teste:

    𝑧 =𝑦′ − 𝑛. 𝑝0

    𝑛. 𝑝0(1 − 𝑝0)

    Onde:

    • 𝑝0: valor da proporção, segundo H0;• 𝑛 : tamanho da amostra;• 𝑦′: correção de continuidade.

  • TESTE PARA PROPORÇÃO

    ABORDAGEM DO VALOR -P

    Amostra Cálculo de z

    Obtenção de p

    pela tabela da

    normal

    Se bilateral: Se unilateral à

    direita:

    Se unilateral

    à esquerda:

    𝑧 =𝑦′ − 𝑛. 𝑝0

    𝑛. 𝑝0(1 − 𝑝0)

  • TESTE PARA PROPORÇÃO

    ABORDAGEM DO VALOR -P

    Aceita H0

    Rejeita H0

  • EXEMPLO 8.6 BARBETTA

    • Uma empresa retira periodicamente amostras

    aleatórias de 500 peças de sua linha de produção

    para analise de qualidade. As peças da amostra

    são classificadas como defeituosas ou não, sendo

    que a politica da empresa exige que o processo

    produtivo seja revisto se houver evidência de mais

    que 1,5% de peças defeituosas. Na ultima amostra

    foram encontradas 9 peças defeituosas. Usando

    um nível de significância de 1%, o processo

    precisa ser revisto?

  • RESULTADO

    • H0: 𝑝 = 0,015; H1: 𝑝 > 0,015; Usar 𝛼 = 0,01;

    • Amostra: 𝑦 = 9 em 𝑛 = 500;

    𝑝 =9

    500= 0,018

    𝑧 =𝑦′ − 𝑛. 𝑝0

    𝑛. 𝑝0(1 − 𝑝0)=

    8,5 − 500 ∗ (0,015)

    500 ∗ 0,015 ∗ (1 − 0,015)=

    1

    2,718≈ 0,37

  • RESULTADOS

    Aceita-se H0 ao nível de significância de 1%.

  • TESTE PARA PROPORÇÃO

    ABORDAGEM CLÁSSICA

    Obtenção do valor

    crítico pela tabela

    normal

    Nível de

    significância α ...

  • TESTE PARA PROPORÇÃO

    ABORDAGEM CLÁSSICA

  • TESTE PARA PROPORÇÃO

    ABORDAGEM CLÁSSICA

    Se bilateral:

    Nível de

    significância α

    Obtenção do

    valor crítico pela

    tabela normalCálculo do

    valor z

    Aceita H0 RejeitaH0Rejeita H0

  • TESTE PARA PROPORÇÃO

    ABORDAGEM CLÁSSICA

    Se unilateral a direita:

    Nível de

    significância α

    Obtenção do

    valor crítico pela

    tabela normal

    Cálculo do

    valor z

    Aceita H0 Rejeita H0

  • EXEMPLO 8.6 BARBETTA

    • H0: 𝑝 = 0,015; e H1: 𝑝 > 0,015. Usar α = 0,01

    Regra de decisão:

    Aceita H0 Rejeita H0

  • • Da amostra temos:

    • 𝑧 =𝑦′−𝑛.𝑝0

    𝑛.𝑝0(1−𝑝0)= 0,37

    Portanto, chegamos a conclusão de que não há

    provas estatísticas suficientes para recomendar a

    revisão do processo produtivo.

    RESULTADO

  • TESTE PARA MÉDIA

    VARIÁVEIS CONTÍNUAS

    • É aplicável em situações que queremos verificar se

    uma variável na população pode ser considerada,

    em média, igual a certo valor .

    Para teste bilateral:

    • H0: 𝜇 = 𝜇0 e H1: 𝜇 ≠ 𝜇0

    • Para teste unilateral:

    Para este caso a hipótese alternativa seria:

    H1’: 𝜇 > 𝜇0 (unilateral à direita); ouH1’’:𝜇 < 𝜇0 (unilateral à esquerda).

  • TESTE PARA MÉDIA

    CASO DE VARIÂNCIA CONHECIDA

    • Cálculo da estatística do teste:

    𝑧 = 𝑥 − 𝜇0 ∗ 𝑛

    𝜎

    Onde:

    • 𝑥: média da amostra;• 𝜇0: valor da média segundo H0;• 𝑛 : tamanho da amostra;• 𝜎 : variância populacional;

    O teste é feito com a distribuição normal,

    análogo ao da proporção.

  • TESTE PARA MÉDIA

    CASO DE VARIÂNCIA DESCONHECIDA

    • Cálculo da estatística do teste:

    𝑡 = 𝑥 − 𝜇0 ∗ 𝑛

    𝑠

    Onde:

    • 𝑥: média da amostra;• 𝜇0: valor da média segundo H0;• 𝑛 : tamanho da amostra;• 𝑠 : variância populacional.Uso da distribuição t com 𝑔𝑙 = 𝑛 – 1 (supondopopulação com distribuição normal).

  • EXEMPLO 8.8 (BARBETTA pg. 220)

    • O tempo para transmitir 10 MB determinada rede de

    computadores varia segundo um modelo normal, com

    média 7,4 s e variância 1,3 s². Depois de algumas

    mudanças na rede, acredita-se numa redução no

    tempo de transmissão de dados, além de uma possível

    alteração na variabilidade. Foram realizados 10 ensaios

    independentes com um arquivo de 10 MB e foram

    anotados os tempos de transmissão, em segundos: 6.8,

    7.1, 5.9, 7.5, 6.3, 6.9, 7.2, 7.6, 6.6, 6.3;

    • Existe evidência suficiente de que o tempo médio de

    transmissão foi reduzido? Use nível de significância de

    1%.

  • RESULTADOS

    H0: 𝜇 = 7,4 𝑠;H1: 𝜇 < 7,4 𝑠;

    Amostra:

    • N=10;

    • Média da amostra=6,82;

    • Desvio padrão da amostra=0,551;

    𝑡 =6,82 − 7,4 ∗ 10

    0,551= −3,33

  • RESULTADOS

    • Uso da tabela t para obter o valor p:

  • RESULTADOS

    • Uso da tabela t para obter o valor p:

  • RESULTADOS

    Como observado na tabela t, a área apontada

    é entre 0,0025 < 𝑣𝑎𝑙𝑜𝑟 𝑝 < 0,005 , então o testeestatístico rejeita H0 em favor de H1.

    Portanto, com este resultado, podemos afirmar

    que houve redução no tempo de transmissão de

    dados com as alterações nas redes de

    computadores.

  • COMPARAÇÃO ENTRE TRATAMENTOS

    AMOSTRAS INDEPENDENTES

    Para realizar este tipo de experimento, divide-

    se as unidades experimentais em g grupos,

    submetendo cada grupo a um tratamento. Dessa

    forma temos g amostras independentes.

    Podemos construir também h blocos de

    unidades experimentais semelhantes similares,

    sorteando os tratamentos em cada bloco.

  • AMOSTRAS INDEPENDENTES

    • Ex. 9.1(BARBETTA)

    Considere o problema de comparar dois

    materiais (A e B), para sola de tênis, em termos do

    grau de desgaste após um certo período de uso.

    Seguem dois projetos de experimentos alternativos:

    • Projeto I – Um grupo de indivíduos usa tênis com

    solas feitas com o material A; e outro grupo usa

    tênis com solas feitas com o material B.

  • AMOSTRAS INDEPENDENTES

    Mensuração do grau de

    desgaste

    Mensuração do grau de

    desgaste

  • AMOSTRAS PAREADAS (se g>2)

    • Projeto II – Fabricam-se, para a realização do

    experimento, pares de tênis com os dois tipos de

    sola, isto é, um dos pés com o material A e o outro

    pé com o material B. Em cada par, o material

    usado em cada pé (direito ou esquerdo) é decidido

    por sorteio

    Mensuração do grau de desgaste

    Alocação aleatória de A e B em cada par;

  • AMOSTRAS PAREADAS

    • Importância de considerar os pares na análise:

    Indivíduo (par de unidades experimentais)

  • TESTE T PARA DUAS AMOSTRAS

    • H0: 𝜇1 = 𝜇2 e H1: 𝜇1 ≠ 𝜇2;

    Onde:

    • 𝜇1: valor esperado da resposta sob o tratamento 1;• 𝜇2: valor esperado da resposta sob o tratamento 2;

    • Na abordagem unilateral, a hipótese alternativa é

    do tipo:

    • H1’: 𝜇1 > 𝜇2 ou H1”: 𝜇1 < 𝜇2.

  • TESTE T PARA DUAS AMOSTRAS

    • Caso os dados na amostra possuam um nível de

    mensuração qualitativo (ordinal ou nominal),

    mensuração quantitativa com indícios de que a

    distribuição não é normal ou quando há interesse

    em realizar inferência sobre outras características

    da população, usa-se os testes não paramétricos.

    • No caso do teste t para duas amostras

    independentes, o teste não paramétrico substituto

    é o teste Mann-Whitney. Para duas amostras

    pareadas o teste indicado é o de Wilcoxon.

  • EXEMPLO 9.2(Barbetta, pg 235)

    • Seja o problema de verificar se um novo algoritmo

    de busca em um banco de dados é mais rápido

    que o algoritmo atualmente usado. Para se fazer a

    comparação dos dois algoritmos, planeja-se

    realizar uma amostra aleatória de 10 buscas

    experimentais (ensaios). Em cada ensaio, uma

    dada busca é realizada pelos dois algoritmos e o

    tempo de resposta de cada algoritmo anotado.

    Observamos que em cada ensaio os dois

    algoritmos são usados em condições idênticas,

    caracterizando 10 pares de observações.

  • EXEMPLO

    • H0: em média, os dois algoritmos são igualmente

    rápidos; e

    • H1: em média, o algoritmo novo é mais rápido do

    que o algoritmo em uso;

    Ou:

    • H0: 𝜇1 = 𝜇2 e H1: 𝜇1 < 𝜇2;Onde:

    • 𝜇2 é o tempo esperado de resposta do algoritmonovo; e

    • 𝜇1 é o tempo esperado de resposta do algoritmoantigo.

  • EXEMPLO

  • EXEMPLO

    • Como os dados são pareados, pode ser verificado

    em cada ensaio a diferença entre os dois

    tratamentos(algoritmo):

    𝐷 = 𝑋2 − 𝑋1

    • Em termos da variável diferença, as hipóteses

    ficam:

    • H0: 𝜇𝐷 = 0 e H1: 𝜇𝐷 > 0.

  • EXEMPLO

    A estatística do teste será calculada da

    seguinte maneira:

    𝑡 = 𝑑 ∗ 𝑛

    𝑠𝑑

    Onde:

    • 𝑑: é a média das diferenças observadas;• 𝑛 : é o tamanho da amostra(número de pares);• 𝑠𝑑 : é o desvio padrão das diferenças observadas.

  • EXEMPLO

    • Supondo populações de distribuição normal, usa-

    se a distribuição t de Student, com 𝑔𝑙 = 𝑛 − 1graus de liberdade.

    • Dos dados apresentados anteriormente temos:

    Valores de D: 3, 7, -2, 6, -1, 6, 2, 9, -1, 5:

    • 𝑑 = 3,4;• 𝑛 = 10

    𝑠𝑑 =1

    𝑛 − 1∗

    𝑖

    𝑑𝑖2 − 𝑛 ∗ 𝑑2 =

    246 − (10)(3,4)²

    9= 3,81

  • EXEMPLO

    A estatística fica da seguinte forma:

    𝑡 = 𝑑 ∗ 𝑛

    𝑠𝑑=

    3,4 ∗ 10

    3,81= 2,82

    Conferindo na tabela t com 𝑔𝑙 = 10 − 1 = 9:

  • EXEMPLO

    • O valor calculado, 𝑡 = 2,82, está bem próximo de2,821 apresentado na tabela de distribuição t, o

    que nos fornece um valor para 𝑝 = 0,01 , menorque o nível de significância adotado, de 5%(0,05).

    • Portanto, podemos afirmar que o algoritmo de

    busca novo é, em média, mais rápido que o antigo,

    rejeitando assim H0: 𝜇𝐷 = 0.

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    Exemplo 9.3(Barbetta, pg 238)

    Desejamos verificar se os catalisadores A e B

    têm efeitos diferentes no rendimento de uma certa

    reação química. As hipóteses são:

    • H0: em média, os dois catalisadores são iguais em

    termos de rendimento;

    H0: 𝜇1 = 𝜇2; e• H1: em média, os dois catalisadores são diferentes

    em termos de rendimento.

    H1: 𝜇1 ≠ 𝜇2.

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    • Rendimentos (%) de uma reação química em

    função do catalisador utilizado.

    45 42 45 45

    51 53 35 41

    50 50 43 43

    62 48 59 49

    43 55 48 39

    Catalisador A Catalisador B

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    • Diagrama de pontos dos resultados do

    experimento:

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    • Estatística do teste:

    𝑠𝑎2 =

    𝑠12 + 𝑠2

    2

    2

    Onde:

    • 𝑠12: variância da amostra 1;

    • 𝑠22: variância da amostra 2;

    • 𝑠𝑎2: variância agregada das duas amostras.

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    • Estatística do teste:

    𝑡 = 𝑥1 − 𝑥2 ∗𝑛

    2 ∗ 𝑠𝑎2

    Onde:

    • 𝑥1: média da amostra 1;• 𝑥2: média da amostra 2;• 𝑛 : tamanho da amostra em cada grupo.

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    • Usa-se para o cálculo a distribuição t de Student

    com graus de liberdade (supondo populações com

    distribuição normal).

    • Continuação(ex. 9.3):

    Amostra 1: 𝑛 = 10; 𝑥1 = 49,9; 𝑒 𝑠12 = 35,656;

    Amostra 2: 𝑛 = 10; 𝑥2 = 44,7; 𝑒 𝑠22 = 42,233;

    Variância Agregada: 𝑠𝑎2 =

    35,656+42,233

    2= 38,945;

    𝑡 = 49,9 − 44,710

    2 ∗ 38,94= 1,86

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    Graus de Liberdade: 𝑔𝑙 = 2𝑛 − 2 = 2 ∗ 10 − 2 = 18;

    Abordagem do valor p:

  • TESTE T PARA DUAS AMOSTRAS

    INDEPENDENTES

    • O valor de t obtido pelo cálculo aponta para uma

    região entre 0,025 e 0,05, mas como o teste é

    bilateral, a área deve ser dobrada para se obter o

    valor correto:

    • Portanto, 0,05 < 𝑝 < 0,1 , aceitamos H0 ao nívelde significância de 5%, afirmando que os dados

    não comprovam uma diferença entre os dois

    catalisadores.

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • AMOSTRAS INDEPENDENTES:

    A análise estatística para a comparação de g

    grupos independentes é feita geralmente por análise

    de variância ANOVA, acompanhada por um teste F,

    que supõe:

    • as observações devem ser independentes;

    • as variâncias populacionais devem ser iguais nos g

    grupos;

    • a distribuição das observações em cada grupo

    deve ser normal.

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • Ex. 9.4(Barbetta, pg. 252)

    Considere o problema de comparar 3 tipos de

    rede de computadores, C1, C2 e C3, em termos do

    tempo médio de transmissão de pacotes de dados

    entre duas máquinas.

    Experimento (projeto completamente

    aleatorizado com um fator): 8 replicações com cada

    tipo de rede, aleatorizando a ordem dos 24 ensaios e

    mantendo fixos os demais fatores controláveis.

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • Ex. 9.4;

    • Projeto do experimento:

    Seqüência número Uso da

    dos testes do ensaio rede

    1 16 C2

    2 14 C2

    3 24 C3

    4 6 C1

    ... ... ...

    24 11 C3

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • Ex. 9.4;

    Perguntas a serem respondidas pela análise

    estatística:

    • Existe diferença real (significativa) entre os 3 tipos

    de rede?

    • Qual é a estimativa do tempo de resposta para

    cada tipo de rede?

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • Ex. 9.4;

    Hipóteses para o problema:

    • H0: os tempos esperados de transmissão são

    iguais para os três tipos de rede;

    • H1: os tempos esperados de transmissão não são

    todos iguais (dependem do tipo de rede);

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • Dados do experimento:

    Replicação Tipo de Rede

    C1 C2 C3

    1 7,2 7,8 6,3

    2 9,3 8,2 6

    3 8,7 7,1 5,3

    4 8,9 8,6 5,1

    5 7,6 8,7 6,2

    6 7,2 8,2 5,2

    7 8,8 7,1 7,2

    8 8 7,8 6,8

    Soma 65,7 63,5 48,1

    Média 8,21 7,94 6,01

  • MODELO ANOVA:

    • 𝑔 = 3 𝑔𝑟𝑢𝑝𝑜𝑠;• 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗

    Onde:

    • 𝑦𝑖𝑗: observação;

    • 𝜇 : média global;• 𝜏𝑖: efeito do tratamento i;• 𝑒𝑖𝑗: erro aleatório;

    • 𝜇𝑖 = 𝜇 + 𝜏𝑖 = média do fator i.

    COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    Tratameto

    (1) (2) (3)

    𝑦11 𝑦21 𝑦31

    𝑦12 𝑦22 𝑦32

    … … …

    𝑦1𝑛 𝑦2𝑛 𝑦3𝑛 Média Global

    Média 𝑦1. 𝑦2. 𝑦3. 𝑦..

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • HIPÓTESES:

    H0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0 ou 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑔;

    H1: 𝜏𝑖 ≠ 0 ou 𝜇𝑖 ≠ 𝜇𝑗

    As observações:

    Sob H1: Sob H0:

    𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 𝑦𝑖𝑗 = 𝜇 + 𝜇𝑖𝑗

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • HIPÓTESES E MODELO SUBJACENTE:

    𝐻0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0

    𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗 𝑦𝑖𝑗 = 𝜇 + 𝜇𝑖𝑗

  • COMPARAÇÃO ENTRE VÁRIOS

    TRATAMENTOS

    • HIPÓTESES E MODELO SUBJACENTE:

    Sob H1: 𝜏𝑖 ≠ 0 para algum 𝑖:𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝑒𝑖𝑗

  • Análise de variância (ANOVA), com um fator

  • Análise de variância (ANOVA), com um fator

    Soma de quadrados totais:

    𝑆𝑄𝑇𝑜𝑡 =

    𝑖=1

    𝑔

    𝑗=𝑖

    𝑛

    (𝑦𝑖𝑗 − 𝑦..) ²

    Onde:

    • 𝑔 : grupos;• 𝑛 : repetições;Graus de Liberdade:

    𝑔𝑙 = 𝑁 − 1𝑁 = 𝑛 ∗ 𝑔

    Onde:

    • 𝑁 : tratamentos;

  • Análise de variância (ANOVA), com um fator

    Soma de Quadrados do Tratamento:

    𝑆𝑄𝑇𝑟𝑎𝑡 =

    𝑖=1

    𝑔

    𝑗=1

    𝑛

    𝑦𝑖. − 𝑦..2 = 𝑛

    𝑖=1

    𝑔

    ( 𝑦𝑖. − 𝑦..)²

    Onde:

    • 𝑔 : grupos;• 𝑛 : repetiçõesGraus de Liberdade:

    𝑔𝑙 = 𝑔 − 1

  • Análise de variância (ANOVA), com um fator

    • Soma de quadrados do erro:

    𝑆𝑄𝐸𝑟𝑟𝑜 =

    𝑖=1

    𝑔

    𝑗=1

    𝑛

    (𝑦𝑖𝑗 − 𝑦𝑖.)²

    Onde:

    • 𝑔 : grupos;• 𝑛 : repetições;• Graus de liberdade:

    𝑔𝑙 = 𝑁 − 𝑔Onde:

    • 𝑁 : tratamentos;

  • Análise de variância (ANOVA), com um fator

    Fonte de

    Variação

    Soma de Quadrados gl Quadrados

    Médios

    Razão f

    Entre

    Tratamentos 𝑆𝑄𝑇𝑟𝑎𝑡 =

    𝑖=1

    𝑔𝑦𝑖.

    2

    𝑛−

    𝑦..2

    𝑁

    𝑔 − 1𝑄𝑀𝑇𝑟𝑎𝑡 =

    𝑆𝑄𝑇𝑟𝑎𝑡𝑔𝑙𝑇𝑟𝑎𝑡

    𝑓 =𝑄𝑀𝑇𝑟𝑎𝑡𝑄𝑀𝐸𝑟𝑟𝑜

    Dentro Trat.

    (Erro) 𝑆𝑄𝐸𝑟𝑟𝑜 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑇𝑟𝑎𝑡

    𝑁 − 𝑔𝑄𝑀𝐸𝑟𝑟𝑜 =

    𝑆𝑄𝐸𝑟𝑟𝑜𝑔𝑙𝐸𝑟𝑟𝑜

    Total𝑆𝑄𝑇𝑜𝑡 =

    𝑖=1

    𝑔

    𝑗=𝑖

    𝑛

    𝑦𝑖𝑗2 −

    𝑦..2

    𝑁

    𝑁 − 1

  • TESTE F

    • Se H0: 𝜏1 = 𝜏2 = ⋯ = 𝜏𝑔 = 0 for verdadeira e

    considerando as suposições anteriormente

    enunciadas, a estatística f tem distribuição F com

    (g - 1) graus de liberdade no numerador e (N - g)

    graus de liberdade no denominador.

    f

  • TESTE F

    • Após calculada a estatística f, usa-se a tabela de

    distribuição F de Snedecor, para encontrar (), com

    graus de liberdade no numerador, e graus de

    liberdade no denominador. A regra de decisão é

    dada por:

    • Se 𝑓 < 𝑓𝑐, então aceita H0;

    • Se 𝑓 ≥ 𝑓𝑐, então rejeita H0;

  • Continuação Ex. 9.4

    Soma global: 𝑦.. = 177,3;

    𝑆𝑄:

    𝑖=1

    𝑔

    𝑗=1

    𝑛

    𝑦𝑖𝑗2 = 7,2 2 + 9,3 2 + ⋯ =1344,25

    𝑆𝑄𝑇𝑟𝑎𝑡 =67,6 2 + 63,5 2 + (48,1)²

    8−

    177,3 2

    24= 22,99

    𝑆𝑄𝑇𝑜𝑡 = 1344,25 −177,3 2

    24= 34,45

    𝑆𝑄𝐸𝑟𝑟𝑜 = 34,45 − 22,99 = 11,46

  • Continuação Ex. 9.4

    Fonte de Variação SQ gl QM f

    Entre Trat. 22,99 2 11,50 21,07

    Dentro Trat. (Erro) 11,46 21 0,55

    Total 34,45 23

  • REGRA DE DECISÃO

    ABORDAGEM DO VALOR P

    • Como regra de decisão, usa-se α=nível de

    significância, usualmente 0,05(5%), que é

    probabilidade tolerável de se rejeitar Ho quando

    esta for verdadeira;Rejeita H0 (Prova-

    se estatisticamente

    H1)

    Aceita H0 (Dados

    não mostram

    evidências para

    aceitar H1)

  • ANÁLISE DOS RESÍDUOS

    • Avaliação das suposições da ANOVA através de

    gráficos dos resíduos:

  • ESTIMAÇÃO DAS MÉDIAS

    • Intervalo de confiança para o valor esperado da

    resposta sob o i-ésimo tratamento (nível de conf.

    𝛾):

    𝐼𝐶 𝜇𝑖 , 𝛾 = 𝑦𝑖. ± 𝑡𝛾𝑄𝑀𝐸𝑟𝑟𝑜

    𝑛

    Onde:• 𝑡𝛾: valor encontrado na tabela t;

    • 𝛾 : nível de confiança;

  • ESTIMAÇÃO DAS MÉDIAS

    • Ex. 9.4: Usando nível de confiança de 95% e 𝑔𝑙= 𝑁 − 𝑔 = 24 − 3 = 21, temos 𝑡95% = 2,08, então,para a rede C1 temos:

    𝐼𝐶 𝜇𝑖 , 95% = 8,21 ± 2,080,55

    8= 8,21 ± 0,55

  • ANOVA COM UM FATOR

    • No caso em que as amostras não possuem

    distribuição normal, ou que tenham um nível de

    mensuração qualitativo, usa-se o teste Kruskal-

    Wallis.

  • TESTE F PARA AMOSTRAS EM BLOCOS

    • Notação para os dados:

  • TESTE F PARA AMOSTRAS EM BLOCOS

    Modelo para os dados:

    𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + 𝜀𝑖𝑗

    Onde:

    𝜇 : é a média global da resposta;𝜏𝑖: é o efeito do i-ésimo tratamento;𝛽𝑗: é o efeito do j-ésimo bloco;

    𝜀𝑖𝑗: é o efeito aleatório (𝑖 = 1, 2, … , 𝑛; 𝑗 = 1, 2, … , ℎ).

  • TESTE F PARA AMOSTRA EM BLOCOS

    QUADRO ANOVA

    Fonte de

    VariaçãoSoma de Quadrados gl Quadrados

    Médios

    Razão f

    Entre

    Trat. 𝑆𝑄𝑇𝑟𝑎𝑡 = 𝑖=1

    𝑔𝑦𝑖.

    2

    ℎ−

    𝑦..2

    𝑁

    𝑔 − 1 𝑄𝑀𝑇𝑟𝑎𝑡 =𝑆𝑄𝑇𝑟𝑎𝑡𝑔𝑙𝑇𝑟𝑎𝑡

    𝑓 =𝑄𝑀𝑇𝑟𝑎𝑡𝑄𝑀𝐸

    Entre

    Blocos 𝑆𝑄𝐵𝑙𝑜𝑐𝑜 = 𝑗=1

    ℎ𝑦.𝑗

    2

    𝑔−

    𝑦..2

    𝑁

    ℎ − 1 𝑄𝑀𝐵 =𝑆𝑄𝐵𝑔𝑙𝐵

    Erro 𝑆𝑄𝐸 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑇𝑟𝑎𝑡 − 𝑆𝑄𝐵 (𝑔 − 1)(ℎ − 1) 𝑄𝑀𝑇𝑟𝑎𝑡 =𝑆𝑄𝐸𝑔𝑙𝐸

    Total𝑆𝑄𝑇𝑜𝑡 =

    𝑖=1

    𝑔

    𝑗=𝑖

    𝑛

    𝑦𝑖𝑗2 −

    𝑦..2

    𝑁𝑁 − 1

  • Ex. 9.5(Barbetta, pg. 256)

    • Seja o problema de comparar 3 algoritmos de busca em

    um banco dedados. Realiza-se um experimento com 6

    buscas experimentais, sendo que em cada uma é

    sorteado um número aleatório que indica o registro do

    banco de dados a ser localizado. Em cada um dos 6

    processos de busca, são usados separadamente os três

    algoritmos em estudo, mas sob as mesmas condições,

    em termos dos fatores controláveis. São anotados os

    tempos de resposta ao usuário.

    • Hipóteses:

    H0: em média, os três algoritmos são igualmente rápidos;

    H1: em média, os três algoritmos não são igualmente

    rápidos;

  • Ex. 9.5(Barbetta, pg. 256)

    • Dados do exercício:

    Ensaio

    (Bloco)

    Algoritmos de Busca

    A1 A2 A3

    1 8,3 8,1 9,2

    2 9,3 8,9 9,8

    3 9,1 9,3 9,9

    4 9,9 9,6 10,3

    5 8,2 8,1 8,9

    6 10,9 11,2 13,1

    Soma 55,8 55,2 61,2

    Média 9,3 9,2 10,2

  • Ex. 9.5(Barbetta, pg. 256)

    Soma de Quadrados

    𝑆𝑄𝑇𝑟𝑎𝑡 =55,8 2 + 55,2 2 + (61,2)²

    6−

    172,2 2

    18= 3,64

    𝑆𝑄𝐵 =5007,98

    3−

    172,2 2

    18= 21,95

    𝑆𝑄𝑇𝑜𝑡 = 8,32 + 9,3 2 + 9,1 2 + ⋯−

    172,2 2

    18= 26,86

    𝑆𝑄𝐸𝑟𝑟𝑜 = 26,86 − 21,95 − 3,64 = 1,27

  • Fonte de Variação SQ gl QM

    Entre Trat. 3,64 2 1,82 14,29

    Entre Blocos 21,95 5 4,39

    Erro 1,27 10 0,13

    Total 26,86 17

    Ex. 9.5(Barbetta, pg. 256)

    Tabela ANOVA:

    Adotando 𝛼 = 0,05, com 𝑔𝑙 = 2 no numerador e 𝑔𝑙= 10 no denominador, temos o valor crítico 𝑓𝑐 = 4,10.O que podemos concluir?

  • Ex. 9.5(Barbetta, pg. 256)

    • Como o valor calculado é superior ao valor crítico,

    então o teste rejeita H0, provando estatisticamente

    que há diferença entre os três algoritmos de busca

    em termos do tempo médio de resposta.

  • ANOVA EM PROJETOS FATORIAIS

    • Nos estudos experimentais, em geral procuramos

    avaliar ou testar o efeito de mais de um fator sobre

    uma resposta de interesse, por exemplo:• O engenheiro civil quer conhecer o quanto o tempo

    de hidratação, a dosagem de cimento e o uso de

    aditivos interferem na resistência a compressão de

    um concreto;

    • Um projeto é dito fatorial quando cada nível de um

    fator é testado com todos os níveis dos outros

    fatores, sem restrições.

  • ANOVA EM PROJETOS FATORIAIS

    • As observações podem ser descritas pelo seguinte

    modelo:

    𝑌𝑖𝑗𝑘 = 𝜇 + 𝜏𝑖 + 𝛽𝑗 + (𝜏𝛽)𝑖𝑗 + 𝜀𝑖𝑗𝑘

    Onde:

    • 𝜇 : é a média global da resposta;• 𝜏𝑖: é o efeito do i-ésimo nível do fator A;• 𝛽𝑗: é o efeito do j-ésimo nível do fator B;

    • (𝜏𝛽)𝑖𝑗: é o efeito da interação entre 𝜏𝑖 e 𝛽𝑗;

    • 𝜀𝑖𝑗𝑘: é o efeito aleatório ou erro experimental.

  • ANOVA EM PROJETOS FATORIAIS

    • Notação para os dados:

  • ANOVA EM PROJETOS FATORIAIS

    SOMAS DE QUADRADOS

    • Somas das observações em cada célula:

    𝑦𝑖𝑗. =

    𝑘=1

    𝑛

    𝑦𝑖𝑗𝑘

    • Soma de quadrados entre as células:

    𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 =

    𝑖=1

    𝑔

    𝑗=1

    ℎ𝑦𝑖𝑗.

    2

    𝑛−

    𝑦…2

    𝑁

  • ANOVA EM PROJETOS FATORIAIS

    Fonte de

    Variação

    Soma de Quadrados gl Quadrados

    Médios

    Razão f

    Fator A𝑆𝑄𝐴 =

    𝑖=1

    𝑔𝑦𝑖.

    2

    ℎ𝑛−

    𝑦…2

    𝑁

    𝑔 − 1𝑄𝑀𝐴 =

    𝑆𝑄𝐴𝑔𝑙𝐴

    𝑓 =𝑄𝑀𝐴

    𝑄𝑀𝐸𝑟𝑟𝑜

    Fator B𝑆𝑄𝐵 =

    𝑗=1

    ℎ𝑦.𝑗.

    2

    𝑔𝑛−

    𝑦…2

    𝑁

    ℎ − 1𝑄𝑀𝐵 =

    𝑆𝑄𝐵𝑔𝑙𝐵

    𝑓 =𝑄𝑀𝐵

    𝑄𝑀𝐸𝑟𝑟𝑜

    Interação

    A*B

    𝑆𝑄𝐴𝐵 == 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 − 𝑆𝑄𝐴 − 𝑆𝑄𝐵

    𝑔 − 1 ∗∗ (ℎ − 1)

    𝑄𝑀𝐴𝐵 =𝑆𝑄𝐴𝐵𝑔𝑙𝐴𝐵

    𝑓 =𝑄𝑀𝐴𝐵𝑄𝑀𝐸𝑟𝑟𝑜

    Erro 𝑆𝑄𝐸𝑟𝑟𝑜 = 𝑆𝑄𝑇𝑜𝑡 − 𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 ℎ𝑔(𝑛 − 1) 𝑄𝑀𝐸𝑟𝑟𝑜 =

    =𝑆𝑄𝐸𝑟𝑟𝑜𝑔𝑙𝐸𝑟𝑟𝑜

    Total𝑆𝑄𝑇𝑜𝑡 =

    𝑖=1

    𝑔

    𝑗=1

    𝑘=1

    𝑛

    𝑦𝑖𝑗𝑘2 −

    𝑦…2

    𝑁

    𝑁 − 1

  • EXEMPLO 9.6( Barbetta, pg. 260)

    Considere o problema de comparar 3 topologias de

    rede de computadores (C1, C2 e C3) e 2 protocolos (L1 e

    L2), em termos do tempo de resposta ao usuário. Realizou-

    se um experimento com 4 replicações em cada combinação

    de topologia e protocolo. Deseja-se verificar se há diferenças

    entre as topologias, entre os protocolos e eventual interação

    entre topologia e protocolo. Então, quer-se testar as

    seguintes hipóteses nulas:

    𝐻0(𝐴)

    :os tempos esperados de resposta são iguais para as

    três topologias;

    𝐻0(𝐵)

    : os tempos esperados de resposta são iguais para os

    dois protocolos;

    𝐻0(𝐴𝐵)

    : a mudança de protocolo não altera as diferenças

    médias do tempo de resposta nas três topologias (ausência

    de interação).

  • EXEMPLO 9.6( Barbetta, pg. 260)

    • Dados do experimento:Protocolo Topologia Soma Média

    C1 C2 C3

    L1 6,2 5,9 5,9 𝑦.1. = 82,8 7,45

    7,6 8,4 6,2

    7,2 7,1 5,2

    8,8 7,1 7,2

    L2 9,0 7,1 6,2 𝑦.2. = 95,9 7,99

    8,9 8,6 6,1

    9,4 9,1 8,9

    8,0 7,8 6,8

    Soma 𝑦1.. = 65,1 𝑦2.. = 61,1 𝑌3.. = 52,5 𝑦... = 178,7 7,45

    Média 8,1375 7,6375 5,5625

  • EXEMPLO 9.6( Barbetta, pg. 260)

    𝑆𝑄𝑆𝑢𝑏𝑡𝑜𝑡 =5393,39

    4−

    31933,69

    24= 17,77

    𝑆𝑄𝑇𝑜𝑡 = 1365,49 −31933,69

    24= 34,92

    𝑆𝑄𝐴 =10727,47

    8−

    31933,69

    24= 10,36

    𝑆𝑄𝐵 =16052,65

    12−

    31933,69

    24= 7,15

  • EXEMPLO 9.6( Barbetta, pg. 260)

    • ANOVA:

    Fonte de Variação SQ gl QM 𝑓 𝑓𝑐

    Topologia 10,36 2 5,18 5,44 3,55

    Protocolo 7,15 1 7,15 7,51 4,41

    Interação 0,26 2 0,13 0,14 3,55

    Erro 17,14 18 0,95

    Total 34,92 23

  • EXEMPLO 9.6( Barbetta, pg. 260)

    Conclui-se assim que tanto as diferentes

    topologias C1, C2 e C3, (𝑓 = 5,44 > 𝑓𝑐 = 3,55) ,quanto os diferentes protocolos utilizados L1 e L2, (𝑓

  • EXEMPLO 9.6( Barbetta, pg. 260)

    • Análise dos resíduos e do perfil das médias para

    comprovar as suposições de normalidade e

    variância constante dos dados.

    • As médias são determinadas pela equação:

    𝑦𝑖𝑗. =1

    𝑛

    𝑘=1

    𝑛

    𝑦𝑖𝑗𝑘

    • Os resíduos são a diferença entre os valores

    observados e a média dos subgrupos:𝑒𝑖𝑗𝑘 = 𝑦𝑖𝑗𝑘 − 𝑦𝑖𝑗.

  • EXEMPLO 9.6( Barbetta, pg. 260)

    (a) Perfil das médias (b) Análise dos Resíduos

  • EXEMPLO 9.6( Barbetta, pg. 260)

    Observando o perfil das médias podemos

    observar diferenças entre os níveis dos dois fatores e

    a ausência de interação.

    Observando o perfil dos resíduos, observamos

    que os resíduos se encontram distribuídos de forma

    aleatória em torno da linha horizontal, associada ao

    resíduo nulo, isso sugere também que as suposições

    de normalidade e variância constantes são atendidas,

    validando os resultados da ANOVA.

  • CORRELAÇÃO E REGRESSÃO

  • CORRELAÇÃO

    • X e Y estão positivamente correlacionadas quando

    elas caminham num mesmo sentido;

    Ex. Quanto maior o nível de renda da população,

    maior é a geração de resíduos;

    • Estão negativamente correlacionadas quando elas

    caminham em sentidos opostos;

    Ex. Quanto menor a temperatura de um liquido,

    maior é a presença de gases dissolvidos.

  • CORRELAÇÃO

    • EXEMPLO 11.1 (BARBETTA, pg. 317):

    No processo de queima da massa cerâmica

    para pavimento, corpos de prova foram avaliados por

    três variáveis: 𝑋1 = retração linear(%), 𝑋2 =resistência mecânica(MPa), 𝑋3 = absorção deágua(%).

  • CORRELAÇÃO

    • EXEMPLO 11.1. Resultados dos ensaios:

    Ensaio 𝑋1 𝑋2 𝑋3 Ensaio 𝑋1 𝑋2 𝑋3

    1 8,70 38,42 5,54 10 13,24 60,24 0,58

    2 11,68 46,93 2,83 11 9,10 40,58 3,64

    3 8,30 38,05 5,58 12 8,33 41,07 5,87

    4 12,0 47,04 1,10 13 11,34 41,94 3,32

    5 9,50 50,90 0,64 14 7,48 35,53 6,00

    6 8,58 34,10 7,25 15 12,68 38,42 0,36

    7 10,68 48,23 1,88 16 8,76 45,26 4,14

    8 6,32 27,74 9,92 17 9,93 40,70 5,48

    9 8,20 39,20 5,63 18 6,5 29,66 8,98

  • CORRELAÇÃO

    • EXEMPLO 11.1. Diagramas de dispersão:

    Variável 𝑋1 (Retração Linear) e 𝑋2 (ResistênciaMecânica):

    Resistência Mecânica

    Re

    tra

    çã

    o L

    ine

    ar

    60555045403530

    14

    13

    12

    11

    10

    9

    8

    7

    6

    Correlação entre Retração Linear e Resistência Mecânica

  • CORRELAÇÃO

    • EXEMPLO 11.1. Diagramas de dispersão:

    Variável 𝑋1 (Retração Linear) e 𝑋3 (Absorção deÁgua):

    Absorção de Água

    Re

    tra

    çã

    o L

    ine

    ar

    1086420

    14

    13

    12

    11

    10

    9

    8

    7

    6

    Correlação entre Retração Linear e Absorção de Água

  • CORRELAÇÃO

    • EXEMPLO 11.1. Diagramas de dispersão:

    Variável 𝑋2(Resistência Mecânica) e 𝑋3 (Absorçãode Água):

    Absorção de Água

    Re

    sis

    tên

    cia

    Me

    nic

    a

    1086420

    60

    55

    50

    45

    40

    35

    30

    Correlação entre Resistência Mecânica e Absorção de Água

  • CORRELAÇÃO

    Ideia de construção do Coef. de Correlação de

    Pearson:

    Padronização:

    (𝑖 = 1, 2, … , 𝑛)

    (𝑥𝑖 , 𝑦𝑖) (𝑥𝑖′, 𝑦𝑖

    ′)

    𝑥𝑖′ =

    𝑥𝑖 − 𝑥

    𝑠𝑥𝑦𝑖

    ′ =𝑦𝑖 − 𝑦

    𝑠𝑦

  • CORRELAÇÃO

    • Padronização (Exemplo 11.1 a, Barbetta, pg. 317):

  • CORRELAÇÃO

    • Padronização (Exemplo 11.1 a, Barbetta, pg. 317):

  • CORRELAÇÃO

    • Ideia de construção do Coef. De Correlação de

    Pearson:

    • Considere os produtos dos valores padronizados:

    𝑥𝑖′, 𝑦𝑖

    𝑥𝑖′ =

    𝑥𝑖 − 𝑥

    𝑠𝑥𝑦𝑖

    ′ =𝑦𝑖 − 𝑦

    𝑠𝑦(𝑖 = 1, 2, … , 𝑛)

  • CORRELAÇÃO

    • Sinais dos produtos dos valores padronizados:

    𝒚′

    𝒙′

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

  • CORRELAÇÃO

    • Sinais dos produtos dos valores padronizados:

    𝑖

    𝑥𝑖′𝑦𝑖

    ′ > 0

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

  • CORRELAÇÃO

    • Sinais dos produtos dos valores padronizados:

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

    𝑖

    𝑥𝑖′𝑦𝑖

    ′ < 0

  • CORRELAÇÃO

    • Sinais dos produtos dos valores padronizados:

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ negativos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

    Quadrantes com

    𝑥𝑖′, 𝑦𝑖

    ′ positivos

    𝑖

    𝑥𝑖′𝑦𝑖

    ′ ≈ 0

  • CORRELAÇÃO

    • Ideia de construção do Coef. De Correlação de

    Pearson:

    • Padronização: (𝑥𝑖 , 𝑦𝑖) (𝑥𝑖′, 𝑦𝑖

    ′):

    • Coeficiente de correlação de Pearson:

    𝑟 = 𝑖=1

    𝑛 (𝑥𝑖′𝑦𝑖

    ′)

    𝑛 − 1

    𝑥𝑖′ =

    𝑥𝑖 − 𝑥

    𝑠𝑥𝑦𝑖

    ′ =𝑦𝑖 − 𝑦

    𝑠𝑦(𝑖 = 1, 2, … , 𝑛)

  • Valores possíveis de r e interpretação da

    correlação

  • CORRELAÇÃO

    • Exemplo 11.1, matriz de correlações:

    Retração

    Linear

    Resistência

    Mecânica

    Absorção

    de Água

    Retração

    Linear

    1,00 0,75 -0,88

    Resistência

    Mecânica

    0,75 1,00 -0,84

    Absorção

    de Água

    -0,88 -0,84 1,00

  • CORRELAÇÃO

    • Interpretando a matriz de correlações, observamos

    que entre resistência mecânica e retração linear

    temos correlação positiva de moderada a forte, e

    entre retração linear e absorção de água temos

    correlação negativa forte.

  • CORRELAÇÃO

    • Outra forma de calcular a correlação r:

    𝑟 =𝑛 (𝑥𝑖 ∗ 𝑦𝑖) − ( 𝑥𝑖)( 𝑦𝑖)

    𝑛 𝑥𝑖2 − 𝑥𝑖

    2 ∗ 𝑛 𝑦𝑖2 − ( 𝑦𝑖)

    2

  • CORRELAÇÃO

    • Coeficiente de correlação populacional:

    𝜌 = 𝐶𝑜𝑟𝑟 𝑋, 𝑌 = 𝐸𝑋 − 𝜇𝑋

    𝜎𝑋∗

    𝑌 − 𝜇𝑌𝜎𝑌

    𝜇𝑋 = 𝐸 𝑋 𝜎𝑋 = 𝑉(𝑋)

    𝜇𝑌 = 𝐸 𝑌 𝜎𝑌 = 𝑉(𝑌)

  • CORRELAÇÃO

    • INFERÊNCIA SOBRE 𝜌:

    Dada uma amostra aleatória simples

    𝑋1, 𝑌1 , 𝑋2, 𝑌2 , … , (𝑋𝑛, 𝑌𝑛) , do par de variáveisaleatórias 𝑋, 𝑌 , o coeficiente r pode ser consideradouma estimativa de 𝜌.

  • CORRELAÇÃO

    • TESTE DE SIGNIFICÂNCIA DE 𝜌:

    • H0: 𝜌 = 0 (as variáveis X e Y não sãocorrelacionadas);

    • H1: 𝜌 ≠ 0 (as variáveis X e Y são correlacionadas;(pode também ser unilateral);

    • Admitindo (X, Y) com distribuição normal bivariada,

    a Tabela 10 do Apêndice do livro Estatística para

    Cursos de Engenharia e Informática (BARBETTA),

    apresenta o valor absoluto mínimo de r para se

    rejeitar H0.

  • REGRESSÃO

    • REGRESSÃO LINEAR SIMPLES:

    Variável independente

    X

    Variável dependente

    Y

    Temperatura do

    Forno, ºC

    Resistência Mecânica da

    Cerâmica, Mpa

    Quantidade de

    Aditivo, %

    Octanagem

    da Gasolina

    Renda, (R$) Consumo, (R$)

    Memória RAM do

    Computador, Gb

    Tempo de resposta

    do sistema, (s)

    Área construída

    do imóvel, m²

    Preço do

    imóvel, R$

  • REGRESSÃO

    • Ex. 11.2, (Barbetta, pg. 325):

    Considere o experimento que se analisa a

    octanagem da gasolina (Y) em função da adição de

    um novo aditivo (X). Para isso, foram realizados

    ensaios com os percentuais de 1, 2, 3, 4, 5 e 6% de

    aditivo. Os resultados são mostrados a seguir:

    X Y

    1 80,5

    2 81,6

    3 82,1

    4 83,7

    5 83,9

    6 85,0

    80

    81

    82

    83

    84

    85

    86

    0 1 2 3 4 5 6 7

    Índic

    e d

    e O

    cta

    nagem

    Quantidade de Aditivo (%)

    Y

  • REGRESSÃO

    • MODELO:

    𝑌 =𝑃𝑟𝑒𝑑𝑖𝑡𝑜 𝑝𝑜𝑟 𝑋,

    𝑠𝑒𝑔𝑢𝑛𝑑𝑜 𝑢𝑚𝑎 𝑓𝑢𝑛çã𝑜+

    𝐸𝑓𝑒𝑖𝑡𝑜𝐴𝑙𝑒𝑎𝑡ó𝑟𝑖𝑜

    𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑥𝑖 + 𝑒𝑖

    • 𝛼 e 𝛽 são parâmetros;

    Regressão

    Linear

    Simples

  • REGRESSÃO

    Modelo de regressão linear simples:

    • Em termos das variáveis: 𝐸 𝑌 = 𝛼 + 𝛽𝑋;

    • Em termos dos dados: 𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑥𝑖 + 𝑒𝑖;

    • Suposições:

    • os termos de erro (𝜀1, 𝜀2, … , 𝜀𝑛 ) são variáveisaleatórias independentes;

    • 𝐸 𝜀𝑖 = 0;• 𝑉 𝜀𝑖 = 𝜎

    2; e

    • 𝜀𝑖 tem distribuição normal (𝑖 = 1, 2, … , 𝑛).

  • REGRESSÃO

    • Método dos mínimos quadrados para estimar 𝛼 e𝛽:

    • Minimizar em relação a 𝛼 e 𝛽:

    𝑆 = 𝜀𝑖2 = 𝑌𝑖 − 𝛼 + 𝛽𝑥𝑖 ²

    •𝜕𝑆

    𝜕𝛼= 0

    •𝜕𝑆

    𝜕𝛽= 0

  • REGRESSÃO

    • Método dos mínimos quadrados para estimar 𝛼 e𝛽:

    • Resultados das derivadas parciais:

    Estimativa de 𝛽:

    𝑏 =𝑛 𝑥𝑖𝑦𝑖 − ( 𝑥𝑖)( 𝑦𝑖)

    𝑛 𝑥𝑖2 − ( 𝑥𝑖)²

    Estimativa de 𝛼:

    𝑎 = 𝑦𝑖 − 𝑏 𝑥𝑖

    𝑛Reta de regressão construída com os dados:

    𝑦 = 𝑎 + 𝑏𝑥

  • REGRESSÃO

    • EXEMPLO NUMÉRICO:

    𝒊 𝒙𝒊 𝒚𝒊1 20 98

    2 25 110

    3 30 112

    4 35 115

    5 40 122

    90

    95

    100

    105

    110

    115

    120

    125

    130

    15 20 25 30 35 40 45

    Tem

    po d

    e R

    eação

    Idade

    Diagrama de Dispersão

  • REGRESSÃO

    • EXEMPLO NUMÉRICO:

    𝑏 =𝑛 𝑥𝑖𝑦𝑖 − ( 𝑥𝑖)( 𝑦𝑖)

    𝑛 𝑥𝑖2 − ( 𝑥𝑖)²

    𝑎 = 𝑦𝑖 − 𝑏 𝑥𝑖

    𝑛

    𝒊 𝒙𝒊 𝒚𝒊 𝒙𝒊𝟐 𝒙𝒊𝒚𝒊

    1 20 98 400 1960

    2 25 110 625 2750

    3 30 112 900 3360

    4 35 115 1225 4025

    5 40 122 1600 4880

    150 557 4750 16975

    Reta de Regressão:

    𝑦 = 𝑎 + 𝑏 ∗ 𝑥

  • REGRESSÃO

    • EXEMPLO NUMERICO:

    𝑏 =𝑛 𝑥𝑖𝑦𝑖 − ( 𝑥𝑖)( 𝑦𝑖)

    𝑛 𝑥𝑖2 − ( 𝑥𝑖)²

    𝑏 =5 ∗ 16975 − (150 ∗ 557)

    5 ∗ 4750 − (150)²= 1,06

    𝒙𝒊 𝒚𝒊 𝒙𝒊𝟐 𝒙𝒊𝒚𝒊

    150 557 4750 16975

  • REGRESSÃO

    • EXEMPLO NUMÉRICO:

    𝑎 = 𝑦𝑖 − 𝑏 𝑥𝑖

    𝑛

    𝑎 =557 − 1,06 ∗ 150

    5= 79,6

  • REGRESSÃO

    • EXEMPLO NUMÉRICO:

    Reta de Regressão:

    𝑦 = 𝑎 + 𝑏 ∗ 𝑥• 𝑎 = 79,6; 𝑏 = 1,06;

    𝑦 = 79,6 + 1,06𝑥

    𝑥 = 20 𝑦 = 100,8

    𝑥 = 40 𝑦 = 122,0

  • REGRESSÃO

    • EXEMPLO NUMÉRICO:

    90

    95

    100

    105

    110

    115

    120

    125

    15 20 25 30 35 40 45

    Tem

    po d

    e R

    eação

    Idade

    Diagrama de Dispersão

  • REGRESSÃO

    • QUALIDADE DO AJUSTE:

    Após determinada a reta de regressão, deve-

    se verificar a qualidade do ajuste do modelo, que

    pode ser feito por:

    • Análise de variância do modelo;

    • Análise dos resíduos;

  • REGRESSÃO

    • RETA DE REGRESSÃO E RESÍDUOS:

    • Valores preditos:

    𝑦𝑖 = 𝑎 + 𝑏 ∗ 𝑥𝑖

    • Resíduos:

    𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖

  • REGRESSÃO

    • ANÁLISE DE VARIÂNCIA DO MODELO:

    • Desvio em relação

    a média aritmética:

    𝑑𝑖 = 𝑦𝑖 − 𝑦

    • Desvio em relação à

    reta de regressão

    (resíduo da

    regressão):

    𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖

  • REGRESSÃO

    • SOMA DE QUADRADOS:

    𝑦𝑖 − 𝑦2 = 𝑦𝑖 − 𝑦

    2 + 𝑦𝑖 − 𝑦𝑖2

    SQT

    Variação total

    SQR

    Variação explicada

    pela equação de

    regressão.

    SQE

    Variação não

    explicada

  • REGRESSÃO

    • SOMA DE QUADRADOS:

    𝑆𝑄𝑇 = 𝑦𝑖 − 𝑦 ² = 𝑦𝑖2 −

    𝑦𝑖 ²

    𝑛

    𝑆𝑄𝐸 = 𝑦𝑖 − 𝑦𝑖2 = 𝑦𝑖

    2 − 𝑎 𝑦𝑖 − 𝑏 𝑥𝑖𝑦𝑖

    𝑆𝑄𝑅 = 𝑆𝑄𝑇 − 𝑆𝑄𝐸

    Coeficiente de Determinação:

    𝑅2 =𝑆𝑄𝑅

    𝑆𝑄𝑇= 1 −

    𝑆𝑄𝐸

    𝑆𝑄𝑇

  • REGRESSÃO

    • Medidas de Qualidade do Ajuste:

    Coeficiente de Determinação(R²):

    𝑅2 =

    𝑉𝑎𝑟𝑖𝑎çã𝑜𝐸𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎𝑉𝑎𝑟𝑖𝑎çã𝑜𝑇𝑜𝑡𝑎𝑙

    = 𝑦𝑖 − 𝑦 ²

    𝑦𝑖 − 𝑦 ²

    0 ≤ 𝑅2 ≤ 1Matematicamente, R² é o

    quadrado do coeficiente

    de correlação de Pearson.

  • REGRESSÃO

    • Continuação Exemplo 11.2:

    • O que pode-se concluir sobre a equação de

    regressão?

    y = 0,8857x + 79,7R² = 0,975

    80

    80,5

    81

    81,5

    82

    82,5

    83

    83,5

    84

    84,5

    85

    85,5

    0 1 2 3 4 5 6 7

    Índic

    e d

    e O

    cta

    nage

    m

    Quantidade de Aditivo(%)

    Y

  • REGRESSÃO

    • Continuação Exemplo 11.2:

    • A equação de regressão afirma que 97,5% do

    índice de octanagem pode ser explicado por uma

    relação linear com a quantidade de aditivos.

  • • Análise de Variância do Modelo:

    yFonte de Variação

    gl SQ QM 𝑅𝑎𝑧ã𝑜 𝑓

    Regressão 1 𝑆𝑄𝑅 = 𝑦𝑖 − 𝑦 ² 𝑄𝑀𝑅 =𝑆𝑄𝑅

    1𝑓 =

    𝑄𝑀𝑅

    𝑄𝑀𝐸

    Erro 𝑛 − 2 𝑆𝑄𝐸 = 𝑦𝑖 − 𝑦𝑖 ² 𝑄𝑀𝐸 =𝑆𝑄𝐸

    𝑛 − 2

    Total 𝑛 − 1 𝑆𝑄𝑇 = 𝑦𝑖 − 𝑦 ²

    REGRESSÃO

  • REGRESSÃO

    • Teste de Significância do Modelo:

    𝐸 𝑌 = 𝛼 + 𝛽 ∗ 𝑋

    • H0: 𝛽 = 0 e H1: 𝛽 ≠ 0;

    • Distribuição de frequência para a razão 𝑓 :distribuição 𝑓 com 𝑔𝑙 = 1 no numerador e 𝑔𝑙 = 𝑛− 2 no denominador. (Usar Tabela 6 do apêndicedo Livro Barbetta, citado nas referências).

  • REGRESSÃO

    • Exemplo 11.2:𝑆𝑄𝑅 = 80,59 − 82,80 2 + 81,47 − 82,80 2 + ⋯ = 13,73

    𝑆𝑄𝑇 = 80,50 − 82,80 + 81,60 − 82,80 + ⋯ = 14,08

    𝑆𝑄𝐸 = 80,50 − 80,59 2 + 81,60 − 81,47 + ⋯ = 0,35

    𝑄𝑀𝑅 =13,73

    1= 13,73

    𝑄𝑀𝐸 =0,35

    4= 0,088

    𝑅𝑎𝑧ã𝑜 𝑓 =13,73

    0,088= 156,26

  • REGRESSÃO

    • Exemplo 11.2:

    Fonte de

    Variação

    gl SQ QM 𝑅𝑎𝑧ã𝑜 𝑓

    Regressão 1 13,73 13,73 156,26

    Erro 4 0,35 0,088

    Total 5 14,08

  • REGRESSÃO

    • Distribuição f com gl=1 e 4:

    Possíveis valores de f, sob H0.

  • REGRESSÃO

    • Valor p na distribuição F:

    𝑓Amostra

    0

  • REGRESSÃO

    • Abordagem clássica, regra de decisão:

    𝑓 calculado:

    0

    Rejeita H0Aceita H0

  • REGRESSÃO

    • Suposições do Modelo:

    𝑌𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖Onde:

    • Os termos de erro ( 𝜀1, 𝜀2, … , 𝜀𝑛 ), são variáveisaleatórias independentes;

    • 𝐸 𝜀𝑖 = 0;• 𝑉 𝜀𝑖 = 𝜎

    2;

    • 𝜀𝑖 tem distribuição normal (𝑖 = 1, 2, … , 𝑛).

  • REGRESSÃO

    • Ilustração da verdadeira distribuição de

    probabilidades em torno da verdadeira regressão:

  • REGRESSÃO

    • Análise dos resíduos: é um diagnóstico das

    suposições do modelo:

    • Valores preditos:

    • 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖;

    • Resíduos:

    • 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖.

  • REGRESSÃO

    • Análise dos Resíduos:

    Gráfico dos dados

    (𝑥𝑖 , 𝑦𝑖)

    Gráfico dos Resíduos

    (𝑥𝑖 , 𝑒𝑖)

    As suposições do modelo parecem satisfeitas?

  • REGRESSÃO

    • Análise dos Resíduos:

    • Pode-se perceber que nos gráficos anteriores não

    há nenhum ponto discrepante no gráfico dos

    dados, nota-se também que os resíduos possuem

    média aproximadamente zero, comprovando as

    suposições do modelo.

  • REGRESSÃO

    • Análise dos Resíduos:

    Gráfico dos dados

    (𝑥𝑖 , 𝑦𝑖)

    Gráfico dos Resíduos

    (𝑥𝑖 , 𝑒𝑖)

    As suposições do modelo parecem satisfeitas?

  • REGRESSÃO

    • Análise dos Resíduos:

    Um ponto discrepante nos dados pode forçar

    uma inclinação da reta, sugerindo uma tendência não

    compatível com as demais observações.

    Geralmente ocorre em amostras com poucas

    observações.

    É necessário, nesse caso, buscar a razão

    deste ponto discrepante, que pode ser algum erro,

    alguma falha no experimento, ou pode ser

    considerada uma situação atípica, sendo necessário

    uma nova análise, sem esse ponto discrepante.

  • REGRESSÃO

    • Análise dos Resíduos:

    Gráfico dos dados

    (𝑥𝑖 , 𝑦𝑖)

    Gráfico dos Resíduos

    (𝑥𝑖 , 𝑒𝑖)

    As suposições do modelo parecem satisfeitas?

  • REGRESSÃO

    • No caso anterior, recomenda-se a aplicação da

    transformação logarítmica, tanto para os valores

    de X quanto para os valores de Y, estabelecendo o

    seguinte modelo:

    𝑙𝑜𝑔 𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑙𝑜𝑔 𝑥𝑖 + 𝜀𝑖

  • REGRESSÃO

    • Análise dos Resíduos:

    Gráfico dos Resíduos

    (𝑥𝑖 , 𝑒𝑖)

    As suposições do modelo parecem satisfeitas?

  • REGRESSÃO

    • O gráfico anterior apresenta uma relação não

    linear, em que Y crescendo rapidamente com

    valores pequenos de X e crescendo lentamente

    com valores grandes de X.

    • Situação típica onde se transforma somente os

    dados da variável X, considerando o seguinte

    modelo para os dados:

    𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑙𝑜𝑔 𝑥𝑖 + 𝜀𝑖

  • REGRESSÃO

    • Análise dos Resíduos:

    Gráfico dos dados

    (𝑥𝑖 , 𝑦𝑖)

    Gráfico dos Resíduos

    (𝑥𝑖 , 𝑒𝑖)

    As suposições do modelo parecem satisfeitas?

  • REGRESSÃO

    • Os gráficos anteriores sugerem os seguintes

    problemas: relação não linear e aumento da

    variância a medida que X aumenta. Nesse caso, é

    recomendado uma transformação logarítmica na

    variável Y, ajustando o seguinte modelo aos dados:

    𝑙𝑜𝑔 𝑦𝑖 = 𝛼 + 𝛽 ∗ 𝑥𝑖 + 𝜀𝑖

  • REGRESSÃO

    Busca de um modelo adequado:

    • Suposição de linearidade entre x e y: uso de

    transformações;

    • Suposição de variância constante: transformações

    para estabilizar a variância ou uso do método dos

    mínimos quadrados generalizados;

    • Suposição de independência entre as

    observações: transformações, uso do método dos

    mínimos quadrados generalizados ou aplicação de

    técnicas de séries temporais;

    • Suposição de distribuição normal para os erros:

    uso de transformações.

  • REGRESSÃO

    • Modelos Linearizáveis:

    𝑦 = 𝛼 + 𝛽 log 𝑋 𝑦 = 𝛼 + 𝛽 log 𝑥

  • REGRESSÃO

    • Modelos Linearizáveis:

    𝑦 = 𝛼 ∗ 𝛽𝑥 𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝛼 + log 𝛽 ∗ 𝑥

  • REGRESSÃO

    • Transformações para estabilizar a variância:

  • REGRESSÃO

    • Transformações para estabilizar a variância:

    Alguns resultados teóricos;

    y com distribuição

    de Poisson𝑦′ = 𝑦

    y com distribuição

    de Binomial𝑦′ = 𝑠𝑒𝑛−1 𝑦

  • REGRESSÃO

    • Transformações para estabilizar a variância:

    Se o desvio padrão de y aumenta

    proporcionalmente em relação ao

    valor esperado de y𝑦′ = 𝑙𝑜𝑔 𝑦

  • REFERÊNCIAS

    • BARBETTA, Pedro A.; REIS, Marcelo. M.;

    BORNIA, Antonio C. Estatística para cursos de

    engenharia e informática. 3 ed. São Paulo:

    Editora Atlas, 2010.