Estat stica (MAD231) Turma: IGA Per odo: 2015/2 …sem a ser submetidas ao teste, segundo o sexo e a...

Estatıstica (MAD231)

Turma: IGA

Perıodo: 2015/2

Aula #01 de Inferencia Estatıstica: 03/02/2016

Inferencia Estatıstica: como fazer afirmacoes

sobre uma populacao conhecendo uma amostra

da populacao?

Referencia: Bussab e Morettin - Estatıstica

Basica - Editora Saraiva - Capıtulo 10.

Introducao

O uso de informacoes de uma amostra para

concluir sobre o todo faz parte da atividade

diaria da maioria das pessoas.

Observe como uma dona de casa verifica se

o feijao esta bom de sal. Ou ainda, observe

quando um cliente de supermercado, apos pro-

var uma uva rosada na secao de horti-fruti,

decide se vai comprar ou nao dessas uvas. Es-

sas decisoes sao baseadas em procedimentos

amostrais.

Conceitos Importantes

Populacao: e o conjunto de todos os elemen-

tos sob investigacao com pelo menos uma ca-

racterıstica em comum.

Amostra: e qualquer subconjunto nao-vazio

da populacao.

Parametro: Caracterıstica numerica da po-

pulacao.

Estatıstica: Caracterıstica numerica da amos-

Observe que aqui o uso da palavra estatıstica

tem outro significado.

Com o conceito que acabamos de apresentar

podemos dizer que usamos estatısticas para es-

timar parametros.

Um estimador de um parametro e uma es-

tatıstica.

Uma questao importante na Inferencia Estatısti-

ca e: “Como avaliar um estimador?”

Problemas de Inferencia

• Verificacao do tempo de vida medio da

lampada fluorescente especificado pelo fa-

bricante. Essa verificacao pode fazer parte

1. um procedimento de controle de qua-

lidade da empresa - se o tempo medio

de vida da amostra retirada de um lote

de tais lampadas nao atender a especi-

ficacao estabelecida, entao todo o lote

deve ser rejeitado;

2. um procedimento de um orgao de de-

fesa do consumidor - se o tempo medio

de vida de uma amostra de tais lampadas

obtidas de diversos pontos de venda aten-

der a especificacao do fabricante, entao

a reclamacao dos consumidores nao de-

vera ser aceita.

• Avaliacao de um novo produto. Antes do

lancamento, o novo produto sera distribuı-

do a um grupo de consumidores potenci-

ais que responderao um questionario. Se

os resultados dos questionarios mostrarem

que o novo produto foi bem aceito, entao

o grupo de marketing tera suporte para de-

fender o lancamento do novo produto.

• Previsao do tempo medio de espera dos

clientes no caixa de um banco. Se o tempo

medio de espera de uma amostra de clientes

for maior que o tempo medio afirmado pelo

gerente da agencia, entao sera bastante

provavel que as reclamacoes dos clientes

tenham fundamento.

• Ha razoes para supor que o tempo de rea-

cao Y a certo estımulo visual depende da

idade do indivıduo. Suponha que essa de-

pendencia seja linear.

Para verificar se essa suposicao e verdadeira,

obtiveram-se 20 dados da seguinte forma:

20 pessoas foram selecionadas, sendo 10

homens e 10 mulheres. Dentro de cada

grupo, de homens e mulheres, foram sele-

cionadas duas pessoas das seguintes faixas

de idade: 20, 25, 30, 35 e 40 anos.

Cada pessoa foi submetida ao teste e seu

tempo de reacao y foi registrado.

A populacao poderia ser considerada como

formada por todas aquelas pessoas que vies-

sem a ser submetidas ao teste, segundo o

sexo e a idade. A amostra e formada pelas

20 medidas de tempos de reacao.

• Previsao da populacao brasileira por genero

e idade a fim de formular polıticas publicas

para os proximos 40 anos.

Existem diversos modelos de previsao detamanho de populacao. Diversos fatoresinterferem na dinamica da populacao. Naquinta-feira, dia 29 de agosto de 2013, oIBGE divulgou que no Brasil ja sao 201milhoes de habitantes e tambem apresen-tou uma previsao sobre a populacao porgenero e idade ate 2060.

A populacao total projetada para o Brasil em 2013foi de 201,0 milhoes de habitantes, atingindo 212,1milhoes em 2020, ate alcancar o maximo de 228,4milhoes em 2042, quando comecara a decrescer,atingindo o valor de 218,2 em 2060, nıvel equiva-lente ao projetado para 2025 (218,3 milhoes).

Como selecionar uma amostra?

As observacoes contidas numa amostra sao

tanto mais informativas sobre a populacao, quan-

to mais conhecimento tivermos dessa mesma

populacao.

Por exemplo a analise quantitativa de globulos

brancos obtida de algumas gotas de sangue

da ponta do dedo de um paciente da a ideia

geral da quantidade de globulos brancos no

corpo todo, pois sabe-se que a distribuicao dos

globulos brancos e homogenea, e de qualquer

lugar que se tivesse retirado a amostra ela seria

“representativa”.

Nem sempre a escolha de uma amostra ade-

quada e imediata.

Procedimentos de levantamento de dados

(Bussab & Morettin)

1. Levantamentos Amostrais - a amostra e

obtida de uma populacao bem definida, por

meio de processos bem protocolados e contro-

lados pelo pesquisador.

Tais levantamentos costumam ser subdividi-

dos em dois subgrupos: probabilısticose nao-

probabilısticos. O primeiro reune todas as

tecnicas que usam mecanismos aleatorios de

selecao dos elementos de uma amostra, atri-

buindo a cada um deles, uma probabilidade,

conhecida a priori, de pertencer a amostra.

No segundo grupo estao os demais procedi-mentos, tais como amostras intencionais, nasquais os elementos sao selecionados com oauxılio de especialistas, e amostras de volunta-rios, como ocorre em alguns testes sobre novosmedicamentos e vacinas.

A grande vantagem dos procedimentos proba-bilısticos e poder medir a precisao da amostraobtida.

2. Planejamento de Experimentos. Tem comoprincipal objetivo analisar o efeito de uma varia-vel sobre outra(s). Requer interferencias dopesquisador sobre o ambiente em estudo (po-pulacao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.

Exemplo: A altura de um produto na gondolade um supermercado afeta as vendas do pro-duto? Se sim, como?

3. Levantamentos Observacionais. Os da-

dos sao coletados sem que o pesquisador te-

nha controle sobre as informacoes obtidas, ex-

ceto eventualmente sobre possıveis erros gros-

seiros. As series de dados temporais sao e-

xemplos tıpicos desses levantamentos.

Exemplo: suponha o problema de prever as

vendas futuras numa empresa em funcao das

vendas passadas. O pesquisador nao pode se-

lecionar dados, esses sao as vendas efetiva-

mente ocorridas.

Observe que aqui tambem se encaixa o pro-

blema de projecoes de tamanhos populacionais.

Amostra Aleatoria Simples(AAS)

Uma amostra aleatoria simples ocorre quando

atribuımos probabilidades de selecao na amos-

tra iguais para todos os elementos da popula-

Com relacao a precisao neste tipo de amostra-

gem existe diferenca se a selecao e feita com

reposicao ou sem reposicao.

No entanto, quando o tamanho da amostra

for muito inferior ao tamanho da populacao

(menor que 5% da populacao) a selecao sem

reposicao comporta-se, de modo aproximado,

como uma selecao com reposicao, e nesse caso

costuma-se tratar o problema como se fosse

com reposicao.

Distribuicao Amostral

No inıcio da aula falamos em usar estatısticas

para estimar um parametro.

Na pratica so podemos obter uma amostra da

populacao e, com base nela, tirar conclusoes

sobre a populacao.

Como poderemos fazer afirmacoes sobre a qua-

lidade das nossas conclusoes? Como podere-

mos falar sobre o erro decorrente da variabili-

dade amostral?

A resposta a essas perguntas envolve o con-

ceito de distribuicao amostral.

Suponha o problema de estimar um parametro

θ de certa populacao e que para isso dispo-

mos de uma amostra de tamanho n dessa po-

pulacao: x1, x2, ..., xn. Suponha tambem que

usaremos uma estatıstica T funcao da amostra

para estimar θ.

T = t(x1, x2, ..., xn)

T pode ser a soma (n∑i=1

xi), a media (x), a me-

diana, a amplitude, o desvio padrao amostral, e

sua escolha dependera do parametro que que-

remos estimar.

Para poder avaliar a qualidade de T como esti-

mador de θ e fundamental conhecer o modelo

probabilısitco que explica a variabilidadde de

seus valores, ou seja, a distribuicao amostral

de T .15

A figura a seguir ilustra como poderıamos ficticiamente obter essadistribuicao.

Mas como poderemos pelo menos fazer umhistograma de valores da estatıstica se so dis-pomos de uma amostra?

O Teorema Central do Limite da Teoria dasProbabilidades e uma peca chave para resolveresse problema.

Vamos simplificar o problema de estimacao deum parametro generico θ para um problemaespecıfico de estimacao da media populacional,µ.

Para isso dispomos de uma amostra aleatoriade tamanho n da populacao cujos valores ob-servados sao x1, x2, ..., xn.

No que segue usaremos: µ para a media dapopulacao e

σ2 para a variancia da populacao (σ - desviopadrao da populacao).

Um estimador natural de µ a ser usado e amedia amostral x.

O Teorema Central do Limite (TCL) afirma:

Se X1, X2,..., Xn e uma amostra aleatoria sim-

ples de uma populacao qualquer cuja media

e µ e variancia e σ2, a distribuicao amostral

de X =1

n∑i=1

Xi, a media amostral, se apro-

xima de uma distribuicao normal com media µ

e varianciaσ2

nquando n cresce.

Ou seja, para n suficientemente grande,

Xa∼ N

(µ,σ2

)ou equivalentemente,

X − µσ/√n

a∼ N (0,1)

Para entender melhor esse resultado vamos a-

presentar alguns exemplos.

Situacao 1: Suponha uma populacao Uniforme

em [0,5]: sua densidade e constante no in-

tervalo dado. O valor esperado de uma po-

pulacao uniforme em [0,5] e 2,5 e a variancia

e 25/12 ' 2,08.

Agora vamos sortear 100 amostras aleatorias

de tamanho 2 e calcular as respectivas medias

amostrais. A figura a seguir mostra um his-

tograma dos 100 valores obtidos.

Os histogramas a seguir mostram os compor-

tamentos da media amostral para 100 amostras

de tamanho 5, 10, 15 e 25 de uma populacao

uniforme em [0,5].

Como e possıvel perceber, a medida que au-

mentamos o tamanho da amostra, a variabi-

lidade dos valores da media amostral se torna

cada vez mais simetrica em torno de 2,5 (a

media da populacao) e que a variabilidade em

torno da media diminui.

Para amostras de populacoes uniformes, consi-

deram-se tamanhos amostrais moderados para

usar o TCL. Para n = 15 a aproximacao ja

e boa. No entanto, se a distribuicao popu-

lacional for muito afastada de uma normal,

por exemplo com forte assimetria positiva, sera

necessario um tamanho amostral bem superior

a 15 para que a aproximacao seja considerada

Vamos ver um exemplo desse tipo.

Suponha uma populacao com o seguinte com-

portamento.

Aqui foi escolhida uma populacao cuja media

e 0,04, mas que apresenta assimetria positiva.

Histogramas dos valores de x para 200 amostras

de tamanhos 5, 20, 30 e 40.

Mas como saber quando o tamanho amostral

e adequado ou nao para usar o TCL?

Voce nao precisara se preocupar com isso. Em

geral, o uso do TCL e considerado adequado

para amostras de tamanho maior ou igual a

30, independentemente da forma original da

populacao.

O desvio padrao da distribuicao amostral da

media, igual a σ√n

, e chamado de erro padrao

de X. Ele fornece uma medida do grau com

que as medias amostrais se desviam do valor

esperado de sua distribuicao (que coincide com

a media populacional µ).

Logo, podemos usar essa informacao para des-

cobrir o quao precisa e a nossa estimativa da

media da populacao.

Vejamos um exemplo teorico. Suponha queuma populacao, caracterizada por uma variavelaleatoria X, tenha distribuicao normal com me-dia 10 e variancia 100.

X ∼ N( 10︸︷︷︸=µ

,100︸︷︷︸=σ2

Suponha tambem que iremos trabalhar comamostras aleatorias de tamanho n = 16. Comofica a distribuicao amostral de X, a media amos-tral?

Aqui cabe comentar que no caso de populacoesnormais, nao e necessario usar o TCL, poisa distribuicao amostral de X e, de fato, umanormal.

Assim, temos

X ∼ N(µ, σ

)= N(10,6.25).

Veja o grafico dessa distribuicao (em vermelhodestaca-se a distribuicao da populacao).

Como e possıvel ver a distribuicao amostral da

media e muito mais concentrada em torno de

seu valor esperado do que a distribuicao da

populacao.

Calcule, por exemplo, agora P (−5 < X < 15)

e compare com P (−5 < X < 15)

Usando o R:

P (−5 < X < 15) = pnorm(15,

media︷︸︸︷10 ,

desvio-padrao︷︸︸︷10 )−pnorm(−5,10,10) '

0.8664

P (−5 < X < 15) = pnorm(15,10,2.5)− pnorm(−5,10,2.5) ' 1−

A notacao 1− foi usada para indicar que a probabilidade e quaseigual a 1, mas e menor que 1.

Vimos que entre ±1,96 desvios da media o

grafico da distribuicao normal compreende 95%

dos valores. Qual deveria ser o tamanho da

amostra se desejassemos que em 95% das vezes

a media amostral caısse entre 10 ± 2, isto e,

entre 8 e 12?

0,95 = P (8 < X < 12) = P

(8−10

10/√n< Z < 12−10

10/√n

= P(−0,2

√n < Z < 0,2

= 2φ(0,2√n)− 1

Logo, φ(0,2√n) = 0,975 e, usando a tabela

da normal padrao 0,2√n = 1,96.

√n =

0,2↔ n = (9,8)2 ' 96.

Obs.: Com n = 16, temos P (8 < X < 12) ' 0,58.

Principais resultados da aula de hoje:

X uma populacao com media µ e variancia σ2;

X1, X2, ..., Xn uma amostra aleatoria de tamanho

n da populacao;

X = 1n

n∑i=1

Xi a media amostral.

Entao, o valor esperado, ou simplesmente a

media, da distribuicao de X e dado por

E[X] = µ e, a variancia, por Var(X) =σ2

O erro-padrao (desvio padrao) de X: σX =σ√n

Se a populacao for normal,

X ∼ N(µ,σ2

qualquer que seja n; ou equivalentemente,

X − µσ/√n∼ N(0,1).

Se a populacao nao for normal, segue, do TCL,

que para n ≥ 30,

Xa∼ N(µ,

ou equivalentemente,

X − µσ/√n

a∼ N(0,1).

Nos problemas reais o valor de σ tambem nao e

conhecido. Portanto, sera necessario, usando

a amostra disponıvel, estimar seu valor.

Observe que como o erro padrao de X

(σX =

σ√n

)e inversamente proporcional ao tamanho da

amostra, isso significa que quanto maior for o

tamanho amostral, menor sera a variabilidade

das medias amostrais e, portanto, mais precisa

sera a nossa estimativa da media populacional.

O mesmo deve ser esperado para estimativas

do desvio padrao populacional σ: quanto maior

for a amostra, mais precisas serao as nossas

estimativas.

Se X1, X2, ..., Xn e a amostra observada, esti-

mamos a variancia da populacao σ2 pela va-

riancia amostral S2 = 1n−1

n∑i=1

(Xi − X)2 e, σ

por S =√S2.

Assim, para amostras grandes n ≥ 30, se σ2

e desconhecido, usamos uma estimativa dada

por s e aplicamos o TCL

X − µS/√n

a∼ N (0,1) .

com S estimador de σ.

Uma situacao que ocorre comumente e o caso

de amostras de tamanhos moderados da dis-

tribuicao normal (n < 20), mas o desvio-padrao

nao e conhecido.

Nesse caso, usa-se no lugar do desvio-padrao

populacional (σ) a sua estimativa amostral (S),

mas a distribuicao da estatıstica resultante nao

e mais normal.

Nesse caso usa-se distribuicao t-de-Student com

n−1 graus de liberdade para calcular os quantis

apropriados.

Resumindo: Para amostras moderadas da distribuicaonormal com desvio-padrao desconhecido, usamos comodistribuicao amostral da estatıstica X−µ

S/√n

a distribuicao t

com n−1 graus de liberdade (parametro que caracterizaa distribuicao).

A distribuicao t, como a normal padrao, tambem temdensidade simetrica em torno de zero, porem apresentacaudas mais pesadas do que a normal padrao. O unicoparametro que a define (ν) caracteriza a sua forma e echamado numero de graus de liberdade.

Quanto maior for o valor do parametro ν, a

distribuicao t(ν) se aproximara da distribuicao

normal padrao.

Os dois graficos a seguir ilustram as propriedades

citadas da distribuicao t.

Como obter probabilidades associadas a dis-

tribuicao t(ν)?

Da mesma forma que a normal padrao, tambem

estao disponıveis na maioria dos livros de es-

tatıstica tabelas da distribuicao t.

No R ha as funcoes: pt(x, df), que retorna

P (X ≤ x), para X variavel com distribuicao

t com df graus de liberdade,

qt(p, df), que retorna o quantil de 100p% da

distribuicao t com df graus de liberdade, e

rt(n, df) que gera n valores de uma t com df

graus de liberdade.

Vejamos uma tabela dessa distribuicao.

Exemplo: Suponha que se deseja estimar o

tempo medio para realizar uma tarefa. Para

isso sorteou-se uma amostra aleatoria de 16

operarios cujos tempos de realizacao da tarefa,

em minutos, foram registrados.

82 102 91 90 87 107 83 7888 101 99 76 67 87 99 88

Suponha que desejamos determinar um inter-

valo simetrico em torno da verdadeira media

tal que a probabilidade da estatıstica T cair

entre esses dois valores seja de 95%.

Ja resolvemos um problema similar a esse, mas

no contexto da distribuicao normal com varian-

cia conhecida e vimos que, depois de padronizar,

P (−1,96 < Z < 1,96) = 0,95. Observe que

agora, apesar de considerarmos a normalidade

dos dados, a variancia da populacao nao e co-

nhecida. Logo, usaremos a distribuicao t com

n− 1 = 16− 1 = 15 graus de liberdade.

Aqui, a chave para solucionar esse problema e

usar o resultado

T =X − µS/√

15∼ t(15)

0,95 = P (−δ < T < δ) = P (T < (δ) − P (T <

−δ) = 2× P (T (δ)− 1

Logo, P (T < δ) = 1,952 = 0,975 tal que via R

solicitamos qt(0.975,15), que retorna o quantil

2.13145.

Assim, calculando o desvio-padrao amoestral

obtemos

x=c(82,102,91,90,87,107,83,78,88,101,99,76,67,87,99,88)

sd(x) [1] 10.68

mean(x)=89.0625

Logo, o intervalo e dado por

89.06± 2.13× 10.68√16

: 89.06± 5.69

Estat stica (MAD231) Turma: IGA Per odo: 2015/2 …sem a ser submetidas ao teste, segundo o sexo e a...

Documents

Scientific Workflows with Support of KBs FINAL · ao Chung, à Bruna e à Taíza; agradeço à Adriana, ao André, ao Caio, ao Calmon, ao Diego, ao Edward, ao Jaumir, novamente ao

Correc¸ao estat˜ ´ıstica do resultado da previs ao do

Cap´ıtulo 2 - USPfma.if.usp.br/~mlima/teaching/4320293_2011/Cap2.pdf · Cap´ıtulo 2 Reflexão, Refração e Polariza¸cão 2.1 Leis da Reflexão e da Refra¸cão Figura

ANALISEQUASI-EST´ ATICAEDIN´ · PDF file1367 de naEquaçao(2).Nestaformulaç˜ ão eassumidoqueataxadevariaç´ aodadeformaç˜ ão econs

7.Requisits Previs

Investigando a Previs~ao da Curva de Juros Brasileira ... de Economa... · Palavras Chave: Curva de juros, Previs~ao, modelos n~ao lineares, Modelos param etricos. JEL C53, E43, G17

Notification for Ao and f Ao-2014

Introduc¸ao ao L˜ ATEX2

AURA ARBERAlaurabarbera.com › LauraBarberaResume2020.pdf · 2016 Senior Previs Character Animator The Third Floor, CA 2014-2016 Supervising Producer and CG Supervising Director

07.28€¦ · 28/07/2019 · 4 | sns air ombre color guide sns air ombre color guide | 5 ao 48 ao 41 ao 13 ao 34 ao 20 ao 27 ao 49 ao 42 ao 14 ao 35 ao 21 ao 28 ao 50 ao 43 ao 15

CROSTAS BIOLÓGICAS DE SAPRÓLITOS DA REGIˆO DO …general.igc.ufmg.br/geonomos/PDFs/13_37_45_Trindade.pdf · As coletas foram feitas ... submetidas à digestªo nitroperclórica

Biochimica et Biophysica Acta - jianhaidulab.com · Review New methodologies for studying lipid synthesis and turnover: Looking backwards to enable moving forwards☆ Stephen F. Previs⁎,

P2.21 IMPACT OF UKMO’S SHORTWAVE SCHEME ON … · Centro de Previs˜ao de Tempo e Estudos Clim´aticos, Cachoeira Paulista, SP, Brazil 1. Introduction The parameterization of radiative

REGULAMENTO DE ARBITRAGEM REGULAMENTO DE … · único orgão autorizado a administrar arbitragens submetidas ao Regulamento, incluindo o exame prévio e aprovação de sentenças

MANUAL PARA ELABORAÇAO, FORMATAÇ˜ AO E˜ …biblioteca.cptec.inpe.br/~rbiblio/inc/Manual_Normas_INPE.pdf · RESUMO Este documento contém as diretrizes para elaboracão, formatacão

Mastite por Pythium insidiosum em éguasxilina e eosina (HE). Secções histológicas foram ainda submetidas às colorações histoquímicas especiais de ácido periódico de Schiff

Biomarcadores sanguíneos e no líquido peritoneal de bovinos ......do LP em que a concentração proteica era inferior à linearidade do teste (≤1,0 g/dL) foram submetidas ao método

DIREC< ;Ao DE PLANIFICA< ;Ao E COOPERA< ;Ao ;.::::..:.--1 ...€¦ · REPUBLICA DE MO

Instituto de F sica de S~ao Carlos, S~ao Carlos ... · Instituto de F sica de S~ao Carlos, S~ao Carlos, Universidade de S~ao Paulo and Instituto de F sica, Universidade de S~ao Paulo

High Contrast AO Imaging at the MMT with AO