View
0
Download
0
Category
Preview:
Citation preview
Estatıstica (MAD231)
Turma: IGA
Perıodo: 2015/2
Aula #01 de Inferencia Estatıstica: 03/02/2016
1
Inferencia Estatıstica: como fazer afirmacoes
sobre uma populacao conhecendo uma amostra
da populacao?
Referencia: Bussab e Morettin - Estatıstica
Basica - Editora Saraiva - Capıtulo 10.
Introducao
O uso de informacoes de uma amostra para
concluir sobre o todo faz parte da atividade
diaria da maioria das pessoas.
Observe como uma dona de casa verifica se
o feijao esta bom de sal. Ou ainda, observe
quando um cliente de supermercado, apos pro-
var uma uva rosada na secao de horti-fruti,
decide se vai comprar ou nao dessas uvas. Es-
sas decisoes sao baseadas em procedimentos
amostrais.
2
Conceitos Importantes
Populacao: e o conjunto de todos os elemen-
tos sob investigacao com pelo menos uma ca-
racterıstica em comum.
Amostra: e qualquer subconjunto nao-vazio
da populacao.
Parametro: Caracterıstica numerica da po-
pulacao.
Estatıstica: Caracterıstica numerica da amos-
tra.3
Observe que aqui o uso da palavra estatıstica
tem outro significado.
Com o conceito que acabamos de apresentar
podemos dizer que usamos estatısticas para es-
timar parametros.
Um estimador de um parametro e uma es-
tatıstica.
Uma questao importante na Inferencia Estatısti-
ca e: “Como avaliar um estimador?”
4
Problemas de Inferencia
• Verificacao do tempo de vida medio da
lampada fluorescente especificado pelo fa-
bricante. Essa verificacao pode fazer parte
de
1. um procedimento de controle de qua-
lidade da empresa - se o tempo medio
de vida da amostra retirada de um lote
de tais lampadas nao atender a especi-
ficacao estabelecida, entao todo o lote
deve ser rejeitado;
2. um procedimento de um orgao de de-
fesa do consumidor - se o tempo medio
de vida de uma amostra de tais lampadas
obtidas de diversos pontos de venda aten-
der a especificacao do fabricante, entao
a reclamacao dos consumidores nao de-
vera ser aceita.
5
• Avaliacao de um novo produto. Antes do
lancamento, o novo produto sera distribuı-
do a um grupo de consumidores potenci-
ais que responderao um questionario. Se
os resultados dos questionarios mostrarem
que o novo produto foi bem aceito, entao
o grupo de marketing tera suporte para de-
fender o lancamento do novo produto.
• Previsao do tempo medio de espera dos
clientes no caixa de um banco. Se o tempo
medio de espera de uma amostra de clientes
for maior que o tempo medio afirmado pelo
gerente da agencia, entao sera bastante
provavel que as reclamacoes dos clientes
tenham fundamento.
6
• Ha razoes para supor que o tempo de rea-
cao Y a certo estımulo visual depende da
idade do indivıduo. Suponha que essa de-
pendencia seja linear.
Para verificar se essa suposicao e verdadeira,
obtiveram-se 20 dados da seguinte forma:
20 pessoas foram selecionadas, sendo 10
homens e 10 mulheres. Dentro de cada
grupo, de homens e mulheres, foram sele-
cionadas duas pessoas das seguintes faixas
de idade: 20, 25, 30, 35 e 40 anos.
Cada pessoa foi submetida ao teste e seu
tempo de reacao y foi registrado.
A populacao poderia ser considerada como
formada por todas aquelas pessoas que vies-
sem a ser submetidas ao teste, segundo o
sexo e a idade. A amostra e formada pelas
20 medidas de tempos de reacao.
7
• Previsao da populacao brasileira por genero
e idade a fim de formular polıticas publicas
para os proximos 40 anos.
Existem diversos modelos de previsao detamanho de populacao. Diversos fatoresinterferem na dinamica da populacao. Naquinta-feira, dia 29 de agosto de 2013, oIBGE divulgou que no Brasil ja sao 201milhoes de habitantes e tambem apresen-tou uma previsao sobre a populacao porgenero e idade ate 2060.
A populacao total projetada para o Brasil em 2013foi de 201,0 milhoes de habitantes, atingindo 212,1milhoes em 2020, ate alcancar o maximo de 228,4milhoes em 2042, quando comecara a decrescer,atingindo o valor de 218,2 em 2060, nıvel equiva-lente ao projetado para 2025 (218,3 milhoes).
8
2
Como selecionar uma amostra?
As observacoes contidas numa amostra sao
tanto mais informativas sobre a populacao, quan-
to mais conhecimento tivermos dessa mesma
populacao.
Por exemplo a analise quantitativa de globulos
brancos obtida de algumas gotas de sangue
da ponta do dedo de um paciente da a ideia
geral da quantidade de globulos brancos no
corpo todo, pois sabe-se que a distribuicao dos
globulos brancos e homogenea, e de qualquer
lugar que se tivesse retirado a amostra ela seria
“representativa”.
Nem sempre a escolha de uma amostra ade-
quada e imediata.
9
Procedimentos de levantamento de dados
(Bussab & Morettin)
1. Levantamentos Amostrais - a amostra e
obtida de uma populacao bem definida, por
meio de processos bem protocolados e contro-
lados pelo pesquisador.
Tais levantamentos costumam ser subdividi-
dos em dois subgrupos: probabilısticose nao-
probabilısticos. O primeiro reune todas as
tecnicas que usam mecanismos aleatorios de
selecao dos elementos de uma amostra, atri-
buindo a cada um deles, uma probabilidade,
conhecida a priori, de pertencer a amostra.
10
No segundo grupo estao os demais procedi-mentos, tais como amostras intencionais, nasquais os elementos sao selecionados com oauxılio de especialistas, e amostras de volunta-rios, como ocorre em alguns testes sobre novosmedicamentos e vacinas.
A grande vantagem dos procedimentos proba-bilısticos e poder medir a precisao da amostraobtida.
2. Planejamento de Experimentos. Tem comoprincipal objetivo analisar o efeito de uma varia-vel sobre outra(s). Requer interferencias dopesquisador sobre o ambiente em estudo (po-pulacao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.
Exemplo: A altura de um produto na gondolade um supermercado afeta as vendas do pro-duto? Se sim, como?
11
3. Levantamentos Observacionais. Os da-
dos sao coletados sem que o pesquisador te-
nha controle sobre as informacoes obtidas, ex-
ceto eventualmente sobre possıveis erros gros-
seiros. As series de dados temporais sao e-
xemplos tıpicos desses levantamentos.
Exemplo: suponha o problema de prever as
vendas futuras numa empresa em funcao das
vendas passadas. O pesquisador nao pode se-
lecionar dados, esses sao as vendas efetiva-
mente ocorridas.
Observe que aqui tambem se encaixa o pro-
blema de projecoes de tamanhos populacionais.
12
Amostra Aleatoria Simples(AAS)
Uma amostra aleatoria simples ocorre quando
atribuımos probabilidades de selecao na amos-
tra iguais para todos os elementos da popula-
cao.
Com relacao a precisao neste tipo de amostra-
gem existe diferenca se a selecao e feita com
reposicao ou sem reposicao.
No entanto, quando o tamanho da amostra
for muito inferior ao tamanho da populacao
(menor que 5% da populacao) a selecao sem
reposicao comporta-se, de modo aproximado,
como uma selecao com reposicao, e nesse caso
costuma-se tratar o problema como se fosse
com reposicao.
13
Distribuicao Amostral
No inıcio da aula falamos em usar estatısticas
para estimar um parametro.
Na pratica so podemos obter uma amostra da
populacao e, com base nela, tirar conclusoes
sobre a populacao.
Como poderemos fazer afirmacoes sobre a qua-
lidade das nossas conclusoes? Como podere-
mos falar sobre o erro decorrente da variabili-
dade amostral?
A resposta a essas perguntas envolve o con-
ceito de distribuicao amostral.
14
Suponha o problema de estimar um parametro
θ de certa populacao e que para isso dispo-
mos de uma amostra de tamanho n dessa po-
pulacao: x1, x2, ..., xn. Suponha tambem que
usaremos uma estatıstica T funcao da amostra
para estimar θ.
T = t(x1, x2, ..., xn)
T pode ser a soma (n∑i=1
xi), a media (x), a me-
diana, a amplitude, o desvio padrao amostral, e
sua escolha dependera do parametro que que-
remos estimar.
Para poder avaliar a qualidade de T como esti-
mador de θ e fundamental conhecer o modelo
probabilısitco que explica a variabilidadde de
seus valores, ou seja, a distribuicao amostral
de T .15
A figura a seguir ilustra como poderıamos ficticiamente obter essadistribuicao.
16
Mas como poderemos pelo menos fazer umhistograma de valores da estatıstica se so dis-pomos de uma amostra?
O Teorema Central do Limite da Teoria dasProbabilidades e uma peca chave para resolveresse problema.
Vamos simplificar o problema de estimacao deum parametro generico θ para um problemaespecıfico de estimacao da media populacional,µ.
Para isso dispomos de uma amostra aleatoriade tamanho n da populacao cujos valores ob-servados sao x1, x2, ..., xn.
No que segue usaremos: µ para a media dapopulacao e
σ2 para a variancia da populacao (σ - desviopadrao da populacao).
Um estimador natural de µ a ser usado e amedia amostral x.
17
O Teorema Central do Limite (TCL) afirma:
Se X1, X2,..., Xn e uma amostra aleatoria sim-
ples de uma populacao qualquer cuja media
e µ e variancia e σ2, a distribuicao amostral
de X =1
n
n∑i=1
Xi, a media amostral, se apro-
xima de uma distribuicao normal com media µ
e varianciaσ2
nquando n cresce.
Ou seja, para n suficientemente grande,
Xa∼ N
(µ,σ2
n
)ou equivalentemente,
X − µσ/√n
a∼ N (0,1)
Para entender melhor esse resultado vamos a-
presentar alguns exemplos.
18
Situacao 1: Suponha uma populacao Uniforme
em [0,5]: sua densidade e constante no in-
tervalo dado. O valor esperado de uma po-
pulacao uniforme em [0,5] e 2,5 e a variancia
e 25/12 ' 2,08.
Agora vamos sortear 100 amostras aleatorias
de tamanho 2 e calcular as respectivas medias
amostrais. A figura a seguir mostra um his-
tograma dos 100 valores obtidos.
19
Os histogramas a seguir mostram os compor-
tamentos da media amostral para 100 amostras
de tamanho 5, 10, 15 e 25 de uma populacao
uniforme em [0,5].
20
21
Como e possıvel perceber, a medida que au-
mentamos o tamanho da amostra, a variabi-
lidade dos valores da media amostral se torna
cada vez mais simetrica em torno de 2,5 (a
media da populacao) e que a variabilidade em
torno da media diminui.
Para amostras de populacoes uniformes, consi-
deram-se tamanhos amostrais moderados para
usar o TCL. Para n = 15 a aproximacao ja
e boa. No entanto, se a distribuicao popu-
lacional for muito afastada de uma normal,
por exemplo com forte assimetria positiva, sera
necessario um tamanho amostral bem superior
a 15 para que a aproximacao seja considerada
boa.
Vamos ver um exemplo desse tipo.
22
Suponha uma populacao com o seguinte com-
portamento.
Aqui foi escolhida uma populacao cuja media
e 0,04, mas que apresenta assimetria positiva.
23
Histogramas dos valores de x para 200 amostras
de tamanhos 5, 20, 30 e 40.
24
Mas como saber quando o tamanho amostral
e adequado ou nao para usar o TCL?
Voce nao precisara se preocupar com isso. Em
geral, o uso do TCL e considerado adequado
para amostras de tamanho maior ou igual a
30, independentemente da forma original da
populacao.
O desvio padrao da distribuicao amostral da
media, igual a σ√n
, e chamado de erro padrao
de X. Ele fornece uma medida do grau com
que as medias amostrais se desviam do valor
esperado de sua distribuicao (que coincide com
a media populacional µ).
Logo, podemos usar essa informacao para des-
cobrir o quao precisa e a nossa estimativa da
media da populacao.
25
Vejamos um exemplo teorico. Suponha queuma populacao, caracterizada por uma variavelaleatoria X, tenha distribuicao normal com me-dia 10 e variancia 100.
X ∼ N( 10︸︷︷︸=µ
,100︸ ︷︷ ︸=σ2
)
Suponha tambem que iremos trabalhar comamostras aleatorias de tamanho n = 16. Comofica a distribuicao amostral de X, a media amos-tral?
26
Aqui cabe comentar que no caso de populacoesnormais, nao e necessario usar o TCL, poisa distribuicao amostral de X e, de fato, umanormal.
Assim, temos
X ∼ N(µ, σ
2
n
)= N(10,6.25).
Veja o grafico dessa distribuicao (em vermelhodestaca-se a distribuicao da populacao).
27
Como e possıvel ver a distribuicao amostral da
media e muito mais concentrada em torno de
seu valor esperado do que a distribuicao da
populacao.
Calcule, por exemplo, agora P (−5 < X < 15)
e compare com P (−5 < X < 15)
Usando o R:
P (−5 < X < 15) = pnorm(15,
media︷︸︸︷10 ,
desvio-padrao︷︸︸︷10 )−pnorm(−5,10,10) '
0.8664
P (−5 < X < 15) = pnorm(15,10,2.5)− pnorm(−5,10,2.5) ' 1−
A notacao 1− foi usada para indicar que a probabilidade e quaseigual a 1, mas e menor que 1.
28
Vimos que entre ±1,96 desvios da media o
grafico da distribuicao normal compreende 95%
dos valores. Qual deveria ser o tamanho da
amostra se desejassemos que em 95% das vezes
a media amostral caısse entre 10 ± 2, isto e,
entre 8 e 12?
0,95 = P (8 < X < 12) = P
(8−10
10/√n< Z < 12−10
10/√n
)=
= P(−0,2
√n < Z < 0,2
√n)
= 2φ(0,2√n)− 1
Logo, φ(0,2√n) = 0,975 e, usando a tabela
da normal padrao 0,2√n = 1,96.
√n =
1,96
0,2↔ n = (9,8)2 ' 96.
Obs.: Com n = 16, temos P (8 < X < 12) ' 0,58.
29
Principais resultados da aula de hoje:
Sejam
X uma populacao com media µ e variancia σ2;
X1, X2, ..., Xn uma amostra aleatoria de tamanho
n da populacao;
X = 1n
n∑i=1
Xi a media amostral.
Entao, o valor esperado, ou simplesmente a
media, da distribuicao de X e dado por
E[X] = µ e, a variancia, por Var(X) =σ2
n.
O erro-padrao (desvio padrao) de X: σX =σ√n
30
Se a populacao for normal,
X ∼ N(µ,σ2
n)
qualquer que seja n; ou equivalentemente,
X − µσ/√n∼ N(0,1).
Se a populacao nao for normal, segue, do TCL,
que para n ≥ 30,
Xa∼ N(µ,
σ2
n)
ou equivalentemente,
X − µσ/√n
a∼ N(0,1).
31
Nos problemas reais o valor de σ tambem nao e
conhecido. Portanto, sera necessario, usando
a amostra disponıvel, estimar seu valor.
Observe que como o erro padrao de X
(σX =
σ√n
)e inversamente proporcional ao tamanho da
amostra, isso significa que quanto maior for o
tamanho amostral, menor sera a variabilidade
das medias amostrais e, portanto, mais precisa
sera a nossa estimativa da media populacional.
O mesmo deve ser esperado para estimativas
do desvio padrao populacional σ: quanto maior
for a amostra, mais precisas serao as nossas
estimativas.
Se X1, X2, ..., Xn e a amostra observada, esti-
mamos a variancia da populacao σ2 pela va-
riancia amostral S2 = 1n−1
n∑i=1
(Xi − X)2 e, σ
por S =√S2.
32
Assim, para amostras grandes n ≥ 30, se σ2
e desconhecido, usamos uma estimativa dada
por s e aplicamos o TCL
X − µS/√n
a∼ N (0,1) .
com S estimador de σ.
33
Uma situacao que ocorre comumente e o caso
de amostras de tamanhos moderados da dis-
tribuicao normal (n < 20), mas o desvio-padrao
nao e conhecido.
Nesse caso, usa-se no lugar do desvio-padrao
populacional (σ) a sua estimativa amostral (S),
mas a distribuicao da estatıstica resultante nao
e mais normal.
Nesse caso usa-se distribuicao t-de-Student com
n−1 graus de liberdade para calcular os quantis
apropriados.
Resumindo: Para amostras moderadas da distribuicaonormal com desvio-padrao desconhecido, usamos comodistribuicao amostral da estatıstica X−µ
S/√n
a distribuicao t
com n−1 graus de liberdade (parametro que caracterizaa distribuicao).
A distribuicao t, como a normal padrao, tambem temdensidade simetrica em torno de zero, porem apresentacaudas mais pesadas do que a normal padrao. O unicoparametro que a define (ν) caracteriza a sua forma e echamado numero de graus de liberdade.
34
Quanto maior for o valor do parametro ν, a
distribuicao t(ν) se aproximara da distribuicao
normal padrao.
Os dois graficos a seguir ilustram as propriedades
citadas da distribuicao t.
35
36
Como obter probabilidades associadas a dis-
tribuicao t(ν)?
Da mesma forma que a normal padrao, tambem
estao disponıveis na maioria dos livros de es-
tatıstica tabelas da distribuicao t.
No R ha as funcoes: pt(x, df), que retorna
P (X ≤ x), para X variavel com distribuicao
t com df graus de liberdade,
qt(p, df), que retorna o quantil de 100p% da
distribuicao t com df graus de liberdade, e
rt(n, df) que gera n valores de uma t com df
graus de liberdade.
Vejamos uma tabela dessa distribuicao.
37
38
Exemplo: Suponha que se deseja estimar o
tempo medio para realizar uma tarefa. Para
isso sorteou-se uma amostra aleatoria de 16
operarios cujos tempos de realizacao da tarefa,
em minutos, foram registrados.
82 102 91 90 87 107 83 7888 101 99 76 67 87 99 88
Suponha que desejamos determinar um inter-
valo simetrico em torno da verdadeira media
tal que a probabilidade da estatıstica T cair
entre esses dois valores seja de 95%.
Ja resolvemos um problema similar a esse, mas
no contexto da distribuicao normal com varian-
cia conhecida e vimos que, depois de padronizar,
P (−1,96 < Z < 1,96) = 0,95. Observe que
agora, apesar de considerarmos a normalidade
dos dados, a variancia da populacao nao e co-
nhecida. Logo, usaremos a distribuicao t com
n− 1 = 16− 1 = 15 graus de liberdade.
39
Aqui, a chave para solucionar esse problema e
usar o resultado
T =X − µS/√
15∼ t(15)
0,95 = P (−δ < T < δ) = P (T < (δ) − P (T <
−δ) = 2× P (T (δ)− 1
Logo, P (T < δ) = 1,952 = 0,975 tal que via R
solicitamos qt(0.975,15), que retorna o quantil
2.13145.
Assim, calculando o desvio-padrao amoestral
obtemos
x=c(82,102,91,90,87,107,83,78,88,101,99,76,67,87,99,88)
sd(x) [1] 10.68
mean(x)=89.0625
40
Logo, o intervalo e dado por
89.06± 2.13× 10.68√16
: 89.06± 5.69
41
Recommended