domingo, 6 de março de 2011

5 Intervalos de Confiança

5.1 A idéia básica de intervalos de confiança

Suponha que estejamos interessados num parâmetro populacional verdadeiro (mas desconhecido) $\theta$. Podemos estimar o parâmetro $\theta$ usando informação de nossa amostra. Chamamos o único número que representa o valor mais plausível do parâmetro (baseado nos dados amostrais) de uma estimativa pontual de $\theta$. Contudo, sabemos que o valor estimado na maior parte das vezes não será exatamente igual ao valor verdadeiro. Então, também seria interessante encontrar um intervalo de confiança que forneça um intervalo de valores plausíveis para o parâmetro baseado nos dados amostrais.

\fbox{\begin{tabular}{c}
Um {\bf intervalo de confiança de 95\%} para um parâmet...
...95\% confiantes
de cobertura\\
do verdadeiro valor do parâmetro.
\end{tabular}}
Tecnicamente, 95% de todos os intervalos de confiança que construirmos conterão o verdadeiro valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Então se obtivermos um intervalo de confiança para o parâmetro $\theta$ para cada uma dentre 100 amostras aleatórias da população, somente 5, em média destes intervalos de confiança não conterão $\theta$.







Podemos obter intervalos de confiança de 95% para:




médias, diferenças de médias, proporções, diferenças em proporções, etc.




Podemos também criar intervalos de confiança de 90%, 99%, 99.9%, etc, mas os intervalos de confiança de 95% são os mais utilizados.


5.2 Teorema Central do Limite

Uma razão para a distribuição Normal ser considerada tão importante é porque qualquer que seja a distribuição da variável de interesse para grande amostras, a distribuição das médias amostrais serão aproximadamente normalmente distribuídas, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. Então podemos ter uma variável original com uma distribuição muito diferente da Normal (pode até mesmo ser discreta), mas se tomarmos várias amostras grandes desta distribuição, e então fizermos um histograma das médias amostrais, a forma se parecerá como uma curva Normal.

\fbox{\begin{tabular}{c} A distribuição da média amostral $\bar{X}$\ é
aproxima...
...\\
Normal com média $\mu$\ e desvio padrão $\sigma / \sqrt{n}$.
\end{tabular}}
Aqui $\mu$ e $\sigma$ são a média e o desvio padrão populacionais das medidas individuais $X$, e $n$ é o tamanho amostral. Denota-se

\begin{displaymath}\bar{X} \sim N(\mu,\sigma^2/n).\end{displaymath}


A aproximação para a normal melhora à medida que o tamanho amostral cresce. Este resultado é conhecido como o Teorema Central do Limite e é notável porque permite-nos conduzir alguns procedimentos de inferência sem qualquer conhecimento da distribuição da população.

5.3 Exemplo simulado

Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama na próxima página sumariza os resultados de um experimento no qual foi utilizado um computador para gerar 2000 observações de duas distribuições bem diferentes (linha superior). Nós então geramos uma amostra de tamanho 2 de cada distribuição e calculamos a média. Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas das médias resuktantes das amostras de tamanho dois. Isto foi repetido com média amostrais onde as amostras são de tamanhos 5 (terceira linha) e 10 (quarta linha).
Note como a forma da distribuição muda à medida que se muda de uma linha para a próxima, e como as duas distribuições em cada linha tornam-se mais similares nas suas formas à medida que o tamanho das amostras aumenta. Ainda mais, cada distribuição parece mais e mais com uma distribuição Normal. Não é necessário uma amostra de tamanho muito grande para ver uma forma Normal.
As média populacionais para as duas distribuições são 5 e 3 respectivamente. Note como, quanto maior o tamanho de amostra mais perto as médias amostrais tendem a estar da média populacional.

\includegraphics[width=14cm]{pics/clt.ps}

5.4 Intervalos de confiança de 95% para uma média

Na seção anterior vimos que para uma amostra suficientemente grande a distribuição das médias amostrais em torno da média populacional é Normal com desvio padrão $\sigma/\sqrt{n}$. Chamamos de $\sigma/\sqrt{n}$ o erro padrão (SE) da média, uma vez que quanto menor seu valos. tanto mais próximas estarão as médias amostrais da média populacional $\mu$ (i.e. tanto menor será o erro).

\begin{eqnarray*}
\mbox{ média populacional} ~ &=& ~ \mu \\
\mbox{ desvio padrã...
...=& ~ \sigma \\
\mbox{ S.E. da média} ~ &=& ~ \sigma / \sqrt{n}
\end{eqnarray*}




Isto significa que 68.3% de todas as médias amostrais cairão dentro de $\pm 1$ SE da média populacional $\mu$. Similarmente 95% de todas as médias amostrais cairão dentro de $\pm 1.96
\times {\rm SE}$ de $\mu$.
então intervalos da forma

\begin{displaymath}(\bar{x}- 1.96 \times
\frac{\sigma}{\sqrt{n}} ~~ , ~~ \bar{x}+1.96 \times
\frac{\sigma}{\sqrt{n}})\end{displaymath}


conterão a verdadeira média populacional $\mu$ 95% das vezes.


Um problema com a construção de tais intervalos é que não sabemos o verdadeiro desvio padrão populacional $\sigma$. Para grandes tamanhos amostrais, contudo, o desvio padrão amostral $s$ será uma boa estimativa de $\sigma$. Portanto, podemos substituir $\sigma$ por $s$ de modo que podemos calcular o erro padrão como

\begin{displaymath}{\rm SE} ~ = ~ s / \sqrt{n},\end{displaymath}


e um intervalo de confiança de aproximadamente 95% para $\mu$ é:

\begin{displaymath}(\bar{x}- 1.96 \times \frac{s}{\sqrt{n}} ~~ , ~~ \bar{x}+1.96 \times
\frac{s}{\sqrt{n}}).\end{displaymath}


Este tipo de intervalo de confiança para a média pode ser usado para grandes amostras, independentemente da distribuição da variável original.


5.5 intervalos de confiança mais exatos

Para amostras pequenas, onde $s$ é uma estimativa menos confiável de $\sigma$, devemos construir nosso intervalo de confiança de uma forma ligeiramente diferente.
Ao invés de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa redução na confiança. Obtemos o valor requerido da tabela de distribuição $t$. Tomamos o valor correspondente à linha $r=n-1$ graus de liberdade. Note que quanto menor $n$, maiores os valores de $t$. Então um intervalo de confiança exato é

\begin{displaymath}(\bar{x}- t_{(n-1,0.05)} \times \frac{s}{\sqrt{n}} ~~ , ~~
\bar{x}+t_{(n-1,0.05)} \times \frac{s}{\sqrt{n}}).\end{displaymath}


Note ainda que à medida que $n$ cresce, o valor de $t$ torna-se próximo a 1.96.
Repare que se a distribuição da variável original é muito distante de ser normalmente distribuída, e o tamanho amostral é muito pequeno, então as médias amostrais não terão uma distribuição aproximadamente normal e portanto este tipo de intervalo de confiança não será muito preciso e não deveria ser utilizado.

A distribuição $t$
Valores de $t$ para que $P(\mid T \mid > t)=p$, onde $T$ tem um distribuição $T$ de Student com $r$ graus de liberdade.

  $p$
  0.200.100.050.010.001
 13.0786.31412.70663.657636.619
 21.8862.9204.3039.92531.599
 31.6382.3533.1825.84112.924
 41.5332.1322.7764.6048.610
 51.4762.0152.5714.0326.869
 61.4401.9432.4473.7075.959
 71.4151.8952.3653.4995.408
 81.3971.8602.3063.3555.041
 91.3831.8332.2623.2504.781
 101.3721.8122.2283.1694.587
 111.3631.7962.2013.1064.437
 121.3561.7822.1793.0554.318
 131.3501.7712.1603.0124.221
 141.3451.7612.1452.9774.140
 151.3411.7532.1312.9474.073
 161.3371.7462.1202.9214.015
$r$171.3331.7402.1102.8983.965
 181.3301.7342.1012.8783.922
 191.3281.7292.0932.8613.883
 201.3251.7252.0862.8453.850
 211.3231.7212.0802.8313.819
 221.3211.7172.0742.8193.792
 231.3191.7142.0692.8073.768
 241.3181.7112.0642.7973.745
 251.3161.7082.0602.7873.725
 261.3151.7062.0562.7793.707
 271.3141.7032.0522.7713.690
 281.3131.7012.0482.7633.674
 291.3111.6992.0452.7563.659
 301.3101.6972.0422.7503.646
 401.3031.6842.0212.7043.551
 501.2991.6762.0092.6783.496
 601.2961.6712.0002.6603.460
 701.2941.6671.9942.6483.435
 801.2921.6641.9902.6393.416
 901.2911.6621.9872.6323.402
 1001.2901.6601.9842.6263.390
 $\infty$1.2821.6451.9602.5763.291


5.6 Exemplos


5.6.1 Diâmetro de árvores castanheiras

A seguir encontra-se uma amostra de 10 árvores castanheiras todas com 8 anos de idade numa certa floresta. O diâmetro (polegadas) das árvores foram medidos à uma altura de 3 pés:

\begin{displaymath}19.4 ~~~ 21.4 ~~~ 22.3~~~ 22.1~~~ 20.1~~~ 23.8 ~~~ 24.6 ~~~ 19.9 ~~~ 21.5~~~ 19.1\end{displaymath}


Queremos encontrar um intervalo de confiança de 95% para o verdadeiro diâmetro médio de todas as árvores castanheiras dessa idade na floresta. Usando uma calculadora, encontramos que $\bar{x} = ~~~~$ e que $s = ~~~~ $. O erro padrão é portanto:

\begin{displaymath}{\rm SE} =
\frac{s}{\sqrt{n}} = ~~~~~~.\end{displaymath}


Temos uma amostra de tamanho $n=10$, então da tabela da distribuição $t$ temos que $t= ~~~~~$.
Então o intervalo de confiança de 95% para a média populacional é

\begin{displaymath}
\bar{x} \pm t \times {\rm SE} \end{displaymath}






Portanto estamos 95% confiantes de que o diâmetro médio da população da qual a amostra foi retirada está entre      e     .
Quais suposições foram feitas? Podemos checar essas suposições?





5.6.2 Comprimento de plantas

Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamente normal, e a média amostral e o desvio padrão amostral foram 74mm and 2.34mm, respectivamente. Construa um intervalo de confiança para o comprimento médio populacional de plantes dessa mesma espécie.

5.7 Exercícios 3

  1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma média de 72.9 batidas por minuto (bpm) e um desvio padrão de 11.0 bpm foram obtidos. Construa um intervalo de confiança de 95% para a pulsação média em repouso de pessoas sadias com base nesses dados.
  2. Tendo sido medido o eixo maior de 9 grãos de quartzo de um corpo arenoso em uma lâmina de arenito, obteve-se um comprimento amostral médio de 1,5mm e um desvio padrão de 0,3mm. Deseja-se construir um intervalo de confiança para o comprimento médio dos grãos de quartzo do corpo arenoso.
  3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI médio foi 108.08, e o desvio padrão foi 14.38.
    • Calcule um intervalo de confiança de 95% para o QI médio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados.
    • Interprete o intervalo de confiança com palavras.
    • Foi necessário assumir que os QIs têm distribuição normal neste caso? Por quê?
  4. A seguinte tabela mostra os QIs de crianças por classe social dos pais.
    \fbox{\begin{tabular}{llrrrrr}
\multicolumn{2}{c}{Classe social} & Média & DP &...
...10.13&37 & & \\
V&Manual\\ &(sem prática)&98.85&14.02&20 & & \\
\end{tabular}}
    • Complete as duas últimas colunas, as quais contem intervalos de confiança de 95% para o QI médio. Ilustre os IC graficamente.
    • Comente os padrões gerais que você vê.


5.8 Intervalos de confiança para uma proporção

Pesquisadores frequentemente expressam a frequência de ocorrência de um item numa amostra como uma proporção do total. Por exemplo, uma amostra de larvas de mosquito coletadas de um lago com água limpa parada contem 80 larvas das quais 60 são Aedes detritus. A proporção daquela espécie na amostra é $60/80=0.75$ ou 75%. Considerando esta amostra uma amostra aleatória, esta proporção é uma estimativa da proporção total populacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquela proporção.
Seja $n$ o tamanho da amostra e seja $x$ o número observado do evento de interesse. Então estimamos a proporção populacional $p$ com a proporção observada $\hat{p}=x/n$.
Da mesma forma que um conjunto de médias amostrais são distribuídas nas proximidades da média populacional, as proporções amostrais $\hat{p}$ são distribuídas ao redor da verdadeira proporção populacional $p$. Devido ao Teorema Central do Limite, para $n$ grande e $p$ não muito próximo de 0 ou 1, a distribuição de $\hat{p}$ será aproximadamente normalmente distribuída com média $p$ e um desvio padrão dado por

\begin{displaymath}\sqrt{\frac{p(1-p)}{n}}.\end{displaymath}


Chamamos SE $=\sqrt{\frac{p(1-p)}{n}}$ de erro padrão da proporção amostral. Podemos usar isto na construção de um intervalo de confiança para a verdadeira proporção $p$.
Um intervalo de confiança de aproximadamente 95% para $p$ é portanto

\begin{displaymath}(\hat{p} - 1.96 \times \mbox{SE} ~~ , ~~
\hat{p} + 1.96 \times \mbox{SE})\end{displaymath}


onde

\begin{displaymath}{\rm SE} = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}. \end{displaymath}


Note que não sabemos o verdadeiro valor de $p$, e portanto usamos $\hat{p}$ na fórmula acima para estimar SE.
Uma regra geral é que este intervalo de confiança é válido quando quando temos ambos $n \hat{p}$ e $n (1-\hat{p})$ maiores do que digamos 10.
Em alguns livros o divisor $n-1$ é utlizado. Não se preocupe quanto a isso; o intervalo resultante não será notavelmente diferente.

5.8.1 Exemplo

Calcule um intervalo de confiança de 95% para a proporção de larvas de mosquito no lago da espécie Aedes detritus. Interprete os resultados.


5.9 Comparação de intervalos de confiança

Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e fêmeas. Algumas vezes pode-se construir um intervalo de confiança de 95% para a média para cada um dos grupos, e então contrói-se um gráfico com esses intervalos contra um eixo comum para verificar se existe uma interseção (i.e. existem alguns valores em comum). Se os intervalos não se sobrepõem, então temos (pelo menos) 95% de confiança de que as verdadeiras médias não são iguais. Embora estes gráficos sejam úteis para visualização, utilizaremos um aboradgem mais formal (veja Seção 7) para construir um intervalo de confiança para a diferença entre duas médias ou a diferença entre duas proporções.

5.9.1 Exemplo

Considere os dados de um estudo investigando a existência de um balanço entre a proporção de peixes machos e fêmeas de uma certa espécie em dois lagos distintos. A proporção observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confiança para as percentagens correspondente nas populações dos dois lagos.

5.10 Exercícios 4

  1. Um amigo sugere que você lance uma moeda para ajudar você a tomar uma decisão muito importante, o resultado também o afetará. Seu amigo sugere que você escolha cara para tomar a decisão A, e coroa para tomar a decisão B a qual é a preferida por ele. O único problema é que seu amigo insiste que você use uma moeda ``da sorte'' dele. Você fica um pouco suspeito e decide fazer um experimento enquanto seu amigo não está olhando. Você lança a moeda 40 vezes e cara aparece somente 13 vezes. Construa um intervalo de 95% de confiança para a verdadeira proporção de caras $p$ para ajudá-lo a decidir se você acredita ou não que a moeda é balanceada. O que você conclui?
  2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no candidato X. Com uma confiança de 90%, o que você pode dizer acerca da proporção real de votos aquele candidato terá?
  3. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para consumo devido aos níveis de poluição do ambiente. Construa um intervalo de confiança de 99% para a correspondente verdadeira proporção.




 

Nenhum comentário:

Postar um comentário