ex. 3.6 (*)

Foi recolhida uma amostra de 32 árvores arvores.csv que contém o diâmetro, altura e volume de cada árvore. Para este enunciado considere apenas a amostra de alturas.

A seguir, apresentam-se os resultados obtidos com o recurso ao R.

_images/ex3_06b.png

(a) Indique um intervalo de confiança a 95% para a altura média através da expressão mais apropriada do IC e depois, confirmando atráves da informação exposta, assumindo a normalidade dos dados.

sugestões

proposta de resolução

A variável aleatória é:

  • X = altura de uma árvore

A expressão «assumindo a normalidade dos dados», no contexto da alínea, é o mesmo que perguntar «Qual a distribuição da v.a. X?»:

  • X segue \(Normal(\mu, \sigma^2)\)

Na imagem, no corpo do enunciado, tem-se que:

  • sd(dadosx) = desvio padrão corrigido da amostra «dadosx», em que «sd» é standard deviation.

Assim, a variância amostral é conhecida calculando «(sd)^2».

Note-se que o parâmetro populacional \(\sigma\) não é fornecido no enunciado e portanto, tem-se que usar o «T Interval» (ver teste e intervalo t para a média):

\[IC_{95\%} = [\bar x - t_{1-\alpha/2,n-1} \frac{s_c}{n}, \bar x + t_{1-\alpha/2,n-1} \frac{s_c}{n}]\]

Nas calculadoras deve procurar-se «INTR» ou «T INTR». Por exemplo, TI84: Stat => Tests => T Interval => depois

  • LIST: fornecer a amostra (agrupada ou não)

  • Variable: fornecer \(\bar x\) e \(s_c\) (desvio corrigido)

Para fazer com recurso à fórmula do IC, para o T Interval,

  • \(\bar x = 75.72\) (ver na imagem onde diz «mean»)

  • \(s_c= sd(dadosx) = 6.486882\) (ver quadro onde diz «sd(dadosx)»)

  • n = 32

Para obter o quantil \(t_{1-\alpha/2,n-1}\):

  • n - 1 = 31 graus de liberdade (degrees of freedom)

  • \(1 - \alpha/2= 0.975\)

  • grau de confiança: \(1 - \alpha=0.95\)

  • 2.5%(esquerda) 95%(centro) 2.5%(direito) = 100%

TPC: com 90% quanto é \(1 - \alpha/2\)?

Com calculadora:

  • DISTR => inv.t(0.975, 31) = 2.039513

Com R project:

> qt(0.975, 31)
[1] 2.039513

IC(\(\mu\)) = [ 75.72 - 2.039513 * 6.486882 / sqrt(32) , 75.72 + 2.039513 * 6.486882 / sqrt(32) ] = [73.38123, 78.05877]

> 75.72 - 2.039513 * 6.486882 / sqrt(32)
> [1] 73.38123
> 75.72 + 2.039513 * 6.486882 / sqrt(32)
> [1] 78.05877

É aceitável caracterizar a altura de uma árvore com uma média no intervalo [73.38123, 78.05877] com base na mostra dada e grau de confiança 95%.

  • \(IC_{95\%}(\mu) = (73.3800,78.0575)\)


(b) Determine um intervalo de confiança a 95% para o desvio padrão da população assumindo a normalidade dos dados.

sugestões

proposta de resolução

  • Consulte TH e IC do qui-quadrado para a variância

  • \(IC( \sigma ) = \sqrt{ IC(\sigma^2)}\)

  • \(\chi^2_n\) família de distribuições do qui quadrado (chi square), que depende do grau de liberdade n (degree of freedom)

  • \(1-\alpha/2\)

  • n-1 identifica qual a distribuição do qui quadrado

  • n -1 = 31 (pois são 32 árvores na amostra)

  • \(s_c^2= sd^2=6.48682^2\) (variância amostral corrigida)

Para calcular o quantil qui-quadrado consulte distribuição qui quadrado e as notas:

  • A notação \({\cal X}^2\) é um símbolo como um todo.

  • \(1 - \alpha = 0.95\)

  • \(1 - \alpha/2= 0.975\)

  • \(\alpha/2=0.025\)

  • O grau de confiança pedido é 95% e então \(1 - \alpha=0.95\). Esta é a probabilidade que é colocada no centro da \({\cal X}^2_{n-1}\) obtendo:

    • 2.5%(à esquerda) 95%(ao centro) 2.5%(à direita)

Calculadoras como CASIO CG 20 e a TI nspire:

  • «qui quadrado» é «CHI SQ» em algumas calculadoras.

  • inv.chisq(0.025, 31)

  • inv.chisq(0.975, 31)

A TI 84 não tem e então pode usar-se o Excel para qui-quadrado (ver também excel):

  • =INV.CHIQ(0,975; 31) e =INV.CHIQ(0,0025; 31)

ou ainda o sistema R, recordando que «q» designa quantil e «chisq» designa «qui quadrado»:

> qchisq(0.025,31)
[1] 17.53874
> qchisq(0.975,31)
[1] 48.23189
\[ \begin{align}\begin{aligned}IC(\sigma^2) = \left[\frac{(n-1)s_c^2}{48.23189}, \frac{(n-1)s_c^2}{17.53874} \right]=\\= [31 * 6.48682^2 / 48.23189, 31 * 6.48682^2 / 17.53874]\\= [27.04526, 74.375]\end{aligned}\end{align} \]

Finalmente, a raiz quadrada, para se obter um IC para o desvio padrão:

\[ \begin{align}\begin{aligned}IC(\sigma) = [ sqrt(27.04526), sqrt(74.375)] =[5.200506, 8.624094]\\IC_{95\%}(\sigma) = [5.20,8.62]\end{aligned}\end{align} \]

(c) Qual o erro padrão (i.e. \(s_c/\sqrt{n}\)) associado à média da amostra?

sugestões

  • o que representa \(s_c\)? e n?

  • na tabela no enunciadono R, «sd» quer dizer «desvio padrão corrigido» (Standard Deviation);

  • basta aplicar a expressão aos dados no enunciado.

solução

  • \(s_c/\sqrt{n} \approx 1.14673\);


(d) Através do QQ-plot averigue se pode considerar que os dados são provenientes de uma distribuição normal, validando os IC obtidos nas alíneas anteriores.

sugestões

proposta de resolução

  • É de crer que os dados provêm duma população normal pois os pontos estão próximos do segmento de reta no gráfico QQplot.


mostrar código R

#Primeira vez:
#install.packages("TeachingDemos")

dados = read.csv("https://sweet.ua.pt/pedrocruz/dados/arvores.csv", dec=".", sep=",")
alturas = dados$ALTURA
summary(alturas)

qqnorm(alturas, datax=TRUE, pch=20)
qqline(alturas, datax=TRUE, pch=20, lwd=2, col="red")

t.test(alturas)