ex. 5.10 (*)

Considere o ficheiro rolhas.csv que contém os valores de várias variáveis medidas num conjunto de 150 rolhas. Pretende-se estabelecer um modelo de regressão linear simples entre o perímetro total dos defeitos das rolhas (y) e a área total desses mesmos defeitos (x).

Considere o seguinte gráfico de dispersão

_images/ex5_10_scatter.png

e a seguinte tabela de coeficiente (incompleta):

Estimate

Std. Error

t value

Pr(>|t|)

(Intercept)

3.33553

0.08202

40.67

<2e-16

ARM

1.37780

0.01951

70.64

(valor-p)

  • Residual standard error: 0.3877 on 148 degrees of freedom

  • Multiple R-squared: 0.9712, Adjusted R-squared: 0.971

  • F-statistic: 4989 on 1 and 148 DF, p-value: < 2.2e-16


(a) Comente o gráfico de dispersão.

sugestões

solução


(b) Escreva a reta de regressão.

sugestões

proposta de resolução


(c) O valor do coeficiente de declive é significativamente diferente de 0? Realize o cálculo do valor-p primeiro sem recurso aos dados (apenas com os dados da tabela) e depois com recurso aos dados (via software). Considere o nível de significância 5%.


(c-i) Escreva as hipóteses em causa indique a interpretação de cada uma no contexto da regressão linear.

sugestões

proposta de resolução


(c-ii) Calcule o valor-p do teste (em falta na tabela).

sugestões

proposta de resolução


(c-iii) Conclua.

proposta de resolução


(d) Forneça intervalos de confiança a 95% para os coeficientes de regressão.

sugestões

proposta de resolução


(e) Avalie a qualidade da regressão utilizando o coeficiente de determinação.

sugestões

solução


(f) Qual a percentagem de variabilidade de Y explicada por X?

sugestões

solução