ex. 5.10 (*)
Considere o ficheiro rolhas.csv que contém os valores de várias variáveis medidas num conjunto de 150 rolhas.
Pretende-se estabelecer um modelo de regressão linear simples entre o perímetro total dos defeitos das rolhas (y) e a
área total desses mesmos defeitos (x).
Considere o seguinte gráfico de dispersão
e a seguinte tabela de coeficiente (incompleta):
|
Estimate |
Std. Error |
t value |
Pr(>|t|) |
(Intercept) |
3.33553 |
0.08202 |
40.67 |
<2e-16 |
ARM |
1.37780 |
0.01951 |
70.64 |
(valor-p) |
Residual standard error: 0.3877 on 148 degrees of freedom
Multiple R-squared: 0.9712, Adjusted R-squared: 0.971
F-statistic: 4989 on 1 and 148 DF, p-value: < 2.2e-16
(a) Comente o gráfico de dispersão.
O par de observações apresenta uma boa correlação linear.
(b) Escreva a reta de regressão.
A coluna «Estimate» da tabela acima mostra as estimativas dos coeficientes:
A reta estimada é \hat y=3.33553 + 1.37780 \, x.
(c) O valor do coeficiente de declive é significativamente diferente de 0? Realize o cálculo do valor-p primeiro sem recurso aos dados (apenas com os dados da tabela) e depois com recurso aos dados (via software). Considere o nível de significância 5%.
(c-i) Escreva as hipóteses em causa indique a interpretação de cada uma no contexto da regressão linear.
O declive é o coeficiente \beta_1:
H_0: \beta_1=0 vs H_1: \beta_1 \neq 0
Há uma interpretação especial no caso da regressão para estas duas hipóteses:
se H0 for favorável diz-se que a «regressão não faz sentido», isto é, não faz sentido explicar Y com base em x.
se H1 for favorável diz-se que a regressão faz sentido.
(c-ii) Calcule o valor-p do teste (em falta na tabela).
O teste t realiza-se de forma semelhante ao teste e intervalo t para a média com duas diferenças:
os graus de liberdade, df, são df=n-2 = 150-2;
o valor «Std. Error» da tabela já é o valor do desvio padrão de \hat \beta_1 não sendo por isso necessário dividir por \sqrt{n}.
Na tabela do enunciado, «t value» é o valor observado da estatística de teste sob H_0: \beta_1=0 e este «0» é usado em baixo.
O valor 70.64 que consta na segunda linha da tabela pode ser obtido assim:
\begin{split}\begin{eqnarray*}
t_{obs} & = & \displaystyle \frac{\hat \beta_1 - \beta_1}{\hat \sigma_{\beta_1}} \\
& = & \frac{\text{Estimate}}{\text{Std. Error}} \\
& = & \frac{1.37780}{0.01951} = 70.64
\end{eqnarray*}\end{split}
Como t_{obs}|H0 segue t_{n-2} então o valor-p, bilateral, é dado por:
Notas: foram considerados n=150 pares (x,y).
(c-iii) Conclua.
Rejeita-se H_0. No contexto do problema significa
que o perímetro total esperado dos defeitos das rolhas é
significativamente influenciado pela área total desses mesmos
defeitos.
(d) Forneça intervalos de confiança a 95% para os coeficientes de regressão.
O método é análogo ao T Interval com duas diferenças numéricas:
os graus de liberdade, df, são df = n - 2 = 150-2 = 148;
o valor «Std. Error» da tabela já é o valor do desvio padrão de \hat \beta_1 não sendo por isso necessário dividir por \sqrt{n}.
Pode determinar-se os ICs com base na informação da tabela considerado as expressões para cada um dos coeficientes:
IC_{95\%}(\beta_0) = [ \hat \beta_0 - t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_0}, \hat \beta_0 + t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_0} ]
IC_{95\%}(\beta_1) = [ \hat \beta_1 - t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_1}, \hat \beta_1 + t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_1} ]
Fazendo as devidas substituições, com t_{1-\alpha/2,n-2} = 1.976122,
IC_{95\%}(b_0) = [3.173447, \;3.497606]
IC_{95\%}(b_1) = [1.339251, \;1.416343]
qt(0.975, 148)
[1] 1.976122
(e) Avalie a qualidade da regressão utilizando o coeficiente de determinação.
R^2 = 0.9712 que é superior a 0.9 confirmando a boa qualidade obtida no gráfico de dispersão.
(f) Qual a percentagem de variabilidade de Y explicada por X?
97.12% de variabilidade de Y explicada por X: o perímetro total dos defeitos das rolhas (y) é explicado em 97% pela área total desses mesmos defeitos (x).