ex. 5.10 (*)

Considere o ficheiro rolhas.csv que contém os valores de várias variáveis medidas num conjunto de 150 rolhas. Pretende-se estabelecer um modelo de regressão linear simples entre o perímetro total dos defeitos das rolhas (y) e a área total desses mesmos defeitos (x).

Considere o seguinte gráfico de dispersão

e a seguinte tabela de coeficiente (incompleta):

	Estimate	Std. Error	t value	Pr(\(>\|t\|\))
(Intercept)	3.33553	0.08202	40.67	\(<2e-16\)
ARM	1.37780	0.01951	70.64	(valor-p)

Residual standard error: 0.3877 on 148 degrees of freedom
Multiple R-squared: 0.9712, Adjusted R-squared: 0.971
F-statistic: 4989 on 1 and 148 DF, p-value: < 2.2e-16

(a) Comente o gráfico de dispersão.

☞ sugestões

Porque o gráfico de dispersão é necessário?

☞ solução

O par de observações apresenta uma boa correlação linear.

(b) Escreva a reta de regressão.

☞ sugestões

regressão linear simples

☞ proposta de resolução

A coluna «Estimate» da tabela acima mostra as estimativas dos coeficientes:

\(\hat \beta_0 = 3.33553\) (ordenada na origem)
\(\hat \beta_1 = 1.37780\) (declive)

A reta estimada é \(\hat y=3.33553 + 1.37780 \, x\).

(c) O valor do coeficiente de declive é significativamente diferente de 0? Realize o cálculo do valor-p primeiro sem recurso aos dados (apenas com os dados da tabela) e depois com recurso aos dados (via software). Considere o nível de significância 5%.

(c-i) Escreva as hipóteses em causa indique a interpretação de cada uma no contexto da regressão linear.

☞ sugestões

significado da regressão

☞ proposta de resolução

O declive é o coeficiente \(\beta_1\):

\(H_0: \beta_1=0\) vs \(H_1: \beta_1 \neq 0\)

Há uma interpretação especial no caso da regressão para estas duas hipóteses:

se H0 for favorável diz-se que a «regressão não faz sentido», isto é, não faz sentido explicar Y com base em x.
se H1 for favorável diz-se que a regressão faz sentido.

(c-ii) Calcule o valor-p do teste (em falta na tabela).

☞ sugestões

O teste t realiza-se de forma semelhante ao teste e intervalo t para a média com duas diferenças:

os graus de liberdade, df, são df=n-2 = 150-2;
o valor «Std. Error» da tabela já é o valor do desvio padrão de \(\hat \beta_1\) não sendo por isso necessário dividir por \(\sqrt{n}\).

☞ proposta de resolução

Na tabela do enunciado, «t value» é o valor observado da estatística de teste sob \(H_0: \beta_1=0\) e este «0» é usado em baixo.

O valor 70.64 que consta na segunda linha da tabela pode ser obtido assim:

\[\begin{split}\begin{eqnarray*} t_{obs} & = & \displaystyle \frac{\hat \beta_1 - \beta_1}{\hat \sigma_{\beta_1}} \\ & = & \frac{\text{Estimate}}{\text{Std. Error}} \\ & = & \frac{1.37780}{0.01951} = 70.64 \end{eqnarray*}\end{split}\]

Como \(t_{obs}|H0\) segue \(t_{n-2}\) então o valor-p, bilateral, é dado por:

valor-p = 2 CDF.t(70.64, +infinito, df=150-2) = 0.0

Notas: foram considerados n=150 pares (x,y).

(c-iii) Conclua.

☞ proposta de resolução

Rejeita-se \(H_0\). No contexto do problema significa que o perímetro total esperado dos defeitos das rolhas é significativamente influenciado pela área total desses mesmos defeitos.

(d) Forneça intervalos de confiança a 95% para os coeficientes de regressão.

☞ sugestões

O método é análogo ao T Interval com duas diferenças numéricas:

os graus de liberdade, df, são \(df = n - 2 = 150-2 = 148\);
o valor «Std. Error» da tabela já é o valor do desvio padrão de \(\hat \beta_1\) não sendo por isso necessário dividir por \(\sqrt{n}\).

☞ proposta de resolução

Pode determinar-se os ICs com base na informação da tabela considerado as expressões para cada um dos coeficientes:

\[IC_{95\%}(\beta_0) = [ \hat \beta_0 - t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_0}, \hat \beta_0 + t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_0} ]\]

\[IC_{95\%}(\beta_1) = [ \hat \beta_1 - t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_1}, \hat \beta_1 + t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_1} ]\]

Fazendo as devidas substituições, com \(t_{1-\alpha/2,n-2} = 1.976122\),

\(IC_{95\%}(b_0) = [3.173447, \;3.497606]\)

\(IC_{95\%}(b_1) = [1.339251, \;1.416343]\)

qt(0.975, 148)
[1] 1.976122

(e) Avalie a qualidade da regressão utilizando o coeficiente de determinação.

☞ sugestões

qualidade da regressão

☞ solução

\(R^2 = 0.9712\) que é superior a 0.9 confirmando a boa qualidade obtida no gráfico de dispersão.

(f) Qual a percentagem de variabilidade de Y explicada por X?

☞ sugestões

qualidade da regressão

☞ solução

97.12% de variabilidade de Y explicada por X: o perímetro total dos defeitos das rolhas (y) é explicado em 97% pela área total desses mesmos defeitos (x).