ex. 5.10 (*)

Considere o ficheiro rolhas.csv que contém os valores de várias variáveis medidas num conjunto de 150 rolhas. Pretende-se estabelecer um modelo de regressão linear simples entre o perímetro total dos defeitos das rolhas (y) e a área total desses mesmos defeitos (x).

Considere o seguinte gráfico de dispersão

_images/ex5_10_scatter.png

e a seguinte tabela de coeficiente (incompleta):

Estimate

Std. Error

t value

Pr(\(>|t|\))

(Intercept)

3.33553

0.08202

40.67

\(<2e-16\)

ARM

1.37780

0.01951

70.64

(valor-p)

  • Residual standard error: 0.3877 on 148 degrees of freedom

  • Multiple R-squared: 0.9712, Adjusted R-squared: 0.971

  • F-statistic: 4989 on 1 and 148 DF, p-value: < 2.2e-16


(a) Comente o gráfico de dispersão.

sugestões

solução

O par de observações apresenta uma boa correlação linear.


(b) Escreva a reta de regressão.

sugestões

proposta de resolução

A coluna «Estimate» da tabela acima mostra as estimativas dos coeficientes:

  • \(\hat \beta_0 = 3.33553\) (ordenada na origem)

  • \(\hat \beta_1 = 1.37780\) (declive)

A reta estimada é \(\hat y=3.33553 + 1.37780 \, x\).


(c) O valor do coeficiente de declive é significativamente diferente de 0? Realize o cálculo do valor-p primeiro sem recurso aos dados (apenas com os dados da tabela) e depois com recurso aos dados (via software). Considere o nível de significância 5%.


(c-i) Escreva as hipóteses em causa indique a interpretação de cada uma no contexto da regressão linear.

sugestões

proposta de resolução

O declive é o coeficiente \(\beta_1\):

\(H_0: \beta_1=0\) vs \(H_1: \beta_1 \neq 0\)

Há uma interpretação especial no caso da regressão para estas duas hipóteses:

  • se H0 for favorável diz-se que a «regressão não faz sentido», isto é, não faz sentido explicar Y com base em x.

  • se H1 for favorável diz-se que a regressão faz sentido.


(c-ii) Calcule o valor-p do teste (em falta na tabela).

sugestões

O teste t realiza-se de forma semelhante ao teste e intervalo t para a média com duas diferenças:

  • os graus de liberdade, df, são df=n-2 = 150-2;

  • o valor «Std. Error» da tabela já é o valor do desvio padrão de \(\hat \beta_1\) não sendo por isso necessário dividir por \(\sqrt{n}\).

proposta de resolução

Na tabela do enunciado, «t value» é o valor observado da estatística de teste sob \(H_0: \beta_1=0\) e este «0» é usado em baixo.

O valor 70.64 que consta na segunda linha da tabela pode ser obtido assim:

\[\begin{split}\begin{eqnarray*} t_{obs} & = & \displaystyle \frac{\hat \beta_1 - \beta_1}{\hat \sigma_{\beta_1}} \\ & = & \frac{\text{Estimate}}{\text{Std. Error}} \\ & = & \frac{1.37780}{0.01951} = 70.64 \end{eqnarray*}\end{split}\]

Como \(t_{obs}|H0\) segue \(t_{n-2}\) então o valor-p, bilateral, é dado por:

  • valor-p = 2 CDF.t(70.64, +infinito, df=150-2) = 0.0

Notas: foram considerados n=150 pares (x,y).


(c-iii) Conclua.

proposta de resolução

Rejeita-se \(H_0\). No contexto do problema significa que o perímetro total esperado dos defeitos das rolhas é significativamente influenciado pela área total desses mesmos defeitos.


(d) Forneça intervalos de confiança a 95% para os coeficientes de regressão.

sugestões

O método é análogo ao T Interval com duas diferenças numéricas:

  • os graus de liberdade, df, são \(df = n - 2 = 150-2 = 148\);

  • o valor «Std. Error» da tabela já é o valor do desvio padrão de \(\hat \beta_1\) não sendo por isso necessário dividir por \(\sqrt{n}\).

proposta de resolução

Pode determinar-se os ICs com base na informação da tabela considerado as expressões para cada um dos coeficientes:

\[IC_{95\%}(\beta_0) = [ \hat \beta_0 - t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_0}, \hat \beta_0 + t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_0} ]\]
\[IC_{95\%}(\beta_1) = [ \hat \beta_1 - t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_1}, \hat \beta_1 + t_{1-\alpha/2,n-2} \; \hat \sigma_{\beta_1} ]\]

Fazendo as devidas substituições, com \(t_{1-\alpha/2,n-2} = 1.976122\),

\(IC_{95\%}(b_0) = [3.173447, \;3.497606]\)

\(IC_{95\%}(b_1) = [1.339251, \;1.416343]\)

qt(0.975, 148)
[1] 1.976122

(e) Avalie a qualidade da regressão utilizando o coeficiente de determinação.

sugestões

solução

\(R^2 = 0.9712\) que é superior a 0.9 confirmando a boa qualidade obtida no gráfico de dispersão.


(f) Qual a percentagem de variabilidade de Y explicada por X?

sugestões

solução

97.12% de variabilidade de Y explicada por X: o perímetro total dos defeitos das rolhas (y) é explicado em 97% pela área total desses mesmos defeitos (x).