pressupostos e sua validação

modelo

O modelo linear simples rege-se por

\begin{align}\begin{aligned}Y|x = \beta_0 + \beta_1 x + \epsilon, \quad \beta_1 \neq 0,\\\epsilon \sim N(0, \; \sigma^2)\end{aligned}\end{align}

onde é patente o pressuposto de que o erro é uma v.a. com distribuição normal centrada em 0 e variância \sigma^2.

A variância \sigma^2 não depende da posição x ou y.

erro e resíduos

A obtenção de concretizações do erro aleatório, \epsilon, processa-se obtendo os resíduos, e_i, para uma dada amostra.

Considerando uma amostra de n observações emparelhadas (x_i,y_i):

(x_1,y_1),\ldots,(x_n,y_n)

temos

y_i = \beta_0 + \beta_1 x_i + e_i, \quad i=1, \ldots, n

como ilustra a imagem:

_images/rl-simples-erros.png

onde

  • os valores x_i são provenientes de uma variável independente também denominada regressor ou variável explicativa;

  • os valores y_i são dependentes e são a resposta a x_i;

  • os resíduos e_i são valores independentes obtidos por

e_i = y_i - \hat y_i \quad \text{ em que } \hat y_i = \beta_0 + \beta_1 x_i

pressupostos da regressão

O erro no modelo de regressão linear simples, \epsilon, é uma v.a. que verifica

\epsilon \sim N(0, \sigma^2)

sendo os resíduos, e_i uma coleção de observações da v.a. \epsilon.

Assim, a amostra de resíduos deve:

  • verificar a independência face a x ou \hat y|x;

  • ser bem modelada por uma distribuição normal;

  • em que a variância não depende de x ou \hat y|x.

procedimento para validação dos pressupostos

1. Gráfico dispersão de resíduos

Realiza-se um gráfico de dispersão entre

  • valores preditos \hat y_i (eixo xx)

  • resíduos e_i (eixo yy)

1. (a) No gráfico de dispersão deve observar-se que há aleatoriedade e esta que significa independência face a valores preditos \hat y_i.

No seguinte gráfico é verificada a independência face a \hat y_i pois há aleatoriedade.

_images/rl-validacao-residuos.png

No seguinte gráfico não há aleatoriedade pois os resíduos e_i dependem de x (poderia ser também \hat y_i):

_images/rl-validacao-residuos-naoindep.png

1. (b) No gráfico de dispersão deve observar-se que a variabilidade é constante ao longo de x ou de \hat y_i. Por outras palavras, a variância do erro não depende de x ou dos valores preditos \hat y_i.

_images/rl-validacao-residuos-varconstante.png

No seguinte gráfico não há constância da variabilidade ao longo de x (poderia ser também \hat y_i):

_images/rl-validacao-residuos-varnaoconstante.png
2. Ajustamento à normalidade

Como \epsilon \sim N(0, \; \sigma^2) então é necessário verificar se a coleção resíduos, obtidos pela regressão linear sobre uma amostra (x_i,y_i), é bem modelada por uma distribuição normal. Em ajustamento à normal são apresentadas as técnicas para esse fim e que aqui são reproduzidas e sumariadas:

2. (a) QQ plot normal

Comparam-se os quantis da amostra de resíduos e_1,\ldots,e_n com os quantis de uma distribuição normal obtem um gráfico «QQ plot» como o da seguinte figura:

_images/rl-validacao-residuos-qqplot.png

Os pontos devem ser próximos à «reta de quantis» para não se rejeitar a normalidade dos resíduos, confirmando o modelo de que \epsilon \sim \text{normal}.

2. (b) Testes de Hipóteses de ajustamento à normal

Se a amostra tem dimensão inferior a 30 pares de observações então deve realizar-se o teste de Shapiro-Wilk.

Caso contrário deve realizar-se o teste Kolmogorov-Smirnoff com correção Lilliefors.

Em ambos os casos obtém-se um p-value que não deve conduzir à rejeição da normalidade (p-value elevado).

Complemento: o sistema R oferece uma tabela como a seguinte:

_images/rl-residuals-r.png

na qual se podem ver as principais medidas amostrais dos resíduos: nela pode ser apreciada a simetria e amplitude dos valores dos resíduos.


A secção R Project introduz rotinas online com as quais se obtém a reta de regressão linear simples paramétrica e efetua-se a verificação dos pressupostos.