qualidade da regressão

Caso os pressupostos estejam validados, a avaliação da qualidade da reta de regressão pode ser feita com base em:

  • diagramas de dispersão (igualmente presente na verificação dos pressupostos)

  • coeficiente de determinação \(R^2\);

coeficiente de determinação r^2

O coeficiente de determinação (\(R^2\)) é um dos indicadores que permite avaliar a qualidade da regressão. Este coeficiente é obtido nas calculadoras gráficas e R Project. No sistema R mostra uma tabela assim:

_images/rl-qualidade-determinacao.png

onde se pode ver «Multiple R-squared» que indica o valor do coeficiente \(R^2\). Nas calculadoras surge no output.

O coeficiente de determinação mede a proporção de variabilidade de Y explicada por x.

Regra a aplicar: se a relação entre Y e x for bem modelada por uma regressão linear simples, o coeficiente de determinação \(R^2\) assume valores próximos de 1. Considera-se que a regressão tem boa qualidade, isto é, há um bom ajuste à reta, quando o coeficiente de determinação apresenta valores superiores a 0.9. Esta informação completa a informação visual no gráfico de dispersão.

sobre o r^2

Este coeficiente é (mesmo) o quadrado do coeficiente de Pearson r (ver correlação de Pearson).

Pode ser calculado com duas interpretações complementares:

  • \(R^2\) como percentagem explicativa da variação de Y face a x (devida à reta de regressão):

\[R^2 = \displaystyle \frac{\text{variação em Y causada pela variação em x}}{\text{variação total}}\]
  • \(R^2\) como (100% - percentagem de variação devida aos erros):

\[R^2 = 1 - \displaystyle \frac{\text{variação dos erros}}{\text{variação total}}\]

Em resumo, o coeficiente \(R^2\)

  • é usado para avaliar a qualidade da regressão;

  • verifica \(0\le R^2 \le 1\);

  • mede a proporção de variabilidade de Y explicada por x;

  • tem como complementar, a percentagem devido aos erros aleatórios.

o gráfico de dispersão é necessário

Ocorrem situações que mostram a necessidade de avaliar o gráfico de dispersão por forma a evitar casos não apropriados numa regressão linear.

Considere os casos aqui reportados onde se chama a atenção para a amostra \((x_i,y_i)\) definindo um gráfico de dispersão em forma de U mas com \(R^2=1\)! Assim, não basta avaliar a qualidade só através do coeficiente de determinação acima apresentado.

leituras