regressão linear simples

É apresentado um método para modelar uma relação causal linear (ver esboço de uma reta afim) entre duas variáveis:

y = \beta_0 + \beta_1 x, \quad \beta_1 \neq 0,

Os coeficientes são obtidos a partir de uma amostra de observações emparelhadas (x_i, y_i) e do seguinte modelo da regressão linear simples (modelo paramétrico):

Y|x = \beta_0 + \beta_1 x + \epsilon, \quad \beta_1 \neq 0,

em que

\epsilon \sim N(0, \; \sigma^2)

exemplo e motivação

São exemplos de aplicação:

  • Avaliar o crescimento de uma planta, em função da concentração de zinco.

  • Avaliação do efeito da poluição no crescimento dos seres de uma determinada espécie.

  • Construir um modelo de previsão do peso fetal à nascença com base no perímetro abdominal da mãe.

A motivação é que uma vez estabelecida uma reta podemos calcular valores preditos y para qualquer x num domínio apropriado:

  • dada uma concentração de zinco, pode-se obter o crescimento esperado de uma planta;

  • dada uma concentração de poluente, pode-se obter o efeito médio do crescimento de seres expostos à poluição;

  • dado um perímetro abdominal, pode-se obter o peso esperado do peso à nascença.

esboço de uma reta afim

Uma reta nem horizontal, nem vertical, designa-se por função afim e escreve-se com a seguinte notação:

y = \beta_0 + \beta_1 x

em que

  • \beta_0 é a ordenada na origem; em algumas calculadoras este é o coeficiente «a»;

  • \beta_1 é o declive da reta; em algumas calculadoras este é o coeficiente «b».

Um esboço da reta de regressão requer dois pontos e um domínio no eixo xx. No seguinte exemplo, o domínio é de 0 a 2:

Figure made with TikZ

Para esboçar a reta, no domínio indicado, foi necessário calcular e marcar dois pontos:

  • ponto (0,0.5): em x=0 obtemos y=\beta_0 + \beta_1 \times 0, isto é, o ponto (x=0,y=0.5) sem quaisquer cálculos;

  • ponto (2,2): em x=2 obtemos y = 0.5 + 0.75 \times 2=2, ou seja, o ponto (x=2,y=2).

não há regressão

Diz-se que não há regressão se o declive for nulo pois o valor de y não é determinado pelo valor de x. O exemplo mostra essa possibilidade que, no entanto, carece de teste estatístico ao declive \beta_1 (ver significado da regressão):

_images/rl-simples-naoregressao.png

modelo linear de regressão simples

O modelo de regressão linear simples relaciona a variável dependente y (também designada por «variável explicada» ou «variável resposta») com uma variável independente x (também designada por «variável explicativa») resultando no seguinte modelo:

\begin{align}\begin{aligned}Y|x = \beta_0 + \beta_1 x + \epsilon\\\epsilon \sim N(0, \; \sigma^2)\end{aligned}\end{align}

sendo:

  • \beta_0: a ordenada na origem dos eixos;

  • \beta_1: o declive;

  • erro aleatório \epsilon: modela o erro associado a cada observação Y.

A imagem apresenta uma situação típica de modelaçao por regressão linear simples:

_images/rl-simples-modelo.png

obtenção da reta

A reta de regressão é obtida tendo uma amostra de n observações emparelhadas (x_i,y_i):

(x_1,y_1),\ldots,(x_n,y_n)

que na imagem acima são representadas pelos pontos a azul. Para se obter a reta de regressão é esboçada a técnica do «método dos mínimos quadrados» de seguida.

método dos mínimos quadrados

Usando um método apresentado nos aspetos teóricos determina-se uma reta estimada que se representa por:

\hat y|x = \hat \beta_0 + \hat \beta_1 x

em que:

  • \hat y|x designa um valor predito de y para um dado x;

  • \hat \beta_0 designa uma estimativa de \beta_0 para os pontos (x_1,y_1),\ldots,(x_n,y_n);

  • \hat \beta_1 designa uma estimativa de \beta_1 para os pontos (x_1,y_1),\ldots,(x_n,y_n).

A técnica matemática designa-se por método dos mínimos quadrados e determina a reta que minimiza as áreas quadradadas a amarelo na seguinte imagem:

_images/rl-reta-erros2.png

As aplicações ilustram o mecanismo de procura dos mínimos quadrados:

erros e resíduos

Por vezes há necessidade de usar uma terminologia rigorosa:

  • erro: é a v.a. que modela o erro associado a cada observação Y, sendo estes centrados em 0 e com variância \sigma^2 e bem modelados por uma distribuição normal;

  • resíduo: é um valor real que mede o afastamento da reta à observação. A imagem mostra uma reta (reta a vermelho) preditiva obtida a partir de pares de observações (x_i,y_i) (bolinhas a preto) em que os afastamentos à reta se designam por resíduos (segmentos a azul):

Assim, um resíduo é a diferença entre o valor observado y_i e o valor predito pela reta.

valor predito

Uma motivação para a obtenção de retas é pode estimar-se o valor da variável dependente (y) para um dado (x):

\hat y | x= \hat \beta_0 + \hat \beta_1 x
  • em que \hat y | x designa o valor predito pela reta de regressão sabendo x;

    • (valor predito ou valor estimado para y)

  • \hat \beta_0: ordenada na origem estimada

    • nas calculadoras costuma ser a letra «a»;

  • \hat \beta_1: declive estimado

    • nas calculadoras costuma ser a letra «b».

No exemplo da reta acima, para x=1.5, podemos obter o valor predito:

  • \hat y =0.5 + 0.75 \times 1.5 \approx 1.625