correlação de Pearson

O coeficiente de correlação de Pearson, r, aplica-se a duas variáveis numéricas emparelhadas (x_i,y_i) e mede a correlação linear entre ambas.

Após a visualização do diagrama de dispersão pode usar-se o coeficiente para medir o grau de correlação e então:

  • se r=1 então os pontos (x_i,y_i) definem pontos perfeitamente alinhados sobre um reta crescente;

  • se r=-1 então os pontos (x_i,y_i) definem pontos perfeitamente alinhados sobre um reta decrescente;

  • se r=0 então os pontos (x_i,y_i) não estão linearmente correlacionados

Consulte os exemplos ilucidativos na página wikipédia.

coeficiente amostral de Pearson

A amostra, de dimensão n, é constituída por pares de números reais (x_i,y_i) em que i=1, \ldots,n.

O coeficiente de Pearson, com base numa amostra, é determinado por

r = \frac{ \sum_{i=1}^n (x_i - \bar x)(y_i - \bar y) }{ \sqrt{\sum_{i=1}^n (x_i - \bar x)^2} \sqrt{\sum_{i=1}^n (y_i - \bar y)^2} }

A ideia, centrando a origem dos eixos em (\bar x, \bar y), pode ser facilmente reconhecida na imagem:

_images/cor-pearson-ideia.png

Repare-se que:

  • os pontos no primeiro e terceiro quadrantes registam um valor de (x_i - \bar x)(y_i - \bar y) positivo;

  • os pontos no segundo e quarto quadrantes registam um valor de (x_i - \bar x)(y_i - \bar y) negativo.

O sinal de r é determinado pelo numerador, pois o denominador de r é sempre positivo, e assim:

  • quando a larga maioria de pontos está no primeiro e terceiro quadrantes então r > 0;

  • quando a larga maioria de pontos está no segundo e quarto quadrantes então r < 0;

  • quando há pontos dispersos por todos os quadrantes então \sum_{i=1}^n (x_i - \bar x)(y_i - \bar y) vai aproximar-se de 0 porque se estará a somar quantidades positivas e negativas.

teste ao coeficiente populacional de Pearson

Definindo \rho como o coeficiente populacional de Pearson então pretende-se testar

H0: \rho = 0 \text{ vs } H1: \rho \neq 0

ou outra variante unilateral.

Sendo r o coeficiente amostral de Pearson, então a estatística de teste

T|H0 = r \sqrt{ \frac{ n-2 }{ 1-r^2 } } \sim_{H0} t_{n-2}

R project

x = c(36, 22, 25, 34, 26, 25, 23, 42, 25, 40, 35, 40)
y = c(54, 43, 47, 59, 54, 44, 46, 61, 51, 67, 64, 57)
plot(x,y)

cor.test(x,y, method="pearson")

calculadoras

comando: LinRegTTest

aspetos matemáticos

O coeficiente amostral de Pearson pode ser visto como a covariância amostral entre X e Y normalizada (o denominador faz a normalização e assim -1 \le r \le 1).

r = \frac{ s_{XY} }{ s_X \times s_Y }