variância e desvio amostrais

A variância é uma medida de dispersão dos dados numéricos e é definida como sendo a média dos quadrados dos desvios das observações em relação à média da amostra.

O desvio padrão é obtido pela raiz quadrada da variância e é também uma medida de dispersão.

variância amostral

  • A variância é a média dos quadrados dos desvios das observações em relação à média da amostra.

\[s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar x)^2\]

variância amostral corrigida

Note-se, na expressão da var. corrigida, o divisor «n-1» produzindo um resultado maior que \(s^2\):

\[s^2_c = \frac{1}{\mathbf{n-1}} \sum_{i=1}^n (x_i - \bar x)^2\]

Dica

Em geral, deve ser usada a chamada variância corrigida (ou desvio amostral corrigido).

Corrigida porque, como explicado no capítulo estatística inferencial, verifica-se que é um indicador mais apropriado da dispersão especialmente para pequenas amostras.

desvio padrão amostral corrigido

A variância não vem representada na mesma unidade das observações devido à expressão \((x_i - \bar x)^2\) ter um quadrado. Por exemplo, se a amostra vem em metros então a variância vem em «metros-ao-quadrado» e não é tão fácil perceber esta medida de dispersão.

Se tomarmos a raiz quadrada da variância obtemos o desvio padrão, também sendo uma medida de dispersão, com a vantagem de usar as mesmas unidades das observações.

O desvio amostral corrigido é dado por

\[s_c = \sqrt{ \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar x)^2}\]

Nota: nos programas R, SPSS e Excel o que aparece são as versões corrigidas da variância e do desvio padrão. Nas máquinas de calcular aparecem as duas.

propriedades

medidas não robustas a valores extremos

O desvio padrão amostral e a variância amostral podem ser fortemente afetados por erros ou observações extremas. A justificação é que estas medidas dependem da média amostral que pode não representar o «centro dos dados» em virtude da amostra conter valores extremos.

qual é maior?

O desvio padrão amostral corrigido, \(s_c\), é sempre maior que o desvio padrão amostral (não corrigido), \(s\):

\[s < s_c\]

pois

\[s = \sqrt{ \frac{1}{n} \sum_{i=1}^n (x_i - \bar x)^2} \quad\quad s_c = \sqrt{ \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar x)^2}\]

e

\[\frac{1}{n} < \frac{1}{n-1}\]

especialmente para pequenos valores de \(n\).

a reter

  • Quando se realizam cálculos em «papel-e-lápis» é quase sempre com o valor da variância.

  • Quando se usam calculadoras, ou software, é quase sempre usado apenas o valor do desvio padrão.

  • Deve usar-se a variância amostral corrigida (respetivamente, o desvio padrão amostral corrigido), especialmente quando a amostra é pequena.

R Project

Desvio padrão corrigido (sd=standard deviation):

amostra = c(10,20,30,40,50)
sd(amostra)

Variância corrigida:

amostra = c(10,20,30,40,50)
var(amostra)