variância e desvio amostrais
A variância é uma medida de dispersão dos dados numéricos e é definida como sendo a média dos quadrados dos desvios das observações em relação à média da amostra.
O desvio padrão é obtido pela raiz quadrada da variância e é também uma medida de dispersão.
variância amostral
A variância é a média dos quadrados dos desvios das observações em relação à média da amostra.
variância amostral corrigida
Note-se, na expressão da var. corrigida, o divisor «n-1» produzindo um resultado maior que \(s^2\):
Dica
Em geral, deve ser usada a chamada variância corrigida (ou desvio amostral corrigido).
Corrigida porque, como explicado no capítulo estatística inferencial, verifica-se que é um indicador mais apropriado da dispersão especialmente para pequenas amostras.
desvio padrão amostral corrigido
A variância não vem representada na mesma unidade das observações devido à expressão \((x_i - \bar x)^2\) ter um quadrado. Por exemplo, se a amostra vem em metros então a variância vem em «metros-ao-quadrado» e não é tão fácil perceber esta medida de dispersão.
Se tomarmos a raiz quadrada da variância obtemos o desvio padrão, também sendo uma medida de dispersão, com a vantagem de usar as mesmas unidades das observações.
O desvio amostral corrigido é dado por
Nota: nos programas R, SPSS e Excel o que aparece são as versões corrigidas da variância e do desvio padrão. Nas máquinas de calcular aparecem as duas.
propriedades
medidas não robustas a valores extremos
O desvio padrão amostral e a variância amostral podem ser fortemente afetados por erros ou observações extremas. A justificação é que estas medidas dependem da média amostral que pode não representar o «centro dos dados» em virtude da amostra conter valores extremos.
qual é maior?
O desvio padrão amostral corrigido, \(s_c\), é sempre maior que o desvio padrão amostral (não corrigido), \(s\):
pois
e
especialmente para pequenos valores de \(n\).
a reter
Quando se realizam cálculos em «papel-e-lápis» é quase sempre com o valor da variância.
Quando se usam calculadoras, ou software, é quase sempre usado apenas o valor do desvio padrão.
Deve usar-se a variância amostral corrigida (respetivamente, o desvio padrão amostral corrigido), especialmente quando a amostra é pequena.
R Project
Desvio padrão corrigido (sd=standard deviation):
amostra = c(10,20,30,40,50)
sd(amostra)
Variância corrigida:
amostra = c(10,20,30,40,50)
var(amostra)