homogeneidade de duas variâncias (teste F)

Teste F para a comparação de variâncias \(\sigma_X^2\) e \(\sigma_Y^2\) de duas populações normais independentes.

descrição

A comparação de variâncias \(\sigma_X^2\) e \(\sigma_Y^2\) de duas populações normais independentes é usado em dois testes estatísticos:

Assim, parte-se deste pressuposto:

\[\begin{split}\begin{eqnarray*} X & \sim & N(\mu_X, \sigma^2_X) \\ Y & \sim & N(\mu_Y, \sigma^2_Y) \\ \end{eqnarray*}\end{split}\]

e as hipóteses possíveis são:

\[ \begin{align}\begin{aligned}H_0: \sigma^2_X = \sigma^2_Y \quad vs \quad H_1: \sigma^2_X \neq \sigma^2_Y\\H_0: \sigma^2_X = \sigma^2_Y \quad vs \quad H_1: \sigma^2_X > \sigma^2_Y\\H_0: \sigma^2_X = \sigma^2_Y \quad vs \quad H_1: \sigma^2_X < \sigma^2_Y\end{aligned}\end{align} \]

homogeneidade de variâncias

Diz-se, na literatura, que «as variâncias são homogéneas» sempre que se efetua um teste às variâncias e não se rejeita \(H_0\,:\,\sigma^2_X = \sigma^2_Y\).

Por outras palavras, variâncias são homogéneas quer dizer, em linguagem não rigorosa que as variâncias das duas populaçõe «são iguais».

pressupostos e validação

Os pressupostos exigidos são:

  • tem-se duas amostras \(x_1,\ldots,x_n\) e \(y_1,\ldots,y_m\) com dimensões n e m, respectivamente, não necessariamente iguais;

  • as duas populações devem ser independentes;

  • as duas populações devem ter distribuição normal.

A validação do pressuposto da normalidade pode ser feita com recurso ao ajustamento à normal.

Notas:

  • o teste F é muito sensível à violação do pressuposto da normalidade;

  • se for esse o caso, deve optar-se pelo Teste de Levene (um teste não paramétrico que não está exposto no wiki).

estatística de teste

A estatística do teste F é:

\[F = \frac{S_{cX}^2/\sigma^2_X}{S_{cY}^2/\sigma^2_Y}\underset{sob~H_0}{\sim} F_{(n-1),(m-1)}\]

sendo \(F_{(n-1),(m-1)}\) a distribuição F de Fisher com n-1 e m-1 graus de liberdade.

Como \(H_0: \sigma^2_X = \sigma^2_Y\) então a estatística de teste resume-se a

\[F = \frac{S_{cX}^2}{S_{cY}^2}\underset{sob~H_0}{\sim} F_{(n-1),(m-1)}\]

valor observado da estatística de teste

O valor observado da estatística de teste, sob H0,

\[f_{obs} = \frac{s_{cX}^2}{s_{cY}^2}\]

cálculo do valor-p

A distribuição F é assimétrica positiva (tornando-se simétrica, em torno de 1, à medida que n e m tendem a infinito).

_images/da-f-demo.png

Para determinar o valor-p bilateral é necessário saber se \(f_{obs}\) é «baixo» ou alto»

  • valor-p = \(2 \times P(F \le f_{obs} | H0)\) se \(f_{obs}\) é inferior à mediana de \(F_{n,m}\)

  • valor-p = \(2 \times (1 - P(F \le f_{obs} | H0))\) se \(f_{obs}\) é superior à mediana de \(F_{n,m}\)

Dependendo de n e m, a mediana da distribuição está em 1 ou numa pequena vizinhança de 1. Para valores muito baixos de n e m é melhor calcular a mediana, por exemplo, recorrendo ao R. Por exemplo, a mediana de \(F_{3,10}\) é obtida por

> qf(0.5, df1=3, df2=10)  # a mediana pode afastar-se um pouco de 1
[1] 0.8450806
> qf(0.5, df1=10, df2=10)  # com n=10 e m=10 graus de liberdade já é 1.
[1] 1

Alternativamente, no teste bilateral, pode-se escolher o menor valor de probabilildade:

\[\text{valor-p} = 2 \times \min\{ P(F \le f_{obs} | H0), (1 - P(F \le f_{obs} | H0)) \}\]

não sendo necessário determinar o quantil 50%.

Para os testes unilaterais pode ser necessário determinar o quantil 50%.

R Project

Teste F para a comparação de duas amostras extraídas de populações normais, usando o método do p-value, fornecendo duas amostras independentes, X e Y, de dimensão iguail ou diferente é:

dadosx = c(182.8, 160.9, 166.7, 151.0, 169.0, 169.0, 155.9, 176.6, 154.9, 163.8)
dadosy = c(157.7, 161.0, 152.2, 162.7, 149.5, 146.5, 164.1, 142.8, 157.2, 159.1)
var.test(x = dadosx, y = dadosy, alternative = "two.sided")

O resultado do R é:

F test to compare two variances

data:  dadosx and dadosy
F = 1.9021, num df = 9, denom df = 9, p-value = 0.3521
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.4724644 7.6580008
sample estimates:
ratio of variances
          1.902139

No exemplo, como o valor-p é 0.3521 não temos razões para rejeitar a homogeneidade das variâncias.

texas TI 84

  • STAT => Test => E: 2 samp F test => stats

Agora, escolhendo «stats» temos:

  • sx1 = sX corrigido nos apontamentos

  • n1 = dimensão da amostra X («n» nos apontamentos)

  • sx2 = sY corrigido nos apontamentos

  • n2 = dimensão da amostra Y («m» nos apontamentos)

  • H1: diferente, < ou >

  • CALCULATE

Output:

  • H1: sigma1 diferente ou < ou > sigma2

  • F = \(F_obs\)

  • p = p-value

Muitas vezes os enunciados omitem o termo «corrigido».

casio FX CG 20

  • São abordadas as situações: «teste F» ou «Cálculo do valor-p de um teste F»

Teste F

  • Menu => 2: Estatística => F3: Test => F4: F (test)

  • Data: escolher «variable»

  • sigma1 <, diferente, > sigma2

  • sx1:

  • n1:

  • sx2:

  • n2:

  • SAVE

Pode ainda escolher «list» se tiver os dados e não tiver os desvios sx1 e sx2.

Calcular o valor-p do teste F

  • Menu => 2: Estatística => F5: Dist => F4: F

  • Fcd = cálculo da probabilidade (ou área) em a letra “c” designa “cumulative”;

  • Data: variable ou list

  • Lower:

  • upper: 10^10

  • n:df = graus de liberdade do numerador

  • d:df = graus de liberdade do denominador

  • SAVE

podendo ainda surgir a necessidade de usar:

  • InvF = dada a probabilidade (i.e., área), obter o quantil (\(F_{obs}\))

mas não será usada

  • Fpd = densidade de probabilidade.

Ver ainda distribuição F de Fisher para uma exposição mais completa sobre a distribuição F de Fisher.

exemplo completo com calculadora

Considere duas amostras de populações independentes de alturas em cm:

x = 182.8, 160.9, 166.7, 151.0, 169.0, 169.0, 155.9, 176.6, 154.9, 163.8
y = 157.7, 161.0, 152.2, 162.7, 149.5, 146.5, 164.1, 142.8, 157.2, 159.1

Usando o método de ajustamento à normal pode ser testado o ajuste (não feito neste exemplo) e assume-se que X e Y são duas populações normais.

Pretende-se testar se se pode considerar que as variâncias são homogéneas. As etapas são:

populações: descrever as populações e distribuição

\[ \begin{align}\begin{aligned}X = \text{altura de uma pessoa da população X}\\Y = \text{altura de uma pessoa da população Y}\end{aligned}\end{align} \]

Do enunciado,

\[ \begin{align}\begin{aligned}X \sim N(\mu_X, \sigma^2_X)\\Y \sim N(\mu_Y, \sigma^2_Y)\end{aligned}\end{align} \]

amostras: introduzir os dados amostrais na calculadora

  • introduzir as duas listas de valores em L1 e L2 (ou em a[] e b[])

hipóteses: especificar as hipóteses em teste

\[H_0: \sigma^2_X = \sigma^2_Y \quad vs \quad H_1: \sigma^2_X \neq \sigma^2_Y\]

estatística de teste: especificar a Estatística de Teste

A estatística do teste F é:

\[F = \frac{S_{cX}^2}{S_{cY}^2}\underset{sob~H_0}{\sim} F_{9,9}\]

pois as amostras são ambas de dimensão 10.

valor-p: cálculo do p-value por uma de duas maneiras

Opção 1 – a calculadora determina o p-value

  • Fazer o «2 Samp F test»

Opção 2 – usar a calculadora para consultar a distribuição F

  1. obter os desvios amostrais de ambas distribuições:

\[ \begin{align}\begin{aligned}s_{cX} = 9.9181\\s_{cY} = 7.1913\end{aligned}\end{align} \]
  1. calcular \(t_{obs}\) com a estatística de teste:

\[f_{obs} = \frac{(9.9181)^2}{(7.1913)^2} = 1.9021\]
  1. calcular o valor-p bilateral:

como \(f_{obs} > 1\) então o \(f_{obs}\) está do lado direito relativamente à mediana da distribuição F. Assim,

\[\begin{split}\begin{eqnarray*} p-value & = & 2 \times CDF.F(1.9021; +\infty; 9; 9) \\ & = & 2 \times 0.1761 \\ & = & 0.3522 \\ \end{eqnarray*}\end{split}\]

conclusão: conclusão com base no valor-p

Como o valor-p = 0.3522 :math:` > alpha=0.05` então não se rejeita H0, isto é, as variâncias \(\sigma^2_X\) e \(\sigma^2_Y\) são homogéneas, considerando as amostras dadas e nível de significância de 5%.