duas amostras independentes (t test)

Apresenta-se o teste t de comparação de duas médias de populações normais independentes mas para melhor usar este teste é necessário efetuar o homogeneidade de duas variâncias (teste F) a fim de escolher a maneira apropriada de realizar o teste t.

As duas amostras podem ter diferentes dimensões (n e m).

Os testes podem ser das formas:

  • teste bilateral:

H_0: \mu_X = \mu_Y \quad vs \quad H_1: \mu_X \neq \mu_Y
  • teste unilateral à esquerda:

H_0: \mu_X = \mu_Y \quad vs \quad H_1: \mu_X < \mu_Y
  • teste unilateral à direita:

H_0: \mu_X = \mu_Y \quad vs \quad H_1: \mu_X > \mu_Y

Resumo para utilização com calculadoras:

  • 2-SampTtest com Pooled=ON, usando primeiro 2-SampFTest para verificar que se pode assumir variâncias populacionais iguais.

  • 2-SampTtest com Pooled=OFF, usando primeiro 2-SampFTest para verificar que se as variâncias populacionais são significativamente diferentes.

procedimento

Os pressupostos para este teste t de comparação de duas médias são

X \sim Normal(\mu_X, \sigma^2_X) (a amostra X deve ser normal; ver procedimentos para testar o ajustamento à normal)

Y \sim Normal(\mu_Y, \sigma^2_Y) (a amostra Y deve ser normal)

Dispõe-se de duas amostras X e Y e das suas características amostrais:

dados amostrais

X

Y

dimensões

n

m

média amostral

\bar x

\bar y

desvio padrão corrigido

s_{cX}

s_{cY}

Deve, primeiro, testar-se a homogeneidade das duas variâncias:

H0: \sigma^2_X = \sigma^2_Y vs H1: \sigma^2_X \neq \sigma^2_Y

Diz-se que as variâncias \sigma^2_X, \sigma^2_Y são homogéneas se não se rejeitar H0 acima.

O gráfico mostra o procedimento antes de se efetuar o teste t:

variâncias iguais
variâncias diferentes
Teste F de Fisher
2 vars., teste t, com Combinar=Sim
2 vars., teste t, com Combinar=Não

O teste F de Fisher é detalhadamente apresentado aqui mas por conveniência segue-se um resumo do mesmo.

A estatística do teste F é \frac{S_{X}^2}{S_{Y}^2}\underset{sob~H_0}{\sim} F_{(n-1),(m-1)} sendo F_{(n-1),(m-1)} a distribuição F de Fisher com n-1 e m-1 graus de liberdade.

O valor observado da estatística de teste com os dados amostrais é f_{obs}|H0 = \frac{s_{X}^2}{s_{Y}^2}. Para calcular o valor-p com base em f_{obs} é necessário determinar se este valor é um quantil inferior (abaixo de 50%) ou superior. Dependendo de n e m, a mediana da distribuição está em 1 ou numa pequena vizinhança de 1 podendo este valor ser usado para saber se f_{obs} e assim escolher como calcular o valor-p do teste F.

Nas calculadoras usa-se o comando abreviado por: 2-SampFTest.

Caso as variâncias possam ser consideradas:

comparação considerando variâncias homogéneas

As duas populações devem ter distribuição normal com as variâncias desconhecidas mas homogéneas («variâncias populacionais iguais»).

Nesta situação, é possível realizar facilmente os cálculos de forma manual. A estatística a usar é:

T = \frac{(\bar X - \bar Y) - (\mu_X-\mu_Y)}{S} \underset{sob~H_0}{\sim} t_{n+m-2}

onde a variância combinada (pooled=on nas calculadoras) é dada por:

S = \sqrt{\frac{1}{n}+\frac{1}{m}} \sqrt{\frac{(n-1)S_{cX}^2 + (m-1)S_{cY}^2}{(n+m-2)}}

permite combinar (pooled) as variâncias amostrais na estimação da variância comum às duas populações.

Este procedimento está automatizado:

  • com calculadoras: 2-SampTtest com Pooled=ON, usando primeiro 2-SampFTest para verificar que se pode assumir variâncias populacionais iguais;

  • com R project: t.test.

comparação considerando variâncias não homogéneas

As duas populações devem ter distribuição normal com as variâncias desconhecidas não homogéneas («variâncias populacionais diferentes»).

Nesta situação, a estatística a usar é:

T = \frac{(\bar X - \bar Y) - (\mu_X-\mu_Y)}{S} \underset{sob~H_0}{\sim} t_{r}

em que:

  • a variância a usar é dada por (pooled=off nas calculadoras):

S = \sqrt{\frac{S_{cX}^2}{n}+\frac{S_{cY}^2}{m}}
  • os graus de liberdade (r) obedecem a uma lei habitualmente calculada apenas por software ou calculadoras. Assim r é a parte inteira de

\frac{ \left(\frac{S_{cX}^2}{n}+\frac{S_{cY}^2}{m}\right)^2 } { \frac{1}{n-1}\left(\frac{S_{cX}^2}{n}\right)^2+\frac{1}{m-1}\left(\frac{S_{cY}^2}{m}\right)^2 }

Este procedimento está automatizado:

  • nas calculadoras: 2-SampTtest com Pooled=OFF mas primeiro usando texttt{2-SampFTest} para testar que não se podem assumir variâncias pop. iguais;

  • R project: t.test.

avançado

Os seguintes casos podem merecer a atenção para a comparação de médias em duas amostras independentes.

as variâncias de ambas populações são conhecidas

As duas populações devem ter distribuição normal com as variâncias conhecidas. Nesta situação pode ser usada a estatística de teste:

Z = \frac{\bar X-\bar Y}{\sqrt{\frac{\sigma_X^2}{n}+\frac{\sigma_Y^2}{m}}}\underset{sob~H_0}{\sim} N(0,1)
  • Calculadora: 2-SampZtest

as populações são normais

O teste F para comparação de variâncias só é efetivo se houver comprovação da normalidade das duas populações, produzindo resultados desviados se este pressuposto não for verificado (ver (teste F)[https://en.wikipedia.org/wiki/F-test_of_equality_of_variances]).