duas amostras independentes (t test)

Apresenta-se o teste t de comparação de duas médias de populações normais independentes mas para melhor usar este teste é necessário efetuar o homogeneidade de duas variâncias (teste F) a fim de escolher a maneira apropriada de realizar o teste t.

As duas amostras podem ter diferentes dimensões (n e m).

Os testes podem ser das formas:

teste bilateral:

\[H_0: \mu_X = \mu_Y \quad vs \quad H_1: \mu_X \neq \mu_Y\]

teste unilateral à esquerda:

\[H_0: \mu_X = \mu_Y \quad vs \quad H_1: \mu_X < \mu_Y\]

teste unilateral à direita:

\[H_0: \mu_X = \mu_Y \quad vs \quad H_1: \mu_X > \mu_Y\]

Resumo para utilização com calculadoras:

2-SampTtest com Pooled=ON, usando primeiro 2-SampFTest para verificar que se pode assumir variâncias populacionais iguais.
2-SampTtest com Pooled=OFF, usando primeiro 2-SampFTest para verificar que se as variâncias populacionais são significativamente diferentes.

procedimento 

Os pressupostos para este teste t de comparação de duas médias são

\(X \sim Normal(\mu_X, \sigma^2_X)\) (a amostra X deve ser normal; ver procedimentos para testar o ajustamento à normal)

\(Y \sim Normal(\mu_Y, \sigma^2_Y)\) (a amostra Y deve ser normal)

Dispõe-se de duas amostras X e Y e das suas características amostrais:

dados amostrais	X	Y
dimensões	n	m
média amostral	\(\bar x\)	\(\bar y\)
desvio padrão corrigido	\(s_{cX}\)	\(s_{cY}\)

Deve, primeiro, testar-se a homogeneidade das duas variâncias:

H0: \(\sigma^2_X = \sigma^2_Y\) vs H1: \(\sigma^2_X \neq \sigma^2_Y\)

Diz-se que as variâncias \(\sigma^2_X, \sigma^2_Y\) são homogéneas se não se rejeitar H0 acima.

O gráfico mostra o procedimento antes de se efetuar o teste t:

graph TD TESTEF[Teste F de Fisher] -->|variâncias iguais| INDIGUAIS[2 vars., teste t, com Combinar=Sim]; TESTEF -->|variâncias diferentes| INDDIF[2 vars., teste t, com Combinar=Não];

O teste F de Fisher é detalhadamente apresentado aqui mas por conveniência segue-se um resumo do mesmo.

A estatística do teste F é \(\frac{S_{X}^2}{S_{Y}^2}\underset{sob~H_0}{\sim} F_{(n-1),(m-1)}\) sendo \(F_{(n-1),(m-1)}\) a distribuição F de Fisher com n-1 e m-1 graus de liberdade.

O valor observado da estatística de teste com os dados amostrais é \(f_{obs}|H0 = \frac{s_{X}^2}{s_{Y}^2}\). Para calcular o valor-p com base em \(f_{obs}\) é necessário determinar se este valor é um quantil inferior (abaixo de 50%) ou superior. Dependendo de n e m, a mediana da distribuição está em 1 ou numa pequena vizinhança de 1 podendo este valor ser usado para saber se \(f_{obs}\) e assim escolher como calcular o valor-p do teste F.

Nas calculadoras usa-se o comando abreviado por: 2-SampFTest.

Caso as variâncias possam ser consideradas:

homogéneas, a teoria matemática sugere a comparação considerando variâncias homogéneas;
não homogéneas, a teoria matemática sugere a comparação considerando variâncias não homogéneas.

comparação considerando variâncias homogéneas 

As duas populações devem ter distribuição normal com as variâncias desconhecidas mas homogéneas («variâncias populacionais iguais»).

Nesta situação, é possível realizar facilmente os cálculos de forma manual. A estatística a usar é:

\[T = \frac{(\bar X - \bar Y) - (\mu_X-\mu_Y)}{S} \underset{sob~H_0}{\sim} t_{n+m-2}\]

onde a variância combinada (pooled=on nas calculadoras) é dada por:

\[S = \sqrt{\frac{1}{n}+\frac{1}{m}} \sqrt{\frac{(n-1)S_{cX}^2 + (m-1)S_{cY}^2}{(n+m-2)}}\]

permite combinar (pooled) as variâncias amostrais na estimação da variância comum às duas populações.

Este procedimento está automatizado:

com calculadoras: 2-SampTtest com Pooled=ON, usando primeiro 2-SampFTest para verificar que se pode assumir variâncias populacionais iguais;
com R project: t.test.

comparação considerando variâncias não homogéneas 

As duas populações devem ter distribuição normal com as variâncias desconhecidas não homogéneas («variâncias populacionais diferentes»).

Nesta situação, a estatística a usar é:

\[T = \frac{(\bar X - \bar Y) - (\mu_X-\mu_Y)}{S} \underset{sob~H_0}{\sim} t_{r}\]

em que:

a variância a usar é dada por (pooled=off nas calculadoras):

\[S = \sqrt{\frac{S_{cX}^2}{n}+\frac{S_{cY}^2}{m}}\]

os graus de liberdade (r) obedecem a uma lei habitualmente calculada apenas por software ou calculadoras. Assim r é a parte inteira de

\[\frac{ \left(\frac{S_{cX}^2}{n}+\frac{S_{cY}^2}{m}\right)^2 } { \frac{1}{n-1}\left(\frac{S_{cX}^2}{n}\right)^2+\frac{1}{m-1}\left(\frac{S_{cY}^2}{m}\right)^2 }\]

Este procedimento está automatizado:

nas calculadoras: 2-SampTtest com Pooled=OFF mas primeiro usando texttt{2-SampFTest} para testar que não se podem assumir variâncias pop. iguais;
R project: t.test.

avançado 

Os seguintes casos podem merecer a atenção para a comparação de médias em duas amostras independentes.

as variâncias de ambas populações são conhecidas

As duas populações devem ter distribuição normal com as variâncias conhecidas. Nesta situação pode ser usada a estatística de teste:

\[Z = \frac{\bar X-\bar Y}{\sqrt{\frac{\sigma_X^2}{n}+\frac{\sigma_Y^2}{m}}}\underset{sob~H_0}{\sim} N(0,1)\]

Calculadora: 2-SampZtest

as populações são normais

O teste F para comparação de variâncias só é efetivo se houver comprovação da normalidade das duas populações, produzindo resultados desviados se este pressuposto não for verificado (ver (teste F)[https://en.wikipedia.org/wiki/F-test_of_equality_of_variances]).

duas amostras independentes (t test)

procedimento

comparação considerando variâncias homogéneas

comparação considerando variâncias não homogéneas

avançado