testes de independência
Num teste de independência é avaliado se dois fatores são independentes ou correlacionados.
- H0: há «independência» entre dois fatores 
- H1: há «associação» (ou «dependência») entre dois fatores 
Nota: o procedimento é idêntico ao teste de homogeneidade.
independência
Quando A e B são independentes então \(P(A \cap B) = P(A) \times P(B)\). Esta propriedade resulta quando os acontecimentos A e B verificam
e \(P(A) \times P(B)>0\).
Em resumo, a ocorrência de um acontecimento não condiciona a probabilidade da ocorrência do outro. Para uma maior clarificação e detalhe consulte Martins, E.G.M., (2017) Acontecimentos independentes, Rev. Ciência Elem., V5(4):049
exemplo
Existe associação significativa entre a cor de uma flor de uma espécie de planta e a existência de um tipo de parasita?
Avaliaram-se 200 exemplares dessa espécie e registou-se a cor (amarela, rosa e vermelha) e a existência (sim ou não) do parasita.
O total por linha usa a notação \(n_{i\bullet}\):
- \(n_{1\bullet}\) = «total da primeira linha» = 128 
- \(n_{2\bullet}\) = «total da segunda linha» = 45 
- \(n_{3\bullet}\) = «total da terceira linha» = 27 
O total por coluna usa a notação \(n_{\bullet j}\):
- \(n_{\bullet1}\) = «total da primeira coluna» = 68 
- \(n_{\bullet2}\) = «total da sgunda coluna» = 132 
O total absoluto de observações é \(n=200\).
estatística de teste e pressupostos
em que
- \(n_{ij}\) representa a frequência observada pelo investigador para a célula (i,j); 
- \(e_{ij}\) representa a frequência esperada assumindo que H0 é verdade (independência entre fatores); 
- r é o número de linhas (número de grupos do fator A); 
- c é o número de colunas (número de grupos do fator B). 
Pressupostos: as seguintes regras ajudam a reduzir o erro da decisão. Se o número total de observações
- é \(n \le 20\) então as frequências esperadas \(e_{ij}\) não devem ser inferiores a 5 unidades; 
- é \(n > 20\) então não devem existir mais de 20% de células com frequências esperadas \(e_{ij}\) inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1. 
procedimento
- 1. Identificar as duas categorias e seus níveis.
- A categoria, ou fator, divide-se em níveis, tratamentos ou grupos. 
No exemplo, a categoria «cor» divide a amostra de flores em: «amarelas, «rosa» e «vermelha». A categoria «parasita», dividide a amostra em «sim» e «não.
- 2. Definir as hipóteses
- A independencia entre os fatores é testada: 
- H0: a «cor» e a «existência de parasita» são fatores independentes. 
- H1: a «cor» e a «existência de parasita» são fatores dependentes. 
- 3. Calcular os valores esperados caso H0 seja verdade.
- Os valores esperados, na estatśitica do qui-quadrado de Pearson, são dados por 
Assim, para o exemplo dado,
- \(e_{11} = \frac{ n_{1 \bullet} \times n_{\bullet 1} }{n} = \frac{128 \times 68}{200}=42.52\) 
- \(e_{12} = \frac{ n_{1 \bullet} \times n_{\bullet 2} }{n} = \frac{128 \times 132}{200}=84.48\) 
- \(e_{21} = \frac{ n_{2 \bullet} \times n_{\bullet 1} }{n} = \frac{45 \times 68}{200}=15.3\) 
- \(e_{22} = \frac{ n_{2 \bullet} \times n_{\bullet 2} }{n} = \frac{45 \times 132}{200}=28.7\) 
- \(e_{31} = \frac{ n_{3 \bullet} \times n_{\bullet 1} }{n} = \frac{27 \times 68}{200}=9.18\) 
- \(e_{32} = \frac{ n_{3 \bullet} \times n_{\bullet 2} }{n} = \frac{27 \times 132}{200}=17.82\) 
- 3. Calcular o valor observado da estatística de teste.
- Usando o teste do qui-quadrado de Pearson: 
A tabela do exemplo tem 6 células sendo \(r=3\) (rows) e \(c=2\) (columns). O somatório terá 6 parcelas:
\[\chi^2_{obs} = \frac{ (n_{11} - e_{11})^2 }{ e_{11} } + \cdots + \frac{ (n_{32} - e_{32})^2 }{ e_{32} }\]
Recorda-se a tabela de observações \(n_{ij}\):
| sim | não | |
| amarela | 50 | 78 | 
| rosa | 10 | 35 | 
| vermelha | 8 | 19 | 
sendo a soma das parcelas dada por
| \(\displaystyle\frac{(50 - 42.52)^2}{42.52}\) | \(\displaystyle\frac{(78 - 84.48)^2}{84.48}\) | 
| \(\displaystyle\frac{(10 - 15.3 )^2}{15.3}\) | \(\displaystyle\frac{(35 - 29.7 )^2}{29.7}\) | 
| \(\displaystyle\frac{( 8 - 9.18)^2}{9.18}\) | \(\displaystyle\frac{(19 - 17.82)^2}{17-82}\) | 
Os graus de liberdade são dados por:
O seguinte esboço gráfico marca o valor-p (depois de 4.82446) para a distribuição qui-quadrado com 2 graus de liberdade:
 
- 4. Calcular o valor observado da estatística de teste.
- Usando o teste do qui-quadrado de Pearson: - valor-p unilateral direito = CDF.chisq(lower=4.82446, upper=+infinito, df=2) = 0.08961523 
- 5. Conclusão.
- Considerando-se os níveis usuais de significância: 
- \(\alpha=1\%\) então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita; 
- \(\alpha=5\%\) então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita; 
- \(\alpha=10\%\) então rejeita-se a hipótese de independência entre os fatores cor e existência de parasita. 
Comentário: o resultado do teste é aproximado devido à estatística de teste ter, apenas de forma aproximada via TLC, a distribuição do qui-quadrado. Como neste exemplo há uma dupla decisão consoante o \(\alpha\) recomenda-se aumentar a amostra a fim de melhorar a segurança da decisão.
- 6. Pressupostos.
- Esta etapa ajuda a reduzir o erro da decisão. 
Recordando, se o número total de observações é
- \(n \le 20\) então as frequências esperadas \(e_{ij}\) não devem ser inferiores a 5 unidades; 
- \(n > 20\) então não devem existir mais de 20% de células com frequências esperadas \(e_{ij}\) inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1. 
No exemplo, \(n=200\) e \(e_{ij} > 5\), e deste modo os pressupostos que minoram uma tomada de decisão errada devido à aproximação da distribuição estão verificados.