testes de independência
Num teste de independência é avaliado se dois fatores são independentes ou correlacionados.
H0: há «independência» entre dois fatores
H1: há «associação» (ou «dependência») entre dois fatores
Nota: o procedimento é idêntico ao teste de homogeneidade.
independência
Quando A e B são independentes então P(A \cap B) = P(A) \times P(B). Esta propriedade resulta quando os acontecimentos A e B verificam
e P(A) \times P(B)>0.
Em resumo, a ocorrência de um acontecimento não condiciona a probabilidade da ocorrência do outro. Para uma maior clarificação e detalhe consulte Martins, E.G.M., (2017) Acontecimentos independentes, Rev. Ciência Elem., V5(4):049
exemplo
Existe associação significativa entre a cor de uma flor de uma espécie de planta e a existência de um tipo de parasita?
Avaliaram-se 200 exemplares dessa espécie e registou-se a cor (amarela, rosa e vermelha) e a existência (sim ou não) do parasita.
O total por linha usa a notação n_{i\bullet}:
n_{1\bullet} = «total da primeira linha» = 128
n_{2\bullet} = «total da segunda linha» = 45
n_{3\bullet} = «total da terceira linha» = 27
O total por coluna usa a notação n_{\bullet j}:
n_{\bullet1} = «total da primeira coluna» = 68
n_{\bullet2} = «total da sgunda coluna» = 132
O total absoluto de observações é n=200.
estatística de teste e pressupostos
em que
n_{ij} representa a frequência observada pelo investigador para a célula (i,j);
e_{ij} representa a frequência esperada assumindo que H0 é verdade (independência entre fatores);
r é o número de linhas (número de grupos do fator A);
c é o número de colunas (número de grupos do fator B).
Pressupostos: as seguintes regras ajudam a reduzir o erro da decisão. Se o número total de observações
é n \le 20 então as frequências esperadas e_{ij} não devem ser inferiores a 5 unidades;
é n > 20 então não devem existir mais de 20% de células com frequências esperadas e_{ij} inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.
procedimento
- 1. Identificar as duas categorias e seus níveis.
A categoria, ou fator, divide-se em níveis, tratamentos ou grupos.
No exemplo, a categoria «cor» divide a amostra de flores em: «amarelas, «rosa» e «vermelha». A categoria «parasita», dividide a amostra em «sim» e «não.
- 2. Definir as hipóteses
A independencia entre os fatores é testada:
H0: a «cor» e a «existência de parasita» são fatores independentes.
H1: a «cor» e a «existência de parasita» são fatores dependentes.
- 3. Calcular os valores esperados caso H0 seja verdade.
Os valores esperados, na estatśitica do qui-quadrado de Pearson, são dados por
Assim, para o exemplo dado,
e_{11} = \frac{ n_{1 \bullet} \times n_{\bullet 1} }{n} = \frac{128 \times 68}{200}=42.52
e_{12} = \frac{ n_{1 \bullet} \times n_{\bullet 2} }{n} = \frac{128 \times 132}{200}=84.48
e_{21} = \frac{ n_{2 \bullet} \times n_{\bullet 1} }{n} = \frac{45 \times 68}{200}=15.3
e_{22} = \frac{ n_{2 \bullet} \times n_{\bullet 2} }{n} = \frac{45 \times 132}{200}=28.7
e_{31} = \frac{ n_{3 \bullet} \times n_{\bullet 1} }{n} = \frac{27 \times 68}{200}=9.18
e_{32} = \frac{ n_{3 \bullet} \times n_{\bullet 2} }{n} = \frac{27 \times 132}{200}=17.82
- 3. Calcular o valor observado da estatística de teste.
Usando o teste do qui-quadrado de Pearson:
A tabela do exemplo tem 6 células sendo r=3 (rows) e c=2 (columns). O somatório terá 6 parcelas:
\chi^2_{obs} = \frac{ (n_{11} - e_{11})^2 }{ e_{11} } + \cdots + \frac{ (n_{32} - e_{32})^2 }{ e_{32} }
Recorda-se a tabela de observações n_{ij}:
sim |
não |
|
amarela |
50 |
78 |
rosa |
10 |
35 |
vermelha |
8 |
19 |
sendo a soma das parcelas dada por
\displaystyle\frac{(50 - 42.52)^2}{42.52} |
\displaystyle\frac{(78 - 84.48)^2}{84.48} |
\displaystyle\frac{(10 - 15.3 )^2}{15.3} |
\displaystyle\frac{(35 - 29.7 )^2}{29.7} |
\displaystyle\frac{( 8 - 9.18)^2}{9.18} |
\displaystyle\frac{(19 - 17.82)^2}{17-82} |
Os graus de liberdade são dados por:
O seguinte esboço gráfico marca o valor-p (depois de 4.82446) para a distribuição qui-quadrado com 2 graus de liberdade:

- 4. Calcular o valor observado da estatística de teste.
Usando o teste do qui-quadrado de Pearson:
valor-p unilateral direito = CDF.chisq(lower=4.82446, upper=+infinito, df=2) = 0.08961523
- 5. Conclusão.
Considerando-se os níveis usuais de significância:
\alpha=1\% então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita;
\alpha=5\% então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita;
\alpha=10\% então rejeita-se a hipótese de independência entre os fatores cor e existência de parasita.
Comentário: o resultado do teste é aproximado devido à estatística de teste ter, apenas de forma aproximada via TLC, a distribuição do qui-quadrado. Como neste exemplo há uma dupla decisão consoante o \alpha recomenda-se aumentar a amostra a fim de melhorar a segurança da decisão.
- 6. Pressupostos.
Esta etapa ajuda a reduzir o erro da decisão.
Recordando, se o número total de observações é
n \le 20 então as frequências esperadas e_{ij} não devem ser inferiores a 5 unidades;
n > 20 então não devem existir mais de 20% de células com frequências esperadas e_{ij} inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.
No exemplo, n=200 e e_{ij} > 5, e deste modo os pressupostos que minoram uma tomada de decisão errada devido à aproximação da distribuição estão verificados.