testes de independência

Num teste de independência é avaliado se dois fatores são independentes ou correlacionados.

  • H0: há «independência» entre dois fatores

  • H1: há «associação» (ou «dependência») entre dois fatores

Nota: o procedimento é idêntico ao teste de homogeneidade.

independência

Quando A e B são independentes então P(A \cap B) = P(A) \times P(B). Esta propriedade resulta quando os acontecimentos A e B verificam

P(A | B) = P(A) \text{ e } P(B | A) = P(B)

e P(A) \times P(B)>0.

Em resumo, a ocorrência de um acontecimento não condiciona a probabilidade da ocorrência do outro. Para uma maior clarificação e detalhe consulte Martins, E.G.M., (2017) Acontecimentos independentes, Rev. Ciência Elem., V5(4):049

exemplo

Existe associação significativa entre a cor de uma flor de uma espécie de planta e a existência de um tipo de parasita?

Avaliaram-se 200 exemplares dessa espécie e registou-se a cor (amarela, rosa e vermelha) e a existência (sim ou não) do parasita.

\begin{split}\begin{array}{|c||c|c||c|} \hline & sim & não & total \\ \hline\hline amarela & 50 & 78 & n_{1\bullet}=128\\ rosa & 10 & 35 & n_{2\bullet}=45\\ vermelha & 8 & 19 & n_{3\bullet}=27\\ \hline\hline total & n_{\bullet1}= 68 & n_{\bullet2}=132 & \color{red}{200}\\ \hline \end{array}\end{split}

O total por linha usa a notação n_{i\bullet}:

  • n_{1\bullet} = «total da primeira linha» = 128

  • n_{2\bullet} = «total da segunda linha» = 45

  • n_{3\bullet} = «total da terceira linha» = 27

O total por coluna usa a notação n_{\bullet j}:

  • n_{\bullet1} = «total da primeira coluna» = 68

  • n_{\bullet2} = «total da sgunda coluna» = 132

O total absoluto de observações é n=200.

estatística de teste e pressupostos

\sum_{\text{pares }(i,j)} \frac{ (n_{ij} - e_{ij})^2 }{ e_{ij} } \sim_{\text{aprox}} \chi^2_{(r-1)(c-1)}

em que

  • n_{ij} representa a frequência observada pelo investigador para a célula (i,j);

  • e_{ij} representa a frequência esperada assumindo que H0 é verdade (independência entre fatores);

  • r é o número de linhas (número de grupos do fator A);

  • c é o número de colunas (número de grupos do fator B).


Pressupostos: as seguintes regras ajudam a reduzir o erro da decisão. Se o número total de observações

  • é n \le 20 então as frequências esperadas e_{ij} não devem ser inferiores a 5 unidades;

  • é n > 20 então não devem existir mais de 20% de células com frequências esperadas e_{ij} inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.

procedimento

1. Identificar as duas categorias e seus níveis.

A categoria, ou fator, divide-se em níveis, tratamentos ou grupos.

No exemplo, a categoria «cor» divide a amostra de flores em: «amarelas, «rosa» e «vermelha». A categoria «parasita», dividide a amostra em «sim» e «não.

2. Definir as hipóteses

A independencia entre os fatores é testada:

  • H0: a «cor» e a «existência de parasita» são fatores independentes.

  • H1: a «cor» e a «existência de parasita» são fatores dependentes.

3. Calcular os valores esperados caso H0 seja verdade.

Os valores esperados, na estatśitica do qui-quadrado de Pearson, são dados por

e_{ij} = \frac{ n_{i \bullet} \times n_{\bullet j} }{n}

Assim, para o exemplo dado,

  • e_{11} = \frac{ n_{1 \bullet} \times n_{\bullet 1} }{n} = \frac{128 \times 68}{200}=42.52

  • e_{12} = \frac{ n_{1 \bullet} \times n_{\bullet 2} }{n} = \frac{128 \times 132}{200}=84.48

  • e_{21} = \frac{ n_{2 \bullet} \times n_{\bullet 1} }{n} = \frac{45 \times 68}{200}=15.3

  • e_{22} = \frac{ n_{2 \bullet} \times n_{\bullet 2} }{n} = \frac{45 \times 132}{200}=28.7

  • e_{31} = \frac{ n_{3 \bullet} \times n_{\bullet 1} }{n} = \frac{27 \times 68}{200}=9.18

  • e_{32} = \frac{ n_{3 \bullet} \times n_{\bullet 2} }{n} = \frac{27 \times 132}{200}=17.82

3. Calcular o valor observado da estatística de teste.

Usando o teste do qui-quadrado de Pearson:

\chi^2_{obs} = \sum_{\text{pares }(i,j)} \frac{ (n_{ij} - e_{ij})^2 }{ e_{ij} }

A tabela do exemplo tem 6 células sendo r=3 (rows) e c=2 (columns). O somatório terá 6 parcelas:

\chi^2_{obs} = \frac{ (n_{11} - e_{11})^2 }{ e_{11} } + \cdots + \frac{ (n_{32} - e_{32})^2 }{ e_{32} }

Recorda-se a tabela de observações n_{ij}:

sim

não

amarela

50

78

rosa

10

35

vermelha

8

19

sendo a soma das parcelas dada por

\displaystyle\frac{(50 - 42.52)^2}{42.52}

\displaystyle\frac{(78 - 84.48)^2}{84.48}

\displaystyle\frac{(10 - 15.3 )^2}{15.3}

\displaystyle\frac{(35 - 29.7 )^2}{29.7}

\displaystyle\frac{( 8 - 9.18)^2}{9.18}

\displaystyle\frac{(19 - 17.82)^2}{17-82}

\begin{split}\begin{eqnarray*} \chi^2_{obs} & = & 1.315861 + 0.4970455 + \\ & & + 1.835948 + 0.9457912 + \\ & & + 0.1516776 + 0.07813692 = \\ & = & 4.82446 \end{eqnarray*}\end{split}

Os graus de liberdade são dados por:

(r-1) \times (c-1) = (3-1) \times (2-1) = 2

O seguinte esboço gráfico marca o valor-p (depois de 4.82446) para a distribuição qui-quadrado com 2 graus de liberdade:

_images/ttc-ti-pvalue.png
4. Calcular o valor observado da estatística de teste.

Usando o teste do qui-quadrado de Pearson:

valor-p unilateral direito = CDF.chisq(lower=4.82446, upper=+infinito, df=2) = 0.08961523

5. Conclusão.

Considerando-se os níveis usuais de significância:

  • \alpha=1\% então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita;

  • \alpha=5\% então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita;

  • \alpha=10\% então rejeita-se a hipótese de independência entre os fatores cor e existência de parasita.

Comentário: o resultado do teste é aproximado devido à estatística de teste ter, apenas de forma aproximada via TLC, a distribuição do qui-quadrado. Como neste exemplo há uma dupla decisão consoante o \alpha recomenda-se aumentar a amostra a fim de melhorar a segurança da decisão.

6. Pressupostos.

Esta etapa ajuda a reduzir o erro da decisão.

Recordando, se o número total de observações é

  • n \le 20 então as frequências esperadas e_{ij} não devem ser inferiores a 5 unidades;

  • n > 20 então não devem existir mais de 20% de células com frequências esperadas e_{ij} inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.

No exemplo, n=200 e e_{ij} > 5, e deste modo os pressupostos que minoram uma tomada de decisão errada devido à aproximação da distribuição estão verificados.

referências

referêcias