testes de independência

Num teste de independência é avaliado se dois fatores são independentes ou correlacionados.

  • H0: há «independência» entre dois fatores

  • H1: há «associação» (ou «dependência») entre dois fatores

Nota: o procedimento é idêntico ao teste de homogeneidade.

independência

Quando A e B são independentes então \(P(A \cap B) = P(A) \times P(B)\). Esta propriedade resulta quando os acontecimentos A e B verificam

\[P(A | B) = P(A) \text{ e } P(B | A) = P(B)\]

e \(P(A) \times P(B)>0\).

Em resumo, a ocorrência de um acontecimento não condiciona a probabilidade da ocorrência do outro. Para uma maior clarificação e detalhe consulte Martins, E.G.M., (2017) Acontecimentos independentes, Rev. Ciência Elem., V5(4):049

exemplo

Existe associação significativa entre a cor de uma flor de uma espécie de planta e a existência de um tipo de parasita?

Avaliaram-se 200 exemplares dessa espécie e registou-se a cor (amarela, rosa e vermelha) e a existência (sim ou não) do parasita.

\[\begin{split}\begin{array}{|c||c|c||c|} \hline & sim & não & total \\ \hline\hline amarela & 50 & 78 & n_{1\bullet}=128\\ rosa & 10 & 35 & n_{2\bullet}=45\\ vermelha & 8 & 19 & n_{3\bullet}=27\\ \hline\hline total & n_{\bullet1}= 68 & n_{\bullet2}=132 & \color{red}{200}\\ \hline \end{array}\end{split}\]

O total por linha usa a notação \(n_{i\bullet}\):

  • \(n_{1\bullet}\) = «total da primeira linha» = 128

  • \(n_{2\bullet}\) = «total da segunda linha» = 45

  • \(n_{3\bullet}\) = «total da terceira linha» = 27

O total por coluna usa a notação \(n_{\bullet j}\):

  • \(n_{\bullet1}\) = «total da primeira coluna» = 68

  • \(n_{\bullet2}\) = «total da sgunda coluna» = 132

O total absoluto de observações é \(n=200\).

estatística de teste e pressupostos

\[\sum_{\text{pares }(i,j)} \frac{ (n_{ij} - e_{ij})^2 }{ e_{ij} } \sim_{\text{aprox}} \chi^2_{(r-1)(c-1)}\]

em que

  • \(n_{ij}\) representa a frequência observada pelo investigador para a célula (i,j);

  • \(e_{ij}\) representa a frequência esperada assumindo que H0 é verdade (independência entre fatores);

  • r é o número de linhas (número de grupos do fator A);

  • c é o número de colunas (número de grupos do fator B).


Pressupostos: as seguintes regras ajudam a reduzir o erro da decisão. Se o número total de observações

  • é \(n \le 20\) então as frequências esperadas \(e_{ij}\) não devem ser inferiores a 5 unidades;

  • é \(n > 20\) então não devem existir mais de 20% de células com frequências esperadas \(e_{ij}\) inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.

procedimento

1. Identificar as duas categorias e seus níveis.

A categoria, ou fator, divide-se em níveis, tratamentos ou grupos.

No exemplo, a categoria «cor» divide a amostra de flores em: «amarelas, «rosa» e «vermelha». A categoria «parasita», dividide a amostra em «sim» e «não.

2. Definir as hipóteses

A independencia entre os fatores é testada:

  • H0: a «cor» e a «existência de parasita» são fatores independentes.

  • H1: a «cor» e a «existência de parasita» são fatores dependentes.

3. Calcular os valores esperados caso H0 seja verdade.

Os valores esperados, na estatśitica do qui-quadrado de Pearson, são dados por

\[e_{ij} = \frac{ n_{i \bullet} \times n_{\bullet j} }{n}\]

Assim, para o exemplo dado,

  • \(e_{11} = \frac{ n_{1 \bullet} \times n_{\bullet 1} }{n} = \frac{128 \times 68}{200}=42.52\)

  • \(e_{12} = \frac{ n_{1 \bullet} \times n_{\bullet 2} }{n} = \frac{128 \times 132}{200}=84.48\)

  • \(e_{21} = \frac{ n_{2 \bullet} \times n_{\bullet 1} }{n} = \frac{45 \times 68}{200}=15.3\)

  • \(e_{22} = \frac{ n_{2 \bullet} \times n_{\bullet 2} }{n} = \frac{45 \times 132}{200}=28.7\)

  • \(e_{31} = \frac{ n_{3 \bullet} \times n_{\bullet 1} }{n} = \frac{27 \times 68}{200}=9.18\)

  • \(e_{32} = \frac{ n_{3 \bullet} \times n_{\bullet 2} }{n} = \frac{27 \times 132}{200}=17.82\)

3. Calcular o valor observado da estatística de teste.

Usando o teste do qui-quadrado de Pearson:

\[\chi^2_{obs} = \sum_{\text{pares }(i,j)} \frac{ (n_{ij} - e_{ij})^2 }{ e_{ij} }\]

A tabela do exemplo tem 6 células sendo \(r=3\) (rows) e \(c=2\) (columns). O somatório terá 6 parcelas:

\[\chi^2_{obs} = \frac{ (n_{11} - e_{11})^2 }{ e_{11} } + \cdots + \frac{ (n_{32} - e_{32})^2 }{ e_{32} }\]

Recorda-se a tabela de observações \(n_{ij}\):

sim

não

amarela

50

78

rosa

10

35

vermelha

8

19

sendo a soma das parcelas dada por

\(\displaystyle\frac{(50 - 42.52)^2}{42.52}\)

\(\displaystyle\frac{(78 - 84.48)^2}{84.48}\)

\(\displaystyle\frac{(10 - 15.3 )^2}{15.3}\)

\(\displaystyle\frac{(35 - 29.7 )^2}{29.7}\)

\(\displaystyle\frac{( 8 - 9.18)^2}{9.18}\)

\(\displaystyle\frac{(19 - 17.82)^2}{17-82}\)

\[\begin{split}\begin{eqnarray*} \chi^2_{obs} & = & 1.315861 + 0.4970455 + \\ & & + 1.835948 + 0.9457912 + \\ & & + 0.1516776 + 0.07813692 = \\ & = & 4.82446 \end{eqnarray*}\end{split}\]

Os graus de liberdade são dados por:

\[(r-1) \times (c-1) = (3-1) \times (2-1) = 2\]

O seguinte esboço gráfico marca o valor-p (depois de 4.82446) para a distribuição qui-quadrado com 2 graus de liberdade:

_images/ttc-ti-pvalue.png
4. Calcular o valor observado da estatística de teste.

Usando o teste do qui-quadrado de Pearson:

valor-p unilateral direito = CDF.chisq(lower=4.82446, upper=+infinito, df=2) = 0.08961523

5. Conclusão.

Considerando-se os níveis usuais de significância:

  • \(\alpha=1\%\) então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita;

  • \(\alpha=5\%\) então não se rejeita a hipótese de independência entre os fatores cor e existência de parasita;

  • \(\alpha=10\%\) então rejeita-se a hipótese de independência entre os fatores cor e existência de parasita.

Comentário: o resultado do teste é aproximado devido à estatística de teste ter, apenas de forma aproximada via TLC, a distribuição do qui-quadrado. Como neste exemplo há uma dupla decisão consoante o \(\alpha\) recomenda-se aumentar a amostra a fim de melhorar a segurança da decisão.

6. Pressupostos.

Esta etapa ajuda a reduzir o erro da decisão.

Recordando, se o número total de observações é

  • \(n \le 20\) então as frequências esperadas \(e_{ij}\) não devem ser inferiores a 5 unidades;

  • \(n > 20\) então não devem existir mais de 20% de células com frequências esperadas \(e_{ij}\) inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.

No exemplo, \(n=200\) e \(e_{ij} > 5\), e deste modo os pressupostos que minoram uma tomada de decisão errada devido à aproximação da distribuição estão verificados.

referências

referêcias