Pretende-se avaliar se a reprodução dos melros está associada ao tipo de
habitat.
Realize o teste de hipóteses apropriado.
Estamos perante um teste de homogeneidade.
No teste de homogeneidade fixa-se o tamanho da amostra em cada uma das subpopulações (i.e., as quantidades marginais da tabela de contingência).
Depois seleciona-se uma amostra dentro de cada subpopulação com a dimensão escolhida em cada subpopulação.
Assim:
No início da experiência tem-se:
|
sim, reproduziu |
não reproduziu |
|
habitat agrícola |
|
|
30 |
habitat florestal |
|
|
35 |
Posteriormente, foram contabilizados os casos que vão preencher a tabela de contingência. Esta por sua vez
vai alimentar a resolução da próxima alínea.
Trata-se de um teste de homogeneidade a efetuar com o teste do qui quadrado (ver teste de homogeneidade).
O enunciado diz que:
|
sim, reproduziu |
não reproduziu |
total |
habitat agrícola |
20 |
|
30 |
habitat florestal |
10 |
|
35 |
total marginal: |
|
|
|
e agora termina-se a tabela:
|
sim, reproduziu |
não reproduziu |
total |
habitat agrícola |
20 |
10 |
30 |
habitat florestal |
10 |
25 |
35 |
total marginal: |
30 |
35 |
65 |
Os valores esperados são obtidos sob a hipótese H0 em que há homogeneidade face ao fator
e obtém-se com base nos produtos:
e_{ij} = \frac{ n_{i \bullet} \times n_{\bullet j} }{n}
e que n=65:
e_{11} = \frac{ n_{1 \bullet} \times n_{\bullet 1} }{n} = \frac{30 \times 30}{65}=13.846
e_{12} = \frac{ n_{1 \bullet} \times n_{\bullet 2} }{n} = \frac{35 \times 30}{65}=16.1539
e_{21} = \frac{ n_{2 \bullet} \times n_{\bullet 1} }{n} = \frac{30 \times 35}{65}=16.1539
e_{22} = \frac{ n_{2 \bullet} \times n_{\bullet 2} }{n} = \frac{35 \times 35}{65}=18.84615
A estatística do teste do qui-quadrado para a homogeneidade é:
\chi^2_{obs} = \sum_{\text{pares }(i,j)} \frac{ (n_{ij} - e_{ij})^2 }{ e_{ij} }
Tem-se 4 células na tabela com (r=2 (rows) e c=2 (columns)). A estatística de teste
é a soma de quatro parcelas:
\chi^2_{obs}= \text{parcela}_{11} + \text{parcela}_{12} + \text{parcela}_{21} + \text{parcela}_{22}
sendo:
p11 = (20 - 13.846)^2/13.846 = 2.73521
p12 = (10 - 16.1539)^2/16.1539 = 2.344356
p21 = (10 - 16.1539)^2/16.1539=2.344356
p22 = (25 - 18.84615)^2/18.84615=2.009422
e por fim:
\begin{split}\begin{eqnarray*}
\chi^2_{obs} & = & 2.73521 + 2.344356 + \\
& & + 2.344356 + 2.009422 =
& = & 9.433344
\end{eqnarray*}\end{split}
Como o p-value é inferior aos níveis usuais de significância então rejeita-se a hipótese de homogeneidade. Ou seja,
a distribuição da reprodução depende do habitat do ninho: as probabilidade P(reproducao | agricola) e
P(reproducao | florestal) diferem significativamente.
Recordando, se o número total de observações é
n \le 20 então as frequências esperadas e_{ij} não devem ser inferiores a 5 unidades;
n > 20 então não devem existir mais de 20% de células com frequências esperadas e_{ij} inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.
No exemplo, n=65 ninhos e e_{ij} > 5, em todas as células, e deste modo os pressupostos que minoram uma tomada de decisão errada
devido à aproximação da distribuição estão verificados.