ex. 6.11 (*)

Pretende-se avaliar se a reprodução dos melros está associada ao tipo de habitat.

Para esse fim:

  • foram marcados 30 ninhos no habitat agrícola e 35 no habitat florestal;

  • dos 30 foram bem sucedidos 20 e dos 35 foram bem sucedidos 10.

Realize o teste de hipóteses apropriado.


(a) Indique as hipóteses em teste.

sugestões


Estamos perante um teste de homogeneidade.

No teste de homogeneidade fixa-se o tamanho da amostra em cada uma das subpopulações (i.e., as quantidades marginais da tabela de contingência).

Depois seleciona-se uma amostra dentro de cada subpopulação com a dimensão escolhida em cada subpopulação.

Assim:

  • 30 ninhos no habitat agrícola (subpopulação «habitat agrícola»)

  • 35 ninhos no habitat florestal (subpopulação «habitat florestal»)

No início da experiência tem-se:

sim, reproduziu

não reproduziu

habitat agrícola

30

habitat florestal

35

Posteriormente, foram contabilizados os casos que vão preencher a tabela de contingência. Esta por sua vez vai alimentar a resolução da próxima alínea.

proposta de resolução

As hipóteses são:

  • H0: a distribuição da reprodução é homogénea nos dois habitats (a reprodução não depende do habitat)

  • H1: a distribuição da reprodução não é homogénea (a reprodução dependende do habitat)


(b) Efetue o teste adequado, ao nível de significância de 5%.

sugestões


Trata-se de um teste de homogeneidade a efetuar com o teste do qui quadrado (ver teste de homogeneidade).

determinação da tabela de contingência


O enunciado diz que:

  • Foram marcados 30 ninhos no habitat agrícola e 35 no habitat florestal.

  • Dos 30 foram bem sucedidos 20 e dos 35 foram bem sucedidos 10.

sim, reproduziu

não reproduziu

total

habitat agrícola

20

30

habitat florestal

10

35

total marginal:

e agora termina-se a tabela:

sim, reproduziu

não reproduziu

total

habitat agrícola

20

10

30

habitat florestal

10

25

35

total marginal:

30

35

65

determinação dos valores esperados


Os valores esperados são obtidos sob a hipótese H0 em que há homogeneidade face ao fator e obtém-se com base nos produtos:

\[e_{ij} = \frac{ n_{i \bullet} \times n_{\bullet j} }{n}\]

e que \(n=65\):

  • \(e_{11} = \frac{ n_{1 \bullet} \times n_{\bullet 1} }{n} = \frac{30 \times 30}{65}=13.846\)

  • \(e_{12} = \frac{ n_{1 \bullet} \times n_{\bullet 2} }{n} = \frac{35 \times 30}{65}=16.1539\)

  • \(e_{21} = \frac{ n_{2 \bullet} \times n_{\bullet 1} }{n} = \frac{30 \times 35}{65}=16.1539\)

  • \(e_{22} = \frac{ n_{2 \bullet} \times n_{\bullet 2} }{n} = \frac{35 \times 35}{65}=18.84615\)

determinação da estatística de teste


A estatística do teste do qui-quadrado para a homogeneidade é:

\[\chi^2_{obs} = \sum_{\text{pares }(i,j)} \frac{ (n_{ij} - e_{ij})^2 }{ e_{ij} }\]

Tem-se 4 células na tabela com (\(r=2\) (rows) e \(c=2\) (columns)). A estatística de teste é a soma de quatro parcelas:

\[\chi^2_{obs}= \text{parcela}_{11} + \text{parcela}_{12} + \text{parcela}_{21} + \text{parcela}_{22}\]

sendo:

  • \(p11 = (20 - 13.846)^2/13.846 = 2.73521\)

  • \(p12 = (10 - 16.1539)^2/16.1539 = 2.344356\)

  • \(p21 = (10 - 16.1539)^2/16.1539=2.344356\)

  • \(p22 = (25 - 18.84615)^2/18.84615=2.009422\)

e por fim:

\[\begin{split}\begin{eqnarray*} \chi^2_{obs} & = & 2.73521 + 2.344356 + \\ & & + 2.344356 + 2.009422 = & = & 9.433344 \end{eqnarray*}\end{split}\]

determinação do p-value


\[\text{p-value} = CDF.chisq( lower=9.433, upper=+infinito, df=1) =0.002131154\]

em que

  • graus de liberdade = \((r-1) \times (c-1) = (2-1)\times (2-1) = 1\) grau de liberdade (df=1)

  • r = «row» = nr. linhas

  • c = «column» = nr. de colunas

_images/ex-6-slide10-pvalue.png

conclusão e pressupostos


Como o p-value é inferior aos níveis usuais de significância então rejeita-se a hipótese de homogeneidade. Ou seja, a distribuição da reprodução depende do habitat do ninho: as probabilidade \(P(reproducao | agricola)\) e \(P(reproducao | florestal)\) diferem significativamente.


Recordando, se o número total de observações é

  • \(n \le 20\) então as frequências esperadas \(e_{ij}\) não devem ser inferiores a 5 unidades;

  • \(n > 20\) então não devem existir mais de 20% de células com frequências esperadas \(e_{ij}\) inferiores a 5 unidades e nenhuma célula deve ter frequência esperada inferior a 1.

No exemplo, \(n=65\) ninhos e \(e_{ij} > 5\), em todas as células, e deste modo os pressupostos que minoram uma tomada de decisão errada devido à aproximação da distribuição estão verificados.