ex. 4.14 (*)

Um biólogo pretende verificar o efeito de um pesticida sobre as larvas de um mosquito. Para o efeito, foram tratadas com pesticida algumas áreas agrícolas e, posteriormente, contabilizado o número de larvas existentes em charcos de áreas tratadas e não tratadas (e dividido, cada número, por 100).

Assuma a normalidade dos dados.

Encontre um intervalo de confiança para a diferença de médias do número de larvas das populações tratadas e não tratadas, com um grau de confiança de 95%, com base nos seguintes resultados registados para o conjunto dos 120 charcos analisados:

☞ sugestões

☞ solução

Rejeita-se a igualdade de variâncias (valor \(p<0.05\))
\((-5.085,-0.240)\)

☞ proposta de resolução

Tratam-se de amostras independentes porque as áreas são independentes: umas para tratamento com pesticida e outras sem tratamento. (Nota: não poderiam ser emparelhadas porque as áreas tratadas foram 40 e a não tratadas foram 80.)

A ordem das variáveis deve seguir a ordem na tabela no enunciado:

X = número de larvas numa área agrícola tratada Y = número de larvas numa área agrícola não tratada

Da frase «Assuma a normalidade dos dados» tiramos que

\(X \sim Normal(\mu_X, \sigma_X^2)\)
\(Y \sim Normal(\mu_Y, \sigma^2_Y)\)

em que os 4 parâmetros são desconhecidos.

O enunciado pede um intervalo de confiança para as médias mas o que deve ser feito em primeiro é o teste F de homogeneidade («igualdade») das duas variâncias, como se descreve.

Como as variâncias populacionais não são conhecidas é necessário, primeiro, testar a homogeneidade das variâncias:

H0: \(\frac{\sigma_X^2}{\sigma_Y^2}=1\) ou \(\sigma_X^2 = \sigma_Y^2}\) vs. H1: \(\frac{\sigma_X^2}{\sigma_Y^2} \neq 1\) ou \(\sigma_X^2 \neq \sigma_Y^2\)

De seguida, realiza-se o teste F de Fisher «à mão» (mas pode ser feito com a calculadora). Esse teste usa a estatística de teste:

\[T= \frac{S_{X}^2}{S_{Y}^2}\underset{sob~H_0}{\sim} F_{(n-1),(m-1)}\]

em que n-1=39 e m-1=79 de acordo com os dados na tabela.

\[f_{obs} = \frac{s_X^2}{s_Y^2} = \frac{5.392^2}{7.832^2} = 0.4739739\]

A distribuição F não é simétrica e tem as medidas de centralidade em torno de 1, especialmente com amostras já grandes. Assim, o valor 0.4739739 sendo «bastante» inferior a 1 calcula-se o valor-p bilateral com a expressão:

\[\text{valor-p bil.} = 2 \times P(F_{39,79} \le 0.4739739) = 0.005742505\]

com calculadora ou sistema R:

> pf(0.4739739, 39,79) * 2
[1] 0.01164028

Assim, ao nível de significância de 5% rejeita-se a homogeneidadede variâncias (rejeita-se H0: \(\frac{\sigma_X^2}{\sigma_Y^2}=1\))

O intervalo de confiança para \(\mu_X - \mu_Y\) deve ser feito com «Pooled=Off» nas calculadoras.

Resposta: \([-5.0853715 -0.2396285]\)

Apresenta-se uma resolução com recurso ao r dada a complexidade das fórmulas no caso de variâncias não homogéneas. Estes comandos partem das amostras independentes e não apenas das suas médias e desvios padrão amostrais.

# Leitura de dados:
> dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/larvas.csv", sep=",",  fileEncoding="utf8")
> X = dados[dados$tratada=="sim", ]$numlarvas
> Y = dados[dados$tratada=="não", ]$numlarvas
> var.test(X,y)
F test to compare two variances
data:  X,Y
F = 0.47392, num df = 39, denom df = 79, p-value = 0.01163
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.2808665 0.8419446
sample estimates:
ratio of variances
    0.4739222
# teste t com "pooled=FALSE"
> t.test(X, Y, var.equal=FALSE)

        Welch Two Sample t-test

data:  X, Y
t = -2.1786, df = 106.29, p-value = 0.03157
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-5.0853715 -0.2396285
sample estimates:
mean of x mean of y
71.8250   74.4875

Resposta: \([-5.0853715 -0.2396285]\)