Um biólogo pretende verificar o efeito de um
pesticida sobre as larvas de um mosquito.
Para o efeito, foram tratadas com pesticida
algumas áreas agrícolas e, posteriormente,
contabilizado o número de larvas existentes em
charcos de áreas tratadas e não tratadas (e dividido,
cada número, por 100).
Assuma a normalidade dos dados.
Encontre um intervalo de confiança para a diferença de
médias do número de larvas das populações tratadas e não tratadas,
com um grau de confiança de 95%, com base nos seguintes resultados
registados para o conjunto dos 120 charcos analisados:
Tratam-se de amostras independentes porque as áreas são independentes: umas para tratamento com pesticida e outras sem tratamento.
(Nota: não poderiam ser emparelhadas porque as áreas tratadas foram 40 e a não tratadas foram 80.)
A ordem das variáveis deve seguir a ordem na tabela no enunciado:
X = número de larvas numa área agrícola tratada
Y = número de larvas numa área agrícola não tratada
Da frase «Assuma a normalidade dos dados» tiramos que
X \sim Normal(\mu_X, \sigma_X^2)
Y \sim Normal(\mu_Y, \sigma^2_Y)
em que os 4 parâmetros são desconhecidos.
O enunciado pede um intervalo de confiança para as médias mas o que deve ser feito em
primeiro é o teste F de homogeneidade («igualdade») das duas variâncias, como se descreve.
Como as variâncias populacionais não são conhecidas é necessário, primeiro,
testar a homogeneidade das variâncias:
H0: \frac{\sigma_X^2}{\sigma_Y^2}=1 ou \sigma_X^2 = \sigma_Y^2}
vs.
H1: \frac{\sigma_X^2}{\sigma_Y^2} \neq 1 ou \sigma_X^2 \neq \sigma_Y^2
De seguida, realiza-se o teste F de Fisher «à mão» (mas pode ser feito com a calculadora). Esse teste
usa a estatística de teste:
T= \frac{S_{X}^2}{S_{Y}^2}\underset{sob~H_0}{\sim} F_{(n-1),(m-1)}
em que n-1=39 e m-1=79 de acordo com os dados na tabela.
f_{obs} = \frac{s_X^2}{s_Y^2} = \frac{5.392^2}{7.832^2} = 0.4739739
A distribuição F não é simétrica e tem as medidas de centralidade
em torno de 1, especialmente com amostras já grandes.
Assim, o valor 0.4739739 sendo «bastante» inferior
a 1 calcula-se o valor-p bilateral com a expressão:
\text{valor-p bil.} = 2 \times P(F_{39,79} \le 0.4739739) = 0.005742505
com calculadora ou sistema R:
> pf(0.4739739, 39,79) * 2
[1] 0.01164028
Assim, ao nível de significância de 5% rejeita-se
a homogeneidadede variâncias (rejeita-se H0: \frac{\sigma_X^2}{\sigma_Y^2}=1)
O intervalo de confiança para \mu_X - \mu_Y deve ser feito com «Pooled=Off» nas calculadoras.
Resposta: [-5.0853715 -0.2396285]
Apresenta-se uma resolução com recurso ao r
dada a complexidade das fórmulas no caso
de variâncias não homogéneas. Estes comandos
partem das amostras independentes e não apenas das
suas médias e desvios padrão amostrais.
# Leitura de dados:
> dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/larvas.csv", sep=",", fileEncoding="utf8")
> X = dados[dados$tratada=="sim", ]$numlarvas
> Y = dados[dados$tratada=="não", ]$numlarvas
> var.test(X,y)
F test to compare two variances
data: X,Y
F = 0.47392, num df = 39, denom df = 79, p-value = 0.01163
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.2808665 0.8419446
sample estimates:
ratio of variances
0.4739222
# teste t com "pooled=FALSE"
> t.test(X, Y, var.equal=FALSE)
Welch Two Sample t-test
data: X, Y
t = -2.1786, df = 106.29, p-value = 0.03157
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-5.0853715 -0.2396285
sample estimates:
mean of x mean of y
71.8250 74.4875
Resposta: [-5.0853715 -0.2396285]