ex. 4.06

Considere o ficheiro rolhas.csv que contém os valores de várias variáveis medidas num conjunto de 150 rolhas. Uma dessas variáveis é a classe a que pertence a rolha e que tem que ver com a qualidade geral da rolha (Super, Normal, Pobre). Outra das variáveis é o número de defeitos observados em cada rolha (\(N\_A\)). Pretende-se estudar se o número de defeitos está relacionado com a qualidade da rolha.

(a) Comente o gráfico de caixas de bigodes comparativas em relação à posição relativa do nº total de defeitos vs classe da rolha.

☞ sugestões

A reflectir.

☞ solução

Há evidêencia de diferenças comparando as várias classes de rolhas em relação ao número de defeitos nas rolhas; a qualidade parece afetar essa qualidade.

(b) Avalie a possibilidade de efectuar uma ANOVA paramétrica aos dados (\(\alpha=0.05\)) com base nos seguintes QQ-Plot para a distribuição normal.

☞ sugestões

A reflectir.

☞ solução

Nos três gráficos há proximidade dos pontos aos segmentos de reta; assim podemos concluir que em cada uma das três classes ocorre o ajustamento dos dados (nº de defeitos) à normal, estando assim validado este requisito para se efetuar uma ANOVA paramétrica

(c) Foi efetuado o teste de Bartlett e o teste de Levene para testar a homogeneidade de variâncias, com \(\alpha=0.05\). Comente os resultados dos dois testes.

Bartlett test of homogeneity of variances

Levene’s Test for Homogeneity of Variance (center = median)

☞ sugestões

A reflectir.

☞ solução

Sendo os grupos normais o teste de Bartlett é o favorável. Neste caso os pressupostos não seria verificados e teria que se avançar para um teste não paramétrico ou ainda discutir se a média é uma medida tão importante neste contexto. Vale a pena, em média, comprar rolhas «normais»? Ou as «pobres» já são suficientes? Se for pelo Teste de Levene, preferido quando não há certeza da normalidade, então \(p=0.074 > 0.05\), pelo que não se rejeita a hipótese de homogeneidade da variância entre os grupos.

(d) Foi efetuada uma ANOVA paramétrica aos dados:

Df Sum Sq Mean Sq F value Pr(>F)

CLASS 2 51016 25508 69.24 <2e-16

Residuals 147 54152 368

(d-i) Escreva as hipóteses em causa, identificando previamente se o modelo é de efeitos fixos ou aleatórios.

☞ sugestões

A reflectir.

☞ solução

\(H_0: \mu_1=\mu_2=\mu_3=\mu\) vs \(H_1: \mu_i \neq \mu\), para algum i.

(d-ii) Registe o valor observado da estatística de teste.

☞ sugestões

A reflectir.

☞ solução

\(F=69.244\)

(d-iii) Registe o valor-p do teste.

☞ sugestões

A reflectir.

☞ solução

\(p=0.00\)

(d-iv) Decida e conclua.

☞ sugestões

A reflectir.

☞ solução

Como \(p<0.05\), rejeita-se a hipótese da igualdade das diferentes classes a que pertencem as rolhas (indicadoras da maior ou menor qualidade), i.e, conclui-se que o nº de defeitos das rolhas depende da qualidade das rolhas (em consonância com a análise dos QQ-plots).

(e) Foi efetuada uma análise (emph{Post-hoc}) de comparações múltiplas utilizando os métodos de Bonferroni e de Tukey para \(\alpha=0.05\). O que pode concluir?

data:  dados$N_A and dados$CLASS

Normal  Pobre
Pobre 8.5e-07 -
Super 6.8e-09 < 2e-16

P value adjustment method: bonferroni
Tukey multiple comparisons of means
95% family-wise confidence level

Fit: aov(formula = N_A ~ CLASS, data = dados)

$CLASS
diff       lwr       upr p adj
Pobre-Normal  20.66  11.57128  29.74872 9e-07
Super-Normal -24.46 -33.54872 -15.37128 0e+00
Super-Pobre  -45.12 -54.20872 -36.03128 0e+00

☞ sugestões

A reflectir.

☞ solução

Ambos os testes chegam às mesmas conclusões: em todas as 3 comparações possíveis (super-normal, super-pobre e normal-pobre) é rejeitada a hipótese de igualdade das médias respectivas.

☞ mostrar código R

(a)

dados = read.csv("https://sweet.ua.pt/pedrocruz/dados/rolhas.csv")
str(dados)
#Construir caixas de bigodes comparativas
boxplot(N_A ~ CLASS, data=dados, pch=20, main="Caixas de bigodes comparativas", xlab=paste("Qualidade da rolha"), ylab=paste("n. total de defeitos"), col="lightgray")

(b)

par(mfrow=c(1,3)) # preparar para obter 3 gráficos numa mesma linha
grupo1=subset(dados, dados$CLASS=="Super")
qqnorm(grupo1$N_A, pch=20, main=paste("grupo",grupo1$CLASS[1]) )
qqline(grupo1$N_A, col="red",lwd=2)  #adiciona uma reta ao QQ-plot da normal
grupo2=subset(dados, dados$CLASS=="Normal")
qqnorm(grupo2$N_A, pch=20, main=paste("grupo",grupo2$CLASS[1]) )
qqline(grupo2$N_A, col="red",lwd=2)
grupo3=subset(dados, dados$CLASS=="Pobre")
qqnorm(grupo3$N_A, pch=20,main= paste("grupo",grupo3$CLASS[1]) )
qqline(grupo3$N_A, col="red",lwd=2)

(c)

bartlett.test(N_A ~ CLASS, data=dados) # Teste de Bartlett

# Para usar o Teste de Levene deverá aplicar previamente a anova...
    install.packages("car") #Pode levar algum tempo na primeira vez.
    # Carregar biblioteca onde está o teste de Levene.
library(car)
    # Anova a 1 fator
resultado=aov(N_A ~ CLASS, data=dados)
leveneTest(resultado)

(d)

resultado=aov(N_A ~ CLASS, data=dados)
summary(resultado)

(e)

# NOTA: se se assume igualdade de variancia então pool.sd=T, senão pool.sd=F
pairwise.t.test(dados$N_A, dados$CLASS, p.adjust="bonferroni",pool.sd = T)
TukeyHSD(resultado) # método de Tukey