ex. 1.12
O ficheiro ecoli.csv contem observações do número de bactérias e.coli observadas nos anos de 2011 e 2014 (meses de julho a setembro, dados reais <www.gov.uk/government/collections/escherichia-coli-e-coli-guidance-data-and-analysis>).
Construíram-se caixas de bigodes comparativas para visualizar os registos observados nos dois anos.
Comente as caixas de bigodes, interpretando no contexto do problema o que observa:
(a) relativamente aos quartis e mediana entre os dois anos;
☞ solução
Os quartis e mediana do número de bactérias e.coli observadas em 2011 são inferiores ao número observado em 2014.
(b) Quanto à existência de valores atípicos.
☞ solução
Em ambos os anos ocorrem vários valores atípicos representados pelos pequenos pontos na patre superior dos gráficos.
(c) Quanto à simetria da distribuição quer nos 50% dos valores mais centrais quer em todo o domínio dos valores observados.
☞ solução
Os valores mais centrais ocorrem entre o valor Q1 e o valor Q3 de cada amostra; em ambos os casos, a mediana sugere simetria da distribuição dos valores no intervalos Q1 e Q3; porém, para o global das duas amostras, a conclusão é que a distribuição dos dados apresenta assimetria positiva.
Nota: as caixas de bigodes foram realizadas com as seguintes instruções R:
☞ mostrar código R
Ver: ecoli.csv.
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/ecoli.csv", sep=";")
#caixa de bigodes
boxplot( dados )
#desvios corrigidos
sd( dados$ano2011 )
sd( dados$ano2014 )
#medias e medianas
mean( dados$ano2011 )
mean( dados$ano2014 )
median( dados$ano2011 )
median( dados$ano2014 )
# ou, em alternativa
summary( dados )
Caso seja necessário ler dados do excel:
install.packages("gdata") #gdata: para ler ficheiros excel.
require(gdata)
dados = read.xls("ecoli.xls", sheet = 1, header = TRUE)