ex. 1.12

O ficheiro ecoli.csv contem observações do número de bactérias e.coli observadas nos anos de 2011 e 2014 (meses de julho a setembro, dados reais <www.gov.uk/government/collections/escherichia-coli-e-coli-guidance-data-and-analysis>).

Construíram-se caixas de bigodes comparativas para visualizar os registos observados nos dois anos.

_images/ex1_12_g2.png

Comente as caixas de bigodes, interpretando no contexto do problema o que observa:

(a) relativamente aos quartis e mediana entre os dois anos;

solução

Os quartis e mediana do número de bactérias e.coli observadas em 2011 são inferiores ao número observado em 2014.


(b) Quanto à existência de valores atípicos.

solução

Em ambos os anos ocorrem vários valores atípicos representados pelos pequenos pontos na patre superior dos gráficos.


(c) Quanto à simetria da distribuição quer nos 50% dos valores mais centrais quer em todo o domínio dos valores observados.

solução

Os valores mais centrais ocorrem entre o valor Q1 e o valor Q3 de cada amostra; em ambos os casos, a mediana sugere simetria da distribuição dos valores no intervalos Q1 e Q3; porém, para o global das duas amostras, a conclusão é que a distribuição dos dados apresenta assimetria positiva.

Nota: as caixas de bigodes foram realizadas com as seguintes instruções R:

_images/ex1_12_g1.png

mostrar código R

Ver: ecoli.csv.

dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/ecoli.csv", sep=";")
#caixa de bigodes
boxplot( dados )
#desvios corrigidos
sd( dados$ano2011 )
sd( dados$ano2014 )
#medias e medianas
mean( dados$ano2011 )
mean( dados$ano2014 )
median( dados$ano2011 )
median( dados$ano2014 )
# ou, em alternativa
summary( dados )

Caso seja necessário ler dados do excel:

install.packages("gdata") #gdata: para ler ficheiros excel.
require(gdata)
dados = read.xls("ecoli.xls", sheet = 1, header = TRUE)