R: dados dos exercícios

Ficheiros de dados e comandos R usados nos exercícios.

apgar.csv

índice de Apgar em recém-nascidos

Valores do índice de Apgar medido ao fim de 1 e de 5 minutos num conjunto de recém-nascidos em hospitais portugueses, selecionados ao acaso. O índice de Apgar toma valores (inteiros) de 0 a 10 que resultam de uma classificação feita por médicos aos recém-nascidos. Esta classificação é distribuída por 5 atributos: frequência cardíaca, esforço respiratório, tónus muscular, irritabilidade reflexa e cor. Cada atributo é classificado com 0, 1 ou 2 e o índice resulta da soma das 5 classificações. Um bebé normal deve ter índice superior ou igual a 8.

Campos:

  • Hospital: sigla do hospital

  • NAME: código do indivíduo

  • Apgar1: índice de Apgar medido ao fim de 1 minuto.

  • Apgar5: índice de Apgar medido ao fim de 5 minutos.

  • Duration

  • Baseline

  • Acelnum

  • Acelrate

  • ASTV

  • MSTV

  • ALTVMLTV

#As casas decimais são separads por vírgulas.
# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/apgar.csv", dec=".", sep=",")
# leitura de ficheiro na pasta
dados <- read.csv("apgar.csv", dec=".", sep=",")

aprend.csv

respostas corretas por tipo de alimentação

Percentagem de respostas corretas por «tipo de alimentação». (Dados com fins pedagógicos.)

Campos:

  • RES: percentagem de respostas corretas

  • GRUPO: o fator é composto de 4 grupos/níveis/tratamentos: «Controlo», «Sem Comer», «Sem Beber», «Sem Comer e Beber».

  • Ligação para o ficheiro: https://sweet.ua.pt/pedrocruz/dados/aprend.csv

#As casas decimais são separads por vírgulas.
# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/aprend.csv", dec=".", sep=",")
# leitura de ficheiro na pasta
dados <- read.csv("aprend.csv", dec=".", sep=",")

RES

GRUPO

39.4365009466148

Sem Comer e Beber

23.6

Sem Comer e Beber

etc

51.0146308760526

Sem Beber

48.9286329335623

Sem Beber

etc

29.6141227579806

Sem Comer

45.3

Sem Comer

etc

53.7642024708601

Controlo

75.8171461417063

Controlo

etc

arvores.csv

diâmetro, altura e volume de árvores

Diâmetro, altura e volume de 32 árvores. (Dados reais.)

Como ler o ficheiro no R:

#As casas decimais são separads por vírgulas.
# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/arvores.csv", dec=".", sep=",")
# leitura de ficheiro na pasta
dados <- read.csv("arvores.csv", dec=".", sep=",")

Conteúdo do ficheiro:

DIAMETRO

ALTURA

VOLUME

8.3

71

10.3

12.9

85

33.8

8.6

65

10.3

13.3

86

27.4

etc

atletas2.csv

estilos de treino e performances

Três estilos de treino e medição das suas performances. (Dados estimados.)

#As casas decimais são separadas por vírgulas e não ponto "."
# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/atletas2.csv", dec=".", sep=",")
# leitura de ficheiro na pasta
dados <- read.csv("atletas2.csv", dec=".", sep=",")

GRUPO

PERFORM

1

63.3317125327885

1

68.3180787861347

1

86.6565496921539

etc

2

72.8482221662998

2

88.1672542095184

etc

3

82.3319162726402

3

89.6874115467072

etc

camaroes.csv

comprimento do corpo de camarões

Comprimento do corpo de 60 camarões. (Dados estimados.)

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/camaroes.csv")
# leitura de ficheiro na pasta
dados <- read.csv("camaroes.csv")

Primeiras linhas do ficheiro:

comprimento

4

5

5

4,2

4,8

5,8

etc

colonias.csv

bactérias por tratamento

Número de bactérias por tratamento. (Dados com fins pedagógicos.)

As colunas são:

  • T1: nº de bactérias após tratamento 1

  • T2: nº de bactérias após tratamento 2

  • T3: nº de bactérias após tratamento 3

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/colonias.csv",sep=",")
# leitura de ficheiro na pasta
dados <- read.csv("colonias.csv",sep=",")

T1

T2

T3

45

72

90

40

81

84

10

53

75

23

55

70

32

48

64

etc

ecoli.csv

E. coli bacteraemia

Ocorrências E. coli bacteraemia em 2011 e 2014. (Dados reais.)

Fonte: http://www.gov.uk/government/collections/escherichia-coli-e-coli-guidance-data-and-analysis

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/ecoli.csv",sep=";")
# leitura de ficheiro na pasta
dados <- read.csv("ecoli.csv",sep=";")

Primeiras linhas:

ano2011

ano2014

80

92

22

34

2

9

etc

etc

factura.csv

duração de chamadas de telemóvel

Dados do século~XX quando realizar chamadas com telemóvel era bastante caro. (Dados reais.)

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/factura.csv",sep=",", dec=".")
# leitura de ficheiro na pasta
dados <- read.csv("factura.csv",sep=",", dec=".")

hora

tarifa

duracao

valor

tipochamada

13.2191666666667

2

2.45

0.25186

Indicativo diferente

15.8169444444444

2

7.21666666666667

0.518878333333333

Mesmo Indicativo

17.5836111111111

2

1.48333333333333

0.106651666666667

Mesmo Indicativo

17.6175

2

17.2166666666667

1.23787833333333

Mesmo Indicativo

etc

etc

etc

etc

fitoplanton.csv

fitoplanton

(em falta)

Por fazer

Colocar fitoplanton.csv online.

fogos.csv

fogos

(em falta)

Por fazer

Colocar fogos.csv online.

folhas.csv

folhas

(em falta)

Por fazer

Colocar folhas.csv online.

larvas.csv

tratadas e número de larvas

Campos:

#As casas decimais são separads por pontos.
# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/larvas.csv", sep=",",  fileEncoding="utf8")
# leitura de ficheiro na pasta
dados <- read.csv("larvas.csv", sep=",")

tratada

numlarvas

sim

70

sim

71

etc

etc

não

70

não

82

etc

etc

linces.csv

género e peso de linces

  • sexo e pesos de linces em época de chuvas e época seca.

Campos:

  • «ID»: identificação do lince

  • «CHUVA»: peso do lince na estação das chuvas («X»)

  • «SECA»: peso do lince na estação das chuvas («Y»)

  • «SEXO»: sexo do lince («macho», «femea»)

  • Transferir o ficheiro: https://sweet.ua.pt/pedrocruz/dados/linces.csv

#As casas decimais são separads por pontos.
# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/linces.csv", dec=".", sep=",")
# leitura de ficheiro na pasta
dados <- read.csv("linces.csv", dec=".", sep=",")

ID

CHUVA

SECA

SEXO

1

16.6666666666667

18.3333333333333

macho

2

20.6666666666667

18.6666666666667

macho

3

21.3333333333333

19.6666666666667

macho

4

16

21.6666666666667

macho

5

17

19.3333333333333

macho

6

19

20

femea

7

19.3333333333333

22.3333333333333

femea

etc

Comandos para o R ver como amostras emparelhadas:

linces <- read.csv("linces.csv", dec=".", sep=",")
pesos <- linces[, c("CHUVA","SECA")]
head(pesos)
pesos = stack(pesos)
names(pesos) <- c("peso","epoca")
head(pesos)

medicamentos.csv

três medicamentos para emagrecer são colocados à prova

Resultados de um ensaio clínico para estudar o efeito de medicamentos no combate à obesidade. Pretende-se avaliar três medicamentos: A, B e C. Averigúe se pode aplicar uma ANOVA paramétrica, e diga se existem diferenças significativas entre as diferenças de peso (pré e pós tratamento) nos três grupos. Tome α=0.05.

Campos:

  • «dif_peso» - diferença de peso para o medicamento indicado na coluna «tipo»;

  • «tipo» - tipo de medicamento.

Transferir o ficheiro: https://sweet.ua.pt/pedrocruz/dados/medicamentos.csv

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/medicamentos.csv",sep="\t", dec=",")
# leitura de ficheiro na pasta
dados <- read.csv("respostas.csv",sep="\t", dec=",")

dif_peso

tipo

3,0

1

3,1

1

etc

etc

2,9

2

etc

etc

3,2

3

etc

etc

pinguins.csv

comprimento dos ossos de pinguins fêmea e macho

Um biólogo marinho está a estudar uma espécie de pinguins e está interessado no tamanho das aves que acasalam. A variável utilizada para o efeito é o comprimento de um osso da perna que, a partir de estudos anteriores, é tida como um bom indicador da variável em causa. As medidas estão em mm e arredondadas à décima.

plecoptera.csv

dureza da água e abundância de ninfas

Transferir o ficheiro: https://sweet.ua.pt/pedrocruz/dados/plecoptera.csv

  • Rio

  • Dureza: dureza da água

  • N_plecoptera: quantidade de plecoptera

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/plecoptera.csv", sep=",", dec=".", header=TRUE)
# leitura de ficheiro na pasta
dados <- read.csv("plecoptera.csv", sep=",", dec=".", header=TRUE)

Rio

Dureza

N_plecoptera

1

18

43

2

21

40

3

22

31

etc

etc

etc

respostas.csv

quantidade de respostas corretas em função da temperatura da sala

Quantidade de respostas corretas por temperatura na sala. No Séc.XX, existia na UA salas que atingiam os 36 graus. (Dados com fins pedagógicos.)

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/respostas.csv",sep=",")
# leitura de ficheiro na pasta
dados <- read.csv("respostas.csv",sep=",")

TEMPERAT

RESPOST

18

96

18

93

18

93

18

76

etc

etc

rolhas.csv

defeitos em rolhas de cortiça

Estudo sobre defeitos em rolhas de cortiça. (Dados reais.)

Por fazer

O que querem dizer os campos das rolhas ?

Campos:

  • «N» - Número do registo.

  • «CLASS» - A classe («Super», «Normal», «Pobre»).

  • «ART»

  • «N_A» - Número de defeitos observados em cada rolha.

  • «PRT»

  • «ARM» - Área Média dos defeitos

  • «PRM» - Perímetro Médio dos defeitos

  • «ARTG»

  • «NG»

  • «PRTG»

  • «RAAR»

  • «RAN»

# leitura da net
dados <- read.csv("https://sweet.ua.pt/pedrocruz/dados/rolhas.csv",sep=",", dec=".")
# leitura de ficheiro na pasta
dados <- read.csv("rolhas.csv",sep=",", dec=".")

N

CLASS

ART

N_A

PRT

ARM

PRM

ARTG

NG

PRTG

RAAR

RAN

1

Super

81

41

250

1.98

6.1

9

1

12

11.11

2.44

2

Super

80

42

238

1.91

5.67

0

0

0

0

0

3

Super

81

26

196

3.12

7.54

9.8

1.8

15

12.04

6.73

etc

avançado

  1. Para ler do formato «sav» do software SPSS fazer:

install.packages("foreign")
library(foreign)
dados = as.data.frame(read.spss("rolhas.sav"))
  1. Os dados estão armazenados num formato universal desigado por csv que quer dizer

    Comma Separated Values

O ficheiro pode ser aberto no notepad ou mesmo no Excel, libre office , e outros.

  1. Memoriza-se como «Coisas Separadas por Vírgulas» ou às vezes separadas por são espaços, invisíveis «tabs» ou ainda «;». No código em R, pode encontrar-se:

sep=";"

que quer dizer que o separador é o ponto-e-vírgula.

Aviso

O ficheiro de comandos R e os ficheiros de dados devem estar na mesma pasta.