ex. 2.15 (*)

Suponha que 20% das árvores de uma dada floresta estão infetadas com um determinado tipo de parasita.

Determine a probabilidade exata e aproximada (usando o TLC) de


(a) em 300 árvores existirem no máximo 80 árvores infetadas?

proposta de resolução

Só com uma árvore (distribuição de Bernoulli):

  • «uma árvore estar infetada» é considerado, do ponto de vista do enunciado o «sucesso»;

  • \(p = P( \text{estar infetada} ) = P( \text{sucesso} ) = 0.2\)

Com 300 árvores:

  • cada árvore pode ser sucesso/falha (i.e., estar infetada / não estar infetada);

  • a «experiência» de verificar se está infetada é realizada 300 vezes;

  • em termos de notação matemática dizemos \(n=300\) experiências independentes.

Neste contexto define-se a v.a.:

  • X = número de árvores infetadas em 300 árvores analisadas (independentes).

e assim X segue uma distribuição binomial com parâmetros \(n=300\) e \(p=0.2\).

Resposta exata com calculadora

\[P(X \le 80) = \text{CDF.Binomial(lower=0, upper=80, n=300, p=0.2)}\]

Resposta exata com R:

\[P(X \le 80) = pbinom(80, 300, 0.2)\]
> pbinom(80, 300, 0.2)
[1] 0.9979035

Resposta com TLC:

Em TLC e a distribuição binomial é explicado que a distribuição binomial é uma soma 0s e 1s e assim a distribuição pode-se aproximar à distribuição normal:

\[ \begin{align}\begin{aligned}X \sim_{\text{aproximada}} Normal( \text{valor esperado de X}, \text{variância de X})\\X \sim_{\text{aproximada}} Normal( np, np(1-p) )\end{aligned}\end{align} \]

Assim, com correção à continuidade:

Calculadora (colocando o desvio padrão):

\[P(X \le 80) = aprox = P(X \le 80.5) \approx \text{CDF.normal(lower=0, upper=80.5, 300*0.2, sqrt(300*0.2*(1-0.2))}\]

Em R (colocando o desvio padrão):

> pnorm(80.5, 300*0.2, sqrt(300*0.2*(1-0.2)) )
[1] 0.9984564

(b) em 300 árvores, existirem entre 49 e 71 árvores infetadas, exclusive e usando correção à continuidade?

proposta de resolução

A resolução exata deve ter em conta que o que é pedido é:

  • \(P(49 < X < 71)\)

Assim, pretende-se a probabilidade \(P(X=50)+ \cdots + P(X=70)\).

Em algumas calculadoras basta indicar:

CDF.Binomial(lower=50, upper=70, n=300, p=0.2)

mas em outras é necessário incluir a probabilidade para trás de 70 e excluir a probabilidade para trás de 49. Note-se: não se pretende a probabilidade de 49 para trás:

\(P(49 < X < 71) = P(X < 71) - P(X \le 49) = P(X \le 70) - P(X \le 49)\)

e usando a notação das calculadoras sem lower/upper:

CDF.Binomial(70, n=300, p=0.2) - CDF.Binomial(49, n=300, p=0.2)

Ou ainda, usando o sistema R:

> pbinom(70, 300, 0.2) - pbinom(49, 300, 0.2)
[1] 0.8708172

Com recurso ao TLC e a distribuição binomial (e à correção à continuidade):

> pnorm(70.5, 300*0.2, sqrt(300*0.2*(1-0.2))) - pnorm(49.5, 300*0.2, sqrt(300*0.2*(1-0.2)))
[1] 0.8703654

(c) comente os valores aproximados e exatos.

proposta de resolução

Note-se a pequena diferença de resultados devido ao elevado número de variáveis somadas:

  • n=300 somas de 0s e 1s (sucessos ou falhas).

Quando maior a soma de v.a., pelo teorema do limite central, a aproximação à probabilidade correta terá cada vez menos erro.


FIM