distribuição normal

Uma distribuição normal é uma distribuição de variável contínua usada para modelar a atribuição de probabilidades a v.a. como alturas mas, principalmente, pelo seu papel em estatística inferencial.

São descritas por uma gama de curvas em forma de sino, simétricas, assumindo vários níveis de achatamento e posições na reta real:

_images/d-normal.png

descrição

A distribuição normal é uma distribuição contínua. A altura de um indivíduo de uma população é um exemplo típico de v.a. com distribuição normal.

Uma v.a. X que segue uma distribuição normal é caracterizada por dois parâmetros:

  • \mu: a média populacional (pronuncia-se “miu”); indica a localização central;

  • \sigma^2: a variância populacional (pronuncia-se “sigma quadrado”); indica dispersão.

O desvio padrão populacional de X normal representa-se por \sigma e sendo, naturalmente, obtido pela raiz quadrada da variância \sigma^2.

A notação habitual é

X \sim N(\mu,\;\sigma^2)

sendo esta notação equivalente a dizer que a função densidade de probabilidade é dada por

f(x)= \frac{1}{\sigma \sqrt{2 \pi}} e^{\displaystyle -\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

Veja mais sobre esta complexa função em função densidade normal. A função de distribuição não tem uma expressão matemática simples sendo obtida em calculadoras, software ou tabelas.

A calculadora gráfica, ou software, determinam probabilidades em intervalos fechados [a;b], calculando a área entre o eixo XX e a curva f(x) como o exemplo mostra:

_images/d-normal-area.png

Através de variações nos parâmetros \mu e \sigma conseguem-se diferentes curvas em forma de sino

usar desvio-padrão ou variância

As variâncias de No estudo estatístico, por vezes fala-se em desvio padrão, \sigma, e outras em variância, \sigma^2. É importante usar uma única convenção e neste documento usa-se o seguinte:

  • a notação X \sim N(\mu,\;\sigma^2) refere sempre a variância; por exemplo, N(2,\; 100) indica uma distribuição normal de média 2 e variância 100;

  • nas calculadora e software, é sempre fornecido o desvio padrão; no exemplo anterior, é sempre fornecido o valor \sigma=10.

exemplos

As seguintes variáveis aleatórias são bem modeladas por uma distribuição normal:

X \sim N(172.9,\;100)

Quando se pretende saber qual a probabilidade de uma pessoa ter 1,6 m (160cm) devemos recordar que no modelo contínuo:

P(X=a) = 0

para qualquer constante a. Assim, como saber qual a probabilidade de uma pessoa «ter 1 metro e 60 cm»? A resposta passa por interpretar «ter 160cm» como algo entre «159.5 cm» e «160.5 cm»:

P(\text{pessoa ter 1,60 m}) = P(159.5 \le X \le 160.5) \approx 0.017

ou seja, aproximadamente 1.7% dos portugueses «têm 1,6 m» no sentido abrangente.


Outro exemplo de v.a. com distibuição normal:

X \sim N(9000,\;2000^2)

soma de duas v.a. normais

Sejam X e Y duas v.a. independentes tais que

X \sim N(\mu_1;\sigma_1^2)\;\; \mbox{e}\;\; Y \sim B(\mu_2;\sigma_2^2)

Assim, nestas condições,

X+Y \sim N(\mu_1 + \mu_2,\sigma_1^2 + \sigma_2^2)

NOTA: nas máquinas e software tem que se usar o desvio da soma de variâncias: \sqrt{\sigma_1^2 + \sigma_2^2}

soma de várias v.a. normais

Tendo uma coleção de variáveis aleatórias (ver amostra aleatória)

X_1, \ldots, X_n

e sendo cada uma das v.a. caracterizada pela mesma distribuição normal X \sim N(\mu,\; \sigma^2) então a «distribuição da soma de normais, independentes, é uma normal»:

X_1+\cdots+X_n \sim N(n \, \mu ,\; n \, \sigma^2)

A soma tem estes parâmetros:

  • n \mu (média populacional para a soma) vem de somar \mu + \mu + \cdots + \mu, n vezes.

  • n \sigma^2 (variância populacional para a soma) vem de somar \sigma^2 + \sigma^2 + \cdots + \sigma^2, n vezes.

NOTA: nas máquinas e software usar o desvio da soma das n variâncias iguais: \sqrt{ n \, \sigma^2}.

média de várias v.a. normais

A média amostral aleatória, \bar X, também depende de uma soma de v.a.:

\bar X = \frac{1}{n} \left( X_1+\cdots+X_n \right) \sim N\left( \mu; \frac{\sigma^2}{n} \right)

Assim, \bar X, tem estes parâmetros:

  • \mu (valor esperado da «média amostral aleatória») vem de \frac{1}{n}(\mu + \mu + \cdots + \mu)=\mu.

  • \frac{\sigma^2}{n} (variância populacional da v.a. média amostral) vem de

\begin{split}\begin{eqnarray*} Var( \bar X) & = & Var\left( \frac{1}{n} (X_1+\cdots+X_n) \right) \\ & = & \left(\frac{1}{n}\right)^2 \, Var( X_1+\cdots+X_n) \\ & = & \left(\frac{1}{n}\right)^2 \, (n\,\sigma^2) \\ & = & \frac{\sigma^2}{n} \end{eqnarray*}\end{split}

Com base na propriedade anterior, a seguinte propriedade é usada na estatística inferencial,

Z = \frac{\bar X - \mu}{\sigma/\sqrt{n}} \sim N(0;1)

em que N(0,;1) é a distribuição normal padrão Z. O divisor \sigma/\sqrt{n} é o desvio padrão de \bar X.

função densidade normal

A função f(x) = e^{-x} tem a forma de curva de sino. Podemos ver duas curvas, uma centrada em \mu=0 e outra centrada em \mu=2:

_images/d-normal-curvasexp.png

Para ser uma função densidade de probabilidade deve exitir área igual a 1. Para acomodar:

  • deslocação do centro para qualquer parte da reta real: x-\mu

  • para acomodar maior ou menor dispersão então divide-se por \sigma: \frac{x-\mu}{\sigma}

  • área = 1 é necessário \frac{1}{\sigma \sqrt{2 \pi}} e 1/2

resultando na função densidade da distribuição normal:

f(x)= \frac{1}{\sigma \sqrt{2 \pi}} e^{\displaystyle -\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}

Não existe uma expressão matemática simples para a função distribuição F(x)=P(X \le x) sendo esta obtida por métodos numéricos sendo o resultado obtido em tabelas, calculadora gráfica ou softwares.

normal centrada e reduzida

Chama-se «centrar e reduzir» à operação ilustrada por

\frac{X-\mu}{\sigma}

em que \mu e \sigma são a média e desvio padrão da v.a. X. Considerando que X \sim N(\mu; \sigma^2) então

Z = \frac{X-\mu}{\sigma} \sim N(0,\; 1)

em que N(0,\; 1) se chama de distribuição normal padrão Z (consulte mais propriedades e notação nessa página).


São duas as razões desta operação tão frequente em estatística:

  • do ponto de vista de quem não tem acesso a calculadora gráfica, software local ou software online, esta operação permite a consulta de tabelas pois permite que o cálculo de uma probabilidade em X seja traduzido no cálculo de uma probabiildade em Z com recurso a tabelas em papel.

  • do ponto de vista teórico, o «centrar e reduzir», tornou-se um método fulcral na inferência estatística.

O exemplo mostra uma utilidade para a noção de «centrar e reduzir»:

exemplo

Se X \sim N(\mu=2; \sigma^2=100), então, subtraindo e dividindo assim

P(X \le 5) = P\left( \frac{X-\mu}{\sigma} \le \frac{5-2}{10}\right) = P(Z \le 3/10)

e P(Z \le 3/10) \approx 0.6293. Este valor é obtido numa tabela da distribuição normal padrão Z; consulte a 3ª coluna da tabela N(0;1) para confirmar o resultado 0.6293.

Notas:

  • Por ser muito frequente expressar P(Z \le 3/10) usa-se a notação \Phi(3/10) para o mesmo efeito.

  • Consulte outros casos aqui.

quantil da normal

Um quantil de ordem p é um valor real, denotado por x_p, associado a uma probabilidade p verificando

P(X \le x_p) = p

Por exemplo, o quantil de ordem 0.025 (que se representa por x_{0.025}) de uma normal(0,\;1) é x_{0.025}=1.96 pois

P(X \le 1.96) = 0.025

No caso da distribuição normal, os quantis são obtidos por uma destas opções:

Mais detalhes e propriedades em:

R Project

Tomemos o exemplo: determinar P(X \le 3) quando X segue uma N(\mu=4, \sigma^2=100):

pnorm(3,4,10) #nota: usar o desvio: 10
[1] 0.4601722

consulta da tabela da normal

Cálculo de uma probabilidade

X \sim N(\mu=2,\, \sigma^2=100)

então as probabilidades podem ser calculadas com a:

consulta da 3ª coluna da tabela N(0;1)

Os casos possíveis são:

  • P(X \le 5) = \Phi(\frac{5-2}{10}) = \Phi(3/10) \approx 0.6293;

  • P(X \ge 5) = 1 - \Phi(\frac{5-2}{10}) = 1- \Phi(3/10) \approx 1 - 0.6293 \approx 0.3707;

  • P(3 \le X \le 5) = \Phi(\frac{5-2}{10}) - \Phi(\frac{3-2}{10}) = \Phi(3/10) - \Phi(1/10) \approx 0.6293 - 0.5398 \approx 0.0895.

Cálculo de um quantil

  • um quantil x é um valor no eixo X associado a uma probabilidade p para trás: dado p qual o x tal que P(X \le x) = p.

Por exemplo, para determinar o quantil x_{0.25} da distribuição acima X \sim N(\mu=2,\, \sigma^2=100):

  1. Procura-se na

a percentagem 0.25. Deve encontrar: -0.674. Agora resolve-se:

-0.674 = \frac{x - 2}{10} \quad \text{a média é 2 e o desvio padrão é 10}
  1. Resolve-se: x=-0.674 \times 10 + 2 = -4.74

Justificação dos procedimentos acima:

calculadoras gráficas

Recorda-se que:

  • a distribuição normal é contínua;

  • sendo contínua, apenas intervalos a \le X \le b podem ter probabilidade positiva ;

  • as probabilidades pontuais, como P(X = 3), são sempre zero pois a área definida por um ponto e o eixo XX é zero.

texas TI Nspire CX

  1. determinar P(X \le 3) quando N(\mu=4, \sigma^2=100):

  • num documento ou rascunho

  • Menu => estatística (6) => distribuições… (5) => função de distribuição normal;

  • depois colocar média=4, desvio=10, limite inferior=-100000 e limite superior= 3;

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

  1. determinar P(X \ge 3) quando N(\mu=4, \sigma^2=100):

  • num documento ou rascunho

  • Menu => estatística (6) => distribuições… (5) => função de distribuição normal..

  • depois colocar média=4, desvio=10, limite inferior=3 e limite superior=100000

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

nota: esta máquina determina probabilidades da forma P(a \le X \le b) em que «a» e «b» são os limites inferior e superior do intervalo.

  1. determinar o quantil x_{0.25} da distribuição:

  • Menu => estatística (6) => distribuições… (5) => função inversa da distribuição normal.

  • depois colocar média=4, desvio=10, p=0.25

  • Deve obter -2.744898

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

Baixe o manual da NSpire: TI-Nspire Reference Guide PT.

texas TI 84 e TI 83

Nota: -1E99 e 1E99 especificam «infinito».

  1. determinar P(X \le 3) quando N(\mu=4, \sigma^2=100):

  • Selecione as teclas 2nd– DISTR (VARS).

  • Selecionar normalcdf e escrever normalcdf(-10^10, 3, 4, 10) (atenção à ordem)

  • Deve obter 0.4601722

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

  1. determinar P(X \ge 3) quando N(\mu=4, \sigma^2=100):

  • Selecione as teclas 2nd– DISTR (VARS).

  • Selecionar normalcdf e escrever normalcdf(3, 10^10, 4, 10) (atenção à ordem)

  • Deve obter 0.5398278

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

  1. determinar o quantil x_{0.25} da distribuição:

  • Selecione as teclas 2nd– DISTR (VARS).

  • Selecionar invnormal e escrever invnormal(4, 10, 0.25) (verifique a ordem)

  • Deve obter -2.744898

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

casio FX 9860gii

Exemplo: X segue uma quando N(\mu=4, \sigma^2=100):

  • Menu => Estatistica => F5 (DIST); F1 (NORMAL); F2 (Ncd)

  • Data: Var ou List (ver botões em baixo)

  • Se P(X<=3): Data: Variable; Lower=-100000; Upper=3; Mean=4; Stdev=10

  • Se P(X>=3): Data: Variable; Lower=3; Upper=100000; Mean=4; Stdev=10

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

Pelo comando:

  • P(X>=3) = NormCD(-10000, 3, 10, 4) <= atenção: desvio primeiro.

Determinar o quantil x_{0.25} da distribuição:

  • Menu => Estatistica => F5 (DIST); F1 (NORMAL); (aqui inversa)

  • Introduzir média = 4, desvio padrão = 10 e percentagem = 0.25

  • Deve obter -2.744898

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

casio FX CG 20

Exemplo: X segue uma quando N(\mu=4, \sigma^2=100):

  • Menu => Estatistica => F5 (DIST); F1 (NORMAL); F2 (Ncd)

  • Data: Var ou List (ver botões em baixo)

  • Se P(X<=3): Data: Variable; Lower=-100000; Upper=3; Mean=4; Stdev=10

  • Se P(X>=3): Data: Variable; Lower=3; Upper=100000; Mean=4; Stdev=10

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.

Pelo comando:

  • P(X>=3) = NormCD(-10000, 3, 10, 4) <= atenção: desvio primeiro.

Determinar o quantil x_{0.25} da distribuição:

  • Menu => Estatistica => F5 (DIST); F1 (NORMAL); (aqui inversa)

  • Introduzir média = 4, desvio padrão = 10 e percentagem = 0.25

  • Deve obter -2.744898

  • use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.


Estas instruções dependem de marcas ou versões de calculadoras ou software.

Referências