distribuição normal
Uma distribuição normal é uma distribuição de variável contínua usada para modelar a atribuição de probabilidades a v.a. como alturas mas, principalmente, pelo seu papel em estatística inferencial.
São descritas por uma gama de curvas em forma de sino, simétricas, assumindo vários níveis de achatamento e posições na reta real:
descrição
A distribuição normal é uma distribuição contínua. A altura de um indivíduo de uma população é um exemplo típico de v.a. com distribuição normal.
Uma v.a. \(X\) que segue uma distribuição normal é caracterizada por dois parâmetros:
\(\mu\): a média populacional (pronuncia-se “miu”); indica a localização central;
\(\sigma^2\): a variância populacional (pronuncia-se “sigma quadrado”); indica dispersão.
O desvio padrão populacional de \(X\) normal representa-se por \(\sigma\) e sendo, naturalmente, obtido pela raiz quadrada da variância \(\sigma^2\).
A notação habitual é
sendo esta notação equivalente a dizer que a função densidade de probabilidade é dada por
Veja mais sobre esta complexa função em função densidade normal. A função de distribuição não tem uma expressão matemática simples sendo obtida em calculadoras, software ou tabelas.
A calculadora gráfica, ou software, determinam probabilidades em intervalos fechados \([a;b]\), calculando a área entre o eixo XX e a curva \(f(x)\) como o exemplo mostra:
Através de variações nos parâmetros \(\mu\) e \(\sigma\) conseguem-se diferentes curvas em forma de sino
usar desvio-padrão ou variância
As variâncias de No estudo estatístico, por vezes fala-se em desvio padrão, \(\sigma\), e outras em variância, \(\sigma^2\). É importante usar uma única convenção e neste documento usa-se o seguinte:
a notação \(X \sim N(\mu,\;\sigma^2)\) refere sempre a variância; por exemplo, \(N(2,\; 100)\) indica uma distribuição normal de média 2 e variância 100;
nas calculadora e software, é sempre fornecido o desvio padrão; no exemplo anterior, é sempre fornecido o valor \(\sigma=10\).
exemplos
As seguintes variáveis aleatórias são bem modeladas por uma distribuição normal:
X = altura de um homem português com 30 anos (Portugueses entre os que mais cresceram)
Quando se pretende saber qual a probabilidade de uma pessoa ter 1,6 m (160cm) devemos recordar que no modelo contínuo:
para qualquer constante a. Assim, como saber qual a probabilidade de uma pessoa «ter 1 metro e 60 cm»? A resposta passa por interpretar «ter 160cm» como algo entre «159.5 cm» e «160.5 cm»:
ou seja, aproximadamente 1.7% dos portugueses «têm 1,6 m» no sentido abrangente.
Outro exemplo de v.a. com distibuição normal:
X = peso de um elefante-da-savana , em Kg
soma de duas v.a. normais
Sejam \(X\) e \(Y\) duas v.a. independentes tais que
Assim, nestas condições,
NOTA: nas máquinas e software tem que se usar o desvio da soma de variâncias: \(\sqrt{\sigma_1^2 + \sigma_2^2}\)
soma de várias v.a. normais
Tendo uma coleção de variáveis aleatórias (ver amostra aleatória)
e sendo cada uma das v.a. caracterizada pela mesma distribuição normal \(X \sim N(\mu,\; \sigma^2)\) então a «distribuição da soma de normais, independentes, é uma normal»:
A soma tem estes parâmetros:
\(n \mu\) (média populacional para a soma) vem de somar \(\mu + \mu + \cdots + \mu\), n vezes.
\(n \sigma^2\) (variância populacional para a soma) vem de somar \(\sigma^2 + \sigma^2 + \cdots + \sigma^2\), n vezes.
NOTA: nas máquinas e software usar o desvio da soma das n variâncias iguais: \(\sqrt{ n \, \sigma^2}\).
média de várias v.a. normais
A média amostral aleatória, \(\bar X\), também depende de uma soma de v.a.:
Assim, \(\bar X\), tem estes parâmetros:
\(\mu\) (valor esperado da «média amostral aleatória») vem de \(\frac{1}{n}(\mu + \mu + \cdots + \mu)=\mu\).
\(\frac{\sigma^2}{n}\) (variância populacional da v.a. média amostral) vem de
Com base na propriedade anterior, a seguinte propriedade é usada na estatística inferencial,
em que N(0,;1) é a distribuição normal padrão Z. O divisor \(\sigma/\sqrt{n}\) é o desvio padrão de \(\bar X\).
função densidade normal
A função \(f(x) = e^{-x}\) tem a forma de curva de sino. Podemos ver duas curvas, uma centrada em \(\mu=0\) e outra centrada em \(\mu=2\):
Para ser uma função densidade de probabilidade deve exitir área igual a 1. Para acomodar:
deslocação do centro para qualquer parte da reta real: \(x-\mu\)
para acomodar maior ou menor dispersão então divide-se por \(\sigma\): \(\frac{x-\mu}{\sigma}\)
área = 1 é necessário \(\frac{1}{\sigma \sqrt{2 \pi}}\) e 1/2
resultando na função densidade da distribuição normal:
Não existe uma expressão matemática simples para a função distribuição \(F(x)=P(X \le x)\) sendo esta obtida por métodos numéricos sendo o resultado obtido em tabelas, calculadora gráfica ou softwares.
normal centrada e reduzida
Chama-se «centrar e reduzir» à operação ilustrada por
em que \(\mu\) e \(\sigma\) são a média e desvio padrão da v.a. X. Considerando que \(X \sim N(\mu; \sigma^2)\) então
em que \(N(0,\; 1)\) se chama de distribuição normal padrão Z (consulte mais propriedades e notação nessa página).
São duas as razões desta operação tão frequente em estatística:
do ponto de vista de quem não tem acesso a calculadora gráfica, software local ou software online, esta operação permite a consulta de tabelas pois permite que o cálculo de uma probabilidade em X seja traduzido no cálculo de uma probabiildade em Z com recurso a tabelas em papel.
do ponto de vista teórico, o «centrar e reduzir», tornou-se um método fulcral na inferência estatística.
O exemplo mostra uma utilidade para a noção de «centrar e reduzir»:
exemplo
Se \(X \sim N(\mu=2; \sigma^2=100)\), então, subtraindo e dividindo assim
e \(P(Z \le 3/10) \approx 0.6293\). Este valor é obtido numa tabela da distribuição normal padrão Z; consulte a 3ª coluna da tabela N(0;1)
para confirmar o resultado 0.6293.
Notas:
Por ser muito frequente expressar \(P(Z \le 3/10)\) usa-se a notação \(\Phi(3/10)\) para o mesmo efeito.
Consulte outros casos aqui.
quantil da normal
Um quantil de ordem p é um valor real, denotado por \(x_p\), associado a uma probabilidade p verificando
Por exemplo, o quantil de ordem 0.025 (que se representa por \(x_{0.025}\)) de uma \(normal(0,\;1)\) é \(x_{0.025}=1.96\) pois
No caso da distribuição normal, os quantis são obtidos por uma destas opções:
calculadoras gráficas (funções do tipo inv.normal(prob, média, desvio))
consulta da tabela da normal (caso não disponha de calculadora gráfica)
Mais detalhes e propriedades em:
R Project
Tomemos o exemplo: determinar \(P(X \le 3)\) quando \(X\) segue uma \(N(\mu=4, \sigma^2=100)\):
pnorm(3,4,10) #nota: usar o desvio: 10
[1] 0.4601722
consulta da tabela da normal
Cálculo de uma probabilidade
então as probabilidades podem ser calculadas com a:
tabela N(0;1)
Os casos possíveis são:
\(P(X \le 5) = \Phi(\frac{5-2}{10}) = \Phi(3/10) \approx 0.6293\);
\(P(X \ge 5) = 1 - \Phi(\frac{5-2}{10}) = 1- \Phi(3/10) \approx 1 - 0.6293 \approx 0.3707\);
\(P(3 \le X \le 5) = \Phi(\frac{5-2}{10}) - \Phi(\frac{3-2}{10}) = \Phi(3/10) - \Phi(1/10) \approx 0.6293 - 0.5398 \approx 0.0895\).
Cálculo de um quantil
um quantil x é um valor no eixo X associado a uma probabilidade p para trás: dado p qual o x tal que \(P(X \le x) = p\).
Por exemplo, para determinar o quantil \(x_{0.25}\) da distribuição acima \(X \sim N(\mu=2,\, \sigma^2=100)\):
Procura-se na
na terceira página
1ª coluna
a percentagem 0.25. Deve encontrar: -0.674. Agora resolve-se:
Resolve-se: \(x=-0.674 \times 10 + 2 = -4.74\)
Justificação dos procedimentos acima:
consulte normal centrada e reduzida.
calculadoras gráficas
Recorda-se que:
a distribuição normal é contínua;
sendo contínua, apenas intervalos \(a \le X \le b\) podem ter probabilidade positiva ;
as probabilidades pontuais, como \(P(X = 3)\), são sempre zero pois a área definida por um ponto e o eixo XX é zero.
texas TI Nspire CX
determinar \(P(X \le 3)\) quando \(N(\mu=4, \sigma^2=100)\):
num documento ou rascunho
Menu => estatística (6) => distribuições… (5) => função de distribuição normal;
depois colocar média=4, desvio=10, limite inferior=-100000 e limite superior= 3;
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
determinar \(P(X \ge 3)\) quando \(N(\mu=4, \sigma^2=100)\):
num documento ou rascunho
Menu => estatística (6) => distribuições… (5) => função de distribuição normal..
depois colocar média=4, desvio=10, limite inferior=3 e limite superior=100000
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
nota: esta máquina determina probabilidades da forma \(P(a \le X \le b)\) em que «a» e «b» são os limites inferior e superior do intervalo.
determinar o quantil \(x_{0.25}\) da distribuição:
Menu => estatística (6) => distribuições… (5) => função inversa da distribuição normal.
depois colocar média=4, desvio=10, p=0.25
Deve obter -2.744898
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
Baixe o manual da NSpire: TI-Nspire Reference Guide PT
.
texas TI 84 e TI 83
Nota: -1E99 e 1E99 especificam «infinito».
determinar \(P(X \le 3)\) quando \(N(\mu=4, \sigma^2=100)\):
Selecione as teclas 2nd– DISTR (VARS).
Selecionar normalcdf e escrever normalcdf(-10^10, 3, 4, 10) (atenção à ordem)
Deve obter 0.4601722
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
determinar \(P(X \ge 3)\) quando \(N(\mu=4, \sigma^2=100)\):
Selecione as teclas 2nd– DISTR (VARS).
Selecionar normalcdf e escrever normalcdf(3, 10^10, 4, 10) (atenção à ordem)
Deve obter 0.5398278
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
determinar o quantil \(x_{0.25}\) da distribuição:
Selecione as teclas 2nd– DISTR (VARS).
Selecionar invnormal e escrever invnormal(4, 10, 0.25) (verifique a ordem)
Deve obter -2.744898
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
casio FX 9860gii
Exemplo: \(X\) segue uma quando \(N(\mu=4, \sigma^2=100)\):
Menu => Estatistica => F5 (DIST); F1 (NORMAL); F2 (Ncd)
Data: Var ou List (ver botões em baixo)
Se P(X<=3): Data: Variable; Lower=-100000; Upper=3; Mean=4; Stdev=10
Se P(X>=3): Data: Variable; Lower=3; Upper=100000; Mean=4; Stdev=10
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
Pelo comando:
P(X>=3) = NormCD(-10000, 3, 10, 4) <= atenção: desvio primeiro.
Determinar o quantil \(x_{0.25}\) da distribuição:
Menu => Estatistica => F5 (DIST); F1 (NORMAL); (aqui inversa)
Introduzir média = 4, desvio padrão = 10 e percentagem = 0.25
Deve obter -2.744898
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
casio FX CG 20
Exemplo: \(X\) segue uma quando \(N(\mu=4, \sigma^2=100)\):
Menu => Estatistica => F5 (DIST); F1 (NORMAL); F2 (Ncd)
Data: Var ou List (ver botões em baixo)
Se P(X<=3): Data: Variable; Lower=-100000; Upper=3; Mean=4; Stdev=10
Se P(X>=3): Data: Variable; Lower=3; Upper=100000; Mean=4; Stdev=10
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
Pelo comando:
P(X>=3) = NormCD(-10000, 3, 10, 4) <= atenção: desvio primeiro.
Determinar o quantil \(x_{0.25}\) da distribuição:
Menu => Estatistica => F5 (DIST); F1 (NORMAL); (aqui inversa)
Introduzir média = 4, desvio padrão = 10 e percentagem = 0.25
Deve obter -2.744898
use sempre o desvio padrão na calculadora mesmo que lhe seja dada a variância.
Estas instruções dependem de marcas ou versões de calculadoras ou software.