Medidas de dispersão
Conceitos envolvidos:
- Amplitude total;
- Desvio médio;
- Variância;
- Desvio padrão e
- Coeficiente de Variação.
As medidas mais comuns de variabilidade para dados quantitativos são a variância; a sua raiz quadrada, o desvio padrão. A amplitude total, a distância interquartílica e o desvio absoluto.
Variância
O termo variância foi introduzido por Ronald Fisher num ensaio de 1918 intitulado de The Correlation Between Relatives on the Supposition of Mendelian Inheritance.
Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, que indica o quão longe em geral os seus valores se encontram do valor esperado.
Definição
Se μ = E(X) é o valor esperado (média) da variável aleatória X, então a variância é
Isto é, é o valor esperado do quadrado do desvio de X da sua própria média. Em linguagem comum isto pode ser expresso como "A média do quadrado da distância de cada ponto até a média". É assim a "média do quadrado dos desvios". A variância da variável aleatória "X" é geralmente designada por σ2.
Notar que a definição acima pode ser usada quer para variáveis aleatórias discretas,e para variáveis contínuas.
Propriedades
Se a variância pode ser calculada (ou seja, a integral ou o somatório convergem), podemos concluir que ela nunca é negativa, porque os quadrados são sempre positivos ou nulos.
A unidade de variância é o quadrado da unidade de observação. Por exemplo, a variância de um conjunto de alturas medidas em centímetros será dada em centímetros quadrados. A variância de um preço, medido, por exemplo, em dólar por metro cúbico, será dada em dólares quadrados por metro à sexta potência, uma unidade que não faz nenhum sentido prático. Este fato é inconveniente e levou muitos estatísticos a usar a raiz quadrada da variância, conhecida como o desvio padrão, como um sumário da dispersão.
Pode ser provado facilmente a partir da definição que a variância não depende do valor médio μ. Isto é, se a variável é "deslocada" por uma quantidade b ao tomarmos X+b, a variância da variável aleatória resultante permanece inalterada. Por contraste, se a variável for multiplicada por um fator de escala "a", a variância é então multiplicada por a2. Mais formalmente, se a e b forem constantes reais e X uma variável aleatória cuja variância está definida, então:
Outra fórmula para a variância que se deduz de forma simples a partir da definição acima é:
Na prática usa-se muito frequentemente esta fórmula para calcular mais rapidamente a variância.
Uma razão para o uso da variância em preferência a outras medidas de dispersão é que a variância da soma (ou diferença) de variáveis aleatórias independentes é a soma das suas variâncias.
Aqui cov é a covariância, a qual é zero para variáveis aleatórias não correlacionadas.
Variância da população e variância da amostra
Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).
A variância da população de uma população yi onde i = 1, 2, ...., N é dada por

onde μ é a média da população. Na prática, quando lidando com grandes populações, é quase sempre impossível achar o valor exato da variância da população, devido ao tempo, custo e outras restrições aos recursos.
Um método comum de estimar a variância da população é através da tomada de amostras. Quando estimando a variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n, a fórmula seguinte é um estimador não enviesado:

onde o vetor x é a média da amostra.
Notar que o denominador n-1 acima contrasta com a equação para a variância da população. Uma fonte de confusão comum é que o termo variância da amostra e a notação s2 pode referir-se quer ao estimador não enviesado da variância da população acima como também àquilo que é em termos estrictos, a variância da amostra, calculada usando n em vez de n-1.
Intuitivamente, o cálculo da variância pela divisão por n em vez de n-1 dá uma sub-estimativa da variância da população. Isto porque usamos a média da amostra como uma estimativa da média da população μ, o que não conhecemos. Na prática, porém, para grandes n, esta distinção é geralmente muito pequena.
Desvio padrão
O desvio padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que:
- 1. seja um número não negativo;
- 2. use as mesmas unidades de medida que os nossos dados.
Definição e Cálculo
Desvio padrão de uma variável aleatória
Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão s de um sub-conjunto em amostra.
O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de 1894: "Sobre a dissecção de curvas de frequência assimétricas".
O desvio padrão de uma variável aleatória X é definido como:
onde E(X) é o valor esperado de X.
Nem todas as variáveis aleatórias possuem desvio padrão, porque esses valores esperados não precisam existir.
Desvio padrão amostral
Se uma variável aleatória X toma os valores x1,...,xn, então o desvio padrão para esta amostra de n números (ou desvio padrão amostral) pode ser computado como segue.
Primeiro, a média de X, ![]()
é definida como:

Depois o desvio padrão amostral é calculado como:

A divisão por n-1 aparece quando exigimos que a variancia amostral s2 seja um estimador não tendencioso da variância populacional
Quando os dados estão agrupados(frequência) temos:

onde k é o número de observações diferentes.
Em outras palavras, o desvio padrão amostral de uma variável aleatória X pode ser calculada como:
- Para cada valor xi calcula-se a diferença entre xi e o valor médio
. - Calcula-se o quadrado dessa diferença. No caso dos dados estarem tabelados (com frequências), multiplica-se cada um destes quadrados pela respectiva frequência.
- Encontra-se a soma dos quadrados das diferenças. No caso dos dados estarem tabelados (com frequências), a soma é a dos produtos dos quadrados das diferenças pela respectiva frequência.
- Divide-se este resultado por: (número de valores - 1), ou seja, (n − 1).Esta quantidade é a variância s2.
- Tome a raiz quadrática deste resultado.
Propriedades
De uma distribuição normal unimodal, simétrica, de afunilamento médio (ou mesocúrtica) podemos dizer o seguinte:

- 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.
- 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.
- 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.
Esta informação é conhecida como a regra dos "68-95-99,7".




