Erro
  • Falha ao carregar notícias.

Noções Básicas Sobre Medidas de Dispersão

Imprimir
PDF

 

Medidas de dispersão

Conceitos envolvidos:

  • Amplitude total;
  • Desvio médio;
  • Variância;
  • Desvio padrão e
  • Coeficiente de Variação.

 

As medidas mais comuns de variabilidade para dados quantitativos são a variância; a sua raiz quadrada, o desvio padrão. A amplitude total, a distância interquartílica e o desvio absoluto.

Variância

O termo variância foi introduzido por Ronald Fisher num ensaio de 1918 intitulado de The Correlation Between Relatives on the Supposition of Mendelian Inheritance.


Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, que indica o quão longe em geral os seus valores se encontram do valor esperado.


Definição


Se μ = E(X) é o valor esperado (média) da variável aleatória X, então a variância é

 

var(X) = E((X - μ)2)

 


Isto é, é o valor esperado do quadrado do desvio de X da sua própria média. Em linguagem comum isto pode ser expresso como "A média do quadrado da distância de cada ponto até a média". É assim a "média do quadrado dos desvios". A variância da variável aleatória "X" é geralmente designada por σ2.

Notar que a definição acima pode ser usada quer para variáveis aleatórias discretas,e para variáveis contínuas.

 


Propriedades

Se a variância pode ser calculada (ou seja, a integral ou o somatório convergem), podemos concluir que ela nunca é negativa, porque os quadrados são sempre positivos ou nulos.

A unidade de variância é o quadrado da unidade de observação. Por exemplo, a variância de um conjunto de alturas medidas em centímetros será dada em centímetros quadrados. A variância de um preço, medido, por exemplo, em dólar por metro cúbico, será dada em dólares quadrados por metro à sexta potência, uma unidade que não faz nenhum sentido prático. Este fato é inconveniente e levou muitos estatísticos a usar a raiz quadrada da variância, conhecida como o desvio padrão, como um sumário da dispersão.

Pode ser provado facilmente a partir da definição que a variância não depende do valor médio μ. Isto é, se a variável é "deslocada" por uma quantidade b ao tomarmos X+b, a variância da variável aleatória resultante permanece inalterada. Por contraste, se a variável for multiplicada por um fator de escala "a", a variância é então multiplicada por a2. Mais formalmente, se a e b forem constantes reais e X uma variável aleatória cuja variância está definida, então:

var(aX +b) = a2 var(X)


Outra fórmula para a variância que se deduz de forma simples a partir da definição acima é:


var(X) = E(X2) - (E(X))2

Na prática usa-se muito frequentemente esta fórmula para calcular mais rapidamente a variância.

Uma razão para o uso da variância em preferência a outras medidas de dispersão é que a variância da soma (ou diferença) de variáveis aleatórias independentes é a soma das suas variâncias.

var (X+Y) = var(X) + var(Y) + 2cov(X,Y)

Aqui cov é a covariância, a qual é zero para variáveis aleatórias não correlacionadas.

 


Variância da população e variância da amostra

Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).

A variância da população de uma população yi onde i = 1, 2, ...., N é dada por


Variância de uma população yi


onde μ é a média da população. Na prática, quando lidando com grandes populações, é quase sempre impossível achar o valor exato da variância da população, devido ao tempo, custo e outras restrições aos recursos.

Um método comum de estimar a variância da população é através da tomada de amostras. Quando estimando a variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n, a fórmula seguinte é um estimador não enviesado:

variância com estimador não enviesado.

onde o vetor x é a média da amostra.

Notar que o denominador n-1 acima contrasta com a equação para a variância da população. Uma fonte de confusão comum é que o termo variância da amostra e a notação s2 pode referir-se quer ao estimador não enviesado da variância da população acima como também àquilo que é em termos estrictos, a variância da amostra, calculada usando n em vez de n-1.

Intuitivamente, o cálculo da variância pela divisão por n em vez de n-1 dá uma sub-estimativa da variância da população. Isto porque usamos a média da amostra  como uma estimativa da média da população μ, o que não conhecemos. Na prática, porém, para grandes n, esta distinção é geralmente muito pequena.

 

Desvio padrão

O desvio padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que:

  • 1. seja um número não negativo;
  • 2. use as mesmas unidades de medida que os nossos dados.
Definição e Cálculo
Desvio padrão de uma variável aleatória

Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão s de um sub-conjunto em amostra.

O termo desvio padrão foi introduzido na estatística por Karl Pearson no seu livro de 1894: "Sobre a dissecção de curvas de frequência assimétricas".

O desvio padrão de uma variável aleatória X é definido como:

Desvio padrao

onde E(X) é o valor esperado de X.

Nem todas as variáveis aleatórias possuem desvio padrão, porque esses valores esperados não precisam existir.

 

Desvio padrão amostral

Se uma variável aleatória X toma os valores x1,...,xn, então o desvio padrão para esta amostra de n números (ou desvio padrão amostral) pode ser computado como segue.

Primeiro, a média de X, 
é definida como:

Média


Depois o desvio padrão amostral é calculado como:

Desvio padrão

A divisão por n-1 aparece quando exigimos que a variancia amostral s2 seja um estimador não tendencioso da variância populacional

Quando os dados estão agrupados(frequência) temos:

Desvio padrão

onde k é o número de observações diferentes.


Em outras palavras, o desvio padrão amostral de uma variável aleatória X pode ser calculada como:

  1. Para cada valor xi calcula-se a diferença entre xi e o valor médio  .
  2. Calcula-se o quadrado dessa diferença. No caso dos dados estarem tabelados (com frequências), multiplica-se cada um destes quadrados pela respectiva frequência.
  3. Encontra-se a soma dos quadrados das diferenças. No caso dos dados estarem tabelados (com frequências), a soma é a dos produtos dos quadrados das diferenças pela respectiva frequência.
  4. Divide-se este resultado por: (número de valores - 1), ou seja, (n − 1).Esta quantidade é a variância s2.
  5. Tome a raiz quadrática deste resultado.

Propriedades

De uma distribuição normal unimodal, simétrica, de afunilamento médio (ou mesocúrtica) podemos dizer o seguinte:

Curva normal

  • 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.
  • 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.
  • 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.

Esta informação é conhecida como a regra dos "68-95-99,7".

 

Exemplos

AprendoFacil :: Treinamento Online.