Medidas x Gráficos

Por 9 de outubro de 2017Summary

Medidas resumo são uma das primeiras coisas que vem a mente quando se fala de estatísticas, como a média. Porém, será que elas por si só são suficientes para descrever um conjunto de dados?

Francis John "Frank" Anscombe ficou famoso por suas contribuições, em especial, o quarteto de Anscombe, em que demonstra 4 conjunto de dados que possuem as mesmas medidas resumo (média, desvio padrão e correlação linear) iguais, porém diferem em aparência, como vemos abaixo.

Ilustração do quarteto de Anscombe

Ilustração do quarteto de Anscombe (Wikipedia).

Justin Matejka e George Fitzmaurice em um post recente modernizaram esta ideia com novos bancos de dados. Estes utilizaram o conjunto de dados Datasaurus.

Banco "Dinossauro" do conjunto de dados Datasaurus

Figura 1: Banco "Dinossauro" do conjunto de dados Datasaurus.

Além dos dados da Figura 1, este conjunto possui outros 12 bancos de dados, em que todos possuem:

  1. Média para a variável X  = 54,26
  2. Média para a variável Y  = 47,83
  3. Desvio padrão para a variável X  = 16,76
  4. Desvio padrão para a variável Y  = 26,93
  5. Correlação entre as variáveis X e Y = -0,06
Demais bancos do conjunto de dados Datasaurus, mostrando a diferença entre medidas x gráficos

Figura 2: Demais bancos do conjunto de dados Datasaurus.

Vemos então que apesar de os bancos de dados terem as mesmas estatísticas, seus comportamentos diferem demais. Podemos concluir o mesmo que Anscombe em 1973, em fazer sim todos os cálculos, mas também construir todos os gráficos que complementam as análises para que ambos possam ser estudados.

Para sugestões de mais temas a serem abordados, é só clicar abaixo:

Entre em contato conosco

 

Autor Vinícius Felix

Mais posts de Vinícius Felix

Insira uma resposta