Boxplot: O resumo em forma gráfica

Por 15 de outubro de 2017Summary

Um dos objetivos da análise estatística é o de resumir os dados, possibilitando compreender por meio de gráficos ou de algumas medidas as informações que estão por traz de um banco de dados, mesmo quando ele contém diversas observações e variáveis. E para cada tipo de variável e objetivo, há um tipo de gráfico adequado para apresentá-lo, como é o caso do boxplot.

O boxplot é uma ferramenta bastante útil para compreender e comparar a distribuição de uma variável numérica entre grupos. Pode parecer um pouco complicado em um primeiro contato, mas ela nos permite a extração de uma quantidade enorme de informações sobre o fenômeno de interesse.

“O grande valor de uma imagem é quando ela nos obriga a notar o que nunca esperávamos ver. ” John Tukey.

A construção de um boxplot é baseada nos quartis da variável. Os quartis são medidas de posição que dividem um conjunto de dados ordenado em quatro partes iguais. O primeiro quartil (Q1) é o valor que deixa 25% das observações abaixo e 75% acima dele. O segundo quartil (Q2), que corresponde a mediana, deixa 50% das observações abaixo e 50% acima. Já o terceiro quartil (Q3), deixa 75% das observações abaixo e 25% acima dele.

Assim, a caixa central apresentada no boxplot é delimitada pelo primeiro e terceiro quartil, com uma linha traçada no seu interior, que representa a mediana.

A diferença entre o terceiro e primeiro quartis é denominada de amplitude interquartílica (AIQ), utilizada para determinar o comprimento das caudas do boxplot, sendo que o limite inferior é dado por LI = Q1 - 1,5AIQ, enquanto que o limite superior é dado por LS = Q3 + 1,5AIQ. Observações que apresentam valores fora desse intervalo são indicativos de outliers (valores atípicos), representadas por pontos.

Por fim, as extremidades das caixas do boxplot são representadas pelo mínimo e o máximo dos dados observados sem os pontos destacados como outliers pelo critério acima.Exemplo de boxplot.Assim, podemos avaliar os seguintes aspectos por meio do boxplot:

  • Posição: a mediana, representada pela linha na caixa, é uma medida que caracteriza o centro dos dados;
  • Concentração: a caixa da amplitude interquartílica, limitada pelo primeiro e terceiro quartil, mostra onde concentra-se metade dos dados;
  • Assimetria: se a linha mediana dentro da caixa não é equidistante dos extremos, há indícios de que os dados se distribuem de modo assimétrico;
  • Dispersão: quanto maior a caixa e as caudas, maior é a dispersão dos dados;
  • Valores atípicos: os pontos fora do gráfico indicam possíveis outliers.

Em resumo, o boxplot mostra graficamente a posição central dos dados (mediana), dá um indicativo se a distribuição dos dados é simétrica ou assimétrica, indica possíveis outliers e permite comparar grupos facilmente, apresentando os boxplots de cada grupo lado a lado, como no exemplo a seguir:Comparação de grupos via boxplot.No caso da figura acima, pode-se comparar facilmente a distribuição dos dois grupos, sendo que o grupo um além de maior mediana, apresenta também uma maior dispersão, dado a altura das caixas e caudas.

Precisa resumir e apresentar as informações da sua pesquisa? Entre em contato conosco e solicite um orçamento.

Solicite um orçamento

Autor Larissa Fernandes

Mais posts de Larissa Fernandes

Insira uma resposta