O gráfico boxplot and outliers é um dos mais usados para a comparação de dados por distribuição em análises estatísticas.
Ele revela, entre outras coisas, como um conjunto de dados se apresenta, quais valores são mais frequentes e as suas discrepâncias, os outliers.
Trata-se de uma ferramenta bastante útil nas mais variadas atividades produtivas porque gera diversos insights em um gráfico de fácil leitura.
Aprenda como interpretá-lo, como identificar outliers em um gráfico boxplot e as vantagens de utilizar essa ferramenta.
Boxplot and outliers: entenda como funciona o método
O gráfico boxplot and outliers funciona como um instrumento de análise de dados, agrupando um conjunto de dados em três grupos:
- Quartis: representados pela caixa dentro do gráfico, simboliza os três grupos de dados em que estão contidos 25% (Q1), 50% (Q2) e 75% (Q3) deles
- Mediana: a linha que divide o box em duas partes, podendo ou não serem iguais
- Outlier: dados que não se enquadram em nenhum dos quartis.
Veja abaixo um conjunto de dados que poderia ser usado para criar um gráfico boxplot:
Posição | Nome | Idade |
1 | Pedro | 19 |
2 | João | 20 |
3 | Ana | 22 |
4 | Maria | 25 |
5 | Carlos | 27 |
6 | Beatriz | 28 |
7 | Rafael | 30 |
8 | Fernanda | 32 |
9 | Guilherme | 35 |
10 | Camila | 38 |
11 | Lucas | 40 |
12 | Gabriela | 42 |
13 | André | 45 |
14 | Laura | 48 |
15 | Bruno | 50 |
Nesse caso, vamos primeiro saber qual idade está presente em que 25% dos dados sejam equivalentes ou de valor menor, ou seja, no primeiro percentil (Q1).
Existe uma fórmula que facilita esse cálculo:
- Percentil 25 = 25 * Tamanho da Amostra / 100 = 25 * 15/100 = 3,75.
Nesse caso, aproximadamente 25% das idades do grupo de dados são de até 25 anos, que é a idade na 3ª posição da tabela.
Note que o exemplo dá um número “quebrado”, o que exige um procedimento chamado interpolação, que é assunto para um outro conteúdo.
O que é Boxplot?
Boxplot é um tipo de gráfico que mostra como um grupo de dados se distribui, como vimos, considerando os 25%, 50% e 75% mais frequentes.
Veja na imagem abaixo o aspecto do gráfico:
Fonte: Researchgate
O termo “box”, como podemos perceber, se refere ao retângulo em que são marcadas as linhas de cada percentil.
Na de baixo, temos a linha que determina onde estão os 25% mais frequentes (Q1), na do meio os 50% (Q2) e na linha superior do retângulo os 75% (Q3).
O que são outliers?
Você certamente reparou que o box é delimitado por baixo e por cima por duas traves (ou hastes).
Elas marcam a posição dos dados que não se enquadram em nenhuma das distribuições, mas que têm alguma representatividade.
Tudo que estiver fora dos limites do box e das traves é chamado de “outlier”, que por sua vez podem indicar discrepâncias ou mesmo dados inseridos erroneamente na análise.
Como visualizar outliers no gráfico boxplot?
Uma das vantagens do boxplot é dar uma visão não apenas sobre a distribuição, mas sobre a própria qualidade dos dados utilizados.
Por isso, os outliers estão sempre posicionados fora da área delimitada pelo box e pelas traves.
A presença desse tipo de dado em grandes quantidades sugere que a amostra usada tem muita variação ou que pode ter havido algum erro na medição dos dados.
Quais as vantagens de identificar outliers no Boxplot?
A principal vantagem de identificar outliers em um gráfico boxplot é a rapidez.
Com apenas uma visualização, é imediatamente revelado se a amostra é consistente e qual o volume dos dados não se enquadra em nenhum percentil (Q1, Q2 ou Q3).
Outra vantagem que torna esse gráfico bastante utilizado é poder comparar conjuntos de dados tanto qualitativa quanto de forma quantitativa.
Veja no exemplo abaixo, que mostra a diferença de peso entre gatos machos e fêmeas:
Fonte: Statplace
Saiba mais sobre gráficos, dados e gestão da qualidade
O boxplot é apenas um dos gráficos utilizados por profissionais de melhoria e de qualidade nos setores da indústria, comércio e serviço.
Aliás, quem atua de forma estratégica sempre se baseia por dados.
Fazendo os cursos EAD, Green Belt e Black Belt da Escola EDTI, você se capacita para empregar esse tipo de ferramenta com maestria.
Seja um solucionador de problemas, formando-se em uma instituição acreditada pela The Council for Six Sigma Certification!
Conclusão
As ferramentas estatísticas são essenciais em projetos de combate ao desperdícios, detecção de falhas e aumento da qualidade.
O boxplot and outliers certamente é uma das mais eficazes nesse aspecto, ajudando a comparar e a analisar dados em profundidade.