Estudar a correlação entre variáveis é uma importante fonte para o entendimento de um problema e uma maneira de encontrar possíveis soluções. Por exemplo, se estamos produzindo algum serviço, a saída é entregá-lo, porém este serviço pode ser avaliado sobre importantes pontos de vista ou variáveis importantes para nosso cliente.
Estude essa relação agora!
eBook: Como fazer análise de dados
A análise de dados tem sido uma habilidade cada vez mais requisitada no mercado de trabalho. A quantidade de dados disponíveis é enorme, mas poucas pessoas conseguem transformá-los em insights para decisões de negócios.
Quando medimos variáveis, geralmente estamos interessados no estudo da relação entre as variáveis. Vamos considerar por hora a situação em que as duas variáveis podem ser consideradas como contínuas.
Exemplo. Uma empresa que distribui produtos por todo o país contrata uma empresa aérea para efetuar o transporte. Um estudo foi realizado pela empresa contratante para verificar a relação entre o custo de transporte (Y)
e o peso do material transportado (X).
Os dados se referem a um período de 6 meses e estão apresentados na tabela abaixo.
O primeiro passo na análise dos dados é colocar os pontos num gráfico cartesiano de Y em função de X:
Do gráfico pode-se perceber que:
» Há uma tendência de aumento do custo com o aumento do peso ( o que era de se esperar nesse exemplo);
» Que a relação entre as duas variáveis é aproximadamente linear na região em que temos observações;
» Que há uma forte relação entre as duas variáveis.
Interpretação do coeficiente de correlação
Para quantificar o grau de associação linear entre duas variáveis é utilizado o coeficiente de correlação linear.
Este índice mede a direção e a força de associação linear entre as variáveis, podendo variar de -1 a 1.
Valores próximos de -1 ou +1 indicam forte associação. Valores próximos de zero indicam pouca associação. O sinal do coeficiente indica se a associação é positiva (Y aumenta com o aumento de X) ou negativa ( Y decresce com o aumento de X).
O coeficiente de correlação para os dados acima é 0.98 e você pode calculá-lo com qualquer software de análise de dados, como o Excel.
Se os pontos no gráfico apresentam pouca dispersão em torno de uma reta ligando X e Y dizemos que existe uma forte correlação linear entre as variáveis. Se os pontos apresentam alta dispersão dizemos que as variáveis são pouco correlacionadas.
Alguns exemplos de gráficos de dispersão
A seguir apresentamos diversas configuração de pares (X,Y):
Os diagramas da Figura (a) e (b) mostram duas situações onde os pontos estão em torno de uma reta imaginária ascendente. Valores pequenos de X estão associados a valores pequenos de Y, o mesmo acontecendo para valores grandes.
Estes dois casos indicam o que chamamos de correlação linear positiva de Y e X. O dados em (a) estão mais próximos da reta imaginária, caracterizando uma correlação mais forte que a de (b), ou seja, o valor da correlação em (b) está mais próxima de +1 do que (a), apesar do que, os dois conjuntos de dados têm valor de r maiores do que zero.
A Figura (c) mostra que os pontos em X e Y estão em torno de uma reta imaginária descendente, indicando o que chamamos de correlação linear negativa, ou seja, valor de r menor que zero.
Os valores de X e Y na Figura (d) não sugerem uma associação entre duas variá-veis pois valores pequenos, ou grandes, de X estão associados tanto a valores pequenos quanto a valores grandes de Y.
Os pontos do diagrama não se posicionam em torno de uma linha imaginária ascendente ou descendente.
Aspectos importantes
Para começar o estudo de relação entre variáveis precisamos primeiro identificar alguns aspectos:
1. A variável é Y ou X?
Y: Variáveis de saída do processo cujo comportamento você quer explicar e obter um modelo. Ela pode ser chamada de variável resposta ou variável dependente.
X: Variáveis de processo ou de entrada, candidatas a explicar o comportamento das variáveis resposta. Podem ser chamadas de variáveis explicativas, variáveis independentes ou fatores.
2. A variável é numérica ou categórica?
Identificados estes aspectos basta localizar a técnica estatística adequada na tabela:
Correlação espúria: Cuidado!
Nem sempre correlação implica causalidade. Dizemos que uma variável X “causa” Y se X provoca um efeito ou resultado em Y.
Devemos estar atentos para não confundir os conceitos de correlação e causalidade. Muitas vezes encontramos uma forte correlação entre duas variáveis e somos tentados a estabelecer uma relação de causa e efeito entre as duas variáveis, o que nem sempre é verdade.
Duas variáveis podem estar correlacionadas porque a variável X é causa direta da variável Y ou variável Y é causa direta da variável X; a variável X contribui para a variação em Y, mas não é a única causa.
Outras variáveis podem estar provocando a correlação; ambas as variáveis estão mudando com o tempo, a associação não passa de coincidência. Quando encontramos uma correlação sem relação causal, dizemos que temos uma correlação espúria.
Relação de causa e efeito
Uma forma de se estabelecer se a relação é de causa e efeito é através da realização de experimentos planejados.
Estudar a correlação entre duas ou mais variáveis pode ser bastante útil.
Se Y é uma medida de um produto ou processo e se Y está fortemente correlacionada com outra medida X que é mais barata ou mais fácil de obter, então podemos medir X e através da relação existente entre elas estimar o valor de Y.
A técnica utilizada nesse tipo de situação é regressão linear, que será estudada mais à frente.
Para saber mais sobre importantes ferramentas que auxiliam em projetos de melhoria, confira nossos cursos de Green Belt e Black Belt.