AI & 데이터 분석/아티클 & 책

아티클 ) 상관관계와 인과관계 : 광고덕분에 DAU가 늘었다?(리디북스_데이터분석가의 숫자유감)

세밍_ 2021. 4. 25. 23:15
728x90
반응형

요약

상관관계는 인과관계를 나타내지 않는다.

이 둘의 개념은 상당히 비슷하게 다가와 착각을 많이 한다.

 

  • 인과관계 : 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 식의 원인과 결과 관계가 명확한 것
  • 상관관계 : 두 변수들이 얼마나 상호 의존적인지 의미. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식

 

상관관계 정도를 숫자로 표시한 것이 상관계수며 여러 데이터를 분석 할 때 추이가 비슷한정도를 상관계수로 확인한다.

하지만 상관계수가 높게 나온다고 이를 특정 문제의 원인으로 꼽는 방식은 잘못됐다.

상관관계의 변수는 상호 의존적이라 그 계수가 우연이거나 유사한 상태로 변했을 수 있다. 즉 상관관계수는 높게 나오지만 영향을 주는 원인이 아예 아닐 수도 있다. 그러므로 두 변수를 상관관계 만으로 원인과 결과임으로 판단할 수 없다.

그래서 상관관계가 인과관계를 나타내는 것은 아닌 것이다

 

내생변수와 외생변수를 이해할 것 

실험실에서 통제하의 변수들로 부터 만들어진 결과와 다른게 우리가 이용하고 분석하려는 데이터는 통제할 수 없는 외생변수로부터의 영향을 많이 받는다. 그렇기에 외생변수가 데이터에 영향을 준다는 것을 명확하게 인지하고 데이터 패턴 탐색 및 의미부여를 오용해서는 안된다.

 

느낀점

상관관계를 인과관계로 착각해서는 안된다는 것은 알고 있었지만 보다 정확하게 그 이유와 논지들을 따져볼 수 있었다.

데이터 분석을 할 때 외생변수에 대한 것을 염두에 두지 않은 것은 아니지만 보다 그 존재성을 명확히 생각할 수 있게 되었다.

 

 

 

728x90
반응형