728x90
반응형
요약
상관관계는 인과관계를 나타내지 않는다.
이 둘의 개념은 상당히 비슷하게 다가와 착각을 많이 한다.
- 인과관계 : 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 식의 원인과 결과 관계가 명확한 것
- 상관관계 : 두 변수들이 얼마나 상호 의존적인지 의미. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식
상관관계 정도를 숫자로 표시한 것이 상관계수며 여러 데이터를 분석 할 때 추이가 비슷한정도를 상관계수로 확인한다.
하지만 상관계수가 높게 나온다고 이를 특정 문제의 원인으로 꼽는 방식은 잘못됐다.
상관관계의 변수는 상호 의존적이라 그 계수가 우연이거나 유사한 상태로 변했을 수 있다. 즉 상관관계수는 높게 나오지만 영향을 주는 원인이 아예 아닐 수도 있다. 그러므로 두 변수를 상관관계 만으로 원인과 결과임으로 판단할 수 없다.
그래서 상관관계가 인과관계를 나타내는 것은 아닌 것이다
내생변수와 외생변수를 이해할 것
실험실에서 통제하의 변수들로 부터 만들어진 결과와 다른게 우리가 이용하고 분석하려는 데이터는 통제할 수 없는 외생변수로부터의 영향을 많이 받는다. 그렇기에 외생변수가 데이터에 영향을 준다는 것을 명확하게 인지하고 데이터 패턴 탐색 및 의미부여를 오용해서는 안된다.
느낀점
상관관계를 인과관계로 착각해서는 안된다는 것은 알고 있었지만 보다 정확하게 그 이유와 논지들을 따져볼 수 있었다.
데이터 분석을 할 때 외생변수에 대한 것을 염두에 두지 않은 것은 아니지만 보다 그 존재성을 명확히 생각할 수 있게 되었다.
728x90
반응형
'AI & 데이터 분석 > 아티클 & 책' 카테고리의 다른 글
책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(1) (0) | 2021.04.29 |
---|---|
아티클) 모수와 표본 : 모수가 이렇게 충분한데 그냥 쓰면 안될까?(리디북스_데이터분석가의 숫자유감) (0) | 2021.04.25 |
아티클) 숫자의 불확실성_데이터분석가의 숫자유감(리디북스) (0) | 2021.04.18 |
아티클) 인구통계학 정보의 효용성_데이터분석가의 숫자유감(리디북스) (0) | 2021.04.18 |
아티클) 평균이란 무엇인가 | 평균연봉의 함정_데이터분석가의 숫자유감(리디북스) (0) | 2021.04.18 |