AI & 데이터 분석/아티클 & 책

아티클) 평균이란 무엇인가 | 평균연봉의 함정_데이터분석가의 숫자유감(리디북스)

세밍_ 2021. 4. 18. 23:18
728x90
반응형

https://select.ridibooks.com/article/@data/11

요약)

데이터를 대표하는 대푯값으로 사용되는 평균은 보통 전체의 데이터를 더해서 전체 데이터 갯수로 나눈 산술평균을 사용한다. 

하지만 10인 데이터 10개와 1000인 데이터 1개가 있을 때의 산술평균은 (10*10+1000*1)/11 은 100이 되어 대표값으로 사용하기 약간 비약이 있다.(실재하는 값이 아니기도 하다.)

 

그래서 대표값을 고려할 때는 그 값이 어떤 집합을 대표하고 어떻게 요약된건지를 반드시 고려해야 한다

- 중앙값 : 수치 집합을 작은 순서부터 정렬해서 가운데 순서에 위치한 값, 실재한 값

- 최빈값 : 수치 집합의 원 소 중 가장 많은 원소가 포함된 범위의 값

 

우리가 대표값을 산술 평균이라고 많이 생각하는 것은 데이터가 정말 많이 모여져 있어 전체 데이터의 분포가 종모양을 따르는 '정규분포'일 때라고 생각하기 때문인데, 이때는 중앙값, 최빈값이 평균과 거의 같아 대푯값을 뭘로 생각할지 크게 고민하지 않아도 된다.

정규분포 그래프

하지만 현실 속의 많은 부분은 정규분포를 따르는 경우가 드물고 최근에는 한쪽이 몰려있는 롱테일 그래프가 많다

롱테일 그래프

그래서 대푯값을 볼때 평균(산술평균) 뿐만 아니라 데이터의 그래프 자체도 고려해야 한다

 

느낀점) 

대푯값으로 사용할 수 있는 것이 3가지 정도나 있으며 어떤 것을 선택하느냐에 따라서 받아들이는 사용자 입장의 해석이 달라질 여지가 충분히 있기 때문에 데이터 분석 보고서를 작성하거나 할 일이 있을 때 대푯값을 잘 선택해야 함을 느꼈다

728x90
반응형