카테고리 없음

책) 4장 통계와 확률 : 알고리즘으로 배우는 인공지능, 머신러닝 딥러닝 입문(김의중)

세밍_ 2021. 4. 30. 15:33
728x90
반응형

오늘날의 통계학은 경험과학에서 생길 수 있는 불확실성을 계량적으로 설명하기 위한 논리와 방법론을 연구

- 기술통계학(descriptice stastics) : 관찰된 자료를 수집하고 정리 및 요약해 현재의 상황을 이해하는 것이 목적

- 추리통계학(inferential statistics) : 모집단에서 추출된 표본 자료를 분석해 확률이론을 바탕으로 모집단의 특성을 추리하는데 중점을 둠

머신러닝과 딥러닝에게 학습시키는 과정에서 기술통계학 이론이 적용되고 새로운 입력값에 대해 결과를 예측하는 과정은 확률이론이 적용됨

 

상관분석과 회귀분석

상관분석

독립변수와 종속변수 간의 관계의 강도, 얼마만큼 밀접하게 관련돼 있는지를 분석하는것. 이때 변수들 간의 상관성 유무만 확인할 뿐 서로의 인과관계는 분석하지 않음

 

상관계수 r

상관분석의 핵심은 상관계수를 구하는 것

독립변수와 종속변수의 관계 정도를 [-1, 1]로 정량화 한것

독립변수와 종속변수가 함께 변하는 정도를 독립변수와 종속변수가 따로 변하는 정도로 나눈 값

얼마나 선형적 상관성을 가지고 있는지 표현

0인 경우 관계가 없다고 말해지며 -1이나 1에 가까우면 상관관계가 매우 강하다고 말해짐, 추가로 회귀분석을 통해 새로운 입력값에 대한 예측갑을 알아낼 수도 있음

 

회귀분석

관측된 사건을 정량화해서 여러 독립변수와 종속변수의 관계를 함수식으로 설명하는 방법

상관계수 r 과함께 결정계수 r^2도 많이 쓰이는데 r^2>0.65면 의미있는 회귀식이라고 말함

 

선형 회귀

독립변수가 1차항으로 되어있다는 의미

만약 독립변수에 지수항이 있다면 비선형

 

선형회귀식을 구할때 최소제곱법을 이용함. 최소제곱법은 주어진 독립변수에 대해 임의의 계수를 가지는 어떤 함수식으로 예측한 결괏값과 실제값의 차이(오차(error), 잔차(residual))을 제곱해 모두 더한 값이 최소가 되는 함수식이 가장 타당한 회귀식이라는 이론

 

회귀식이

로 주어져 있을때 관찰된 데이터

의 오차가

일 때 다음과 같이 표현할 수 있다.

모든 데이터 세트에 대해 오차를 구하고, 다시 그 오차를 제곱해 모두 더한 값을 최소로 만드는 베타 제로와 베타 원을 구하면 회귀을 얻을 수 있다. 이것을 수식으로 정리하면 다음과 같다.

먼저 오차의 제곱을 모두 더한 것을 목적함수 E(베타 제로, 베타 1)이라고 했을때

여기서 1/2는 계산의 편의성을 위한 상수가 n는 학습데이터 크기이다.

위의 최소값을 구하기 위해 위의 식을 각각 베타 제로, 베타 원에 대한 편미분을 취하고 이를 0으로 하는 베타 제로, 베타 원 값을 구하면 된다.

여기서 베타 제로, 베타 원을 미분한다는 것은 베타 제로, 베타 원에 대한 증가율(기울기)를 의미하는데, 기울기가 0이 되는 지점이 곧 최소 또는 최대가 된다. 여기서는 아래로 볼록한 형태의 2차 곡선이으로 최솟값을 만드는 베타 제로, 베타 원을 구할 수 있다. 

 

728x90
반응형