머신러닝은 3가지 접근법으로 연구가 진행되어 옴
- 신경모형 패러다임 : 퍼셉트론에서 출발해서 지금은 딥러닝으로 이어져 오고 있음
- 심볼 개념의 학습 패러다임 : 숫자나 통계 이론 대신 논리학이나 그래프 구조를 사용해 1970년대 중반~2080년대 후반까지 인공지능의 핵심적인 접근법
- 현대지식의 집약접 패러다임 : 백지상태에서 학습을 시작하는 신경모형을 지양하고 이미 학습된 지식은 재활용해야한다는 이론에서 출발
머신러닝 정의
카네기멜론 대학교의 톰 미첼 교수는 러닝(학습)을 " 컴퓨터 프로그램이 특정한 태스크 T를 수행할 때 성능 P만큼 개선되는 경험 E를 보이면 그 컴퓨터 프로그램은 태스크 T와 성능 P에 대해 경험 E를 학습했다고 할수 있다 " 고 정의함
실무적인 관점에서는 학습 = 표현 +평가 + 최적화 로 설명할 수 있다.
머신러닝은 종종 데이터 마이닝과 혼용되는데 둘 모두 쓰이는 기법이 똑같이 적용되기 때문. 컴퓨터 과학 관점에서는 머신러닝이라고 하고, 통계학 관점에서는 데이터 마이닝이라고 함. 둘의 차이는 데이터 마이닝은 데이터에서 현상 및 특성을 발견하는 것이 목적인 반명, 머신러닝은 기존의 데이터를 통해 학습시킨 후 새로운 데이터에 대한 예측 값을 알아내는데 목적이 있음
머신러닝 분류
학습데이터에 레이블(label)이 있는 경우와 없는 경우에 따라 각각 지도 학습과 비지도 학습으로 구분함
지도학습에는 분류(classification), 예측(prediction) 모델이 있고 비지도학습은 군집(clustering) 모델이 있음
분류 모델은 알고리즘에 따라 kNN(k nearset neighbor), 서포트 벡터 머신(SVM), 의사결정 트리(decision tree) 모뎅리 대표적
예측 모델은 회귀(regression)모델이 대표적
분류와 회귀는 둘다 레이블이 있는 입력데이터로 학습하는 지도학습 모델인데, 분류는 결과값이 고정되어 있고 회귀는 결과값이 데이터 세트의 범위 내 어떠한 값도 가능함. 즉 분류의 결과값은 학습 데이터세트에 포함된 레이블 중 하나이고 회귀의 결과값은 학습데이터 세트로 결정된 함수식(회귀식)으로 셰산한 임의의 값
한편 회귀모델도 분류처럼 몇가지 범주형 결과값을 예측하는 경우에도 적용할 수 있는데 이 경우 로지스틱(logistic) 회귀하고 함. 로지스틱 회귀는 'S' 모양을 보이는 로지스틱 함수 또는 시그모이드 함구를 이용해 입력데이터를 [0,1]의 경계를 가지고 이진 분류하는데 탁월한 성능을 보임
군집모델은 학습데이터가 레이블을 가지고 있지 않으니 입력된 데이터들이 어떤 형태로 그룹을 형성하는지가 관심사임. 군집모델은 통화음질에서 사람목소리와 노이즈를 구별하는데에나 질병을 구분하거나 고객 세분화 등에 사용된다
군집모델의 분류
- 평할(flat) 또는 분할기반의 군집(partition-based clusting) : k-means, k-medoids, DBSCAN
- 계층적 군집(hierarchical clusting) : 병합적 군집(agglomerative clusting), 분할적 군집(divisive clusting)
강화학습
강화학습은 모델의 결과에 대해 보상과 벌칙으로 피드백 받아 학습함.
강화학습에는 행동심리학과 제어이론, 최적제어 연구가 영향을 끼침
머신러닝에 필요한 사전학습
데이터의 사전 처리 필요 : 텍스트는 테이블, 자연어 문장, 음성신호, 디지털 이미지 등은 계산 가능한 정량적 단위로 변환하고 다시 벡터나 행렬 형태로 저장
입력데이터를 벡터 형태로 변환하는 이유는 입력데이터가 n개의 특성으로 정량화 되었다면 n차원 벡터 공간에 표현할 수 있어 데이터를 직좐적으로 이해하고 수학적 분류 모델을 만들기 쉽기 때문
이렇게 입력 데이터를 가지고 일처리를 수행할 수 있는 판단규칙인 판별식을 만든다.
'AI & 데이터 분석 > 아티클 & 책' 카테고리의 다른 글
책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(3) (0) | 2021.05.09 |
---|---|
책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(2) (0) | 2021.04.29 |
책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(1) (0) | 2021.04.29 |
아티클) 모수와 표본 : 모수가 이렇게 충분한데 그냥 쓰면 안될까?(리디북스_데이터분석가의 숫자유감) (0) | 2021.04.25 |
아티클 ) 상관관계와 인과관계 : 광고덕분에 DAU가 늘었다?(리디북스_데이터분석가의 숫자유감) (0) | 2021.04.25 |