AI & 데이터 분석/아티클 & 책

책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(2)

세밍_ 2021. 4. 29. 18:42
728x90
반응형

 

1부. 도구의 이해

1장. 인공지능이란 무엇인가

명확안 정의가 없는 인공지능

인공지능은 여러사람들이 여러 정의로 다르게 인식하는 데에는 확실한 정의가 없을 뿐더러 인공지능이 발전하면서 그 모습 자체가 계속 변하고 있다는 이유도 있다. 또, 이런 변화의 속도가 일반 대중이 쉽게 따라가기 어려울 만큼 너무 빠르다는 이유도 있다. 

어떻게 받아들여야 하는가

지금의 상황은 과거 산업혁명 초기와 비슷하다. 새로운 기술에 대한 오해, 두려움, 무지, 사용에 적합한 제반환경 부족, 활용분야와 활용사례가 풍부하지 않고, 일자리 감소에 대한 불안이 있는 상태

인공지능에 의해 인간이 직접 하는 것이 더 이상 효율적이지 않은 많은 직없이 사라지지만 기존에 존재하지 않았던 새로운 직업들이 많이 사라지면서 일자리의 총량은 더 커지며 혁명정인 산업 재편 과정을 거쳐 산업 전체의 크기는 훨씬 더 커질 것이다

인공지능은 곧 주류가 될 것이기 때문에 흐름을 반대하고 저항하기 보다 도구로서의 성질을 빨리 이해하고 활용하는 편이 좋다. 인간과 인공지능과 경쟁하는 것이 아닌 인공지능을 사용하는 다른 인간들과 경쟁하는 것이다. 기업경영측면에서 경쟁력 확보를 위한 인공지능 활용방안을 깊이 고민하고 빨리 시도해야 한다. 

인공지능의 구성요소

경영학이 오랜 역사가 있는 학문이 아닌 산업이 발전하면서 기존에 존재하던 개별적인 분야가 하나로 묶여 체계화된 것처럼 인공지능도 마찬가지다. 처음부터 일관된 형태로 설계되어 발전되어온 것이 아닌 따로 있다가 최근에 인공지능이라는 큰 틀 안으로 통합되는 것들도 있다.

  • 머신러닝(machin learning) : 컴퓨터가 데이터를 통해 스스로 학습하는 것처럼 하는 기술, 인공지능에서 가장 중요한 분야
  • 자연어 처리(nlp : natural language processing) : 컴퓨터가 인간의 언어를 처리하는 기술
  • 컴퓨터 감각(computer sensing) : 컴퓨터가 인간의 감각을 처리하는 기술, 시각을 주제로 하는 것은 컴퓨터 비전이라고 함
  • 자동 추론(automated reasoning) : 컴퓨터가 데이터를 기반으로 질문에 답하고 새로운 결론을 도출하는 기술
  • 지식 표현(knowledge representation) : 컴퓨터에 저장되어 있는 데이터를 인간이 이해할 수 있는 지식 ㅎㅇ태로 나타나게 하는 기술

이 외에도 인지컴퓨팅(cognitive computing), 패턴 인식(pattern recogintion), 지능엔진(intelligent agent) 등의 기술요소로 나누기도 한다.

이런 인공지능을 뭉뚱그려서 인식하면 안되고, 분리하고 구분해서 인식을 해야 한다. 그래야 나에게 맞는 분야를 활용할 수 있다. 

데이터 드리븐 비즈니스

자기 사업 분야에서 인공지능 기술을 잘 활용하면 된다. 인공지능 기술을 데이터 활용 수단으로 이용해야 한다. 자기 업무에서 발생하는 데이터를 모으고, 그 데이터에서 가치를 만들고, 그 가치가 잘 적용될 수 있도록 기존 프로세스를 변경하는 것이다.

기존 Data Driven Business는 그 중심에 데이터가 아닌 인간이 있었다. 데이터를 시각화하여 인간이 이해할 수 있도록 변환한 후에 직접 눈으로 보면서 패턴을 찾아냈다. 하지만 진정한 데이터 드리븐 비즈니스는 데이터를 분석하는 행위, 이를 바탕으로 판단을 하는 행위도 컴퓨터가 해야 한다

핵심은 머신러닝

머신러닝이 가장 중요하다. 머신러닝은 데이터만 충분히 있다면 기업의 거의 모든 영역에서 활용할 수 있고, 활용해야 한다. 하지만 큰 폭으로 도와주다 보니 컴퓨터를 사용하는 방식, 우리가 일하는 방식, 생각하는 방식, 의사결정 하는 방식, 우리가 더 집중해야 할 일의 분야 등 많은 것이 바뀌어야 한다.

 

2장. 머신러닝이란 무엇인가

머신러닝이 바꾼 컴퓨터 사용법

머신러닝은 컴퓨터가 데이터를 통해 스스로 학습하는 것처럼 하는 기술이다.

지금껏 우리는 컴퓨터에게 일을 시킬 때 컴퓨터가 어떻게 일을 하도록 지시를 내리는 '프로그래밍'을 통해 일을 시켰는데 머신러닝은 컴퓨터에게 처리 방법을 주지 않고 원하는 결과를 주어 컴퓨터가 원하는 결과를 만들어 낼 수 있는 방법을 만들고 그 방법대로 처리해 원하는 결과를 우리에게 준다

스스로 학습한다는 의미에 대한 오해

활용관점에서 머신러닝 자체는 자의식과 직접적인 관계가 없다. 우리는 머신러닝을 제어할 수 있고 제어를 해야만 머신러닝이 작동한다

지도학습으로 예측하기

감독학습이라고도 불리는 지도학습은 컴퓨터에게 결과 (학습) 데이터(training data)를 주어서 그 데이터를 기반으로 학습 시키고 진짜 분석할 데이터를 주어 컴퓨터가 얼마나 잘 분석했는지 판단하는 것이다.  : "정답지를 줄테니 공부하고 공부했으면 정답지와 비슷한 것을 찾아라" = 예측분석

 

예시 1) 예측분석 : 고객 타겟팅

그동안의 판매 데이터를 분석해 남성셔츠를 누가 많이 구매했는지 분석 : 지난 3년간 전체 데이터를 놓고 남성셔츠를 구매한 사람들의 특징을 찾아내는 분석, 특정 계절에 남성셔츠를 구매한 사람들만 따로 떼어내어 분석(코호트 분석 : cohort analysis) -> 그 결과로 구매 고객의 특정한 특징을 찾아내 이를 기반으로 타겟팅 한다(규칙 기반 타겟팅 : rule based targeting), 남성 셔츠를 구매한 고객이 다른 제품을 함께 구매하기도 한다( 데이터에 숨겨진 인사이트를 발견하기도 함: 데이터 마이닝 : Data mining), 전체 고객에 대한 특정 상품 구매 예측 확률값을 얻게 된다. 

 

예시 2)예측 확률 값이 어떻게 나오는지 알고 싶을 때  : 제조공장의 고장예측

피처중요도(feature importance)를 활용한다. 피처중요도는 어느 데이터 요소가 확률값 계산에 중요하게 작용을 했느냐 하는 정도를 나타냄. 그 정보를 활용해 미리 조치를 취할 수 있게도 하고 그 예측이 틀리도록 할 수도 있음. 만약 제조 과정의 고장 예측 모델에서 어떤 특정 장비의 온도가 고장의 가장 큰 요인이라고 도출되면, 그 장비의 온도가 임계치를 벗어날 경우 즉각 조치를 취해 고장을 예방하는 방식 : 제조업에서는 고장 예측이 다 클리도록 만드는 것이 예측 분석을 가장 잘 활용하는 방식

* 모든 머신러닝 알고리즘에서 피처 중요도를 쉽게 알 수 있는 것은 아니다.

비지도 학습으로 이해하기

비감독 학습이라고도 말하는 비지도 학습은 training data가 없다. 인간도 정답을 모를 때 사용한다. 인간이 컴퓨터가 무언갈 하게 해서 인간에게 그 결과를 돌려주면 인간이 이 결과를 검토한다. 정답지가 없어서 결과가 완벽하지 않지만 그래도 무언가 없는 것보단 훨씬 좋은게 비지도 학습의 개념이다.

 

예시 1) 클러스터링 (군집화 : clustering) - 고객 세그멘테이션

우선 데이터를 준비함(데이터는 많을 수록 좋음 : 데이터의 양이 많기도 하고 속성이 많기도 하는 것). 그 데이터를 기반으로 클러스터링 알고리즘으로 처리하게 하면 컴퓨터는 내부적으로 각 다른 속성값을 군지화 처리 목적에 맞도록 치환함(다른 속성들을 동일한 잣대로 볼 수 있게 하는 것). 이후 X 차원의 공간 속에 이 값을 뿌려 각 점의 거리를 계산함. 군데군데 각 점들이 어느정도 모여있는 집단이 있는데 그 집단에서 가장 중심이 되는 점을 찾아 그 점을 중심으로 가까운 것끼리 더 모아서 소속을 분명하게 나눔(군집화 : 각 데이터들간의 거리를 계산하여 가까운 것들끼리 모아주는 알고리즘. 비슷한 가능성이 있는 것들끼리 모아주는 것)

이후 그 결과 군집을 보면서 의미있는 인사이트를 발굴해 냄

 

이처럼 비지도 학습은 컴퓨터가 어느정도 해 놓은 것들을 보면서 몰랐던 사실들을 알게되고, 올바른 방향으로 생각을 다듬어나가는 방식. 인간들은 더 깊게, 올바르게, 사실에 근접하게, 가치있게 효율적으로 생각할 수 있도록 도와줌 

강화학습으로 원하는 대로 만들기

강화학습은 컴퓨터가 인간이 설정한 목적에 맞는 행동을 하면 좋다(플러스 점수)/나쁘다(마이너스 점수)의 피드백을 주는 것을 반복해 컴퓨터가 점점 더 인간이 정한 목적에 맞게 행동하도록 만들어 가는것. 강화학습은 제한된 조건에서 여러번 비슷한 일을 반복할 수 있는 환경이라면 어디든지 사용가능. 잠재력이 어마어마하다

콘텐츠 생성으로 발전 중인 머신러닝

GAN(generative adversarial networks) 는 무언가를 만드는 부분(generator), 만든 것을 평가하는 부분(discriminator)이 서로 대립(adversarial)하면서 성능이 계속 좋아지게 만드는 모델로 딥러닝을 콘텐츠 생산으로 확장시킨 것

GAN으로 이미지를 만들거나 낮은 해상도의 그림을 높은 해상도의 그림으로 만들 수 있음, 이를 기반으로 이미지를 전송할때 일부 정보를 없애 크기를 줄여 전송하고 받는 쪽에서 가지고 있는 정보만으로 이미지를 다시 만들어서 사용할 수도 있을듯

이미지 생성 모델은 GAN 이외에도 기존 확률 모델에 딥러닝을 접목한 VAE(vaariational Auto Encoder) 및 GAN과 VAE를 융합한 여러가지 기법이 나오고 있음

머신러닝 알고리즘과 딥러닝

딥러닝은 머신러닝의 하위카테고리로 인공신경망의 일종이다. 인공신경망은 서로 연결된 여러 신경 세포들이 신호를 나누어서 주고받는 동물의 신경망 구조와 비슷한 방식인데, 입력층(input layer)에서 정보가 입력되면 중간층( hidden layer)에서 나누어 계산하고 다시 출력층(output layer)에서 모아서 결과를 낸다. 영역을 나누어 작게 만든 후 그 부분만 계산하여 드 다음으로 넘기면 뒤에서 합쳐서 결론을 낸다

딥러닝은 인공신경망을 심화시킨 알고리즘으로 중간층이 3개 이상인 것을 말한다

<하위 기술 종류>

  • DNN(Deep Neural Network) : 신경망의 중간 층을 깊게 쌓은 딥러닝의 기본형, 테이블 형식의 데이터를 잘 처리함. 엑셀 테이블(표) 처럼 생긴 데이터가 있고 원하는 결과가 명확하다면 DNN을 활용
  • CNN(Convolution Neural Network) : 시각적 이미지를 주로 처리하는 딥러닝 알고리즘. 딥러닝은 무언가를 처리할 때 나누어서 계산해서 그 다음단계로 넘기는 것인데, CNN이 이미지를 처리할 때 이미지를 잘게 잘라서 많은 영역으로 나누고, 각 영역별로 처리해서 다음 단계로 넘김. 이때 개별 영역 처리에만 치중하면 결과가 지나치게 경직되어 이미지 처리에 적합하지 않으니 개열 영역을 처리할 때 인접한 주변도 함께 고려한다
  • RNN(Reccurent Neural Network) : 순서가 중요한 데이터를 처리, 각 요소의 순서가 중요한 언어 처리에 많이 활용. 작곡을 할 때도 활용. 여기서 Reccurent(반복한다)는 각 단계마다 계속 그 전 단계를 반복하여 학습하기 때문임. 
  • GAN : 앞에서 한 설명으로 대체

3장. 도구로서 인공지능

머신러닝이 하는 데이터분석

보통 데이터를 활용한다고 할 때는 거의 데이터 분석을 의미함. 그래서 데이터 활용과 데이터 분석은 거의 동일하게 취급하고 있다. 하지만 데이터를 분석하여 데이터에 숨어있는 인사이트를 발굴하는 것을 데이터 활용이라고 생각한다. 하지만 그것만이 데이터를 제대로 활용하는 방식은 아니다

 

사례 1)켄쇼의 리포트 : 켄쇼는 자연어 처리와 머신러닝을 활용해 기사와 자료 검색부터 시장 동향 분석, 투자조언까지 제공하는 금융 분석 프로그램이다. 켄쇼의 검색 창에 키워드를 입력하면 수많은 자료를 검색하고 분석해서 전체를 개괄하는 짧은 요약 리포트를 제시한다

사례 2) IBM의 왓슨 포 온콜로지 : 암 환자의 진료기록, 유전정보 등을 입력하면 학습한 의료 데이터 기반으로 가장 적합한 항암제와 항암제의 조합방법, 치료방안 등을 제시하며 그 근거도 함께 제공한다

분석을 프로세스 안으로

전통적인 데이터 분석에서 중요한 것 중 하나는 데이터 시각화 인데 인공지능이 분석을 하게 되면 데이터 분석이라는 프로세스 자체가 필요없을 수도 있다.

(물론 분석 대상의 내용과 특징을 있는 그대로 열거하거나 기록하여 서술하는 기술적 분석을 하거나 데이터를 여러 관점으로 살펴보며 인사이트를 찾아나가는 탐색적 분석등을 할 때는 꼭 필요하다)

어디에나 쓸 수 있는 예측

예측 분석은 미래를 예측하는 것이 아니라 과거와 현재의 분석이다.(prediction) 과거의 데이터를 가지고 패턴 등을 찾아내어 현재를 설명하는 일이기 때문이다. 그래서 예측 분석이라고 할 때는 미래라는 시간 개념을 버리고 이해하는 편이 더 바람직할 수 있다.

 

사례 1) SK 텔레콤의 상담 의도 예측 : 컴퓨터가 과거 상담데이터(training data)를 이용해 고객 각각의 전화 의도 예측 확률값을 얻는다. 학습을 통해 각 음성 안내 사용자들의 특징을 알아내어 고객에 맞춰 음성 안내 메뉴의 순서를 추천해 조직한다.

사례 2) 스팸전화 필터링 : 머신러닝에게 그동안 탐지 담당자들에 의해 스팸 판별을 받았던 전화번호를 주어 학습을 시킨 후 결과가 80%의 확률로 스팸전화를 걸러냈다. 정상 번호를 스팸번호라고 잘못 예측한 것도 없었다.

예측으로 하는 진정한 개인화

머신러닝을 활용해서 예측하면 언제나 고객 개개인에 대한 개별적 예측값이 나온다. 따라서 그동안 당연하게 생각했던 세그멘테이션이라는 고객 관리 구조를 변화시켜 진정한 개인화 서비스를 구현할 수 있다.(예- 고객 개인별로 각각의 상품별 구매 예측 확률값을 계산해 고객 한명에게 구매률을 높일 수 있는 다른 화면을 구성해 보여주고 더 적합한 제품을 추천할 수 있다.)

 

사례1) 넷플릭스의 개인화 추천 : 넷플릭스는 같은 영화를 추천하명서도 사용자 개인별로 선호할 이미지를 예측해 자동 생성해 개인별로 다르게 보여준다. 예측과 이미지를 자동으로 생성하는 일 모두 머신러닝으로 한다

시각인지력의 활용

인간보다 정확할 뿐 아니라 인간보다 훨씬 더 빠르게 많은 양을 일관성을 유지하며 처리한다

 

사례1)당뇨성 망막병증 이미지 판독 : 구글이 주로 시각적 이미지를 처리하는 CNN으로 안과 전문의보다 더욱 정확하게 이미지를 판독해 낸다

사례 2) 월마트의 진열대 스캔 로봇 : 로봇이 매장을 돌아다니며 카메라로 상품 진열대를 스캔해 판매 소진된 상품, 잘못 부착된 가격표 등을 스캔하는데 인간보다 훨씬 정확하고 3배 빠르게 스캔하여 정보를 파악할 수 있으며 인간보다 50퍼센트 더 생산적이다

콘텐츠 생성에 활용

사례 1) 애니메이션 만들기에 활용 : 영국 에든버러 대학교와 메소드 스튜디오는 다양한 종류의 동작을 머신러닝을 활용해 자동으로 만드는 시스템을 개발

사례 2) 그림그리기에 활용 : 구글의 오토드로라는 서비스는 사람이 대충 그림을 그리면, 머신러닝이 그 의도를 예측해 그림을 그려준다

사례 3) 소설쓰는 인공지능 : 일본 하코다테 미래대학 마쓰바라 진 교수팀은 인공지능을 이용해 공상과학 소설을 쓰는 프로젝트를 진행중

사례 4) 작곡하는 인공지능 : 소니의 CSL 연구소는 인공지능이 만든 노래 Daddy's Car을 발표

사례 5) 그림그리는 인공지능 : 마이크로소프트, 네델란드 델프트 과학기술대학, 네델란드 렘브란트 미술관 등이 렘브란트의 모든 작품과 그 붓질의 질감을 딥러닝에 학습시켜 3D 프린팅 함

인간의 말로 일하게 하기]

인공지능 음성 서비스는 인간과 컴퓨터의 연결영역(HCI : Human Computer Interaction)영역에 자연어 처리 및 음성 인식 기술을 적용했다. 인간의 언어 그대로를 통해 기계를 사용함으로써 기계 이용의 형태가 바뀌게 되었다

 

사례1) 상담업무시키기 : 미국 조지아텍은 질 왓슨을 사용해 상담업무를 시켰다

미래예측

앞서말한 predict와 다르게 미래예측은 'forecasting'이라고 함. 미래의 수치를 예측하는 것 이외에 예측 시뮬레이션을 함. 그런데 현재보다 조금이라도 뒤의 시간인 미래에 무슨 변화가 어떻게 생길지 다 알수 없고 모두 데이터화 할 수 없다. 이런 예측 및 시뮬레이션을 하려면 장기적으로 운영하면서 어떤 변수가 영향을 미쳤는지에 대한 데이터를 축적해두어야 한다. 그러다 어떤 일이 발생하면, 과거에 유사한 변수가 어느정도의 영향을 미쳤는지를 바탕으로 예측을 조정한다. 실시간 예측이 필요하다면 이러한 데이터의 입력과 각 데이터별 영향도 계산 등이 연속적으로 이루어지는 방법(continuos learning)을 쓸 수 있다.

머신러닝의 활용처

<세가지 영역>

  • 분류(classification)
    • 이미지나 영상에서 물건, 얼굴 등을 인식하여 분류하는 것
    • 글자와 글을 분류하는 것
    • 소리를 분류하는 것
    • 데이터를 그룹화하여 묶는 것
    • 연관성을 발견하는 것
  • 예측(prediction)
    • 어떤 일의 발생 가능성을 예측하는 것
    • 가치판단을 하는 것
    • 수요 등을 예측(forecasting)하는 것
  • 생성(generation)
    • 그림과 같은 시각적 이미지를 만들어 내는 것
    • 글을 쓰는 것
    • 음악 등의 소리를 만드는 것
    • 다른 데이터를 만드는 것

<산업과 응용분야>

  • 헬스케어 : 데이터 기반 질병 진단 / 전염성 질병의 조기 탐지와 추적 / 이미지 영상 의료 데이터 판독
  • 자동차 : 자율 주행 / 운전자를 지원하는 반자동 기능 / 엔진 모니터링, 고장 예측, 자율 유지보수
  • 금융 서비스 : 개인 맞춤형 재무 계획 / 사기 탐지 및 자금 세탁 방지 / 금융 업무 프로세스 자동화
  • 소매 : 개인 맞춤형 디자인과 생산 / 수요예측 / 재고 최적화 및 납품 관리
  • 기술, 커뮤니케이션, 엔터 : 미디어 보관 및 검색 / 맞춤형 콘텐츠 제작 / 개인 맞춤형 마케팅과 광고
  • 제조 : 제조 프로세스 모니터링 및 자동 수정 / 공급 체인과 생산 최적화 / 주문형 생산
  • 에너지 : 스마트 미터링/ 효율적 운용과 저장 / 예측 기반 인프라 관리
  • 운송 및 물류 : 자동 운송/ 교통 통제 및 교통 체증 감소 / 보안 향상 

4장. 오해속의 빅데이터

빅데이터는 SNS 분석이 아니다

빅데이터 분석안에 자연어 분석 처리를 기반으로 한 SNS 텍스트 분석이 있지만 SNS 텍스트 분석이 곧 빅데이터 분석의 전부인 것처럼 통용되어서는 안된다

기업현장에서는 이 오해가 데이터 활용을 방해하는데, 빅데이터라고 하면 자신의 생산설비에서 나오는 로그 데이터나 자신의 판매 데이터 등과 같이 기업 스스로가 가지고 있는 데이터를 먼저 떠올려야 하는데, SNS 텍스트와 관련된 빅데이터에 대한 오해는 기업이 자신의 데이터에 집중하는 것을 방해한다.

불필요하고 해로운 빅데이터

'빅데이터'라고 말할 필요가 없는데 빅데이터라고 굳이 하는 것은 좋지 않다. '빅'이라는 말을 붙여서 얻는 효용은 전혀 없다. 사람들이 '빅'이라고 붙이는 것은 그냥 특별하고 새롭고, 엄청난 인사이트를 바라는 잘못된 기대가 깔려있으며 종종 책임 회피의 의미를 내포하기 때문이다

대상이 아닌 수단으로서의 빅데이터

'빅'이라는 말은 기준정보를 담고 있지도 않을 뿐더러 기업마다 가지고 있는 데이터 크기 차이가 천지차이기에 크기를 표현하는 의미로서도 가치가 없다. 우리는 빅데이터를 '기술'로 이해해야 한다. 예전에는 다루기 힘들었던 아주 큰 데이터도 쉽고 빠르게 처리할 수 있게 해주는 기술의 집합으로 인식하는 것이 좋다. 하지만 이제는 기술 발달에 따라 각각 세분화된 개별 기술의 이름으로 불리기 때문에 기술을 표현하는 효용가치조차 거의 없어지고 있다.

728x90
반응형