AI & 데이터 분석/아티클 & 책 12

책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(3)

2부. 경영의 변화 5장 왜 변화가 필요한가 뒤에 숨겨진 과정들 일본의 안경업체 JINS는 인공지능을 활용해 고객에게 어울리는 안경을 추천하는 JINS BRAIN이라는 서비스를 제공하고 있다.(3000명의 JINS 직원들이 만든 training data를 기반으로 고객이 자신의 얼굴 사진을 업로드 하면 어울리는 안경을 추천해줌) 이때 경영진들은 이면의 과정과 조직관리를 살펴봐야 한다( 얼마나 많은 이해관계가 충돌했을까, 얼마나 맣은 조직과 사람들이 관여했을까, 장애물을 넘기 위해 CEO가 강력히 추진했을까? 아님 권한을 위임받은 임원이 추진했을가. 이런일을 추진하기 위한 조직 구성은 어떻게 했을까?, 이런 아이디어가 잘 실체화된 기업의 문화는 어떨까, 원래부터 변화 관리를 잘 하는 기업이었을까? 아니면 ..

책) 3장 머신러닝 개요 : 알고리즘으로 배우는 인공지능, 머신러닝 딥러닝 입문(김의중)

머신러닝은 3가지 접근법으로 연구가 진행되어 옴 신경모형 패러다임 : 퍼셉트론에서 출발해서 지금은 딥러닝으로 이어져 오고 있음 심볼 개념의 학습 패러다임 : 숫자나 통계 이론 대신 논리학이나 그래프 구조를 사용해 1970년대 중반~2080년대 후반까지 인공지능의 핵심적인 접근법 현대지식의 집약접 패러다임 : 백지상태에서 학습을 시작하는 신경모형을 지양하고 이미 학습된 지식은 재활용해야한다는 이론에서 출발 머신러닝 정의 카네기멜론 대학교의 톰 미첼 교수는 러닝(학습)을 " 컴퓨터 프로그램이 특정한 태스크 T를 수행할 때 성능 P만큼 개선되는 경험 E를 보이면 그 컴퓨터 프로그램은 태스크 T와 성능 P에 대해 경험 E를 학습했다고 할수 있다 " 고 정의함 실무적인 관점에서는 학습 = 표현 +평가 + 최적화 ..

책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(2)

1부. 도구의 이해 1장. 인공지능이란 무엇인가 명확안 정의가 없는 인공지능 인공지능은 여러사람들이 여러 정의로 다르게 인식하는 데에는 확실한 정의가 없을 뿐더러 인공지능이 발전하면서 그 모습 자체가 계속 변하고 있다는 이유도 있다. 또, 이런 변화의 속도가 일반 대중이 쉽게 따라가기 어려울 만큼 너무 빠르다는 이유도 있다. 어떻게 받아들여야 하는가 지금의 상황은 과거 산업혁명 초기와 비슷하다. 새로운 기술에 대한 오해, 두려움, 무지, 사용에 적합한 제반환경 부족, 활용분야와 활용사례가 풍부하지 않고, 일자리 감소에 대한 불안이 있는 상태 인공지능에 의해 인간이 직접 하는 것이 더 이상 효율적이지 않은 많은 직없이 사라지지만 기존에 존재하지 않았던 새로운 직업들이 많이 사라지면서 일자리의 총량은 더 커..

책) 인공지능 시대의 비즈니스 전략(정도희)_리뷰 및 내용 정리(1)

서문. 인공지능 in 비즈니스 인공지능 보다 더 중요한 것 보통은 인공지능 기술만 도입하면 기업의 여러 문제들이 해결되고 새로운 비즈니스 모델이 만들어지고 기업이 성장할 수 있을 것이라 기대함. 기술이 중요하다고 생각하는 것인데, 그보다는 전체 최적화, 조직간 조율, 목표 관리, 커뮤니케이션, 평가 그리고 이 모든 것을 아우르는 방향과 문화가 훨씬 더 중요 관점의 변화가 반드시 필요 인공지능과 데이터를 잘 활용하려면 그동안 당연하게 여겼던 방식과 생각을 바꿔야 함, 업무프로세스와 조직 구조를 변화 시켜야 함 인공지능의 진짜 의미 컴퓨터가 차원이 강력해져서 쓰임새가 많이 달라져 인공지능이라고 부름. 즉 강력한 컴퓨팅 기술을 바탕으로 한 새로운 데이터 활용법. 인공지능의 활은 데이터의 활용이라고 인식해야 함..

아티클) 모수와 표본 : 모수가 이렇게 충분한데 그냥 쓰면 안될까?(리디북스_데이터분석가의 숫자유감)

요약 사람들이 많이 '모수'를 '모집단'의 수 라고 착각한다. '모집단'은 전체 집단이라고 생각하는데, 모집단의 특성을 정확히 아는 것은 상당히 힘들다.(조사의 어려움, 일관성의 어려움 등) 그래서 통계 분석을 할 때 큰수의 법칙을 이용한다. 큰수의 법칙은 표본의 크기가 충분히 크면 그 때의 표본 평균은 모평균에 가까워진다는 것이다. 여기서 '모수'의 정의가 나오게 되는데 '모수'는 모집단의 수치적 요약값'이다. 모평균이나 모표준편차 같은 모집단에 대한 통계값이다. 표본 데이터에서 통계값을 구해 모집단의 통계값인 '모수'라고 말하며 이를 근거로 모집단의 형태를 추측한다. 하지만 모수는 모집단의 특정 고객군을 특정할 수는 없다는 사실을 알아야 한다. 느낀점 모수와 모집단, 표본에 대한 개념을 다시 한번 정..

아티클 ) 상관관계와 인과관계 : 광고덕분에 DAU가 늘었다?(리디북스_데이터분석가의 숫자유감)

요약 상관관계는 인과관계를 나타내지 않는다. 이 둘의 개념은 상당히 비슷하게 다가와 착각을 많이 한다. 인과관계 : 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 식의 원인과 결과 관계가 명확한 것 상관관계 : 두 변수들이 얼마나 상호 의존적인지 의미. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식 상관관계 정도를 숫자로 표시한 것이 상관계수며 여러 데이터를 분석 할 때 추이가 비슷한정도를 상관계수로 확인한다. 하지만 상관계수가 높게 나온다고 이를 특정 문제의 원인으로 꼽는 방식은 잘못됐다. 상관관계의 변수는 상호 의존적이라 그 계수가 우연이거나 유사한 상태로 변했을 수 있다. 즉 상관관계수는 높게 나오지만 영향을 주는 원인이 아예 아닐..

아티클) 숫자의 불확실성_데이터분석가의 숫자유감(리디북스)

요약) 숫자는 대상의 정량적인 비교가 가증하게 한다. 시간의 흐름에 따라 변화도를 측정할 수 있으며 사이트 내에서 사용자 행동을 수치화 해서 기업의 의사결정에 반영하기도 한다. 하지만 숫자가 단순하고 단정적이라고 하지만 세상은 가변적이라 쉽사리 결론을 숫자로 단정지을 수 없다. 예를 들어 오늘 가게에 손님이 3명 오고 어제는 6명이 왔고 그제는 한 명도 안왔다고 했을 때, "내일 가게에 손님이 3명 온다." 고 확정짓기 보다 "평균 3명 온다" 고 말하는 편인 거다 데이터 상의 숫자 차이가 조금 있다고 하더라도 그 조금의 차이가 통계적으로 의미가 있는지, 고려 전제조건은 있는지, 차이가 유효한 건지 등을 알아봐야 한다. - t 검정 : 두 집단 간의 평균의 차이가 유의미한지 검정 - z 검정 : 모집단의..

아티클) 인구통계학 정보의 효용성_데이터분석가의 숫자유감(리디북스)

요약) 서비스나 UX 기획에 많이 사용되는 '페르소나' 방법론은 타겟 고객의 입장에서 생각을 해서 아웃풋을 만들어 낼 수 있어서 많은 곳에서 사용된다. 그런데 이 페르소나를 고객의 행동특성에 따르기보다 인구통계학적 특성만 따른다면 한계가 존재한다. 만약 A 기업이 유아용품을 판다고 생각했을 때 타겟을 "25~35세 여성"으로 잡아 광고했을 때 곤란해질 수 있다. 25~35세의 여성이 반드시 아이를 가진 부모일 확률과는 다르기 때문이다. 그렇게 됐을 때 예상보다 전환율이 낮을 수 있다. 하지만 A기업 홈페이지에 들어와 아이용품, 임산부 용품 부분에 체류해 있던 사람들이라고 하면은? 25~35세 여성의 숫자보다는 작을 수(어쩌면 클 수도) 있지만 타겟 정확도가 높기 때문에 전환율이 높을 수 있다. 유튜브의 ..

아티클) 평균이란 무엇인가 | 평균연봉의 함정_데이터분석가의 숫자유감(리디북스)

요약) 데이터를 대표하는 대푯값으로 사용되는 평균은 보통 전체의 데이터를 더해서 전체 데이터 갯수로 나눈 산술평균을 사용한다. 하지만 10인 데이터 10개와 1000인 데이터 1개가 있을 때의 산술평균은 (10*10+1000*1)/11 은 100이 되어 대표값으로 사용하기 약간 비약이 있다.(실재하는 값이 아니기도 하다.) 그래서 대표값을 고려할 때는 그 값이 어떤 집합을 대표하고 어떻게 요약된건지를 반드시 고려해야 한다 - 중앙값 : 수치 집합을 작은 순서부터 정렬해서 가운데 순서에 위치한 값, 실재한 값 - 최빈값 : 수치 집합의 원 소 중 가장 많은 원소가 포함된 범위의 값 우리가 대표값을 산술 평균이라고 많이 생각하는 것은 데이터가 정말 많이 모여져 있어 전체 데이터의 분포가 종모양을 따르는 '정..

아티클)별점의 함정: 나의 3점과 당신의 3점은 다르다 (데이터분석가의 숫자유감) 리뷰

데이터는 기록 주체에 따라 두가지로 분류한다. 사람이 사이트에 들어와서 기록되는 서비스의 프로그램데이터(행동데이터나 구매 데이터 등)와 직접 사용자가 입력하는 데이터 2가지로 나뉜다. 사람들이 제품을 사용해서 좋게 생각하는 이유에는 정말 여러가지의 이유가 있다. 서비스는 고객들을 잘 이해하기 위해 고객들을 분석해야 하는데 프로그램에 의한 데이터로는 억측할 수 있기에 고객의 반응을 듣는 것이 도움이 되기도 한다. 하지만 그런 별점매기기 같은 방식 또한 다 같은 이유에서 해당 점수가 나오는 것은 아니다. 만약 문항수가 많으면 조금더 체계적으로 해당 점수가 나왔는지 알 수 있지만 일반 서비스 판매에서는 그렇기가 어렵다. 결국 별점은 크게 의미가 없을 수도 있다는 것을 의미한다. 넷플릭스가 영화를 좋아요 / 싫..

반응형