AI & 데이터 분석 29

아티클) 숫자의 불확실성_데이터분석가의 숫자유감(리디북스)

요약) 숫자는 대상의 정량적인 비교가 가증하게 한다. 시간의 흐름에 따라 변화도를 측정할 수 있으며 사이트 내에서 사용자 행동을 수치화 해서 기업의 의사결정에 반영하기도 한다. 하지만 숫자가 단순하고 단정적이라고 하지만 세상은 가변적이라 쉽사리 결론을 숫자로 단정지을 수 없다. 예를 들어 오늘 가게에 손님이 3명 오고 어제는 6명이 왔고 그제는 한 명도 안왔다고 했을 때, "내일 가게에 손님이 3명 온다." 고 확정짓기 보다 "평균 3명 온다" 고 말하는 편인 거다 데이터 상의 숫자 차이가 조금 있다고 하더라도 그 조금의 차이가 통계적으로 의미가 있는지, 고려 전제조건은 있는지, 차이가 유효한 건지 등을 알아봐야 한다. - t 검정 : 두 집단 간의 평균의 차이가 유의미한지 검정 - z 검정 : 모집단의..

아티클) 인구통계학 정보의 효용성_데이터분석가의 숫자유감(리디북스)

요약) 서비스나 UX 기획에 많이 사용되는 '페르소나' 방법론은 타겟 고객의 입장에서 생각을 해서 아웃풋을 만들어 낼 수 있어서 많은 곳에서 사용된다. 그런데 이 페르소나를 고객의 행동특성에 따르기보다 인구통계학적 특성만 따른다면 한계가 존재한다. 만약 A 기업이 유아용품을 판다고 생각했을 때 타겟을 "25~35세 여성"으로 잡아 광고했을 때 곤란해질 수 있다. 25~35세의 여성이 반드시 아이를 가진 부모일 확률과는 다르기 때문이다. 그렇게 됐을 때 예상보다 전환율이 낮을 수 있다. 하지만 A기업 홈페이지에 들어와 아이용품, 임산부 용품 부분에 체류해 있던 사람들이라고 하면은? 25~35세 여성의 숫자보다는 작을 수(어쩌면 클 수도) 있지만 타겟 정확도가 높기 때문에 전환율이 높을 수 있다. 유튜브의 ..

아티클) 평균이란 무엇인가 | 평균연봉의 함정_데이터분석가의 숫자유감(리디북스)

요약) 데이터를 대표하는 대푯값으로 사용되는 평균은 보통 전체의 데이터를 더해서 전체 데이터 갯수로 나눈 산술평균을 사용한다. 하지만 10인 데이터 10개와 1000인 데이터 1개가 있을 때의 산술평균은 (10*10+1000*1)/11 은 100이 되어 대표값으로 사용하기 약간 비약이 있다.(실재하는 값이 아니기도 하다.) 그래서 대표값을 고려할 때는 그 값이 어떤 집합을 대표하고 어떻게 요약된건지를 반드시 고려해야 한다 - 중앙값 : 수치 집합을 작은 순서부터 정렬해서 가운데 순서에 위치한 값, 실재한 값 - 최빈값 : 수치 집합의 원 소 중 가장 많은 원소가 포함된 범위의 값 우리가 대표값을 산술 평균이라고 많이 생각하는 것은 데이터가 정말 많이 모여져 있어 전체 데이터의 분포가 종모양을 따르는 '정..

아티클)별점의 함정: 나의 3점과 당신의 3점은 다르다 (데이터분석가의 숫자유감) 리뷰

데이터는 기록 주체에 따라 두가지로 분류한다. 사람이 사이트에 들어와서 기록되는 서비스의 프로그램데이터(행동데이터나 구매 데이터 등)와 직접 사용자가 입력하는 데이터 2가지로 나뉜다. 사람들이 제품을 사용해서 좋게 생각하는 이유에는 정말 여러가지의 이유가 있다. 서비스는 고객들을 잘 이해하기 위해 고객들을 분석해야 하는데 프로그램에 의한 데이터로는 억측할 수 있기에 고객의 반응을 듣는 것이 도움이 되기도 한다. 하지만 그런 별점매기기 같은 방식 또한 다 같은 이유에서 해당 점수가 나오는 것은 아니다. 만약 문항수가 많으면 조금더 체계적으로 해당 점수가 나왔는지 알 수 있지만 일반 서비스 판매에서는 그렇기가 어렵다. 결국 별점은 크게 의미가 없을 수도 있다는 것을 의미한다. 넷플릭스가 영화를 좋아요 / 싫..

책)1년 안에 AI빅데이터 전문가가 되기 2 : 1년안에 AI 빅데이터 전문가가 되는 법(서대호) 중요 내용 정리 및 리뷰 : 전문가가 되기 위한 편

1. 자신만의 전문분야를 선정하라 1. 캐글 경연대회를 통해 경험을 쌓기 캐글 뿐 아니라 관심있는 분야의 데이터를 모아(크롤링 등)으로 연구해보기 2. 자신의 전문분야를 선정하기 가장 잘하고 재미있는 분야를 연구분야로 삼기 + 사회가 요구하는 인기분야 & 다른사람들보다 자신이 경쟁력을 가질 수 있는 분야 - 자연어처리, 영상분석, 딥러닝 등 주분야 한 두개 , 부 연구분야 한 두개 = 서너개 3. 연구분야를 정하는 기준 1. 기술적인 측면에서의 접근방법 : 텍스트마이닝, 추천알고리즘, 영상처리분석, 이상탐지, 이미지분석, 딥러닝, 기계학습, 시뮬레이션, 금융공학 2. 현상 측면 : 기술을 선정했다면 그것들로 어떤 것을 연구할지 : 정치, 금융, 신기술 트렌드 등 4. 전문분야에 대한 서적을 읽어라 1. ..

책)1년 안에 AI빅데이터 전문가가 되기 : 1년안에 AI 빅데이터 전문가가 되는 법(서대호) 중요 내용 정리 및 리뷰 : 기초공부법 편

현재 AI빅데이터를 공부하는 것은 오직 개인의 힘으로 해야한다 시대의 흐름을 타라, 4차혁명 시대에 AI 빅데이터는 최고의 직업이다. 1. 서론 1. AI 빅데이터 전문가로서 경력을 쌓아가는 법 1. 전문성을 주변에 최대한 어필 2. 인스타그램 등 SNS 프로필에 자신의 이력과 전문성을 어필하는 글을 업로드 3. 자신의 블로그 또는 홈페이지를 만들고 전문적인 글을 주기적으로 업로드 4. 자신을 전문가로 소개하는 명함을 만들고 만나는 사람마다 주어라 5. 크몽, 오투잡 등 각종 프리랜서 플랫폼에 이력을 올리고 홍보 6. 일거리를 받으면 높은 품질로 완성하고 고객에게 추천 및 평을 써달라고 요청 7. 고객에게 받은 추천, 평가들을 소중히 간직, 마케팅, 홍보용으로 사용 >> 입지가 어느순간 올라가고, 강연,..

데이터 분석에 필요한 라이브러리 설치

드디어!!!!여러분 곧 바로 데이터 분석에 들어갈 겁니다! 그 전에 데이터 분석에 필요한 라이브러리들을 설치해야합니다 라이브러리(library) 라이브러리는 영어로 도서관이라는 뜻이죠! 코드를 작성하다 보면 자주 사용되는 로직이나 코드들이 있을거에요! 이 부분에서 함수를 떠올렸다면 잘 공부하고 있는 것입니다ㅎㅎ 함수는 작은 단위였는데 만약 그 함수들이 매우 많으면 어떡할까요? 자주 사용하는 한 로직을 위해 여러 함수들이 필요하다면요? 그렇게 재활용할 수 있도록 만들어 놓은 로직을 라이브러리(library)라고 합니다. 세상에는 많은 똑똑한 개발자들이 있는데 그런 개발자분들께서 유용할 것 같은 재사용 로직들을 많이 만들어 뒀어요! 우리는 도서관에서 책을 뽑아 읽듯이 공개해 놓은 재사용가능한 로직, 라이브러..

파이썬 : 함수

여러분 안녕하세요!! 드디어 파이썬 파트 마지막 포스팅입니다!! ㅜㅜㅜ여러분 너무 수고 많으셨어요 정말 대단해요!! 물론 데이터 분석 파트가 여러분을 기다리고 있지만 처음 시작하신 분들은 정말 대단한거에요!! 마지막까지 화이팅입니다! 함수 여러분이 중고등학생 때 함수를 배웠을거에요! 아래같은 그림과 함께 말이죠 함수는 그림처럼 입력에 따라 출력이 나오는 대응관계입니다 오른쪽에 보면 함수를 빵만드는 기계라고 했잖아요! 코딩에서 함수는 '이동하는' 빵만드는 기계라고 생각하시면 돼요! 빵만드는 기계를 미리 만들어 두고 필요할 때 꺼내서 쓴다고 생각하시면 됩니다. 만약에 똑같은 코드들이 반복해서 사용되는 상황을 생각해 보겠습니다. 코드는 한글자 한글자가 데이터로 저장되는데 똑같은 코드 글자들이 반복해서 적어지면..

파이썬 : 자료형 dictionary

여러분 안녕하세요! 오늘은 파이썬 기초 8번째 시간!! 자료형 dictionary에 대해서 알아보는 시간입니다! 와 다음 포스팅이면 파이썬 파트는 끝날 것 같아요!! 다들 수고가 많습니다! 마지막까지 달립시다!! 파이팅!! 자료형 dictionary 우리가 사전을 찾을 때는 특정 단어의 뜻이 궁금해서 그 단어를 찾잖아요 우리가 찾고자 하는 것은 특정 단어의 뜻이고 우리가 접근할 수 있는 것은 그 단어의 뜻이 연결된 단어입니다. 파이썬의 dictionary도 마찬가지입니다 파이썬의 dictionary는 key와 value의 쌍으로 이루어진 모음들 입니다 {}을 사용합니다. (저번에 배운 list는 [] 였죠ㅎㅎ) dictionary는 { key : value } key는 오직 하나만 존재하도록 중복하지 않..

파이썬 : 자료형 list (응용)

안녕하세요! 저번 시간 list를 공부했었는데 양이 너무 많아 져 응용편을 따로 준비했습니다! 오늘도 화이팅!! 문자열을 리스트로 저번 시간 문자열과 리스트는 상당한 공통점을 가지고 있다고 했습니다. 인덱싱과 슬라이싱이 문자열과 리스트 모두에게 적용되었어요! 그런데 만약 문자열에 실제 의미를 담고 있는 문자들 외에 띄어쓰기등 불필요한 문자들이 들어가 있어서 문자열을 리스트 대신 쓰기 어렵다면요? 그래서 문자열을 리스트로 만드는 방법이 있습니다. 1. list 함수 list(문자열)로 작성하고 문자열을 한 글자씩 분리해서 리스트를 생성합니다. 2. split 함수 만약 문자들 사이에 공통적으로 반복되는 문자가 있을 때 사용합니다. split(나눌 기준이 되는 문자 or 공백) 로 사용하고 괄호 안에 있는 ..

반응형