전체 글 91

아티클) 모수와 표본 : 모수가 이렇게 충분한데 그냥 쓰면 안될까?(리디북스_데이터분석가의 숫자유감)

요약 사람들이 많이 '모수'를 '모집단'의 수 라고 착각한다. '모집단'은 전체 집단이라고 생각하는데, 모집단의 특성을 정확히 아는 것은 상당히 힘들다.(조사의 어려움, 일관성의 어려움 등) 그래서 통계 분석을 할 때 큰수의 법칙을 이용한다. 큰수의 법칙은 표본의 크기가 충분히 크면 그 때의 표본 평균은 모평균에 가까워진다는 것이다. 여기서 '모수'의 정의가 나오게 되는데 '모수'는 모집단의 수치적 요약값'이다. 모평균이나 모표준편차 같은 모집단에 대한 통계값이다. 표본 데이터에서 통계값을 구해 모집단의 통계값인 '모수'라고 말하며 이를 근거로 모집단의 형태를 추측한다. 하지만 모수는 모집단의 특정 고객군을 특정할 수는 없다는 사실을 알아야 한다. 느낀점 모수와 모집단, 표본에 대한 개념을 다시 한번 정..

아티클 ) 상관관계와 인과관계 : 광고덕분에 DAU가 늘었다?(리디북스_데이터분석가의 숫자유감)

요약 상관관계는 인과관계를 나타내지 않는다. 이 둘의 개념은 상당히 비슷하게 다가와 착각을 많이 한다. 인과관계 : 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 식의 원인과 결과 관계가 명확한 것 상관관계 : 두 변수들이 얼마나 상호 의존적인지 의미. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식 상관관계 정도를 숫자로 표시한 것이 상관계수며 여러 데이터를 분석 할 때 추이가 비슷한정도를 상관계수로 확인한다. 하지만 상관계수가 높게 나온다고 이를 특정 문제의 원인으로 꼽는 방식은 잘못됐다. 상관관계의 변수는 상호 의존적이라 그 계수가 우연이거나 유사한 상태로 변했을 수 있다. 즉 상관관계수는 높게 나오지만 영향을 주는 원인이 아예 아닐..

[백준] 7785번 : 회사에 있는 사람

문제 상근이는 세계적인 소프트웨어 회사 기글에서 일한다. 이 회사의 가장 큰 특징은 자유로운 출퇴근 시간이다. 따라서, 직원들은 반드시 9시부터 6시까지 회사에 있지 않아도 된다. 각 직원은 자기가 원할 때 출근할 수 있고, 아무때나 퇴근할 수 있다. 상근이는 모든 사람의 출입카드 시스템의 로그를 가지고 있다. 이 로그는 어떤 사람이 회사에 들어왔는지, 나갔는지가 기록되어져 있다. 로그가 주어졌을 때, 현재 회사에 있는 모든 사람을 구하는 프로그램을 작성하시오. - 입력 첫째 줄에 로그에 기록된 출입 기록의 수 n이 주어진다. (2 ≤ n ≤ 106) 다음 n개의 줄에는 출입 기록이 순서대로 주어지며, 각 사람의 이름이 주어지고 "enter"나 "leave"가 주어진다. "enter"인 경우는 출근, "..

CS/문제풀이 2021.04.25

[백준] 15903번 : 카드 합체놀이

문제 석환이는 아기다. 아기 석환이는 자연수가 쓰여져있는 카드를 갖고 다양한 놀이를 하며 노는 것을 좋아한다. 오늘 아기 석환이는 무슨 놀이를 하고 있을까? 바로 카드 합체 놀이이다! 아기 석환이는 자연수가 쓰여진 카드를 n장 갖고 있다. 처음에 i번 카드엔 ai가 쓰여있다. 카드 합체 놀이는 이 카드들을 합체하며 노는 놀이이다. 카드 합체는 다음과 같은 과정으로 이루어진다. x번 카드와 y번 카드를 골라 그 두 장에 쓰여진 수를 더한 값을 계산한다. (x ≠ y) 계산한 값을 x번 카드와 y번 카드 두 장 모두에 덮어 쓴다. 이 카드 합체를 총 m번 하면 놀이가 끝난다. m번의 합체를 모두 끝낸 뒤, n장의 카드에 쓰여있는 수를 모두 더한 값이 이 놀이의 점수가 된다. 이 점수를 가장 작게 만드는 것이..

CS/문제풀이 2021.04.25

[백준] 18115 : 카드 놓기

문제 수현이는 카드 기술을 연습하고 있다. 수현이의 손에 들린 카드를 하나씩 내려놓아 바닥에 쌓으려고 한다. 수현이가 쓸 수 있는 기술은 다음 3가지다. 1. 제일 위의 카드 1장을 바닥에 내려놓는다. 2. 위에서 두 번째 카드를 바닥에 내려놓는다. 카드가 2장 이상일 때만 쓸 수 있다. 3. 제일 밑에 있는 카드를 바닥에 내려놓는다. 카드가 2장 이상일 때만 쓸 수 있다. 수현이는 처음에 카드 N장을 들고 있다. 카드에는 1부터 N까지의 정수가 중복되지 않게 적혀 있다. 기술을 N번 사용하여 카드를 다 내려놓았을 때, 놓여 있는 카드들을 확인했더니 위에서부터 순서대로 1, 2, …, N이 적혀 있었다! 놀란 수현이는 처음에 카드가 어떻게 배치되어 있었는지 궁금해졌다. 처음 카드의 상태를 출력하여라. -..

CS/문제풀이 2021.04.25

AI 데이터 분석 기초 용어 정리

출처 : 1년 안에 AI 빅데이터 전문가가 되는 법(서대호) DNN(Deep Neural Network) 입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 신경망, 복잡한 비선형 관계를 모델링 할 수 있음 RNN(Recurrent Neural Network) 은닉층과 결과가 다시 같은 은닉층의 입력으로 들어가도록 연결, 이런 특성은 RNN이 순서 또는 시간이라는 측면을 고려할 수 있게 해줌 LSTM(Long Short Term Memory) 기존 RNN의 문제점은 입력된 데이터와 참고해야할 데이터의 위치 차이가 커질 때 문맥을 연결하기 힘들다는 것, 참고해야할 데이터의 시간 차가 커지면서 입력데이터에 영향을 거의 미치지 못한다는 것. LSTM은 Cell state를 통해서 어떤 정보를 취사할지 정하기..

아티클) 숫자의 불확실성_데이터분석가의 숫자유감(리디북스)

요약) 숫자는 대상의 정량적인 비교가 가증하게 한다. 시간의 흐름에 따라 변화도를 측정할 수 있으며 사이트 내에서 사용자 행동을 수치화 해서 기업의 의사결정에 반영하기도 한다. 하지만 숫자가 단순하고 단정적이라고 하지만 세상은 가변적이라 쉽사리 결론을 숫자로 단정지을 수 없다. 예를 들어 오늘 가게에 손님이 3명 오고 어제는 6명이 왔고 그제는 한 명도 안왔다고 했을 때, "내일 가게에 손님이 3명 온다." 고 확정짓기 보다 "평균 3명 온다" 고 말하는 편인 거다 데이터 상의 숫자 차이가 조금 있다고 하더라도 그 조금의 차이가 통계적으로 의미가 있는지, 고려 전제조건은 있는지, 차이가 유효한 건지 등을 알아봐야 한다. - t 검정 : 두 집단 간의 평균의 차이가 유의미한지 검정 - z 검정 : 모집단의..

아티클) 인구통계학 정보의 효용성_데이터분석가의 숫자유감(리디북스)

요약) 서비스나 UX 기획에 많이 사용되는 '페르소나' 방법론은 타겟 고객의 입장에서 생각을 해서 아웃풋을 만들어 낼 수 있어서 많은 곳에서 사용된다. 그런데 이 페르소나를 고객의 행동특성에 따르기보다 인구통계학적 특성만 따른다면 한계가 존재한다. 만약 A 기업이 유아용품을 판다고 생각했을 때 타겟을 "25~35세 여성"으로 잡아 광고했을 때 곤란해질 수 있다. 25~35세의 여성이 반드시 아이를 가진 부모일 확률과는 다르기 때문이다. 그렇게 됐을 때 예상보다 전환율이 낮을 수 있다. 하지만 A기업 홈페이지에 들어와 아이용품, 임산부 용품 부분에 체류해 있던 사람들이라고 하면은? 25~35세 여성의 숫자보다는 작을 수(어쩌면 클 수도) 있지만 타겟 정확도가 높기 때문에 전환율이 높을 수 있다. 유튜브의 ..

아티클) 평균이란 무엇인가 | 평균연봉의 함정_데이터분석가의 숫자유감(리디북스)

요약) 데이터를 대표하는 대푯값으로 사용되는 평균은 보통 전체의 데이터를 더해서 전체 데이터 갯수로 나눈 산술평균을 사용한다. 하지만 10인 데이터 10개와 1000인 데이터 1개가 있을 때의 산술평균은 (10*10+1000*1)/11 은 100이 되어 대표값으로 사용하기 약간 비약이 있다.(실재하는 값이 아니기도 하다.) 그래서 대표값을 고려할 때는 그 값이 어떤 집합을 대표하고 어떻게 요약된건지를 반드시 고려해야 한다 - 중앙값 : 수치 집합을 작은 순서부터 정렬해서 가운데 순서에 위치한 값, 실재한 값 - 최빈값 : 수치 집합의 원 소 중 가장 많은 원소가 포함된 범위의 값 우리가 대표값을 산술 평균이라고 많이 생각하는 것은 데이터가 정말 많이 모여져 있어 전체 데이터의 분포가 종모양을 따르는 '정..

유용한 python 내장함수

1. map iterable객체(list. tuple, dict, set)를 받아서 각 요소에 함수를 적용시켜주는 함수 2. split 특정문자를 기준으로 문자열을 분리해주는 함수 3. sorted - iterable 객체가 들어왔을 때,정렬된 결과를 반환한 함수 - 시간 복잡도를 고려하지 않아도 되는 간단한 경우 - key 속성으로 정렬기준을 명시, 'reverse' 속성으로 역정렬도 가능한 강력한 내장함수 4. 연산 관련 내장함수 5. 기타 내장 함수 6. math 라이브러리 7. itertools : 반복 관련(확통) 8. bisect : 정렬된 배열에서의 탐색 인덱스 찾는 함수 - bisect.bisect_left : 리스트가 정렬된 순서를 유지하도록 데이터를 삽입할 왼쪽 위치의 인덱스 - bis..

반응형