728x90
반응형
출처 : 1년 안에 AI 빅데이터 전문가가 되는 법(서대호)
<AI, 데이터 분석 기법, 알고리즘, 관련 분야>
- DNN(Deep Neural Network)
입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 신경망, 복잡한 비선형 관계를 모델링 할 수 있음 - RNN(Recurrent Neural Network)
은닉층과 결과가 다시 같은 은닉층의 입력으로 들어가도록 연결, 이런 특성은 RNN이 순서 또는 시간이라는 측면을 고려할 수 있게 해줌 - LSTM(Long Short Term Memory)
기존 RNN의 문제점은 입력된 데이터와 참고해야할 데이터의 위치 차이가 커질 때 문맥을 연결하기 힘들다는 것, 참고해야할 데이터의 시간 차가 커지면서 입력데이터에 영향을 거의 미치지 못한다는 것. LSTM은 Cell state를 통해서 어떤 정보를 취사할지 정하기 때문에 긴 시간 동안의 정보를 기억할 수 있음 - CNN(Convolution Neural Network)
모델이 직접 이미지, 비디오, 텍스트 또는 사운드를 분류하는 딥러닝에 가장 많이 사용되는 알고리즘. 기존의 신경망에 필터 기술을 병합해 2차원 데이터를 잘 학습할 수 있도록 최적화 - GAN(Generative adversarial network)
두개의 네트워크로 구성된 심층 신경망 구조, 한 네트워크가 다른 네트워크와 겨루는 구조. 처음에 생성자는 무작위 데이터를 만들고 구분자는 제대로 구분하지 못함. 하지만 구분자는 생성자가 만든 데이터와 함께 진짜 데이터를 동시에 학습하기 때문에 조금씩 실력이 향상됨. 생성자 역시 구분자를 더 잘 속이기 위해 진짜처럼 보이는 데이터를 만들어 감 - 오토인코더(Autoencoder)
신경망의 입력층과 출력층의 노드 개수가 같은 구조, 차원 축소 또는 노이즈 제거에 널리 쓰이는 네트워크 구조 - 군집분석
각 개체의 유사성을 측정해 높은 대상 집단을 분류, 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체 간의 상이성을 규명하는 통계분석 방법 - 나이브 베이즈(Naive Bayes)
개별 특성 사이의 독집을 가정하는 베이즈 정리를 적용한 확률 분류기의 일존. 텍스트 분류에 주로 사용됨으로써 문서를 여러 범주(스팸, 스포츠, 정치 등) 중 하나로 판단하는 문제에 적용함 - 토픽모델링
문서 집합의 추상적인 '주제'를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 - 감정분석
어떤 주제에 대해 주관적인 인산, 감정, 태도, 개인의 의견들을 테스트로부터 뽑아내는 분석 - 단어 네트워크
각 단어들을 노드로 단어 간의 관계를 엣지로 표현해 단어간의 관계를 네트워크로 도식화 하는 분석방법 - SVN(Support Vector Machin)
기계 학습의 한 분야로 패턴인식, 자료분석을 위한 지도학습모델이며, 주로 분류와 회귀분석을 위해 사용됨 - 랜덤포레스트(Random Forest)
분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종, 훈련과정에서 구성한 다수의 결정나무로부터 분류 또는 평균 예측치(회귀분석)을 출력함으로써 동작함 - 배깅(Bagging, bootstrap aggregating)
통계적 분류와 회귀분석에 사용되는 기계학습 알고리즘의 안정성과 정확도를 향상시키기 위해 고안된 일종의 앙상블 학습법의 메타 알고리즘 - 부스팅(Boosting)
전체 데이터에서 여러 샘플링데이터를 추출해 순차적으로 이전 학습 분류기의 결과를 토대로 다음 학습 데이터의 샘플 가중치를 조정하면서 학습을 진행하는 기법 - KNNK-nearest neighbor
분류나 회귀에 사용되는 비모수 방식. 입력이 특징 공간 내 k개의 가장 가까운 훈련 데이터로 구성되어 있음. 출력은 k 개의 최근접 이웃이 가진 투표값 또는 평균값 - 의사결정나무
데이터를 분석해 이들 사이에 존재하는 패턴을 예측가능한 규칙들의 조합으로 나타내며, 그 모양이 '나무'와 같다고 해서 의사 결정 나무라고 불림 - 추천 알고리즘
사용자가 선호할 만한 아이템을 추측함으로써 여러가지 항목 중 사용자에게 적합한 특정 항목을 추천해 제공하는 알고리즘을 일컫음 - 이상탐지
시계열 데이터에서 과거 또는 비슷한 시점의 다른 데이터의 보편적인 패턴에서 벗어나거나 벗어나려는 징후가 있는 드문 패턴을 찾아내는 데이터 분석의 한 분야 - 주성분 분석
고차원의 데이터를 저차원의 데이터로 환원시키는 기법, 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간의 표본으로 변환하기 위해 직교 변환을 사용. 주성분의 차원 수는 원래 표본의 차원 수보다 작거나 같음 - 텍스트 마이닝
비정형 데이터 마이닝의 유형 중 하나. 텍스트 마이닝은 비정형 및 반정형 데이터에 대해 자연어 처리 기술과 문서 처리 기술을 적용해 유용한 정보를 추출, 가공하는 목적으로 하는 기술 - 프로세스마이닝
이벤트 로그 데이터 분석을 통해서 어떤 일이 어떻게 흘러가는지, 어떤 상품이 어떤 과정으로 제작되는지, 한 고객이 서비스 내에 어넏 여정을 거치는지 등의 프로세스를 도출해 내는 것을 의미
<AI, 데이터 분석 관련 기술 및 라이브러리, 프레임워크>
- SQL(Structured Query Language)
관계형 데이터베이스 관리 시스템의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 - RBD
키(key)와 값(value)들의 간단한 관계를 테이블화한 간단한 원칙의 전산정보 데이터베이스 - 몽고DB
크로스 플랫폼 도큐먼트 지향 데이터베이스 시스템. No-SQL 데이터 베이스로 분류되는 몽고 DB는 JSON과 같은 동적 스키마형 도큐먼트들을 선호함에 따라 전통적인 테이블 기반 관계형 데이터베이스 구조의 사용을 삼감 - 텐서플로(Tensorflow)
다양한 작업에 대해 데이터 흐름 프로그래밍을 위한 오픈소스 소프트웨어 라이브러리. 심볼릭 수학 라이브러리이자, 뉴럴 네트워크 같은 기계학습 응용 프로그램에도 사용된 - 케라스(Keras)
파이썬으로 작성된 오픈소스 신경망 라이브러리. MXNet, Deeplearning4j, 텐서플로, Microsoft Cognitive Toolkit 또는 테아노 위에서 수행할 수 있음 - 장고(Django)
파이썬으로 작성된 오픈소스 웹 어플리케이션 프레임워크로, 모델-뷰-컨트롤러 패턴을 따름 - PyQT
C++의 크로스 플랫폼 CUI 프레임워크 중 하나인 QT를 파이썬 모듈로 변환해 사용 가능하게 만든 라이브러리 - Tkinter
파이썬 설치 시 기본적으로 내장되어 있는 파이썬 표준 라이브러리, 쉽고 간단한 GUI 프로그램을 만들때 활용 - Spark
모리 내 처리를 지원하며 빅데이터 분석하는 어플리케이션의 성능을 향상시키는 오픈소스 병렬 처리 프레임 워크 - API(Application Programming Interface)
응용 프로그램에서 사용할 수 있도록, 운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스
<AI, 데이터 분석 생태계 구성>
- 이미지넷(ImageNet)
이미지넷 프로젝트는 비주얼 객체 인식 소프트웨어 연구에 사용되도록 설계된 대형 비주얼 데이터 베이스. 프로젝트에 의해 1400만개가 넘는 이미지에 대한 주석이 달려 있음 - RISS
대한민국 교육부 풀현 기관 한국교육 학술 정보원에서 제공하는 학술 연구 정보화 시스템 - 구글 학술 검색
구글에서 제공해주는 검색 서비스 중 하나로 논문, 학술지, 간행물 등의 학술 용도를 검색의 대상으로 함 - SCI-HUB
온라인 논문 검색 엔진 사이트, 5800만개의 유로 논문을 무료로 제공 - SI 업체
정보시스템의 개발에 관하여 상담하고 그에 따라 설계, 개발, 운용, 보수, 관리 등 일체 업무를 담당하는 정보통신 기업 - IBM 모델러
IBM의 데이터 마이닝 및 텍스트 분석 소프트웨어 어플리케이션. 예측 모델을 작성하고 다른 분석 작업을 수행하는데 사용. 사용자가 프로그래밍 없이 통계 및 데이터마이닝 알고리즘을 활용할 수 있는 시각적 인터페이스가 존재 - 래피드마이너(rapid miner)
데이터 과학에서 사용하는 컴퓨터 소프트웨어 프로그램. 프로그램을 통해 데이터 전처리, 기계학습, 딥러인, 텍스트 마이닝, 예측분석 등을 활용할 수 있는 프로그램 제공 - 나임(Knime)
무료 오픈소스 데이터 분석, 보고 및 통합 플랫폼. 모듈식 데이터 파이프라인 개념을 통해 기계 학습 및 데이터 마이닝을 위한 다양한 구성요소를 통합 제공 - slack
클라우드 기반 팀 협업도구 - flow
프로젝트 관리 중심의 그룹웨어 협업도구 툴. 프로젝트 일정 관리, 일정 공유, 업무 관리를 제공함
728x90
반응형
'AI & 데이터 분석 > 관련 개념 정리' 카테고리의 다른 글
논문읽기) EfficientNetV2(2021) 리뷰 (0) | 2021.10.27 |
---|---|
Efficient Net이 뭐지? (0) | 2021.10.26 |
AutoML MNAS Mobile Framework가 뭐지? (0) | 2021.10.26 |