[Machine Learning] 머신러닝 알고리즘(Machine Learning Algorithm) 적용에 앞선 데이터 분석

데이터 셋(dataset)을 대상으로 머신러닝 알고리즘(지도 학습(Supervised Learning))을 적용하기에 앞서 다음 세 가지를 평가해야 한다.

(인공 지능(Artificial Intelligence),머신 러닝(Machine Learning),딥 러닝(Deep Learning) 이란?: https://honeyteacs.tistory.com/8)

1. 해당 데이터 셋이 가지고 있는 키 값들(keys)이 무엇인지

2. 해당 데이터 셋 중 어느 것들을 머신러닝 모델을 만드는데 사용할 training set으로 사용할 것이며, 어느 것들을 모델이 잘 작동하는지를 평가하는 test set으로 사용할 것인지

3. training set을 기반으로한 출력값(클래스)들이 training set의 특성들에 맞는 출력값 별 구분된 분포를 가지는지

위의 세 가지를 평가하기 위하여 프로젝트 시작에 앞서, 예시 어플리케이션을 만드는데에 사용하였던 iris 데이터 셋을 사용하였다.

(Django Rest Framework 로 Scikit-Learn(사이킷런) 학습 및 예측 어플리케이션 웹상에서 이용하기: https://honeyteacs.tistory.com/6)

1. 데이터 셋이 가지고 있는 키 값들의 출력 및 각 키 값들이 가지고 있는 구체적인 내용 출력

2. train_test_split 함수를 이용한 training set 과 test set의 분리

3. X_train과 y_train을 토대로 한 출력값 분포도 분석

[Machine Learning] 선형 모델(Linear model) 을 이용한 예측 모델 만들기 (0)	2019.06.15
[Machine Learning] k-NN(KNN, k-Nearest Neighbor, k-최근접 이웃), KNN-Regression(k-최근접 이웃 회귀) 알고리즘 - 여러개의 이웃 선택하기 (0)	2019.06.06
[Machine Learning] 지도 학습(Supervised Learning)이란? (0)	2019.05.28
[Machine Learning] k-NN(KNN, k-Nearest Neighbor, k-최근접 이웃) 알고리즘을 활용한 머신러닝 모델 만들기 (0)	2019.05.12
[Machine Learning] 인공 지능(Artificial Intelligence), 머신 러닝(Machine Learning), 딥 러닝(Deep Learning) 이란? (1)	2019.04.28

HONEYTEA CS STUDY