[Machine Learning] k-NN(KNN, k-Nearest Neighbor, k-최근접 이웃), KNN-Regression(k-최근접 이웃 회귀) 알고리즘

전에 살펴본 이웃의 개수가 1일 경우에(n_neighbors = 1), 테스트 데이터가 어떤 클래스에 속할지에 대한 예측은 단순히 테스트 데이터에 가장 가까운 훈련 데이터의 출력을 기준으로 예측하는 것이었다.(https://honeyteacs.tistory.com/12?category=688750)

하지만 이웃의 개수가 1이 아닌 여러개일(n_neighbors = k) 경우에는 각 이웃이 속하는 클래스를 따져본 후, 가장 많은 이웃이 속하는 클래스를 선택하는 방식으로 클래스를 예측하게 된다.

* 이웃의 수가 적을 수록 모델은 복잡해진다.

- 훈련 데이터 예측 정확도 상승, 테스트 데이터 정확도 하락

- 극단적인 경우, 최근접 이웃의 수가 하나일 경우 훈련 데이터 예측률은 100%라 할 수 있지만 테스트 데이터에 대한 예측률은 가장 저조하다.

* 이웃의 수가 많을 수록 모델은 단순해진다

- 훈련 데이터 정확도 하락, 테스트 데이터 정확도 상승

- 극단적인 경우, 훈련 데이터 전체 개수를 이웃의 수로 지정하는 경우 모든 테스트 데이터에 대한 예측은 동일할 것이다.

따라서, 너무 복잡하지도 단순하지도 않은 모델을 세우는 것이 최선의 방법이라 할 수 있다.

다시 말해 이 경우도 과대적합, 과소적합의 특징이 보여진다고 할 수 있다. (https://honeyteacs.tistory.com/20?category=688750 참조)

이웃의 수의 변화에 따른 훈련, 테스트 데이터의 예측 정확도 확인을 위한 코드

*K-최근접 이웃 회귀(KNN-Regression)

- KNeighborsRegressor 사용

- 보통 wave 데이터를 사용하며, k개 이웃 간의 평균이 예측됨

- 회귀 모델에서의 예측의 적합도는 R^2으로 표현되며 1은 완벽한 예측, 0은 훈련 세트의 출력값인 y_train의 평균으로만 예측하는 경우이며 예측과 타깃이 상반된 경우 음수로도 표현된다.

'프로그래밍 > Machine Learning' 카테고리의 다른 글

[Machine Learning] 다차원적 학습을 위한 데이터 전처리(Target 기반) 및 모델링, 모델링 과정 추출 (0)	2019.12.29
[Machine Learning] 선형 모델(Linear model) 을 이용한 예측 모델 만들기 (0)	2019.06.15
[Machine Learning] 지도 학습(Supervised Learning)이란? (0)	2019.05.28
[Machine Learning] k-NN(KNN, k-Nearest Neighbor, k-최근접 이웃) 알고리즘을 활용한 머신러닝 모델 만들기 (0)	2019.05.12
[Machine Learning] 머신러닝 알고리즘(Machine Learning Algorithm) 적용에 앞선 데이터 분석 (0)	2019.05.06

HONEYTEA CS STUDY

[Machine Learning] k-NN(KNN, k-Nearest Neighbor, k-최근접 이웃), KNN-Regression(k-최근접 이웃 회귀) 알고리즘 - 여러개의 이웃 선택하기

'프로그래밍 > Machine Learning' 카테고리의 다른 글

티스토리툴바

[Machine Learning] k-NN(KNN, k-Nearest Neighbor, k-최근접 이웃), KNN-Regression(k-최근접 이웃 회귀) 알고리즘 - 여러개의 이웃 선택하기

'프로그래밍 > Machine Learning' 카테고리의 다른 글

'프로그래밍/Machine Learning' Related Articles

티스토리툴바