중간비교: K-nn, Naive Bayes, Dicision Tree의 특징비교
데이터 마이닝 (머신 러닝) 2021. 4. 5. 15:45

K-nn: 방법론 자체만 놓고보면 굉장히 단순하고 효율적이다. (실제 모델을 만드는 다른 기법과는 달리 모델을 생성하는 것이 아니기 때문) 하지만 모델이 없기 때문에 classification자체는 느리다고 할 수 있다. (새로운 것이 바로바로 분류x) 훈련데이터를 학습이 아닌 저장을 하기 때문에 (비모수학습) 많은 메모리를 많이 차지하기도 한다. 범주형같은 명목형 데이터는(거리기반이라) factor로 다 바꾸어줘야 하고, 결측된 데이터가 있다면 빼거나 새로 추가해서 관리해야한다는 단점도 존재한다. --->요약: 단순하나 실질적으로 느린분류, 모델만들기: X, 데이터의 종류와 손실에 민감함 Naive Bayes: 확률적인 방법론을 사용하여 knn처럼 classification만 하는 것이 아니라, 그렇게..

K-nn(Lazy learning)- Classification by nearest neighbor
데이터 마이닝 (머신 러닝) 2021. 3. 29. 22:36

사자성어에도 유유상종이라는 말이 있듯이, 서로 가깝게 위치하는 사물이나 생명체들의 특성이 서로 비슷하거나 일치하는 것은 우리주변에선 흔히 볼 수 있는 현상이다. 머신러닝도 이런 특성을 가진 분류 알고리즘을 가지고 있는데, 그것이 바로 K-nn이다. 예를 들어 그림 1과 같이 단맛과 아삭거림, 이 두 가지 척도(변수)에 따라 음식종류를 분류(Classification)할 수 있다고 하자. 그림 1의 표를 그림 2의 2차원 그래프로 옮겨보면 위와 같을 것이다. x축은 단맛, y축은 아삭거림으로 설정한 것이다. 그림 2야 말로 정말 유유상종이 아닌가? 아삭거림에 상관없이 단맛이 높게 나타난 그룹은 과일그룹, 단맛에 상관없이 아삭거림이 높게 나타난 그룹은 채소그룹, 그리고 단맛과 아삭거림 모두 다 낮게 나타난 ..