본문 바로가기

ML&DL/Machine Learning

(11)
K Nearest Neighbor(K 최근접 이웃) 원리 raw데이터가 존재할 때, 그 raw data를 바로 사용할 수도 있지만 이를 가공하여 사용하기도 한다. 주어진 데이터의 특징들을 뽑아서 feature vector를 뽑아내서 이를 머신러닝모델의 input으로 사용하게 된다. 이때의 feature vector는 대체로 높은 차원을 갖는 벡터가 된다. 여러 날(day1,2,3....)이 주어졌을 때, 테니스를 할지/말지 두가지로 분류하는 문제를 통해 feature vector의 예시를 들어보면, Day1의 날씨에 관한 특징 4가지를 이용해 vector를 만들면 4-dimension의 vector가 된다. 이렇게 feature engineering을 거친 데이터 set을 4D공간(space)에 뿌려놓고, 이 데이터들을 분류하는 방법인 K Nearest Nei..
Decision tree(의사결정나무) 원리 분류(classification)과 회귀(regression)문제를 풀기 위한 다양한 종류의 머신러닝 모델이 존재한다. 단일모델을 사용하는 대신 여러 모델을 특정방식으로 조합하면 성능이 더 나아지는 경우가 있다. ​ 1)위원회방식(committees): L개의 서로 다른 모델들을 훈련해서 각 모델이 내는 예측값의 평균을 통해 예측을 시행하는 방식 2)부스팅방식(boosting): 여러모델을 순차적으로 훈련하는데, 각 모델을 훈련하기 위한 오류함수는 그 이전 모델결과에 의해 조절 3)여러 모델 중 하나의 모델을 선택해서 예측을 시행하는 방법 ex)decision tree(의사결정트리) ​ 오늘은 이 중에서 decision tree에 대해 알아보도록하자. Decision tree란? 우리가 알고있는 머신러닝..
SVM(Support Vector Machine) 원리 어떠한 '분류'라는 문제를 풀기 위해 패턴 인식 분야는 꾸준히 발전하였다. 가장 오랜 역사를 가진 통계적 분류방법에서 출발해서 신경망이 개발되었고 트리분류기, 은닉마코프모델등이 개발되었다. 이런 상황에서 SVM이 등장하여 주목받았다. ​ SVM은 기존의 분류방법들과 기본원리가 크게 다르다. 신경망을 포함하여 기존의 방법들은 분류 '오류율을 최소화'하려는 목적으로 설계되었다. 하지만 SVM은 한 발짝 더 나아가 두 부류 사이에 존재하는 '여백을 최대화'하려는 목적으로 설계되었다. SVM이란 무엇인가? 기계학습 분야 중 하나로 패턴인식, 자료분석을 위한 지도학습 모델분류와 회귀분석을 위해 사용한다. ​ 두 카테고리 중 어느 하나에 속한 데이터 집합이 주어졌을 때, 주어진 데이터집합을 바탕으로 새로운 데이터가..