본문 바로가기

전체

(155)
K-means clustering(K-평균 군집화) 원리 Unsupervise learning, 그니까 label이 없는 data set을 학습시키는 방법중에 clustering(군집화)이라는 기법이 있다. K개의 clustering point(cluster center)를 잡고 데이터 집합에서 가장 가까운(거리개념) 애들끼리 같은 class를 주는 방식이다. 그리 어렵지 않은 알고리즘이지만 성능이 좋은 편이다. 이 알고리즘도 일종의 EM알고리즘이 되는데 이에 대해서는 추후에 살펴보도록 하고, 이번 포스팅에서는 간단히 K-means clustering알고리즘을 알아보도록 하자. K-means가 무엇인가? 일단 기본적으로 몇개의 cluster로 묶을 지, 원하는 cluster의 개수를 K로 설정해준다. 그리고 갯수 K개에 대하여 거리가 가까운 놈들끼리 묶어주기만..
Kernel/Kernel trick(커널과 커널트릭) Input의 선형조합(어떤 weight와의 곱을 다 더함)으로 output을 결정하는 많은 모델들을 살펴봤다. linear regression, logistic regression, SVM, perceptron... 더 나아가 NN에서도 weighted sum을 활용한다. SVM같이, 선형모델을 분류모델로 가정했을 때, 선형으로 완전히 분류할 수 없는 데이터분포를 만나게 될지도 모른다. 그때, soft margin SVM같은 경우는 soft margin을 두어, 즉 어느정도의 오류는 허용하는 형태로 분류를 했다. 그걸로는 좀 모자르다고 생각할 수 있다. 그럼 어떻게 더 잘 분류할 수 있을지 고민해보게 된다. ​ linear하게 separable하지 않은 애들을 좀 구불구불한 decision boundar..
Regularization(정규화): Ridge regression/LASSO 이 강의를 보고 정리한 내용이고 자료도 강의에서 가져온 자료임을 밝히고 시작한다. 이전 포스팅에서 살펴본 linear regression 모델을 다시 살펴보자. 이렇게 least square solution을 구하면 너무 모델이 복잡해진다는 특징이 있다. (weight가 너무 커져서 모델이 너무 요동치게 된다...) ​ 사실 데이터의 갯수가 많아지면 overfitting의 문제가 해결되는데 도움이 된다. 하지만 우리가 가지는 데이터의 수는 한정되어있을 가능성이 높다. 비교적 복잡하고 유연한 모델을 제한적인 숫자의 데이터 집합을 활용하여 fitting하려면 어떻게 해야할까? 과적합문제를 해결하기 위해 자주 사용되는 기법 중 하나는 바로 regularization(정규화)이다.(이를 penalization이..
Linear regression/Logistic regression 원리 이 블로그는 단순히 내가 공부하는 내용을 정리하고자 글을 올리는 공간이다. regression을 이해하는데 참고한 사이트들을 통해 내가 이해한 방식대로 써내려갔다. 이곳 과 이곳 그리고 이곳을 이용해 포스팅을 했다는 것을 말하고 시작하겠다. 머신러닝을 한번이라도 공부해본 사람이라면 regression(회귀)에 대해 들어봤을 것이다. linear regression과 logistic regression 두가지 방법이 있는데, 둘의 차이를 간단히 정리해보면, linear regression은 target값으로 실수값을 예측할 때 사용하는 방법이고 logistic regression은 classification을 할 수 있는 regression으로 정수값을 예측할 때 사용하는 방법이다. binary class..
Naive bayes classifier(나이브 베이즈 분류기) 원리 앞선 포스팅에서 살펴본 실질적인 bayesian learning method중 하나가 naive bayes learner이다. 이를 niave bayes classifier라고 부르기도 한다. 이 방법은 몇몇 domain(예를들면, NLP)에서 neural net이나 decision tree와 비등한 성능을 냈다. 새로운 instance를 분류하는 bayesian approach는 instance를 표현하는 특징벡터가 주어졌을때, 가장 probable한 target(class)를 찾는 것이다. Bayes theorem 다시 앞선 포스팅에서 봤던 베이즈정리를 정의해보자. 우리가 하려는 분류문제에 맞게 변수를 정의해보자면, y는 분류하고자 하는 class가 된다. X는 input의 특징벡터가 된다. X를 각..
Bayes theorem(베이즈정리)와 MLE/MAP 이제부터 두 개의 포스팅을 통해 Bayesian learning에 대해서 살펴보도록 할 것이다. 기본적으로 Bayesian learning은 추론에서 확률적인 접근을 제공한다. 우리가 관심을 갖는 값(모델,클래스)이 확률분포에 의해 좌우된다는 생각에서 시작한다. 그리고 관측된 데이터와 함께 확률을 추론함으로써, 관심을 갖는 값에 대한 optimal한 decision을 내릴 수 있다는 것을 기초로 하는 learning이다. 기본적으로 확률시간에 많이 배웠던 베이즈정리를 한번 쉬운말로 정리해보고 class의 분류(classification)에 쓰일 수 있는 MLE와 MAP에 대해 직관적으로 설명해보도록 하겠다. 또한 데이터 모델링에 사용되는 파라미터(weight같은)를 예측하는데 쓰일 때 least squa..
K Nearest Neighbor(K 최근접 이웃) 원리 raw데이터가 존재할 때, 그 raw data를 바로 사용할 수도 있지만 이를 가공하여 사용하기도 한다. 주어진 데이터의 특징들을 뽑아서 feature vector를 뽑아내서 이를 머신러닝모델의 input으로 사용하게 된다. 이때의 feature vector는 대체로 높은 차원을 갖는 벡터가 된다. 여러 날(day1,2,3....)이 주어졌을 때, 테니스를 할지/말지 두가지로 분류하는 문제를 통해 feature vector의 예시를 들어보면, Day1의 날씨에 관한 특징 4가지를 이용해 vector를 만들면 4-dimension의 vector가 된다. 이렇게 feature engineering을 거친 데이터 set을 4D공간(space)에 뿌려놓고, 이 데이터들을 분류하는 방법인 K Nearest Nei..
Decision tree(의사결정나무) 원리 분류(classification)과 회귀(regression)문제를 풀기 위한 다양한 종류의 머신러닝 모델이 존재한다. 단일모델을 사용하는 대신 여러 모델을 특정방식으로 조합하면 성능이 더 나아지는 경우가 있다. ​ 1)위원회방식(committees): L개의 서로 다른 모델들을 훈련해서 각 모델이 내는 예측값의 평균을 통해 예측을 시행하는 방식 2)부스팅방식(boosting): 여러모델을 순차적으로 훈련하는데, 각 모델을 훈련하기 위한 오류함수는 그 이전 모델결과에 의해 조절 3)여러 모델 중 하나의 모델을 선택해서 예측을 시행하는 방법 ex)decision tree(의사결정트리) ​ 오늘은 이 중에서 decision tree에 대해 알아보도록하자. Decision tree란? 우리가 알고있는 머신러닝..