목록머신러닝 (9)
K 개발자
군집 군집clustering : 비슷한 샘플을 구별해 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업 클러스터cluster : 보편적인 정의는 없다. 상황에 따라 다르고 어떤 모양이든 될 수 있고 종류가 아주 많다. 센트로이드centroid : 클러스터의 특정 포인트 k-평균 각 클러스터의 중심을 찾고 가장 가까운 클러스터에 샘플을 할당 군집에서 각 샘플의 레이블은 알고리즘이 샘플에 할당한 클러스터의 인덱스 k-평균 알고리즘 처음에 센트로이드를 랜덤하게 선정 샘플에 레이블을 할당하고 센트로이드를 업데이트하는 식으로 센트로이드에 변화가 없을 때까지 계속 반복 (일반적으로 이 횟수는 매우 작다.) 센트로이드 초기화 방법 센트로이드 위치를 알 수 있다면 (e.g. 또 다른 군집 알고리즘을 먼저 실행..
차원 축소를 위한 접근 방법 투영projection 예를 들어 3차원 데이터셋에 모든 훈련 샘플이 거의 평면 형태로 놓여 있는 경우 이것이 고차원(3D) 공간에 있는 저차원(2D) 부분 공간subspace 모든 훈련 샘플을 이 부분 공간에 수직으로 (i.e. 샘플과 평면 사이의 가장 짧은 직선을 따라) 투영하면 2D 데이터셋을 얻는다. 매니폴드 학습manifold learning 많은 차원 축소 알고리즘이 훈련 샘플이 놓여 있는 매니폴드를 모델링하는 식으로 작동 대부분 실제 고차원 데이터셋이 더 낮은 저차원 매니폴드에 가깝게 놓여 있다는 매니폴드 가정manifold assumption 또는 매니폴드 가설manifold hypothesis에 근거 매니폴드 가정은 처리해야 할 작업(e.g. 분류나 회귀)이 ..
투표 기반 분류기 각기 다른 훈련 알고리즘을 사용 직접 투표hard voting 각 분류기의 예측을 모아서 가장 많이 선택된 클래스를 예측 간접 투표soft voting 모든 분류기가 클래스의 확률을 예측할 수 있으면, 개별 분류기의 예측을 평균 내어 확률이 가장 높은 클래스를 예측 확률이 높은 투표에 비중을 더 두기 때문에 직접 투표 방식보다 성능이 높다. 배깅과 페이스팅 같은 알고리즘을 사용하고 훈련 세트의 서브셋을 무작위로 구성하여 분류기를 각기 다르게 학습 분류일 때는 통계적 최빈값statistical mode(i.e. 가장 많은 예측 결과)이고 회귀에 대해서는 평균을 계산 배깅bagging 훈련 세트에서 중복을 허용하여 샘플링하는 방식 전반적으로 배깅이 더 나은 모델을 만든다. 페이스팅pasti..
결정 트리 학습과 시각화 루트 노드root node : 깊이가 0인 맨 꼭대기의 노드 리프 노드leaf node : 자식 노드를 가지지 않는 노드 CARTclassification and regression tree 훈련 알고리즘 먼저 크기에 따른 가중치가 적용된 가장 순수한 서브셋으로 나눌 수 있는 ($k$,$t_ {k}$) 짝을 찾는다. 훈련 세트를 하나의 특성 $k$의 임곗값 $t_ {k}$를 사용해 두 개의 서브셋으로 나눈다. CART 알고리즘이 훈련 세트를 성공적으로 둘로 나누었다면 같은 방식으로 서브셋을 또 나누고 그다음엔 서브셋의 서브셋을 나누고 이런 식으로 계속 반복 이 과정은 최대 깊이가 되면 중지하거나 불순도를 줄이는 분할을 찾을 수 없을 때 멈추게 된다. 분류에 대한 CART 비용 함..
선형 SVM 분류 라지 마진 분류large margin classification : 클래스 사이에 가장 폭이 넓은 도로를 찾는 것으로 생각 서포트 벡터support vector : SVM이 훈련된 후에 경계를 포함해 도로에 놓인 어떤 샘플이다. 결정 경계는 전적으로 서포트 벡터에 의해 결정된다. 서포트 벡터가 아닌 (i.e. 도로 밖에 있는) 어떤 샘플도 영향을 주지 못한다. 하드 마진 분류hard margin classification 모든 샘플이 도로 바깥쪽에 올바르게 분류 문제점 데이터가 선형적으로 구분될 수 있어야 제대로 작동 이상치에 민감 소프트 마진 분류soft margin classification 하드 마진 분류의 문제를 피하려면 위해 도록의 폭을 가능한 한 넓게 유지하는 것과 마진 오류..
선형 회귀 선형 모델은 입력 특성의 가중치 합과 편향bias(절편intercept)이라는 상수를 더해 예측 선형 회귀 모델의 예측 $\hat{y}=\theta _ {0}+\theta _ {1}x_{1}+\theta _ {2}x_{2}+\cdots +\theta _ {n}x_{n}$ $\hat{y}$은 예측값 $n$은 특성의 수 $x_{i}$는 $i$번째 특성값 $\theta _ {j}$는 $j$번째 모델 파라미터 (편향 $\theta _{0}$과 특성의 가중치 $\theta _{1}, \theta _{2}, \cdots, \theta _{n}$을 포함) 선형 회귀 모델의 예측(벡터 형태) $\hat{y}=h_{\theta }(x)=\theta \cdot x$ $\theta$는 편향 $\theta _ {0..
이진 분류기binary classifier 훈련 두 개의 클래스를 구분 성능 측정 교차 검증을 사용한 정확도 측정 정확도accuracy를 분류기의 성능 측정 지표로 선호하지 않는다. 특히 불균형한 데이터셋을 다룰 때 (i.e. 어떤 클래스가 다른 것보다 월등히 많은 경우) 오차 행렬confusion matrix 행은 실제 클래스를 나타내고 열은 예측한 클래스를 나타낸다. 정밀도와 재현율 TN : 진짜 음성true negative FP : 거짓 양성false positive FN : 거짓 음성false negative TP : 진짜 양성true positive 정밀도precision 양성 예측의 정확도 $정밀도=\frac{TP}{TP+FP}$ 재현율recall(민감도sensitivity, 진짜 양성 비율t..
큰 그림 보기 문제 정의 지도 학습, 비지도 학습, 강화 학습 중 무엇일까? 분류나 회귀인가 아니면 다른 어떤 작업인가? 배치 학습과 온라인 학습 중 어느 것을 사용해야 하나? 성능 측정 지표 선택 RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법 오차가 커질수록 값이 커진다. 평균 제곱근 오차root mean square error(RMSE) 회귀 문제의 전형적인 성능 지표 $RMSE(X,h)=\sqrt{\frac{1}{m}\sum_{i=1}^{m} (h(x^{(i)})-y^{(i)})^{2}}$ 평균 절대 오차mean absolute error(MAE) 이상치가 많을 때 $MAE(X,h)=\frac{1}{m}\sum_{i=1}^{m}\left | h(x^{(i)})-y^{..