K 개발자
분류 시스템 본문
이진 분류기binary classifier 훈련
두 개의 클래스를 구분
성능 측정
교차 검증을 사용한 정확도 측정
정확도accuracy를 분류기의 성능 측정 지표로 선호하지 않는다.
특히 불균형한 데이터셋을 다룰 때 (i.e. 어떤 클래스가 다른 것보다 월등히 많은 경우)
오차 행렬confusion matrix
행은 실제 클래스를 나타내고 열은 예측한 클래스를 나타낸다.
정밀도와 재현율
TN : 진짜 음성true negative
FP : 거짓 양성false positive
FN : 거짓 음성false negative
TP : 진짜 양성true positive
정밀도precision
양성 예측의 정확도
$정밀도=\frac{TP}{TP+FP}$
재현율recall(민감도sensitivity, 진짜 양성 비율true positive rate(TPR))
분류기가 정확하게 감지한 양성 샘플의 비율
$재현율=\frac{TP}{TP+FN}$
$F_{1}$점수$F_{1}$ score
정밀도와 재현율의 조화 평균harmonic mean
$F_{1}= \frac{2}{\frac{1}{정밀도}+\frac{1}{재현율}}=2\times \frac{정밀도\times 재현율}{정밀도+재현율}=\frac{TP}{TP+\frac{FN+FP}{2}}$
정밀도/재현율 트레이드오프
정밀도를 올리면 재현율이 줄고 그 반대도 마찬가지
수신기 조작 특성receiver operating characteristic(ROC) 곡선
거짓 양성 비율false positive rate(FPR)에 대한 진짜 양성 비율true positive rate(TPR)
FPR은 1에서 음성으로 정확하게 분류한 음성 샘플의 비율인 진짜 음성 비율true negative rate(TNR)을 뺀 값 (TNR을 특이도specificity라고도 한다.)
따라서 ROC곡선은 민감도(재현율)에 대한 1-특이도 그래프
일반적인 법칙은 양성 클래스가 드물거나 거짓 음성보다 거짓 양성이 더 중요할 때 정밀도/재현율(PR) 곡선을 사용하고 그렇지 않으면 ROC 곡선을 사용
ROC AUC 점수
곡선 아래의 면적area under the curve(AUC)을 측정
다중 분류
다중 분류기multiclass classifier(다항 분류기multinomial classifier)는 둘 이상의 클래스를 구별
이진 분류기를 여러 개 사용해 다중 클래스를 분류하는 기법
OvRone-versus-the-rest(OvAone-versus-all) 전략
특정 클래스 하나만 구분하는 클래스별 이진 분류기를 훈련
샘플을 분류할 때 각 분류기의 결정 점수 중에서 가장 높은 것을 클래스로 선택
OvOone-versus-one 전략
각 클래스의 조합마다 이진 분류기를 훈련
클래스가 N개라면 분류기는 N*(N-1)/2개가 필요
샘플 하나를 분류하려면 분류기 모두를 통과시켜서 가장 많이 양성으로 분류된 클래스를 선택
주요 장점은 각 분류기의 훈련에 전체 훈련 세트 중 구별할 두 클래스에 해당하는 샘플만 필요
에러 분석
오차 행렬을 분석하면 분류기의 성능 향상 방안에 대한 통찰을 얻을 수 있다.
다중 레이블 분류multilabel classification
여러 개의 이진 꼬리표를 출력하는 분류 시스템
다중 출력 다중 클래스 분류multioutput-multiclass classification(다중 출력 분류multioutput classification)
다중 레이블 분류에서 한 레이블이 다중 클래스가 될 수 있도록 일반화한 것 (i.e. 값을 두 개 이상 가질 수 있다.)
실습코드링크 : MNIST