Tags more

Link

github

관리 메뉴

K 개발자

분류 시스템 본문

인공지능/핸즈온 머신러닝

분류 시스템

ddingz 2020. 9. 12. 00:46

이진 분류기^{binary classifier} 훈련

두 개의 클래스를 구분

성능 측정

교차 검증을 사용한 정확도 측정

정확도^accuracy를 분류기의 성능 측정 지표로 선호하지 않는다.
특히 불균형한 데이터셋을 다룰 때 (i.e. 어떤 클래스가 다른 것보다 월등히 많은 경우)

오차 행렬^{confusion matrix}

행은 실제 클래스를 나타내고 열은 예측한 클래스를 나타낸다.

정밀도와 재현율

TN : 진짜 음성^{true negative}
FP : 거짓 양성^{false positive}
FN : 거짓 음성^{false negative}
TP : 진짜 양성^{true positive}

정밀도^precision

양성 예측의 정확도
$정밀도=\frac{TP}{TP+FP}$

재현율^recall(민감도^sensitivity, 진짜 양성 비율^{true positive rate}(TPR))

분류기가 정확하게 감지한 양성 샘플의 비율
$재현율=\frac{TP}{TP+FN}$

$F_{1}$점수^{$F_{1}$ score}

정밀도와 재현율의 조화 평균^{harmonic mean}
$F_{1}= \frac{2}{\frac{1}{정밀도}+\frac{1}{재현율}}=2\times \frac{정밀도\times 재현율}{정밀도+재현율}=\frac{TP}{TP+\frac{FN+FP}{2}}$

정밀도/재현율 트레이드오프

정밀도를 올리면 재현율이 줄고 그 반대도 마찬가지

수신기 조작 특성^{receiver operating characteristic}(ROC) 곡선

거짓 양성 비율^{false positive rate}(FPR)에 대한 진짜 양성 비율^{true positive rate}(TPR)
FPR은 1에서 음성으로 정확하게 분류한 음성 샘플의 비율인 진짜 음성 비율^{true negative rate}(TNR)을 뺀 값 (TNR을 특이도^specificity라고도 한다.)
따라서 ROC곡선은 민감도(재현율)에 대한 1-특이도 그래프
일반적인 법칙은 양성 클래스가 드물거나 거짓 음성보다 거짓 양성이 더 중요할 때 정밀도/재현율(PR) 곡선을 사용하고 그렇지 않으면 ROC 곡선을 사용

ROC AUC 점수

곡선 아래의 면적^{area under the curve}(AUC)을 측정

다중 분류

다중 분류기^{multiclass classifier}(다항 분류기^{multinomial classifier})는 둘 이상의 클래스를 구별

이진 분류기를 여러 개 사용해 다중 클래스를 분류하는 기법

OvR^{one-versus-the-rest}(OvA^{one-versus-all}) 전략

특정 클래스 하나만 구분하는 클래스별 이진 분류기를 훈련
샘플을 분류할 때 각 분류기의 결정 점수 중에서 가장 높은 것을 클래스로 선택

OvO^{one-versus-one} 전략

각 클래스의 조합마다 이진 분류기를 훈련
클래스가 N개라면 분류기는 N*(N-1)/2개가 필요
샘플 하나를 분류하려면 분류기 모두를 통과시켜서 가장 많이 양성으로 분류된 클래스를 선택
주요 장점은 각 분류기의 훈련에 전체 훈련 세트 중 구별할 두 클래스에 해당하는 샘플만 필요

에러 분석

오차 행렬을 분석하면 분류기의 성능 향상 방안에 대한 통찰을 얻을 수 있다.

다중 레이블 분류^{multilabel classification}

여러 개의 이진 꼬리표를 출력하는 분류 시스템

다중 출력 다중 클래스 분류^{multioutput-multiclass classification}(다중 출력 분류^{multioutput classification})

다중 레이블 분류에서 한 레이블이 다중 클래스가 될 수 있도록 일반화한 것 (i.e. 값을 두 개 이상 가질 수 있다.)

실습코드링크 : MNIST

'인공지능 > 핸즈온 머신러닝' 카테고리의 다른 글

결정 트리 (0)	2020.10.10
서포트 벡터 머신 (0)	2020.10.06
모델 작동 원리 (0)	2020.09.30
머신러닝 프로젝트 주요 단계 (0)	2020.09.03
머신러닝이란 (0)	2020.09.03

'인공지능/핸즈온 머신러닝' Related Articles

Comments

K 개발자

분류 시스템 본문

분류 시스템

이진 분류기binary classifier 훈련

성능 측정

교차 검증을 사용한 정확도 측정

오차 행렬confusion matrix

정밀도와 재현율

정밀도precision

재현율recall(민감도sensitivity, 진짜 양성 비율true positive rate(TPR))

$F_{1}$점수$F_{1}$ score