목록핸즈온 머신러닝 (19)
K 개발자
이진 분류기binary classifier 훈련 두 개의 클래스를 구분 성능 측정 교차 검증을 사용한 정확도 측정 정확도accuracy를 분류기의 성능 측정 지표로 선호하지 않는다. 특히 불균형한 데이터셋을 다룰 때 (i.e. 어떤 클래스가 다른 것보다 월등히 많은 경우) 오차 행렬confusion matrix 행은 실제 클래스를 나타내고 열은 예측한 클래스를 나타낸다. 정밀도와 재현율 TN : 진짜 음성true negative FP : 거짓 양성false positive FN : 거짓 음성false negative TP : 진짜 양성true positive 정밀도precision 양성 예측의 정확도 $정밀도=\frac{TP}{TP+FP}$ 재현율recall(민감도sensitivity, 진짜 양성 비율t..
큰 그림 보기 문제 정의 지도 학습, 비지도 학습, 강화 학습 중 무엇일까? 분류나 회귀인가 아니면 다른 어떤 작업인가? 배치 학습과 온라인 학습 중 어느 것을 사용해야 하나? 성능 측정 지표 선택 RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법 오차가 커질수록 값이 커진다. 평균 제곱근 오차root mean square error(RMSE) 회귀 문제의 전형적인 성능 지표 $RMSE(X,h)=\sqrt{\frac{1}{m}\sum_{i=1}^{m} (h(x^{(i)})-y^{(i)})^{2}}$ 평균 절대 오차mean absolute error(MAE) 이상치가 많을 때 $MAE(X,h)=\frac{1}{m}\sum_{i=1}^{m}\left | h(x^{(i)})-y^{..
머신러닝 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학 머신러닝이 뛰어난 분야 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제 : 하나의 머신러닝 모델이 코드를 간단하게 만들고 전통적인 방법보다 더 잘 수행되도록 할 수 있다. 전통적인 방식으로는 해결 방법이 없는 복잡한 문제 : 가장 뛰어난 머신러닝 기법으로 해결 방법을 찾을 수 있다. 유동적인 환경 : 머신러닝 시스템은 새로운 데이터에 적응할 수 있다. 복잡한 문제와 대량의 데이터에서 통찰 얻기(데이터 마이닝data mining) 머신러닝 시스템의 종류 지도, 비지도, 준지도, 강화 학습 (사람의 감독하에 훈련하는 것인지 아닌지) 온라인 학습과 배치 학습 (실시간으로 점진적인 학습을 하는지 아닌지) 사례 기반 학습과 모델 기반 학습 (단..