목록인공지능 (21)
K 개발자
선형 SVM 분류 라지 마진 분류large margin classification : 클래스 사이에 가장 폭이 넓은 도로를 찾는 것으로 생각 서포트 벡터support vector : SVM이 훈련된 후에 경계를 포함해 도로에 놓인 어떤 샘플이다. 결정 경계는 전적으로 서포트 벡터에 의해 결정된다. 서포트 벡터가 아닌 (i.e. 도로 밖에 있는) 어떤 샘플도 영향을 주지 못한다. 하드 마진 분류hard margin classification 모든 샘플이 도로 바깥쪽에 올바르게 분류 문제점 데이터가 선형적으로 구분될 수 있어야 제대로 작동 이상치에 민감 소프트 마진 분류soft margin classification 하드 마진 분류의 문제를 피하려면 위해 도록의 폭을 가능한 한 넓게 유지하는 것과 마진 오류..
선형 회귀 선형 모델은 입력 특성의 가중치 합과 편향bias(절편intercept)이라는 상수를 더해 예측 선형 회귀 모델의 예측 $\hat{y}=\theta _ {0}+\theta _ {1}x_{1}+\theta _ {2}x_{2}+\cdots +\theta _ {n}x_{n}$ $\hat{y}$은 예측값 $n$은 특성의 수 $x_{i}$는 $i$번째 특성값 $\theta _ {j}$는 $j$번째 모델 파라미터 (편향 $\theta _{0}$과 특성의 가중치 $\theta _{1}, \theta _{2}, \cdots, \theta _{n}$을 포함) 선형 회귀 모델의 예측(벡터 형태) $\hat{y}=h_{\theta }(x)=\theta \cdot x$ $\theta$는 편향 $\theta _ {0..
이진 분류기binary classifier 훈련 두 개의 클래스를 구분 성능 측정 교차 검증을 사용한 정확도 측정 정확도accuracy를 분류기의 성능 측정 지표로 선호하지 않는다. 특히 불균형한 데이터셋을 다룰 때 (i.e. 어떤 클래스가 다른 것보다 월등히 많은 경우) 오차 행렬confusion matrix 행은 실제 클래스를 나타내고 열은 예측한 클래스를 나타낸다. 정밀도와 재현율 TN : 진짜 음성true negative FP : 거짓 양성false positive FN : 거짓 음성false negative TP : 진짜 양성true positive 정밀도precision 양성 예측의 정확도 $정밀도=\frac{TP}{TP+FP}$ 재현율recall(민감도sensitivity, 진짜 양성 비율t..
큰 그림 보기 문제 정의 지도 학습, 비지도 학습, 강화 학습 중 무엇일까? 분류나 회귀인가 아니면 다른 어떤 작업인가? 배치 학습과 온라인 학습 중 어느 것을 사용해야 하나? 성능 측정 지표 선택 RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법 오차가 커질수록 값이 커진다. 평균 제곱근 오차root mean square error(RMSE) 회귀 문제의 전형적인 성능 지표 $RMSE(X,h)=\sqrt{\frac{1}{m}\sum_{i=1}^{m} (h(x^{(i)})-y^{(i)})^{2}}$ 평균 절대 오차mean absolute error(MAE) 이상치가 많을 때 $MAE(X,h)=\frac{1}{m}\sum_{i=1}^{m}\left | h(x^{(i)})-y^{..
머신러닝 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학 머신러닝이 뛰어난 분야 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제 : 하나의 머신러닝 모델이 코드를 간단하게 만들고 전통적인 방법보다 더 잘 수행되도록 할 수 있다. 전통적인 방식으로는 해결 방법이 없는 복잡한 문제 : 가장 뛰어난 머신러닝 기법으로 해결 방법을 찾을 수 있다. 유동적인 환경 : 머신러닝 시스템은 새로운 데이터에 적응할 수 있다. 복잡한 문제와 대량의 데이터에서 통찰 얻기(데이터 마이닝data mining) 머신러닝 시스템의 종류 지도, 비지도, 준지도, 강화 학습 (사람의 감독하에 훈련하는 것인지 아닌지) 온라인 학습과 배치 학습 (실시간으로 점진적인 학습을 하는지 아닌지) 사례 기반 학습과 모델 기반 학습 (단..