4 장은 3 가지의 유사한 흐름의 프로젝트가 진행되었습니다. 각 프로젝트는 풀고자 하는 문제의 유형에서 차이가 있습니다.
(미션) 아래 단어들을 직접 손으로 순서에 맞게 적어보면서, 기계 학습 프로세스를 알맞게 완성해봅시다. 분류/회귀 문제에 따라 각 프로젝트에서 어느 부분을 변경했는지 표시해 캡쳐본을 업로드합니다.
모델 학습, 모델 튜닝, 모델 준비, 데이터 전처리, 모델 비교, 모델 평가, 문제정의, 데이터 특징 추출, 데이터 확보, 모델 서빙
1. 문제정의
2. 데이터 확보
3. 데이터 전처리
4. 데이터 특징 추출
5. 모델 준비
6. 모델 학습
7. 모델 평가
8. 모델 튜닝
9. 모델 비교
10. 모델 서빙
각 문제에서 해당 부분을 어떻게 다르게 설정했는지 정리해봅시다.
출력층 | 손실 함수 | 평가 지표 | |
---|---|---|---|
이진 분류 | sigmoid, 1 unit | binary_crossentropy | accuracy |
다중 분류 | softmax, 분류하고자 하는 class의 갯수 | categorical_crossentropy | accuracy |
회귀 | 일반적으로 활성화함수 사용 X, 예측하려는 값의 갯수 | mse, mae | mae |
4.1 / 4.2 에서는 각각 이진 분류와 다중 분류 문제 유형을 다루고 있습니다.
그림 4-7 에 활용된 데이터를 랜덤한 분류기에 넣었을 때 19 % 의 정확도를 보였습니다.
(미션) 그림 4-5 에 활용된 데이터를 랜덤한 분류기에 넣었을 때 성능이 얼마일지 생각해봅시다.
50%
데이터셋의 크기와 모델의 규모, 정확도(성능 지표)를 비교해보면, 어느 유형이 더 어려운(복잡한) 문제인지 가늠할 수 있습니다.
회귀 손실함수, 지표 - MAE 와 RMSE 를 비교해봅시다.
RMSE 는 MAE 보다 이상치(outlier) 에 강건(robust)하다고 알려져 있습니다.
MAE 와 RMSE 수식의 기반이 되는 $|x|$ , $\sqrt{x^2}$ 를 각각 그려보면 같은 모양이라는 것을 알 수 있습니다.
K-fold cross validation 은 특별히 데이터 샘플 갯수가 적은 경우에, 머신러닝 모델 검증에 적용해볼 수 있는 방법론입니다.
머신러닝에서는 일반적으로 데이터셋을 분기하여 validation set 을 만들고, 이를 모델의 하이퍼파라미터를 튜닝하는 목적으로 활용합니다.
출처: 위키백과
1. 모델 성능 향상:
2. 과적합 방지:
3. 효율적인 하이퍼파라미터 튜닝:
4. 데이터 샘플 수가 적은 경우의 활용: