학습탬플릿 케창딥 04

오늘의 주제

신경망을 활용하여 다양한 문제를 해결하는 방법에 대해 설명합니다.
영화 리뷰 분류와 뉴스 기사 분류를 통해 이진 분류와 다중 분류 문제를 각각 다루며, 주택 가격 예측을 통해 회귀 문제를 다룹니다.
각 문제에 대해 데이터 준비, 모델 구성, 훈련 및 검증, 새로운 데이터에 대한 예측 등의 과정을 상세히 알아봅니다.

오늘의 목표

실전 머신 러닝 워크 플로를 이해합니다.
벡터 데이터를 사용한 분류 문제를 이해합니다.
벡터 데이터를 사용한 연속적인 회귀 문제를 이해합니다.

오늘의 미션

4 장은 3 가지의 유사한 흐름의 프로젝트가 진행되었습니다. 각 프로젝트는 풀고자 하는 문제의 유형에서 차이가 있습니다.

기계학습 프로세스가 어떤 순서로 진행되는 지 이해하면, 문제의 유형에 따라 어디를 변경해야할 지 떠올리기 쉽습니다.

(미션) 아래 단어들을 직접 손으로 순서에 맞게 적어보면서, 기계 학습 프로세스를 알맞게 완성해봅시다. 분류/회귀 문제에 따라 각 프로젝트에서 어느 부분을 변경했는지 표시해 캡쳐본을 업로드합니다.

모델 학습, 모델 튜닝, 모델 준비, 데이터 전처리, 모델 비교, 모델 평가, 문제정의, 데이터 특징 추출, 데이터 확보, 모델 서빙

1. 문제정의
2. 데이터 확보
3. 데이터 전처리
4. 데이터 특징 추출
5. 모델 준비
6. 모델 학습
7. 모델 평가
8. 모델 튜닝
9. 모델 비교
10. 모델 서빙

각 문제에서 해당 부분을 어떻게 다르게 설정했는지 정리해봅시다.

	출력층	손실 함수	평가 지표
이진 분류	sigmoid, 1 unit	binary_crossentropy	accuracy
다중 분류	softmax, 분류하고자 하는 class의 갯수	categorical_crossentropy	accuracy
회귀	일반적으로 활성화함수 사용 X, 예측하려는 값의 갯수	mse, mae	mae

4.1 / 4.2 에서는 각각 이진 분류와 다중 분류 문제 유형을 다루고 있습니다.
- 그림 4-7 에 활용된 데이터를 랜덤한 분류기에 넣었을 때 19 % 의 정확도를 보였습니다.
  - (미션) 그림 4-5 에 활용된 데이터를 랜덤한 분류기에 넣었을 때 성능이 얼마일지 생각해봅시다.
    
    50%
- 데이터셋의 크기와 모델의 규모, 정확도(성능 지표)를 비교해보면, 어느 유형이 더 어려운(복잡한) 문제인지 가늠할 수 있습니다.
  - 각 프로젝트에서 활용된 데이터는 샘플의 갯수, 클래스의 갯수에서 차이를 보이고 있습니다.
  - (미션) 4.1 / 4.2 장에서 활용된 모델 구조의 규모와 최고 정확도 수치를 각각 비교하고 해석을 적어봅시다.
    - (답을 여기)
    - 3개의 layer/ 16개 유닛/ 89%, 3개의 layer /64개의 유닛 /82%
회귀 손실함수, 지표 - MAE 와 RMSE 를 비교해봅시다.
- RMSE 는 MAE 보다 이상치(outlier) 에 강건(robust)하다고 알려져 있습니다.
- MAE 와 RMSE 수식의 기반이 되는 $|x|$ , $\sqrt{x^2}$ 를 각각 그려보면 같은 모양이라는 것을 알 수 있습니다.
  - (미션) 링크에 저장된 샘플 데이터를 가지고 직접 MAE, RMSE 를 계산해본 후, RMSE 가 MAE 보다 크게 증가하는 경우에 대해서 설명해봅시다.
    - 예측값과 실제값 사이의 큰 차이가 존재할 때
    - RMSE는 제곱된 오차를 사용하기 때문에 큰 오차값에 대해 더 민감하게 반응합니다.
K-fold cross validation 은 특별히 데이터 샘플 갯수가 적은 경우에, 머신러닝 모델 검증에 적용해볼 수 있는 방법론입니다.
- 머신러닝에서는 일반적으로 데이터셋을 분기하여 validation set 을 만들고, 이를 모델의 하이퍼파라미터를 튜닝하는 목적으로 활용합니다.
  
  출처: 위키백과
  - (미션) Validation set 을 고정하지 않고, 지속적으로 바꾸어 활용하면 어떤 효과를 얻을 수 있을까요?
  1. 모델 성능 향상:
  - 교차 검증 과정에서 다양한 데이터 조합을 학습: 모델이 특정 데이터 조합에 과적합되는 것을 방지하고 일반화 능력을 향상시킵니다.
  - 더 많은 데이터 활용: Validation set을 고정하는 방식보다 더 많은 데이터를 학습에 사용하여 모델 성능을 개선할 수 있습니다.
  - 신뢰도 있는 평가: 다양한 데이터 조합에 대한 평균 성능을 평가하여 모델의 신뢰도를 높일 수 있습니다.
  2. 과적합 방지:
  - Validation set 고정 시 발생 가능한 과적합 문제 해결: 특정 Validation set에 대한 과적합을 방지하고 모델의 일반화 능력을 향상시킵니다.
  - 데이터 샘플 수가 적은 경우 특히 중요: 데이터 샘플 수가 적은 경우 Validation set의 크기도 작아져 과적합 가능성이 높아집니다. K-fold Cross Validation은 이러한 문제를 해결하는 데 효과적입니다.
  3. 효율적인 하이퍼파라미터 튜닝:
  - 다양한 하이퍼파라미터 조합 평가: Validation set을 고정하는 방식보다 더 많은 하이퍼파라미터 조합을 평가하여 최적의 조합을 찾을 수 있습니다.
  - 계산 비용 절감: Validation set을 별도로 준비할 필요가 없어 계산 비용을 절감할 수 있습니다.
  4. 데이터 샘플 수가 적은 경우의 활용:
  - 데이터 샘플 수가 적은 경우에도 안정적인 모델 평가: 데이터 샘플 수가 적은 경우 Validation set의 크기도 작아져 신뢰도가 떨어질 수 있습니다. K-fold Cross Validation은 이러한 문제를 해결하여 안정적인 모델 평가를 가능하게 합니다.
  - 데이터 증강 기법과의 결합: 데이터 증강 기법을 사용하여 데이터 샘플 수를 인위적으로 늘리고 K-fold Cross Validation을 적용하면 더욱 효과적입니다.

오늘의 주제

오늘의 목표

오늘의 미션

오늘의 회고