학습템플릿 케창딥 05

오늘의 주제

머신러닝의 일반화
정확한 평가를 위해 필요한 데이터셋 나누기
최적화를 위한 학습 방법
과대적합 방지기법

오늘의 목표

모델의 일반화 능력이 잠재 매니폴드를 학습한 모델이 보간을 통해 새로운 입력을 이해할 수 있음을 안다.
데이터셋을 훈련, 검증, 테스트로 분리하는 이유와 사용을 안다.
최적화를 위한 튜닝방법의 종류와 각각의 효과를 이해한다.
과대적합을 방지하는 방법들을 살펴보고 실습한다.

오늘의 미션

훈련이 반복됨에 따라, 일반적으로 ‘과소적합-최적적합-과대적합’의 진행과정을 보입니다.
- 과소적합은 훈련손실과 검증손실이 함께 낮아지는 상황으로 모델의 성능이 더 개선될 수 있는 상태입니다. (training_loss down, validation_loss down)
- 과대적합은 훈련손실은 감소하지만, 검증손실이 개선되지 않는(심지어 악화되는) 상태입니다. (training_loss down, validation_loss up)

(미션) 과대적합이 발생하기 쉬운 상황으로 a. 데이터의 잡음 b. 불확실성 c. 드문 특성이 있습니다. 각각의 상황이 무엇인지 예시와 함께 설명해봅시다.

데이터의 잡음: 잘못된 데이터 샘플이 있는 경우.
	예) 숫자 이미지는 7인데, 데이터에 4라고 표기됨.

불확실한 특성: 문제에 불확실성과 모호성이 있는 경우.
	예) 바나나가 덜 익었는지, 썩었는지 판단하는 척도가 모호함.(모호)
		같은 기압 데이터를 사용해도 비가 올 수도 있고 안 올 수도 있음.(불확실)

드문 특성: 드문 특성 값을 포함한 경우.
	예) 학습 데이터에 'cherimoya'라는 단어가 한 번만 나왔는데 부정 레이블을 가지고 있다면
	 'cherimoya'라는 단어가 있으면 무조건 부정이라고 판단.

머신 러닝의 목표는 최적화와 일반화입니다.
- 머신러닝 모델의 일반화 성능을 신뢰 있게 측정하기 위해서는 항상 훈련, 검증, 테스트 3개의 세트로 나누어야합니다.
  - 검증세트의 성능을 기반으로 하이퍼파라미터 튜닝을 진행하여 좋은 설정을 찾아냅니다.
  - (미션) 검증 세트와 테스트 세트 모두 훈련에 참여하지 않습니다. 그렇다면 굳이 나누어야하는 이유는 왜 일까요? 혹은 테스트 세트의 결과를 바탕으로 튜닝을 하면 안되는 것일까요? 정보 누설의 개념과 연관하여 위 질문에 답하여 보세요.
```
검증 세트는 모델의 하이퍼파라미터 튜닝과 모델 선택에 사용됩니다.
모델 개발 중에 검증 세트의 성능을 모니터링하면서 모델을 조정하게 됩니다.
만약 이 과정에서 테스트 세트를 사용한다면,
테스트 데이터에 대한 정보가 모델에 간접적으로 누설되어
모델이 테스트 데이터를 암묵적으로 학습하게 됩니다.
이는 모델 성능의 과대평가를 초래할 수 있습니다.
```
훈련 성능을 향상하기 위한 다양한 방법이 있습니다.
- 하이퍼 파라미터 튜닝을 통해 훈련과정을 설정할 수 있습니다. 옵티마이저, 가중치 초기화, 학습률, 배치 크기 등이 있습니다. 각각 학습단계에서 어디에 해당하는지 떠올려 봅시다.
- 데이터의 종류와 특성에 맞는 신경망 구조를 사용하거나, 모델의 용량을 늘릴 수 있습니다.
  - 가장 대표적으로 이미지 데이터는 CNN, 순차적인 데이터는 RNN 구조가 적합하다고 알려져 있습니다.
  - (미션) 왜 Dense layer는 이미지 데이터와 순차적인 데이터를 다루기에 적합하지 않을까요? 각 데이터의 특성을 고려해서 생각해봅시다.
```
Dense Layer는 모든 입력에 대해 동일한 가중치를 적용하며, 
데이터 간의 지역적 특성이나 시간적 의존성을 고려하지 않습니다.
따라서 이미지 데이터와 순차적 데이터를 처리하는 데 있어서는
CNN과 RNN이 각각의 데이터 특성에 맞는 구조를 제공하여 더 효과적인 학습을 가능하게 합니다.
CNN은 이미지의 공간적 패턴을,
RNN은 순차적 데이터의 시간적 패턴을 학습할 수 있도록 설계된 반면,
Dense Layer는 이러한 특성을 활용하지 못합니다.
```
  - 모델이 충분히 학습하지 못하는(과소적합) 경우, 용량을 늘려 모델의 표현능력을 키워줄 수 있습니다.
과대 적합된 모델의 일반화 성능향상을 위해 여러 방법을 적용할 수 있습니다.
- 데이터 큐레이션은 데이터셋이 적절한지 확인하는 단계입니다.
  - 데이터셋의 크기 충분성 검토, 레이블 할당 에러 및 이상치 교정, 데이터 정제 등이 있습니다.
- 특성공학을 적절히 적용하는 것도 좋은 방법입니다.
  - 데이터의 특성을 간단하게 표현하여, 잠재 매니폴드를 간단한 구조로 변환합니다.
- 가중치 규제, 드롭아웃 같은 규제를 적용하는 것은 매우 일반적인 방법입니다.
  - 드롭아웃의 경우 랜덤하게 특성을 제외 합니다.
  - (미션) 4장에서 학습했던 모델에 가중치 규제나 드롭아웃을 적용해보고, 적용하지 않은 모델과 비교해봅시다. 로이터 데이터셋을 분류하는 모델을 학습시킨 학습 곡선과 가중치 규제를 적용한 모델의 학습 곡선, 드롭아웃 레이어를 추가한 모델의 학습 곡선을 비교해봅시다.

오늘의 회고

예상 질문

훈련 데이터의 손실이 낮아질 수록 검증 데이터의 손실이 낮아지는 경우는?
훈련 데이터의 손실이 낮아지고 검증 데이터의 손실이 높아지는 경우는?
과대적합이 발생하기 쉬운 상황 3가지? 각각 어떤 상황인지 예시를 들어 설명
매니폴드 가설에 대해 설명
테스트 데이터로 모델을 훈련시키지 않는 이유, 하이퍼 파라미터 개념을 적용하여 설명
데이터가 적을 때 대표적인 모델 평가 방법 3가지