(미션) 과대적합이 발생하기 쉬운 상황으로 a. 데이터의 잡음 b. 불확실성 c. 드문 특성이 있습니다. 각각의 상황이 무엇인지 예시와 함께 설명해봅시다.
데이터의 잡음: 잘못된 데이터 샘플이 있는 경우.
예) 숫자 이미지는 7인데, 데이터에 4라고 표기됨.
불확실한 특성: 문제에 불확실성과 모호성이 있는 경우.
예) 바나나가 덜 익었는지, 썩었는지 판단하는 척도가 모호함.(모호)
같은 기압 데이터를 사용해도 비가 올 수도 있고 안 올 수도 있음.(불확실)
드문 특성: 드문 특성 값을 포함한 경우.
예) 학습 데이터에 'cherimoya'라는 단어가 한 번만 나왔는데 부정 레이블을 가지고 있다면
'cherimoya'라는 단어가 있으면 무조건 부정이라고 판단.
머신 러닝의 목표는 최적화와 일반화입니다.
검증세트의 성능을 기반으로 하이퍼파라미터 튜닝을 진행하여 좋은 설정을 찾아냅니다.
(미션) 검증 세트와 테스트 세트 모두 훈련에 참여하지 않습니다. 그렇다면 굳이 나누어야하는 이유는 왜 일까요? 혹은 테스트 세트의 결과를 바탕으로 튜닝을 하면 안되는 것일까요? 정보 누설의 개념과 연관하여 위 질문에 답하여 보세요.
검증 세트는 모델의 하이퍼파라미터 튜닝과 모델 선택에 사용됩니다.
모델 개발 중에 검증 세트의 성능을 모니터링하면서 모델을 조정하게 됩니다.
만약 이 과정에서 테스트 세트를 사용한다면,
테스트 데이터에 대한 정보가 모델에 간접적으로 누설되어
모델이 테스트 데이터를 암묵적으로 학습하게 됩니다.
이는 모델 성능의 과대평가를 초래할 수 있습니다.
훈련 성능을 향상하기 위한 다양한 방법이 있습니다.
가장 대표적으로 이미지 데이터는 CNN, 순차적인 데이터는 RNN 구조가 적합하다고 알려져 있습니다.
(미션) 왜 Dense layer는 이미지 데이터와 순차적인 데이터를 다루기에 적합하지 않을까요? 각 데이터의 특성을 고려해서 생각해봅시다.
Dense Layer는 모든 입력에 대해 동일한 가중치를 적용하며,
데이터 간의 지역적 특성이나 시간적 의존성을 고려하지 않습니다.
따라서 이미지 데이터와 순차적 데이터를 처리하는 데 있어서는
CNN과 RNN이 각각의 데이터 특성에 맞는 구조를 제공하여 더 효과적인 학습을 가능하게 합니다.
CNN은 이미지의 공간적 패턴을,
RNN은 순차적 데이터의 시간적 패턴을 학습할 수 있도록 설계된 반면,
Dense Layer는 이러한 특성을 활용하지 못합니다.
모델이 충분히 학습하지 못하는(과소적합) 경우, 용량을 늘려 모델의 표현능력을 키워줄 수 있습니다.
과대 적합된 모델의 일반화 성능향상을 위해 여러 방법을 적용할 수 있습니다.
예상 질문