(AI) 과대적합 및 과소적합 (feat. 편향-분산 트레이드오프)
과대적합 및 과소적합
1. 개요
과대적합(Overfitting)과 과소적합(Underfitting)은 머신러닝 모델의 성능을 평가하는 핵심적인 개념이다. 이 두 가지 문제는 모델이 학습 데이터와 실제 데이터 간의 관계를 얼마나 잘 일반화(Generalize)하는지 나타낸다. 과대적합은 모델이 학습 데이터에 지나치게 맞춰져 새로운 데이터에 대한 예측 성능이 떨어지는 것이고, 과소적합은 모델이 학습 데이터의 패턴조차 제대로 학습하지 못한 상태이다.
| 구분 | 과대적합(Overfitting) | 과소적합(Underfitting) |
| 정의 | 훈련 데이터에 과도하게 맞추어 일반화 성능 저하 | 훈련 데이터조차 충분히 학습하지 못한 상태 |
| 성능 | 훈련 데이터: 높음 테스트 데이터: 낮음 |
훈련 데이터: 낮음 테스트 데이터: 낮음 |
| 원인 | 복잡한 모델, 데이터 부족, 과도한 학습 | 단순한 모델, 학습 부족, 특징 부족 |
| 대응 | 정규화, 데이터 확장, 모델 단순화 | 모델 복잡화, 특징 추가, 학습 강화 |
2. 과대적합 (Overfitting)
과대적합은 모델이 훈련 데이터의 노이즈나 특정 패턴까지 암기하여, 실제 데이터의 일반적인 경향성을 벗어나는 상태이다. 이는 모델이 너무 복잡할 때 자주 발생한다.
- 특징: 훈련 데이터에 대한 성능은 매우 높지만, 테스트 데이터에 대한 성능은 매우 낮다.
- 원인: 모델의 복잡도가 데이터의 양에 비해 너무 높거나, 훈련 데이터의 양이 너무 적을 때 발생한다.
- 해결 방안: 모델을 단순화하거나(예: 의사결정 트리의 깊이 제한), 데이터 증강, 규제(Regularization)를 적용한다.
3. 과소적합 (Underfitting)
과소적합은 모델이 훈련 데이터의 기본적인 패턴조차 제대로 학습하지 못하는 상태이다. 이는 모델이 너무 단순하거나, 충분히 학습되지 않았을 때 발생한다.
- 특징: 훈련 데이터와 테스트 데이터 모두에 대한 성능이 낮다.
- 원인: 모델의 복잡도가 데이터의 복잡성에 비해 너무 낮거나, 훈련 시간이 너무 짧을 때 발생한다.
- 해결 방안: 모델의 복잡도를 증가시키거나(예: 신경망의 은닉층 추가), 특성 공학(Feature Engineering)을 통해 유용한 정보를 추가한다.
4. 과대적합과 과소적합 관계
과대적합과 과소적합은 편향-분산 트레이드오프(Bias-Variance Trade-off) 관계로 설명될 수 있다.
※ 편향-분산 트레이드오프 (Bias-Variance Trade-off)
편향-분산 트레이드오프는 머신러닝 모델의 성능에 영향을 미치는 두 가지 주요 오류인 편향(Bias)과 분산(Variance) 사이의 상충 관계를 설명하는 개념이다.

분산(Variance): 모델이 훈련 데이터의 작은 변동에도 민감하게 반응하여 발생하는 오류이다. 모델이 너무 복잡하여 훈련 데이터의 노이즈까지 학습할 때 발생한다. 과대적합된 모델은 높은 분산과 낮은 편향의 특징을 가진다.
좋은 머신러닝 모델은 편향과 분산 사이의 균형점을 찾아, 훈련 데이터와 새로운 데이터 모두에서 좋은 성능을 보이는 것을 목표로 한다. 편향을 줄이면 분산이 증가하고, 분산을 줄이면 편향이 증가하는 경향이 있어 이 둘 사이의 최적점을 찾는 것이 중요하다.
5. 결론
과대적합과 과소적합은 모델의 복잡도와 학습 데이터의 양에 따라 발생하는 문제이며, 이는 편향-분산 트레이드오프라는 근본적인 원리로 설명될 수 있다. 효과적인 모델을 구축하기 위해서는 이 두 가지 문제를 정확히 진단하고, 적절한 방법을 통해 편향과 분산 사이의 균형을 찾아야 한다.