머신러닝 훈련 중 발생 가능한 문제 - 과대적합과 과소적합

2023. 2. 9. 12:55machine learning

728x90
반응형

과대적합과 과소적합

과대적합과 과소적합은 머신러닝 훈련과정 중 발생할 수 있는 문제로 데이터량, 특성, 샘플 등으로 인해 발생하는 문제와는 다소 차이가 있습니다. 앞서 데이터 설명한 것들은 데이터로 인해 발생할 수 있는 문제점이라면 과대적합과 과소적합은 훈련 알고리즘으로 인해 발생하는 문제입니다.

과대적합

과대적합은 훈련 세트에 특화되어 일빈화 성능이 떨어지는 현상을 말합니다. 이는 훈련 세트에 잘 맞기 때문에 좋은 결과 나타낼 수 있지 않느냐고 오해할 수 있으나 젼혀 그렇지 않습니다. 다음과 같이 과대적합을 잘 표현하는 예를 볼 수 있습니다.

Wikipedia Commons / CC BY

사진상의 점들은 데이터를 나타내고 있으며 그 사이에 직선 또는 포물선을 통해 예측 데이터를 보여주고 있습니다. 검은색 선들을 주어진 데이터들을 통해 어느 정도 오차는 있겠지만 새로운 데이터에 대하여 예측할 수 있는 선들로 나타내고 있습니다. 하지만 파란색, 초록색 포물선을 보면 하나의 데이터마다 커다란 변동성을 보이며 모델의 안정성이 떨어지는 모습입니다. 이러한 결과물을 과대적합된 모델이라 표현하며, 이를 해결하지 못하면 새로운 데이터에 대하여 극심한 변동성을 보이며 예측 모델의 좋은 성과를 낼 수 없게 됩니다.

 

과대적합을 해결 방법

  1. 과대적합이 일어나지 않는 충분한 양의 데이터를 사용한다.
  2. 규제를 적용하여 과대적합을 감소시킨다.

규제의 예로는 위 사진의 파란색, 초록색 선과 같이 고차 함수로 이루어져 있는 모델들을 1차 또는 2차로 낮추어 검은색 직선처럼 표현하도록 하는 것입니다. 이는 하이퍼 파라미터를 통해 조절할 수 있습니다.

과소적합

과소적합은 모델이 너무 단순해서 훈련 세트를 잘 학습하지 못하는 경우입니다. 과대적합과는 반대되는 상황이라 볼 수 있습니다. 

다음과 같이 데이터들이 분포되어 있을 때, 점들의 분포가 초록색 선과 비슷하게 분포되고 있다는 것을 예측할 수 있습니다. 하지만 이를 파란색 선으로 그려본다면 표현이 되지 않습니다. 이러한 경우 파란색 선은 과소적합된 모델이라 합니다. 과소적합의 경우 또한 과대적합 처럼 데이터를 예측하는 데 있어 정확성이 떨어지며 좋은 모델이라 평가하기 어렵습니다. 이를 해결하기 위해서는 파란색 선을 초록색과 같은 2차원 포물선으로 바꿔주어야 합니다.

 

과소적합 해결 방법

  1. 보다 더 많은 모델 파라미터를 사용하는 모델을 적용한다.
  2. 보다 좋은 특성을 활용한다.
  3. 규제 강도를 낮추어 과소적합을 감소시킨다.
728x90
반응형