본문 바로가기

AI 프로그래밍

Test / Train 과 과적합 개념 및 특징, 모델 성능 평가 예제 코드

- 2023.04.24


Test dataset 과 Train dataset

 

Test dataset

: 우리가 학습한 모델의 성능을 테스트하는 데이터

  • 최종 모델에 대해 단 한 번 성능을 측정
  • 앞으로 기대되는 성능 예측

 

Validation dataset

: Train 데이터로 만들어진 모델의 성능을 측정

  • 여러 모델들 각각에 적용하여 성능을 측정
  • 최종 모델을 선정하기 위해 사용

 

Train dataset

: 우리가 학습을 할 때 사용할 데이터

  • Test set이 아닌 나머지 데이터 set을 의미하기도 함
  • Train dataset 데이터를 통해 모델을 업그레이드 시켜야 함

 

 

1 단계 : Train과 Test 데이터로 분리

2 단계 : Train 데이터를 Train 과 Validation으로 분리

3 단계 : Train 데이터로 모델을 만들고 Validation 데이터로 검증

만족시 -> 해당 모델을 Train과 Validation 데이터를 합쳐서 학습 시킨 후 Test 데이터로 확인

 


과적합이란?

 

과적합 (overfitting)

: 가계 학습 모델이 학습 데이터에 대한 정확한 예측을 제공하지만, 새 데이터에 대해서는 제공하지 않을 때 발생

 

 


모델 성능 평가하는 방법

 

test dataset / train dataset 완전히 구분한 후 학습과 동시에 테스트 병행

 

  • 실습 코드 예제

 

교차 검증