본문 바로가기
Microsoft/Azure ML

Azure ML 교차검증 Cross Validate Model 사용하기!!!

by AttractiveS 2020. 2. 6.

교차 검증은 데이터 세트의 가변성과 해당 데이터를 사용하여 교육된 모델의 신뢰성을 모두 평가하기 위해 기계 학습에 자주 사용되는 중요한 기법입니다. 교차검증(cross validation)은 데이트 세트의 샘플 개수가 많지 않을 때 보통 쓰입니다.

 

교차 검증 모형 모듈은 레이블이 지정된 데이터 집합과 숙련되지 않은 분류 또는 회귀 모형을 입력합니다. 

 

데이터 집합을 몇개의 하위 집합(폴드)으로 나누고 각 (폴드)에 대해 모델을 작성한 다음 각 폴드에 대한 일련의 정확도 통계를 반환합니다.

 

정확도 통계를 비교하여 데이터 세트의 품질을 해석하고 모델이 데이터의 변화에 영향을 받는지 여부를 파악할 수 있습니다. 교차 검증에서는 데이터 집합에 대한 예측 결과와 확률도 반환되므로 예측의 신뢰성을 평가할 수 있습니다.

 

 

교차 검증의 장점

모델을 평가하는 다르고 매우 일반적인 방법은 분할데이터를 사용하여 교육 및 테스트 세트로 데이터를 분할한 다음 교육 데이터에서 모델을 검증하는 것입니다. 그러나 교차 검증은 다음과 같은 몇가지 이점을 제공합니다. 교차 검증에는 더 많은 테스트 데이터가 사용됩니다.

 

교차 검증은 더 큰 데이터 공간에서 지정된 매개 변수를 사용하여 모델의 성능을 측정합니다. 즉, 교차 검증에서는 교육 및 평가에 전체 교육 데이터 세트를 일부만 사용하는 대신 사용합니다. 이와 반대로 랜덤 분할에서 생성된 데이터를 사용하여 모델을 검증하는 경우 일반적으로 사용 가능한 데이터의 30%이하에서만 모델을 평가합니다.

 

 

하지만 교차 검증을 수행하고 대규모 데이터 셋에 걸쳐 모델을 여러번 검증하므로 컴퓨팅 집약적이고 랜덤 분할에 대해 검증하는 것보다 시간이 훨씬 오래 걸립니다.

 

교차 검증은 모델뿐만 아니라 데이터 세트도 평가합니다. 교차 검증은 단순히 모델의 정확성을 측정할 뿐만 아니라 데이터 집합의 대표성과 데이터의 변화에 대한 모델의 민감도에 대한 정보도 제공합니다.

 

 

 

 

 

 

  • 분류 모델:정밀도, 리콜, F-점수, AUC, 평균 로그 손실, 교육 로그 손실

  • 회귀 모형:음의 로그 우도, 평균 절대 오차, 루트 평균 제곱 오차, 상대 절대 오차 및 결정 계수


  • Classification models: Precision, recall, F-score, AUC, average log loss, training log loss

  • Regression models: Negative log likelihood, mean absolute error, root mean squared error, relative absolute error, and coefficient of determination

반응형