기계 학습을 위한 일반적인 워크 플로우에는 다음과 같은 여러 단계가 포함됩니다.
-
해결할 문제 식별 및 결과 측정을 위한 메트릭.
-
적절한 데이터 찾기, 정리 및 준비
-
최상의 기능을 확인하고 새로운 기능을 엔지니어링 합니다.
-
모델을 제작, 평가 및 조정할 수 있습니다.
-
모델을 사용하여 예측, 권장 사항 및 기타 결과 생성
이 섹션의 모듈은 모델을 교육하기 위해 데이터에 알고리즘을 적용하는 기계 학습의 최종 단계를 위한 도구를 제공합니다. 이 마지막 단계에서 점수를 생성한 다음 모델의 정확성과 유용성을 평가할 수도 있습니다.
범주별 기계 학습 과제 목록
-
모델 초기화
클러스터링, 회귀 분석, 분류 및 이상 징후 탐지 모델을 비롯한 다양한 사용자 지정 가능한 기계 학습 알고리즘 중에서 선택합니다.
-
기차
구성된 모델에 데이터를 제공하여 패턴을 학습하고 예측에 사용할 수 있는 통계를 만듭니다.
-
득점
교육된 모델을 사용하여 예측을 생성합니다.
-
평가하다
교육 받은 모델의 정확도를 측정하거나 여러 모델을 비교합니다.
이 실험 워크 플로우에 대한 자세한 설명은 신용 위험 솔루션 설명서를 참조하십시오.
전제 조건
모델을 제작하는 재미 있는 부분에 도달하기 전에 일반적으로 많은 준비가 필요합니다. 이 섹션에서는 데이터를 정리하고 입력 품질을 향상시키며 런타임 오류를 방지하는 데 도움이 되는 MachineLearningStudio(클래식)의 도구에 대한 링크를 제공합니다.
데이터 탐색 및 데이터 품질
선택한 알고리즘에 적합한 데이터 유형, 수량 및 품질을 제공하는 데이터인지 확인합니다. 보유하고 있는 데이터의 양과 배포 방법을 이해합니다. 특이치가 있나요? 이러한 데이터는 어떻게 생성되었으며 무엇을 의미합니까? 중복된 기록이 있나요?
결측값 처리
값이 누락되면 여러가지 방법으로 결과에 영향을 줄 수 있습니다. 예를 들어, 거의 모든 통계적 방법은 결측값을 사용하여 사례를 무시합니다. 기본적으로 시스템 학습은 값이 누락된 행이 있을 때 다음 규칙을 따릅니다.
-
모형을 훈련하는 데 사용되는 데이터에 결측값이 있으면 결측값이 있는 행은 건너뜁니다.
-
모형에 대해 점수를 매길 때 입력으로 사용되는 데이터에 결측값이 있으면 결측값이 입력으로 사용되지만 nulls가 전파됩니다. 이는 일반적으로 유효한 예측 대신 null이 결과에 삽입됨을 의미합니다.
모델을 교육하기 전에 반드시 데이터를 확인하십시오. 누락된 값을 귀속시키거나 데이터를 수정하려면 이 모듈을 사용하십시오.
- 누락된 데이터 정리
피쳐 선택 및 치수 지정 감소
머신 러닝 스튜디오(클래식)는 데이터를 선별하여 가장 유용한 특성을 찾을 수 있도록 도와 줍니다.
-
Fisher선형 판별 분석 또는 필터 기반 피쳐 선택과 같은 도구를 사용하여 예측 검정력이 가장 높은 데이터 열을 결정합니다. 또한 이러한 도구는 데이터 누출로 인해 제거해야 하는 열을 식별할 수 있습니다.
-
기존 데이터에서 기능을 생성하거나 엔지니어링 합니다. 데이터 또는 그룹 데이터를 표준화하여 새 데이터 그룹을 만들거나 분석 전에 숫자 값 범위를 표준화합니다.
-
범주형 값을 그룹화하거나, 주성분 분석을 사용하거나, 표본을 추출하여 치수를 줄입니다.
적절한 알고리즘 선택
해결하려는 문제에 따라 분석에 사용할 데이터 선택과 알고리즘 선택이 모두 결정됩니다.
자세한 내용은 AzureMachineLearning에서 알고리즘을 선택하는 방법을 참조하십시오.