이 페이지에서는 AutoML Tables를 이용해 사용자와 사용자의 팀이 표 형식의 데이터를 바탕으로 고성능 모델을 만드는 방법을 설명합니다.
알려진 문제 페이지에서 현재 알려진 문제와 이러한 문제를 방지하거나 피해를 복구하는 방법을 확인하세요
AutoML Tables는 데이터 처리 및 보안 약관에 명시된 Google의 의무가 적용되는 서비스입니다.
데이터 지원
AutoML Tables를 사용하면 누락된 데이터, 상관관계, 카디널리티, 각 특성 분포 관련 정보를 제공해 깔끔하고 효과적인 학습 데이터를 만들 수 있습니다. 그리고 데이터 가져오기와 관련 정보 보기는 요금이 부과되지 않으니, 모델 학습을 시작하지 않는 한 AutoML Tables 관련 비용을 지불할 필요가 없습니다.
특성 추출
학습을 시작하면 AutoML Tables는 사용자를 대신해 다음을 포함한 일반적인 특성 추출 작업을 자동으로 수행합니다.
- 숫자 특성을 정규화하고 버킷화합니다.
- 범주형 특성의 원-핫 인코딩과 임베딩을 만듭니다.
- 텍스트 특성의 기본 처리를 수행합니다.
- 타임스탬프 열에서 날짜 및 시간 관련 특성을 추출합니다.
자세한 내용은 AutoML Tables가 대신 데이터 준비를 참조하세요.
모델 학습
동시 모델 테스트
모델 학습을 시작하면 AutoML Tables는 데이터세트를 가져온 다음 여러 모델 아키텍처의 학습을 동시에 시작합니다. 이 접근 방식을 활용하면 AutoML Tables에서 최대한 많은 모델 아키텍처를 상대로 작업을 순차적으로 반복하지 않고도, 데이터에 맞는 최상의 모델 아키텍처를 빠르게 결정할 수 있습니다. AutoML Tables에서 테스트하는 모델 아키텍처는 다음과 같습니다.
- 선형
- 순방향 심층신경망
- 경사 강화 의사 결정 트리
- AdaNet
- 다양한 모델 아키텍처의 앙상블
연구 커뮤니티에서 새 모델 아키텍처를 발표하면, Google에서는 이러한 아키텍처도 추가합니다.
모델 평가 및 최종 모델 생성
Google은 사용자의 학습 및 검증 세트를 사용해 사용자의 데이터에 가장 적합한 모델 아키텍처를 결정합니다. 그리고 동시 테스트 단계에서 결정한 매개변수와 아키텍처를 바탕으로 추가 모델 2개의 학습을 진행합니다.
사용자의 학습 및 검증 세트로 학습을 진행한 모델
Google에서는 사용자의 테스트 세트를 이용해 이 모델에 대한 모델 평가를 제공합니다.
사용자의 학습, 검증, 테스트 세트로 학습을 진행한 모델
사용자가 예측을 수행할 때 사용할 수 있도록 Google에서 제공하는 모델입니다.
AutoML Tables나 BigQuery ML 선택
모델에 포함할 데이터를 이용한 빠른 실험이나 반복에 집중하고, 이러한 목적에 더 단순한 모델 유형(로지스틱 회귀 등)을 활용하고 싶다면 BigQuery ML을 사용해야 합니다.
이미 데이터를 마무리했으면 다음과 같은 경우에 속한다면 AutoML Tables 인터페이스에서 바로 작업하는 편이 효율적입니다.
특성 추출, 모델 선택, 앙상블링 같은 작업을 수동으로 진행하지 않고도 모델 품질(정확도, 낮은 low RMSE 등)을 최적화 및 극대화합니다.
모델 품질이 확보될 때까지 더 오래 기다릴 의향이 있습니다. AutoML Tables는 많은 모델링 옵션을 실험하기 때문에 모델 학습이 끝날 때까지 1시간 이상 걸립니다. BigQuery ML은 사용자가 설정한 모델 아키텍처와 매개변수 값 및 범위만 따르기 때문에 모델을 몇 분 안에 반환할 수 있습니다.
숫자와 클래스 이외의 다양한 특성 입력을 확보하면 AutoML Tables가 제공하는 추가 자동 특성 추출의 혜택을 누릴 수 있습니다.
모델 투명성 및 Cloud Logging
Cloud Logging을 사용하여 AutoML Tables 모델의 구조를 확인할 수 있습니다. Logging에서는 최종 모델 초매개변수뿐 아니라 모델 검증 중에 사용된 초매개변수와 목표 값을 확인할 수 있습니다.
자세한 내용은 Logging을 참고하세요.
설명 기능
데이터와 최종 모델, 그리고 데이터와 예측 결과 간의 연관성을 설명할 수 있어야 한다는 점을 잘 알고 있으며 Google은 모델과 모델 운영 방식을 파악할 수 있도록 두 가지 방법을 다음과 같이 지원하고 있습니다.
테스트 데이터 내보내기
테스트 세트를 모델 예측한 결과와 함께 내보낼 수 있습니다. 이 기능을 사용하면 학습 데이터의 각 행에서 모델 성능을 파악할 수 있습니다. 테스트 세트와 결과를 검토하면 모델의 성능이 저조한 예측 유형을 파악하고 고품질 모델의 데이터를 개선할 수 있는 방법에 대한 단서를 제공할 수 있습니다.