클래스: 인공 지능의 기초: 기계 학습

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 22,800개를 수강하세요.

데이터 맞추기

데이터 맞추기

머신 러닝에서는 교육용 세트로 작업해야 합니다. 알고리즘을 정비하는 데 쓰는 큰 데이터의 작은 부분이죠. 결국, 이 알고리즘은 더 큰 시험용 데이터 세트에 쓰는 모델을 만드는 데 도움이 되죠. 하지만 교육용 세트 모델에는 약간 어려운 점이 있습니다. 간단한 모델을 만들면 작은 교육용 세트에 쓰일 수 있겠죠. 하지만 큰 데이터에 적용할 때 적응성이 떨어집니다. 이를 보통은 과소 적합이라고 합니다. 반면에, 데이터 세트에 적용할 유연한 모델을 만들 수 있지만 너무 복잡해서 이해하기 어려울 때도 있죠. 이런 경우는 과적합이라고 합니다. 실제로는 어떨지 한 번 알아보죠. Zillow 같은 웹사이트에서 일한다고 가정해 봅시다. 집의 구매자와 판매자를 연결해 주는 곳이죠. 구매자들이 집의 가격을 예측할 수 있게 도와주는 데이터 모델을 만들려고 합니다. 네 개의 주요 변수를 만들어 보죠. 제곱피트, 위치, 화장실 개수 그리고 침실 개수가 되겠습니다. 가격을 예측하기 위한 추세선을 활용하는 지도 학습형 머신 러닝과 회귀 용법을 사용할 수 있죠. 적용하다 보면, 데이터가 많이 분산된 걸 알 수 있을 겁니다. 종종 이걸 노이즈라고 하죠. 그 말은 똑같은 평수와 위치는 물론 같은 개수의 화장실을 가진 집이 상당히 많다는 소리입니다. 이걸 고치기 위해서는 복잡성을 추가해야 합니다. 전망, 현대 기기, 보행 환경과 같이 새 변수를 추가할 수 있겠죠. 복잡성을 추가하면 모델을 더욱 유연하게 할 수 있습니다. 고려해야 할 변수가 더 늘어났기 때문이죠. 하지만 관리하기 힘들기도 합니다. 현대식 주방과 전망 그리고 위치 간의 관계를 알아보기가 더 어렵습니다. 데이터에 모델을 과적합 하는 거죠. 반면에, 간단하게 갈 수도 있습니다. 위치와 평수 간의 관계를 나타내는 좋은 회귀 표를 만들 수 있죠. 좋은 동네에 있는 큰 집과 가격 사이에는 밀접한 관계가 있다는 점을 보여줍니다. 단순해서 유용한 모델인 거죠. 좋은 동네의 큰 집은 다른 동네의 작은 집보다 비쌀 거라고 생각할 수 있어요…

목차