클래스: 인공 지능의 기초: 기계 학습

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 22,800개를 수강하세요.

데이터 활용

데이터 활용

아직도 대부분의 컴퓨터 과학 분야는 명백한 지시 값이 있어야만 작업이 이루어집니다. 기존 프로그래밍에서는 기계가 입력 값을 받고 알고리즘을 기반으로 생산 값을 내도록 설정합니다. 입력 값은 명령이고 출력 값은 미리 결정된 응답이죠. 이 원리는 간단한 계산이 가능한 프로그램일 때 잘 작동됩니다. 하지만 인간이 컴퓨터가 할 일을 명시적으로 지시할 수 없을 때 문제는 풀기 까다로워지죠. 이런 경우에는 기계가 학습할 수 있는 프로그래밍 모델이 필요합니다. 게다가 기계가 피드백을 수용할 능력도 부여해야죠. 이는 머신 러닝을 위한 완벽한 시나리오입니다. 스팸 메시지를 감지하는 프로그램을 만들었다 칩시다. 스팸 메시지는 보통 원하지 않는 광고로 가득한 내용이거나 심지어 바이러스까지 심어졌죠. 여러분은 이런 경우에 스팸 메시지에 자주 쓰이는 단어를 감지하는 필터 프로그램을 쉽게 만들 수 있습니다. 금, 복권, 우승자 같은 단어를 골라낼 수 있죠. 분명 많은 스팸 메시지를 삭제할 수는 있겠지만 꼼수는 감지하지 못할 겁니다. 복권이라는 단어에서 철자만 조금 바꾸거나 이미지를 쓸 수도 있으니까요. 이 또한 많은 거짓 양성 결과를 낼 겁니다. 여러분의 친구가 복권 당첨 농담을 보냈는데 시스템이 잘못 분류해서 삭제할 수도 있거든요. 이러한 유형의 문제는 세심하게 규정된 지침만 따르도록 설정돼 있을 때 제대로 작동하지 않습니다. 단순하게 미리 지정된 응답만으로는 입력 값 명령을 만들 수 없습니다. 이 점이 바로 머신 러닝이 문제를 다각도에서 보는 이유죠. 지시 값 대신 데이터를 입력하는 겁니다. 기정 응답 대신에 머신 러닝 알고리즘을 사용하면 기계가 응답하는 방법을 배울 수 있도록 합니다. 먼저 데이터를 시험용과 교육용으로 분리합니다. 교육용 데이터는 패턴 찾기에 사용할 예정이라서 더욱 세분화할 겁니다. 사례가 있다면 기계가 통계 알고리즘을 사용해 데이터를 더 잘 이해하도록 도와주죠. 이런 알고리즘은 기계가 정확한 예측과 데이터 간의 다른 패턴을 파악하는 데 도움이 됩니다. 이제…

목차