클래스: 데이터 엔지니어링의 기초

무료이용으로 수강해 보세요.

업계 전문가가 강의하는 클래스 22,800개를 수강하세요.

하이브

하이브

먼저 Hadoop 우산 아래에 있는 소프트웨어 프로그램인 Hive입니다. ETL 데이터 파이프라인의 추출 부분에서 도움이 되는 기능을 제공합니다. Hive는 Hadoop 생태계 위에 있는 레이어로 Hive의 SQL 변형을 사용하여 구조화된 방식으로 여러 소스의 데이터를 쿼리 가능하게 만듭니다. 이 변형을 Hive SQL이라고 합니다. 데이터 쿼리를 위한 SQL과 유사한 인터페이스를 제공합니다. Hadoop과 통합되는 데이터베이스 및 파일 시스템에서 데이터를 추출할 수도 있습니다. 선택할 수 있는 도구가 없던 시절, 개발자는 MapReduce Java API에서 쿼리를 구현해야 했습니다. 꽤 어려웠죠. Facebook이 처음에 Hive를 개발했지만 이제 Apache Software Foundation에서 프로젝트를 유지 관리합니다. 처음에는 MapReduce가 Hive 작업 실행을 담당했지만 이제 여러 다른 데이터 처리 도구와 잘 통합됩니다. 이 예를 살펴보겠습니다. 이전에 본 것과 동일한 올림픽 이벤트 데이터 집합을 사용합니다. 여기 있는 이 Hive 쿼리는 연간 올림픽 선수의 평균 연령을 선택합니다. 예상하셨겠지만, 이 쿼리는 일반 SQL 쿼리와 구별할 수 없는 것처럼 보입니다. 그러나 비밀리에 이 쿼리는 MapReduce 알고리즘을 사용하여 컴퓨터 클러스터에서 작동할 수 있는 작업으로 변환됩니다. 이는 데이터를 수집하는 방법 중 하나일 뿐이며 Hive와 함께 사용하거나 통합할 수 있는 다른 많은 도구가 있습니다. 데이터 추출이 완료되면 이제 데이터 변환 도구에 대해 알아볼 시간입니다.

목차