Gemini

Gemini는 개발자가 콘텐츠를 생성하고 문제를 해결할 수 있는 생성형 AI 모델 제품군입니다 이러한 모델은 텍스트와 이미지를 모두 입력으로 처리하도록 설계되고 학습됩니다 이 가이드에서는 사용 사례에 가장 적합한 모델을 결정하는 데 도움이 되도록 각 모델 변형에 대한 정보를 제공합니다.

모델 변형

Gemini API는 특정 사용 사례에 최적화된 다양한 모델을 제공합니다. 다음은 사용 가능한 Gemini 변형에 대한 간략한 개요입니다.

모델 변형 입력 출력 최적화 목표
Gemini 1.5 Pro
gemini-1.5-pro
오디오, 이미지, 동영상, 텍스트 텍스트 코드 및 텍스트 생성, 텍스트 편집, 문제 해결, 데이터 추출 및 생성과 같은 복잡한 추론 작업
Gemini 1.5 플래시
gemini-1.5-flash
오디오, 이미지, 동영상, 텍스트 텍스트 다양한 작업에 적합한 빠르고 다재다능한 성능
Gemini 1.0 Pro
gemini-1.0-pro
텍스트 텍스트 자연어 작업, 멀티턴 텍스트 및 코드 채팅, 코드 생성
Gemini 1.0 Pro Vision
gemini-pro-vision
이미지, 동영상, 텍스트 텍스트 이미지 설명 생성 또는 이미지에서 객체 식별과 같은 시각적 관련 작업
텍스트 임베딩
text-embedding-004
텍스트 텍스트 임베딩 텍스트 문자열의 관련성 측정

다음 표에서는 모든 모델 변형에 공통된 Gemini 모델의 속성을 설명합니다.

속성 설명
학습 데이터 Gemini의 지식 마감일은 2023년 11월입니다. 이 기간 이후의 이벤트에 관한 지식은 제한적입니다.
지원되는 언어 사용 가능한 언어 보기
구성 가능한 모델 매개변수
  • 최상위 P
  • 최상위 K
  • 온도
  • 시퀀스 중지
  • 최대 출력 길이
  • 응답 후보 수

이러한 각 매개변수에 대한 자세한 내용은 생성 모델 가이드의 모델 매개변수 섹션을 참조하세요.

Gemini 1.5 Pro

Gemini 1.5 Pro는 다음과 같은 광범위한 추론 태스크에 최적화된 중간 크기 멀티모달 모델입니다.

  • 코드 생성
  • 텍스트 생성
  • 텍스트 수정
  • 문제 해결
  • 추천 생성
  • 정보 추출
  • 데이터 추출 또는 생성
  • AI 에이전트 만들기

1.5 Pro는 1시간 분량의 동영상, 9.5시간 분량의 오디오, 30,000줄 이상의 코드가 포함된 코드베이스 또는 700,000개 이상의 단어를 포함한 대량의 데이터를 한 번에 처리할 수 있습니다.

1.5 Pro는 제로, 원, 퓨샷 학습 작업을 처리할 수 있습니다.

모델 세부정보

속성 설명
모델 코드 models/gemini-1.5-pro-latest
입력 오디오, 이미지, 동영상, 텍스트
출력 텍스트
지원되는 생성 방법 generateContent
입력 토큰 한도[**] 1,048,576건
출력 토큰 한도[**] 8,192
프롬프트당 최대 이미지 수 3,600개
최대 동영상 길이 1시간
최대 오디오 길이 약 9.5시간
프롬프트당 최대 오디오 파일 수 1
모델 안전성 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요.
요금 제한[*]
무료:
  • 2 RPM
  • 32,000 TPM
  • 50 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 200만 TPM
  • 10,000 RPD
  • 14,400,000,000 TPD
200만 개의 컨텍스트:
  • 1 RPM
  • 200만 TPM
  • 50 RPD
시스템 안내 지원됨
JSON 모드 지원됨
최신 버전 gemini-1.5-pro-latest
최신 정식 버전 gemini-1.5-pro
정식 버전 gemini-1.5-pro-001
최근 업데이트 2024년 5월

Gemini 1.5 플래시

Gemini 1.5 Flash는 다양한 태스크에서 확장하기 위한 빠르고 다목적 멀티모달 모델입니다.

모델 세부정보

속성 설명
모델 코드 gemini-1.5-flash-latest
입력 오디오, 이미지, 동영상, 텍스트
출력 텍스트
지원되는 생성 방법 generateContent
입력 토큰 한도[**] 1,048,576건
출력 토큰 한도[**] 8,192
프롬프트당 최대 이미지 수 3,600개
최대 동영상 길이 1시간
최대 오디오 길이 약 9.5시간
프롬프트당 최대 오디오 파일 수 1
모델 안전성 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요.
요금 제한[*]
무료:
  • 15 RPM
  • 100만 TPM
  • 1,500RPD
Pay-as-you-go:
  • 1,000RPM
  • 200만 TPM
시스템 안내 지원됨
JSON 모드 지원됨
모델 조정 제공 예정
최신 버전 gemini-1.5-flash-latest
최신 정식 버전 gemini-1.5-flash
정식 버전 gemini-1.5-flash-001
최근 업데이트 2024년 5월

Gemini 1.0 Pro

Gemini 1.0 Pro는 멀티턴 텍스트 및 코드 채팅, 코드 생성과 같은 태스크를 처리하는 NLP 모델입니다.

1.0 Pro는 제로, 원, 퓨샷 학습 작업을 처리할 수 있습니다.

모델 세부정보

속성 설명
모델 코드 models/gemini-1.0-pro
입력 텍스트
출력 텍스트
지원되는 생성 방법
Python: generate_content
REST: generateContent
요금 제한[*]
무료:
  • 15 RPM
  • 32,000 TPM
  • 1,500 RPD
  • 46,080,000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120,000 TPM
  • 30,000 RPD
  • 172,800,000 TPD
시스템 안내 지원되지 않음
JSON 모드 지원되지 않음
모델 조정 지원되는 언어: gemini-1.0-pro-001
최신 버전 gemini-1.0-pro-latest
최신 정식 버전 gemini-1.0-pro
정식 버전 gemini-1.0-pro-001
최근 업데이트 2024년 2월

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision은 시각적 관련 작업을 수행할 수 있는 성능 최적화 멀티모달 모델입니다. 예를 들어 1.0 Pro Vision은 이미지 설명을 생성하고, 이미지에 있는 객체를 식별하고, 이미지에 있는 장소나 사물에 관한 정보를 제공하는 등의 작업을 할 수 있습니다.

1.0 Pro Vision은 제로샷, 원샷, 퓨샷 작업을 처리할 수 있습니다.

모델 세부정보

속성 설명
모델 코드 models/gemini-pro-vision
입력 텍스트, 동영상, 이미지
출력 텍스트
지원되는 생성 방법
Python: generate_content
REST: generateContent
입력 토큰 한도[*] 12,288
출력 토큰 한도[*] 4,096
최대 이미지 크기 제한 없음
프롬프트당 최대 이미지 수 16
최대 동영상 길이 2분
프롬프트당 최대 동영상 수 1
모델 안전성 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요.
비율 제한[*] 요청 60개/분
최신 버전 gemini-1.0-pro-vision-latest
최신 정식 버전 gemini-1.0-pro-vision
최근 업데이트 2023년 12월

텍스트 임베딩 및 임베딩

텍스트 임베딩

텍스트 임베딩 모델을 사용하여 입력 텍스트의 텍스트 임베딩을 생성할 수 있습니다. 텍스트 임베딩 모델에 대한 자세한 내용은 텍스트 임베딩에 대한 Vertex AI의 생성형 AI 문서를 참조하세요.

텍스트 임베딩 모델은 최대 2,048개 토큰의 텍스트에 대해 768차원으로 임베딩을 만드는 데 최적화되어 있습니다. 텍스트 임베딩은 768 미만의 탄력적 임베딩 크기를 제공합니다. 탄력적 임베딩을 사용하여 출력 차원을 더 작게 생성하고, 약간의 성능 손실로 컴퓨팅 및 스토리지 비용을 절감할 수 있습니다.

모델 세부정보
속성 설명
모델 코드 models/text-embedding-004(Vertex AItext-embedding-preview-0409)
입력 텍스트
출력 텍스트 임베딩
입력 토큰 한도 2,048
출력 크기 크기 768
지원되는 생성 방법
Python: embed_content
REST: embedContent
모델 안전성 조정 가능한 안전 설정이 없습니다.
비율 제한[*] 요청 1,500개/분
최근 업데이트 2024년 4월

임베딩

임베딩 모델을 사용하여 입력 텍스트의 텍스트 임베딩을 생성할 수 있습니다.

임베딩 모델은 최대 2,048개의 토큰으로 구성된 텍스트에 대해 768차원으로 임베딩을 만드는 데 최적화되어 있습니다.

모델 세부정보 임베딩
속성 설명
모델 코드 models/embedding-001
입력 텍스트
출력 텍스트 임베딩
입력 토큰 한도 2,048
출력 크기 크기 768
지원되는 생성 방법
Python: embed_content
REST: embedContent
모델 안전성 조정 가능한 안전 설정이 없습니다.
비율 제한[*] 요청 1,500개/분
최근 업데이트 2023년 12월

품질보증

AQA 모델을 사용하여 문서, 코퍼스 또는 문구 집합에 대해 기여 질의 응답(AQA) 관련 작업을 수행할 수 있습니다. AQA 모델은 답변 가능한 확률을 추정하면서 제공된 소스를 기반으로 하는 질문에 대한 답변을 반환합니다.

모델 세부정보

속성 설명
모델 코드 models/aqa
입력 텍스트
출력 텍스트
지원되는 생성 방법
Python: GenerateAnswerRequest
REST: generateAnswer
지원되는 언어 영어
입력 토큰 한도[**] 7,168
출력 토큰 한도[**] 1,024
모델 안전성 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요.
비율 제한[*] 요청 60개/분
최근 업데이트 2023년 12월

이러한 모델 변형의 기능을 살펴보려면 를 참고하세요.

[*] Gemini 모델의 토큰은 약 4자(영문 기준)에 해당합니다. 토큰 100개는 약 60~80개의 영어 단어입니다.

[**] RPM: 분당 요청 수
TPM: 분당 토큰
RPD: 일일 요청 수
TPD: 일일 토큰 수

용량 제한으로 인해 지정된 최대 비율 제한은 보장되지 않습니다.

모델 버전 이름 패턴

Gemini 모델은 미리보기 또는 안정화 버전으로 제공됩니다. 코드에서 다음 모델 이름 형식 중 하나를 사용하여 사용할 모델과 버전을 지정할 수 있습니다.

  • 최신: 지정된 세대 및 변형에 맞는 최첨단 버전의 모델을 가리킵니다. 기본 모델은 정기적으로 업데이트되며 미리보기 버전일 수 있습니다. 탐색 테스트 앱과 프로토타입에서만 이 별칭을 사용해야 합니다.

    최신 버전을 지정하려면 <model>-<generation>-<variation>-latest 패턴을 사용합니다. 예를 들면 gemini-1.0-pro-latest입니다.

  • 최신 안정화 버전: 지정된 모델 생성 및 변형을 위해 출시된 최신 안정화 버전을 가리킵니다.

    최신 안정화 버전을 지정하려면 <model>-<generation>-<variation> 패턴을 사용하세요. 예를 들면 다음과 같습니다. gemini-1.0-pro

  • 공개 버전: 특정 안정화 모델을 가리킵니다. 안정화 모델은 변경되지 않습니다. 대부분의 프로덕션 앱은 특정한 안정적인 모델을 사용해야 합니다.

    안정화 버전을 지정하려면 <model>-<generation>-<variation>-<version> 패턴을 사용합니다. 예를 들면 gemini-1.0-pro-001입니다.

사용 가능한 언어

Gemini 모델은 다음 언어로 작동하도록 학습됩니다.

  • 아랍어(ar)
  • 벵골어(bn)
  • 불가리아어(bg)
  • 중국어 간체 및 번체(zh)
  • 크로아티아어(hr)
  • 체코어(cs)
  • 덴마크어(da)
  • 네덜란드어(nl)
  • 영어 (en),
  • 에스토니아어(et)
  • 핀란드어(fi)
  • 프랑스어(fr)
  • 독일어(de)
  • 그리스어(el)
  • 히브리어(iw)
  • 힌디어(hi)
  • 헝가리어(hu)
  • 인도네시아어(id)
  • 이탈리아어(it)
  • 일본어(ja)
  • 한국어(ko)
  • 라트비아어 (lv),
  • 리투아니아어(lt)
  • 노르웨이어(no)
  • 폴란드어(pl)
  • 포르투갈어(pt)
  • 루마니아어(ro)
  • 러시아어(ru)
  • 세르비아어(sr)
  • 슬로바키아어(sk)
  • 슬로베니아어(sl)
  • 스페인어(es)
  • 스와힐리어(sw)
  • 스웨덴어(sv)
  • 태국어(th)
  • 터키어(tr)
  • 우크라이나어(uk)
  • 베트남어(vi)