Gemini는 개발자가 콘텐츠를 생성하고 문제를 해결할 수 있는 생성형 AI 모델 제품군입니다 이러한 모델은 텍스트와 이미지를 모두 입력으로 처리하도록 설계되고 학습됩니다 이 가이드에서는 사용 사례에 가장 적합한 모델을 결정하는 데 도움이 되도록 각 모델 변형에 대한 정보를 제공합니다.
모델 변형
Gemini API는 특정 사용 사례에 최적화된 다양한 모델을 제공합니다. 다음은 사용 가능한 Gemini 변형에 대한 간략한 개요입니다.
모델 변형 | 입력 | 출력 | 최적화 목표 |
---|---|---|---|
Gemini 1.5 Pro
gemini-1.5-pro |
오디오, 이미지, 동영상, 텍스트 | 텍스트 | 코드 및 텍스트 생성, 텍스트 편집, 문제 해결, 데이터 추출 및 생성과 같은 복잡한 추론 작업 |
Gemini 1.5 플래시
gemini-1.5-flash |
오디오, 이미지, 동영상, 텍스트 | 텍스트 | 다양한 작업에 적합한 빠르고 다재다능한 성능 |
Gemini 1.0 Pro
gemini-1.0-pro |
텍스트 | 텍스트 | 자연어 작업, 멀티턴 텍스트 및 코드 채팅, 코드 생성 |
Gemini 1.0 Pro Vision
gemini-pro-vision
|
이미지, 동영상, 텍스트 | 텍스트 | 이미지 설명 생성 또는 이미지에서 객체 식별과 같은 시각적 관련 작업 |
텍스트 임베딩
text-embedding-004 |
텍스트 | 텍스트 임베딩 | 텍스트 문자열의 관련성 측정 |
다음 표에서는 모든 모델 변형에 공통된 Gemini 모델의 속성을 설명합니다.
속성 | 설명 |
---|---|
학습 데이터 | Gemini의 지식 마감일은 2023년 11월입니다. 이 기간 이후의 이벤트에 관한 지식은 제한적입니다. |
지원되는 언어 | 사용 가능한 언어 보기 |
구성 가능한 모델 매개변수 |
|
이러한 각 매개변수에 대한 자세한 내용은 생성 모델 가이드의 모델 매개변수 섹션을 참조하세요.
Gemini 1.5 Pro
Gemini 1.5 Pro는 다음과 같은 광범위한 추론 태스크에 최적화된 중간 크기 멀티모달 모델입니다.
- 코드 생성
- 텍스트 생성
- 텍스트 수정
- 문제 해결
- 추천 생성
- 정보 추출
- 데이터 추출 또는 생성
- AI 에이전트 만들기
1.5 Pro는 1시간 분량의 동영상, 9.5시간 분량의 오디오, 30,000줄 이상의 코드가 포함된 코드베이스 또는 700,000개 이상의 단어를 포함한 대량의 데이터를 한 번에 처리할 수 있습니다.
1.5 Pro는 제로, 원, 퓨샷 학습 작업을 처리할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/gemini-1.5-pro-latest |
입력 | 오디오, 이미지, 동영상, 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
generateContent
|
입력 토큰 한도[**] | 1,048,576건 |
출력 토큰 한도[**] | 8,192 |
프롬프트당 최대 이미지 수 | 3,600개 |
최대 동영상 길이 | 1시간 |
최대 오디오 길이 | 약 9.5시간 |
프롬프트당 최대 오디오 파일 수 | 1 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
요금 제한[*] |
|
시스템 안내 | 지원됨 |
JSON 모드 | 지원됨 |
최신 버전 | gemini-1.5-pro-latest |
최신 정식 버전 | gemini-1.5-pro |
정식 버전 | gemini-1.5-pro-001 |
최근 업데이트 | 2024년 5월 |
Gemini 1.5 플래시
Gemini 1.5 Flash는 다양한 태스크에서 확장하기 위한 빠르고 다목적 멀티모달 모델입니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | gemini-1.5-flash-latest |
입력 | 오디오, 이미지, 동영상, 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
generateContent
|
입력 토큰 한도[**] | 1,048,576건 |
출력 토큰 한도[**] | 8,192 |
프롬프트당 최대 이미지 수 | 3,600개 |
최대 동영상 길이 | 1시간 |
최대 오디오 길이 | 약 9.5시간 |
프롬프트당 최대 오디오 파일 수 | 1 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
요금 제한[*] |
|
시스템 안내 | 지원됨 |
JSON 모드 | 지원됨 |
모델 조정 | 제공 예정 |
최신 버전 | gemini-1.5-flash-latest |
최신 정식 버전 | gemini-1.5-flash |
정식 버전 | gemini-1.5-flash-001 |
최근 업데이트 | 2024년 5월 |
Gemini 1.0 Pro
Gemini 1.0 Pro는 멀티턴 텍스트 및 코드 채팅, 코드 생성과 같은 태스크를 처리하는 NLP 모델입니다.
1.0 Pro는 제로, 원, 퓨샷 학습 작업을 처리할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/gemini-1.0-pro |
입력 | 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
generate_content
generateContent
|
요금 제한[*] |
|
시스템 안내 | 지원되지 않음 |
JSON 모드 | 지원되지 않음 |
모델 조정 | 지원되는 언어: gemini-1.0-pro-001 |
최신 버전 | gemini-1.0-pro-latest |
최신 정식 버전 | gemini-1.0-pro |
정식 버전 | gemini-1.0-pro-001 |
최근 업데이트 | 2024년 2월 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision은 시각적 관련 작업을 수행할 수 있는 성능 최적화 멀티모달 모델입니다. 예를 들어 1.0 Pro Vision은 이미지 설명을 생성하고, 이미지에 있는 객체를 식별하고, 이미지에 있는 장소나 사물에 관한 정보를 제공하는 등의 작업을 할 수 있습니다.
1.0 Pro Vision은 제로샷, 원샷, 퓨샷 작업을 처리할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/gemini-pro-vision |
입력 | 텍스트, 동영상, 이미지 |
출력 | 텍스트 |
지원되는 생성 방법 |
generate_content
generateContent
|
입력 토큰 한도[*] | 12,288 |
출력 토큰 한도[*] | 4,096 |
최대 이미지 크기 | 제한 없음 |
프롬프트당 최대 이미지 수 | 16 |
최대 동영상 길이 | 2분 |
프롬프트당 최대 동영상 수 | 1 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
비율 제한[*] | 요청 60개/분 |
최신 버전 | gemini-1.0-pro-vision-latest |
최신 정식 버전 | gemini-1.0-pro-vision |
최근 업데이트 | 2023년 12월 |
텍스트 임베딩 및 임베딩
텍스트 임베딩
텍스트 임베딩 모델을 사용하여 입력 텍스트의 텍스트 임베딩을 생성할 수 있습니다. 텍스트 임베딩 모델에 대한 자세한 내용은 텍스트 임베딩에 대한 Vertex AI의 생성형 AI 문서를 참조하세요.
텍스트 임베딩 모델은 최대 2,048개 토큰의 텍스트에 대해 768차원으로 임베딩을 만드는 데 최적화되어 있습니다. 텍스트 임베딩은 768 미만의 탄력적 임베딩 크기를 제공합니다. 탄력적 임베딩을 사용하여 출력 차원을 더 작게 생성하고, 약간의 성능 손실로 컴퓨팅 및 스토리지 비용을 절감할 수 있습니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 |
models/text-embedding-004 (Vertex AI의 text-embedding-preview-0409 )
|
입력 | 텍스트 |
출력 | 텍스트 임베딩 |
입력 토큰 한도 | 2,048 |
출력 크기 크기 | 768 |
지원되는 생성 방법 |
embed_content
embedContent
|
모델 안전성 | 조정 가능한 안전 설정이 없습니다. |
비율 제한[*] | 요청 1,500개/분 |
최근 업데이트 | 2024년 4월 |
임베딩
임베딩 모델을 사용하여 입력 텍스트의 텍스트 임베딩을 생성할 수 있습니다.
임베딩 모델은 최대 2,048개의 토큰으로 구성된 텍스트에 대해 768차원으로 임베딩을 만드는 데 최적화되어 있습니다.
모델 세부정보 임베딩
속성 | 설명 |
---|---|
모델 코드 | models/embedding-001 |
입력 | 텍스트 |
출력 | 텍스트 임베딩 |
입력 토큰 한도 | 2,048 |
출력 크기 크기 | 768 |
지원되는 생성 방법 |
embed_content
embedContent
|
모델 안전성 | 조정 가능한 안전 설정이 없습니다. |
비율 제한[*] | 요청 1,500개/분 |
최근 업데이트 | 2023년 12월 |
품질보증
AQA 모델을 사용하여 문서, 코퍼스 또는 문구 집합에 대해 기여 질의 응답(AQA) 관련 작업을 수행할 수 있습니다. AQA 모델은 답변 가능한 확률을 추정하면서 제공된 소스를 기반으로 하는 질문에 대한 답변을 반환합니다.
모델 세부정보
속성 | 설명 |
---|---|
모델 코드 | models/aqa |
입력 | 텍스트 |
출력 | 텍스트 |
지원되는 생성 방법 |
GenerateAnswerRequest
generateAnswer
|
지원되는 언어 | 영어 |
입력 토큰 한도[**] | 7,168 |
출력 토큰 한도[**] | 1,024 |
모델 안전성 | 개발자가 조정할 수 있는 안전 설정이 자동으로 적용됩니다. 자세한 내용은 안전 설정 페이지를 참고하세요. |
비율 제한[*] | 요청 60개/분 |
최근 업데이트 | 2023년 12월 |
이러한 모델 변형의 기능을 살펴보려면 예를 참고하세요.
[*] Gemini 모델의 토큰은 약 4자(영문 기준)에 해당합니다. 토큰 100개는 약 60~80개의 영어 단어입니다.
[**] RPM: 분당 요청 수
TPM: 분당 토큰
RPD: 일일 요청 수
TPD: 일일 토큰 수
용량 제한으로 인해 지정된 최대 비율 제한은 보장되지 않습니다.
모델 버전 이름 패턴
Gemini 모델은 미리보기 또는 안정화 버전으로 제공됩니다. 코드에서 다음 모델 이름 형식 중 하나를 사용하여 사용할 모델과 버전을 지정할 수 있습니다.
최신: 지정된 세대 및 변형에 맞는 최첨단 버전의 모델을 가리킵니다. 기본 모델은 정기적으로 업데이트되며 미리보기 버전일 수 있습니다. 탐색 테스트 앱과 프로토타입에서만 이 별칭을 사용해야 합니다.
최신 버전을 지정하려면
<model>-<generation>-<variation>-latest
패턴을 사용합니다. 예를 들면gemini-1.0-pro-latest
입니다.최신 안정화 버전: 지정된 모델 생성 및 변형을 위해 출시된 최신 안정화 버전을 가리킵니다.
최신 안정화 버전을 지정하려면
<model>-<generation>-<variation>
패턴을 사용하세요. 예를 들면 다음과 같습니다.gemini-1.0-pro
공개 버전: 특정 안정화 모델을 가리킵니다. 안정화 모델은 변경되지 않습니다. 대부분의 프로덕션 앱은 특정한 안정적인 모델을 사용해야 합니다.
안정화 버전을 지정하려면
<model>-<generation>-<variation>-<version>
패턴을 사용합니다. 예를 들면gemini-1.0-pro-001
입니다.
사용 가능한 언어
Gemini 모델은 다음 언어로 작동하도록 학습됩니다.
- 아랍어(
ar
) - 벵골어(
bn
) - 불가리아어(
bg
) - 중국어 간체 및 번체(
zh
) - 크로아티아어(
hr
) - 체코어(
cs
) - 덴마크어(
da
) - 네덜란드어(
nl
) - 영어 (
en
), - 에스토니아어(
et
) - 핀란드어(
fi
) - 프랑스어(
fr
) - 독일어(
de
) - 그리스어(
el
) - 히브리어(
iw
) - 힌디어(
hi
) - 헝가리어(
hu
) - 인도네시아어(
id
) - 이탈리아어(
it
) - 일본어(
ja
) - 한국어(
ko
) - 라트비아어 (
lv
), - 리투아니아어(
lt
) - 노르웨이어(
no
) - 폴란드어(
pl
) - 포르투갈어(
pt
) - 루마니아어(
ro
) - 러시아어(
ru
) - 세르비아어(
sr
) - 슬로바키아어(
sk
) - 슬로베니아어(
sl
) - 스페인어(
es
) - 스와힐리어(
sw
) - 스웨덴어(
sv
) - 태국어(
th
) - 터키어(
tr
) - 우크라이나어(
uk
) - 베트남어(
vi
)