Únete a la competencia para desarrolladores de la API de Gemini. Más información

Se usó la API de Cloud Translation para traducir esta página.

Gemini

Gemini es una familia de modelos de IA generativa que les permite a los desarrolladores generar contenido y resolver problemas. Estos modelos están diseñados y entrenados para manejar imágenes y texto como entrada. En esta guía, se proporciona información sobre cada variante del modelo para ayudarte a decidir cuál es la mejor opción para tu caso de uso.

Variantes del modelo

La API de Gemini ofrece diferentes modelos optimizados para casos de uso específicos. A continuación, se incluye una breve descripción general de las variantes disponibles de Gemini:

Variante del modelo	Entrada(s)	Resultado	Optimizado para
Gemini 1.5 Pro `gemini-1.5-pro`	Audio, imágenes, videos y texto	Texto	Tareas de razonamiento complejas, como la generación de código y texto, la edición de texto, la resolución de problemas y la extracción y generación de datos
Gemini 1.5 Flash `gemini-1.5-flash`	Audio, imágenes, videos y texto	Texto	Rendimiento rápido y versátil en una amplia variedad de tareas
Gemini 1.0 Pro `gemini-1.0-pro`	Texto	Texto	Tareas de lenguaje natural, chat de texto y código de varios turnos, y generación de código
Gemini 1.0 Pro Vision `gemini-pro-vision`	Imágenes, videos y texto	Texto	Tareas relacionadas con el aspecto visual, como generar descripciones de imágenes o identificar objetos en imágenes
Incorporación de texto `text-embedding-004`	Texto	Incorporaciones de texto	Medir la relación de las cadenas de texto

En la siguiente tabla, se describen los atributos de los modelos de Gemini que son comunes a todas las variantes de los modelos:

Atributo	Descripción
Datos de entrenamiento	El límite de conocimiento de Gemini es noviembre de 2023. El conocimiento sobre los eventos después de ese tiempo es limitado.
Idiomas admitidos	Consulta los idiomas disponibles
Parámetros de modelo configurables	P superior K superior Temperatura Secuencia de detención Longitud máxima de salida Cantidad de candidatos de respuesta

Consulta la sección de parámetros del modelo de la guía de modelos generativos para obtener información sobre cada uno de estos parámetros.

Gemini 1.5 Pro

Gemini 1.5 Pro es un modelo multimodal de tamaño mediano optimizado para una amplia gama de tareas de razonamiento, como las siguientes:

Generación de código
Generación de texto
Edición de texto
Solución de problemas
Generación de recomendaciones
Extracción de información
Extracción o generación de datos
Creación de agentes de IA

1.5 Pro puede procesar grandes cantidades de datos a la vez, lo que incluye 1 hora de video, 9.5 horas de audio, bases de código con más de 30,000 líneas de código o más de 700,000 palabras.

1.5 Pro puede controlar tareas de aprendizaje sin ejemplos, con uno o con pocos intentos.

Detalles del modelo

Propiedad	Descripción
Código del modelo	`models/gemini-1.5-pro-latest`
Entradas	Audio, imágenes, video y texto
Resultado	Texto
Métodos de generación compatibles	`generateContent`
Límite de tokens de entrada^[**]	1.048.576
Límite de tokens de salida^[**]	8,192
Cantidad máxima de imágenes por instrucción	3,600
Duración máxima del video	1 hora
Duración máxima del audio	Aproximadamente 9.5 horas
Cantidad máxima de archivos de audio por instrucción	1
Seguridad del modelo	Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles.
Límites de frecuencia^[*]	Gratis: 2 RPM 32 000 TPM RPD 50 46,080,000 TPD Pay-as-you-go: 360 RPM 2 millones de TPM RPD 10,000 14,400,000,000 TPD Contexto de dos millones: 1 RPM 2 millones de TPM RPD 50
Instrucciones del sistema	Admitido
Modo JSON	Admitido
Última versión	`gemini-1.5-pro-latest`
Versión estable más reciente	`gemini-1.5-pro`
Versiones estables	`gemini-1.5-pro-001`
Actualización más reciente	Mayo de 2024

Gemini 1.5 Flash

Gemini 1.5 Flash es un modelo multimodal rápido y versátil para escalar en diversas tareas.

Detalles del modelo

Propiedad	Descripción
Código del modelo	`gemini-1.5-flash-latest`
Entrada(s)	Audio, imágenes, video y texto
Resultado	Texto
Métodos de generación compatibles	`generateContent`
Límite de tokens de entrada^[**]	1.048.576
Límite de tokens de salida^[**]	8,192
Cantidad máxima de imágenes por instrucción	3,600
Duración máxima del video	1 hora
Duración máxima del audio	Aproximadamente 9.5 horas
Cantidad máxima de archivos de audio por instrucción	1
Seguridad del modelo	Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles.
Límites de frecuencia^[*]	Gratis: 15 RPM 1 millón de TPM RPD 1,500 Pay-as-you-go: 1,000 RPM 2 millones de TPM
Instrucciones del sistema	Admitido
Modo JSON	Admitido
Ajuste de modelo	Disponible dentro de poco tiempo
Última versión	`gemini-1.5-flash-latest`
Versión estable más reciente	`gemini-1.5-flash`
Versiones estables	`gemini-1.5-flash-001`
Actualización más reciente	Mayo de 2024

Gemini 1.0 Pro

Gemini 1.0 Pro es un modelo de PLN que controla tareas como el chat de código y texto de varios turnos, y la generación de código.

1.0 Pro puede controlar tareas de aprendizaje sin ejemplos, con uno o con pocos intentos.

Detalles del modelo

Propiedad	Descripción
Código del modelo	`models/gemini-1.0-pro`
Entrada	Texto
Resultado	Texto
Métodos de generación compatibles	Python: `generate_content` REST: `generateContent`
Límites de frecuencia^[*]	Gratis: 15 RPM 32 000 TPM RPD 1,500 46,080,000 TPD Pay-as-you-go: 360 RPM 120,000 TPM RPD 30,000 172,800,000 TPD
Instrucciones del sistema	No compatible
Modo JSON	No compatible
Ajuste de modelo	Se admite: `gemini-1.0-pro-001`
Última versión	`gemini-1.0-pro-latest`
Versión estable más reciente	`gemini-1.0-pro`
Versiones estables	`gemini-1.0-pro-001`
Actualización más reciente	February 2024

Nota: gemini-pro es un alias para gemini-1.0-pro.

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision es un modelo multimodal optimizado para el rendimiento que puede realizar tareas relacionadas con las vistas. Por ejemplo, 1.0 Pro Vision puede generar descripciones de imágenes, identificar objetos presentes en imágenes, proporcionar información sobre objetos o lugares presentes en las imágenes, y mucho más.

1.0 Pro Vision es capaz de realizar tareas sin ejemplos, con un solo resultado y con pocos intentos.

Detalles del modelo

Propiedad	Descripción
Código del modelo	`models/gemini-pro-vision`
Entradas	Texto, imágenes y video
Resultado	Texto
Métodos de generación compatibles	Python: `generate_content` REST: `generateContent`
Límite de tokens de entrada^[*]	12,288
Límite de tokens de salida^[*]	4,096
Tamaño máximo de la imagen	Sin límite
Cantidad máxima de imágenes por instrucción	16
Duración máxima del video	2 minutos
Cantidad máxima de videos por instrucción	1
Seguridad del modelo	Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles.
Límite de frecuencia^[*]	60 solicitudes por minuto
Última versión	`gemini-1.0-pro-vision-latest`
Versión estable más reciente	`gemini-1.0-pro-vision`
Actualización más reciente	Diciembre de 2023

Incorporación de texto

Puedes usar el modelo de incorporación de texto a fin de generar incorporaciones de texto para texto de entrada. Para obtener más información sobre el modelo de incorporación de texto, consulta la documentación de IA generativa en Vertex AI sobre las incorporaciones de texto.

El modelo de incorporación de texto está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens. La incorporación de texto ofrece tamaños de incorporación elásticos inferiores a 768. Puedes usar incorporaciones elásticas para generar dimensiones de salida más pequeñas y, posiblemente, ahorrar costos de procesamiento y almacenamiento con una pequeña pérdida de rendimiento.

Detalles del modelo

Propiedad	Descripción
Código del modelo	`models/text-embedding-004` (`text-embedding-preview-0409` en Vertex AI)
Entrada	Texto
Resultado	Incorporaciones de texto
Límite de tokens de entrada	2,048
Tamaño de la dimensión del resultado	768
Métodos de generación compatibles	Python: `embed_content` REST: `embedContent`
Seguridad del modelo	No hay parámetros de configuración de seguridad ajustables.
Límite de frecuencia^[*]	1,500 solicitudes por minuto
Actualización más reciente	Abril de 2024

Incorporación

Puedes usar el modelo de incorporación para generar incorporaciones de texto para texto de entrada.

El modelo de incorporación está optimizado para crear incorporaciones con 768 dimensiones para texto de hasta 2,048 tokens.

Detalles del modelo de incorporación

Propiedad	Descripción
Código del modelo	`models/embedding-001`
Entrada	Texto
Resultado	Incorporaciones de texto
Límite de tokens de entrada	2,048
Tamaño de la dimensión del resultado	768
Métodos de generación compatibles	Python: `embed_content` REST: `embedContent`
Seguridad del modelo	No hay parámetros de configuración de seguridad ajustables.
Límite de frecuencia^[*]	1,500 solicitudes por minuto
Actualización más reciente	Diciembre de 2023

ICA

Puedes usar el modelo de AQA para realizar tareas relacionadas con las respuestas de preguntas atribuidas (AQA) en un documento, corpus o un conjunto de pasajes. El modelo de AQA muestra respuestas a preguntas que se basan en las fuentes proporcionadas, junto con una estimación de la probabilidad de respuesta.

Detalles del modelo

Propiedad	Descripción
Código del modelo	`models/aqa`
Entrada	Texto
Resultado	Texto
Métodos de generación compatibles	Python: `GenerateAnswerRequest` REST: `generateAnswer`
Idiomas admitidos	Inglés
Límite de tokens de entrada^[**]	7,168
Límite de tokens de salida^[**]	1,024
Seguridad del modelo	Configuración de seguridad aplicada automáticamente que los desarrolladores pueden ajustar. Consulta la página sobre la configuración de seguridad para obtener más detalles.
Límite de frecuencia^[*]	60 solicitudes por minuto
Actualización más reciente	Diciembre de 2023

Consulta los ejemplos para explorar las capacidades de estas variaciones del modelo.

[*] Un token es equivalente a, aproximadamente, 4 caracteres en los modelos de Gemini. 100 tokens son entre 60 y 80 palabras en inglés.

[**] RPM: Solicitudes por minuto
TPM: Tokens por minuto
RPD: Solicitudes por día
TPD: Tokens por día

Debido a limitaciones de capacidad, los límites de frecuencia máximo especificados no están garantizados.

Patrones de nombres de versiones del modelo

Los modelos de Gemini están disponibles en versiones de vista previa o estable. En tu código, puedes usar uno de los siguientes formatos de nombre de modelo para especificar qué modelo y versión deseas usar.

Última: Apunta a la versión de vanguardia del modelo para una generación y variación especificadas. El modelo subyacente se actualiza con regularidad y puede ser una versión de vista previa. Solo las apps y los prototipos de pruebas de exploración deben usar este alias.

Para especificar la última versión, usa el siguiente patrón: <model>-<generation>-<variation>-latest. Por ejemplo, gemini-1.0-pro-latest
Última versión estable: Apunta a la versión estable más reciente que se lanzó para la generación y variación del modelo especificada.

Para especificar la versión estable más reciente, usa el siguiente patrón: <model>-<generation>-<variation>. Por ejemplo, gemini-1.0-pro
Estable: Apunta a un modelo estable específico. Los modelos estables no cambian. La mayoría de las apps de producción deben usar un modelo estable específico.

Para especificar una versión estable, usa el siguiente patrón: <model>-<generation>-<variation>-<version>. Por ejemplo, gemini-1.0-pro-001

Idiomas disponibles

Los modelos de Gemini están entrenados para funcionar con los siguientes lenguajes:

Árabe (ar)
Bengalí (bn)
Búlgaro (bg)
Chino simplificado y tradicional (zh)
Croata (hr)
Checo (cs)
Danés (da)
Neerlandés (nl)
Inglés (en),
Estonio (et)
Finés (fi)
Francés (fr)
Alemán (de)
Griego (el)
Hebreo (iw)
Hindi (hi)
Húngaro (hu)
Indonesio (id)
Italiano (it)
Japonés (ja)
Coreano (ko)
Letón (lv),
Lituano (lt)
Noruego (no)
Polaco (pl)
Portugués (pt)
Rumano (ro)
Ruso (ru)
Serbio (sr)
Eslovaco (sk)
Esloveno (sl)
Español (es)
Suajili (sw)
Sueco (sv)
Tailandés (th)
Turco (tr)
Ucraniano (uk)
Vietnamita (vi)