Meta: Llama 3.2 11B Vision Instruct
Llama 3.2 11b Vision es un modelo multimodal con 11 mil millones de parámetros, diseñados para manejar tareas que combinan datos visuales y textuales.
Descripción
Llama 3.2 11b Vision es un modelo multimodal con 11 mil millones de parámetros, diseñados para manejar tareas que combinan datos visuales y textuales.
ArquitecturaАрхитектура
- Modalidad:
- text+image->text
- Modalidades de entrada:
- text, image
- Modalidades de salida:
- text
- Tokenizador:
- Llama3
- Tipo de instrucción:
- llama3
Contexto y límites
- Longitud del contexto:
- 131072 tokens
- Máx. tokens de respuesta:
- 16384 tokens
- Moderación:
- Deshabilitada
Precios (RUB)
- Solicitud:
- ₽
- Imagen:
- ₽
- Búsqueda web:
- ₽
- Razonamiento interno:
- ₽
- Prompt (1K tokens):
- ₽
- Completion (1K tokens):
- ₽
Parámetros por defecto
- Temperatura:
- 0
Comentarios de usuarios