Meta: Llama 3.2 11B Vision Instruct

Llama 3.2 11b Vision es un modelo multimodal con 11 mil millones de parámetros, diseñados para manejar tareas que combinan datos visuales y textuales.

Descripción

Llama 3.2 11b Vision es un modelo multimodal con 11 mil millones de parámetros, diseñados para manejar tareas que combinan datos visuales y textuales.

ArquitecturaАрхитектура

Modalidad:
text+image->text
Modalidades de entrada:
text, image
Modalidades de salida:
text
Tokenizador:
Llama3
Tipo de instrucción:
llama3

Contexto y límites

Longitud del contexto:
131072 tokens
Máx. tokens de respuesta:
16384 tokens
Moderación:
Deshabilitada

Precios (RUB)

Solicitud:
Imagen:
Búsqueda web:
Razonamiento interno:
Prompt (1K tokens):
Completion (1K tokens):

Parámetros por defecto

Temperatura:
0
Iniciar chat con Meta: Llama 3.2 11B Vision Instruct

Comentarios de usuarios