ByteDance: UI-TARS 7B

UI-TARS-1.5 es un agente de lenguaje de visión multimodal optimizado para entornos basados ​​en GUI, que incluyen interfaces de escritorio, navegadores web, sistemas móviles y juegos.

Descripción

UI-TARS-1.5 es un agente de lenguaje de visión multimodal optimizado para entornos basados ​​en GUI, que incluyen interfaces de escritorio, navegadores web, sistemas móviles y juegos.

ArquitecturaАрхитектура

Modalidad:
text+image->text
Modalidades de entrada:
image, text
Modalidades de salida:
text
Tokenizador:
Other

Contexto y límites

Longitud del contexto:
128000 tokens
Máx. tokens de respuesta:
2048 tokens
Moderación:
Deshabilitada

Precios (RUB)

Solicitud:
Imagen:
Búsqueda web:
Razonamiento interno:
Prompt (1K tokens):
Completion (1K tokens):

Parámetros por defecto

Temperatura:
0
Iniciar chat con ByteDance: UI-TARS 7B

Comentarios de usuarios