ByteDance: UI-TARS 7B
UI-TARS-1.5 es un agente de lenguaje de visión multimodal optimizado para entornos basados en GUI, que incluyen interfaces de escritorio, navegadores web, sistemas móviles y juegos.
Descripción
UI-TARS-1.5 es un agente de lenguaje de visión multimodal optimizado para entornos basados en GUI, que incluyen interfaces de escritorio, navegadores web, sistemas móviles y juegos.
ArquitecturaАрхитектура
- Modalidad:
- text+image->text
- Modalidades de entrada:
- image, text
- Modalidades de salida:
- text
- Tokenizador:
- Other
Contexto y límites
- Longitud del contexto:
- 128000 tokens
- Máx. tokens de respuesta:
- 2048 tokens
- Moderación:
- Deshabilitada
Precios (RUB)
- Solicitud:
- ₽
- Imagen:
- ₽
- Búsqueda web:
- ₽
- Razonamiento interno:
- ₽
- Prompt (1K tokens):
- ₽
- Completion (1K tokens):
- ₽
Parámetros por defecto
- Temperatura:
- 0
Comentarios de usuarios