UI-TARS Desktop: agente IA controla seu computador — alternativa open-source ao Operator
UI-TARS Desktop é o stack de agentes multimodais open-source da ByteDance que faz IA controlar seu navegador e desktop como se fosse uma pessoa real usando o computador. São 31.110 stars no GitHub (em maio de 2026), licença Apache-2.0, e a versão estável foi lançada em 04 de novembro de 2025. O projeto combina dois componentes complementares: Agent TARS, focado em automação web visual, e UI-TARS-desktop, que opera o sistema operacional através de modelos de visão (VLM — vision-language model, modelo que entende imagem e texto juntos). Está em alta porque resolve um problema que ferramentas como OpenAI Operator e Anthropic Computer Use cobram caro: automatizar fluxos repetitivos no computador sem depender de APIs específicas de cada SaaS. O agente “vê” a tela, decide o que clicar, e executa cada passo — tudo rodando localmente ou em servidor próprio, sem mandar dados sensíveis para terceiros.
O que faz
UI-TARS Desktop combina um modelo de visão (VLM) treinado pela ByteDance com infraestrutura de agente para executar tarefas no computador. Funciona em três camadas.
A primeira é o modelo UI-TARS, que recebe screenshots da tela e decide qual ação tomar: clicar em coordenada X,Y, digitar texto, rolar, copiar. Não depende de DOM ou seletores CSS — entende a interface visualmente, igual uma pessoa olhando para o monitor.
A segunda é o Agent TARS, framework que orquestra navegação web, raciocínio multistep (várias etapas em sequência), e uso de ferramentas via MCP (Model Context Protocol, padrão da Anthropic para conectar agentes a ferramentas externas). Conecta o modelo a browsers reais, permitindo extrair dados, preencher formulários, ou executar fluxos complexos de pesquisa.
A terceira é o app desktop, que empacota tudo em uma interface gráfica para uso local — você instala no Mac ou Windows e dá comandos em linguagem natural.
Casos de uso típicos: extração de dados de painéis sem API, automação de tarefas repetitivas em SaaS antigos, testes E2E (end-to-end, fim-a-fim) sem escrever Selenium, e RPA (automação robótica de processos) sem licença de UiPath.
Por que está em alta
O hype de “computer use” começou em outubro de 2024 com o lançamento do Anthropic Claude Computer Use, seguido pelo OpenAI Operator em janeiro de 2025. Ambos são caros e fechados.
UI-TARS Desktop entrou nessa corrida com diferencial duplo: é gratuito (Apache-2.0 permite uso comercial) e o modelo de visão é open-weights — você baixa os pesos e roda no seu hardware. ByteDance liberou o stack completo no início de 2025, e o repositório saiu de aproximadamente 8 mil para 31 mil stars em poucos meses.
Outro fator: integração nativa com MCP, que virou padrão de fato no ecossistema de vibe coding ao longo de 2025 e 2026.
Tabela de métricas
| Métrica | Valor |
|---|---|
| Stars | 31.110 |
| Licença | Apache-2.0 |
| Último update | 10 dias atrás (maio 2026) |
| Linguagem | TypeScript |
| Contributors | 48 (top contributor: 62% dos commits) |
| Forks | 3.091 |
| Issues abertas | 380 |
| Releases | 38 |
Para quem serve / Para quem NÃO serve
Serve para:
- Empreendedores que rodam fluxos manuais em SaaS sem API — extração de relatórios, exportação de leads, atualização em massa de cadastros
- Times técnicos que querem RPA sem pagar UiPath — Apache-2.0 permite uso comercial sem royalty
- Quem testa muitas ferramentas web — o agente navega, preenche cadastros e gera screenshots automaticamente
- Empresas que precisam de automação on-premise — dados não saem da máquina, atende compliance LGPD mais rígido
NÃO serve para:
- Quem não tem hardware decente — o modelo VLM precisa de GPU para rodar local, ou de chamada para endpoint cloud (custo recorrente)
- Casos onde latência importa — cada ação leva 2-5 segundos para o modelo “ver e decidir”
- Automação simples com API disponível — se a ferramenta tem API, usar IA via API é mais barato, mais rápido e mais confiável
- Empresas que precisam de SLA enterprise — projeto tem 1 contributor com 62% dos commits (bus factor alto, ou seja, risco se essa pessoa sair)
Alternativas
- OpenAI Operator (US$ 200/mês no plano ChatGPT Pro) — pago, fechado, mais polido. Não roda local.
- Anthropic Computer Use (via API Claude, custo por token) — Claude Sonnet com capacidade computer use embutida. Cara em volume alto.
- Browser Use (browser-use.com, open-source) — Python, foco em browser apenas, sem desktop. Mais leve e simples de instalar.
- Skyvern (open-source + plano cloud a partir de US$ 50/mês) — agente web com fallback para LLMs comerciais.
UI-TARS é o único que oferece desktop completo open-source com modelo de visão próprio.
Veredicto
Vale instalar e testar se há fluxos manuais consumindo 2+ horas por semana em SaaS sem API. Para times pequenos sem GPU, começar pelo Browser Use é mais simples. Bus factor de 62% em um único contributor é o ponto fraco — monitorar antes de colocar em produção crítica.
Fonte: UI-TARS-desktop no GitHub
CEO @leadmarkbr · Especialista em SEO e Tráfego Pago
CEO da LeadMark desde 2012. Mais de 15 anos em Google Ads, SEO/GEO e Meta Ads. Gero +60k leads/mês para 30 mil corretores de planos de saúde em todo o Brasil. Certificado Google Ads Search. Palestrante em eventos de marketing digital.