vibe-coding

UI-TARS Desktop: agente IA controla seu computador — alternativa open-source ao Operator

Fonte: GitHub
· Givanildo Albuquerque

UI-TARS Desktop é o stack de agentes multimodais open-source da ByteDance que faz IA controlar seu navegador e desktop como se fosse uma pessoa real usando o computador. São 31.110 stars no GitHub (em maio de 2026), licença Apache-2.0, e a versão estável foi lançada em 04 de novembro de 2025. O projeto combina dois componentes complementares: Agent TARS, focado em automação web visual, e UI-TARS-desktop, que opera o sistema operacional através de modelos de visão (VLM — vision-language model, modelo que entende imagem e texto juntos). Está em alta porque resolve um problema que ferramentas como OpenAI Operator e Anthropic Computer Use cobram caro: automatizar fluxos repetitivos no computador sem depender de APIs específicas de cada SaaS. O agente “vê” a tela, decide o que clicar, e executa cada passo — tudo rodando localmente ou em servidor próprio, sem mandar dados sensíveis para terceiros.

O que faz

UI-TARS Desktop combina um modelo de visão (VLM) treinado pela ByteDance com infraestrutura de agente para executar tarefas no computador. Funciona em três camadas.

A primeira é o modelo UI-TARS, que recebe screenshots da tela e decide qual ação tomar: clicar em coordenada X,Y, digitar texto, rolar, copiar. Não depende de DOM ou seletores CSS — entende a interface visualmente, igual uma pessoa olhando para o monitor.

A segunda é o Agent TARS, framework que orquestra navegação web, raciocínio multistep (várias etapas em sequência), e uso de ferramentas via MCP (Model Context Protocol, padrão da Anthropic para conectar agentes a ferramentas externas). Conecta o modelo a browsers reais, permitindo extrair dados, preencher formulários, ou executar fluxos complexos de pesquisa.

A terceira é o app desktop, que empacota tudo em uma interface gráfica para uso local — você instala no Mac ou Windows e dá comandos em linguagem natural.

Casos de uso típicos: extração de dados de painéis sem API, automação de tarefas repetitivas em SaaS antigos, testes E2E (end-to-end, fim-a-fim) sem escrever Selenium, e RPA (automação robótica de processos) sem licença de UiPath.

Por que está em alta

O hype de “computer use” começou em outubro de 2024 com o lançamento do Anthropic Claude Computer Use, seguido pelo OpenAI Operator em janeiro de 2025. Ambos são caros e fechados.

UI-TARS Desktop entrou nessa corrida com diferencial duplo: é gratuito (Apache-2.0 permite uso comercial) e o modelo de visão é open-weights — você baixa os pesos e roda no seu hardware. ByteDance liberou o stack completo no início de 2025, e o repositório saiu de aproximadamente 8 mil para 31 mil stars em poucos meses.

Outro fator: integração nativa com MCP, que virou padrão de fato no ecossistema de vibe coding ao longo de 2025 e 2026.

Tabela de métricas

MétricaValor
Stars31.110
LicençaApache-2.0
Último update10 dias atrás (maio 2026)
LinguagemTypeScript
Contributors48 (top contributor: 62% dos commits)
Forks3.091
Issues abertas380
Releases38

Para quem serve / Para quem NÃO serve

Serve para:

  • Empreendedores que rodam fluxos manuais em SaaS sem API — extração de relatórios, exportação de leads, atualização em massa de cadastros
  • Times técnicos que querem RPA sem pagar UiPath — Apache-2.0 permite uso comercial sem royalty
  • Quem testa muitas ferramentas web — o agente navega, preenche cadastros e gera screenshots automaticamente
  • Empresas que precisam de automação on-premise — dados não saem da máquina, atende compliance LGPD mais rígido

NÃO serve para:

  • Quem não tem hardware decente — o modelo VLM precisa de GPU para rodar local, ou de chamada para endpoint cloud (custo recorrente)
  • Casos onde latência importa — cada ação leva 2-5 segundos para o modelo “ver e decidir”
  • Automação simples com API disponível — se a ferramenta tem API, usar IA via API é mais barato, mais rápido e mais confiável
  • Empresas que precisam de SLA enterprise — projeto tem 1 contributor com 62% dos commits (bus factor alto, ou seja, risco se essa pessoa sair)

Alternativas

  • OpenAI Operator (US$ 200/mês no plano ChatGPT Pro) — pago, fechado, mais polido. Não roda local.
  • Anthropic Computer Use (via API Claude, custo por token) — Claude Sonnet com capacidade computer use embutida. Cara em volume alto.
  • Browser Use (browser-use.com, open-source) — Python, foco em browser apenas, sem desktop. Mais leve e simples de instalar.
  • Skyvern (open-source + plano cloud a partir de US$ 50/mês) — agente web com fallback para LLMs comerciais.

UI-TARS é o único que oferece desktop completo open-source com modelo de visão próprio.

Veredicto

Vale instalar e testar se há fluxos manuais consumindo 2+ horas por semana em SaaS sem API. Para times pequenos sem GPU, começar pelo Browser Use é mais simples. Bus factor de 62% em um único contributor é o ponto fraco — monitorar antes de colocar em produção crítica.

Fonte: UI-TARS-desktop no GitHub

CEO @leadmarkbr · Especialista em SEO e Tráfego Pago

CEO da LeadMark desde 2012. Mais de 15 anos em Google Ads, SEO/GEO e Meta Ads. Gero +60k leads/mês para 30 mil corretores de planos de saúde em todo o Brasil. Certificado Google Ads Search. Palestrante em eventos de marketing digital.