Como a Google Revoluciona Testes de Incrementalidade com Orçamentos Menores

Como a Google Revoluciona Testes de Incrementalidade com Orçamentos Menores
Como a Google Revoluciona Testes de Incrementalidade com Orçamentos Menores

Você já ouviu falar sobre incrementalidade? Essa nova abordagem da Google promete transformar a forma como medimos o impacto dos anúncios, mesmo com orçamentos menores. Vamos explorar como isso funciona!

Google Revoluciona Testes de Incrementalidade com Orçamentos Menores

Para muitos anunciantes, medir o impacto real de suas campanhas no Google Ads sempre foi um desafio. Testes de incrementalidade, que mostram o quanto um anúncio realmente adiciona de valor, eram vistos como algo para grandes orçamentos. Mas a boa notícia é que o Google mudou o jogo! Agora, é possível fazer esses testes e medir o “lift” (o aumento real nas conversões) mesmo com investimentos menores, como apenas $5.000 em mídia, conforme noticiado recentemente.

O que é Incrementalidade e Por Que Ela Importa?

A incrementalidade é a métrica que te diz se seus anúncios estão realmente trazendo resultados novos, ou se as pessoas comprariam de você de qualquer jeito. Por muito tempo, acreditava-se que para ter uma medição confiável, você precisaria de orçamentos gigantes, testes longos e uma boa dose de paciência para resultados que nem sempre eram claros. Essa nova abordagem do Google, que permite testes com menos dados, pode parecer mágica ou apenas “marketing”, mas a verdade é que é pura matemática.

Por trás dessa mudança, existe uma metodologia de teste totalmente diferente. Ela foca mais na probabilidade do que na certeza absoluta, e mais no aprendizado contínuo do que em provas rígidas. Entender como isso funciona é crucial para interpretar os novos resultados de incrementalidade e tomar decisões mais inteligentes em suas campanhas de PPC.

Por Que os Testes A/B Tradicionais Falham?

A maioria dos anunciantes de PPC já conhece as estatísticas “frequentistas”, mesmo sem saber o nome. Sabe aquele teste A/B clássico que pergunta “Essa mudança atingiu significância estatística?” e usa valores-p para responder? Isso é estatística frequentista. É o modelo que a maioria das plataformas de experimentação usa e que moldou como os profissionais de marketing avaliam testes por décadas.

Vamos ver um exemplo prático com um orçamento menor, como os que muitos anunciantes podem pagar:

  • Orçamento total do teste: $5.000
  • Divisão: 50/50, ou seja, $2.500 por variante
  • CPC médio: $2
  • Cliques por variante: 1.250
  • Meta de CPA: ~$100

Agora, os resultados observados:

  • Controle: 1.250 cliques → 25 conversões → taxa de conversão de 2,00%
  • Tratamento: 1.250 cliques → 30 conversões → taxa de conversão de 2,40%
  • Lift observado: 20% mais conversões, ~16,7% menor CPA

Parece promissor, certo? Mas quando você aplica um teste z padrão de duas proporções, os números contam uma história diferente:

  • Z ≈ 0,68
  • P-valor unilateral ≈ 0,25
  • P-valor bilateral ≈ 0,50

Isso significa que, sob a estrutura frequentista tradicional, esse teste não é estatisticamente significativo. Um aumento de 20% e um CPA visivelmente melhor ainda são tratados como “poderia ser facilmente ruído”. O anunciante gastou $5.000, viu números encorajadores, mas não pode declarar um vencedor claro. É essa lacuna que o Google está tentando fechar com seus novos métodos de incrementalidade, mantendo os testes úteis mesmo quando o orçamento está mais perto de $5.000 do que de $100.000.

A Revolução do Modelo Bayesiano: Foco na Probabilidade

Os modelos bayesianos fazem perguntas diferentes, e muitas vezes mais úteis para a tomada de decisões. Em vez de perguntar se um resultado é estatisticamente significativo, eles perguntam algo mais prático: “Dado o que já sabemos, qual a probabilidade de isso ser verdade?”

Vamos aplicar essa lógica ao mesmo exemplo de $5.000 que deu um resultado inconclusivo no método frequentista. Usando um modelo bayesiano simples:

  • Controle: 25 conversões de 1.250 cliques → Beta(26, 1226)
  • Tratamento: 30 conversões de 1.250 cliques → Beta(31, 1221)

A partir dessas distribuições, podemos calcular:

  • Lift médio: ~18–20%
  • Intervalo de credibilidade de 95%: abrange lift negativo a positivo (amplo, como esperado com poucos dados)
  • Probabilidade de lift > 0: ~75–80%

Enquanto o teste A/B tradicional diria “Inconclusivo. Poderia ser ruído. Volte com um orçamento maior”, a leitura bayesiana é mais prática: “Há cerca de 80% de chance de o tratamento ser realmente melhor.” Isso não é uma prova definitiva, mas é informação suficiente para guiar o próximo passo, como estender o teste ou fazer um pequeno ajuste na alocação de orçamento.

Como o Google Faz Testes de $5.000 Funcionarem?

A resposta curta é: “priors” (conhecimento prévio) + escala. Métodos frequentistas só olham para os dados observados no teste. Já os modelos bayesianos permitem que você traga conhecimento prévio para a mesa. E adivinha qual empresa tem uma montanha de dados sobre campanhas de anúncios online? Exato, o Google!

O Google não avalia seu teste de forma isolada. Ele usa:

  • Priors informativos: grandes volumes de dados históricos de campanhas.
  • Modelagem hierárquica: agrupando seu teste com campanhas semelhantes.
  • Saídas probabilísticas: substituindo os p-valores por probabilidades.

Isso é explicado na documentação do Meridian MMM do Google. Veja um exemplo de como um “prior” pode mudar a interpretação:

  • Tipo de teste “Sem prior”: Lift posterior de +0,7%, Prob(lift > 0) de 54% (inconclusivo).
  • Tipo de teste “Com prior (~10% lift)”: Lift posterior de +20,5%, Prob(lift > 0) de 76% (direcionalmente confiante).

A crença prévia de que campanhas semelhantes geralmente veem um lift de ~10% estabiliza o resultado o suficiente para apoiar decisões reais. E se você confia nisso? Sim, porque o Smart Bidding do Google Ads, que muitos anunciantes usam e gostam, já funciona assim. Ele usa dados de dispositivo, localização, hora do dia, setor e desempenho histórico para formar uma expectativa inicial e a atualiza à medida que novos dados chegam. Seu teste de $5.000 herda aprendizados de campanhas parecidas com a sua, e é isso que torna a percepção possível antes de gastar seis dígitos.

O que Esperar dos Novos Testes e o que Observar

A abordagem bayesiana oferece uma maneira mais prática de medir o impacto, especialmente quando os orçamentos são limitados e as decisões não podem esperar. Ela fala a linguagem da incerteza, do risco e das compensações, que é como as decisões de orçamento são realmente tomadas. O sistema é poderoso, mas não totalmente transparente. Algumas perguntas importantes ainda permanecem:

  • Os “priors” são totalmente removidos quando há dados suficientes do teste?
  • Os anunciantes podem inspecionar ou validar esses “priors”?
  • Quais são as salvaguardas para evitar que “priors” irrelevantes influenciem os resultados?

O Google indicou que os “priors” diminuem à medida que os dados crescem, mas os anunciantes ainda precisam usar seu bom senso ao interpretar os resultados. Da próxima vez que o Google mostrar uma estimativa de lift de um teste de $5.000, não descarte. Não é truque; é matemática com todos os benefícios do vasto conhecimento do Google sobre o desempenho de campanhas de anúncios anteriores. É uma nova capacidade bem-vinda do Google Ads para todos os anunciantes que querem tomar decisões de otimização mais inteligentes e baseadas em dados.