Skip to main content

O que é Significância Estatística?

Significância estatística é a probabilidade de que a diferença entre variantes não seja apenas sorte.

95% de Confiança

Você pode estar 95% confiante que a diferença é real

5% de Chance

Ainda há 5% de chance de ser sorte (falso positivo)

Exemplo Simples

Você joga uma moeda 10 vezes:
- 7 caras, 3 coroas

A moeda é viciada? 🤔

Resposta: Provavelmente não. 
Com apenas 10 jogadas, essa variação é normal.

---

Você joga 1000 vezes:
- 700 caras, 300 coroas

Agora sim, a moeda está claramente viciada! 
Com 1000 jogadas, essa diferença é estatisticamente significante.
Lição: Quanto maior a amostra, mais confiança você tem nos resultados.

Por que Isso Importa?

Cenário Real

Experimento: Hero CTA Text
Duração: 3 dias
Tráfego: 200 visitantes

Variante A: 100 visitantes, 10 conversões (10%)
Variante B: 100 visitantes, 15 conversões (15%)

Diferença: +50% 🎉

Você deveria implementar a Variante B?
Resposta: NÃO! A amostra é muito pequena. Essa diferença pode ser apenas sorte.

Calculando Significância

Com apenas 200 visitantes, a significância estatística é ~60%. Isso significa:
  • 40% de chance de ser falso positivo
  • Você estaria jogando uma moeda 🎲
Você precisa de ~800-1000 visitantes para ter 95% de confiança.

Nível de Confiança

O padrão da indústria é 95% de confiança (ou p-value < 0.05).
ConfiançaInterpretaçãoUso
95%Padrão da indústriaMaioria dos testes
99%Alta confiançaMudanças críticas
90%Confiança médiaTestes exploratórios
< 90%Baixa confiança❌ Não tome decisões

O que Significa na Prática?

95% de confiança significa:

✅ Se você rodar 100 experimentos assim
✅ ~95 vão te dar resultados corretos
❌ ~5 vão te dar falsos positivos

Isso é aceitável para a maioria dos casos.

Como Calcular

Fórmula Básica (Simplificada)

Para testar diferença entre duas proporções:
z = (p1 - p2) / √[p(1-p) × (1/n1 + 1/n2)]

Onde:
p1 = taxa de conversão variante A
p2 = taxa de conversão variante B
n1 = tamanho amostra A
n2 = tamanho amostra B
p = (x1 + x2) / (n1 + n2) = taxa combinada
Não se preocupe! Use calculadoras online.

Calculadoras Recomendadas

Evan Miller

AB Test Sample Size Calculator

Optimizely

Sample Size Calculator

VWO

AB Test Significance Calculator

AB Testguide

Significance Calculator

Tamanho de Amostra Necessário

Calculadora Rápida

Use esta fórmula aproximada:
n ≈ 16σ² / Δ²

Onde:
σ = desvio padrão (~0.5 para conversão)
Δ = diferença mínima detectável (MDE)

Exemplo:
Para detectar diferença de 10% (0.10):
n ≈ 16 × (0.5)² / (0.10)² = 400 visitantes por variante

Tabela de Referência

Taxa BaseMDEVisitantes/VarianteTotal
5%5%3.8007.600
5%10%1.0002.000
5%20%300600
10%5%3.0006.000
10%10%8001.600
10%20%200400
MDE = Minimum Detectable Effect (menor diferença que você quer detectar)
Regra prática: Quanto menor a diferença que você quer detectar, maior a amostra necessária.

Exemplos Práticos

Exemplo 1: Amostra Suficiente

Experimento: Hero CTA
Duração: 14 dias

Variante A (Controle):
- 5.000 visitantes
- 250 conversões
- Taxa: 5.0%

Variante B:
- 5.000 visitantes
- 325 conversões  
- Taxa: 6.5%

Diferença: +30%
Significância: 97%
Decisão: ✅ Implementar Variante B Justificativa:
  • ✅ Amostra grande (5.000 por variante)
  • ✅ Significância > 95%
  • ✅ Diferença substancial (+30%)
  • ✅ Teste rodou 2 semanas completas

Exemplo 2: Amostra Insuficiente

Experimento: Pricing Layout
Duração: 3 dias

Variante A:
- 150 visitantes
- 15 conversões
- Taxa: 10.0%

Variante B:
- 150 visitantes
- 24 conversões
- Taxa: 16.0%

Diferença: +60%
Significância: 78%
Decisão: ⏸️ Continuar experimento Justificativa:
  • ❌ Amostra pequena (150 por variante)
  • ❌ Significância < 95% (apenas 78%)
  • ❌ Apenas 3 dias de teste
  • ✅ Resultado promissor → continuar testando

Exemplo 3: Falso Positivo

Experimento: Newsletter Popup
Duração: 2 dias

Variante A:
- 80 visitantes
- 8 conversões
- Taxa: 10.0%

Variante B:
- 80 visitantes
- 16 conversões
- Taxa: 20.0%

Diferença: +100%
Significância: 65%
Decisão: ❌ Não implementar Justificativa:
  • ❌ Amostra muito pequena (80 por variante)
  • ❌ Significância muito baixa (65%)
  • ❌ Alta chance de falso positivo
  • ⚠️ Apesar da diferença dramática (+100%), não é confiável
O que fazer:
  • Continue o experimento por mais 1-2 semanas
  • Precisa de ~400 visitantes por variante

Erros Comuns

Erro 1: Peeking (Espiar Resultados)

❌ RUIM:
Dia 1: Variante B ganhando! (significância 85%)
Dia 2: Variante A recuperou! (empate)
Dia 3: Variante B na frente! (significância 92%)
Dia 4: Vou implementar! (significância 96%)

Problema: Você está "minerando" os dados até achar 
um resultado positivo. Isso infla falsos positivos.

✅ BOM:
Defina duração ANTES (14 dias)
Não olhe resultados diariamente
Analise apenas no final

Erro 2: Stopping Early

❌ RUIM:
Dia 2: "Variante B está MUITO melhor! 
Vou parar o teste e implementar."

✅ BOM:
Aguarde pelo menos 1-2 semanas
Atinja tamanho de amostra mínimo
Verifique significância estatística

Erro 3: Multiple Testing

❌ RUIM:
Rodei 20 testes A/B esse mês.
1 deles mostrou melhoria de 50%!
Vou implementar!

Problema: Por pura sorte, 1 em 20 testes vai 
mostrar resultado "significante" (falso positivo).

✅ BOM:
Teste hipóteses bem fundamentadas
Use correção de Bonferroni para múltiplos testes
Valide resultados surpreendentes com novo teste

P-Value: O que Significa?

P-value é a probabilidade de obter o resultado observado se não houver diferença real.
P-valueSignificânciaInterpretação
< 0.0199%Muito significante
< 0.0595%Significante (padrão)
< 0.1090%Marginalmente significante
> 0.10< 90%Não significante

Exemplo

P-value = 0.03 (ou 3%)

Significa:
Se NÃO houver diferença real entre as variantes,
você teria apenas 3% de chance de observar 
uma diferença tão grande quanto a que você viu.

Logo: Provavelmente HÁ uma diferença real!

Intervalo de Confiança

Além de significância, olhe para o intervalo de confiança (confidence interval).

Exemplo

Experimento: Hero CTA
Diferença observada: +20%

Intervalo de confiança (95%):
[+12%, +28%]

Interpretação:
Você pode estar 95% confiante que a melhoria 
real está entre 12% e 28%.

Por que Isso Importa?

Cenário A:
Diferença: +20%
IC 95%: [+18%, +22%]
→ Resultado muito confiável, intervalo estreito

Cenário B:
Diferença: +20%
IC 95%: [-5%, +45%]
→ Resultado incerto, intervalo muito largo
→ Pode ser de -5% até +45%!
Cuidado: Um intervalo de confiança largo indica incerteza, mesmo que o resultado pareça promissor.

Checklist Antes de Decidir

Antes de implementar uma variante vencedora:
1

✅ Significância ≥ 95%

Confiança de pelo menos 95% (p-value < 0.05)
2

✅ Amostra Adequada

Mínimo 100-200 conversões por variante
3

✅ Tempo Suficiente

Pelo menos 1-2 semanas completas
4

✅ Resultado Estável

Não oscila drasticamente dia a dia
5

✅ Faz Sentido

Resultado é plausível e explicável
6

✅ Intervalo de Confiança

Intervalo não inclui zero (ou valores negativos)

Ferramentas e Recursos

Calculadoras

Sample Size

Calcule quantos visitantes precisa

Significance

Calcule significância dos resultados

Duration

Calcule duração necessária

Bayesian

Abordagem Bayesiana (avançado)

Artigos Recomendados


Frequentist vs Bayesian

Existem duas abordagens principais:

Frequentist (Padrão)

O que é:
  • Abordagem tradicional
  • Usa p-value e significância
  • Responde: “Qual a probabilidade de ver esses dados se não houver diferença?”
Prós:
  • ✅ Padrão da indústria
  • ✅ Bem entendido e documentado
  • ✅ Calculadoras amplamente disponíveis
Contras:
  • ❌ Não te diz “qual variante é melhor”
  • ❌ Apenas rejeita ou não rejeita hipótese nula

Bayesian (Avançado)

O que é:
  • Incorpora conhecimento prévio
  • Responde: “Qual a probabilidade da Variante B ser melhor?”
  • Resultado: “94% de chance de B ser melhor que A”
Prós:
  • ✅ Mais intuitivo para interpretar
  • ✅ Permite parar teste mais cedo
  • ✅ Incorpora incerteza naturalmente
Contras:
  • ❌ Menos comum
  • ❌ Requer definir prior (conhecimento prévio)
  • ❌ Mais complexo de implementar
Recomendação: Use Frequentist (padrão) a menos que você seja estatístico ou tenha razão específica para usar Bayesian.

Casos Especiais

Testes com Baixo Tráfego

Se você tem < 1.000 visitantes/mês:
Opções:
1. Teste mudanças MUITO dramáticas (>50% de impacto esperado)
2. Rode por mais tempo (2-3 meses)
3. Use métodos qualitativos (user testing, feedback)

Testes em B2B

Se você tem poucos usuários mas alto valor:
Foque em:
- Revenue per visitor
- Qualidade dos leads
- Lifetime value

Não apenas em:
- Taxa de conversão

Testes de Revenue

Métricas:
- Revenue per visitor (RPV)
- Average order value (AOV)
- Customer lifetime value (CLV)

Tamanho de amostra:
- Geralmente precisa de MAIS dados
- Receita tem mais variância que conversão

Resumo: Regras de Ouro

95%+ Confiança

Sempre aguarde significância ≥95%

100+ Conversões

Mínimo absoluto por variante

1-2 Semanas

Duração mínima para capturar variação

Não Espie!

Defina critérios antes e não mude

Próximos Passos

Best Practices

Metodologias completas

Debugging

Resolva problemas técnicos

Exemplos

Veja implementações práticas

useExperiment

Documentação do SDK