Skip to main content

O que é Significância Estatística?

Significância estatística é a probabilidade de que a diferença entre variantes não seja apenas sorte.

95% de Confiança

Você pode estar 95% confiante que a diferença é real

5% de Chance

Ainda há 5% de chance de ser sorte (falso positivo)

Exemplo Simples

Você joga uma moeda 10 vezes:
- 7 caras, 3 coroas

A moeda é viciada? 🤔

Resposta: Provavelmente não. 
Com apenas 10 jogadas, essa variação é normal.

---

Você joga 1000 vezes:
- 700 caras, 300 coroas

Agora sim, a moeda está claramente viciada! 
Com 1000 jogadas, essa diferença é estatisticamente significante.
Lição: Quanto maior a amostra, mais confiança você tem nos resultados.

Por que Isso Importa?

Cenário Real

Experimento: Hero CTA Text
Duração: 3 dias
Tráfego: 200 visitantes

Variante A: 100 visitantes, 10 conversões (10%)
Variante B: 100 visitantes, 15 conversões (15%)

Diferença: +50% 🎉

Você deveria implementar a Variante B?
Resposta: NÃO! A amostra é muito pequena. Essa diferença pode ser apenas sorte.

Calculando Significância

Com apenas 200 visitantes, a significância estatística é ~60%. Isso significa:
  • 40% de chance de ser falso positivo
  • Você estaria jogando uma moeda 🎲
Você precisa de ~800-1000 visitantes para ter 95% de confiança.

Nível de Confiança

O padrão da indústria é 95% de confiança (ou p-value < 0.05).
ConfiançaInterpretaçãoUso
95%Padrão da indústriaMaioria dos testes
99%Alta confiançaMudanças críticas
90%Confiança médiaTestes exploratórios
< 90%Baixa confiança❌ Não tome decisões

O que Significa na Prática?

95% de confiança significa:

✅ Se você rodar 100 experimentos assim
✅ ~95 vão te dar resultados corretos
❌ ~5 vão te dar falsos positivos

Isso é aceitável para a maioria dos casos.

Como Calcular

Fórmula Básica (Simplificada)

Para testar diferença entre duas proporções:
z = (p1 - p2) / √[p(1-p) × (1/n1 + 1/n2)]

Onde:
p1 = taxa de conversão variante A
p2 = taxa de conversão variante B
n1 = tamanho amostra A
n2 = tamanho amostra B
p = (x1 + x2) / (n1 + n2) = taxa combinada
Não se preocupe! Use calculadoras online.

Calculadoras Recomendadas


Tamanho de Amostra Necessário

Calculadora Rápida

Use esta fórmula aproximada:
n ≈ 16σ² / Δ²

Onde:
σ = desvio padrão (~0.5 para conversão)
Δ = diferença mínima detectável (MDE)

Exemplo:
Para detectar diferença de 10% (0.10):
n ≈ 16 × (0.5)² / (0.10)² = 400 visitantes por variante

Tabela de Referência

Taxa BaseMDEVisitantes/VarianteTotal
5%5%3.8007.600
5%10%1.0002.000
5%20%300600
10%5%3.0006.000
10%10%8001.600
10%20%200400
MDE = Minimum Detectable Effect (menor diferença que você quer detectar)
Regra prática: Quanto menor a diferença que você quer detectar, maior a amostra necessária.

Exemplos Práticos

Exemplo 1: Amostra Suficiente

Experimento: Hero CTA
Duração: 14 dias

Variante A (Controle):
- 5.000 visitantes
- 250 conversões
- Taxa: 5.0%

Variante B:
- 5.000 visitantes
- 325 conversões  
- Taxa: 6.5%

Diferença: +30%
Significância: 97%
Decisão: ✅ Implementar Variante B Justificativa:
  • ✅ Amostra grande (5.000 por variante)
  • ✅ Significância > 95%
  • ✅ Diferença substancial (+30%)
  • ✅ Teste rodou 2 semanas completas

Exemplo 2: Amostra Insuficiente

Experimento: Pricing Layout
Duração: 3 dias

Variante A:
- 150 visitantes
- 15 conversões
- Taxa: 10.0%

Variante B:
- 150 visitantes
- 24 conversões
- Taxa: 16.0%

Diferença: +60%
Significância: 78%
Decisão: ⏸️ Continuar experimento Justificativa:
  • ❌ Amostra pequena (150 por variante)
  • ❌ Significância < 95% (apenas 78%)
  • ❌ Apenas 3 dias de teste
  • ✅ Resultado promissor → continuar testando

Exemplo 3: Falso Positivo

Experimento: Newsletter Popup
Duração: 2 dias

Variante A:
- 80 visitantes
- 8 conversões
- Taxa: 10.0%

Variante B:
- 80 visitantes
- 16 conversões
- Taxa: 20.0%

Diferença: +100%
Significância: 65%
Decisão: ❌ Não implementar Justificativa:
  • ❌ Amostra muito pequena (80 por variante)
  • ❌ Significância muito baixa (65%)
  • ❌ Alta chance de falso positivo
  • ⚠️ Apesar da diferença dramática (+100%), não é confiável
O que fazer:
  • Continue o experimento por mais 1-2 semanas
  • Precisa de ~400 visitantes por variante

Erros Comuns

Erro 1: Peeking (Espiar Resultados)

❌ RUIM:
Dia 1: Variante B ganhando! (significância 85%)
Dia 2: Variante A recuperou! (empate)
Dia 3: Variante B na frente! (significância 92%)
Dia 4: Vou implementar! (significância 96%)

Problema: Você está "minerando" os dados até achar 
um resultado positivo. Isso infla falsos positivos.

✅ BOM:
Defina duração ANTES (14 dias)
Não olhe resultados diariamente
Analise apenas no final

Erro 2: Stopping Early

❌ RUIM:
Dia 2: "Variante B está MUITO melhor! 
Vou parar o teste e implementar."

✅ BOM:
Aguarde pelo menos 1-2 semanas
Atinja tamanho de amostra mínimo
Verifique significância estatística

Erro 3: Multiple Testing

❌ RUIM:
Rodei 20 testes A/B esse mês.
1 deles mostrou melhoria de 50%!
Vou implementar!

Problema: Por pura sorte, 1 em 20 testes vai 
mostrar resultado "significante" (falso positivo).

✅ BOM:
Teste hipóteses bem fundamentadas
Use correção de Bonferroni para múltiplos testes
Valide resultados surpreendentes com novo teste

P-Value: O que Significa?

P-value é a probabilidade de obter o resultado observado se não houver diferença real.
P-valueSignificânciaInterpretação
< 0.0199%Muito significante
< 0.0595%Significante (padrão)
< 0.1090%Marginalmente significante
> 0.10< 90%Não significante

Exemplo

P-value = 0.03 (ou 3%)

Significa:
Se NÃO houver diferença real entre as variantes,
você teria apenas 3% de chance de observar 
uma diferença tão grande quanto a que você viu.

Logo: Provavelmente HÁ uma diferença real!

Intervalo de Confiança

Além de significância, olhe para o intervalo de confiança (confidence interval).

Exemplo

Experimento: Hero CTA
Diferença observada: +20%

Intervalo de confiança (95%):
[+12%, +28%]

Interpretação:
Você pode estar 95% confiante que a melhoria 
real está entre 12% e 28%.

Por que Isso Importa?

Cenário A:
Diferença: +20%
IC 95%: [+18%, +22%]
→ Resultado muito confiável, intervalo estreito

Cenário B:
Diferença: +20%
IC 95%: [-5%, +45%]
→ Resultado incerto, intervalo muito largo
→ Pode ser de -5% até +45%!
Cuidado: Um intervalo de confiança largo indica incerteza, mesmo que o resultado pareça promissor.

Checklist Antes de Decidir

Antes de implementar uma variante vencedora:
1

✅ Significância ≥ 95%

Confiança de pelo menos 95% (p-value < 0.05)
2

✅ Amostra Adequada

Mínimo 100-200 conversões por variante
3

✅ Tempo Suficiente

Pelo menos 1-2 semanas completas
4

✅ Resultado Estável

Não oscila drasticamente dia a dia
5

✅ Faz Sentido

Resultado é plausível e explicável
6

✅ Intervalo de Confiança

Intervalo não inclui zero (ou valores negativos)

Ferramentas e Recursos

Calculadoras

Artigos Recomendados


Frequentist vs Bayesian

Existem duas abordagens principais:

Frequentist (Padrão)

O que é:
  • Abordagem tradicional
  • Usa p-value e significância
  • Responde: “Qual a probabilidade de ver esses dados se não houver diferença?”
Prós:
  • ✅ Padrão da indústria
  • ✅ Bem entendido e documentado
  • ✅ Calculadoras amplamente disponíveis
Contras:
  • ❌ Não te diz “qual variante é melhor”
  • ❌ Apenas rejeita ou não rejeita hipótese nula

Bayesian (Avançado)

O que é:
  • Incorpora conhecimento prévio
  • Responde: “Qual a probabilidade da Variante B ser melhor?”
  • Resultado: “94% de chance de B ser melhor que A”
Prós:
  • ✅ Mais intuitivo para interpretar
  • ✅ Permite parar teste mais cedo
  • ✅ Incorpora incerteza naturalmente
Contras:
  • ❌ Menos comum
  • ❌ Requer definir prior (conhecimento prévio)
  • ❌ Mais complexo de implementar
Recomendação: Use Frequentist (padrão) a menos que você seja estatístico ou tenha razão específica para usar Bayesian.

Casos Especiais

Testes com Baixo Tráfego

Se você tem < 1.000 visitantes/mês:
Opções:
1. Teste mudanças MUITO dramáticas (>50% de impacto esperado)
2. Rode por mais tempo (2-3 meses)
3. Use métodos qualitativos (user testing, feedback)

Testes em B2B

Se você tem poucos usuários mas alto valor:
Foque em:
- Revenue per visitor
- Qualidade dos leads
- Lifetime value

Não apenas em:
- Taxa de conversão

Testes de Revenue

Métricas:
- Revenue per visitor (RPV)
- Average order value (AOV)
- Customer lifetime value (CLV)

Tamanho de amostra:
- Geralmente precisa de MAIS dados
- Receita tem mais variância que conversão

Resumo: Regras de Ouro

95%+ Confiança

Sempre aguarde significância ≥95%

100+ Conversões

Mínimo absoluto por variante

1-2 Semanas

Duração mínima para capturar variação

Não Espie!

Defina critérios antes e não mude

Próximos Passos