O que é Significância Estatística?
Significância estatística é a probabilidade de que a diferença entre variantes não seja apenas sorte.95% de Confiança
Você pode estar 95% confiante que a diferença é real
5% de Chance
Ainda há 5% de chance de ser sorte (falso positivo)
Exemplo Simples
Lição: Quanto maior a amostra, mais confiança você tem nos resultados.
Por que Isso Importa?
Cenário Real
Calculando Significância
Com apenas 200 visitantes, a significância estatística é ~60%. Isso significa:- 40% de chance de ser falso positivo
- Você estaria jogando uma moeda 🎲
Nível de Confiança
O padrão da indústria é 95% de confiança (ou p-value < 0.05).| Confiança | Interpretação | Uso |
|---|---|---|
| 95% | Padrão da indústria | Maioria dos testes |
| 99% | Alta confiança | Mudanças críticas |
| 90% | Confiança média | Testes exploratórios |
| < 90% | Baixa confiança | ❌ Não tome decisões |
O que Significa na Prática?
Como Calcular
Fórmula Básica (Simplificada)
Para testar diferença entre duas proporções:Calculadoras Recomendadas
Evan Miller
AB Test Sample Size Calculator
Optimizely
Sample Size Calculator
VWO
AB Test Significance Calculator
AB Testguide
Significance Calculator
Tamanho de Amostra Necessário
Calculadora Rápida
Use esta fórmula aproximada:Tabela de Referência
| Taxa Base | MDE | Visitantes/Variante | Total |
|---|---|---|---|
| 5% | 5% | 3.800 | 7.600 |
| 5% | 10% | 1.000 | 2.000 |
| 5% | 20% | 300 | 600 |
| 10% | 5% | 3.000 | 6.000 |
| 10% | 10% | 800 | 1.600 |
| 10% | 20% | 200 | 400 |
Exemplos Práticos
Exemplo 1: Amostra Suficiente
- ✅ Amostra grande (5.000 por variante)
- ✅ Significância > 95%
- ✅ Diferença substancial (+30%)
- ✅ Teste rodou 2 semanas completas
Exemplo 2: Amostra Insuficiente
- ❌ Amostra pequena (150 por variante)
- ❌ Significância < 95% (apenas 78%)
- ❌ Apenas 3 dias de teste
- ✅ Resultado promissor → continuar testando
Exemplo 3: Falso Positivo
- ❌ Amostra muito pequena (80 por variante)
- ❌ Significância muito baixa (65%)
- ❌ Alta chance de falso positivo
- ⚠️ Apesar da diferença dramática (+100%), não é confiável
- Continue o experimento por mais 1-2 semanas
- Precisa de ~400 visitantes por variante
Erros Comuns
Erro 1: Peeking (Espiar Resultados)
Erro 2: Stopping Early
Erro 3: Multiple Testing
P-Value: O que Significa?
P-value é a probabilidade de obter o resultado observado se não houver diferença real.| P-value | Significância | Interpretação |
|---|---|---|
| < 0.01 | 99% | Muito significante |
| < 0.05 | 95% | Significante (padrão) |
| < 0.10 | 90% | Marginalmente significante |
| > 0.10 | < 90% | Não significante |
Exemplo
Intervalo de Confiança
Além de significância, olhe para o intervalo de confiança (confidence interval).Exemplo
Por que Isso Importa?
Checklist Antes de Decidir
Antes de implementar uma variante vencedora:Ferramentas e Recursos
Calculadoras
Sample Size
Calcule quantos visitantes precisa
Significance
Calcule significância dos resultados
Duration
Calcule duração necessária
Bayesian
Abordagem Bayesiana (avançado)
Artigos Recomendados
- How Not To Run an A/B Test - Evan Miller
- Statistical Significance in A/B Testing - CXL
- AB Testing Statistics - Optimizely
Frequentist vs Bayesian
Existem duas abordagens principais:Frequentist (Padrão)
O que é:- Abordagem tradicional
- Usa p-value e significância
- Responde: “Qual a probabilidade de ver esses dados se não houver diferença?”
- ✅ Padrão da indústria
- ✅ Bem entendido e documentado
- ✅ Calculadoras amplamente disponíveis
- ❌ Não te diz “qual variante é melhor”
- ❌ Apenas rejeita ou não rejeita hipótese nula
Bayesian (Avançado)
O que é:- Incorpora conhecimento prévio
- Responde: “Qual a probabilidade da Variante B ser melhor?”
- Resultado: “94% de chance de B ser melhor que A”
- ✅ Mais intuitivo para interpretar
- ✅ Permite parar teste mais cedo
- ✅ Incorpora incerteza naturalmente
- ❌ Menos comum
- ❌ Requer definir prior (conhecimento prévio)
- ❌ Mais complexo de implementar
Recomendação: Use Frequentist (padrão) a menos que você seja estatístico ou tenha razão específica para usar Bayesian.
Casos Especiais
Testes com Baixo Tráfego
Se você tem < 1.000 visitantes/mês:Testes em B2B
Se você tem poucos usuários mas alto valor:Testes de Revenue
Resumo: Regras de Ouro
95%+ Confiança
Sempre aguarde significância ≥95%
100+ Conversões
Mínimo absoluto por variante
1-2 Semanas
Duração mínima para capturar variação
Não Espie!
Defina critérios antes e não mude

