Você joga uma moeda 10 vezes:- 7 caras, 3 coroasA moeda é viciada? 🤔Resposta: Provavelmente não. Com apenas 10 jogadas, essa variação é normal.---Você joga 1000 vezes:- 700 caras, 300 coroasAgora sim, a moeda está claramente viciada! Com 1000 jogadas, essa diferença é estatisticamente significante.
Lição: Quanto maior a amostra, mais confiança você tem nos resultados.
95% de confiança significa:✅ Se você rodar 100 experimentos assim✅ ~95 vão te dar resultados corretos❌ ~5 vão te dar falsos positivosIsso é aceitável para a maioria dos casos.
❌ RUIM:Dia 1: Variante B ganhando! (significância 85%)Dia 2: Variante A recuperou! (empate)Dia 3: Variante B na frente! (significância 92%)Dia 4: Vou implementar! (significância 96%)Problema: Você está "minerando" os dados até achar um resultado positivo. Isso infla falsos positivos.✅ BOM:Defina duração ANTES (14 dias)Não olhe resultados diariamenteAnalise apenas no final
❌ RUIM:Dia 2: "Variante B está MUITO melhor! Vou parar o teste e implementar."✅ BOM:Aguarde pelo menos 1-2 semanasAtinja tamanho de amostra mínimoVerifique significância estatística
❌ RUIM:Rodei 20 testes A/B esse mês.1 deles mostrou melhoria de 50%!Vou implementar!Problema: Por pura sorte, 1 em 20 testes vai mostrar resultado "significante" (falso positivo).✅ BOM:Teste hipóteses bem fundamentadasUse correção de Bonferroni para múltiplos testesValide resultados surpreendentes com novo teste
P-value = 0.03 (ou 3%)Significa:Se NÃO houver diferença real entre as variantes,você teria apenas 3% de chance de observar uma diferença tão grande quanto a que você viu.Logo: Provavelmente HÁ uma diferença real!
Experimento: Hero CTADiferença observada: +20%Intervalo de confiança (95%):[+12%, +28%]Interpretação:Você pode estar 95% confiante que a melhoria real está entre 12% e 28%.
Cenário A:Diferença: +20%IC 95%: [+18%, +22%]→ Resultado muito confiável, intervalo estreitoCenário B:Diferença: +20%IC 95%: [-5%, +45%]→ Resultado incerto, intervalo muito largo→ Pode ser de -5% até +45%!
Cuidado: Um intervalo de confiança largo indica incerteza, mesmo que o resultado pareça promissor.
Opções:1. Teste mudanças MUITO dramáticas (>50% de impacto esperado)2. Rode por mais tempo (2-3 meses)3. Use métodos qualitativos (user testing, feedback)
Métricas:- Revenue per visitor (RPV)- Average order value (AOV)- Customer lifetime value (CLV)Tamanho de amostra:- Geralmente precisa de MAIS dados- Receita tem mais variância que conversão