A/B Testi Rehberi: Veriye Dayali Karar Verme

A/B Testi Rehberi: Hipotezden İstatistiksel Anlamlılığa

A/B testi, dijital pazarlama ve ürün geliştirmede karar verme süreçlerini veriye dayandırmanın en güvenilir yöntemidir. Bir web sayfasının, e-postanın veya uygulamanın iki farklı versiyonunu gerçek kullanıcılara göstererek hangisinin daha iyi performans gösterdiğini ölçersiniz. Bu rehberde, hipotez oluşturmadan araç seçimine, örneklem büyüklüğünden istatistiksel anlamlılığa kadar A/B testinin tüm boyutlarını ele alıyoruz.

1. A/B Testi Nedir?

A/B testi (split test), bir değişkenin iki farklı versiyonunu eş zamanlı olarak rastgele bölünmüş kullanıcı gruplarına gösterip, belirlenen metriğe göre hangisinin daha iyi sonuç verdiğini istatistiksel olarak kanıtlama yöntemidir. Kontrol grubu (A) mevcut versiyonu görürken, test grubu (B) yeni versiyonu görür.

A/B Testi Türleri

Tür	Açıklama	Ne Zaman Kullanılır
Klasik A/B Testi	Tek bir değişken değiştirilir	Net bir hipotezi izole etmek için
A/B/n Testi	İkiden fazla varyant test edilir	Birden fazla alternatif karşılaştırmak için
Multivariate Test	Birden fazla değişken aynı anda test edilir	Değişkenler arası etkileşimleri anlamak için
Split URL Testi	Tamamen farklı sayfalara yönlendirme	Büyük tasarım değişiklikleri için

2. Hipotez Oluşturma

Her A/B testi güçlü bir hipotezle başlar. İyi bir hipotez şu formülü izler:

"[Değişken]'i [mevcut durumdan] [yeni duruma] değiştirirsek, [hedef metrik] [beklenen yönde değişir] çünkü [neden/içgörü]."

Hipotez Örnekleri

"CTA butonunun rengini griden turuncuya değiştirirsek tıklama oranı %15 artar; çünkü turuncu sayfada daha belirgindir ve dikkat çeker."
"Kayıt formundaki 5 alanı 3'e düşürürsek form tamamlama oranı %25 artar; çünkü kullanıcılar daha az bilgi girmek zorunda kalır."
"Ürün sayfasına müşteri yorumları eklersek dönüşüm oranı %10 artar; çünkü sosyal kanıt satın alma güvenini artırır."

Hipotez Kaynakları

Test fikirlerinizi şu kaynaklardan çıkarın:

Analitik verileri: Yüksek çıkış oranına sahip sayfalar, düşük dönüşüm hunileri.
Isı haritaları: Kullanıcıların tıkladığı, kaydırdığı ve görmezden geldiği alanlar.
Kullanıcı geri bildirimleri: Anketler, müşteri destek talepleri, NPS yanıtları.
Oturum kayıtları: Kullanıcıların sayfa üzerindeki gerçek davranışları.
Rakip analizi: Rakiplerin uyguladığı farklı yaklaşımlar.

3. Örneklem Büyüklüğü Hesaplama

A/B testinde güvenilir sonuç almak için yeterli örneklem büyüklüğüne ulaşmanız gerekir. Örneklem büyüklüğünü etkileyen faktörler:

Parametre	Açıklama	Önerilen Değer
Güven düzeyi	Sonucun şansa bağlı olmama olasılığı	%95 (standart)
İstatistiksel güç	Gerçek bir farkı tespit etme olasılığı	%80 (minimum)
Minimum tespit edilebilir etki (MDE)	Tespit etmek istediğiniz en küçük fark	%5-20 (iş hedefine göre)
Temel dönüşüm oranı	Mevcut versiyonun performansı	Gerçek verinize göre

Örneğin, mevcut dönüşüm oranınız %3, tespit etmek istediğiniz artış %20 (yani %3.6'ya çıkış), güven düzeyi %95 ve güç %80 ise; her grupta yaklaşık 25.000 ziyaretçiye ihtiyacınız vardır. Toplam: 50.000 ziyaretçi.

4. A/B Test Araçları

Piyasadaki başlıca A/B test araçlarının karşılaştırması:

Araç	Fiyat	Güçlü Yanı	Zayıf Yanı
Optimizely	Kurumsal (yüksek)	En kapsamlı özellik seti, server-side test	Yüksek maliyet, kompleks kurulum
VWO	Orta (aylık $199+)	Kullanıcı dostu arayüz, ısı haritası entegrasyonu	Gelişmiş segmentasyon sınırlı
Google Analytics 4 (GA4)	Ücretsiz	Maliyet yok, Google Ads entegrasyonu	Sınırlı test seçenekleri, karmaşık arayüz
AB Tasty	Orta-Yüksek	AI destekli kişiselleştirme, kolay kurulum	Raporlama derinliği orta
Convert	Orta (aylık $99+)	GDPR uyumlu, flicker-free	Pazar payı düşük, topluluk küçük

5. İstatistiksel Anlamlılık

A/B testinin en kritik kavramı istatistiksel anlamlılıktır. Bu, gözlemlenen farkın gerçek mi yoksa şans eseri mi olduğunu belirler.

p-değeri: Gözlemlenen farkın şans eseri olma olasılığı. p < 0.05 ise sonuç istatistiksel olarak anlamlıdır (yani %95 güven düzeyi).
Güven aralığı: Gerçek etkinin düşebileceği aralık. Örneğin "%3 ile %8 arası artış, %95 güvenle" ifadesi bir güven aralığıdır.
Tip I hata (False Positive): Aslında fark yokken var olduğunu düşünme. p < 0.05 ile bu riski %5'e düşürürsünüz.
Tip II hata (False Negative): Aslında fark varken tespit edememe. İstatistiksel gücü %80+ tutarak bu riski azaltırsınız.

Bayesian vs. Frequentist Yaklaşım

Geleneksel (Frequentist) yaklaşım sabit örneklem ve p-değeri ile çalışır. Bayesian yaklaşım ise sürekli güncellenen olasılıklar sunar:

Frequentist: "B varyantı A'dan anlamlı olarak farklı mı?" sorusuna cevap verir. Örneklem tamamlanmadan sonuç çıkarmak hatalıdır.
Bayesian: "B varyantının A'dan daha iyi olma olasılığı %93" gibi doğrudan olasılık sunar. Erken durdurma riski daha düşüktür.

6. A/B Testi Uygulama Adımları

Veri analizi yapın: Mevcut performansı belgelendirin. Temel dönüşüm oranını, trafik hacmini ve segmentleri belirleyin.
Hipotez oluşturun: Veriden çıkan içgörüyle net bir hipotez yazın.
Örneklem büyüklüğünü hesaplayın: Testin ne kadar süreceğini önceden belirleyin.
Varyantı tasarlayın: Tek bir değişkeni değiştirin. Birden fazla değişiklik yapmak sonucu belirsizleştirir.
Testi başlatın: Rastgele trafik dağılımını doğrulayın. Eşit bölünme (50/50) standart tercihdir.
Yeterli süre bekleyin: Minimum bir tam hafta (7 gün) çalıştırın. Hafta içi-hafta sonu davranış farklılıklarını yakalayın.
Sonuçları analiz edin: İstatistiksel anlamlılığı kontrol edin. Segmentlere (cihaz, trafik kaynağı, yeni/geri dönen) göre alt analiz yapın.
Kararı uygulayın: Kazananı ölçeklendirin, kaybedeni belgeleyin, öğrenmeleri paylaşın.

7. Yaygın A/B Testi Hataları

Erken durdurma (peeking): Örneklem tamamlanmadan sonuç çıkarmak en yaygın hatadır. Test süresi boyunca sabırlı olun.
Çoklu karşılaştırma sorunu: Aynı testte çok sayıda metriği izlemek yanlış pozitif riskini artırır. Birincil metriği önceden belirleyin.
Mevsimselliği göz ardı etmek: Black Friday haftasında başlattığınız test, normal dönemdeki davranışı yansıtmaz.
Düşük trafik ile test yapmak: Aylık 1.000 ziyaretçiye sahip bir sayfada %5'lik farkı tespit etmek aylar sürer. Alternatif: daha büyük değişiklikler test edin.
Sonuçları genellemek: Mobil kullanıcılarda işe yarayan değişiklik, masaüstü kullanıcılarda işe yaramayabilir. Segment bazlı analiz yapın.
Tek testi kopyalamak: Bir rakibin başarılı testini kopyalamak, sizin bağlamınızda çalışmayabilir. Her zaman kendi verinizle doğrulayın.
Testin uzun vadeli etkisini ölçmemek: Yenilik etkisi (novelty effect) ilk haftalarda yapay artış gösterebilir. Testin uzun vadeli performansını takip edin.

8. Test Sonrası Kontrol Listesi

Kontrol	Durum
İstatistiksel anlamlılık sağlandı mı (p < 0.05)?	☐
Örneklem büyüklüğü yeterli mi?	☐
En az 7 gün (bir tam hafta) çalıştı mı?	☐
Segment bazlı analiz yapıldı mı?	☐
Sonuçlar belgelendi mi?	☐
Kazanan varyant uygulamaya alındı mı?	☐
Öğrenmeler ekiple paylaşıldı mı?	☐

Sonuç

A/B testi, dijital optimizasyonun temel taşıdır. Sezgi yerine veriyle karar vermek, dönüşüm oranlarınızı sürekli artırmanızın en güvenilir yoludur. Güçlü hipotezler oluşturun, yeterli örnekleme ulaşın, istatistiksel anlamlılığı sağlayın ve her testten öğrenin. Küçük ama tutarlı iyileştirmeler, zamanla büyük kümülatif etki yaratır.