A/B Testi Istatistik Rehberi: Anlamli Sonuclar Elde Etme

A/B Testi Istatistik Rehberi

A/B testi, dijital pazarlama ve urun gelistirmede en yaygin kullanilan deney yontemidir. Ancak bir A/B testinin gecerli ve guvenilir sonuclar uretmesi, arkasindaki istatistiksel temellerin dogru uygulanmasina baglidir. Bu rehberde orneklem buyuklugu hesaplama, istatistiksel anlamlilik, guven araliklari, Bayesci ve Frequentist yaklasimlarin farklarini detayli orneklerle ele alacagiz.

A/B Testi Temelleri

A/B testi, bir degiskenin iki farkli versiyonunu (A kontrol, B varyant) rastgele olarak kullanicilara gostererek hangi versiyonun daha iyi performans gosterdigini belirleme yontemidir. Istatistiksel acidan gecerli bir A/B testi icin su unsurlarin dogru yapilandirilmasi gerekir:

Hipotez: Test edilecek iddia acikca tanimlanmalidir.
Metrik: Basari olcutu (donusum orani, gelir, tiklanma orani vb.) belirlenmlidir.
Orneklem buyuklugu: Yeterli kullanici sayisina ulasilmalidir.
Rastgelestirme: Kullanicilar gruplara rastgele atanmalidir.
Sure: Test yeterli sure boyunca calistirilmalidir.

Hipotez Yapilandirmasi

Her A/B testinde iki hipotez tanimlanir:

Hipotez	Tanimlama	Ornek
H0 (Null hipotez)	Iki versiyon arasinda anlamli bir fark yoktur	Yeni buton rengi donusum oranini degistirmez
H1 (Alternatif hipotez)	Iki versiyon arasinda anlamli bir fark vardir	Yesil buton, mavi butona kiyasla donusum oranini arttirir

Orneklem Buyuklugu Hesaplama

Orneklem buyuklugu, A/B testinizin guvenilirligi icin en kritik faktorlerden biridir. Yetersiz orneklem, yalanci pozitif veya yalanci negatif sonuclara yol acar.

Orneklem Buyuklugunu Etkileyen Faktorler

Faktor	Aciklama	Tipik Deger
Temel donusum orani	Mevcut (kontrol) versiyonun donusum orani	Siteye ozel (orn. %3)
Minimum Tespit Edilebilir Etki (MDE)	Tespit etmek istediginiz minimum iyilesme orani	%5-20 goreli degisim
Istatistiksel guc (Power)	Gercek bir farki dogru tespit etme olasiligi	%80 (beta = 0.20)
Anlamlilik duzeyi (Alpha)	Yalanci pozitif olasiligi	%5 (alpha = 0.05)
Tek yonlu vs cift yonlu test	Degisimin yonunun onceden bilinip bilinmedigi	Genellikle cift yonlu

Pratik Orneklem Buyuklugu Ornekleri

Asagidaki tablo, farkli senaryolar icin gerekli grup basi orneklem buyukluklerini gostermektedir (%80 guc, %5 anlamlilik, cift yonlu test):

Temel Oran	%5 Goreli Degisim	%10 Goreli Degisim	%20 Goreli Degisim
%1	~3.150.000	~790.000	~200.000
%3	~1.030.000	~260.000	~66.000
%5	~610.000	~155.000	~39.000
%10	~290.000	~73.000	~19.000

Bu tablodan goruldugu gibi, dusuk donusum orani ve kucuk etki buyuklugu cok daha fazla orneklem gerektirir. Bu nedenle realistik MDE hedefleri belirlemek onemlidir.

Istatistiksel Anlamlilik

Istatistiksel anlamlilik (statistical significance), gozlemlenen farkin rastgele degil, gercek bir farktan kaynaklanma olassiligini olcer.

P-Degeri (P-Value)

P-degeri, null hipotez dogru oldugunda gozlemlenen sonucun veya daha ekstrem bir sonucun elde edilme olasiiligIdir.

p < 0.05: Sonuc istatistiksel olarak anlamlidir (%95 guven). Null hipotez reddedilir.
p < 0.01: Sonuc cok yuksek duzeyde anlamlidir (%99 guven).
p >= 0.05: Null hipotez reddedilemez. Iki versiyon arasinda anlamli bir fark gosterilemez.

Tip I ve Tip II Hatalar

Hata Turu	Aciklama	Olasilik	Sonuc
Tip I (Yalanci Pozitif)	Gercekte fark yokken "fark var" demek	Alpha (genellikle %5)	Etkisiz degisiklik uygulanir
Tip II (Yalanci Negatif)	Gercekte fark varken "fark yok" demek	Beta (genellikle %20)	Etkili degisiklik kacirilir

Guven Araliklari (Confidence Intervals)

Guven araligi, bir parametrenin gercek degerinin belirli bir olasiilikla icerisinde bulundugu aralikttir. A/B testlerinde sonucun buyuklugunu ve belirsizligini anlamak icin p-degerinden daha bilgilendiricidir.

Guven Araligi Yorumlama Ornekleri

Senaryo	Donusum Farki	%95 Guven Araligi	Yorum
Test 1	+%15	[+%8, +%22]	Anlamli pozitif etki; uygulanabilir
Test 2	+%3	[-2%, +%8]	Belirsiz; guven araligi sifiri iceriyor
Test 3	+%12	[+%1, +%23]	Anlamli ama genis aralik; daha fazla veriye ihtiyac var
Test 4	-%5	[-%10, -%1]	Anlamli negatif etki; varyant uygulanmamali

Guven araligi sifiri icermiyorsa sonuc istatistiksel olarak anlamlidir. Araligin genisligi ise tahminiin belirsizligini gosterir.

Bayesci vs Frequentist Yaklasim

A/B test istatistiginde iki temel felsefe vardir: Frequentist ve Bayesci. Her ikisinin de avantaj ve dezavantajlari bulunur.

Frequentist Yaklasim

Sabit orneklem buyuklugu ve test suresi gerektirir.
P-degeri ve guven araliklari ile karar verilir.
Test tamamlanmadan sonuclara bakiip karar vermek (peeking) yanlis sonuclara yol acar.
Sonuc: "Null hipotez reddedildi" veya "reddedilemedi."
Google Optimize (kaldirildi) ve bircogu A/B test araci bu yaklasimi kulllanir.

Bayesci Yaklasim

Onsezi (prior) bilgisini kullanarak sonsal (posterior) olasilik hesaplar.
Test surecinde sonuclara bakip karar verilebilir (erken durdurma destegi).
Sonuc: "B versiyonunun A'dan iyi olma olasiligi %95."
Daha sezgisel ve is kararlarina dogrudan uygulanabilir sonuclar uretir.
VWO ve diger modern test araclari Bayesci yaklasimi destekler.

Karsilastirma Tablosu

Kriter	Frequentist	Bayesci
Orneklem buyuklugu	Onceden sabit belirlenmeli	Esnek, erken durdurma mumkun
Sonuc yorumu	"%95 guvenle fark var/yok"	"B'nin daha iyi olma olasiligi %X"
Peeking problemi	Var (yalanci pozitif riski artar)	Minimal
Prior bilgi kullanimi	Kullanilmaz	Kullanilir (opsiyonel)
Hesaplama karmasikligi	Dusuk	Orta-Yuksek
Is karari uyumu	Dolayli (p-degeri yorumu gerektirir)	Dogrudan (olasilik degeri)
En uygun durum	Yuksek trafikli siteler, uzun sureli testler	Dusuk trafikli siteler, hizli karar gereksinimleri

Sik Yapilan Istatistiksel Hatalar

Testi erken durdurmak: Frequentist testte anlamli sonuc gorur gormez testi durdurmak yalanci pozitif oranini arttirir. Onceden belirlenen orneklem buyuklugune ulasilana kadar bekleyin.
Coklu karsilastirma duzeltmesi yapmamak: Ayni anda birden fazla varyant test ederken alpha degerini duzeltmelisiniz (Bonferroni duzeltmesi: alpha / test sayisi).
Segment bazli analiz tuzagi: Test sonrasi alt segmentlerde anlamli fark aramak (post-hoc segmentasyon), yalanci pozitif riski yaratir.
Hafta ici/hafta sonu etkisini goz ardi etmek: Test suresi tam haftalari kapsamaliidir (7, 14, 21 gun vb.).
Yenilik etkisi (Novelty Effect): Yeni tasarimlar baslangicta daha iyi performans gosterebilir. Test suresini yeterince uzun tutun.
Seciim yanliligi (Selection Bias): Kullanicilarin gruplara rastgele atandiginndan emin olun. Cerez tabanli atamalarda tutarliligi kontrol edin.

A/B Test Kontrol Listesi

Test edilecek hipotezi ve basari metrigini acikca tanimlayin.
Orneklem buyuklugunu hesaplayin ve test suresini belirleyin.
Rastgelestirme mekanizmasinin dogru calistigini dogrulayin.
Testi calistirin ve onceden belirlenen sureye sadik kalin.
Sonuclari hem p-degeri hem de guven araligi ile degerlendirin.
Pratik anlamlilik ile istatistiksel anlamliligi birlikte degerlendirin.
Sonuclari belgelein ve ogrenilenleri ekiple paylasin.
Kazanan varyanti tamamen uygulama kararini verin.

Sonuc

A/B testi, dijital optimizasyonun temel tasidir ancak istatistiksel temelleri dogru uygulanmadigi takdirde yaniltici sonuclara yol acabilir. Orneklem buyuklugu hesaplama, istatistiksel anlamlilik ve guven araliklari konularini kavramak, her dijital pazarlamaci icin zorunludur. Bayesci ve Frequentist yaklasimlarin avantajlarini anlayarak is ihtiyaciniza en uygun yontemi secebilirsiniz.

Megis olarak, A/B test stratejisi tasarimi, istatistiksel analiz ve sonuclarin yorumlanmasi konularinda markalara uzman destegi sunuyoruz. Veriye dayali optimizasyon, dogru istatistiksel temeller uzerine insa edildiginde en buyuk degeri uretir.