Simulation · A/B Lab

1 · Central Limit Theorem

Egal wie schief die Quelle ist (z. B. Umsatz pro Besucher): die Mittelwerte vieler Stichproben werden normalverteilt. Genau deshalb funktionieren t-Test & Co. auch bei schiefen Metriken — solange n groß genug ist.

Quelle Stichprobengröße n

Schon bei n = 5 wird aus einer extrem schiefen Quelle eine fast perfekte Glocke. Erhöhe n → die Glocke wird schmaler (SE = σ/√n).

2 · p-Werte unter H0 sind gleichverteilt

Hier sind A und B identisch (reines A/A). Trotzdem liefern manche Tests kleine p-Werte. Über viele A/A-Tests sind die p-Werte gleichverteilt — und genau 5 % landen unter 0,05. Das ist die False-Positive-Rate.

n je Variante

3 · Power, α und β

Zwei Verteilungen: links H0 (kein Effekt), rechts H1 (echter Effekt). Der kritische Wert trennt „signifikant" von „nicht". Rote Fläche = α (Fehlalarm), gelbe Fläche = β (verpasster echter Effekt). Power = 1 − β.

Wahrer rel. Effekt n je Variante α

Kleinerer Effekt oder weniger n → die Kurven überlappen stärker → β wächst → Power fällt. Strengeres α schiebt den kritischen Wert nach rechts → weniger Fehlalarme, aber auch weniger Power.

4 · Peeking / vorzeitiges Stoppen

Wieder reines A/A (kein echter Effekt). Aber statt einmal am Ende schauen wir mehrfach hin und stoppen, sobald p < 0,05. Jeder Blick ist eine neue Chance auf einen Zufallstreffer — die Fehlalarmrate explodiert.

Anzahl Blicke Besucher gesamt je Variante

Die Linie ist ein Beispiel-Testverlauf: der p-Wert tanzt bei jedem Blick. Mit 10 Blicken ist die Fehlalarmrate oft 20–30 % statt 5 %. Lehre: Stichprobe vorab festlegen, nicht früh stoppen.

5 · Warum die meisten „Wins" Fehlalarme sind (PPV)

Signifikant ≠ wahr. Wenn nur wenige getestete Ideen wirklich wirken, sind viele der signifikanten Ergebnisse Fehlalarme. Der PPV (positiver Vorhersagewert) sagt, welcher Anteil deiner „Gewinner" echt ist.

Anteil echter Ideen Power α

Bei 20 % echten Ideen, 80 % Power und α = 0,05 ist nur rund jeder zweite „signifikante Win" echt. Niedrige Basisrate (viele wilde Ideen) → mehr Fehlalarme. Replikation & Vorpriorisierung helfen.

6 · Winner's Curse / Regression zur Mitte

Bei zu kleiner Stichprobe schafft ein echter Effekt die Signifikanzschwelle nur, wenn der Zufall ihn nach oben verzerrt. Ergebnis: signifikante Gewinner überschätzen den wahren Effekt systematisch.

Wahrer rel. Uplift n je Variante

Die rote Linie ist der wahre Effekt — die gemessenen Gewinner liegen im Schnitt deutlich rechts davon. Lehre: unterpowerte „Riesen-Uplifts" schrumpeln nach dem Rollout.

7 · Konfidenzintervall-Abdeckung

Reines A/A (wahre Differenz = 0). Jeder Test liefert ein 95 %-KI. Auf lange Sicht enthalten ~95 % der Intervalle die Wahrheit — rote verfehlen sie. Das ist die eigentliche Bedeutung von „95 % Konfidenz".

n je Variante

Konzepte simulieren

1 · Central Limit Theorem

2 · p-Werte unter H0 sind gleichverteilt

3 · Power, α und β

4 · Peeking / vorzeitiges Stoppen

5 · Warum die meisten „Wins" Fehlalarme sind (PPV)

6 · Winner's Curse / Regression zur Mitte

7 · Konfidenzintervall-Abdeckung