Wie berechnet man die Stichprobengröße?

Es ist oft schwierig zu beurteilen, ob Ihre Tests ausreichend Daten für aussagekräftige Ergebnisse liefern. Dieses Problem lässt sich mit zwei einfachen Lösungen beheben: einem Stichprobenrechner und einem Statistikprogramm. In diesem Artikel erfahren Sie, wie Sie die Stichprobengröße berechnen, Ergebnisse belegen und Ihre Aussagekraft erhöhen.

Wie berechnet man die Stichprobengröße?

Der Aufbau einer Experimentierkultur hat das Potenzial, Ihre Kundenerlebnisse zu vereinfachen und die Konversionsrate zu steigern…

Allerdings kann es Ihnen auch schaden, wenn Sie keine statistisch signifikanten Ergebnisse erzielen.

Zunächst benötigen Sie eine ausreichende Stichprobengröße, um einen Test ohne Fehlertoleranz durchzuführen. Anschließend führen Sie diese Tests über einen Zeitraum durch, der lang genug ist, um statistisch signifikante Ergebnisse zu erhalten.

Bei der Durchführung von Experimenten und A/B-Tests ist es ratsam, einen Test erst dann zu beenden, wenn Ihre Varianten Signifikanz erreichen, anstatt eine zufällige Stichprobengröße zu verwenden. Wenn einige der Variationen keine statistische Signifikanz erreicht haben, entscheiden Sie, ob Sie auf eine höhere Besucherzahl oder eine größere Stichprobe warten möchten.

In diesem Artikel erfahren Sie, wie Sie die Dauer eines Experiments im Voraus abschätzen, Ergebnisse durch Marktforschung messen und den benötigten Traffic für Ihre Conversion-Rate-Experimente berechnen können.

Bedeutung der Stichprobenberechnung

Eine angemessene Stichprobengröße gewährleistet:

Statistische Validität: Angemessene Stichprobengrößen helfen, falsch positive und falsch negative Ergebnisse zu vermeiden und führen so zu zuverlässigeren Schlussfolgerungen für eine relevante Populationsgröße.
Ressourcenoptimierung: Die richtige Stichprobengröße verhindert die Verschwendung von Ressourcen für nicht aussagekräftige Tests oder unnötig lange Testläufe.
Wirkung auf das Geschäft: Genaue Ergebnisse aus angemessen dimensionierten Tests führen zu besseren Geschäftsentscheidungen und einem höheren ROI für Testbemühungen.

Größere Stichproben können genauere Ergebnisse liefern, benötigen aber mehr Zeit und Ressourcen. Berücksichtigen Sie bei der Festlegung Ihres Vorgehens Folgendes:

Testdauer: Längere Tests können mit Geschäftszyklen oder saisonalen Schwankungen kollidieren.
Opportunitätskosten: Die Durchführung eines großen Tests kann die Durchführung mehrerer kleinerer Tests verhindern.
Iteratives Lernen: Manchmal liefern schnellere Tests mit kleineren Stichproben wertvolle Erkenntnisse zur Verfeinerung Ihrer Teststrategie.

Erforderliche Stichprobengröße und Zeitrahmen für A/B-Tests

Um einen eindeutigen Gewinner unter verschiedenen Varianten in einer Testgruppe zu ermitteln, müssen Sie mit einer Mindeststichprobe oder der erforderlichen Personenzahl ausreichend viele Tests durchführen. Sobald die Ergebnisse vorliegen, prüfen Sie, ob ein statistisch signifikanter Unterschied besteht, anstatt die Nullhypothese zu verwerfen. Wenn Sie beispielsweise den Text einer Überschrift auf einer Landingpage testen möchten, kann es einige Wochen dauern, bis Ergebnisse sichtbar werden. Rechnen Sie mit einem ähnlichen Zeitrahmen für Ihren Blog. Das hängt alles von Ihrem Unternehmen, der Stichprobengröße, dem verwendeten A/B-Test-Tool und weiteren Faktoren ab. Bei einer kleinen Liste müssen Sie den Großteil davon per A/B-Test überprüfen, um ein Signifikanzniveau zu erreichen. Die Bestimmung der Stichprobengröße ist jedoch nicht immer eine einmalige Angelegenheit. Eine Neuberechnung ist ratsam, wenn:

sich Ihre Basis-Konversionsrate deutlich ändert.
Sie kleinere oder größere Effekte als ursprünglich geplant erkennen möchten.
sich Ressourcenengpässe oder Geschäftsprioritäten ändern und Ihre Fähigkeit zur Durchführung von Tests dadurch beeinträchtigt wird.

Wie berechnet man die Stichprobengröße?

Wenn Sie sich fragen, wie Sie die Stichprobengröße berechnen, verwenden Sie am besten Kennzahlen wie die Basis-Konversionsrate (die erwartete Konversionsrate Ihrer Kontrollgruppe) und den minimalen nachweisbaren Effekt (MDE). Diese helfen Ihnen, die Stichprobengröße für Ihr Originalprodukt und die Varianten so zu bestimmen, dass Sie Ihre statistischen Ziele erreichen. Die Werte, die Sie für den A/B-Test-Stichprobenrechner eingeben, sind für jedes Experiment und jedes Ziel individuell. Mit der Zeit werden mehr Besucher Ihre Varianten sehen und konvertieren. Sie werden nun eine Zunahme der statistischen Signifikanz feststellen und eine genaue Schätzung der Testdauer erhalten. Hier sind zwei Formeln zur Berechnung der Stichprobengröße, die Ihnen helfen, die Stichprobengröße in die geschätzte Anzahl der Tage umzurechnen, die Sie für die Durchführung eines Experiments benötigen: Berechnung 1: Gesamtzahl der benötigten Besucher = Stichprobengröße × Anzahl der Variationen in Ihrem Experiment. Berechnung 2: Geschätzte Anzahl der Tage für die Durchführung des Experiments = Gesamtzahl der benötigten Besucher ÷ Durchschnittliche Besucherzahl pro Tag. Beachten Sie außerdem diese häufigen Fehler bei der Bestimmung der Stichprobengröße für Personengruppen: Variable Konversionsraten ignorieren: Unterschiedliche Seiten oder Nutzersegmente können unterschiedliche Basis-Konversionsraten aufweisen, was sich auf die erforderliche Stichprobengröße auswirkt. Praktische Relevanz übersehen: Statistische Signifikante Ergebnisse bedeuten nicht immer einen geschäftlichen Nutzen. Berücksichtigen Sie die praktischen Auswirkungen der festgestellten Unterschiede.

Vernachlässigung externer Faktoren in Ihrem Forschungsprojekt: Saisonale Trends, Repräsentativität der Stichprobe, Anzahl der Personen, Anzahl der Befragten, Marketingkampagnen oder andere externe Ereignisse können die Testergebnisse und die erforderlichen Stichprobengrößen beeinflussen.

Fortgeschrittene Verfahren zur Schätzung des Stichprobenumfangs

Hier sind sechs statistische Testverfahren, die Ihnen den Einstieg für Ihre Zielpopulation erleichtern:

Poweranalyse: Stellt sicher, dass Ihr Test tatsächliche Effekte erkennen kann, sofern diese vorhanden sind. Sie berücksichtigt das Signifikanzniveau (üblicherweise 0,05), die Teststärke (oft 0,8) und die erwartete Effektstärke. Eine korrekte Poweranalyse hilft, nicht eindeutige Testergebnisse zu vermeiden.
Varianzschätzung: Entscheidend für die genaue Berechnung des Stichprobenumfangs, insbesondere bei Konversionsratentests. Dabei wird die Variabilität Ihrer Daten auf Basis der erwarteten Konversionsraten geschätzt.
Sequenzielle Analyse: Sequenzielles Testen ermöglicht den vorzeitigen Abbruch von Tests, sobald starke Ergebnisse vorliegen. Methoden wie der Sequential Probability Ratio Test (SPRT) können potenziell die erforderlichen Stichprobenumfänge reduzieren und Ressourcen sparen.
Anpassung für Mehrfachvergleiche: Beim gleichzeitigen Testen mehrerer Varianten oder Metriken ist es wichtig, die Signifikanzniveaus anzupassen. Dies verhindert einen Anstieg falsch positiver Ergebnisse, der bei Mehrfachtests auftreten kann.
Bayesianischer Ansatz: Bayesianische Tests beziehen Vorwissen in die Berechnung des Stichprobenumfangs ein. Diese Methode ermöglicht intuitivere Interpretationen der Ergebnisse und ist besonders nützlich, wenn zuverlässige Vorinformationen verfügbar sind.
Varianzinflationskorrektur: Berücksichtigt Korrelationen in Cluster-randomisierten Studien oder Tests mit wiederholten Messungen. Dies gewährleistet ausreichende Stichprobengrößen, wenn die Datenpunkte nicht vollständig unabhängig sind.

Denken Sie daran: Egal welchen Ansatz Sie wählen, Ihr gewünschtes Ergebnis ist nicht weit entfernt.

Der Stichprobenrechner von Optimizely liefert präzise Ergebnisse in Sekundenschnelle. Nutzen Sie ihn, und er zeigt Ihnen Ihre Stichprobengröße an. So sieht er aus:

Es ist nicht notwendig, sich ausschließlich auf die Berechnung des Stichprobenumfangs zu verlassen, um die Gültigkeit Ihrer Ergebnisse nachzuweisen. Nutzen Sie sie für die Planungsphase. Für alles Weitere steht Ihnen die Statistik-Engine zur Verfügung.

Was ist Stats Engine?

Wenn Sie sich fragen, was einen guten Test ausmacht, dann ist Spekulation nicht die richtige Antwort. Verlassen Sie sich auf Ihr Bauchgefühl und lassen Sie sich von Fehlalarmen leiten, und Ihre Fehlerrate kann in die Höhe schnellen (über 30 %). Geschwindigkeit und Skalierbarkeit beeinflussen Ihre digitalen Erlebnisse, wenn diese datengesteuert sind und auf der Genauigkeit der Ergebnisse basieren. Hier kann Ihnen eine Statistik-Engine helfen. Mit einem sequenziellen Testansatz können Sie das Rätselraten vermeiden. Sie misst die Standardabweichung in Ihrem Prozess und unterstützt Sie dabei, datengestützte, wirkungsvolle Veränderungen in Ihrem Unternehmen voranzutreiben. So können Sie schnellere Entscheidungen treffen und eine Kultur des Experimentierens fördern. Weitere Vorteile:

Sie können Ergebnisse in Echtzeit überwachen und so schnell datengestützte Entscheidungen treffen, ohne die Datenintegrität zu beeinträchtigen.
Die statistische Aussagekraft eines sequenziellen Tests steigt mit der Testdauer, wodurch Hypothesentests und willkürliche Schätzungen der Effektstärken entfallen.
Sie können sich automatisch an die tatsächliche Effektstärke anpassen und bei unerwartet großen Effektstärken frühzeitig abbrechen, was im Durchschnitt zu schnelleren Signifikanz führt.
Sie sehen klar, wie wahrscheinlich es ist, dass die Verbesserung auf Ihre Änderungen und nicht auf Zufall zurückzuführen ist. Daher ist die Wahl des richtigen Signifikanzniveaus wichtig, da sie das Vertrauen in Ihre A/B-Testmethoden stärkt. Das Konfidenzintervall für die Verbesserung muss sich von Null entfernen, damit ein Experiment als signifikant gelten kann.

Sie können das vollständige Whitepaper hier einsehen, um zu erfahren, wie Experimente mit einer Statistik-Engine durchgeführt werden.

Lösung Ihres Stichprobengrößenproblems...

Es ist nicht einfach, den Überblick über Ihre Experimente zu behalten und sicherzustellen, dass sie über ausreichende statistische Analysen verfügen, um zu einem aussagekräftigen Ergebnis zu gelangen. Dieses Problem lässt sich mit Optimizely lösen. Unsere Statistik-Engine arbeitet mit maximaler Leistungsfähigkeit, sodass Ihre Testergebnisse stets datenbasiert sind. Nutzen Sie sie, um Ihre digitalen Marketingpläne schnell anzupassen und sich auf die Conversion-Rate-Optimierung (CRO) zu konzentrieren. Wenn Sie Ihre A/B-Tests besser verstehen und moderne E-Commerce-Erlebnisse bieten möchten, werfen Sie einen Blick auf das „Big Book of Experimentation“ von 2024. Es enthält über 40 Erfolgsgeschichten von Unternehmen, die von einer Experimentierkultur profitiert haben.