uxzentrisch erörtert:
A/B-Testing und Nutzer-Trägheit

A/B-Testing als Werkzeug für die Conversion-Optimierung ist momentan in aller Munde. Leider gibt es noch wenige detailliert publizierte Testergebnisse, über die sich Erfahrungswerte austauschen und diskutieren lassen. Allenfalls plakative Aussagen wie »300 % mehr Conversion nur durch eine Textänderung« finden Ihren Weg an die Öffentlichkeit.

Kurze Kurven sagen noch nicht viel aus...Insbesondere die Zeit-Komponente wird leider selten beleuchtet. Dabei habe ich gerade mit einem Test auf einer privaten Website eine interessante Beobachtung gemacht, was die Entwicklung der Ergebnisse über die Zeit betrifft.

Was wurde getestet?

Ich biete schon seit geraumer Zeit die Schrift »DIN Schablonierschrift« auf der Seite www.sendung.de/dinschablonierschrift zum kostenlosen Download an. (Urheberrechtlich geht das in Ordnung, denn ich habe ihn vor Jahren, als ich für sowas noch Zeit und Muße hatte, selbst erstellt.) Die Seite wird pro Monat ca. 2.000 mal aufgerufen, von etwa 1.700 eindeutigen Besuchern.

Auf der ursprünglichen Download-Seite (Screenshot siehe unten) war der Download über zwei einfache Textlinks möglich. Als ich die Seite in dieser Form angelegt habe, spielte Mac OS X noch keine große Rolle und Mac-User freuten sich über StuffIt-Archive (SIT). Daher gab es zwei verschiedene Download-Links: einen für eine ZIP-Datei und einen für eine SIT-Datei.

Inzwischen können Mac-User ZIP-Archive genau so einfach verarbeiten wie der Rest der Welt und auch die Font-Formate sind identisch, also hat der Download-Link für das StuffIt-Archiv an Bedeutung verloren. Nur noch 15% aller Downloads fielen im Februar 2010 auf die StuffIt-Version.

Im November 2009 habe ich einen A/B-Test mit Google Website Optimizer aufgesetzt, bei dem der Abschnitt mit den zwei Text-Links gegen einen prominenten Download-Button für die ZIP-Version und einen Textlink für die StuffIt-Version ausgetauscht wurde. Den Download-Button habe ich aus Zeitgründen mit einem Button-Generator im Web erzeugt.

So sieht die alternative Variante aus:

Meine Erwartung war, dass die Variante mit dem Button mindestens die gleiche Conversion-Rate, also hier: Anzahl Downloads durch Anzahl Besuche, hervorbringen müsste. Tendenziell sollte aber durch den Button die Conversion visuell betont werden, dadurch wäre also zumindest eine leichte Steigerung der Conversion auch gerechtfertigt gewesen.

Was ist tatsächlich passiert?

Die Ergebnisse waren in den ersten Tagen genau entgegengesetzt zu meiner Erwartung. Die Variante mit dem Button schnitt zuerst deutlich, dann weniger deutlich schlechter ab als die ursprüngliche Variante. Allerdings beruhte die Auswertung zu Beginn ja noch auf sehr wenigen Transaktionen, so dass die »Confidence« des errechneten Conversion-Unterschieds noch nicht ausreichte.

Ich habe den Test mehrere Monate weiter laufen lassen. Inzwischen hat sich Button-Variante dann doch noch als Sieger herausgestellt, mit einem Confidence-Wert von 98,9 % und einer Verbesserung gegenüber dem Original von 6,49 %. Wer es genau wissen will: Das Original hatte im Test bis jetzt eine Conversion von 44,8% (Besuche: 3111, Conversions: 1394), die Button-Variante 47,7% (Besuche: 3112, Conversion: 1485). Der Test läuft unterdessen weiter.

Sieht man sich den Verlauf der errechneten Conversion über die Zeit an, dann stellt man fest, dass ich vermutlich zwei Monate nach dem Start des Experiments zu einem ganz anderen Ergebnis gekommen wäre. Da lagen beide Varianten ungefähr gleich auf. Die Anzahl der ausgewerteten Visits und Conversions hätte zu dem Zeitpunkt vermutlich auch schon gereicht, um eine ausreichende Verlässlichkeit (Confidence) von 95% oder mehr zu ergeben.

Doch nun, nach über vier Monaten, stellt sich das Bild anders dar. Der Conversion-Vorteil der Button-Variante scheint sich dauerhaft zu behaupten.

Wie ist das zu erklären? Ich könnte mir vorstellen, dass manche Nutzer (die vermutlich überwiegend Designer sind) die DIN Schablonierschrift nicht nur einmal herunterladen, sondern mehrmals. Z.B. einmal zuhause, einmal am Arbeitsplatz. Oder gleich mehrfach vom selben Rechner aus, mit größerem zeitlichen Abstand dazwischen. Denn wer legt schon kostenlose Fonts ordentlich sortiert ab, wenn eine Google-Suche genügt, um den Download wieder zu finden? Designer eben ;-)

Könnte es sein, dass die Nutzer sich an die Original-Variante so sehr gewöhnt haben, dass der große, grüne, unschöne Button sie vom Download abgehalten hat?

Wir werden es vermutlich nie erfahren. Das Experiment zeigt aber für mich, dass beim A/B-Testing (und natürlich genauso beim beim multivariaten Testing) eine gewisse Geduld angebracht ist, denn die Resultate können sich über die Zeit doch deutlich verändern.

4 Kommentare

Michael vor 6 Jahren

Hallo Marian

Danke für deinen Einblick in den A/B-Test. Die zeitliche Komponente ist wirklich interessant. Muss aber ehrlich sagen, dass ich die ursprüngliche Variante besser finde, da hier klar wird, was man herunterlädt. Der Button sagt ja nur »Download«. Hast du’s mal mit »Schrift als ZIP laden« o.ä. probiert? oder »Schrift herunterladen« + klein »(ZIP-Datei, xx KB)« im Button?

Grüße
Michael

Marian Steinbach Autor vor 6 Jahren

Gern geschehen! Ich muss zugeben, dass das Ziel nicht unbedingt war, den idealen Download-Button bzw. Download-Link zu finden. Vielmehr wollte ich eine Variante zum Test stellen, die statt Links einen dicken, fetten Button nutzt.

In einem Folge-Experiment werde ich gerne weiter in diese Richtung solcher Details testen. Aber erst mal möchte ich den Test noch eine Weile weiter laufen lassen.

Trackbacks und Pingbacks