Wil je zo nauwkeurig mogelijk in kaart brengen wat écht het beste werkt voor je website? Dan kun je A/B-testen uitvoeren. Schotel verschillende versies van je website voor aan je bezoekers, analyseer de resultaten en implementeer de winnende versie. Dit is een goede manier om je conversie-ratio te verhogen. Je volgt immers niet je buikgevoel, maar data die bewijzen dat je betere resultaten behaalt met een bepaalde versie.

Toch heeft zo’n A/B-test niet altijd zin. We leggen het even voor je uit.

Wanneer is A/B-testen nuttig?

Hoewel A/B-testen een relatief eenvoudige manier is om je conversie-ratio te verhogen is het niet altijd de beste optie. Je website moet bijvoorbeeld voldoende verkeer hebben. Hoe groter je testpubliek, hoe accurater je kan voorspellen hoe bezoekers buiten deze testgroep zullen reageren op een bepaalde versie. Om waardevolle conclusies te kunnen trekken moet je test dus altijd statistisch significant zijn.

Wat bedoelen we met ‘statistische significantie’?

De significantie verwijst naar het percentage toeval waarop je conclusie is gebaseerd. We leggen het even uit aan de hand van een voorbeeld. Stel je voor dat we een A/B-test uitvoeren op een downloadknop. In versie A is deze knop groen en in versie B rood. We meten per versie nauwkeurig hoeveel bezoekers op de knop klikken en zien dat versie A het beduidend beter doet onder ons testpubliek. Op basis van deze bevinding kunnen we concluderen dat versie A betere resultaten zal opleveren bij alle gebruikers, niet enkel bij het testpubliek.

AB test

Als een test statistisch significant is betekent het dat de resultaten van de test voor minstens 95% representatief zijn. Dat houdt in dat er in het bovenstaande voorbeeld 95% kans is dat versie A opnieuw wint als we een tweede test doen. Is het verschil tussen beide versies kleiner dan 95% en dus niet statistisch significant? Dan is de kans groter dat de uitkomst van de test berust op toeval en kun je er weinig waardevolle conclusies aan verbinden. Als je bovenstaande test nog eens doet kan versie B dan bijvoorbeeld ook winnen. De significantie is dus een belangrijke maatstaf voor de betrouwbaarheid van je testresultaten.

Hoe groot moet je testpubliek zijn?

In een ideale wereld zouden we elke A/B-test uitvoeren met een heel groot testpubliek. Dan zijn de resultaten immers het meest representatief. Helaas is dat natuurlijk niet altijd mogelijk. Een vraag die vaak terugkeert is dan ook: “Hoeveel bezoekers moet ik hebben om A/B-testen te doen?”

Het antwoord op deze vraag is niet zo simpel en hangt af van verschillende factoren: Hoe groot schatten we het verschil tussen de versies in? Hoeveel varianten zijn er? Hoe hoog is de conversie-ratio? Op basis van deze factoren en met behulp van de onderstaande tabel hebben we een ruw idee van hoeveel bezoekers we nodig hebben per variant.

Bron: https://apptimize.com/blog/2014/01/how-many-users-time/

Heeft je website een hoge conversie-ratio? Dan heb je minder testers nodig. Het verschil tussen beide versies wordt door het hogere aantal conversies namelijk sneller zichtbaar.

Met de term ‘lift’ bedoelen we het percentuele verschil tussen je huidige pagina (versie A) en de succesvolle variatie (versie B). Als er een grote lift is heb je ook een minder groot testpubliek nodig. Wanneer iedereen hetzelfde reageert is er immers minder twijfel en berust de uitslag van je test zeer waarschijnlijk niet op toeval.

Hoeveel varianten kun je testen?

In principe kun je zoveel variaties testen als je maar wil, mits je genoeg bezoekers hebt. De bovenstaande tabel geeft je immers een indicatie van hoeveel testers je nodig hebt per variant. In het geval van de downloadknop is het bijvoorbeeld perfect mogelijk om 3 variaties te testen: een groene knop (A), een rode knop (B) en een blauwe knop (C). Je splitst je testpubliek dan simpelweg op in 3 groepen en hoeft maar 1 test uit te voeren, in plaats van 3 verschillende testen waarin je steeds 2 versies vergelijkt. Je test zal waarschijnlijk wel iets langer moeten lopen voor je genoeg resultaten hebt om conclusies te trekken.

Wil je verschillende variaties op een pagina tegelijk testen, zoals bijvoorbeeld de lengte van je titel én de kleur van je downloadknop? Dan spreken we niet langer van een A/B-test maar van een multivariate test.

Hoelang moet je A/B-test lopen?

We raden aan om je A/B-test minimaal een week te laten lopen, ongeacht de grootte van je testpubliek of de geschatte lift. Bij iValue hanteren we echter een termijn van minstens 2 weken, omdat je zo een eventuele ‘speciale’ week opvangt. Denk bijvoorbeeld aan een schoolvakantie of nationale feestdag, waardoor de resultaten kunnen afwijken.

Daarnaast raden we aan om een A/B-test nooit langer dan twee maanden te laten lopen, omdat er dan veel seizoenale invloeden zijn. Er zijn teveel externe en interne factoren die de resultaten kunnen beïnvloeden, waardoor ze niet langer betrouwbaar zijn.

Ondanks deze algemene richtlijnen is het echter moeilijk om een exacte tijdsduur op een A/B-test te plakken. De duur van de test hangt af van de grootte van je testpubliek en de lift die je creëert. Aangezien deze factoren op voorhand nooit 100% accuraat te voorspellen zijn, kunnen we enkel een indicatieve schatting doen voor de ideale looptijd van de test. In de praktijk geldt dan ook dat je de test mag beëindigen wanneer je voldoende testers hebt bereikt om statistisch significante resultaten te krijgen.

Verspil geen geld en laat je goed adviseren

Hoewel A/B-testen een relatief eenvoudige manier is om je conversie-ratio te verhogen is het niet altijd de geschikte methode. Als je testpubliek te klein is zijn de resultaten van je test niet statistisch significant en dus onbetrouwbaar. De kans bestaat dan dat de uitslag van je test berust op toeval.

Onthoud ook goed dat ‘testen om te testen’ weinig nut heeft. Bepaal aan de hand van een duidelijke strategie welke zaken je gaat testen. Zo ondersteunen je A/B-testen je overkoepelende tactiek.

Weet je niet zeker of je website baat heeft bij A/B-testen of hoe je er best mee start? Neem dan eens contact op met onze experts. Zij helpen je graag verder.

Isa Tapias y del Prado
Bericht van

Isa Tapias y del Prado

UX Researcher