Dlaczego eksperymenty A/B dają sprzeczne wyniki w różnych narzędziach?

Sprzeczne wyniki A/B testingu biorą się zwykle z prostego powodu: każde narzędzie trochę inaczej liczy użytkownika i sesję, a także konwersję oraz moment przypisania do wariantu. A/B testing to porównanie dwóch wersji strony, ekranu albo komunikatu, żeby sprawdzić, czy jedna zmiana rusza konkretny wskaźnik. Gdy jedno źródło zapisuje zdarzenia w przeglądarce, a drugie po stronie serwera, rozjazd pojawia się szybko. To norma, nie wyjątek. Zanim ogłosisz test wygranym albo przegranym, sprawdź metodę pomiaru, bo sam wynik bywa ostatnią rzeczą, której można ufać.

Spis treści ukryj

1 Jak rozpoznać niejednoznaczne wyniki w narzędziach A/B

1.1 Objawy sprzecznych wyników w testach A/B

2 Dlaczego narzędzia A/B pokazują różne wyniki mimo tych samych danych

2.1 Wpływ sposobu zliczania konwersji na rozbieżności

3 Jak uzupełnić testy A/B o mapy cieplne i śledzenie ruchu oczu

3.1 Kiedy warto łączyć testy A/B z analizą zachowań użytkowników

4 Źródła

Jak rozpoznać niejednoznaczne wyniki w narzędziach A/B

Gdy panel eksperymentu daje wygraną B, a Google Analytics nadal trzyma stronę A, nie masz jeszcze decyzji biznesowej. Masz test do diagnozy. Któremu raportowi ufać? Najpierw sprawdź, jak każde narzędzie liczy użytkownika i drogę do konwersji, bo sam wynik końcowy tego nie wyjaśnia (panel po prostu tego nie pokazuje).^[1]

Objawy sprzecznych wyników w testach A/B

Ten sam eksperyment potrafi prowadzić do dwóch różnych decyzji, zależnie od raportu, który otworzysz. Nie chodzi o drobny szum. Problem zaczyna się wtedy, gdy dwa ekrany podpowiadają przeciwne ruchy: wdrażaj A albo przepychaj B.

Najbardziej widać to wtedy, gdy każde narzędzie wskazuje innego zwycięzcę. Po 14 dniach panel testu może raportować wzrost rejestracji o 9% dla B, a Google Analytics pokaże o 5% więcej ukończonych formularzy dla A.
Czasem kierunek zmian się zgadza, ale skala przestaje mieć sens. Małe odchylenia są normalne, lecz różnica kilku versus kilkunastu punktów procentowych powinna zapalić lampkę. Gdy jedno narzędzie raportuje +2%, a drugie +19% dla tej samej zmiany, decyzja zaczyna zależeć bardziej od źródła danych niż od zachowania użytkowników. Kliknięcia rosną, sprzedaż prawie stoi.^[2]
Przy porównywalnej liczbie sesji (od 1,1 do 1,3 tys. dziennie) wynik raz faworyzuje A, potem B, a na końcu wraca do remisu. W panelu operacyjnym taki zygzak zwykle oznacza jeszcze brak decyzji.
Bywa też tak, że główna metryka wygląda dobrze, ale ścieżka użytkownika mówi coś innego. Landing page podnosi współczynnik zapisu z 2,4% do 2,8%, a średni czas dojścia do formularza wydłuża się o 18 sekund, zaś porzucenia na polu telefonu rosną o 11%. Końcowa liczba rośnie, lecz jakość doświadczenia już nie.

Dwa takie objawy naraz wystarczą, żeby potraktować wynik jako niejednoznaczny, a nie jako „prawie potwierdzony”. Kryteria decyzji porządkuje Jak ocenić wyniki eksperymentu growth i zdecydować o skalowaniu?. Rozjazdy często rodzą się wcześniej, już na etapie hipotezy, definicji metryki i implementacji eksperymentu (Jak zaprojektować i przeprowadzić eksperyment growth od hipotezy do wniosków?).

Dlaczego narzędzia A/B pokazują różne wyniki mimo tych samych danych

To samo 1000 wejść potrafi skończyć w dwóch różnych raportach, bo każde narzędzie inaczej liczy użytkownika, sesję i konwersję. Żadne z nich nie musi się mylić. Po prostu patrzą na ten sam ruch przez inne reguły pomiaru, a to wystarcza, by decyzja biznesowa pojechała w przeciwną stronę.

Wpływ sposobu zliczania konwersji na rozbieżności

Jedna platforma może analizować tę samą stronę i ten sam eksperyment, a mimo to policzyć inną liczbę konwersji. Powód bywa przyziemny: „konwersja” zaczyna się i kończy w innym punkcie procesu (czasem o jeden ekran dalej). W testach A/B to zwykle zakup albo rejestracja, ale jedno narzędzie zalicza cel po wysłaniu formularza, a drugie dopiero po załadowaniu strony z potwierdzeniem.^[1]

Tu robi się bałagan. System, który zapisuje zdarzenie po kliknięciu przycisku, doliczy też przypadki, gdy użytkownik kliknął, lecz płatność nie doszła do skutku albo ekran potwierdzenia się nie wczytał. Drugie narzędzie, które czeka na końcowy ekran, odsieje część takich przypadków, ale zgubi użytkowników z adblockiem lub błędem skryptu. Przy trzech etapach procesu rośnie rozjazd, bo każde narzędzie łapie inny fragment tej samej ścieżki.

Etap procesu	System eksperymentowy	System CRM
Wysłanie formularza	Zalicza konwersję	Weryfikuje dalej
Duplikaty/adresy bez zgody	Nie odrzuca	Odrzuca
Brak poprawnego numeru	Nie filtruje	Odrzuca
Efekt końcowy	420 konwersji	356 leadów

Wtedy panel eksperymentu może pokazać wygraną, a CRM odbiera ją dużo chłodniej. 420 konwersji w systemie testowym i 356 leadów w CRM — przy takim rozdźwięku handlowcy widzą różnicę od razu. Test A/B mówi więc, która wersja strony lepiej realizuje własną definicję celu, ale nie odpowiada jeszcze, czy poprawa zaszła na etapie naprawdę wartościowym dla biznesu.

Zanim porównasz wyniki między narzędziami, sprawdź nazwę metryki, moment zaliczenia konwersji oraz to, gdzie i z jakimi wykluczeniami zapisuje się zdarzenie. Dopiero wtedy „te same dane” znaczą to samo. Ten problem szerzej opisuje Jak growth experiment różni się od zwykłego testu?, a przełożenie wniosków na działania biznesowe znajdziesz w tekście o optymalizacji współczynnika konwersji na podstawie danych z eksperymentów.

Jak uzupełnić testy A/B o mapy cieplne i śledzenie ruchu oczu

Na ekranie, który ma przekonać użytkownika w pierwszych 2–3 sekundach, sam wynik testu zwykle nie wystarcza. Widzisz liczbę, ale nie widzisz ruchu wzroku, zawahania i kliknięć w złym miejscu. Dlatego mapy cieplne i śledzenie ruchu oczu traktuj jako warstwę diagnostyczną: test A/B wybiera wariant do dalszej pracy, a analiza zachowania podpowiada, skąd ten wynik się wziął.

Kiedy warto łączyć testy A/B z analizą zachowań użytkowników

Mapy cieplne i śledzenie ruchu oczu nie zastępują testów A/B. Przydają się wtedy, gdy eksperyment nie mówi, dlaczego wariant zachował się lepiej albo gorzej. Mapy cieplne pokazują miejsca największej aktywności użytkowników (kliknięcia, przewijanie, martwe strefy). Badanie wzroku pomaga przy zmianach układu, kontrastu, kolejności bodźców albo przy elementach walczących o uwagę w pierwszych 2–3 sekundach kontaktu z ekranem.

Takie połączenie ma sens w kilku konkretnych momentach. Najpierw wtedy, gdy wynik testu jest mały, a stawka wysoka, na przykład przy pricingu albo checkoutcie, czasem też przy formularzu leadowym. Druga sytuacja wygląda inaczej: użytkownicy wykonują ruch pośredni, ale nie docierają do kluczowego punktu interfejsu, więc mapa cieplna odsłania, czy uwaga odpływa do banera albo grafiki w tle (częsty problem na stronach SaaS). Przy pełnym redesignie zwykły test wskaże zwycięzcę, lecz nie wskaże fragmentu projektu, który zrobił różnicę. Wtedy sekwencja spojrzeń daje więcej niż same kliknięcia.

Tu dobrze widać przykład ze strony oferty SaaS. Wariant B dostaje większy nagłówek oraz nowy badge z rabatem; sekcja benefitów jest krótsza. Wynik testu nie daje jasnej przewagi, ale mapa cieplna pokazuje, że ponad połowa kliknięć trafia w nieklikalny badge zamiast w główny przycisk. Potem badanie eye-trackingowe na 10 osobach ujawnia, że przez pierwsze 4 sekundy wzrok krąży między ceną, badge’em i ilustracją, omijając kluczowe copy. Na takim ekranie 4 sekundy wystarczą, żeby badge odebrał uwagę całemu nagłówkowi. Problem leży w konkurencji bodźców, a nie w samej ofercie. W bardziej eksploracyjnych badaniach wykorzystuje się też technologie takie jak Emotiv do pomiaru reakcji emocjonalnych online, choć to rozwiązanie jest droższe i daje raczej kierunek niż twardy werdykt.^[3]

Łącz te metody wtedy, gdy decyzja zależy od projektu interfejsu, a sama liczba konwersji nie wystarcza. Mapy cieplne są szybsze i tańsze, więc nadają się do codziennej diagnostyki. Śledzenie ruchu oczu zostaw na zmiany wizualne i kluczowe ekrany, gdzie liczy się kolejność zauważania elementów. Do wyboru hipotez pod pogłębioną analizę przydaje się uporządkowany backlog eksperymentów growth i priorytetyzacja.^[5]^[4]

Dlaczego eksperymenty A/B dają sprzeczne wyniki w różnych narzędziach?

Jak rozpoznać niejednoznaczne wyniki w narzędziach A/B

Objawy sprzecznych wyników w testach A/B

Dlaczego narzędzia A/B pokazują różne wyniki mimo tych samych danych

Wpływ sposobu zliczania konwersji na rozbieżności

Jak uzupełnić testy A/B o mapy cieplne i śledzenie ruchu oczu

Kiedy warto łączyć testy A/B z analizą zachowań użytkowników

Źródła

By Dorian

Dodaj komentarz Anuluj pisanie odpowiedzi

You Missed

Dlaczego automatyzacja marketingu nie działa i jak to naprawić?

Co to jest framework ICE do priorytetyzacji eksperymentów?

Jak obliczyć wielkość próby do testu A/B i kiedy wyniki są wiarygodne?

Jak Hotmail zdobył 12 milionów użytkowników w 18 miesięcy

Jak rozpoznać niejednoznaczne wyniki w narzędziach A/B

Objawy sprzecznych wyników w testach A/B

Dlaczego narzędzia A/B pokazują różne wyniki mimo tych samych danych

Wpływ sposobu zliczania konwersji na rozbieżności

Jak uzupełnić testy A/B o mapy cieplne i śledzenie ruchu oczu

Kiedy warto łączyć testy A/B z analizą zachowań użytkowników

Źródła

By Dorian

Related Post

Dodaj komentarz Anuluj pisanie odpowiedzi

You Missed