A/B testy, canary releases i szkorbut

online #4

🚀🌕

@RafalRumanek

WYKORZYSTAŁ JEDEN PROSTY TRICK
I ZWIĘKSZYŁ CR O 271.3%

ZOBACZ JAK

[MEMY]

Kim jestem?

lubię SaaSy i eksperymenty

prezentacja bazuje głównie
na doświadczeniu z Voluum (Codewise)

Rozkład jazdy

Czym są A/B testy oraz canary releases?
Kilka historyjek
No to how I can take?
Proces a eksperymenty
Problemy z danymi
Etyka eksperymentów
Skąd czerpać wiedzę i inspirację?

disclaimer

wszelki feedback bardzo doceniam 🙏

Od 'wydaje mi się' do 'wiem na podstawie danych'

Matematycznie udowodniona przyczynowość
(nie tylko korelacja)*

Trochę większa pewność niż 50%

(albo prawdziwe, albo nie)

*o ile test jest poprawnie przeprowadzony

img src: https://blog.analytics-toolkit.com/2017/5-reasons-bayesian-ab-testing-debunked/

Canary release

img src: https://www.optimizely.com/uk/optimization-glossary/canary-testing/

Canary release

img src: https://launchdarkly.com/blog/launched-custom-targeting-rules/

Ciekawostka na grilla

Dlaczego te tematy razem?

Togglowanie, analityka
i decyzje procesowe umożliwiają:

A/B/n testy (MVT - Multi Variable Tests)

Canary release

Blue-green release

Feature flagi

Killswitch

Cool story, bro
time

Case study #1

Payment flow

~~młody i~~ dynamiczny kawałek produktu

od prozaicznych zmian jak kolorki i copy

przez zmiany kolejności kroków

po wywalenie opcji addonu, free triala i wymianę bramki płatności

Rejestracja

(+ plan)

Buy
(+ dane do faktury)

voluum.com

panel.voluum.com

Case study #1

Payment flow - wnioski

skupienie się na miejscach z największym drop rate

daje efekty

im mniej wyborów (rozpraszaczy) tym lepiej 📈

gut feeling to tylko gut feeling - przeczucia mogą być *bardzo* błędne

czasem trzeba zaorać spory kawałek pracy. I to jest okej

Case study #2

Zmiany w nawigacji

produkt się starzał - przybywało nowych opcji

część została 'ukryta'
na bazie danych, ale i tak baliśmy się wkurzyć ludzi

wewnętrzne testy -> Voluum Lab -> 10% -> 50% -> 100%

release -> feedback & bugfixing

Case study #2

Zmiany w nawigacji - wnioski

early adopters ✨

nie przetestujemy wszystkiego w newralgicznych miejscach (i kilka razy na tym wtopiliśmy)

dobre zabawki 🚀 - rollout do segmentów, bazowanie na innych togglach, % rollout

Case study #3

3D-Secure 2.0

obowiązkowe wsparcie (UE) od 01.01.2021

początkowy rollout od 12.2020

płatności ❤️

początkowy drop CR o 40%,
z czasem wyrównywany (bugi, standard online)

Case study #3

3D-Secure 2.0 - wnioski

czasem testowanie na prodzie jest konieczne
- zwłaszcza w przypadku płatności. Sandboxy to tylko sandboxy

dodatkowa analityka pomaga zrozumieć dlaczego
(np. Hotjar, Sentry).

dużo edge case'ów - A/B test może pokazać błędy

Bazowanie na surowych danych to za mało.

Eksperyment nie odpowie "dlaczego"

Co jeśli istnieje łatwo usuwalny błąd w kodzie?

Co jeśli istnieje naprawialny błąd UXowy?

Dalszych hipotez tyle co ludzi.

Potrzeba więcej eksperymentów!

Co ma szkorbut do
złych hipotez?

1. HODL - oblicz potrzebną próbkę danych - wyniki w trakcie mogą być mylące (peeking problem)! Sample Size Calculator 💎🤲

Problemy z danymi

3. Zanieczyszczenia danych - czy dane są faktycznie w pełni losowe, bez biasu?

4. Nieprawidłowości w rozmiarach próbek: Sample Ratio Mismatch

2. Co jeśli jednak zbyt dużo tracimy (mamy do zyskania)? Sequential A/B testing

o których chcesz wiedzieć

prosta analityka (GA)

Od czego zacząć?

prosty plik konfiguracyjny (toggle + lista user ID)

lub
losowanie i persystencja u użytkownika

👶 steps

Co dalej?

Testy/toggle

Analityka

1. Zdefiniuj mierzalne metryki. CTR? CR? MRR/ARR? LTV?

Proces a eksperymenty

2. Uwzględnij togglowanie i typ testowania w estymacie - zarówno przy kodowaniu jak i dalszą pracę.

3. Zadbaj o odpowiednią architekturę. Współdzielony kod? Iferiada? Osobne moduły z lazy loadingiem?

4. Zaplanuj analitykę. Łatwo dostępną. 👀

5. Zarezerwuj czas na analizę - ilościową i jakościową (błędy, obserwację użytkownika)

6. Sprzątaj eksperymenty. To okej, że nie wszystkie wychodzą. Wg Optimizely sukcesem kończy się 15-25% eksperymentów

Etyka

Od badań na szkorbutem (1753) i homeopatią (1835)...

...przez kampanie reklamowe z początku XX wieku (1908)...

...przez test optymalnej liczby rezultatów na stronie w Google (2000)...

...po szeroko stosowaną na porządku dziennym praktykę, która budzi mnóstwo kontrowersji
(np. Social Dilemma, 2020).

Gdzie jest granica?

Zwiększanie zysków?

Zwiększanie zaangażowania?
Manipulacja nastrojem?

Manipulacja przekonaniami?

src & more at: https://techcrunch.com/2014/06/29/ethics-in-a-data-driven-world/

DETOUR act (2019-2019) ⚰️

"(...) (1) In general It shall be unlawful for any large online operator: (...)

(B) to subdivide or segment consumers of online services into groups for the purposes of behavioral or psychological experiments or studies, except with the informed consent of each user involved; or (...)"

src: https://www.govtrack.us/congress/bills/116/s1084/text

Linki

Kalkulatory

https://www.surveymonkey.com/mp/ab-testing-significance-calculator/ - z-test
https://abtestguide.com/bayesian/ - bayesian
http://www.evanmiller.org/ab-testing/sample-size.html - Required Sample Size
https://www.lukasvermeer.nl/srm/microsite/ - Sample Ratio Mismatch

Pomysły

fin 🙇

@RafalRumanek

Feedback daj inżynierowi

/in/rafalrumanek

A/B testy, canary releases i szkorbut

🚀🌕

Kim jestem?

Rozkład jazdy

disclaimer

Canary release

Canary release

Ciekawostka na grilla

Dlaczego te tematy razem?

Cool story, bro time

Case study #1

Payment flow

Case study #1

Payment flow - wnioski

Case study #2

Zmiany w nawigacji

Case study #2

Zmiany w nawigacji - wnioski

Case study #3

3D-Secure 2.0

Case study #3

3D-Secure 2.0 - wnioski

Eksperyment nie odpowie "dlaczego"

Co ma szkorbut do złych hipotez?

Problemy z danymi

o których chcesz wiedzieć

Od czego zacząć?

👶 steps

Co dalej?

Testy/toggle

Analityka

Proces a eksperymenty

Etyka

Gdzie jest granica?

DETOUR act (2019-2019) ⚰️

Linki

Kalkulatory

Pomysły

fin 🙇

Feedback daj inżynierowi

Cool story, bro
time

Co ma szkorbut do
złych hipotez?