I fru... Twoja wiadomość już leci na nasze skrzynki!
Zajrzyj na swoją pocztę, aby poznać szczegóły oferty ;)
Tymczasem, sprawdź nowości na naszym blogu semahead.agency/blog/
Zespół Semahead by WeNet
Od testowania nowych leków, przez obstawianie zakładów bukmacherskich i prowadzenie kampanii wyborczych, aż po prognozę pogody i ważenie piwa – statystyka pozostaje w cieniu, lecz ma nieoceniony wpływ na nasze społeczeństwo. To język, dzięki któremu analityk może zrozumieć dane i przetłumaczyć je na mowę biznesu. Jeśli statystyka jest Ci obca, to ten artykuł pomoże Ci zrozumieć jej potencjał i zrobić pierwszy krok na jej ścieżce.
Jest rok 1920, Cambridge. Idealna pogoda na popołudniową herbatę w kawiarence. Sielankowy nastrój przerywa niezadowolony głos Lady Ottoline. Zatrzymuje kelnera i z dezaprobatą wskazując na swoją filiżankę oskarża go, że nalał do niej najpierw mleka, a później herbaty – zamiast zgodnie z obyczajem – dodać mleko do naparu.
W kawiarence wywiązuje się dyskusja – czy to może mieć jakiekolwiek znaczenie? Lady Ottoline twierdzi, że bez trudu rozpozna jak podano herbatę. Wtedy na scenę wkracza Ronald Aylmer Fisher, naukowiec i statystyk, który proponuje by przygotowano 8 filiżanek herbaty do degustacji, korzystając z obu technik podania po 4 filiżanki każda. Lady Ottoline przystępuje do degustacji i odgaduje sposób podania wszystkie 8 razy.
Z pewnością robi to wrażenie i przesądza sprawę. Nie może być też kwestią przypadku, czyż nie?
Co to ma wspólnego z analityką internetową? W końcu w Google Analytics raczej mało kto zbiera dane o herbatach. Problem polega na prawidłowym określeniu w jakiej sytuacji zebrane dane (zawarte w tabelach, wykresach Google Analytics, wynikach testów A/B) nie są kwestią przypadku. To, że jedna metryka rośnie, a inna spada, nie znaczy jeszcze, że ich zmiany są ze sobą powiązane. W przypadku, gdy faktycznie są, z wykresu nie wyczytamy informacji o tym, jak bardzo. Nie bez powodu wykresy i tabele to elementy tzw. statystyki opisowej – czyli metod przedstawienia wyników badania statystycznego. Najpierw jednak trzeba te badanie wykonać.
Poniżej możesz zapoznać się z krokami analizy danych z perspektywy użytkownika Google Analytics.
Z perspektywy Google Analytics to po prostu wdrożenie kodu GA, na przykład za pomocą Google Tag Managera i konfiguracja konta – dzięki temu zbieramy dane.
Kiedy już dane spłyną do Google Analytics, naszym zadaniem jest wybranie odpowiednich wymiarów i metryk, a także ustalenie odpowiedniego filtrowania, segmentacji i zakresów dat, aby odpowiedzieć na postawioną hipotezę.
To właśnie ten krok najczęściej jest pomijany. Zamiast przeprowadzenia odpowiednich testów, często opieramy się na informacjach odczytanych z tabel i wykresów, które tak często mogą wprowadzić nas w błąd. To tutaj mamy przekonać się o tym, czy odgadnięcie techniki podania herbaty 8 razy z rzędu wystarczy, by uznać, że to nie przypadek. Czy na podstawie danych z 3 miesięcy możemy stwierdzić, że spadek ruchu jest powiązany ze wzrostem udziału urządzeń mobilnych w całym ruchu? Czy na podstawie 100 transakcji możemy stwierdzić, że kobiety mają większą średnią wartość zamówienia od mężczyzn?
To kluczowy krok. W tym miejscu cały twój dotychczasowy wysiłek zwieńczony jest tym, co odkryłeś. Co jednak ważniejsze, choć niewidoczne bez wglądu w poprzednie kroki – to tutaj wyprowadzasz wnioski które są prawdziwe albo fałszywe. Jeżeli w swoje wnioskowanie oprzesz na właściwie dobranych testach statystycznych, możesz mieć pewność, że twoje wnioski są właściwe.
Gdy przekazujesz informacje klientowi lub szefowi, liczy się to, by dane i wnioski, które wyprowadziłeś, były dla niego przekonujące. Być może same wyniki testów nie będą dla niego interesujące – ale wyniki decyzji opartych na twoich zaleceniach już tak. Dlatego tak ważne jest, abyś swoje zalecenia oparł na rzetelnych wynikach badania statystycznego.
Czym właściwie są testy statystyczne? Jakim sposobem informują nas o tym, że za spadki współczynnika konwersji wiążą się właśnie ze wzrostem ruchu z pewnego źródła? Albo że mężczyźni rzeczywiście mają większą średnią wartość zamówienia od kobiet? Odpowiedź brzmi: reductio ad absurdum, czyli dowód nie wprost.
Omówmy to po kolei na przykładzie sytuacji z herbatą. Najpierw stawiamy hipotezę zerową, którą chcemy obalić, odrzucić: Nie ma różnicy między herbatami podanymi jedną z dwóch technik. Słowo „zero” w hipotezie zerowej pochodzi właśnie od założenia o braku różnicy (x=y po prostym przeniesieniu na jedną stronę daje x-y=0).
Z kolei to, co chcemy udowodnić, czyli hipoteza badawcza, to przeciwieństwo hipotezy zerowej: Istnieje różnica między takimi herbatami. Uznamy ją za prawdziwą, jeżeli będziemy mieli podstawy, by odrzucić założoną przez nas hipotezę zerową.
W tym miejscu przychodzi moment na badanie statystyczne. W dużym uproszczeniu jego wynikiem jest wartość p, czyli prawdopodobieństwo, że natrafiłeś na takie dane, jakie masz, przy założeniu, że te dane nie powinny się różnić (hipoteza zerowa). Im dane bardziej się od siebie różnią lub im bardziej są powiązane – tym mniejsze to prawdopodobieństwo. To właśnie ta wartość jest podstawą wnioskowania o tym, czy zależności są istotne statystycznie. W wielu dziedzinach nauki utarło się, że granicę między uznaniem różnicy lub zależności za istotną jest liczba α=0,05 (czyli 5{9f75b044ad8c8fba75c61671f3556dd67129e6440c4de06dd5c4a2623be9263c}). Liczbę tą nazywamy poziomem istotności i wynik testu uznajemy za istotny, gdy p<α.
Jednym z najpopularniejszych testów różnic jest test t-Studenta, który został opracowany i opublikowany pod pseudonimem przez Williama Sealy Gosset (przy okazji pracy w browarze). Test pozwala porównywać ze sobą średnie dwóch prób. Dzięki niemu możemy przekonać się np., czy mężczyźni generują istotnie więcej przychodu niż kobiety.
Test r-Preason’a pozwala nam z kolei badać korelację pomiędzy zmiennymi. Dzięki niemu możemy się przekonać, czy spadek współczynnika konwersji jest związany ze zwiększającym się ruchem z pewnego źródła.
No i oczywiście, jest także dokładny test Fishera, dzięki któremu jego autor mógł przekonać się, czy Lady Ottoline odgadła technikę podania herbaty 8 razy przez przypadek, czy też dzięki swoim zdolnościom. Spróbuj sam się przekonać: wynik takiego testu to p=0,0286.
Samo przeprowadzenie testu zazwyczaj nie jest zbyt wymagające. Natomiast dobranie odpowiedniej metody badania statystycznego to już zupełnie co innego – testy statystyczne mają bowiem szereg założeń, które muszą zostać spełnione, aby test został poprawnie wykonany.
Jeżeli zależy ci na wypracowaniu sobie praktycznych zdolności w badaniu statystycznym, warto zacząć od zapoznania się z testem t-Studenta oraz r-Pearsona właśnie. Aby właściwie z nich korzystać powinieneś także poczytać o rozkładzie normalnym i homogeniczności wariancji, oraz sposobach ich testowania. Następnym krokiem będzie zapoznanie się z nieparametrycznymi odpowiednikami tych testów, takimi jak test U Manna-Whitneya, test Wilcoxona oraz test rho-Spearmana.
Jeżeli jednak twoje ambicje przerastają czysto praktyczną wiedzę, to zacznij od rachunku prawdopodobieństwa. Do ćwiczenia swoich nowych statystycznych umiejętności wystarczą Ci kalkulatory testów online, np. na Social Science Statistics.
Chcesz zacząć współpracę z nami? Wypełnij Brief!
Wypełnienie briefu zajmie Ci kilka chwil a nam pozwoli
lepiej przygotować się do rozmowy z Tobą.