Strona główna
Blog
Poznaj 5 kroków statystycznej analizy danych w Google Analytics

Poznaj 5 kroków statystycznej analizy danych w Google Analytics

Analityka internetowa

19.06.2019 Semahead

Od testowania nowych leków, przez obstawianie zakładów bukmacherskich i prowadzenie kampanii wyborczych, aż po prognozę pogody i ważenie piwa – statystyka pozostaje w cieniu, lecz ma nieoceniony wpływ na nasze społeczeństwo. To język, dzięki któremu analityk może zrozumieć dane i przetłumaczyć je na mowę biznesu. Jeśli statystyka jest Ci obca, to ten artykuł pomoże Ci zrozumieć jej potencjał i zrobić pierwszy krok na jej ścieżce.

Statystyka i degustacja herbaty

Jest rok 1920, Cambridge. Idealna pogoda na popołudniową herbatę w kawiarence. Sielankowy nastrój przerywa niezadowolony głos Lady Ottoline. Zatrzymuje kelnera i z dezaprobatą wskazując na swoją filiżankę oskarża go, że nalał do niej najpierw mleka, a później herbaty – zamiast zgodnie z obyczajem – dodać mleko do naparu.

W kawiarence wywiązuje się dyskusja – czy to może mieć jakiekolwiek znaczenie? Lady Ottoline twierdzi, że bez trudu rozpozna jak podano herbatę. Wtedy na scenę wkracza Ronald Aylmer Fisher, naukowiec i statystyk, który proponuje by przygotowano 8 filiżanek herbaty do degustacji, korzystając z obu technik podania po 4 filiżanki każda. Lady Ottoline przystępuje do degustacji i odgaduje sposób podania wszystkie 8 razy.

Z pewnością robi to wrażenie i przesądza sprawę. Nie może być też kwestią przypadku, czyż nie?

Wykres nie zawsze prawdę ci powie

Co to ma wspólnego z analityką internetową? W końcu w Google Analytics raczej mało kto zbiera dane o herbatach. Problem polega na prawidłowym określeniu w jakiej sytuacji zebrane dane (zawarte w tabelach, wykresach Google Analytics, wynikach testów A/B) nie są kwestią przypadku. To, że jedna metryka rośnie, a inna spada, nie znaczy jeszcze, że ich zmiany są ze sobą powiązane. W przypadku, gdy faktycznie są, z wykresu nie wyczytamy informacji o tym, jak bardzo. Nie bez powodu wykresy i tabele to elementy tzw. statystyki opisowej – czyli metod przedstawienia wyników badania statystycznego. Najpierw jednak trzeba te badanie wykonać.

Na grafice widzimy wykres kolumnowy z słupkami błędów. Wyglądają znajomo? Wysokości kolumn informują nas o tym, jakie są wartości pomiaru, natomiast słupki błędu – o tym, w jakim przedziale mogą być wartości rzeczywiste.

Statystyczna analiza danych krok po kroku

Poniżej możesz zapoznać się z krokami analizy danych z perspektywy użytkownika Google Analytics.

Przygotowanie procedury pozwalającej zebrać dane.

Z perspektywy Google Analytics to po prostu wdrożenie kodu GA, na przykład za pomocą Google Tag Managera i konfiguracja konta – dzięki temu zbieramy dane.

Przygotowanie rzetelnych danych.

Kiedy już dane spłyną do Google Analytics, naszym zadaniem jest wybranie odpowiednich wymiarów i metryk, a także ustalenie odpowiedniego filtrowania, segmentacji i zakresów dat, aby odpowiedzieć na postawioną hipotezę.

Zastosowanie właściwych procedur i testów statystycznych.

To właśnie ten krok najczęściej jest pomijany. Zamiast przeprowadzenia odpowiednich testów, często opieramy się na informacjach odczytanych z tabel i wykresów, które tak często mogą wprowadzić nas w błąd. To tutaj mamy przekonać się o tym, czy odgadnięcie techniki podania herbaty 8 razy z rzędu wystarczy, by uznać, że to nie przypadek. Czy na podstawie danych z 3 miesięcy możemy stwierdzić, że spadek ruchu jest powiązany ze wzrostem udziału urządzeń mobilnych w całym ruchu? Czy na podstawie 100 transakcji możemy stwierdzić, że kobiety mają większą średnią wartość zamówienia od mężczyzn?

Wyprowadzenie właściwych wniosków.

To kluczowy krok. W tym miejscu cały twój dotychczasowy wysiłek zwieńczony jest tym, co odkryłeś. Co jednak ważniejsze, choć niewidoczne bez wglądu w poprzednie kroki – to tutaj wyprowadzasz wnioski które są prawdziwe albo fałszywe. Jeżeli w swoje wnioskowanie oprzesz na właściwie dobranych testach statystycznych, możesz mieć pewność, że twoje wnioski są właściwe.

Prezentacja.

Gdy przekazujesz informacje klientowi lub szefowi, liczy się to, by dane i wnioski, które wyprowadziłeś, były dla niego przekonujące. Być może same wyniki testów nie będą dla niego interesujące – ale wyniki decyzji opartych na twoich zaleceniach już tak. Dlatego tak ważne jest, abyś swoje zalecenia oparł na rzetelnych wynikach badania statystycznego.

Reductio ad absurdum

Czym właściwie są testy statystyczne? Jakim sposobem informują nas o tym, że za spadki współczynnika konwersji wiążą się właśnie ze wzrostem ruchu z pewnego źródła? Albo że mężczyźni rzeczywiście mają większą średnią wartość zamówienia od kobiet? Odpowiedź brzmi: reductio ad absurdum, czyli dowód nie wprost.

Omówmy to po kolei na przykładzie sytuacji z herbatą. Najpierw stawiamy hipotezę zerową, którą chcemy obalić, odrzucić: Nie ma różnicy między herbatami podanymi jedną z dwóch technik. Słowo „zero” w hipotezie zerowej pochodzi właśnie od założenia o braku różnicy (x=y po prostym przeniesieniu na jedną stronę daje x-y=0).

Z kolei to, co chcemy udowodnić, czyli hipoteza badawcza, to przeciwieństwo hipotezy zerowej: Istnieje różnica między takimi herbatami. Uznamy ją za prawdziwą, jeżeli będziemy mieli podstawy, by odrzucić założoną przez nas hipotezę zerową.

W tym miejscu przychodzi moment na badanie statystyczne. W dużym uproszczeniu jego wynikiem jest wartość p, czyli prawdopodobieństwo, że natrafiłeś na takie dane, jakie masz, przy założeniu, że te dane nie powinny się różnić (hipoteza zerowa). Im dane bardziej się od siebie różnią lub im bardziej są powiązane – tym mniejsze to prawdopodobieństwo. To właśnie ta wartość jest podstawą wnioskowania o tym, czy zależności są istotne statystycznie. W wielu dziedzinach nauki utarło się, że granicę między uznaniem różnicy lub zależności za istotną jest liczba α=0,05 (czyli 5{9f75b044ad8c8fba75c61671f3556dd67129e6440c4de06dd5c4a2623be9263c}). Liczbę tą nazywamy poziomem istotności i wynik testu uznajemy za istotny, gdy p<α.

Przykładowe testy i ich zastosowanie

Jednym z najpopularniejszych testów różnic jest test t-Studenta, który został opracowany i opublikowany pod pseudonimem przez Williama Sealy Gosset (przy okazji pracy w browarze). Test pozwala porównywać ze sobą średnie dwóch prób. Dzięki niemu możemy przekonać się np., czy mężczyźni generują istotnie więcej przychodu niż kobiety.

Test r-Preason’a pozwala nam z kolei badać korelację pomiędzy zmiennymi. Dzięki niemu możemy się przekonać, czy spadek współczynnika konwersji jest związany ze zwiększającym się ruchem z pewnego źródła.

No i oczywiście, jest także dokładny test Fishera, dzięki któremu jego autor mógł przekonać się, czy Lady Ottoline odgadła technikę podania herbaty 8 razy przez przypadek, czy też dzięki swoim zdolnościom. Spróbuj sam się przekonać: wynik takiego testu to p=0,0286.

Od czego zacząć?

Samo przeprowadzenie testu zazwyczaj nie jest zbyt wymagające. Natomiast dobranie odpowiedniej metody badania statystycznego to już zupełnie co innego – testy statystyczne mają bowiem szereg założeń, które muszą zostać spełnione, aby test został poprawnie wykonany.

Jeżeli zależy ci na wypracowaniu sobie praktycznych zdolności w badaniu statystycznym, warto zacząć od zapoznania się z testem t-Studenta oraz r-Pearsona właśnie. Aby właściwie z nich korzystać powinieneś także poczytać o rozkładzie normalnym i homogeniczności wariancji, oraz sposobach ich testowania. Następnym krokiem będzie zapoznanie się z nieparametrycznymi odpowiednikami tych testów, takimi jak test U Manna-Whitneya, test Wilcoxona oraz test rho-Spearmana.

Jeżeli jednak twoje ambicje przerastają czysto praktyczną wiedzę, to zacznij od rachunku prawdopodobieństwa. Do ćwiczenia swoich nowych statystycznych umiejętności wystarczą Ci kalkulatory testów online, np. na Social Science Statistics.

Powodzenia w stawianiu pierwszych kroków na ścieżce statystyki!

Zapisz się do newslettera i otrzymaj bezpłatnie e-book!

Zapisz mnie

Komentarze

Dodaj komentarz

Semahead

415 wpisów

Zobacz wszystkie wpisy

Poprzedni wpis

Tworzenie infografik: okiem grafika, specjalisty SEO i content marketera

Następny wpis

11 sposobów na wakacyjne spadki w Google Ads