Analiza kohortowa – podstawowe narzędzie analityka

Analiza kohortowa – podstawowe narzędzie analityka

Analiza kohortowa jest prostym i niezwykle skutecznym narzędziem pracy analityka. W tym artykule wyjaśnię, jak tworzyć i rozpoznawać kohorty, oraz do czego najczęściej wykorzystuje się tego typu analizę.

Kohorta – czym właściwie jest?

Kohorta ma dwa znaczenia, natomiast w kontekście analityki pomińmy znaczenie historyczne i skupmy się na tym, jakie występuje w statystyce i naukach, które się na niej opierają.

Kohorta stanowi zbiór obiektów, wybranych z danego zbioru z uwagi na cechę (lub cechy), która jest wspólna dla wszystkich elementów tego zbioru. Badanie, przeprowadzone z użyciem tak utworzonych grup, nazywamy badaniem kohortowym.

Kohorta jest niezwykle popularna w medycynie czy statystyczne (np. kohorty demograficzne), gdzie wykorzystuje się je do przeprowadzenia badań, porównujących ze sobą dwie kohorty. Jak tego typu badania wykorzystuje się w biznesie? Żeby to wyjaśnić, zapoznajmy się z jeszcze jednym pojęciem – z agregacją.

Agregacja polega na wyliczeniu nowych wartości (najczęściej średnich) dla grup, utworzonych z elementów, mających tę samą cechę. Tworzy się w ten sposób nowa macież, którą możemy opisać jako zbiór zagregowanych elementów, opisanych średnimi wartościami pierwotnych cech.

Analiza kohortowa w praktyce

Wiem, że te definicje mogą niewiele wnosić, więc spróbujmy przejść przez to jeszcze raz, posługując się przykładem. Podstawą niech będzie poniższa przykładowa tabela, zawierająca podstawowe informacje na temat wysłanych maili, zachęcających użytkowników do powrócenia do sklepu i złożenia ponownego zamówienia.

Kolumny opisują odpowiednio:

  • id – id identyfikujące użytkownika
  • data wysłania – kiedy został wysłany mail z sugestią powrócenia do sklepu
  • odczytano – wartości TAK/NIE informują o tym, czy użytkownik odczytał wiadomość
  • przejście – wartości TAK/NIE informują, czy użytkownik powrócił na naszą stronę przez link, zawarty w mailu
  • wartosc_zamowienia – informacja na temat kwoty, jaką użytkownik wydał w sklepie po przeczytaniu maila i kliknięciu w link, zachęcający do ponownego zakupu.

przykladowa_tabela_mailing

Wiem, że tych danych nie jest dużo, więc przeanalizowanie każdego z 30 wierszy nie stanowi wielkiej trudności, ale co w przypadku, gdy tabela zawiera więcej danych? 1000 wierszy byłoby już pewnym wyzwaniem, prawda? “Pogrupowanie” znacznie ułatwia znalezienie odpowiedzi na pytanie, czy dana kampania była skuteczna, czy nie.

Jakie kohorty możemy utworzyć na podstawie powyższych danych?

W teorii, moglibyśmy utworzyć grupy na podstawie każdej z kolumn i według tej wartości agregować dane. Trzeba się jednak zastanowić, czy ma to sens. Jaka kohorta i jaka agregacja pozwoli nam na znalezienie wartościowych informacji, ukrytych w tych danych. Oczywiście, istotne jest jak skuteczny był mail. Mogły mieć na to wpływ dwie rzeczy:

  • dobór użytkowników – czy na pewno skierowaliśmy maile do odpowiednich osób? To pytanie powinniśmy sobie zadać jeszcze przed wysłaniem maila na podstawie cech, które opisują użytkownika i tego, w jakim celu wysyłamy te wiadomości – czy po to, żeby zachęcić do ponownego zakupu naszych stałych klientów, czy tych których udało nam się niedawno pozyskać itd.
  • dostępność asortymentu w sklepie – czy były dostępne towary, które były chętnie kupowane lub trafiały w preferencje danego użytkownika.

Dane, które mamy w przedstawionym zbiorze, pozwolą nam raczej określić kierunek, w którym powinny iść nasze dalsze rozważania. Żeby zdecydować, co badać w następnej kolejności, dokonajmy małej agregacji danych, wyznaczając kohorty. Biorąc pod uwagę, że dostępność asortymentu mogła się zmieniać w czasie, ważnym czynnikiem zdaje się być data wysłania wiadomości. Spróbujmy więc wyznaczyć kohorty na tej podstawie.

Grupowanie zdarzeń po dacie, w której one wystąpiły, jest jedną z najczęściej stosowanych metod wyznaczenia kohorty.  

Utworzenie kohort najczęściej następuje poprzez tworzenie tabeli przestawnej. Wymaga to oczywiście przygotowania danych, w taki sposób, aby możliwe było odczytanie średnich wartości lub innych agregatów – w zależności od cechy, dla której wyliczamy wskaźnik.

Przygotowana przez nas tabela przestawna wygląda w następujący sposób:
kohorty_tabela_przestawna

Wiemy dzięki temu:

  1. jaki procent użytkowników, którzy otrzymali wiadomość odczytali ją w poszczególnych miesiącach. Może to świadczyć o tym, że tytuł wiadomości (o ile był zmienny) w różnym stopniu zachęcał  do otwarcia maila, a najskuteczniejszy był w czerwcu.
  2. treść wiadomości (lub “call to action”) działała z różną skutecznością w poszczególnych miesiącach, co obrazuje CTR, czyli % użytkowników (z tych, którzy otworzyli wiadomość), którzy kliknęli w link lub przycisk.
  3. średnia wartość zamówienia w kohorcie jest wyliczona wyłącznie dla tych użytkowników, którzy skorzystali z CTA, żeby nie obniżaj tej wartości o tych użytkowników, którzy nie odczytali maila lub nie byli zainteresowani złożeniem kolejnego zamówienia.

Kohorta i agregacja – podstawa pracy analityka

Wiem, że był to tylko mały pokaz możliwości, drzemiących w kohortach i agregacji danych. Mam nadzieję, że na tej podstawie uda Ci się nieco przyspieszyć i zoptymalizować pracę na danych.

Jeżeli chcesz samodzielnie wykonać przedstawione ćwiczenie, możesz pobrać przedstawiony zestaw danych >>tutaj<<.

Miłego agregowania! 🙂

Analiza kohortowa – podstawowe narzędzie analityka
4.7 (93.33%) 3 votes

Leave a Reply

Your email address will not be published.