Proč se reporting GA4 vs BigQuery nerovná a jaké jsou hlavní důvody? To je velice častý zádrhel při diskuzích nad reporty z GA4 exportu je poznámka: “Vždyť jsou ty data jiná než je v GA4 user interface”. Občas následované větou ve stylu “je to špatně opravte to”.
Proto se v tomto článku pokusíme vysvětlit, jak tyto rozdíly vznikají a co je vlastně správně.
Reporting GA4 vs BigQuery: proč se nerovná?
GA4 user interface data se nerovnají BigQuery exportovaným datům. Google Analytics 4 reporty nereprezentují realitu. Ne, že by se něco změnilo s nástupem GA4, ani GA3 nereprezentovaly realitu. Jen u UA (GA3) to uživatelé prostě akceptovali. Tento článek nerozebírá dříve známé faktory jako je souhlasová politika, omezení prohlížečů, blokovacích nástojů atd.
Tento článek rozebírá nové důvody, které přicházejí s obecným přístupem k raw GA4 datům. Který u GA3 byl přístupný jen GA360 uživatelům nebo uživatelům, kteří si data z GA3 nastahovali po malých částech a poté pospojovali.
Reporting GA4 vs BigQuery: Hlavní důvody
GA4 atribuce je stále black box.
V GA3 byli všichni zvyklý na atribuci Last click non direct. Případně v GA3 360 na jiný model, který jsme si nastavili. V GA4 je již od začátku nastavený datový atribuční model a jeho přesná definice je stále black box, proto ho nelze jedna ku jedné replikovat z exportovaných dat. Proto musíme pochopit, jaký atribuční model náš reporting využívá.
Interface některá data odhaduje.
Google odhaduje některá data z důvodu procesní náročnosti. Využívá k tomu vylepšený HyperLogLog algorithm. HLL++ https://en.wikipedia.org/wiki/HyperLogLog .
I když známe algoritmus, který Google využívá k odhadnutí některých metrik, není bohužel možné toto replikovat v BigQuery pro všechny metriky a to z toho důvodu, který uvádí GA4 BigQuery:
Note: For user counts, Google Analytics uses sparse precision value of 25. Since BigQuery sparse precision value is always precision + 5, the value will default to 19. Thus, this parameter will not match with Google Analytics UI when counting users. There will be a small difference in user count for cardinalities up to approximately 12,200.
Více info: https://developers.google.com/analytics/blog/2022/hll?ref=ga4bigquery
Google Signals
Big Query export může ukazovat více uživatelů pokud máte zapnutý Google Signals. Jelikož se jedná o osobní informace uživatelů tak si Google tyto data velice chrání a do exportu je neposkytuje. Google Signals se snaží spojit data z více zařízení/ “cookies” do jednoho uživatele pomocí dalších informací, které Googlu uživatel poskytuje. Toto nelze jedna ku jedné replikovat, ale je samozřejmě možné využívat vaše data o uživatelích, které máte ať už v GA4 nebo v dalších systémech.
Mismatch v definici metrik
Google navrhl datový model GA4 tak, aby vydržel delší dobu. GA3 přišly v roce 2012 a stále existuje spoustu lidí, kteří by byli nadšeni, kdyby tu GA3 mohly zůstat i když weby a aplikace se od roku 2012 zásadně posunuly.
Ještě do nedávna v GA4 neexistovalo nic jako návštěva (session). Pod tlakem uživatelů se Google rozhodl v reportech počítat návštěvy, ale nepočítají je stejně jako v GA3. Místo toho počítá události jako začátek návštěvy (session_start), což může v některých extrémních situacích mírně změnit data.
First_user_source_medium a session_source_medium a source_medium jsou 3 rozdílné metriky
Transaction revenue GA4 standardně ukládají revenue v USD. V případě jiných měn se řeší měnové kurzy a mohou být v GA4 využity jiné, než které využíváte v raw reportingu.
Více info: https://support.google.com/analytics/answer/9796179#zippy=%2Cin-this-article
Špatné přiřazení GoogleAds návštěv
Pokud přijde návštěva z Google reklamy a nese si s sebou gclid v url. GA4 této návštěvě nepřiřadí zdroj/medium google/cpc, ale google/organic. V případě přítomnosti utm parametrů Google není konzistentní a občas návštěvu přiřadí správně a občas ne. Momentálně se Google oficiálně nevyjádřil, zda se toto změní nebo jestli je to žádoucí stav.
Pokud je přiřazeno google/organic a zároveň není přiřazena kampaň. Toto vše se dá řešit využitím dat z Google Ads, kde existují všechny gclid údaje a kampaně, ke kterým patří. V případě využití více Google Ads účtů už se začíná situace velice komplikovat.
Sčítání segmentovaných dat
Zde se nejedná o vlastnost GA4, ale o starou známou uživatelskou chybu. Ale jelikož je poněkud častější, než by bylo nutné, je v tomto článku zahrnuta.
Z důvodu, že GA4 export může být opravdu veliký, je běžné, že se některé metriky předpočítávají. Pokud si předpočteme například počet uživatelů webu po jednotlivých dnech:
Pondělí 100 uživatelů
Úterý 100 uživatelů
1+1 ≠ 2
Celkový počet většinou nepřesáhne 200 uživatelů, protože stejný uživatel mohl naši stránku navštívit v různé dny, a pokud sčítáme jednotlivá data, počítáme jednoho uživatele vícekrát.
Závěr
I když GA4 nejsou dokonalá, nevěšte hlavu. Nikdy to nebyl jejich účel. Stále je to nejlepší nástroj na trhu, skrz který se řeší výkonnost marketingu, trend webu, trendy uživatelů a mnoho dalšího. Přece jen je zásadní si uvědomit, zda byste své chování zásadně změnili, kdyby vám někdo řekl, že váš web nečte 120.986 lidí ale 120.362 lidí a nebo v extrémním případě 300.000 lidí, ale bylo to od založení webu vždy trojnásobek, než jste si mysleli. Samozřejmě to neznamená, že bychyom neměli řešit kvalitu dat, ale v případě dat z GA4 není nutné hledat absolutní dokonalost.