GA4/UA vs BigQuery

Velice častý zádrhel při diskuzích nad reporty z GA4 exportu je poznámka: “Vždyť jsou ty data jiná než je v GA4 user interface”. Občas následované větou ve stylu “je to špatně opravte to”.

Proto se v tomto článku pokusíme vysvětlit, jak tyto rozdíly vznikají a co je vlastně správně.

Proč se BigQuery reporting nerovná reportingu GA4 interfaceu?

GA4 user interface data se nerovnají BigQuery exportovaným datům. Google Analytics 4 reporty nereprezentují realitu. Ne, že by se něco změnilo s nástupem GA4, ani GA3 nereprezentovaly realitu. Jen u GA3 to byl již dlouho akceptovaný fakt. Tento článek nerozebírá dříve známé faktory jako je souhlasová politika, omezení prohlížečů, blokovacích nástojů atd.

Tento článek rozebírá nové důvody, které přicházejí s obecným přístupem k raw GA4 datům. Který u GA3 byl přístupný jen GA360 uživatelům nebo uživatelům, kteří si data z GA3 nastahovali po malých částech a poté pospojovali.

Hlavní důvody:

GA4 atribuce je stále black box.

V GA3 byli všichni zvyklý na atribuci Last click non direct. Případně v GA3 360 na jiný model, který jsme si nastavili. V GA4 je již od začátku nastaven datový atribuční model a jeho přesná definice je stále black box, proto ho nelze jedna ku jedné replikovat z exportovaných dat. Proto je třeba chápat jaký atribuční model váš reporting využívá. 

Interface některá data odhaduje.

Google odhaduje některá data z důvodu procesní náročnosti. Využívá k tomu vylepšený HyperLogLog algorithm. HLL++ https://en.wikipedia.org/wiki/HyperLogLog .

I když známe algoritmus, který Google využívá k odhadnutí některých metrik, není bohužel možné toto replikovat v BigQuery pro všechny metriky a to z toho důvodu, který uvádí GA4 BigQuery: 

Note: For user counts, Google Analytics uses sparse precision value of 25. Since BigQuery sparse precision value is always precision + 5, the value will default to 19. Thus, this parameter will not match with Google Analytics UI when counting users. There will be a small difference in user count for cardinalities up to approximately 12,200.

Více info: https://developers.google.com/analytics/blog/2022/hll?ref=ga4bigquery 

Google Signals

Big Query export může ukazovat více uživatelů pokud máte zapnutý Google Signals. Jelikož se jedná o osobní informace uživatelů tak si Google tyto data velice chrání a do exportu je neposkytuje. Google Signals se snaží spojit data z více zařízení/ “cookies” do jednoho uživatele pomocí dalších informací, které Googlu uživatel poskytuje. Toto nelze jedna ku jedné replikovat, ale je samozřejmě možné využívat vaše data o uživatelích, které máte ať už v GA4 nebo v dalších systémech.

Mismatch v definici metrik

GA4 datový model byl postaven tak, aby přežil zase nějakou dobu. GA3 přišly v roce 2012 a stále existuje spoustu lidí, kteří by byli nadšeni, kdyby tu GA3 mohly zůstat i když weby a aplikace se od roku 2012 zásadně posunuly.

Ještě do nedávna v GA4 neexistovalo nic jako návštěva (session). Až díky tlaku uživatelů se Google rozhodl v reportech počítat návštěvy, ale nepočítá návštěvy tak, jak je známe z GA3, ale události začátek návštěvy (session_start), což může v některých extrémních situacích data mírně pozměnit.

First_user_source_medium a  session_source_medium a source_medium jsou 3 rozdílné metriky

Transaction revenue GA4 standardně ukládají revenue v USD. V případě jiných měn se řeší měnové kurzy a mohou být v GA4 využity jiné, než které využíváte v raw reportingu.

Více info: https://support.google.com/analytics/answer/9796179#zippy=%2Cin-this-article 

Špatné přiřazení GoogleAds návštěv

Pokud přijde návštěva z Google reklamy a nese si s sebou gclid v url. GA4 této návštěvě nepřiřadí zdroj/medium google/cpc, ale google/organic. V případě přítomnosti utm parametrů Google není konzistentní a občas návštěvu přiřadí správně a občas ne. Momentálně neexistuje oficiální vyjádření, zda se toto bude měnit nebo jestli se jedná o žádaný stav. 

Pokud je přiřazeno google/organic a zároveň není přiřazena kampaň. Toto vše se dá řešit využitím dat z Google Ads, kde existují všechny gclid údaje a kampaně, ke kterým patří. V případě využití více Google Ads účtů už se začíná situace velice komplikovat.

Sčítání segmentovaných dat

Zde se nejedná o vlastnost GA4, ale o starou známou uživatelskou chybu. Ale jelikož je poněkud častější, než by bylo nutné je v tomto článku zahrnuta.

Z důvodu, že GA4 export může být opravdu veliký, je běžné, že se některé metriky předpočítávají. Pokud si předpočteme například počet uživatelů webu po jednotlivých dnech:

Pondělí 100 uživatelů
Úterý 100 uživatelů
1+1 ≠ 2

Celkový počet většinou nebude 200 uživatelů, jelikož stejný uživatel naši stránku mohl navštívit v různé dny a v případě sečtení jednotlivých datumů, počítáme jednoho uživatele vícekrát. 

Závěr

I když GA4 nejsou dokonalá, nevěšte hlavu. Nikdy to nebyl jejich účel. Stále je to nejlepší nástroj na trhu, skrz který se řeší výkonnost marketingu, trend webu, trendy uživatelů a mnoho dalšího. Přece jen je zásadní si uvědomit, zda byste své chování zásadně změnili, kdyby vám někdo řekl, že váš web nečte 120.986 lidí ale 120.362 lidí a nebo v extrémním případě 300.000 lidí, ale bylo to od založení webu vždy trojnásobek, než jste si mysleli. Samozřejmě to neznamená, že bychyom neměli řešit kvalitu dat, ale v případě dat z GA4 není nutné hledat absolutní dokonalost.

Přejít nahoru
Scroll to Top