Cum să faceți o copie de rezervă a datelor dvs. Universal Analytics în BigQuery cu R

Publicat: 2023-09-26

Universal Analytics (UA) a apus în sfârșit, iar datele noastre circulă acum liber în proprietățile noastre Google Analytics 4 (GA4). Poate fi tentant să nu ne mai uităm niciodată la setările noastre UA, cu toate acestea, înainte de a lăsa UA în urmă, este important să stocăm datele pe care le-a procesat deja, dacă trebuie să le analizăm în viitor. Pentru stocarea datelor, vă recomandăm, desigur, BigQuery, serviciul de depozitare de date al Google, iar în acest blog vă vom arăta ce date să faceți backup din UA și cum să o faceți!

Pentru a descărca datele noastre, vom folosi API-ul Google Analytics. Vom scrie un script care va descărca datele necesare din UA și le va încărca în BigQuery, toate odată. Pentru această sarcină, vă recomandăm să utilizați R, deoarece pachetele googleAnalyticsR și bigQueryR fac această lucrare foarte simplă și am scris tutorialul nostru pentru R din acest motiv!

Acest ghid nu va acoperi pașii mai complexi în configurarea autentificării, cum ar fi descărcarea fișierului de acreditări. Pentru informații despre aceasta și mai multe despre cum să încărcați date în BigQuery, consultați blogul nostru despre încărcarea datelor în BigQuery din R și Python!

Copierea de rezervă a datelor dvs. UA cu R

Ca de obicei pentru orice script R, primul pas este să ne încărcăm bibliotecile. Pentru acest script vom avea nevoie de următoarele:

bibliotecă(googleAuthR)
bibliotecă(googleAnalyticsR)
bibliotecă (bigQueryR)

Dacă nu ați folosit aceste biblioteci înainte, rulați install.packages(<NUMELE PACHET>) în consolă pentru a le instala.

Va trebui apoi să ne sortăm toate autorizațiile. Pentru a face acest lucru, veți dori să rulați următorul cod și să urmați orice instrucțiuni care vi se oferă:

googleAuthR::gar_cache_empty()
googleAuthR::gar_set_client(„C:\\Users\\Tom Brown\\Documents\\R\\APIs\\credentials.json”)
bqr_auth(email = „<e-mailul tău aici>”)
ga_id <- <ID-UL DVS. GA VIEW AICI>


ga_id-ul poate fi găsit sub numele vizualizării atunci când îl selectați în UA, după cum se arată mai jos:

În continuare, trebuie să decidem ce date să luăm de fapt de la UA. Vă recomandăm să trageți următoarele:

Dimensiuni pentru sesiune Dimensiuni pentru eveniment Dimensiuni aferente afișării de pagină
ID client ID client Calea paginii
Timestamp-ul Timestamp-ul Timestamp-ul
Sursă / Mediu Categoria evenimentului Sursă / Mediu
Categoria dispozitivului Eveniment Acțiune Categoria dispozitivului
Campanie Eticheta evenimentului Campanie
Gruparea canalelor Sursă / Mediu Gruparea canalelor
Campanie

Punerea acestora în trei tabele în BigQuery ar trebui să fie suficientă pentru toate nevoile viitoare potențiale de date UA. Pentru a extrage aceste date din UA, mai întâi va trebui să specificați un interval de date. Accesați platforma UA și aruncați o privire într-unul dintre rapoartele dvs. pentru a vedea când a început colectarea datelor. Apoi, specificați un interval de date care se desfășoară de atunci până în ziua dinainte de a rula scriptul, care este ultima zi pentru care veți avea o valoare completă de 24 de ore de date (și dacă faceți acest lucru după ce UA a fost apus, va include oricum 100% din datele dvs. disponibile). Colectarea noastră de date a început în mai 2017, așa că am scris:

date <- c(„2017-05-01”, Sys.Date()-1)

Acum, trebuie să specificăm ce trebuie extras din UA conform tabelului de mai sus. Pentru aceasta, va trebui să rulăm metoda google_analytics() de trei ori, deoarece nu puteți interoga dimensiunile diferitelor domenii împreună. Puteți copia exact următorul cod:

sessionspull <- google_analytics(ga_id,
interval_date = date,
metrici = c(„sesiuni”),
dimensiuni = c(„clientId”, „dateHourMinute”,
„sourceMedium”, „deviceCategory”, „campaign”, „channelGrouping”),
anti_sample = TRUE)

eventspull <- google_analytics(ga_id,
interval_date = date,
metrics = c(„totalEvents”, „eventValue”),
dimensiuni = c(„clientId”, „dateHourMinute”, „eventCategory”, „eventAction”, „eventLabel”, „sourceMedium”, „campaign”),
anti_sample = TRUE)

pvpull <- google_analytics(ga_id,
interval_date = date,
metrics = c(„afișări de pagină”),
dimensiuni = c(„pagePath”, „dateHourMinute”, „sourceMedium”, „deviceCategory”, „campaign”, „channelGrouping”),
anti_sample = TRUE)

Acest lucru ar trebui să plaseze cu grijă toate datele dvs. în trei cadre de date intitulate sessionspull pentru dimensiunile de sesiune, eventspull pentru dimensiunile de eveniment și pvpull pentru dimensiunile de afișare de pagină.

Acum trebuie să încărcăm datele în BigQuery, al cărui cod ar trebui să arate cam așa, repetat de trei ori pentru fiecare cadru de date:

bqr_upload_data(„<proiectul tău>”, „<setul tău de date>”, „<tabelul tău>”, <cadru de date>)

În cazul meu, asta înseamnă că codul meu citește:

bqr_upload_data(„proiectul meu”, „test2”, „bloguploadRSess”, sessionspull)
bqr_upload_data(„proiectul meu”, „test2”, „bloguploadREvent”, eventspull)
bqr_upload_data(„proiectul meu”, „test2”, „bloguploadRpv”, pvpull)

Odată ce toate acestea sunt scrise, puteți seta scriptul să ruleze, să vă relaxați și să vă relaxați! După ce ați terminat, veți putea să vă îndreptați către BigQuery și ar trebui să vedeți toate datele acolo unde se află acum!

Cu datele dvs. UA ascunse în siguranță pentru o zi ploioasă, vă puteți concentra pe deplin pe maximizarea potențialului configurației dvs. GA4 - iar Semetrical este aici pentru a vă ajuta cu asta! Consultați blogul nostru pentru mai multe informații despre cum să profitați la maximum de datele dvs. Sau, pentru mai multă asistență cu privire la toate lucrurile de analiză, consultați serviciile noastre de analiză web pentru a afla cum vă putem ajuta.