Come eseguire il backup dei dati di Universal Analytics su BigQuery con R

Pubblicato: 2023-09-26

Universal Analytics (UA) è finalmente tramontato e i nostri dati ora fluiscono liberamente nelle nostre proprietà Google Analytics 4 (GA4). Potrebbe essere forte la tentazione di non guardare mai più le nostre configurazioni UA, tuttavia, prima di lasciare indietro UA, è importante archiviare i dati che ha già elaborato, nel caso in cui dovessimo analizzarli in futuro. Per archiviare i tuoi dati, ovviamente consigliamo BigQuery, il servizio di data warehousing di Google, e in questo blog ti mostreremo di quali dati eseguire il backup da UA e come farlo!

Per scaricare i nostri dati, utilizzeremo l'API di Google Analytics. Scriveremo uno script che scaricherà i dati necessari da UA e li caricherà su BigQuery, tutto in una volta. Per questa attività, consigliamo vivamente di utilizzare R, poiché i pacchetti googleAnalyticsR e bigQueryR rendono questo lavoro molto semplice e per questo motivo abbiamo scritto il nostro tutorial per R!

Questa guida non coprirà i passaggi più complessi per la configurazione dell'autenticazione, come il download del file delle credenziali. Per informazioni al riguardo e ulteriori informazioni su come caricare i dati su BigQuery, consulta il nostro blog sul caricamento dei dati su BigQuery da R e Python!

Backup dei dati UA con R

Come al solito per qualsiasi script R, il primo passo è caricare le nostre librerie. Per questo script avremo bisogno di quanto segue:

libreria(googleAuthR)
libreria(googleAnalyticsR)
libreria(bigQueryR)

Se non hai mai utilizzato queste librerie in precedenza, esegui install.packages(<PACKAGE NAME>) nella console per installarle.

Dovremo quindi sistemare tutte le nostre varie autorizzazioni. Per fare ciò, ti consigliamo di eseguire il seguente codice e seguire le istruzioni che ti vengono fornite:

googleAuthR::gar_cache_empty()
googleAuthR::gar_set_client("C:\\Users\\Tom Brown\\Documents\\R\\APIs\\credentials.json")
bqr_auth(email = “<la tua email qui>”)
ga_id <- <IL TUO ID VISUALIZZA GA QUI>


Il ga_id può essere trovato sotto il nome della vista quando lo selezioni in UA, come mostrato di seguito:

Successivamente, dobbiamo decidere quali dati prendere effettivamente da UA. Ti consigliamo di estrarre quanto segue:

Dimensioni con ambito sessione Dimensioni con ambito evento Dimensioni con ambito visualizzazione di pagina
Identificativo cliente Identificativo cliente Percorso della pagina
Timestamp Timestamp Timestamp
Sorgente/Mezzo Categoria evento Sorgente/Mezzo
Categoria dispositivo Azione evento Categoria dispositivo
Campagna Etichetta dell'evento Campagna
Raggruppamento dei canali Sorgente/Mezzo Raggruppamento dei canali
Campagna

Inserirli in tre tabelle in BigQuery dovrebbe essere sufficiente per tutte le tue potenziali future esigenze di dati UA. Per estrarre questi dati da UA, dovrai innanzitutto specificare un intervallo di date. Accedi alla piattaforma UA e dai un'occhiata a uno dei tuoi report per vedere quando è iniziata la raccolta dei dati. Quindi, specifica un intervallo di date che va da quel giorno fino al giorno prima dell'esecuzione dello script, che è l'ultimo giorno per il quale avrai a disposizione 24 ore complete di dati (e se lo fai dopo che UA è stato tramonto, includerà comunque il 100% dei dati disponibili). La nostra raccolta dati è iniziata a maggio 2017, quindi ho scritto:

date <- c(“2017-05-01”, Sys.Date()-1)

Ora dobbiamo specificare cosa deve essere estratto da UA secondo la tabella sopra. Per questo dovremo eseguire il metodo google_analytics() tre volte, poiché non è possibile interrogare insieme dimensioni di ambiti diversi. Puoi copiare esattamente il seguente codice:

sessionspull <- google_analytics(ga_id,
intervallo_date = date,
metriche = c("sessioni"),
dimensioni = c("clientId", "dateHourMinute",
“sourceMedium”, “deviceCategory”, “campaign”, “channelGrouping”),
anti_campione = VERO)

eventspull <- google_analytics(ga_id,
intervallo_date = date,
metrica = c("totalEvents", "eventValue"),
dimensioni = c("clientId", "dateHourMinute", "eventCategory", "eventAction", "eventLabel", "sourceMedium", "campaign"),
anti_campione = VERO)

pvpull <- google_analytics(ga_id,
intervallo_date = date,
metriche = c("visualizzazioni di pagina"),
dimensioni = c("pagePath", "dateHourMinute", "sourceMedium", "deviceCategory", "campaign", "channelGrouping"),
anti_campione = VERO)

Questo dovrebbe inserire in modo ordinato tutti i tuoi dati in tre frame di dati denominati sessionspull per le dimensioni con ambito sessione, eventspull per le dimensioni con ambito evento e pvpull per le dimensioni con ambito visualizzazione di pagina.

Ora dobbiamo caricare i dati su BigQuery, il cui codice dovrebbe assomigliare a questo, ripetuto tre volte per ciascun frame di dati:

bqr_upload_data(“<il tuo progetto>”, “<il tuo set di dati>”, “<la tua tabella>”, <il tuo dataframe>)

Nel mio caso, questo significa che il mio codice legge:

bqr_upload_data("mio-progetto", "test2", "bloguploadRSess", sessionspull)
bqr_upload_data("mio-progetto", "test2", "bloguploadREvent", eventspull)
bqr_upload_data(“mio-progetto”, “test2”, “bloguploadRpv”, pvpull)

Una volta scritto tutto, puoi impostare lo script per l'esecuzione, sederti e rilassarti! Una volta terminato, potrai andare su BigQuery e dovresti vedere tutti i tuoi dati a cui appartengono ora!

Con i tuoi dati UA nascosti al sicuro per una giornata piovosa, puoi concentrarti completamente sulla massimizzazione del potenziale della tua configurazione GA4 - e Semetrical è qui per aiutarti in questo! Consulta il nostro blog per ulteriori informazioni su come ottenere il massimo dai tuoi dati. Oppure, per ulteriore supporto su tutto ciò che riguarda l'analisi, consulta i nostri servizi di analisi web per scoprire come possiamo aiutarti.