So sichern Sie Ihre Universal Analytics-Daten mit R in BigQuery

Veröffentlicht: 2023-09-26

Universal Analytics (UA) ist endlich vorbei und unsere Daten fließen jetzt frei in unsere Google Analytics 4 (GA4)-Eigenschaften. Es mag verlockend sein, nie wieder einen Blick auf unsere UA-Setups zu werfen. Bevor wir jedoch UA hinter uns lassen, ist es wichtig, dass wir die bereits verarbeiteten Daten speichern, falls wir sie in Zukunft analysieren müssen. Für die Speicherung Ihrer Daten empfehlen wir natürlich BigQuery, den Data-Warehousing-Dienst von Google, und in diesem Blog zeigen wir Ihnen, welche Daten Sie von UA ​​sichern sollten und wie das geht!

Um unsere Daten herunterzuladen, verwenden wir die Google Analytics API. Wir werden ein Skript schreiben, das die erforderlichen Daten von UA ​​herunterlädt und auf einmal in BigQuery hochlädt. Für diese Aufgabe empfehlen wir dringend die Verwendung von R, da die Pakete googleAnalyticsR und bigQueryR diese Aufgabe sehr einfach machen, und aus diesem Grund haben wir unser Tutorial für R geschrieben!

In diesem Leitfaden werden die komplexeren Schritte zur Einrichtung der Authentifizierung, wie etwa das Herunterladen Ihrer Anmeldeinformationsdatei, nicht behandelt. Informationen dazu und weitere Informationen zum Hochladen von Daten nach BigQuery finden Sie in unserem Blog zum Hochladen von Daten aus R und Python nach BigQuery!

Sichern Sie Ihre UA-Daten mit R

Wie bei jedem R-Skript üblich, besteht der erste Schritt darin, unsere Bibliotheken zu laden. Für dieses Skript benötigen wir Folgendes:

Bibliothek(googleAuthR)
Bibliothek(googleAnalyticsR)
Bibliothek(bigQueryR)

Wenn Sie diese Bibliotheken noch nicht verwendet haben, führen Sie install.packages(<PAKETNAME>) in der Konsole aus, um sie zu installieren.

Anschließend müssen wir alle unsere verschiedenen Berechtigungen sortieren. Dazu müssen Sie den folgenden Code ausführen und alle Anweisungen befolgen, die Sie erhalten:

googleAuthR::gar_cache_empty()
googleAuthR::gar_set_client(“C:\\Users\\Tom Brown\\Documents\\R\\APIs\\credentials.json“)
bqr_auth(email = „<Ihre E-Mail-Adresse hier>“)
ga_id <- <IHRE GA-VIEW-ID HIER>


Die ga_id finden Sie unter dem Namen der Ansicht, wenn Sie sie in UA auswählen, wie unten gezeigt:

Als nächstes müssen wir entscheiden, welche Daten wir tatsächlich von UA ​​übernehmen wollen. Wir empfehlen Folgendes:

Sitzungsbezogene Dimensionen Ereignisbezogene Dimensionen Seitenaufruf-bezogene Dimensionen
Kunden ID Kunden ID Seitenpfad
Zeitstempel Zeitstempel Zeitstempel
Quelle / Medium Veranstaltungskategorie Quelle / Medium
Gerätekategorie Ereignisaktion Gerätekategorie
Kampagne Ereignisbezeichnung Kampagne
Kanalgruppierung Quelle / Medium Kanalgruppierung
Kampagne

Diese in drei Tabellen in BigQuery zusammenzufassen, sollte für alle Ihre potenziellen zukünftigen UA-Datenanforderungen ausreichen. Um diese Daten aus UA abzurufen, müssen Sie zunächst einen Datumsbereich angeben. Gehen Sie auf die UA-Plattform und sehen Sie in einem Ihrer Berichte nach, wann mit der Datenerfassung begonnen wurde. Geben Sie dann einen Datumsbereich an, der von da an bis zu dem Tag vor der Ausführung Ihres Skripts läuft. Dies ist der letzte Tag, für den Sie Daten im Wert von vollen 24 Stunden haben (und wenn Sie dies tun, nachdem UA stattgefunden hat). Sonnenuntergang enthält ohnehin 100 % Ihrer verfügbaren Daten). Unsere Datenerfassung begann im Mai 2017, also schrieb ich:

Termine <- c(“2017-05-01”, Sys.Date()-1)

Jetzt müssen wir gemäß der obigen Tabelle angeben, was aus UA abgerufen werden muss. Dazu müssen wir die Methode google_analytics() dreimal ausführen, da Dimensionen unterschiedlicher Bereiche nicht gemeinsam abgefragt werden können. Sie können den folgenden Code genau kopieren:

sessionpull <- google_analytics(ga_id,
date_range = Datumsangaben,
metrics = c(“Sitzungen”),
Dimensions = c(„clientId“, „dateHourMinute“,
„sourceMedium“, „deviceCategory“, „campaign“, „channelGrouping“),
anti_sample = TRUE)

eventspull <- google_analytics(ga_id,
date_range = Datumsangaben,
metrics = c(„totalEvents“, „eventValue“),
Dimensions = c(„clientId“, „dateHourMinute“, „eventCategory“, „eventAction“, „eventLabel“, „sourceMedium“, „campaign“),
anti_sample = TRUE)

pvpull <- google_analytics(ga_id,
date_range = Datumsangaben,
metrics = c(“Seitenaufrufe”),
Dimensions = c(„pagePath“, „dateHourMinute“, „sourceMedium“, „deviceCategory“, „campaign“, „channelGrouping“),
anti_sample = TRUE)

Dadurch sollten alle Ihre Daten übersichtlich in drei Datenrahmen mit den Titeln „ sessionspull “ für die sitzungsbezogenen Dimensionen, „ eventspull “ für die ereignisbezogenen Dimensionen und „ pvpull“ für die seitenaufrufbezogenen Dimensionen zusammengefasst werden.

Jetzt müssen wir die Daten in BigQuery hochladen, deren Code etwa so aussehen sollte, dreimal wiederholt für jeden Datenrahmen:

bqr_upload_data(„<Ihr Projekt>“, „<Ihr Datensatz>“, „<Ihre Tabelle>“, <Ihr Datenrahmen>)

In meinem Fall bedeutet das, dass mein Code lautet:

bqr_upload_data(„my-project“, „test2“, „bloguploadRSess“, sessionpull)
bqr_upload_data(„mein-Projekt“, „test2“, „bloguploadREvent“, eventspull)
bqr_upload_data(„mein-Projekt“, „test2“, „bloguploadRpv“, pvpull)

Sobald dies alles geschrieben ist, können Sie Ihr Skript ausführen, sich zurücklehnen und entspannen! Sobald dies erledigt ist, können Sie zu BigQuery wechseln und alle Ihre Daten dort sehen, wo sie jetzt hingehören!

Wenn Ihre UA-Daten für einen regnerischen Tag sicher verstaut sind, können Sie sich voll und ganz auf die Maximierung des Potenzials Ihres GA4-Setups konzentrieren – und Semetrical ist hier, um Ihnen dabei zu helfen! Weitere Informationen dazu, wie Sie das Beste aus Ihren Daten herausholen, finden Sie in unserem Blog. Wenn Sie weitere Unterstützung rund um die Analytik benötigen, schauen Sie sich unsere Webanalysedienste an, um herauszufinden, wie wir Ihnen helfen können.