如何使用 R 和 Python 将数据上传到 BigQuery

已发表: 2023-06-06

网络分析世界继续朝着 7 月 1 日这个决定性的日期前进，届时 Universal Analytics 将停止处理数据并被 Google Analytics 4 (GA4) 取代。其中一项关键变化是，在 GA4 中，您最多只能在平台中保留数据 14 个月。这是 UA 的重大变化，但作为交换，您可以免费将 GA4 数据推送到 BigQuery 中，但有限制。

BigQuery 是超越 GA4 的数据存储的极其有用的资源。随着它在几个月内变得比以往任何时候都更加重要，现在是开始使用它来满足您所有数据存储需求的最佳时机。通常，最好在上传之前以某种方式处理数据。为此，我们建议使用用 R 或 Python 编写的脚本，尤其是在需要重复执行此类操作的情况下。您还可以直接从这些脚本将数据上传到 BigQuery，而这正是本博客将指导您完成的内容。

从 R 上传到 BigQuery

R 是一种非常强大的数据科学语言，也是最容易用于将数据上传到 BigQuery 的语言。第一步是导入所有必要的库。对于本教程，我们将需要以下库：

library(googleAuthR)

library(bigQueryR)

如果您以前没有使用过这些库，请在控制台中运行install.packages(<PACKAGE NAME>)来安装它们。

接下来，我们必须解决使用 API 时通常最棘手、最令人沮丧的部分——授权。幸运的是，有了 R，这就相对简单了。您将需要一个包含授权凭据的 JSON 文件。这可以在 Google Cloud Console 中找到，BigQuery 位于同一位置。首先，导航到 Google Cloud Console，然后单击“API 和服务”。

接下来，单击边栏中的“凭据”。

在 Credentials 页面上，您可以查看现有的 API 密钥、OAuth 2.0 客户端 ID 和服务帐户。为此，您需要一个 OAuth 2.0 客户端 ID，因此请点击您 ID 相关行末尾的下载按钮，或者通过单击页面顶部的“创建凭据”来创建一个新 ID。确保您的 ID 有权查看和编辑相关的 BigQuery 项目——为此，打开侧边栏，将鼠标悬停在“IAM 和管理”上，然后点击“IAM”。在此页面上，您可以使用页面顶部的“授予访问权限”按钮授予您的服务帐户对相关项目的访问权限。

获取并保存 JSON 文件后，您可以使用 gar_set_client() 函数将路径传递给它以设置您的凭据。完整的授权代码如下：

googleAuthR::gar_cache_empty()

googleAuthR::gar_set_client("C:\\Users\\Tom Brown\\Documents\\R\\APIs\\credentials.json")

bqr_auth(email = "<your email here>")

显然，您需要将 gar_set_client() 函数中的路径替换为您自己的 JSON 文件的路径，并将用于访问 BigQuery 的电子邮件地址插入到 bqr_auth() 函数中。

授权设置完成后，我们需要一些数据上传到 BigQuery。我们需要将这些数据放入数据框中。出于本文的目的，我将创建一些包含多个位置和销售数量的虚构数据，但您很可能会从 .csv 文件或电子表格中读取真实数据。要从 .csv 文件中读取数据，您可以简单地使用 read.csv() 函数，将文件路径作为参数传递：

data <- read.csv("C:\\Users\\Tom Brown\\Documents\\Semetrical\\Blogs\\mycsv.csv")

或者，如果您将数据存储在电子表格中，则您的方法将根据电子表格所在的位置而有所不同。如果您的电子表格存储在 Google 表格中，您可以使用 googlesheets4 库将其数据读入 R：

library(googlesheets4)

data <- read_sheet(ss=”<spreadsheet URL>”, sheet=”<name of tab>”)

和以前一样，如果您以前没有使用过这个包，则必须在运行代码之前在控制台中运行 install.packages(“googlesheets4”)。

如果您的电子表格在 Excel 中，您将需要使用 readxl 库，它是 tidyverse 库的一部分——我推荐使用它。它包含大量函数，使 R 中的数据操作变得更加容易：

library(tidyverse)

data <- read_excel(“C:\\Users\\Tom Brown\\Documents\\Semetrical\\Blogs\\myxl.xlsx”)

再一次，确保运行 install.package(“tidyverse”) 如果您之前没有运行过！

最后一步是将数据上传到 BigQuery。为此，您需要在 BigQuery 中有一个位置来上传它。您的表将位于一个数据集中，该数据集将位于一个项目中，并且您需要采用以下格式的所有这三个名称：

bqr_upload_data(“<your project>”, “<your dataset>”, “<your table>”, <your dataframe>)

就我而言，这意味着我的代码如下：

bqr_upload_data(“my-project”, “test2”, “blogtestR”, data)

如果您的表还不存在，请不要担心，代码会为您创建它。不要忘记将您的项目、数据集和表的名称插入到上面的代码中（在引号内），并确保您上传的是正确的数据框！完成后，您应该会在 BigQuery 中看到您的数据，如下所示：

作为最后一步，假设您有其他数据要添加到 BigQuery。例如，在我上面的数据中，假设我忘记包含来自大陆的几个位置，我想上传到 BigQuery，但我不想覆盖现有数据。为此，bqr_upload_data 有一个名为 writeDisposition 的参数。 writeDisposition 有两个设置，“WRITE_TRUNCATE”和“WRITE_APPEND”。前者告诉 bqr_upload_data() 覆盖表中的现有数据，而后者告诉它追加新数据。因此，要上传这个新数据，我会写：

bqr_upload_data(“my-project”, “test2”, “blogtestR”, data2, writeDisposition = “WRITE_APPEND”))

果然，在 BigQuery 中我们可以看到我们的数据有一些新室友：

从 Python 上传到 BigQuery

在 Python 中，情况有些不同。再一次，我们需要导入一些包，所以让我们从这些开始：

import pandas as pd

from google.cloud import bigquery

from google.oauth2 import service_account

授权很复杂。我们将再次需要一个包含凭据的 JSON 文件。如上所述，我们将导航到 Google Cloud Console 并点击“APIs and Services”，然后点击侧边栏中的“Credentials”。这一次，在页面底部，将有一个名为“服务帐户”的部分。

在那里，您可以将密钥下载到您的服务帐户，或者通过单击“管理服务帐户”，您可以创建一个新密钥或一个新的服务帐户，您可以为其下载凭据。

然后，您需要确保您的服务帐户有权访问和编辑您的 BigQuery 项目。再次导航到边栏中“IAM 和管理”下的 IAM 页面，您可以在此处使用页面顶部的“授予访问权限”按钮授予您的服务帐户对相关项目的访问权限。

整理好后，您可以编写授权代码：

bqcreds = service_account.Credentials.from_service_account_file('myjson.json', scopes = ['https://www.googleapis.com/auth/cloud-platform'])

client = bigquery.Client(credentials=bqcreds, project=bqcreds.project_id,)

接下来，您必须将数据放入数据框中。 Dataframes 属于 pandas 包，创建起来非常简单。要从 CSV 中读入，请按照以下示例操作：

data = pd.read_csv('C:\\Users\\Tom Brown\\Documents\\Semetrical\\Blogs\\mycsv.csv')

显然，您需要将上面的路径替换为您自己的 CSV 文件。要从 Excel 文件中读取，请按照以下示例操作：

data = pd.read_excel('C:\\Users\\Tom Brown\\Documents\\Semetrical\\Blogs\\myxl.xlsx', sheet_name='mytab'>

从谷歌表格中读取是很棘手的，需要另一轮授权。我们将需要导入一些新包，并使用我们在上面的 R 教程中检索到的 JSON 凭据文件。您可以按照此代码授权和读取您的数据：

import gspread

from oauth2client.service_account import ServiceAccountCredentials

credentials = ServiceAccountCredentials.from_json_keyfile_name('myjson.json', scopes = ['https://spreadsheets.google.com/feeds'])

gc = gspead.authorize(credentials)

ss = gc.open_by_key('<spreadsheet key>')

sheet = ss.worksheet('<name of tab>')

data = pd.DataFrame(sheet.get_all_records())

将数据放入数据框中后，就可以再次上传到 BigQuery 了！您可以按照此模板执行此操作：

table_id = “<your project>.<your dataset>.<your table>”

job_config0 = bigquery.LoadJobConfig(write_disposition = 'WRITE_TRUNCATE')

job = client.load_table_from_dataframe(data, table_id, job_config=job_config0)

job.result()

例如，这是我刚刚编写的用于上传我之前制作的数据的代码：

table_

job_config0 = bigquery.LoadJobConfig(write_disposition = 'WRITE_TRUNCATE')

job = client.load_table_from_dataframe(data, table_id, job_config=job_config0)

job.result()

一旦完成，数据应该立即出现在 BigQuery 中！

一旦掌握了这些功能，您可以使用它们做更多的事情。如果您想更好地控制您的分析设置，Semetrical 可以为您提供帮助！查看我们的博客，了解有关如何充分利用数据的更多信息。或者，要获得有关所有事物分析的更多支持，请访问 Web Analytics 以了解我们如何为您提供帮助。