使用 Google 表格作为基本的 Web Scraper – PromptCloud 指南

已发表: 2022-11-08
目录显示
谷歌套件作为网络爬虫
将 Web 数据拉入工作表的语法
导入XML
导入HTML
进口饲料
ImportData 和 ImportRange
从网站导入数据
谷歌表:表格
标题和标题
内容提要
将工作表用作刮板的限制
结论

谷歌套件作为网络爬虫

谷歌表格有一些很棒的功能和易于访问。 它完成了提取特定数据点和部分的大部分繁重工作。 通过使用导入语法并熟悉 Google 脚本或 Python 插件来为网站数据抓取 Google 表格。 正如研究所说,网络抓取文档最适合定期分析网站和论坛的人。 我们的数据工程师和产品一线主管使用 PromptCloud 等产品来扫描 Web 数据,以获得更强大的体验。 在此博客中,您可以找到有关使用 Google 套件公式、如何从网站导入数据以及将 Google 表格用作网络爬虫的限制的信息。 但是,首先,让我们从查看构建数据的公式开始。

将 Web 数据拉入工作表的语法

下面提到的是可用于提取数据的网络抓取公式。

导入XML

此语法用于从基于 HTML 和 XML 提要构建的结构化 URL 中获取数据。 您可以获得有关页面标题、日期和作者姓名的详细信息。 使用查询,您可以决定要抓取网页的哪个部分。 此功能还支持 CSV 和 ATOM XML 提要,无需使用代码。 扫描网页的 Url 并使用 XPath 找到要在元素中导航的部分。 扫描的数据可以归因于 XML 文档。 从一个新的 Google 表格文档开始,然后添加您要从中抓取数据的网页的 Url。 当您找到元素的 Xpath 时,使用 ImportXML 语法并获取结构化的 Web 数据。 将鼠标悬停在该部分上,转到选项,单击检查,然后选择复制 Xpath 以将数据提取到新工作表中。

在工作表中引入 Xpath Url 并进行一些小的调整,尤其是在您使用 Chrome 时。 从该浏览器复制的 URL 始终将路径括在双括号中。 但是,要抓取网站,必须将双括号更改为单引号。 此外,调整页面标题以开始并发送查询以捕获网页的主要元素。 几秒钟后,查询以结构化格式返回 Google 工作表中的信息。

导入HTML

此语法主要用于从网站创建列表和导入表格。 该功能不仅可以轻松导入表格,还可以定期更新拉取的数据。 对文本中的表格标签、无序列表和有序列表标签等数据点进行 Html 语法扫描,以将数据复制到网页之外。 对于通过 HTML 导入数据,Url 必须用双引号括起来并带有适当的表索引。 如果您在页面上扫描多个表,则该过程会变得很棘手。 在这里,您需要使用开发人员控制台或使用键盘上的 F12 菜单来操作扫描。 在控制台中复制用于索引元素的公式。

要仅导入特定的列或行,您可以使用语法中的过滤器来获取数据。 作为一般的 Google 套装设置,文档每 1 小时刷新一次。 但是,如果您需要实时数据,则可以相应地设置刷新速度。 要自动刷新页面,使用像 code.gs 和 myfunction 这样的触发器就可以了。 如果触发器停止工作或停止刷新表,它还会发送通知。 Google 表格最多可以处理 50 个 ImportHTML 重复请求。

进口饲料

此语法用于将页面中的内容直接扫描到 Google 表格中。 ImportFeed 让您可以访问 RSS 和细化提要以自动导入数据。 您发送查询以导入数据,使用 StartRow 等代码选择同一行以复制数据,使用 NumberRow 量化扫描数据量。 当您指定单元格范围时,数据会通过指定的 Url 路径从 Atom 提要中导入。 这种语法获取的数据对于理解博客和文章很有用。 使用查询和标头等参数将明确告诉爬虫需要哪些信息以及来自哪个路径。

ImportData 和 ImportRange

上述语法 ImportData 用于扫描和复制来自不同来源和 Google 表格的数据。 而 ImportRange 复制网页的一部分。 顾名思义,导入范围是谷歌表格中最重要和最有用的功能,因为它可以从独立的电子表格中复制单元格。 使用查询,您可以像任何其他数据集一样查找、过滤和排序数据。 查询作为一个函数可以在处理多个电子表格时节省大量时间,并且可以串联使用任何两个公式。 正如所观察到的,查询有助于以多种方式操作数据,而导入功能决定了数据的显示方式。

从网站导入数据

我们已经了解了如何使用 Google Suite 公式来简化研究工作和学习如何从网站导入数据。 在这两件事上获得实践经验将使您有信心使用 Google 表格执行网络抓取以完成日常任务。

谷歌表:表格

从网站上抓取表格很容易,但必须正确执行。 单击任何空单元格,编写 Import 语法并粘贴您要抓取的 URL,并将表号添加到 Url。 执行此函数,您将看到填充了整个表格的电子表格。 使用索引函数中的值数组来过滤行和列。

标题和标题

此功能更适合浏览新闻文章和最新博客的标题和标题。 一旦您在 HTML 脚本中识别出特定的 Url 和标识符,就可以将爬虫引导至标头。 当您要扫描 50 多个网站以就某个主题发表意见时,此方法很有用。 由于每个网站的构建方式都不同,因此标识符 Url 会不断变化,这时像 PromptCloud 这样的网络抓取工具可以帮助推动您的业务需求。

内容提要

此功能可用于从网站、博客和文章中导入所有最近的内容。 您可以通过在热门博客和最近的博客上发送查询来过滤掉这些数据。 此外,在 Url 上发送查询以创建您自己的提要列表。 公司主要使用此方法来跟踪竞争对手如何在其网站和社交媒体页面上发布内容更新。

将工作表用作刮板的限制

谷歌表格的基本用途不是抓取网络数据。 因此,当考虑到数据被抓取的数量和速率时,我们可以预期在使用工作表时会受到限制。 一旦抓取数量超过 50 行或 100 行,Google 就会崩溃或返回错误。 使用 Google 功能对简单的事情进行分类,例如了解 Web 内容并相应地对其进行隔离。

结论

使用 Google 表格,您可以抓取 H1 数据、标题、描述和页面链接。 如此之多,以至于您可以从网页中提取元标题和描述等页外内容。 您还可以通过结合导入和索引代码来抓取多作者网页。 总体而言,只要数量可以量化且预先定义,Google 电子表格将为您提供良好的网络数据抓取体验。 它最适合团队级别的小型项目,或者非常适合进行大学研究项目。 如果您有大型项目,请联系[email protected]进行自定义网页抓取。