为什么企业将 Web Scraping 外包给 PromptCloud

已发表: 2017-06-24
目录显示
网站复杂性增加
提取过程的可扩展性
数据质量和维护
无忧数据提取
跨越技术壁垒
结论

随着商业世界迅速采用 Web 数据来补充各种数量日益增长的用例,对可靠的 Web 抓取服务的需求激增。 许多企业主经常错误地选择了那些声称是从网络上的任何网站抓取数据的神奇解决方案的 DIY 工具。 关于网络抓取,首先要了解的是,没有开箱即用的解决方案可以从任何网站提取数据。

企业级网页抓取服务

这并不是说那里的 DIY 网络抓取工具不起作用——它们确实起作用。 问题是,这些工具只能在一个完美的网络世界中顺利运行,遗憾的是它并不存在。 每个网站在呈现数据的方式上都是不同的——导航、编码实践、动态脚本的使用等,使得网站的构建方式存在很大差异。 这就是为什么制作一个可以处理所有网站的网络抓取工具是不可行的。

当谈到网络抓取时,工具是不可能的。 理想情况下,从 Web 提取数据应该是一项完全托管的服务,我们在过去 8 年中一直在完善该服务。 您不必相信我们为什么 Web 抓取工具不适合企业级 Web 数据提取。

我们收集了客户的一些回复,说明他们为什么决定改用我们的托管网络抓取服务,而将“魔术”工具抛在脑后。

网站复杂性增加

这是我们最近在我们的一个博客上收到的评论。

“我正在尝试抓取黄页数据。 我找到了一个包含 64 页商店的列表。 我为公司名称、地址和电话号码添加了一个选择器。 我右键单击每个字段以检查/复制/复制名称、地址和电话号码的选择器。 我抓取了 URL,仅更改了结尾以读取 pages/[001-064]。 我点击了抓取,令我惊讶的是,唯一抓取的数据是页面 001。我点击了每个选择器字段中的多个选项卡(用于姓名、地址和电话)。 为什么我只获取第一页的数据? 抓取工具是否应该知道我想要所有 64 个页面的每个公司的相同数据(每页 30 个)? 提前致谢。”

这里的评论员试图从分类网站爬取数据,但他使用的工具无法导航到队列中的内页,只能抓取第一页。 这是与网页抓取工具相关的一个常见问题,它们往往适用于使用简单导航结构的网站,但如果网站使用即使是中等复杂的导航也会失败。 为了改善用户体验,许多网站现在都在采用基于 AJAX 的无限滚动,这使得这变得更加复杂。 这种动态编码实践将使大多数(如果不是全部)网络爬虫工具无用。

这里需要的是完全可定制的设置和专用方法,其中手动和自动层的组合用于确定网站如何接收 AJAX 调用,以便使用自定义构建的爬虫来模仿它们。 随着网站的复杂性随着时间的推移不断增加,对可定制解决方案而不是死板工具的需求变得更加明显。

提取过程的可扩展性

这是我们的一位客户的逐字记录,说明他们在尝试构建内部爬网设置后无法扩展流程。

我们自己构建了所有爬虫,我只是对我们的方式不满意,因为你有更好的解决方案,我有兴趣谈谈。 我还想要一个最终可以抓取 5000 多个零售网站的解决方案。

许多企业家觉得有必要重新发明轮子。 这也被称为NIH(此处未发明)综合症,简单来说,就是在内部执行流程而不是外包流程的冲动。 当然,有些流程最好在内部完成,客户支持就是一个很好的例子; 外包客户支持是亵渎神明。

但是,网络抓取不是其中之一。 由于与大规模 Web 数据提取相关的复杂性太小而无法被没有完全投入其中的公司所掌握,因此这实际上可能是一个致命的错误。 我们注意到我们的许多现有客户尝试构建内部刮板,但后来才求助于我们的解决方案; 除了失去了一些宝贵的时间和精力。

任何人都可以抓取一个网页,这是一个事实。 真正的挑战在于同时提取数百万个网页并将所有网页处理成结构化和机器可读的数据。 我们的网络抓取解决方案的 USP 之一是它的可扩展性方面。 我们的高性能服务器集群分散在不同的地理位置,我们建立了一个坚如磐石的基础设施来大规模提取 Web 数据。

数据质量和维护

我们的一个客户正在寻找一种可以为他们提供高质量数据的解决方案,因为他们使用的工具无法提供结构化数据。

老实说:我们目前正在使用免费服务,一切运行良好。 我们可以将所有页面的数据导入到一张 Excel 表格中,然后将它们导入到 podio。 但此时,我们无法成功过滤信息。 但我们正在与他们密切联系以解决这个问题。 实际上,由于当前的解决方案有点不稳定,因此需要反复考虑。 您是否有适合我们的现成解决方案?

从网络中提取信息本身就是一个复杂的过程。 然而,将网络上的非结构化信息转化为结构完美、干净且机器可读的数据更具挑战性。 数据质量是我们引以为豪的事情,您可以从我们之前的博客文章中了解更多关于我们如何保持数据质量的信息。

从长远来看,非结构化数据与没有数据一样好。 如果您的机器无法读取它,那么您将无法理解数据中的大量信息。

此外,您不能只是构建一个功能完善的网络爬虫设置而忘记它。 网络本质上是高度动态的。 保持数据质量需要持续努力并使用手动和自动层进行密切监控。 这是因为网站经常更改其结构,这可能导致爬虫出现故障或停止,这两者都会影响输出数据。 数据质量保证和及时维护对于运行网络爬虫设置是不可或缺的。 在 PromptCloud,我们对这些方面拥有端到端的所有权。

无忧数据提取

我们最近收集了客户的反馈,这里是其中一个回复的摘录。

我们有自己的解决方案,而且很有效,但它需要不断调整,窃取宝贵的开发资源。 我相信数据获取越来越复杂,而通过爬取获取数据的需求也在不断增长。

这位客户现在已经与我们合作了 5 年,过去有自己的网络爬虫设置,但希望消除该过程的复杂性和麻烦。 从商业角度来看,这是一个伟大的决定。 任何企业都需要将其唯一的重点放在其核心产品上以实现增长和成功,尤其是考虑到现在所有市场的竞争都处于巅峰状态。 Web 数据提取带来的设置、持续维护和所有其他复杂性很容易占用您的内部资源,从而对您的整体业务造成影响。

跨越技术壁垒

这位最近的领导缺乏自行建立和执行网络爬虫项目所需的技术专长。

我在想,当我们没有能力和专业知识自己添加网站时,我们可能会使用你们的方式是根据客户的要求根据需要添加网站。 我们也没有您需要从中提取的 URL,因此我们需要蜘蛛站点来提取所有产品页面。

Web 抓取是一个技术要求很高的过程——这意味着您需要一个有才华的开发人员团队来设置和部署爬虫在优化的服务器上进行数据提取。

然而,并不是所有的企业都应该成为抓取专家,因为每个企业都有自己的核心重点。 如果技术不是您的强项,那么您需要依赖服务提供商为您提取 Web 数据是完全可以理解的。 凭借我们在网络数据提取领域多年的专业知识,我们现在能够承担任何复杂性和规模的网络抓取项目。

结论

随着商业世界对网络数据的需求不断增加,公司不可避免地开始寻找更好的方法来获取网络上可用数据的金矿。 如果您查看网络数据提取的各个方面,很明显将其留给抓取专家是可行的方法。