样本数据很棒! 但这只是故事的一半

已发表: 2017-05-16
目录显示
样本数据并未向您展示全貌
网络爬虫只能随着时间的推移而完善
评估最终交付的价值
结论

如果您一直在考虑提取 Web 数据以提升您的业务水平,或者一直在修补一些 DIY 网络抓取工具以掌握抓取的窍门,那么 Web 的高度动态特性对您来说不应该是新闻。 网站非常动态,并且不断更新。 虽然这些变化在很大程度上是微妙的,但它们对任何涉足网络数据提取的人构成了严峻的挑战,因为网站上的结构变化可能会使爬虫变得无用。

样本数据网络数据提取

作为一个完全托管的网络数据提取解决方案,我们不断处理爬虫的设置、数据存储、重复数据删除和所有网络爬虫。

然而,我们经常看到我们的客户,仅仅依靠样本数据来评估整个数据提取项目。 虽然提供的示例数据确实可以快速了解数据在交付时的外观,但它并不能保证在初始阶段可以无缝抓取,这可能会让您感到惊讶。 爬虫设置只有通过消除一开始必然会出现的问题才能达到稳定状态。 这就是为什么您应该至少花费 3 个月的时间来评估一个网络爬虫项目,以使其达到稳定性并掌握在您的业务中应用数据的窍门。

样本数据并未向您展示全貌

虽然我们说样本数据不能保证无缝重复提取,但这并不意味着交付的数据会有所不同。 这里要记住的重要一点是,从网页中提取数据以制作示例数据文件与使用自动网络爬虫设置爬取该站点完全不同。 一旦我们开始自动抓取,就会有许多网站元素开始发挥作用,而这些元素将在样本数据提取中被遗漏。 这些问题确实可以解决,但只能在它出现时解决。 这就是为什么我们强调我们开展的任何网络抓取项目的 3 个月锁定期。

以下是网络抓取的一些问题,只有在自动抓取开始后才能找到并修复这些问题。

1. 克服数据中断问题

与一次性提取相比,当自动抓取而不是一次性提取时,很难预测网站的行为方式。 可能存在可能导致数据丢失的问题,这些问题可能不会出现在样本数据提取中。 原因可能从目标站点服务器的配置到弹出窗口、重定向和断开链接的干扰。 此类问题无法通过一次性抓取来识别,而一次性抓取是样本数据的来源。 一旦爬虫开始定期运行,就会解决这些无法预料的问题以稳定爬虫。 因此,在自动爬网的初始阶段,数据流的轻微中断是正常的,不应引起关注。 我们及时修复这些瓶颈,以确保顺利爬行。

2.发货速度优化

网站的速度取决于许多因素,例如 DNS 提供商、服务器质量和流量以及其他不可预见的因素。 这个速度在一天中的不同时间也会有很大的不同。 由于网站速度对抓取网站所需的时间有很大影响,因此需要一段时间来优化每个网站的抓取时间,以便满足交付时间表。 由于爬行的这一方面在开始时也无法预测,因此在初始阶段的交货时间上有轻微的不规则是正常的。

网络爬虫只能随着时间的推移而完善

鉴于互联网上网站的动态性和不可预测性,任何网络爬虫项目都需要一段时间才能达到稳定的速度。 作为交易的一部分的意外问题通常仅在一段时间后才会出现,并且只能在出现时解决。 这就是为什么我们敦促我们的客户至少坚持 3 个月,然后才能达到问题得到解决且爬网无缝运行的稳定状态。

评估最终交付的价值

与任何事情一样,评估您从 Web 数据提取项目中获得的结果需要一些时间。 就数据如何帮助您评估样本数据得出最终结论并不是一个好主意。 以下是关于数据的一些事情,您只能随着时间的推移才能弄清楚。

1、规模是否可控?

如果您不熟悉大数据,处理大量数据可能会令人生畏。 尽管我们的解决方案具有可扩展性并且可以满足大规模需求,但当数据开始传入时,您可能会发现自己需要升级大数据基础架构。找出利用数据的最佳途径是您只能通过时间掌握的事情。

2. 需要人工吗?

我们以多种格式和不同的交付方法(包括 REST API)交付数据。 理想情况下,这应该让您在数据上完成的手动工作很少。 但是,根据您的具体要求(包括数据消耗),您可能需要处理一些手动工作。 如果是这种情况,您可能需要雇用技术人员或培训现有员工来处理该项目。

3.微调需求

当您习惯了数据集并找到进一步利用的范围时,Web 数据提取要求通常需要一些微调。 大多数人在项目开始时会忽略某些领域、来源网站和爬取频率。 随着时间的推移,一些被忽略的字段可能会被证明是有用的,或者您可能希望数据的频率更高。 这再次清楚地表明,在评估数据提取项目如何帮助您之前,您应该为数据提取项目留出时间。

结论

并非每个网站都是相似的,并且在重复爬网的后期阶段可能出现的问题在开始时很难预测。 总而言之,数据提取中最大和最困难的挑战是爬虫的维护,这需要不断的监控和不时的智能变通办法。 当您开始您的网络数据提取之旅时,重要的是要了解这些作为网络爬取的一部分的挑战,并给它足够的时间为您工作。