6 年間の Web のクロールから学んだ教訓

公開: 2017-04-18
目次を見る
1. ウェブは本質的に非常に動的です
2. Web テクノロジーの進化に伴い、Web サイトは複雑になり、不均一になっています。
3. ウェブページからのデータ取得は、データ取得ゲームの 10% にすぎません
4. ほとんどの企業は、データのクロールに予算を割り当てていません
5.ボットを許可しないと、露出とウェブサイトのトラフィックに悪影響を与える可能性があります
6. ウェブサイトはもはやすべてのコンテンツをコードに保存しているわけではありません
7. 全ウェブサイトの 26% が WordPress で運営されている
8.企業は、技術的なノウハウがなくてもデータをクロールできると考えています
ウェブクローリングはニッチなプロセスです

デジタル時代が繁栄し始め、企業がビッグデータのニーズのために Web に目を向けたとき、その前には数え切れないほどの障害がありました。 Web からのデータの抽出には複雑な問題が伴い、企業がコア ビジネスへの集中力を失わずにすべての問題に取り組むことは容易ではありませんでした。 PromptCloud は、企業がこれらのボトルネックに直面することなく、必要な方法で Web からデータを取得できるようにすることを目的として設立されました。 私たちは創業以来、この分野で確かな専門性を獲得してきました。 Web クロールは、ビッグ データ取得の最前線で非常に貴重なツールの 1 つになったので、過去 6 年間の Web クロールから学んだことを喜んで共有します。

ウェブクローリング

1. ウェブは本質的に非常に動的です

気がつくかどうかにかかわらず、Web は絶えず変化する世界です。 すべてのサイトは、日常的に何らかの変化を遂げています。 これには、コード管理、セキュリティ ホールの修正、新しいオファーの追加、または単なる設計変更が含まれます。 このような変更のほとんどは、人間の訪問者にとって重要ではないように見えるかもしれませんが、これらの変更は、Web クローリング ボットを破壊する可能性があります。 クラス名の変更、新しい要素の追加、またはわずかな設計の変更でさえ、クロール中に混乱を引き起こす可能性があります。 Web のこの非常に動的な性質は、サイトの変更を検出するための堅牢な監視システムを持つことの重要性を教えてくれました。 この絶え間ない監視の必要性は、データ抽出の全体的なコストを増大させるだけでなく、技術的にも複雑にします。

2. Web テクノロジーの進化に伴い、Web サイトは複雑になり、不均一になっています。

単純な HTML と PHP を使用して Web サイトを作成する時代は終わりました。 Web 開発者は現在、最新のコーディング プラクティスを使用して、非常にスムーズなユーザー エクスペリエンスを訪問者に提供しています。 これにより、Web サイトの複雑さが大幅に増しています。 ユーザー エクスペリエンスがシンプルになっている一方で、バックエンドは複雑になっています。 最新の Web サイトのほとんどは、AJAX 呼び出しを使用してデータベースからライブ ページにデータを動的に同期し、Web サイトをより動的で強力にします。 実際の人間の訪問者をエミュレートする必要があることが多いため、AJAX 呼び出しを図に示すと、データフェッチはさらに困難になります。 したがって、このようなケースを処理し、Web クローリングの要件を満たすために、技術スタックを常にアップグレードしてきました。

3. ウェブページからのデータ取得は、データ取得ゲームの 10% にすぎません

データ取得は、インターネット上のライブ Web ページからデータをスクレイピングすることだけではありません。 実際、データのフェッチは、データ取得ゲームが始まる小さなステップにすぎません。 多くの場合、スクレイピングされたデータは巨大であり、最初から適切なストレージ システムが必要です。 取得したデータを格納するために分散サーバーが使用されるため、処理速度が向上し、待ち時間が短縮されます。 データの維持は、頻繁な自動バックアップを必要とするもう 1 つの課題です。 アプリケーションとの互換性を持たせるためにデータをクリーニングして構造化することも、データ取得の重要な部分です。 処理されるデータの量が増えるにつれて、これらのデータセットを定期的に取得するために、信頼できるデータ パイプラインを設定する必要があります。 Web クローリング ソリューションの背後では、目に見えるものよりも多くのプロセスが実行されています。

4. ほとんどの企業は、データのクロールに予算を割り当てていません

ほとんどの企業は、データ プロジェクトの一部である重要な独立した段階を考慮せずに、データ プロジェクトに共通の予算を割り当てる傾向があります。 データ取得自体は困難で注目に値するプロセスであり、専用の予算が必要です。 データ プロジェクトを処理する予算が限られている場合、Web データを取得するだけで、その約 50% を使い果たしてしまいます。 したがって、データ取得に関連するコスト ポイントをよりよく理解することが重要です。

5.ボットを許可しないと、露出とウェブサイトのトラフィックに悪影響を与える可能性があります

Web クロール スパイダー (別名ボット) は、インターネット トラフィックの約 61% を占めています。 多くの企業は、ボットからのトラフィックは無関係または有害でさえあると思い込んでいます。 これが、一部の人が robots.txt を介してボットを完全に禁止するまでに至る理由です。 彼らは、ボットがもたらすプラスのメリットについてほとんど知りません。 フィード アグリゲーション サイト、検索エンジン、ブログ、またはビジネス ディレクトリによって実行される多くのボットは、サイトへの露出の手段として機能します。 簡単に言えば、ボットをブロックすると、Web サイトがバックリンク、露出、トラフィックを獲得するのが難しくなります。

6. ウェブサイトはもはやすべてのコンテンツをコードに保存しているわけではありません

10 年前、ほとんどの Web サイトでは、すべてのコンテンツがページのソース コードに含まれていました。 ここではキャッシングができないため、これは通常、ユーザーがページをリロードするたびにページのすべてのコンテンツをロードすることを意味していました。 このコードの混乱に対処しなければならなかった開発者にとっても悪夢でした。 それ以来、コーディング プラクティスは劇的に進化し、ほとんどの Web サイトは現在、スクリプトの非同期読み込み、インライン CSS の回避などのベスト プラクティスに従っています。Web 上のコーディング プラクティスは、過去 10 年間で大幅に進化しました。

7. 全ウェブサイトの 26% が WordPress で運営されている

WordPress は非常に人気のあるコンテンツ管理システムであり、インターネット上の Web サイトの大部分がこのプラットフォームで実行されています。 これまでにクロールした数百万の Web サイトのうち、約 26% が WordPress を使用して作成されました。 これは CMS としての WordPress の汎用性を示しており、その人気は当然のことであると考えています。

8.企業は、技術的なノウハウがなくてもデータをクロールできると考えています

プロセス データの抽出が実際にどれほど複雑であるかを十分に理解していない多くの企業は、DIY ツールや社内のクローリング セットアップを使用するという過ちを犯しています。 DIY ツールは、使いやすいデータ抽出ツールとして宣伝されていることを考えると、魅力的なソリューションのように思えるかもしれません。 ただし、そのシンプルさには代償が伴います。 これらのツールは、深刻で大規模なデータ抽出要件を処理することができず、ターゲット サイトが単純でデータの品質が問題にならないエントリー レベルの抽出を目的としています。

Web データ抽出をベンダーにアウトソーシングすることでリソースを解放でき、技術スタッフはデータのアプリケーションにより集中できますが、データにアクセスして保存するために技術スタッフが必要になることに注意してください。

ウェブクローリングはニッチなプロセスです

何百万ものクライアントのために何百万もの Web サイトからデータをクロールして取得してきた長年の経験から、1 つのことは明らかです。Web データ抽出プロセスを実行するには、専任のチームとハイエンドのリソースが必要です。 抽出をより速く、効率的で、エラーのないものにするために現在使用している手法は、長年の経験と試行錯誤の成果です。 Web データ抽出プロジェクトを当社にアウトソーシングすることで、この技術的な障壁を簡単に回避し、コア ビジネスにより多くの時間を費やすことができます。