6 年間の Web のクロールから学んだ教訓

公開: 2017-04-18

目次を見る

1. ウェブは本質的に非常に動的です

2. Web テクノロジーの進化に伴い、Web サイトは複雑になり、不均一になっています。

3. ウェブページからのデータ取得は、データ取得ゲームの 10% にすぎません

4. ほとんどの企業は、データのクロールに予算を割り当てていません

5.ボットを許可しないと、露出とウェブサイトのトラフィックに悪影響を与える可能性があります

6. ウェブサイトはもはやすべてのコンテンツをコードに保存しているわけではありません

7. 全ウェブサイトの 26% が WordPress で運営されている

8.企業は、技術的なノウハウがなくてもデータをクロールできると考えています

ウェブクローリングはニッチなプロセスです

デジタル時代が繁栄し始め、企業がビッグデータのニーズのために Web に目を向けたとき、その前には数え切れないほどの障害がありました。 Web からのデータの抽出には複雑な問題が伴い、企業がコアビジネスへの集中力を失わずにすべての問題に取り組むことは容易ではありませんでした。 PromptCloud は、企業がこれらのボトルネックに直面することなく、必要な方法で Web からデータを取得できるようにすることを目的として設立されました。私たちは創業以来、この分野で確かな専門性を獲得してきました。 Web クロールは、ビッグデータ取得の最前線で非常に貴重なツールの 1 つになったので、過去 6 年間の Web クロールから学んだことを喜んで共有します。

ウェブクローリング

1. ウェブは本質的に非常に動的です

気がつくかどうかにかかわらず、Web は絶えず変化する世界です。すべてのサイトは、日常的に何らかの変化を遂げています。これには、コード管理、セキュリティホールの修正、新しいオファーの追加、または単なる設計変更が含まれます。このような変更のほとんどは、人間の訪問者にとって重要ではないように見えるかもしれませんが、これらの変更は、Web クローリングボットを破壊する可能性があります。クラス名の変更、新しい要素の追加、またはわずかな設計の変更でさえ、クロール中に混乱を引き起こす可能性があります。 Web のこの非常に動的な性質は、サイトの変更を検出するための堅牢な監視システムを持つことの重要性を教えてくれました。この絶え間ない監視の必要性は、データ抽出の全体的なコストを増大させるだけでなく、技術的にも複雑にします。

2. Web テクノロジーの進化に伴い、Web サイトは複雑になり、不均一になっています。

単純な HTML と PHP を使用して Web サイトを作成する時代は終わりました。 Web 開発者は現在、最新のコーディングプラクティスを使用して、非常にスムーズなユーザーエクスペリエンスを訪問者に提供しています。これにより、Web サイトの複雑さが大幅に増しています。ユーザーエクスペリエンスがシンプルになっている一方で、バックエンドは複雑になっています。最新の Web サイトのほとんどは、AJAX 呼び出しを使用してデータベースからライブページにデータを動的に同期し、Web サイトをより動的で強力にします。実際の人間の訪問者をエミュレートする必要があることが多いため、AJAX 呼び出しを図に示すと、データのフェッチはさらに困難になります。したがって、このようなケースを処理し、Web クローリングの要件を満たすために、技術スタックを常にアップグレードしてきました。

3. ウェブページからのデータ取得は、データ取得ゲームの 10% にすぎません

データ取得は、インターネット上のライブ Web ページからデータをスクレイピングすることだけではありません。実際、データのフェッチは、データ取得ゲームが始まる小さなステップにすぎません。多くの場合、スクレイピングされたデータは巨大であり、最初から適切なストレージシステムが必要です。取得したデータを格納するために分散サーバーが使用されるため、処理速度が向上し、待ち時間が短縮されます。データの維持は、頻繁な自動バックアップを必要とするもう 1 つの課題です。アプリケーションとの互換性を持たせるためにデータをクリーニングして構造化することも、データ取得の重要な部分です。処理されるデータの量が増えるにつれて、これらのデータセットを定期的に取得するために、信頼できるデータパイプラインを設定する必要があります。 Web クローリングソリューションの背後では、目に見えるものよりも多くのプロセスが実行されています。

4. ほとんどの企業は、データのクロールに予算を割り当てていません

ほとんどの企業は、データプロジェクトの一部である重要な独立した段階を考慮せずに、データプロジェクトに共通の予算を割り当てる傾向があります。データ取得自体は困難で注目に値するプロセスであり、専用の予算が必要です。データプロジェクトを処理する予算が限られている場合、Web データを取得するだけで、その約 50% を使い果たしてしまいます。したがって、データ取得に関連するコストポイントをよりよく理解することが重要です。

5.ボットを許可しないと、露出とウェブサイトのトラフィックに悪影響を与える可能性があります

Web クロールスパイダー (別名ボット) は、インターネットトラフィックの約 61% を占めています。多くの企業は、ボットからのトラフィックは無関係または有害でさえあると思い込んでいます。これが、一部の人が robots.txt を介してボットを完全に禁止するまでに至る理由です。彼らは、ボットがもたらすプラスのメリットについてほとんど知りません。フィードアグリゲーションサイト、検索エンジン、ブログ、またはビジネスディレクトリによって実行される多くのボットは、サイトへの露出の手段として機能します。簡単に言えば、ボットをブロックすると、Web サイトがバックリンク、露出、トラフィックを獲得するのが難しくなります。

6. ウェブサイトはもはやすべてのコンテンツをコードに保存しているわけではありません

10 年前、ほとんどの Web サイトでは、すべてのコンテンツがページのソースコードに含まれていました。ここではキャッシングができないため、これは通常、ユーザーがページをリロードするたびにページのすべてのコンテンツをロードすることを意味していました。このコードの混乱に対処しなければならなかった開発者にとっても悪夢でした。それ以来、コーディングプラクティスは劇的に進化し、ほとんどの Web サイトは現在、スクリプトの非同期読み込み、インライン CSS の回避などのベストプラクティスに従っています。Web 上のコーディングプラクティスは、過去 10 年間で大幅に進化しました。

7. 全ウェブサイトの 26% が WordPress で運営されている

WordPress は非常に人気のあるコンテンツ管理システムであり、インターネット上の Web サイトの大部分がこのプラットフォームで実行されています。これまでにクロールした数百万の Web サイトのうち、約 26% が WordPress を使用して作成されました。これは CMS としての WordPress の汎用性を示しており、その人気は当然のことであると考えています。

8.企業は、技術的なノウハウがなくてもデータをクロールできると考えています

プロセスデータの抽出が実際にどれほど複雑であるかを十分に理解していない多くの企業は、DIY ツールや社内のクローリングセットアップを使用するという過ちを犯しています。 DIY ツールは、使いやすいデータ抽出ツールとして宣伝されていることを考えると、魅力的なソリューションのように思えるかもしれません。ただし、そのシンプルさには代償が伴います。これらのツールは、深刻で大規模なデータ抽出要件を処理することができず、ターゲットサイトが単純でデータの品質が問題にならないエントリーレベルの抽出を目的としています。

Web データ抽出をベンダーにアウトソーシングすることでリソースを解放でき、技術スタッフはデータのアプリケーションにより集中できますが、データにアクセスして保存するために技術スタッフが必要になることに注意してください。

ウェブクローリングはニッチなプロセスです

何百万ものクライアントのために何百万もの Web サイトからデータをクロールして取得してきた長年の経験から、1 つのことは明らかです。Web データ抽出プロセスを実行するには、専任のチームとハイエンドのリソースが必要です。抽出をより速く、効率的で、エラーのないものにするために現在使用している手法は、長年の経験と試行錯誤の成果です。 Web データ抽出プロジェクトを当社にアウトソーシングすることで、この技術的な障壁を簡単に回避し、コアビジネスにより多くの時間を費やすことができます。