Web からデータを収集しながら手を抜かずにコストを削減する

公開: 2023-02-13
目次を見る
再開 > 再起動
サーバー対サーバーレス
ウェブサイト変更検出器
ヒューマン タスクの自動化
専用サーバーではなくパブリック クラウドを選択する
オープンソース ツール
コンプライアンスの問題を外部委託する
マシンを使用してデータ検証を安価にする
条件は規模に任せる
変更された部分のみを更新
PromptCloud などの DaaS プロバイダーの使用

計画を立てずに Web からデータをスクレイピングすることには、リスクが伴います。 複雑な Web サイトやデータのクリーンさに慣れていないと、すぐに予算をオーバーしてしまいます。 クラウド リソースを使用していて、毎日発生するコストを追跡していない場合、可能性はさらに高くなります。 コストの最適化に関しては、通常、以下を含むワークフロー全体を検討する必要があります。

  1. Web からのデータのスクレイピング。
  2. データのクリーニングと正規化。
  3. データベースや S3 バケットなどのメディアにデータを保存します。
  4. API 呼び出しを介してデータにアクセスするか、ストレージの場所に直接アクセスします。
  5. データの暗号化と復号化の可能性 (データが機密であり、高度なセキュリティが最優先される場合)。
  6. スクレイピングされたデータを処理して、下流のワークフローで使用できるようにします。

再開 > 再起動

多くの場合、何百万もの Web ページから数十のデータ ポイントをスクレイピングしていると、コードがどこかで壊れる可能性があります。 ほとんどのシナリオでは、人々はタスク全体を再起動することに進みます。確かに、実装と使用がはるかに簡単です。 ただし、おそらくキャッシング メカニズムを使用して、ちょっとしたエンジニアリングの驚異を利用すれば、スクレイピング ジョブが中断するたびにチェックポイントを確実に保存することができます。 破損の背後にある問題を修正したら、保存したチェックポイントから再開してデータをスクレイピングできます。

サーバー対サーバーレス

この点は、データをリアルタイムでスクレイピングするのではなく、バッチでスクレイピングする人にとって重要です。 たとえば、1 日に 2 回、100 万の Web ページからデータをスクレイピングするとします。 毎回、スクレイピング ジョブが完了するまでに 2 時間かかります。 したがって、タスクを毎日実行するのにかかる合計時間は、2 + 2 = 4 時間です。 AWS EC-2 インスタンスのようなものを使用するサーバーベースのセットアップがある場合、インスタンスを毎回手動でオン/オフしない限り、24 時間分の料金が請求されます。アッププロセス。 ここで採用するより良い方法は、AWS Lambda や Fargate などのクラウド リソースをオンデマンドで実行するサーバーレス セットアップを使用することです。 このようにして、消費した 4 時間に対してのみ請求が行われ、長期的には大量のお金を節約できます。 24 時間 365 日稼働する自動スパイダーを使用して Web からデータをスクレイピングする場合は、サーバーベースのセットアップを選択できます。

ウェブサイト変更検出器

5 つの Web サイトから 100 万の Web ページをスクレイピングしている可能性があります。合計で 500 万の Web ページのスクレイピングです。 これらの Web サイトのうち 2 つが UI ベースの変更を行い、クローラーを実行すると、ワークフローで間違ったデータが取得されたとします。 データの使用できない部分を見つけ、クローラーを更新してから、200 万の Web ページに対して再度実行するために、工数と追加のコンピューティング リソースの両方を費やす必要があります。 このような状況は、2 つの Web サイトのルック アンド フィールが変更されたことを通知する変更検出スクリプトを実行していれば、簡単に回避できたはずです。 これにより、時間とお金を節約でき、データ損失の可能性さえあります。

ヒューマン タスクの自動化

Web スクレイピング ワークフローを作成する場合、最初は手動で実行する多数のタスクがあります。 これらには、データの検証と検証、データのクリーンアップ、フォーマットなどの段階が含まれる場合があります。 多くの場合、データ アナリストはローカル マシンでスクリプトを実行するのに何時間も何日も費やします。 大量のデータを処理する可能性があるため、スクリプトの実行にも時間がかかる場合があります。 ここでのより良いオプションは、データのパルスを取得した後、いくつかのステップを自動化することです. 時間が経つにつれて、より多くのタスクを自動化して効率を高める必要があります。

専用サーバーではなくパブリック クラウドを選択する

ミリ秒単位のデータ ストリームを使用して意思決定を行う場合を除き、専用サーバーの代わりにパブリック クラウドを使用する余裕があります。 パフォーマンスがわずかに低下する可能性がありますが、長期的には専用サーバーを使用すると、Web スクレイピングのコストが限界を超えて膨れ上がる可能性があります。

オープンソース ツール

ライセンスされたソフトウェアのほとんどは、月単位または年単位のサブスクリプションによって高額な費用がかかります。 IP ローテーションやデータ クリーニングなどの追加機能が必要な場合は、追加料金を支払うことができます。 また、これらの有料ツールのほとんどにはいくつかの制限があり、新しい機能の追加や変更には、承認された場合に数か月かかる場合があります.

コンプライアンスの問題を外部委託する

ウェブ全体からデータをスクレイピングする場合、次のような複数の法的側面を検討する必要があります。

  1. 個人情報を取得しているかどうか。
  2. その Web サイトの robot.txt ファイル。
  3. ログインページの背後にあるデータに関するルール。
  4. 著作権のあるコンテンツの取り扱い。
  5. コンテンツの再利用が法律に違反していないことを確認します。
  6. コンテンツをスクレイピングする地理的な場所の法律と、エンド ユーザーの居住地を認識します。

もっと…

グローバルなデジタル法は複雑であるため、1 つのミスが原因で、訴訟が間違った結末を迎えることはよくあります。 一方で、すべての企業がそのような問題を処理するための法務チームを持っているわけではなく、費用がかかります。

代わりに、法的要件をアウトソーシングして、新しい Web スクレイピング フローを設定したり、スクレイピングしたデータを使用して製品を作成することを決定したりするときにいつでも彼らの助けを借りることができます。 Fortune 500 の法務部門はそのような問題を社内で処理できますが、Web スクレイピングのオンデマンド法務サービスは中小企業にとってより理にかなっています。

マシンを使用してデータ検証を安価にする

企業が行える切り替えの 1 つは、データの専門家を雇う代わりに、サードパーティのライブラリを使用してデータを検証することです。 多くの場合、何十人ものアナリストが生データを手動で分析し、特定の変更を加え、新しい列を生成し、データを正規化します。 これらのアクティビティのほとんどは、AWS Step Functions などのツールを使用してワークフローを作成することで自動化できます。 これらのワークフローは、以下に基づいて構成できます。

  1. データがライブ ストリームまたはバッチの形式で提供されるかどうか。
  2. 定期的に処理されるデータの量。
  3. データに対して実行する処理のタイプ。
  4. データ ポイントがワークフローを通過するのにかかる許容時間。
  5. 再試行、ロールバック、および再実行メカニズムの必要性。

このようなワークフローの最大の利点は、実際にある程度の手動チェックが必要な場合、人がデータを見て、必要に応じて変更を加え、ボタンを押してワークフローを移動できる手動ステップをワークフローに含めることができることです。次のステップへ。

条件は規模に任せる

何千人もの従業員が複数の国でサービスを提供している企業体にとって最適なスクレイピング ソリューションは、1 つの都市でサービスを提供している 10 人の従業員を抱えるスタートアップにとっては、価格効率が悪い場合があります。 したがって、他の企業からアイデアをスクレイピングしても役に立たない場合があります。 また、会社のスクレイピング計画も、スケールアップに合わせて更新する必要がある場合があります。

変更された部分のみを更新

e コマース Web サイトからデータをスクレイピングしているとします。 説明、プロパティ、返品ポリシー、価格、レビュー数、評価など、重要なデータ ポイントが複数あります。 このデータを定期的に更新する場合は、さまざまなデータ ポイントをさまざまな間隔で更新することをお勧めします。 たとえば、価格を 1 時間ごとに更新し、レビューと評価を毎日更新し、残りのデータ ポイントを毎月更新することができます。 このような変化は小さく見えますが、コストと労力を数百万倍にすると、必要なものだけをリフレッシュしてどれだけ節約できるかがわかります。

PromptCloud などの DaaS プロバイダーの使用

Web スクレイピングに関しては万能というものはありません。そのため、PromptCloud のチームは、スクレイピング要件に基づいてすべての企業にカスタム ソリューションを提供しています。 当社の完全にカスタマイズ可能なソリューションにより、更新できます–

  • データをスクレイピングする必要がある Web サイト。
  • データをスクレイピングする頻度。
  • 抽出するデータ ポイント。
  • スクレイピングされたデータを使用するメカニズム。

プラグインするソースの数に関係なく、アグリゲーター機能を使用すると、単一のストリームでデータを取得できます。

ビジネスでは、ワークフローを迅速に立ち上げて実行する必要がある厳しいスケジュールがあります。 私たちの経験は、要件が整ったら、短期間でスクレイピング パイプラインを設定するのに役立ちます。 また、エンドツーエンドのソリューションを提供することで、クライアントがデータの混沌を理解できるように支援します。 便利なその他の機能は次のとおりです。

  • クラウドに展開されたフルマネージド ノーメンテナンス サービス。
  • 強力な SLA に裏打ちされた迅速なサポート。
  • データが時間内に届くように低レイテンシー。
  • 要件に基づく無制限のスケーラビリティ。
  • スクレイピングワークフロー全体の監視と維持。

データ通信量に応じて課金されるため、固定料金を気にする必要がありません。 真の DaaS ソリューションと同様に、毎月の請求はデータ使用量のみに基づいています。 今すぐ購読して、わずか 4 つのステップで手を抜くことなく、リーズナブルな価格でデータを入手してください。

  1. あなたは私たちに要件を与えます。
  2. サンプルデータをお渡しします。
  3. ご満足いただけましたら、クローラーの設定を完了させていただきます。
  4. データは、選択した形式で、好みの媒体を介してあなたの手に届きます。

選択はあなた次第です。コストがピークに達する前に、Web スクレイピングの手綱を手に入れる時が来ました。