Kostensenkung ohne Abstriche bei der Erfassung von Daten aus dem Internet

Veröffentlicht: 2023-02-13
Inhaltsverzeichnis anzeigen
Fortsetzen > Neustart
Server vs. serverlos
Website-Änderungsdetektor
Menschliche Aufgaben automatisieren
Wählen Sie eine öffentliche Cloud anstelle von dedizierten Servern
Open-Source-Tool
Outsourcen Sie Compliance-Probleme
Machen Sie die Datenvalidierung mit Maschinen billiger
Lassen Sie die Skalierung die Bedingungen diktieren
Aktualisieren Sie nur das, was sich geändert hat
Verwendung eines DaaS-Anbieters wie PromptCloud

Daten aus dem Internet zu kratzen, ohne einen Plan zur Hand zu haben, ist mit Risiken behaftet. Wenn Sie sich in komplexen Websites und Datensauberkeit verlieren, wird Ihr Budget schnell überschritten. Noch höher sind die Chancen, wenn Sie Cloud-Ressourcen nutzen und die anfallenden Kosten nicht täglich nachverfolgen. In Bezug auf die Kostenoptimierung müssen Sie Ihren gesamten Workflow betrachten, typischerweise einschließlich:

  1. Daten aus dem Web kratzen.
  2. Bereinigung und Normalisierung von Daten.
  3. Speichern der Daten in einem Medium wie einer Datenbank oder einem S3-Bucket.
  4. Zugriff auf die Daten über API-Aufrufe oder direkter Zugriff auf den Speicherort.
  5. Mögliche Verschlüsselung und Entschlüsselung von Daten (falls die Daten sensibel sind und hohe Sicherheit von größter Bedeutung ist).
  6. Verarbeitung der gekratzten Daten, um sie für nachgelagerte Workflows nutzbar zu machen.

Fortsetzen > Neustart

In vielen Fällen, wenn Sie Dutzende von Datenpunkten über Millionen von Webseiten kratzen, kann Ihr Code irgendwann brechen. In den meisten Szenarien beginnen die Leute damit, die gesamte Aufgabe neu zu starten – ja, das ist in der Tat viel einfacher zu implementieren und zu verwenden. Mit ein wenig technischem Wunderwerk, möglicherweise unter Verwendung eines Caching-Mechanismus, können Sie jedoch sicherstellen, dass Sie den Checkpoint speichern, wenn ein Scraping-Job abbricht. Sobald Sie das Problem hinter Ihrem Bruch behoben haben, können Sie die Daten löschen, indem Sie vom gespeicherten Kontrollpunkt aus fortfahren.

Server vs. serverlos

Dieser Punkt ist wichtig für diejenigen, die Daten nicht in Echtzeit, sondern in Stapeln kratzen. Angenommen, Sie kratzen zweimal täglich Daten von einer Million Webseiten. Jedes Mal dauert der Abkratzvorgang 2 Stunden. Die Gesamtzeit, die für die tägliche Ausführung der Aufgabe benötigt wird, beträgt also 2 + 2 = 4 Stunden. Wenn Sie jetzt eine serverbasierte Einrichtung mit so etwas wie einer AWS EC-2-Instanz haben, werden Ihnen 24 Stunden in Rechnung gestellt, es sei denn, Sie schalten die Instanz jedes Mal manuell ein und aus – ein mühsames und leicht zu verwirrendes Verfahren. up-Prozess. Der bessere Weg, den Sie hier einschlagen sollten, ist die Verwendung eines serverlosen Setups, bei dem Sie Cloud-Ressourcen wie AWS Lambda oder Fargate nach Bedarf ausführen. Auf diese Weise werden Ihnen nur die 4 Stunden in Rechnung gestellt, die Sie verbrauchen, und Sie sparen langfristig viel Geld. Falls Sie Daten mit automatisierten Spidern, die rund um die Uhr laufen, aus dem Internet kratzen, können Sie das serverbasierte Setup wählen.

Website-Änderungsdetektor

Sie können eine Million Webseiten von 5 Websites schaben – insgesamt 5 Millionen Webseiten-Scraps. Angenommen, zwei dieser Websites nehmen UI-basierte Änderungen vor und wenn Sie Ihren Crawler ausführen, erhalten Sie die falschen Daten in Ihrem Workflow. Jetzt müssen Sie sowohl Arbeitsstunden als auch zusätzliche Rechenressourcen aufwenden, um herauszufinden, welcher Teil der Daten unbrauchbar ist, den Crawler zu aktualisieren und ihn dann erneut für 2 Millionen Webseiten auszuführen. Eine solche Situation hätte leicht vermieden werden können, wenn Sie ein Änderungserkennungsskript ausgeführt hätten, das Ihnen mitgeteilt hätte, dass sich das Erscheinungsbild von 2 der Websites geändert hat. Dies würde Ihnen Zeit, Geld und sogar einen möglichen Datenverlust ersparen.

Menschliche Aufgaben automatisieren

Beim Erstellen eines Web-Scraping-Workflows gibt es zahlreiche Aufgaben, die zunächst manuell ausgeführt werden. Dazu können Phasen wie Datenüberprüfung und -validierung, Datenbereinigung, Formatierung und mehr gehören. Oft verbringen Datenanalysten Stunden und Tage damit, Skripte auf ihren lokalen Rechnern auszuführen. Angesichts der großen Datenmenge, die sie möglicherweise verarbeiten, kann die Ausführung der Skripts auch eine Weile dauern. Die bessere Option ist hier, einige der Schritte zu automatisieren, nachdem Sie den Puls der Daten erhalten haben. Mit der Zeit sollten Sie darauf abzielen, mehr Aufgaben zu automatisieren, um die Effizienz zu steigern.

Wählen Sie eine öffentliche Cloud anstelle von dedizierten Servern

Sofern Sie keine Entscheidungen anhand eines Datenstroms treffen, bei dem jede Millisekunde zählt, können Sie es sich leisten, eine öffentliche Cloud anstelle von dedizierten Servern zu verwenden. Es kann zu einer leichten Verschlechterung der Leistung kommen, aber die Verwendung dedizierter Server auf lange Sicht kann dazu führen, dass Ihre Web-Scraping-Kosten ohne jegliche Begrenzung in die Höhe schnellen.

Open-Source-Tool

Die meiste lizenzierte Software kostet eine Bombe durch monatliche oder jährliche Abonnements. Falls Sie zusätzliche Funktionen wie IP-Rotation oder Datenbereinigung benötigen, können Ihnen zusätzliche Gebühren in Rechnung gestellt werden. Außerdem sind die meisten dieser kostenpflichtigen Tools mit einigen Einschränkungen verbunden, und das Hinzufügen neuer Funktionen oder Änderungen kann Monate dauern, sofern sie genehmigt werden.

Outsourcen Sie Compliance-Probleme

Beim Scraping von Daten aus dem gesamten Web müssten Sie mehrere rechtliche Aspekte berücksichtigen, z

  1. Ob Sie persönliche Informationen erfassen.
  2. Die robot.txt-Datei für diese Website.
  3. Die Regeln rund um Daten, die sich hinter einer Anmeldeseite befinden.
  4. Umgang mit urheberrechtlich geschützten Inhalten.
  5. Sicherzustellen, dass die Wiederverwendung von Inhalten nicht gegen Gesetze verstößt.
  6. Seien Sie sich der Gesetze des geografischen Standorts bewusst, von dem Sie Ihre Inhalte abrufen, und wo sich Ihre Endbenutzer befinden.

Und mehr…

Aufgrund der Komplexität globaler digitaler Gesetze ist es leicht, sich aufgrund eines Fehltritts am falschen Ende eines Rechtsstreits wiederzufinden. Andererseits hätte nicht jedes Unternehmen ein Anwaltsteam, das sich um solche Angelegenheiten kümmert – es wird teuer.

Sie könnten stattdessen Ihre gesetzlichen Anforderungen auslagern, damit Sie ihre Hilfe in Anspruch nehmen können, wenn Sie einen neuen Web-Scraping-Flow einrichten oder sich entscheiden, ein Produkt mit Scraping-Daten zu erstellen. On-Demand-Rechtsdienste für Web Scraping wären für kleine oder mittlere Unternehmen sinnvoller, während die Rechtsabteilungen der Fortune 500 solche Probleme intern behandeln können.

Machen Sie die Datenvalidierung mit Maschinen billiger

Ein Wechsel, den Unternehmen vornehmen können, besteht darin, Bibliotheken von Drittanbietern zu verwenden, um die Daten zu validieren, anstatt Datenspezialisten hinzuzuziehen. Oft analysieren Dutzende von Analysten die Rohdaten manuell, nehmen bestimmte Änderungen vor, generieren neue Spalten und normalisieren die Daten. Die meisten dieser Aktivitäten können automatisiert werden, indem Workflows mit Tools wie AWS Step Functions erstellt werden. Diese Workflows können basierend auf folgenden Faktoren konfiguriert werden:

  1. Egal, ob Ihre Daten in Form eines Live-Streams oder in Stapeln vorliegen.
  2. Die Menge der Daten, die periodisch verarbeitet werden.
  3. Die Art der Verarbeitung, die Sie mit den Daten durchführen möchten.
  4. Die akzeptable Zeit, die ein Datenpunkt benötigen kann, um den Workflow zu durchlaufen.
  5. Die Notwendigkeit von Wiederholungs-, Rollback- und Wiederholungsmechanismen.

Der größte Vorteil solcher Workflows besteht darin, dass Sie, wenn Sie tatsächlich einige manuelle Überprüfungen benötigen, einen manuellen Schritt im Workflow haben können, bei dem eine Person einen Blick auf die Daten werfen, bei Bedarf Änderungen vornehmen und einen Knopf drücken kann, um den Workflow zu verschieben zum nächsten Schritt.

Lassen Sie die Skalierung die Bedingungen diktieren

Die beste Scraping-Lösung für eine Unternehmenseinheit mit Tausenden von Mitarbeitern, die in mehreren Ländern tätig sind, ist für ein Startup mit 10 Mitarbeitern, die eine einzige Stadt bedienen, möglicherweise nicht preisgünstig. Daher ist es möglicherweise nicht hilfreich, Scraping-Ideen von anderen Firmen zu übernehmen. Auch der Scraping-Plan in Ihrem Unternehmen muss möglicherweise aktualisiert werden, wenn Sie skalieren.

Aktualisieren Sie nur das, was sich geändert hat

Angenommen, Sie kratzen Daten von einer E-Commerce-Website. Sie haben mehrere Datenpunkte, die wichtig sind, z. B. Beschreibung, Eigenschaften, Rückgaberecht, Preis, Anzahl der Rezensionen, Bewertungen und mehr. Falls Sie diese Daten nun regelmäßig aktualisieren, möchten Sie möglicherweise verschiedene Datenpunkte in unterschiedlichen Intervallen aktualisieren. Beispielsweise können Sie den Preis stündlich aktualisieren, die Rezensionen und Bewertungen täglich und die restlichen Datenpunkte jeden Monat. Auch wenn eine solche Änderung klein aussieht, wenn Sie die Kosten und den Aufwand mit ein paar Millionen multiplizieren, werden Sie feststellen, wie viel Auffrischung Sie nur mit dem sparen können, was Sie brauchen.

Verwendung eines DaaS-Anbieters wie PromptCloud

Beim Web Scraping gibt es keine Einheitslösung, weshalb unser Team bei PromptCloud maßgeschneiderte Lösungen für jedes Unternehmen basierend auf seinen Scraping-Anforderungen anbietet. Unsere vollständig anpassbare Lösung ermöglicht Ihnen die Aktualisierung –

  • Websites, von denen Sie Daten kratzen müssen.
  • Häufigkeit des Scraping von Daten.
  • Zu extrahierende Datenpunkte.
  • Der Mechanismus, mit dem Sie die gelöschten Daten verwenden möchten.

Egal wie viele Quellen Sie anschließen, unsere Aggregator-Funktion kann Ihnen dabei helfen, die Daten in einem einzigen Stream zu erhalten.

Unternehmen haben enge Zeitpläne, in denen sie Workflows schnell zum Laufen bringen müssen. Unsere Erfahrung hilft uns, Kratzleitungen in kurzer Zeit einzurichten, sobald wir die Anforderungen haben. Wir helfen unseren Kunden auch dabei, das Datenchaos zu verstehen, indem wir End-to-End-Lösungen anbieten. Weitere praktische Funktionen sind

  • Vollständig verwalteter, wartungsfreier Service, der in der Cloud bereitgestellt wird.
  • Sofortige Unterstützung durch starke SLAs.
  • Niedrige Latenz, damit die Daten Sie rechtzeitig erreichen.
  • Unbegrenzte Skalierbarkeit basierend auf Ihren Anforderungen.
  • Überwachung und Pflege des gesamten Scraping-Workflows.

Da wir nach verbrauchter Datenmenge abrechnen, müssen Sie sich keine Gedanken über Fixkosten machen. Wie bei einer echten DaaS-Lösung basiert Ihre monatliche Rechnung nur auf Ihrem Datenverbrauch. Also abonnieren Sie uns jetzt und erhalten Sie Daten zu einem günstigen Preis ohne Abstriche in nur 4 Schritten:

  1. Sie geben uns die Anforderungen.
  2. Wir geben Ihnen Beispieldaten.
  3. Wir werden das Crawler-Setup abschließen, wenn Sie zufrieden sind.
  4. Die Daten erreichen Sie im Format Ihrer Wahl und über das bevorzugte Medium.

Sie haben also die Wahl, und es ist an der Zeit, die Zügel des Web Scraping in die Hand zu nehmen, bevor Ihre Kosten ihren Höhepunkt erreichen.