Lehren aus 6 Jahren Web-Crawling

Veröffentlicht: 2017-04-18
Inhaltsverzeichnis anzeigen
1. Das Web ist von Natur aus hochdynamisch
2. Mit sich entwickelnden Webtechnologien werden Websites immer komplexer und uneinheitlicher
3. Das Abrufen von Daten von Webseiten macht nur 10 % des Datenerfassungsspiels aus
4. Die meisten Unternehmen haben kein Budget für das Daten-Crawling bereitgestellt
5. Das Verbieten von Bots kann sich negativ auf die Sichtbarkeit und den Website-Traffic auswirken
6. Websites speichern nicht mehr den gesamten Inhalt im Code
7. 26 % aller Websites laufen auf WordPress
8. Unternehmen glauben, dass sie Daten ohne technisches Know-how crawlen können
Web-Crawling ist ein Nischenprozess

Als das digitale Zeitalter zu blühen begann und Unternehmen sich für ihre Big-Data-Anforderungen dem Internet zuwandten, standen ihnen unzählige Hindernisse bevor. Das Extrahieren von Daten aus dem Internet war mit komplizierten Problemen verbunden, und es war einfach nicht einfach für Unternehmen, sie alle anzugehen, ohne den Fokus auf ihr Kerngeschäft zu verlieren. PromptCloud wurde mit dem Ziel gegründet, Unternehmen dabei zu unterstützen, Daten aus dem Internet so zu erfassen, wie sie es brauchen, ohne mit diesen Engpässen konfrontiert zu werden. Seit unseren Anfängen haben wir uns in diesem Bereich solides Know-how angeeignet. Jetzt, da das Web-Crawling zu einem der unschätzbar wertvollen Tools im Bereich Big-Data-Erfassung geworden ist, freuen wir uns, Ihnen mitzuteilen, was wir in den letzten 6 Jahren beim Crawlen des Webs gelernt haben.

Web-Crawling

1. Das Web ist von Natur aus hochdynamisch

Ob Sie es bemerken oder nicht, das Web ist eine sich ständig verändernde Welt. Jede Website unterliegt täglich Veränderungen. Dies kann Codeverwaltung, Behebung von Sicherheitslücken, Hinzufügen neuer Angebote oder einfach nur Designänderungen sein. Während die meisten dieser Änderungen für menschliche Besucher unbedeutend erscheinen mögen, haben diese Änderungen das Potenzial, Web-Crawling-Bots zu unterbrechen. Die Änderung von Klassennamen, das Hinzufügen neuer Elemente oder sogar die geringsten Designänderungen können zu Störungen beim Crawlen führen. Diese hochdynamische Natur des Webs hat uns gelehrt, wie wichtig es ist, ein robustes Überwachungssystem zu haben, um Website-Änderungen zu erkennen. Dieser ständige Überwachungsbedarf erhöht nicht nur die Gesamtkosten der Datenextraktion, sondern macht sie auch technisch kompliziert.

2. Mit sich entwickelnden Webtechnologien werden Websites immer komplexer und uneinheitlicher

Vorbei sind die Zeiten, in denen Websites mit einfachem HTML und PHP erstellt wurden. Webentwickler verwenden jetzt moderne Codierungspraktiken, um den Besuchern ein reibungsloses Benutzererlebnis zu bieten. Dies hat die Komplexität von Websites erheblich erhöht. Während die Benutzererfahrung einfacher wird, wird das Backend immer komplexer. Die meisten modernen Websites verwenden AJAX-Aufrufe, um Daten aus der Datenbank dynamisch mit der Live-Seite zu synchronisieren, wodurch die Website dynamischer und leistungsfähiger wird. Das Abrufen von Daten wird mit AJAX-Aufrufen im Bild umso schwieriger, da es oft erforderlich wäre, einen echten menschlichen Besucher zu emulieren. Daher haben wir unseren Tech-Stack ständig aktualisiert, um Fälle wie diese zu bewältigen und alle Web-Crawling-Anforderungen zu erfüllen.

3. Das Abrufen von Daten von Webseiten macht nur 10 % des Datenerfassungsspiels aus

Bei der Datenerfassung geht es nicht nur darum, die Daten von einer Live-Webseite im Internet zu kratzen. Tatsächlich ist das Abrufen von Daten nur ein winziger Schritt, mit dem das Datenerfassungsspiel beginnt. Verschrottete Daten sind oft riesig und würden zunächst ein geeignetes Speichersystem erfordern. Verteilte Server werden zum Speichern der abgerufenen Daten verwendet, was dazu beiträgt, die Verarbeitungsgeschwindigkeit zu erhöhen und die Latenz zu reduzieren. Die Pflege der Daten ist eine weitere Herausforderung, die häufige automatisierte Backups erfordert. Auch die anwendungsgerechte Bereinigung und Strukturierung der Daten ist ein wesentlicher Bestandteil der Datenerfassung. Da die zu verarbeitende Datenmenge zunimmt, muss eine zuverlässige Datenpipeline eingerichtet werden, um diese Datensätze regelmäßig abzurufen. Hinter einer Web-Crawling-Lösung laufen eine Vielzahl von Prozessen, die nicht auf den ersten Blick sichtbar sind.

4. Die meisten Unternehmen haben kein Budget für das Daten-Crawling bereitgestellt

Die meisten Unternehmen neigen dazu, ein gemeinsames Budget für ihr Datenprojekt zuzuweisen, ohne die wichtigen und eigenständigen Phasen zu berücksichtigen, die Teil davon sind. Die Datenerfassung an sich ist ein herausfordernder und aufmerksamkeitsstarker Prozess, der ein exklusives Budget haben sollte. Mit einem schmalen Budget für das Datenprojekt würden Sie etwa 50 % davon aufbrauchen, nur um Webdaten zu sammeln. Daher ist es entscheidend, die mit der Datenerfassung verbundenen Kostenpunkte besser zu verstehen.

5. Das Verbieten von Bots kann sich negativ auf die Sichtbarkeit und den Website-Traffic auswirken

Web-Crawling-Spider, auch bekannt als Bots, tragen zu etwa 61 % des Internetverkehrs bei. Viele Unternehmen machen den Fehler, anzunehmen, dass der Traffic von Bots irrelevant oder sogar schädlich ist. Das ist der Grund, warum manche so weit gehen, Bots über die robots.txt ganz zu verbieten. Sie wissen wenig über die positiven Vorteile von Bots. Viele Bots, die von Feed-Aggregation-Sites, Suchmaschinen, Blogs oder Branchenverzeichnissen betrieben werden, dienen als Mittel, um den Sites zugänglich zu machen. Einfach ausgedrückt, wenn Sie die Bots blockieren, erschweren Sie es Ihrer Website, Backlinks, Bekanntheit und Traffic zu gewinnen.

6. Websites speichern nicht mehr den gesamten Inhalt im Code

Vor einem Jahrzehnt hatten die meisten Websites ihren gesamten Inhalt im Quellcode der Seite. Dies bedeutete in der Regel, dass bei jedem erneuten Laden des Benutzers der gesamte Inhalt einer Seite geladen wurde, da hier kein Caching möglich ist. Es war auch ein Albtraum für die Entwickler, die sich mit diesem Durcheinander von Code auseinandersetzen mussten. Die Codierungspraktiken haben sich seitdem drastisch weiterentwickelt, und die meisten Websites folgen jetzt Best Practices wie dem asynchronen Laden von Skripten, dem Vermeiden von Inline-CSS usw. Die Codierungspraktiken im Web haben sich in den letzten zehn Jahren stark weiterentwickelt.

7. 26 % aller Websites laufen auf WordPress

WordPress ist ein sehr beliebtes Content-Management-System und ein großer Teil der Websites im Internet läuft auf dieser Plattform. Von den Millionen von Websites, die wir bisher gecrawlt haben, wurden etwa 26 % mit WordPress erstellt. Dies zeigt die Vielseitigkeit von WordPress als CMS und wir glauben, dass die Popularität wohlverdient ist.

8. Unternehmen glauben, dass sie Daten ohne technisches Know-how crawlen können

Viele Unternehmen, die nicht gut darüber informiert sind, wie kompliziert eine Prozessdatenextraktion wirklich ist, machen den Fehler, sich für ein DIY-Tool oder ein internes Crawling-Setup zu entscheiden. DIY-Tools scheinen eine attraktive Lösung zu sein, wenn man bedenkt, wie sie als einfach zu bedienende Datenextraktionstools beworben werden. Ihre Einfachheit hat jedoch ihren Preis. Diese Tools sind nicht in der Lage, eine ernsthafte, umfangreiche Datenextraktionsanforderung zu bewältigen, und sind für die Extraktion auf Einstiegsebene gedacht, bei der die Zielsite einfach ist und die Datenqualität keine Rolle spielt.

Obwohl die Auslagerung der Webdatenextraktion an einen Anbieter Ressourcen freisetzen kann und sich das technische Personal mehr auf die Anwendung von Daten konzentriert, beachten Sie, dass Sie immer noch technisches Personal auf Ihrer Seite benötigen, um auf die Daten zuzugreifen und sie zu speichern.

Web-Crawling ist ein Nischenprozess

Aus unserer jahrelangen Erfahrung mit dem Crawlen und Abrufen von Daten von Millionen von Websites für Hunderte von Kunden ist eines klar – Sie benötigen ein engagiertes Team und High-End-Ressourcen, um einen Web-Datenextraktionsprozess durchzuführen. Die Techniken, die wir jetzt verwendet haben, um die Extraktion schneller, effizienter und fehlerfreier zu machen, sind das Produkt jahrelanger Erfahrung und Tüftelei. Sie können diese technische Barriere leicht umgehen, indem Sie Ihr Projekt zur Extraktion von Webdaten an uns auslagern und mehr Zeit für das Kerngeschäft aufwenden.