Warum Unternehmen Web Scraping an PromptCloud auslagern

Veröffentlicht: 2017-06-24
Inhaltsverzeichnis anzeigen
Zunehmende Komplexität von Websites
Skalierbarkeit des Extraktionsprozesses
Datenqualität und Pflege
Problemlose Datenextraktion
Überqueren der technischen Barriere
Fazit

Da die Geschäftswelt Webdaten schnell einführt, um verschiedene Anwendungsfälle zu ergänzen, deren Zahl von Tag zu Tag wächst, ist der Bedarf an einem zuverlässigen Web-Scraping-Dienst gestiegen. Viele Geschäftsinhaber machen oft den Fehler, auf Do-it-yourself-Tools hereinzufallen, die behaupten, die magischen Lösungen zu sein, um Daten von jeder Website im Internet zu crawlen. Das erste, was Sie über Web Scraping wissen sollten, ist, dass es keine sofort einsatzbereite Lösung gibt, die Daten von jeder Website extrahieren kann.

Web-Scraping-Service für Unternehmen

Das soll nicht heißen, dass die DIY-Web-Scraping-Tools da draußen nicht funktionieren – sie tun es. Das Problem ist, dass diese Tools nur in einer perfekten Webwelt reibungslos funktionieren, die es leider nicht gibt. Jede Website ist anders in Bezug darauf, wie sie die Daten präsentiert – die Navigation, Codierungspraktiken, die Verwendung dynamischer Skripte usw. sorgen für eine große Vielfalt bei der Erstellung von Websites. Aus diesem Grund ist es nicht möglich, ein Web-Scraping-Tool zu erstellen, das mit allen Websites gleichermaßen umgehen kann.

Wenn es um Web Scraping geht, kommen Tools nicht in Frage. Das Extrahieren von Daten aus dem Internet sollte idealerweise ein vollständig verwalteter Service sein, den wir in den letzten 8 Jahren perfektioniert haben. Sie müssen uns nicht glauben, warum Web-Scraping-Tools nicht gut für die Extraktion von Webdaten auf Unternehmensebene geeignet sind.

Wir haben einige der Antworten unserer Kunden zusammengestellt, warum sie sich entschieden haben, zu unserem Managed Web Scraping Service zu wechseln und die „Magic“-Tools hinter sich zu lassen.

Zunehmende Komplexität von Websites

Hier ist ein Kommentar, den wir kürzlich in einem unserer Blogs erhalten haben.

„Ich versuche, die Daten der Gelben Seiten zu crawlen. Ich habe eine Liste mit 64 Seiten von Geschäften gefunden. Ich habe eine Auswahl für Firmennamen, Adresse und Telefonnummer hinzugefügt. Ich habe mit der rechten Maustaste auf jedes Feld geklickt, um den Namen, die Adresse und die Telefonnummer zu prüfen/kopieren/kopieren. Ich habe die URL gelöscht und nur das Ende geändert, um die Seiten/[001-064] zu lesen. Ich klickte auf Crawl und zu meiner Überraschung waren die einzigen Daten, die geschabt wurden, für die Seite 001. Ich klickte auf die Mehrfachregisterkarte in jedem Auswahlfeld (für Name, Adresse und Telefon). Warum habe ich nur Daten für die erste Seite erhalten? Soll das Crawl-Tool wissen, dass ich für alle 64 Seiten die gleichen Daten für jedes Unternehmen (30 pro Seite) haben wollte? Danke im Voraus."

Der Kommentator hier hat versucht, Daten von einer klassifizierten Website zu crawlen, aber das von ihm verwendete Tool konnte nicht zu den Innenseiten in der Warteschlange navigieren und hat nur die erste Seite gelöscht. Dies ist ein häufiges Problem im Zusammenhang mit Web-Scraping-Tools. Sie funktionieren in der Regel gut mit Websites, die einfache Navigationsstrukturen verwenden, scheitern jedoch, wenn die Website auch nur eine mäßig komplexe Navigation verwendet. Mit dem Ziel, die Benutzererfahrung zu verbessern, übernehmen viele Websites jetzt AJAX-basiertes unendliches Scrollen, was dies noch komplexer macht. Solche dynamischen Codierungspraktiken würden die meisten, wenn nicht alle Web-Scraper-Tools nutzlos machen.

Was hier benötigt wird, ist ein vollständig anpassbares Setup und ein dedizierter Ansatz, bei dem eine Kombination aus manuellen und automatisierten Ebenen verwendet wird, um herauszufinden, wie die Website AJAX-Aufrufe erhält, um sie mit dem benutzerdefinierten Crawler nachzuahmen. Da die Komplexität von Websites im Laufe der Zeit immer weiter zunimmt, wird die Notwendigkeit einer anpassbaren Lösung anstelle eines starren Tools umso offensichtlicher.

Skalierbarkeit des Extraktionsprozesses

Hier ist eine wörtliche Notiz von einem unserer Kunden darüber, wie er den Prozess nicht skalieren konnte, nachdem er versucht hatte, ein internes Crawling-Setup zu erstellen.

Wir haben alle Crawler selbst gebaut und ich bin einfach nicht zufrieden mit der Art und Weise, wie wir es gemacht haben, und da Sie eine bessere Lösung haben, wäre ich an einem Gespräch interessiert. Ich möchte auch eine Lösung, die schließlich mehr als 5000 Einzelhandelsseiten crawlen kann.

Viele Unternehmer haben das Bedürfnis, das Rad neu zu erfinden. Dies ist auch besser bekannt als das NIH-Syndrom (hier nicht erfunden) , das einfach ausgedrückt der Drang ist, einen Prozess intern durchzuführen, anstatt ihn auszulagern. Natürlich gibt es einige Prozesse, die besser intern durchgeführt werden können, und ein großartiges Beispiel ist der Kundensupport. Die Auslagerung des Kundensupports ist Blasphemie.

Web Scraping gehört jedoch nicht dazu. Da die mit großangelegter Webdatenextraktion verbundene Komplexität zu nischenhaft ist, um von einem Unternehmen gemeistert zu werden, das sich nicht vollständig damit beschäftigt, kann sich dies tatsächlich als fataler Fehler erweisen. Wir haben festgestellt, dass viele unserer bestehenden Kunden versuchen, Schaber im eigenen Haus zu bauen, um erst später auf unsere Lösung zurückzugreifen; abgesehen davon, dass Sie wertvolle Zeit und Mühe verloren haben.

Es ist eine Tatsache, dass jeder eine einzelne Webseite crawlen kann. Die eigentliche Herausforderung besteht darin, Millionen von Webseiten gleichzeitig zu extrahieren und alles in strukturierte und maschinenlesbare Daten zu verarbeiten. Einer der USPs unserer Web-Scraping-Lösung ist der Aspekt der Skalierbarkeit. Mit unseren Clustern aus Hochleistungsservern, die über verschiedene Regionen verteilt sind, haben wir eine felsenfeste Infrastruktur aufgebaut, um Webdaten in großem Maßstab zu extrahieren.

Datenqualität und Pflege

Einer unserer Kunden suchte nach einer Lösung, die ihm qualitativ hochwertige Daten liefern konnte, da das von ihm verwendete Tool keine strukturierten Daten liefern konnte.

Um ganz ehrlich zu sein: Wir arbeiten im Moment mit einem kostenlosen Service und alles funktioniert ganz gut. Wir können Daten von allen Seiten in eine Excel-Tabelle importieren und sie dann in podio importieren. Aber zu diesem Zeitpunkt können wir die Informationen nicht erfolgreich filtern. Aber wir stehen in engem Kontakt mit ihnen, um dieses Problem zu lösen. Da die jetzige Lösung eigentlich etwas inkonsequent ist, muss immer wieder neu überlegt werden. Haben Sie eine fertige Lösung für uns?

Das Extrahieren von Informationen aus dem Internet an sich ist ein komplexer Prozess. Noch schwieriger ist es jedoch, die unstrukturierten Informationen im Internet in perfekt strukturierte, saubere und maschinenlesbare Daten umzuwandeln. Die Qualität der Daten ist etwas, auf das wir stolz sind, und Sie können in unserem vorherigen Blogbeitrag mehr darüber erfahren, wie wir die Datenqualität aufrechterhalten .

Um die Dinge ins rechte Licht zu rücken: Unstrukturierte Daten sind so gut wie keine Daten. Wenn Ihr Computer sie nicht lesen kann, können Sie die riesige Menge an Informationen in den Daten nicht verstehen.

Außerdem können Sie nicht einfach ein perfekt funktionierendes Web-Crawling-Setup erstellen und es vergessen. Das Web ist von Natur aus hochdynamisch. Die Aufrechterhaltung der Datenqualität erfordert konsequente Bemühungen und eine genaue Überwachung sowohl auf manueller als auch auf automatisierter Ebene. Dies liegt daran, dass Websites häufig ihre Struktur ändern, was den Crawler fehlerhaft machen oder zum Stillstand bringen könnte, was sich auf die Ausgabedaten auswirkt. Datenqualitätssicherung und rechtzeitige Wartung sind wesentliche Bestandteile für den Betrieb eines Web-Crawling-Setups. Bei PromptCloud übernehmen wir die End-to-End-Verantwortung für diese Aspekte.

Problemlose Datenextraktion

Wir haben kürzlich Feedback von unseren Kunden eingeholt und hier ist ein Auszug aus einer der Antworten.

Wir hatten unsere eigene Lösung, und sie funktionierte, aber sie erforderte ständige Anpassungen, wodurch wertvolle Entwicklungsressourcen gestohlen wurden. Ich glaube, dass die Datenerfassung immer komplizierter wird, während der Bedarf an Datenerfassung durch Crawling ständig wächst.

Dieser Kunde, der jetzt 5 Jahre bei uns ist, hatte früher sein eigenes Web-Crawling-Setup, wollte aber die Komplikationen und Probleme des Prozesses beseitigen. Aus betriebswirtschaftlicher Sicht ist das eine gute Entscheidung. Jedes Unternehmen muss sich ausschließlich auf sein Kernangebot konzentrieren, um zu wachsen und erfolgreich zu sein, insbesondere wenn man bedenkt, dass der Wettbewerb derzeit in allen Märkten auf dem Höhepunkt ist. Die Einrichtung, ständige Wartung und all die anderen Komplikationen, die mit der Extraktion von Webdaten einhergehen, können Ihre internen Ressourcen leicht in Anspruch nehmen und Ihr Unternehmen insgesamt belasten.

Überqueren der technischen Barriere

Diesem jüngsten Lead fehlte das technische Know-how, um ein Web-Crawling-Projekt selbst einzurichten und durchzuführen.

Ich denke, dass wir Sie möglicherweise verwenden würden, um Websites nach Bedarf basierend auf den Anforderungen unserer Kunden hinzuzufügen, wenn wir nicht über die Fähigkeit und das Fachwissen verfügen, sie selbst hinzuzufügen. Wir haben auch nicht die URLs, von denen Sie abrufen müssten, also bräuchten wir die gespiderten Websites, um alle Produktseiten abzurufen.

Web Scraping ist ein technisch anspruchsvoller Prozess – was bedeutet, dass Sie ein Team talentierter Entwickler benötigen würden, um die Crawler auf optimierten Servern einzurichten und einzusetzen, um mit der Datenextraktion zu beginnen.

Allerdings sind nicht alle Unternehmen Experten im Schaben, da jedes seinen eigenen Schwerpunkt hat. Wenn Technologie nicht Ihre Stärke ist, ist es völlig verständlich, dass Sie sich auf einen Dienstanbieter verlassen müssen, um Webdaten für Sie zu extrahieren. Mit unserer langjährigen Erfahrung im Bereich der Webdatenextraktion sind wir jetzt in der Lage, Web-Scraping-Projekte jeder Komplexität und Größenordnung anzugehen.

Fazit

Da die Nachfrage nach Webdaten in der Geschäftswelt steigt, ist es für Unternehmen unvermeidlich, nach besseren Wegen zu suchen, um die Goldmine der im Internet verfügbaren Daten zu erwerben. Wenn Sie sich die verschiedenen Aspekte der Webdatenextraktion ansehen, wird klar, dass es der richtige Weg ist, dies Scraping-Spezialisten zu überlassen.