Rechtmäßigkeit des Extrahierens öffentlich verfügbarer nutzergenerierter Inhalte – PromptCloud

Veröffentlicht: 2017-08-22

Als Unternehmen für Webdatenlösungen stoßen wir häufig auf Fragen zur Rechtmäßigkeit von Web Scraping. Bevor wir uns mit der Beantwortung dieser Frage befassen, wollen wir zunächst den Begriff „Web Scraping“ verstehen. Einfach ausgedrückt ist es ein Teil des Web-Crawlings (Auffinden von Webseiten und Herunterladen), bei dem Daten aus Webseiten extrahiert werden, um relevante Informationen zu sammeln. Entscheidend dabei ist, dass ein Bot (ähnlich dem Google-Bot) diese Tätigkeit automatisiert ausführt und damit die manuellen Tätigkeiten eines Menschen eliminiert. Wenn Bots auf Webseiten zugreifen, um Inhalte abzurufen, verhalten sie sich ganz ähnlich wie der Browser-Agent die Seiten aufruft. Also, warum haben wir so viel Tamtam um das „Schaben“? Der Grund dafür kann in erster Linie auf die Missachtung der etablierten Protokolle zurückgeführt werden.

Öffentlich verfügbare nutzergenerierte Inhalte

Hier sind einige der Grundregeln, die jeder befolgen muss, der Daten aus dem Internet crawlen möchte:

  • Robots.txt-Datei

Diese Datei gibt an, wie eine Website gecrawlt werden möchte. Es enthält die Liste der zugänglichen Seiten, eingeschränkten Seiten, Anforderungslimits, abgesehen von explizit erwähnten Bots, die für das Crawlen zugelassen oder gesperrt sind. Sehen Sie sich diesen Beitrag an, um mehr über das Lesen und Respektieren der robots.txt-Datei zu erfahren.

  • Nutzungsbedingungen

Ein weiterer wichtiger Kontrollpunkt ist die Seite mit den Allgemeinen Geschäftsbedingungen, auf der die Einzelheiten der Erfassung und Verwendung dieser Daten sowie andere Richtlinien beschrieben werden. Stellen Sie sicher, dass Sie gegen nichts verstoßen, was auf dieser Seite erwähnt wird.

  • Öffentliche Inhalte

Halten Sie sich an die Daten, die der Öffentlichkeit zugänglich sind, es sei denn, Sie haben die Erlaubnis der Website. Das heißt, wenn auf die Daten nur durch Einloggen zugegriffen werden kann, sind sie für die Website-Benutzer bestimmt, nicht für die Bots.

  • Crawl-Frequenz

Die robots.txt-Datei erwähnt die Crawling-Häufigkeit und -Rate, mit der Bots die Website erreichen können. Daher müssen Sie sich daran halten und falls dies nicht erwähnt wurde, sind Sie dafür verantwortlich, dass der Site-Server nicht durch Zugriffe überlastet wird. Dies ist erforderlich, um sicherzustellen, dass der Scraper höflich ist; Der Server erschöpft seine Ressourcen nicht und kann die tatsächlichen Benutzer nicht bedienen.

Abgesehen von diesen obligatorischen Regeln gibt es noch andere Best Practices für Web Scraping, die in diesem Beitrag behandelt wurden. Um auf unsere erste Frage zurückzukommen, dh ob Web Scraping legal ist oder nicht? Wir können mit Sicherheit sagen, dass Sie sich im legalen Bereich befinden, wenn Sie sich an die oben genannten Regeln halten. Um ganz auf der sicheren Seite zu sein, müssen Sie dies aber anwaltlich prüfen lassen. Es gab mehrere Fälle von Klagen wie Facebook gegen Pete Warden, Associated Press gegen Meltwater Holdings, Inc., Southwest Airlines Co. gegen BoardFirst, LLC und mehr.

Allerdings gibt es eine größere Frage um uns herum – sollten mächtige Unternehmen, die Petabytes an öffentlich zugänglichen Daten (insbesondere nutzergenerierte Daten) hosten, selektiv vorgehen, während sie den Zugriff darauf gewähren? Diese Frage taucht im Wesentlichen im Zusammenhang mit den jüngsten Ereignissen im Zusammenhang mit den Gerichtsverfahren gegen LinkedIn (im Besitz von Microsoft) und hiQ Labs auf. Für die Uneingeweihten: hiQ Labs ist ein Startup, das Daten aus den öffentlichen Profilen auf LinkedIn kratzte, um seine maschinellen Lernalgorithmen zu trainieren. Im Mai schickte LinkedIn ein Unterlassungsschreiben (C&D) an hiQ, in dem es sie anwies, das Scrapen von Daten aus seinem sozialen Netzwerk einzustellen. Der Brief hatte mehrere Fälle erwähnt, darunter Craigslist Inc. gegen 3Taps Inc., in denen das Urteil gegen 3Taps ausfiel und sie als Verstoß gegen das Computer Fraud and Abuse Act befunden wurden, weil sie von Craigslist eingesetzte IP-Sperrtechniken umgangen hatten. Wir sollten auch beachten, dass LinkedIn technische Maßnahmen ergriffen hat, um hiQ den Zugriff auf die öffentlichen Daten zu verwehren. HiQ Labs reagierte jedoch, indem es im Juni eine Klage gegen LinkedIn einreichte und anführte, dass LinkedIn gegen Kartellgesetze verstoßen habe.

Eines der Hauptprobleme, das von hiQ angesprochen wurde, betrifft die wettbewerbswidrigen Praktiken von LinkedIn, wonach LinkedIn seine eigenen Analyse- und Data-Science-Lösungen einführen wollte, die von den Angeboten des Unternehmens abgeschreckt werden könnten. Sie geben auch an, dass LinkedIn bereits seit Jahren von ihm wusste und sie sogar eine Auszeichnung von hiQ auf einer bestimmten Datenanalysekonferenz entgegengenommen hatten.

Um zum Kern der Probleme zu kommen, können wir sehen, dass keine „Autorisierung“ erforderlich ist, um auf die öffentlichen Profilseiten auf LinkedIn zuzugreifen. Daher hat die Behauptung von LinkedIn, dass das Scraping dieser Daten möglicherweise gegen das Computer Fraud and Abuse Act verstößt, indem eine Authentifizierungsanforderung umgangen wird, keine starke Grundlage. Das Besondere an diesem Fall ist, dass hiQ nur die öffentlich zugänglichen Daten scrapt, während die Scraper in anderen Fällen ohne Vorankündigung die Privatsphäre oder die Datennutzung der Benutzer verletzt haben. Wenn wir nur die manuelle Aktivität betrachten, könnte jeder auf jedes Profil klicken und sich die Daten ansehen, um alle Informationen zu kopieren und die Daten dann an das Computersystem weiterzugeben. Obwohl theoretisch machbar, ist dies eine ineffiziente und fehleranfällige Art der Datenerhebung, da dies einen enormen Zeit- und Arbeitsaufwand erfordern würde. Das ist der Hauptgrund, warum wir programmierbare Bots haben, um diese Aufgabe auf automatisierte und sich wiederholende Weise zu erledigen.

LinkedIn ermöglicht es Suchmaschinen, ihre öffentlichen Seiten zu crawlen und zu indizieren, um für ihr Netzwerk zu werben. Warum sollten dann nicht auch die übrigen Anwendungen und Websites gleiche Wettbewerbsbedingungen erhalten, indem sie von denselben Daten profitieren? Der Punkt zum Nachdenken ist also: Haben die Energieversorger das Recht, die Roboter daran zu hindern, die öffentlichen Daten von ihren Websites zu entfernen? Wenn die Daten von den Benutzern öffentlich gemacht wurden, wie kann die Plattform außerdem so weit gehen, dass sie Rechte beansprucht, um anderen den Zugriff darauf zu verweigern?

Obwohl der Fall noch lange nicht abgeschlossen ist, besagt das neueste Urteil, dass es HiQ und seinen Algorithmen freisteht, Daten zu crawlen, und LinkedIn muss dies zulassen. Der Richter schien mit dem Argument von hiQ übereinzustimmen, dass die öffentliche Datensammlung von hiQ eine Aktivität sein könnte, die durch die erste Änderung geschützt ist, und erließ die folgende Anordnung:

In dem Maße, in dem LinkedIn bereits Technologien eingerichtet hat, um hiQ den Zugriff auf diese öffentlichen Profile zu verwehren, wird es angewiesen, solche Hindernisse zu beseitigen.

Hier ist der Link zum Herunterladen der Kopie des Gerichtsbeschlusses, wenn Sie mehr erfahren möchten.

Vorerst können wir diesen Kampf und die jüngste Reaktion des Gerichts als Sieg der Meinungsfreiheit für die Akteure im Datenlösungsgeschäft betrachten. Dies schafft auch die Grundlage für Internetunternehmen, die andernfalls in Strafverfahren verwickelt worden wären, um auf Webseiten zuzugreifen, die für die ganze Welt öffentlich zugänglich sind. Der Ball liegt jetzt bei LinkedIn und dies könnte sich sehr gut als Meinungsfreiheits-Argument erweisen.

Das endgültige Urteil wird über LinkedIn und hiQ Labs hinausgehen und könnte einen Präzedenzfall dafür schaffen, wie viel Kontrolle Unternehmen über öffentlich zugängliche Daten haben werden, die von ihren Diensten gehostet werden. Wir glauben, dass es absolut keine Beschränkungen für den Zugang zu öffentlichen Daten über das Internet geben sollte und dass Innovationen nicht durch rechtliche Mittel oder die Verfolgung der wettbewerbsfeindlichen Agenda einer kleinen Gruppe mächtiger Unternehmen eingeschränkt werden dürfen.