Legalność pobierania publicznie dostępnych treści generowanych przez użytkowników — PromptCloud

Opublikowany: 2017-08-22

Jako firma zajmująca się udostępnianiem danych internetowych, często napotykamy pytania dotyczące legalności web scrapingu. Zanim przejdziemy do odpowiedzi na to pytanie, najpierw zrozummy termin „web scraping”. Mówiąc najprościej, jest to część indeksowania sieci (odnajdywania stron internetowych i pobierania ich), która obejmuje ekstrakcję danych ze stron internetowych w celu zebrania odpowiednich informacji. Kluczowym czynnikiem jest tutaj to, że bot (podobnie jak bot Google) wykonuje tę czynność w sposób zautomatyzowany, eliminując w ten sposób ręczne czynności osoby. Gdy boty trafiają na strony internetowe, aby pobrać zawartość, działają podobnie do sposobu, w jaki agent przeglądarki wywołuje strony. Dlaczego więc mamy tyle szumu wokół „skrobania”? Powodem tego może być przede wszystkim brak szacunku dla ustalonych protokołów.

Publicznie dostępne treści generowane przez użytkowników

Oto kilka podstawowych zasad, których musi przestrzegać każdy, kto chce indeksować dane z sieci:

Plik robots.txt

Ten plik określa sposób indeksowania witryny. Zawiera listę dostępnych stron, stron z ograniczeniami, limitu żądań oprócz wyraźnie wymienionych botów, których indeksowanie jest dozwolone lub zablokowane. Sprawdź ten post, aby dowiedzieć się więcej o czytaniu i przestrzeganiu pliku robots.txt.

Warunki korzystania

Jeszcze jednym ważnym punktem kontrolnym jest strona z warunkami, która mówi o szczegółach, w jaki sposób te dane powinny być zbierane i wykorzystywane wraz z innymi wytycznymi. Upewnij się, że nie naruszasz niczego wspomnianego na tej stronie.

Treści publiczne

Jeśli nie masz pozwolenia ze strony, trzymaj się danych, które są publicznie dostępne. Oznacza to, że jeśli dostęp do danych można uzyskać tylko po zalogowaniu, jest to przeznaczone dla użytkowników serwisu, a nie dla botów.

Częstotliwość indeksowania

Plik robots.txt zawiera informacje o częstotliwości indeksowania i szybkości, z jaką boty mogą atakować witrynę. Dlatego musisz się tego trzymać, a jeśli nie zostało to wspomniane, na Tobie spoczywa obowiązek upewnienia się, że serwer witryny nie jest przeciążony trafieniami. Jest to wymagane, aby upewnić się, że skrobak jest uprzejmy; serwer nie wyczerpuje swoich zasobów i nie obsługuje rzeczywistych użytkowników.

Oprócz tych obowiązkowych zasad istnieją inne najlepsze praktyki dotyczące skrobania sieci, które zostały omówione w tym poście. Wracając do naszego pierwszego pytania, tj. czy web scraping jest legalny, czy nie? — możemy śmiało powiedzieć, że jeśli przestrzegasz wyżej wymienionych zasad, jesteś na granicy legalności. Ale musisz to zweryfikować przez prawnika, aby być całkowicie bezpiecznym. Odnotowano kilka spraw sądowych, takich jak Facebook przeciwko Pete Warden, Associated Press przeciwko holdingom Meltwater, Inc., Southwest Airlines Co. przeciwko BoardFirst, LLC i nie tylko.

To powiedziawszy, wokół nas pojawia się większe pytanie – czy potężne firmy obsługujące petabajty publicznie dostępnych danych (zwłaszcza danych generowanych przez użytkowników) powinny być selektywne, zapewniając dostęp do tych samych? To pytanie w zasadzie kojarzy się z ostatnimi wydarzeniami związanymi z postępowaniami prawnymi dotyczącymi LinkedIn (należącego do Microsoftu) i hiQ Labs. Dla niewtajemniczonych hiQ Labs to startup, który zbierał dane z publicznych profili na LinkedIn, aby szkolić swoje algorytmy uczenia maszynowego. W maju LinkedIn wysłał do HiQ pismo o zaprzestaniu zbierania danych z sieci społecznościowej. W liście wymieniono kilka spraw, w tym Craigslist Inc. przeciwko 3Taps Inc., w których werdykt był przeciwko 3Taps i stwierdzono naruszenie ustawy o oszustwach komputerowych i nadużyciach dotyczących obchodzenia technik blokowania adresów IP wdrożonych przez Craigslist. Powinniśmy również zauważyć, że LinkedIn wdrożył środki techniczne, aby hiQ mógł uzyskać dostęp do danych publicznych. Jednak HiQ Labs zareagowało, wnosząc pozew przeciwko LinkedIn w czerwcu, powołując się na to, że LinkedIn naruszył przepisy antymonopolowe.

Jednym z głównych problemów poruszanych przez hiQ są antykonkurencyjne praktyki LinkedIn, zgodnie z którymi LinkedIn chciał wprowadzić własne rozwiązania analityczne i analityczne, które mogą zostać zniechęcone przez oferty tego pierwszego. Twierdzą również, że LinkedIn wiedział o nim już od lat, a nawet odebrali nagrodę od hiQ na pewnej konferencji poświęconej analizie danych.

Przechodząc do sedna sprawy, widzimy, że „autoryzacja” nie jest wymagana, aby uzyskać dostęp do stron profilu publicznego na LinkedIn. Dlatego twierdzenie LinkedIn, że zbieranie tych danych może stanowić naruszenie ustawy o oszustwach i nadużyciach komputerowych poprzez ominięcie wymogu uwierzytelniania, nie ma mocnych podstaw. Tym, co wyróżnia ten przypadek, jest to, że hiQ zbiera tylko dane, które są publicznie dostępne, podczas gdy w innych przypadkach skrobaki naruszyły prywatność użytkowników lub wykorzystanie danych bez powiadomienia. Jeśli weźmiemy pod uwagę czynności wykonywane ręcznie, każdy może kliknąć każdy profil i przejrzeć dane, aby skopiować wszystkie informacje, a następnie przesłać je do systemu komputerowego. Chociaż jest to teoretycznie wykonalne, jest to nieefektywny i podatny na błędy sposób gromadzenia danych, ponieważ wymagałoby to ogromnego czasu i siły roboczej. To główny powód, dla którego mamy programowalne boty, które wykonują to zadanie w sposób zautomatyzowany i powtarzalny.

LinkedIn umożliwia wyszukiwarkom indeksowanie i indeksowanie ich publicznych stron w celu promowania ich sieci. Dlaczego więc pozostałe aplikacje i strony internetowe nie miałyby uzyskać równych szans, korzystając również z tych samych danych? Dlatego należy się zastanowić – czy firmy energetyczne mają prawo powstrzymać roboty przed zdrapywaniem publicznych danych ze swoich stron internetowych? Co więcej, gdy dane zostały upublicznione przez użytkowników, w jaki sposób platforma może posunąć się do tego stopnia, roszcząc sobie prawo do blokowania dostępu do nich innym?

Chociaż sprawa jest daleka od zakończenia, najnowsze orzeczenie mówi, że HiQ i jego algorytmy mogą swobodnie przeszukiwać dane, a LinkedIn musi na to pozwolić. Sędzia zdawał się zgadzać z argumentem hiQ, że publiczne zbieranie danych przez hiQ może być działaniem chronionym przez Pierwszą Poprawkę i wydał następujące polecenie:

W zakresie, w jakim LinkedIn wdrożył już technologię uniemożliwiającą hiQ dostęp do tych publicznych profili, nakazuje się usunąć wszelkie tego typu bariery.

Oto link do pobrania kopii orzeczenia sądowego, jeśli chcesz dowiedzieć się więcej.

Na razie możemy uznać tę bitwę i ostatnią odpowiedź sądu za zwycięstwo wolności słowa dla graczy w branży rozwiązań danych. Stanowi to również podstawę dla firm internetowych, które w przeciwnym razie mogłyby zostać uwikłane w sprawy karne, za dostęp do stron internetowych, które są publicznie dostępne dla całego świata. Piłka jest teraz na boisku LinkedIna i może to bardzo dobrze okazać się argumentem na wolną mowę.

Ostateczny werdykt wykroczy poza LinkedIn i hiQ Labs i może stanowić precedens dotyczący tego, jak dużą kontrolę będą miały firmy nad publicznie dostępnymi danymi hostowanymi przez ich usługi. Uważamy, że nie powinno być absolutnie żadnych ograniczeń w dostępie do danych publicznych przez Internet, a innowacyjność nie może być powstrzymywana przez silne uzbrojenie prawne lub realizację antykonkurencyjnego programu małej grupy potężnych firm.