Legalitatea extragerii conținutului generat de utilizatori disponibil public – PromptCloud

Publicat: 2017-08-22

În calitate de companie de soluții de date web, întâlnim adesea întrebări cu privire la legalitatea web scraping. Înainte de a răspunde la această întrebare, să înțelegem mai întâi termenul „răzuire web”. Mai simplu spus, este o parte a accesării cu crawlere web (găsirea paginilor web și descărcarea lor) care implică extragerea datelor din pagini web pentru a aduna informații relevante. Factorul cheie aici este că un bot (similar cu Google bot) efectuează această activitate într-un mod automat și eliminând astfel activitățile manuale ale unei persoane. Când roboții lovesc paginile web pentru a prelua conținut, aceștia acționează destul de similar cu modul în care agentul browser efectuează apeluri către pagini. Așadar, de ce avem atâtea hoopală în jurul „răzuirii”? Motivul din spatele acestui lucru poate fi atribuit în primul rând lipsei de respect față de protocoalele stabilite.

Conținut disponibil public generat de utilizatori

Iată câteva dintre regulile de bază care trebuie respectate de oricine dorește să acceseze cu crawlere date de pe web:

  • Fișierul Robots.txt

Acest fișier specifică modul în care un site ar dori să fie accesat cu crawlere. Include lista de pagini accesibile, pagini restricționate, limita de solicitare, în afară de roboții menționați în mod explicit care sunt permise sau blocate de accesare cu crawlere. Consultați această postare pentru a afla mai multe despre citirea și respectarea fișierului robots.txt.

  • Termeni de utilizare

Un alt punct de control important este pagina de termeni și condiții care vorbește despre detaliile despre cum ar trebui să fie colectate și utilizate acele date împreună cu alte linii directoare. Asigurați-vă că nu încălcați nimic menționat pe această pagină.

  • Conținut public

Cu excepția cazului în care aveți permisiunea de la site, rămâneți la datele care sunt disponibile publicului. Aceasta înseamnă că dacă datele pot fi accesate doar prin autentificare, acestea sunt destinate utilizatorilor site-ului, nu și boților.

  • Frecvența de crawler

Fișierul robots.txt menționează frecvența de accesare cu crawlere și rata la care roboții pot accesa site-ul. Prin urmare, trebuie să respectați acest lucru și, în cazul în care acest lucru nu a fost menționat, vă revine sarcina de a vă asigura că serverul site-ului nu este supraîncărcat de accesări. Acest lucru este necesar pentru a vă asigura că racleta este politicoasă; serverul nu își epuizează resursele și nu reușește să servească utilizatorii efectivi.

În afară de aceste reguli obligatorii, există și alte bune practici pentru web scraping care au fost tratate în această postare. Revenind la prima noastră întrebare, adică dacă web scraping este legală sau nu? — putem spune cu siguranță că dacă respectați regulile menționate mai sus, vă aflați în perimetrul legal. Dar, trebuie să obțineți verificarea acestui lucru de către un avocat pentru a fi complet în siguranță. Au existat mai multe cazuri de procese, cum ar fi Facebook vs. Pete Warden, Associated Press vs. Meltwater Holdings, Inc., Southwest Airlines Co. împotriva BoardFirst, LLC și multe altele.

Acestea fiind spuse, există o întrebare mai mare în jurul nostru – companiile puternice care găzduiesc petaocteți de date disponibile public (în special date generate de utilizatori) ar trebui să fie selective în timp ce oferă acces la acestea? Această întrebare se profilează practic în jurul evenimentelor recente legate de procedurile judiciare care implică LinkedIn (deținut de Microsoft) și hiQ Labs. Pentru cei neinițiați, hiQ Labs este o companie startup care scotea datele din profilurile publice de pe LinkedIn pentru a-și antrena algoritmii de învățare automată. În mai, LinkedIn a trimis o scrisoare de încetare (C&D) către hiQ, în care le-a instruit să nu mai colecteze date din rețeaua sa de socializare. Scrisoarea menționase mai multe cazuri, inclusiv Craigslist Inc. v. 3Taps Inc., în care verdictul a fost împotriva 3Taps și au fost găsiți în încălcarea Legii privind frauda și abuzul informatic pentru ocolirea tehnicilor de blocare a IP-ului implementate de Craigslist. De asemenea, trebuie să remarcăm că LinkedIn a implementat măsuri tehnice pentru a-l ajuta să acceseze datele publice. Cu toate acestea, HiQ Labs a răspuns introducând un proces împotriva LinkedIn în iunie, invocând că LinkedIn a încălcat legile antitrust.

Una dintre problemele majore aduse de hiQ este legată de practicile anticoncurențiale ale LinkedIn, care afirmă că LinkedIn a vrut să lanseze propriile soluții de analiză și știință a datelor care ar putea fi descurajate de ofertele primei. De asemenea, ei afirmă că LinkedIn știa deja despre el de ani de zile și chiar acceptaseră un premiu de la hiQ la o anumită conferință de analiză a datelor.

Ajungând la miezul problemelor, putem vedea că „autorizarea” nu este necesară pentru a accesa paginile publice de profil de pe LinkedIn. Prin urmare, afirmația LinkedIn conform căreia eliminarea acestor date poate fi o încălcare a Legii privind frauda și abuzul informatic prin ocolirea unei cerințe de autentificare nu are o bază solidă. Ceea ce face acest caz special este faptul că hiQ elimină doar datele care sunt disponibile public, în timp ce în alte cazuri, scraper-urile au încălcat confidențialitatea sau utilizarea datelor de către utilizatori fără notificare. Dacă luăm în considerare doar activitatea manuală, oricine ar putea să facă clic pe fiecare profil și să se uite la date pentru a copia toate informațiile și apoi să transmită datele sistemului de calcul. Deși teoretic fezabil, aceasta este o modalitate ineficientă și predispusă la erori de colectare a datelor, deoarece aceasta ar necesita timp și forță de muncă uriașă. Acesta este motivul principal pentru care avem roboți programabili pentru a face această sarcină într-un mod automat și repetitiv.

LinkedIn permite motoarelor de căutare să acceseze cu crawlere și să indexeze paginile lor publice pentru a-și promova rețeaua. Atunci de ce nu ar trebui ca restul aplicațiilor și site-urilor web să aibă condiții de concurență echitabile, beneficiind și de aceleași date? Astfel, ideea la care trebuie să ne gândim este: companiile de energie au dreptul să oprească roboții să răpească datele publice de pe site-urile lor? Mai mult, atunci când datele au fost făcute publice de către utilizatori, cum poate ajunge platforma într-o asemenea măsură pretinzând drepturi de a bloca accesul altora la ele?

Deși cazul este departe de a fi încheiat, cea mai recentă hotărâre spune că HiQ și algoritmii săi sunt liberi să acceseze cu crawlere datele și LinkedIn trebuie să-l lase. Judecătorul părea să rezoneze cu argumentul lui hiQ că colectarea de date publice a lui hiQ ar putea fi o activitate protejată de Primul Amendament și a dat următorul ordin:

În măsura în care LinkedIn a implementat deja tehnologie pentru a împiedica hiQ să acceseze aceste profiluri publice, i se ordonă eliminarea oricăror astfel de bariere.

Iată linkul pentru a descărca copia hotărârii judecătorești dacă sunteți interesat să aflați mai multe.

Deocamdată, putem considera această bătălie și cel mai recent răspuns al curții drept o victorie a libertății de exprimare pentru jucătorii din afacerea soluțiilor de date. Acest lucru pune, de asemenea, bazele pentru companiile de internet care altfel ar fi putut fi implicate în dosare penale pentru accesarea paginilor web care sunt publice pentru ca întreaga lume să le vadă. Mingea este acum în terenul LinkedIn și s-ar putea foarte bine să se dovedească a fi un argument pentru libertatea de exprimare.

Verdictul final va depăși LinkedIn și hiQ Labs și ar putea crea precedentul asupra cât de mult control vor avea companiile asupra datelor disponibile public care sunt găzduite de serviciile lor. Considerăm că nu ar trebui să existe absolut nicio restricție privind accesul la datele publice prin internet, iar inovația nu trebuie să fie restrânsă prin înarmarea legală puternică sau urmărirea agendei anticoncurențiale a unui grup mic de companii puternice.