ความถูกต้องตามกฎหมายของการแยกเนื้อหาที่ผู้ใช้สร้างขึ้นสู่สาธารณะ – PromptCloud

เผยแพร่แล้ว: 2017-08-22

ในฐานะบริษัทโซลูชันข้อมูลเว็บ เรามักพบคำถามเกี่ยวกับความถูกต้องตามกฎหมายของการคัดลอกเว็บ ก่อนที่เราจะตอบคำถามนั้น เรามาทำความเข้าใจคำว่า “web scraping” กันก่อน พูดง่ายๆ ก็คือ เป็นส่วนหนึ่งของการรวบรวมข้อมูลเว็บ (การค้นหาหน้าเว็บและดาวน์โหลด) ที่เกี่ยวข้องกับการดึงข้อมูลจากหน้าเว็บเพื่อรวบรวมข้อมูลที่เกี่ยวข้อง ปัจจัยสำคัญที่นี่คือบอท (คล้ายกับบอทของ Google) ทำกิจกรรมนี้โดยอัตโนมัติและด้วยเหตุนี้จึงขจัดกิจกรรมด้วยตนเองของบุคคล เมื่อบ็อตเข้าชมหน้าเว็บเพื่อดึงเนื้อหา บอทจะทำหน้าที่คล้ายกับวิธีที่ตัวแทนเบราว์เซอร์โทรไปยังหน้าต่างๆ เหตุใดเราจึงมี hoopla มากมายเกี่ยวกับ "การขูด"? เหตุผลเบื้องหลังนี้อาจเกิดจากการไม่เคารพระเบียบการที่กำหนดไว้เป็นหลัก

เนื้อหาที่ผู้ใช้สร้างขึ้นที่เปิดเผยต่อสาธารณะ

ต่อไปนี้คือกฎพื้นฐานบางประการที่ทุกคนที่ต้องการรวบรวมข้อมูลจากเว็บต้องปฏิบัติตาม:

ไฟล์ Robots.txt

ไฟล์นี้ระบุว่าเว็บไซต์ต้องการรวบรวมข้อมูลอย่างไร ประกอบด้วยรายการของหน้าที่เข้าถึงได้ หน้าที่จำกัด การจำกัดคำขอนอกเหนือจากบ็อตที่กล่าวถึงอย่างชัดเจนซึ่งได้รับอนุญาตหรือถูกบล็อกจากการรวบรวมข้อมูล ลองอ่านโพสต์นี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับการอ่านและการเคารพไฟล์ robots.txt

ข้อกำหนดการใช้งาน

จุดตรวจสอบที่สำคัญอีกจุดหนึ่งคือหน้าข้อกำหนดและเงื่อนไขที่พูดถึงลักษณะเฉพาะของวิธีการรวบรวมและใช้งานข้อมูลนั้นควบคู่ไปกับแนวทางปฏิบัติอื่นๆ ตรวจสอบให้แน่ใจว่าคุณไม่ได้ละเมิดสิ่งที่กล่าวถึงในหน้านี้

เนื้อหาสาธารณะ

เว้นแต่คุณจะได้รับอนุญาตจากไซต์ ให้ยึดข้อมูลที่เปิดเผยต่อสาธารณะ ซึ่งหมายความว่าหากข้อมูลสามารถเข้าถึงได้โดยการเข้าสู่ระบบเท่านั้น ข้อมูลนั้นมีไว้สำหรับผู้ใช้ไซต์ ไม่ใช่สำหรับบอท

ความถี่ในการรวบรวมข้อมูล

ไฟล์ robots.txt ระบุความถี่ในการรวบรวมข้อมูลและอัตราที่บอทสามารถเข้าชมไซต์ได้ ดังนั้น คุณต้องยึดถือตามนี้ และในกรณีที่ไม่มีการกล่าวถึง ความรับผิดชอบจะตกอยู่ที่คุณเพื่อให้แน่ใจว่าเซิร์ฟเวอร์ของไซต์จะไม่ถูกโจมตีมากเกินไป สิ่งนี้จำเป็นเพื่อให้แน่ใจว่ามีดโกนนั้นสุภาพ เซิร์ฟเวอร์ไม่ได้ใช้ทรัพยากรจนหมดและไม่สามารถให้บริการผู้ใช้จริงได้

นอกจากกฎบังคับเหล่านี้แล้ว ยังมีแนวทางปฏิบัติที่ดีที่สุดอื่นๆ สำหรับการขูดเว็บซึ่งได้กล่าวถึงในโพสต์นี้ กลับมาที่คำถามแรกของเรา นั่นคือ ถ้าการขูดเว็บถูกกฎหมายหรือไม่—เราสามารถพูดได้อย่างปลอดภัยว่าหากคุณปฏิบัติตามกฎที่กล่าวถึงข้างต้น แสดงว่าคุณอยู่ในขอบเขตทางกฎหมาย แต่คุณต้องได้รับการตรวจสอบโดยทนายความเพื่อความปลอดภัยอย่างสมบูรณ์ มีการฟ้องร้องหลายกรณี เช่น Facebook กับ Pete Warden,Associated Press vs. Meltwater Holdings, Inc., Southwest Airlines Co. v. BoardFirst, LLC และอื่นๆ

ที่กล่าวว่า มีคำถามที่ใหญ่กว่ารอบตัวเรา — บริษัทที่มีอำนาจซึ่งโฮสต์ข้อมูลที่เปิดเผยต่อสาธารณะระดับเพตะไบต์ (โดยเฉพาะข้อมูลที่ผู้ใช้สร้างขึ้น) ควรได้รับการคัดเลือกในขณะที่ให้การเข้าถึงเหมือนกันหรือไม่ โดยทั่วไปแล้ว คำถามนี้เกิดขึ้นจากเหตุการณ์ล่าสุดที่เกี่ยวข้องกับกระบวนการทางกฎหมายที่เกี่ยวข้องกับ LinkedIn (ซึ่งเป็นเจ้าของโดย Microsoft) และ hiQ Labs สำหรับผู้ที่ไม่ได้ฝึกหัด hiQ Labs คือการเริ่มต้นที่ดึงข้อมูลจากโปรไฟล์สาธารณะบน LinkedIn เพื่อฝึกอัลกอริทึมการเรียนรู้ของเครื่อง ในเดือนพฤษภาคม LinkedIn ได้ส่งจดหมายหยุด (C&D) ถึง hiQ เพื่อสั่งให้พวกเขาหยุดดึงข้อมูลจากเครือข่ายสังคมออนไลน์ จดหมายดังกล่าวได้กล่าวถึงหลายกรณีรวมถึง Craigslist Inc. กับ 3Taps Inc. ซึ่งคำตัดสินนั้นขัดต่อ 3Taps และพบว่าพวกเขาละเมิดกฎหมาย Computer Fraud and Abuse Act สำหรับการเลี่ยงผ่านเทคนิคการบล็อก IP ที่ Craigslist นำไปใช้ เราควรทราบด้วยว่า LinkedIn ได้ใช้มาตรการทางเทคนิคเพื่อ hiQ จากการเข้าถึงข้อมูลสาธารณะ อย่างไรก็ตาม HiQ Labs ตอบโต้ด้วยการยื่นฟ้องต่อ LinkedIn ในเดือนมิถุนายน โดยอ้างว่า LinkedIn ละเมิดกฎหมายต่อต้านการผูกขาด

ปัญหาสำคัญประการหนึ่งที่ hiQ นำเสนอคือเกี่ยวกับแนวทางปฏิบัติในการต่อต้านการแข่งขันของ LinkedIn โดยระบุว่า LinkedIn ต้องการเปิดตัวโซลูชันด้านการวิเคราะห์และวิทยาศาสตร์ข้อมูลของตัวเองที่อาจขัดขวางข้อเสนอของอดีต พวกเขายังระบุด้วยว่า LinkedIn รู้จักเขามาหลายปีแล้ว และพวกเขายังได้รับรางวัลจาก hiQ ในการประชุมการวิเคราะห์ข้อมูล

เมื่อมาถึงประเด็นสำคัญของปัญหา เราจะเห็นว่า "การอนุญาต" ไม่จำเป็นต้องเข้าถึงหน้าโปรไฟล์สาธารณะบน LinkedIn ดังนั้น การอ้างสิทธิ์ของ LinkedIn ว่าการขูดข้อมูลนี้อาจละเมิดกฎหมาย Computer Fraud and Abuse Act โดยการข้ามข้อกำหนดการตรวจสอบสิทธิ์จึงไม่มีรากฐานที่แข็งแกร่ง สิ่งที่ทำให้กรณีนี้พิเศษคือ hiQ เป็นเพียงการขูดข้อมูลที่เปิดเผยต่อสาธารณะ ในขณะที่ในกรณีอื่นๆ เครื่องขูดเป็นการละเมิดความเป็นส่วนตัวของผู้ใช้หรือการใช้ข้อมูลโดยไม่ต้องแจ้งให้ทราบ หากเราพิจารณาเฉพาะกิจกรรมที่ทำด้วยตนเอง ทุกคนสามารถคลิกบนทุกโปรไฟล์และดูข้อมูลเพื่อคัดลอกข้อมูลทั้งหมด จากนั้นป้อนข้อมูลไปยังระบบคอมพิวเตอร์ แม้ว่าในทางทฤษฎีจะเป็นไปได้ แต่นี่เป็นวิธีการรวบรวมข้อมูลที่ไม่มีประสิทธิภาพและมีโอกาสเกิดข้อผิดพลาดได้ง่าย เนื่องจากต้องใช้เวลาและกำลังคนจำนวนมาก นั่นเป็นเหตุผลหลักว่าทำไมเราจึงมีบอทที่ตั้งโปรแกรมได้เพื่อทำงานนี้โดยอัตโนมัติและทำซ้ำ

LinkedIn ช่วยให้เสิร์ชเอ็นจิ้นสามารถรวบรวมข้อมูลและจัดทำดัชนีหน้าสาธารณะเพื่อโปรโมตเครือข่ายของตน ถ้าอย่างนั้นทำไมส่วนที่เหลือของแอปพลิเคชันและเว็บไซต์ไม่ควรได้รับพื้นที่เล่นในระดับโดยการได้รับประโยชน์จากข้อมูลเดียวกันเช่นกัน? ดังนั้นประเด็นที่ต้องไตร่ตรองคือ - บริษัท พลังงานมีสิทธิ์หยุดหุ่นยนต์จากการขูดข้อมูลสาธารณะจากเว็บไซต์ของพวกเขาหรือไม่? นอกจากนี้ เมื่อข้อมูลถูกเปิดเผยโดยผู้ใช้แล้ว แพลตฟอร์มจะสามารถอ้างสิทธิ์ในการบล็อกผู้อื่นจากการเข้าถึงข้อมูลดังกล่าวได้อย่างไร

แม้ว่าคดีจะยังไม่จบสิ้น แต่คำตัดสินล่าสุดระบุว่า HiQ และอัลกอริธึมของ HiQ นั้นสามารถรวบรวมข้อมูลได้ฟรี และ LinkedIn ต้องปล่อยให้เป็นเช่นนั้น ผู้พิพากษาดูเหมือนจะเห็นด้วยกับข้อโต้แย้งของ hiQ ที่ว่าการเก็บรวบรวมข้อมูลสาธารณะของ hiQ อาจเป็นกิจกรรมที่ได้รับการคุ้มครองโดยการแก้ไขครั้งแรกและออกคำสั่งดังต่อไปนี้:

ในขอบเขตที่ LinkedIn ได้นำเทคโนโลยีมาใช้เพื่อป้องกันไม่ให้ hiQ เข้าถึงโปรไฟล์สาธารณะเหล่านี้แล้ว จึงได้รับคำสั่งให้ขจัดอุปสรรคดังกล่าว

นี่คือลิงค์สำหรับดาวน์โหลดสำเนาคำสั่งศาลหากคุณสนใจที่จะเรียนรู้เพิ่มเติม

สำหรับตอนนี้ เราสามารถพิจารณาการต่อสู้ครั้งนี้และการตอบสนองล่าสุดของศาลว่าเป็นชัยชนะของการพูดอย่างอิสระสำหรับผู้เล่นในธุรกิจโซลูชันข้อมูล นอกจากนี้ยังเป็นการวางรากฐานสำหรับบริษัทอินเทอร์เน็ตที่อาจเข้าไปพัวพันกับคดีอาญาในการเข้าถึงหน้าเว็บที่เป็นสาธารณะให้คนทั้งโลกได้เห็น ตอนนี้ลูกบอลอยู่ในศาลของ LinkedIn และนี่อาจเป็นข้อโต้แย้งที่ปราศจากคำพูด

คำตัดสินขั้นสุดท้ายจะไปไกลกว่า LinkedIn และ hiQ Labs และสามารถกำหนดแบบอย่างว่าธุรกิจควบคุมจะมีข้อมูลที่เปิดเผยต่อสาธารณะซึ่งโฮสต์โดยบริการของพวกเขามากเพียงใด เราเชื่อว่าไม่ควรมีข้อจำกัดในการเข้าถึงข้อมูลสาธารณะทางอินเทอร์เน็ตโดยเด็ดขาด และนวัตกรรมจะต้องไม่ถูกจำกัดด้วยการใช้อาวุธที่เข้มแข็งทางกฎหมายหรือดำเนินการตามวาระการต่อต้านการแข่งขันของกลุ่มบริษัทที่มีอำนาจกลุ่มเล็กๆ