공개적으로 사용 가능한 사용자 생성 콘텐츠 추출의 합법성 – PromptCloud

게시 됨: 2017-08-22

웹 데이터 솔루션 회사로서 우리는 웹 스크래핑의 합법성에 대한 질문을 자주 접합니다. 그 질문에 답하기 전에 먼저 "웹 스크래핑"이라는 용어를 이해합시다. 간단히 말해서 관련 정보를 수집하기 위해 웹 페이지에서 데이터를 추출하는 웹 크롤링(웹 페이지를 찾아서 다운로드)의 일부입니다. 여기서 핵심 요소는 봇(Google 봇과 유사)이 이 활동을 자동화된 방식으로 수행하여 사람의 수동 활동을 제거한다는 것입니다. 봇이 콘텐츠를 가져오기 위해 웹 페이지를 방문할 때 브라우저 에이전트가 페이지를 호출하는 방식과 매우 유사하게 작동합니다. 그렇다면 왜 우리는 "스크레이핑"에 대해 그렇게 많은 헛소리를 하는 것일까요? 그 이유는 주로 확립된 프로토콜에 대한 무례함에 기인할 수 있습니다.

공개적으로 사용 가능한 사용자 생성 콘텐츠

다음은 웹에서 데이터를 크롤링하려는 사람이 따라야 하는 몇 가지 기본 규칙입니다.

Robots.txt 파일

이 파일은 웹사이트가 크롤링되는 방식을 지정합니다. 여기에는 크롤링이 허용되거나 차단된 명시적으로 언급된 봇을 제외한 액세스 가능한 페이지, 제한된 페이지, 요청 제한 목록이 포함됩니다. robots.txt 파일을 읽고 준수하는 방법에 대해 자세히 알아보려면 이 게시물을 확인하세요.

이용약관

한 가지 더 중요한 체크포인트는 해당 데이터를 수집하고 다른 지침과 함께 사용하는 방법에 대한 세부 사항을 설명하는 이용 약관 페이지입니다. 이 페이지에 언급된 내용을 위반하지 않았는지 확인하세요.

공개 콘텐츠

사이트의 허가가 없는 한 대중에게 공개된 데이터를 고수하십시오. 즉, 로그인을 통해서만 데이터에 액세스할 수 있는 경우 봇이 아니라 사이트 사용자를 위한 것입니다.

크롤링 빈도

robots.txt 파일에는 크롤링 빈도와 봇이 사이트에 도달할 수 있는 속도가 나와 있습니다. 따라서 이를 고수해야 하며 이것이 언급되지 않은 경우 사이트 서버가 히트에 의해 과부하되지 않도록 해야 할 책임이 있습니다. 이것은 스크레이퍼가 정중한지 확인하는 데 필요합니다. 서버는 리소스를 소진하지 않고 실제 사용자에게 서비스를 제공하지 못합니다.

이러한 필수 규칙 외에도 이 게시물에서 다룬 웹 스크래핑에 대한 다른 모범 사례가 있습니다. 우리의 첫 번째 질문으로 돌아가서, 즉 웹 스크래핑이 합법적인지 아닌지 — 위에서 언급한 규칙을 준수한다면 법적 경계에 있다고 안전하게 말할 수 있습니다. 그러나 완전히 안전한 측면에서 변호사의 확인을 받아야 합니다. Facebook 대 Pete Warden, Associated Press 대 Meltwater Holdings, Inc., Southwest Airlines Co. 대 BoardFirst, LLC 등과 같은 여러 소송 사례가 있었습니다.

즉, 페타바이트 규모의 공개적으로 사용 가능한 데이터(특히 사용자 생성 데이터)를 호스팅하는 강력한 회사가 이에 대한 액세스를 제공하면서 선택적으로 접근해야 하는 더 큰 질문이 우리 주변에 있습니다. 이 질문은 기본적으로 LinkedIn(Microsoft 소유) 및 hiQ Labs와 관련된 법적 소송과 관련된 최근 사건에 대한 것입니다. 초보자를 위해 hiQ Labs는 기계 학습 알고리즘을 훈련하기 위해 LinkedIn의 공개 프로필에서 데이터를 수집하던 스타트업이었습니다. 지난 5월 링크드인은 hiQ에 소셜 네트워크의 데이터 스크랩을 중단하라는 C&D 서한을 보냈습니다. 이 편지는 Craigslist Inc. v. 3Taps Inc.를 포함하여 3Taps에 대한 평결이 Craigslist가 배포한 IP 차단 기술을 우회한 컴퓨터 사기 및 남용법을 위반한 것으로 밝혀진 여러 사건에 대해 언급했습니다. LinkedIn은 공개 데이터에 액세스하지 못하도록 hiQ에 대한 기술적 조치를 구현했습니다. 그러나 HiQ Labs는 LinkedIn이 독점 금지법을 위반했다고 인용하여 6월 LinkedIn을 상대로 소송을 제기하여 대응했습니다.

hiQ가 제기한 주요 문제 중 하나는 LinkedIn이 전자 제품에 의해 저지될 수 있는 자체 분석 및 데이터 과학 솔루션을 출시하기를 원했다는 LinkedIn의 반경쟁 관행에 관한 것입니다. 그들은 또한 LinkedIn이 이미 몇 년 동안 그에 대해 알고 있었고 특정 데이터 분석 회의에서 hiQ로부터 상을 받기까지 했다고 말합니다.

문제의 핵심을 살펴보면 LinkedIn의 공개 프로필 페이지에 액세스하는 데 "승인"이 필요하지 않다는 것을 알 수 있습니다. 따라서 이 데이터를 스크랩하는 것은 인증 요구 사항을 우회하여 컴퓨터 사기 및 남용에 관한 법률을 위반할 수 있다는 LinkedIn의 주장은 강력한 근거가 없습니다. 이 경우를 특별하게 만드는 것은 hiQ가 공개적으로 사용할 수 있는 데이터만 스크레이핑하는 반면, 다른 경우에는 스크레이퍼가 사전 통지 없이 사용자의 개인 정보 보호 또는 데이터 사용을 위반했다는 것입니다. 수동 활동만 고려한다면 누구나 모든 프로필을 클릭하고 데이터를 보고 모든 정보를 복사한 다음 컴퓨팅 시스템에 데이터를 공급할 수 있습니다. 이론적으로는 가능하지만 엄청난 시간과 인력이 필요하기 때문에 비효율적이고 오류가 발생하기 쉬운 데이터 수집 방법입니다. 이것이 우리가 자동화되고 반복적인 방식으로 이 작업을 수행하기 위해 프로그래밍 가능한 봇이 있는 주된 이유입니다.

LinkedIn은 검색 엔진이 공개 페이지를 크롤링하고 색인을 생성하여 네트워크를 홍보할 수 있도록 합니다. 그렇다면 나머지 애플리케이션과 웹사이트도 동일한 데이터의 이점을 활용하여 공평한 경쟁의 장을 마련해야 하지 않는 이유는 무엇입니까? 따라서 숙고 해야 할 요점은 전력 회사가 로봇이 웹 사이트에서 공개 데이터를 긁어내는 것을 막을 권리가 있습니까? 더욱이, 사용자가 데이터를 공개한 경우 플랫폼이 어떻게 다른 사람의 액세스를 차단할 수 있는 권한을 주장할 정도로 갈 수 있습니까?

사건이 아직 끝나지 않았지만 최신 판결에 따르면 HiQ와 그 알고리즘은 데이터를 자유롭게 크롤링할 수 있으며 LinkedIn은 이를 허용해야 합니다. 판사는 hiQ의 공개 데이터 수집이 수정헌법 1조에 의해 보호되는 활동이 될 수 있다는 hiQ의 주장에 공감하여 다음 명령을 내렸습니다.

LinkedIn은 hiQ가 이러한 공개 프로필에 액세스하지 못하도록 방지하는 기술을 이미 도입한 범위 내에서 그러한 장벽을 제거하라는 명령을 받았습니다.

더 자세히 알아보려면 법원 명령 사본을 다운로드할 수 있는 링크가 있습니다.

현재로서는 이 전투와 법원의 최신 대응을 데이터 솔루션 비즈니스의 플레이어를 위한 언론의 자유의 승리로 간주할 수 있습니다. 이것은 또한 전 세계가 볼 수 있도록 공개된 웹 페이지에 액세스하기 위해 형사 사건에 휘말릴 수 있는 인터넷 회사를 위한 토대를 마련합니다. 공은 이제 LinkedIn의 법원에 있으며 이것은 자유 연설 논쟁으로 판명 될 수 있습니다.

최종 판결은 LinkedIn 및 hiQ Labs를 넘어 기업이 서비스에서 호스팅하는 공개적으로 사용 가능한 데이터에 대해 얼마나 많은 통제권을 가질 수 있는지에 대한 선례를 세울 수 있습니다. 우리는 인터넷을 통한 공개 데이터 액세스에 절대 제한이 없어야 하며, 혁신이 법적으로 강력한 무장을 하거나 소수의 강력한 기업의 반경쟁 의제를 추구하는 방식으로 제한되어서는 안 된다고 믿습니다.