기업이 웹 스크래핑을 PromptCloud에 아웃소싱하는 이유

게시 됨: 2017-06-24

목차 쇼

웹사이트의 복잡성 증가

추출 프로세스의 확장성

데이터 품질 및 유지 관리

번거롭지 않은 데이터 추출

기술적 장벽을 넘어

결론

비즈니스 세계가 나날이 증가하는 다양한 사용 사례를 보완하기 위해 웹 데이터를 빠르게 채택함에 따라 신뢰할 수 있는 웹 스크래핑 서비스에 대한 필요성이 급증했습니다. 많은 비즈니스 소유자는 웹의 모든 웹 사이트에서 데이터를 크롤링하는 마법의 솔루션이라고 주장하는 DIY 도구에 빠지는 실수를 자주 합니다. 웹 스크래핑에 대해 알아야 할 첫 번째 사항은 모든 웹 사이트에서 데이터를 추출할 수 있는 즉시 사용 가능한 솔루션이 없다는 것입니다.

엔터프라이즈급 웹 스크래핑 서비스

이것은 DIY 웹 스크래핑 도구가 작동하지 않는다는 것을 말하는 것이 아닙니다. 작동합니다. 문제는 이러한 도구는 슬프게도 존재하지 않는 완벽한 웹 세계에서만 원활하게 작동할 수 있다는 것입니다. 모든 웹사이트는 데이터를 표시하는 방식이 다릅니다. 탐색, 코딩 방식, 동적 스크립트 사용 등은 웹사이트 구축 방식을 매우 다양하게 만듭니다. 이것이 모든 웹사이트를 동일하게 처리할 수 있는 웹 스크래핑 도구를 만드는 것이 실현 불가능한 이유입니다.

웹 스크래핑과 관련하여 도구는 방정식에서 벗어났습니다. 웹에서 데이터를 추출하는 것은 이상적으로는 완벽하게 관리되는 서비스여야 하며 우리는 지난 8년 동안 이 서비스를 완성해 왔습니다. 웹 스크래핑 도구가 엔터프라이즈 수준의 웹 데이터 추출에 적합하지 않은 이유에 대해 우리의 말을 들을 필요는 없습니다.

우리는 'Magic' 도구를 남겨두고 관리되는 웹 스크래핑 서비스로 전환하기로 결정한 이유에 대한 고객의 응답 중 일부를 수집했습니다.

웹사이트의 복잡성 증가

다음은 최근에 저희 블로그 중 하나에서 받은 의견입니다.

“옐로 페이지 데이터를 크롤링하려고 합니다. 64페이지의 매장 목록을 찾았습니다. 업체명, 주소, 전화번호 선택기를 추가했습니다. 이름, 주소 및 전화 번호에 대한 검사/복사/복사 선택기의 각 필드를 마우스 오른쪽 버튼으로 클릭했습니다. 페이지/[001-064]를 읽기 위해 끝만 변경하는 URL을 스크랩했습니다. 크롤링을 클릭했는데 놀랍게도 페이지 001에 대한 데이터만 스크랩했습니다. 각 선택기 필드(이름, 주소 및 전화)에서 다중 탭을 클릭했습니다. 첫 페이지의 데이터만 가져온 이유는 무엇입니까? 크롤링 도구에서 내가 모든 64페이지에 대해 각 회사에 대해 동일한 데이터(페이지당 30개)를 원한다는 것을 알아야 합니까? 미리 감사드립니다.”

여기 해설자는 분류된 웹사이트에서 데이터를 크롤링하려고 했지만 그가 사용하고 있는 도구는 대기열의 내부 페이지를 탐색할 수 없었고 첫 페이지만 스크랩했습니다. 이것은 웹 스크래핑 도구와 관련된 일반적인 문제이며, 단순한 탐색 구조를 사용하는 사이트에서는 잘 작동하지만 사이트가 적당히 복잡한 탐색을 사용하는 경우에도 실패하는 경향이 있습니다. 사용자 경험을 개선하기 위해 많은 사이트에서 현재 AJAX 기반 무한 스크롤을 채택하고 있어 이를 훨씬 더 복잡하게 만듭니다. 이러한 동적 코딩 방식은 모든 웹 스크레이퍼 도구가 아니더라도 대부분을 쓸모 없게 만들 것입니다.

여기에 필요한 것은 완전히 사용자 정의 가능한 설정과 수동 및 자동화된 레이어의 조합을 사용하여 웹 사이트가 사용자 정의 빌드된 크롤러를 사용하여 이를 모방하기 위해 AJAX 호출을 수신하는 방법을 파악하는 데 사용되는 전용 접근 방식입니다. 웹 사이트의 복잡성이 시간이 지남에 따라 계속 증가함에 따라 엄격한 도구가 아닌 사용자 정의 가능한 솔루션의 필요성이 더욱 분명해졌습니다.

추출 프로세스의 확장성

다음은 사내 크롤링 설정을 구축하려고 시도한 후 프로세스를 확장할 수 없었던 방법에 대한 한 고객의 메모입니다.

우리는 모든 크롤러를 직접 구축했으며 우리가 수행한 방식에 만족하지 않으며 더 나은 솔루션을 가지고 있기 때문에 이야기하는 데 관심이 있습니다. 나는 또한 궁극적으로 5000개 이상의 소매 사이트를 크롤링할 수 있는 솔루션을 원합니다.

많은 기업가들은 바퀴를 재발명할 필요성을 느낍니다. 이것은 또한 NIH(여기서 발명되지 않음) 증후군으로 더 잘 알려져 있습니다. 이 증후군은 간단히 말해서 프로세스를 아웃소싱하기보다 내부에서 수행하려는 충동입니다. 물론 내부에서 더 잘 수행되는 일부 프로세스가 있으며 그 좋은 예는 고객 지원입니다. 고객 지원을 아웃소싱하는 것은 신성 모독입니다.

그러나 웹 스크래핑은 그 중 하나가 아닙니다. 대규모 웹 데이터 추출과 관련된 복잡성은 완전히 관련되지 않은 회사가 마스터하기에는 너무 틈새 시장이기 때문에 실제로 치명적인 실수로 판명될 수 있습니다. 우리는 많은 기존 고객이 나중에 우리 솔루션에 의존하기 위해 사내 스크레이퍼를 구축하려고 시도한다는 것을 알게 되었습니다. 귀중한 시간과 노력을 잃는 것 외에.

누구나 단일 웹페이지를 크롤링할 수 있다는 사실입니다. 진짜 문제는 수백만 개의 웹 페이지를 동시에 추출하고 모든 웹 페이지를 구조화되고 기계가 읽을 수 있는 데이터로 처리하는 데 있습니다. 웹 스크래핑 솔루션의 USP 중 하나는 확장성 측면입니다. 여러 지역에 흩어져 있는 고성능 서버 클러스터를 통해 웹 데이터를 대규모로 추출할 수 있는 견고한 인프라를 구축했습니다.

데이터 품질 및 유지 관리

우리 고객 중 한 명이 사용하던 도구가 구조화된 데이터를 제공하지 못했기 때문에 고품질 데이터를 제공할 수 있는 솔루션을 찾고 있었습니다.

완벽하게 정직하게 말해서: 우리는 현재 무료 서비스로 작업하고 있으며 모든 것이 잘 작동합니다. 모든 페이지의 데이터를 하나의 Excel 시트로 가져온 다음 포디오로 가져올 수 있습니다. 그러나 현재로서는 정보를 성공적으로 필터링할 수 없습니다. 그러나 우리는 이 문제를 해결하기 위해 그들과 긴밀히 접촉하고 있습니다. 사실, 현재 솔루션이 약간 일정하지 않기 때문에 계속해서 생각해야 합니다. 우리를 위해 사용할 준비가 된 솔루션이 있습니까?

웹에서 정보를 추출하는 것 자체는 복잡한 프로세스입니다. 그러나 웹에 있는 비정형 정보를 완벽하게 구조화되고 깨끗하며 기계가 읽을 수 있는 데이터로 바꾸는 것은 훨씬 더 어렵습니다. 데이터 품질은 우리가 자랑스럽게 생각 하는 것이며 이전 블로그 게시물에서 데이터 품질을 유지하는 방법 에 대해 자세히 알아볼 수 있습니다.

관점에서 보면 비정형 데이터는 데이터가 없는 것과 같습니다. 당신의 기계가 그것을 읽을 수 없다면, 당신은 데이터 내의 방대한 양의 정보를 이해할 수 없을 것입니다.

또한 완벽하게 작동하는 웹 크롤링 설정을 구축하고 잊어버릴 수 없습니다. 웹은 본질적으로 매우 역동적입니다. 데이터 품질을 유지하려면 수동 및 자동화 계층을 모두 사용하여 일관된 노력과 면밀한 모니터링이 필요합니다. 이는 웹 사이트가 구조를 매우 자주 변경하여 크롤러에 결함이 생기거나 중지될 수 있기 때문입니다. 이 두 가지 모두 출력 데이터에 영향을 미칩니다. 데이터 품질 보증 및 시기 적절한 유지 관리는 웹 크롤링 설정을 실행하는 데 필수적입니다. PromptCloud에서는 이러한 측면에 대한 종단 간 소유권을 갖습니다.

번거롭지 않은 데이터 추출

우리는 최근에 고객으로부터 피드백을 수집했으며 다음은 응답 중 하나에서 발췌한 것입니다.

우리는 자체 솔루션을 가지고 있었고 작동했지만 지속적인 조정이 필요했고 귀중한 개발 리소스를 훔쳤습니다. 데이터 수집이 점점 더 복잡해지고 크롤링을 통한 데이터 수집의 필요성이 지속적으로 증가하고 있다고 생각합니다.

이제 우리와 함께 5년을 마친 이 고객은 자체 웹 크롤링 설정을 가지고 있었지만 프로세스의 복잡성과 번거로움을 없애고 싶었습니다. 이것은 비즈니스 관점에서 훌륭한 결정입니다. 모든 비즈니스는 성장과 성공을 위해 핵심 제품에만 집중해야 합니다. 특히 현재 모든 시장에서 경쟁이 최고조에 달했다는 점을 고려하면 더욱 그렇습니다. 설정, 지속적인 유지 관리 및 웹 데이터 추출과 관련된 기타 모든 복잡성으로 인해 내부 리소스가 쉽게 소모되어 비즈니스 전체에 피해를 줄 수 있습니다.

기술적 장벽을 넘어

이 최근 리드는 자체적으로 웹 크롤링 프로젝트를 설정하고 수행하는 데 필요한 기술 전문성이 부족했습니다.

우리가 여러분을 사용하는 방법은 잠재적으로 우리가 직접 추가할 능력과 전문 지식이 없을 때 고객의 요청에 따라 필요에 따라 사이트를 추가하는 것이라고 생각합니다. 또한 가져와야 할 URL이 없으므로 모든 제품 페이지를 가져오려면 사이트를 스파이더링해야 합니다.

웹 스크래핑은 기술적으로 까다로운 프로세스입니다. 즉, 데이터 추출을 진행하려면 최적화된 서버에 크롤러를 설정하고 배포하려면 재능 있는 개발자 팀이 필요합니다.

그러나 모든 비즈니스가 각자의 핵심 초점을 가지고 있기 때문에 스크래핑의 전문가는 아닙니다. 기술이 귀하의 강점이 아닌 경우 웹 데이터를 추출하기 위해 서비스 제공업체에 의존해야 한다는 것은 충분히 이해할 수 있습니다. 웹 데이터 추출 분야에서 다년간의 전문 지식을 바탕으로 우리는 이제 모든 복잡성과 규모의 웹 스크래핑 프로젝트를 수행할 수 있는 위치에 있습니다.

결론

비즈니스 세계에서 웹 데이터에 대한 수요가 증가함에 따라 기업은 웹에서 사용할 수 있는 데이터의 금광을 획득하는 더 나은 방법을 찾기 시작하는 것이 불가피합니다. 웹 데이터 추출의 다양한 측면을 살펴보면 스크래핑 전문가에게 맡기는 것이 정답입니다.