웹에서 데이터를 수집하는 동안 비용 절감

게시 됨: 2023-02-13
목차 보기
다시 시작 > 다시 시작
서버 대 서버리스
웹사이트 변경 감지기
휴먼 태스크 자동화
전용 서버 대신 퍼블릭 클라우드 선택
오픈 소스 도구
규정 준수 문제 아웃소싱
머신을 사용하여 데이터 유효성 검사 비용 절감
규모가 조건을 결정하게 하십시오
변경된 항목만 새로 고침
PromptCloud와 같은 DaaS 공급자 사용

계획 없이 웹에서 데이터를 스크랩하는 것은 위험을 수반합니다. 복잡한 웹사이트와 데이터 정리에 몰두하다 보면 예산이 빠르게 초과될 것입니다. 클라우드 리소스를 사용하고 매일 발생하는 비용을 추적하지 않는 경우 가능성이 훨씬 더 높아집니다. 비용 최적화 측면에서 일반적으로 다음을 포함한 전체 워크플로를 살펴봐야 합니다.

  1. 웹에서 데이터 스크랩.
  2. 데이터 정리 및 정규화.
  3. 데이터베이스 또는 S3 버킷과 같은 매체에 데이터를 저장합니다.
  4. API 호출을 통해 데이터에 액세스하거나 스토리지 위치에 직접 액세스합니다.
  5. 데이터의 암호화 및 복호화가 가능합니다(데이터가 민감하고 높은 보안이 가장 중요한 경우).
  6. 다운스트림 워크플로에 사용할 수 있도록 스크랩한 데이터를 처리합니다.

다시 시작 > 다시 시작

수백만 개의 웹 페이지에서 수십 개의 데이터 요소를 스크랩하는 경우 코드가 어느 시점에서 중단될 수 있습니다. 대부분의 시나리오에서 사람들은 전체 작업을 다시 시작합니다. 실제로 구현하고 사용하기가 훨씬 쉽습니다. 그러나 캐싱 메커니즘을 사용하는 약간의 엔지니어링 경이로움을 통해 스크래핑 작업이 중단될 때마다 체크포인트를 저장하도록 할 수 있습니다. 파손 뒤에 있는 문제를 해결한 후에는 저장된 체크포인트에서 다시 시작하여 데이터 스크랩을 계속할 수 있습니다.

서버 대 서버리스

이 점은 데이터를 실시간으로 스크랩하는 것이 아니라 일괄적으로 스크랩하는 사람들에게 중요합니다. 예를 들어 하루에 두 번 백만 개의 웹 페이지에서 데이터를 스크랩한다고 가정합니다. 매번 스크래핑 작업을 완료하는 데 2시간이 걸립니다. 따라서 작업을 매일 실행하는 데 걸리는 총 시간은 2+2=4시간입니다. 이제 AWS EC-2 인스턴스와 같은 것을 사용하는 서버 기반 설정이 있는 경우 매번 수동으로 인스턴스를 켜고 끄지 않는 한 24시간 동안 요금이 청구됩니다. 업 프로세스. 여기서 취할 수 있는 더 나은 경로는 AWS Lambda 또는 Fargate와 같은 주문형으로 실행되는 클라우드 리소스가 있는 서버리스 설정을 사용하는 것입니다. 이렇게 하면 사용한 4시간에 대해서만 요금이 청구되며 장기적으로 엄청난 비용을 절약할 수 있습니다. 연중무휴로 실행되는 자동 스파이더를 사용하여 웹에서 데이터를 스크랩하는 경우 서버 기반 설정을 선택할 수 있습니다.

웹사이트 변경 감지기

5개의 웹사이트에서 총 5백만 개의 웹페이지 스크랩을 통해 백만 개의 웹페이지를 스크랩할 수 있습니다. 이제 해당 웹 사이트 중 2개가 UI 기반 변경을 수행하고 크롤러를 실행할 때 워크플로에서 잘못된 데이터를 얻는다고 가정합니다. 이제 사용할 수 없는 데이터 부분을 찾고 크롤러를 업데이트한 다음 2백만 개의 웹 페이지에 대해 다시 실행하기 위해 인시와 추가 컴퓨팅 리소스를 모두 소비해야 합니다. 웹 사이트 중 2개의 모양과 느낌이 변경되었음을 알려주는 변경 감지기 스크립트를 실행했다면 이러한 상황을 쉽게 피할 수 있었습니다. 이렇게 하면 시간과 비용을 절약하고 데이터 손실 가능성까지 줄일 수 있습니다.

휴먼 태스크 자동화

웹 스크래핑 워크플로를 만들 때 처음에는 수동으로 수행되는 많은 작업이 있습니다. 여기에는 데이터 확인 및 검증, 데이터 정리, 서식 지정 등과 같은 단계가 포함될 수 있습니다. 종종 데이터 분석가는 로컬 시스템에서 스크립트를 실행하는 데 몇 시간 또는 며칠을 소비합니다. 처리할 수 있는 데이터 양이 많을 경우 스크립트를 실행하는 데 시간이 걸릴 수도 있습니다. 여기서 더 나은 옵션은 데이터의 펄스를 얻은 후 일부 단계를 자동화하는 것입니다. 시간이 지남에 따라 효율성을 높이기 위해 더 많은 작업을 자동화하는 것을 목표로 해야 합니다.

전용 서버 대신 퍼블릭 클라우드 선택

매 밀리초가 중요한 데이터 스트림을 사용하여 결정을 내리지 않는 한 전용 서버 대신 퍼블릭 클라우드를 사용할 수 있습니다. 약간의 성능 저하가 있을 수 있지만 장기적으로 전용 서버를 사용하면 웹 스크래핑 비용이 한도를 초과할 수 있습니다.

오픈 소스 도구

대부분의 라이선스 소프트웨어는 월간 또는 연간 구독을 통해 엄청난 비용이 듭니다. IP 회전 또는 데이터 정리와 같은 추가 기능이 필요한 경우 추가 요금이 부과될 수 있습니다. 또한 대부분의 유료 도구에는 몇 가지 제한 사항이 있으며 새로운 기능 추가 또는 변경은 승인될 경우 몇 달이 걸릴 수 있습니다.

규정 준수 문제 아웃소싱

웹 전체에서 데이터를 스크랩할 때 다음과 같은 여러 법적 측면을 살펴봐야 합니다.

  1. 개인 정보를 캡처하는지 여부.
  2. 해당 웹사이트의 robot.txt 파일.
  3. 로그인 페이지 뒤에 있는 데이터를 둘러싼 규칙.
  4. 저작권이 있는 콘텐츠를 처리합니다.
  5. 콘텐츠 재사용을 보장하는 것은 법률을 위반하지 않습니다.
  6. 콘텐츠를 스크랩하는 지리적 위치와 최종 사용자가 거주하는 위치의 법률을 인식합니다.

그리고 더…

글로벌 디지털 법률의 복잡성으로 인해 한 번의 실수로 인해 소송의 잘못된 결말에 처하기 쉽습니다. 반면에 모든 회사에 이러한 문제를 처리할 법무팀이 있는 것은 아닙니다. 비용이 많이 들기 때문입니다.

대신 새로운 웹 스크래핑 흐름을 설정하거나 스크랩한 데이터를 사용하여 제품을 만들기로 결정할 때마다 도움을 받을 수 있도록 법적 요구 사항을 아웃소싱할 수 있습니다. 웹 스크래핑을 위한 온디맨드 법률 서비스는 소규모 또는 중간 수준의 회사에 더 적합한 반면 Fortune 500대 기업의 법률 부서는 이러한 문제를 내부적으로 처리할 수 있습니다.

머신을 사용하여 데이터 유효성 검사 비용 절감

회사에서 할 수 있는 한 가지 전환은 데이터 전문가를 확보하는 대신 타사 라이브러리를 사용하여 데이터를 검증하는 것입니다. 종종 수십 명의 분석가가 원시 데이터를 수동으로 분석하고, 특정 변경을 수행하고, 새 열을 생성하고, 데이터를 정규화합니다. 이러한 활동의 ​​대부분은 AWS Step Functions와 같은 도구를 사용하여 워크플로를 생성하여 자동화할 수 있습니다. 이러한 워크플로는 다음을 기반으로 구성할 수 있습니다.

  1. 데이터가 라이브 스트림 또는 배치 형태로 제공되는지 여부.
  2. 주기적으로 처리되는 데이터의 양입니다.
  3. 데이터에 대해 수행하려는 처리 유형입니다.
  4. 데이터 요소가 워크플로를 통과하는 데 걸릴 수 있는 허용 시간입니다.
  5. 재시도, 롤백 및 재실행 메커니즘의 필요성.

이러한 워크플로의 가장 큰 장점은 실제로 어느 정도의 수동 확인이 필요한 경우 사람이 데이터를 살펴보고 필요한 경우 변경하고 버튼을 눌러 워크플로를 이동할 수 있는 수동 단계를 워크플로에서 가질 수 있다는 것입니다. 다음 단계로.

규모가 조건을 결정하게 하십시오

수천 명의 직원이 여러 국가에서 근무하는 기업체를 위한 최고의 스크래핑 솔루션은 단일 도시에서 근무하는 10명의 직원이 있는 스타트업에게는 가격 효율적이지 않을 수 있습니다. 따라서 다른 회사에서 스크랩 아이디어를 가져오는 것은 도움이 되지 않을 수 있습니다. 또한 규모가 커짐에 따라 회사의 스크래핑 계획도 업데이트해야 할 수 있습니다.

변경된 항목만 새로 고침

전자 상거래 웹 사이트에서 데이터를 스크랩한다고 가정합니다. 설명, 속성, 반품 정책, 가격, 리뷰 수, 평점 등과 같이 중요한 여러 데이터 포인트가 있습니다. 이제 이 데이터를 정기적으로 새로 고치는 경우 다른 데이터 포인트를 다른 간격으로 새로 고치는 것이 좋습니다. 예를 들어 가격은 매시간, 리뷰 및 평점은 매일, 나머지 데이터 포인트는 매달 새로 고칠 수 있습니다. 그런 변화가 사소해 보이지만 비용과 노력을 몇 백만 배로 하면 필요한 만큼만 상쾌함을 얻을 수 있다는 것을 깨닫게 될 것입니다.

PromptCloud와 같은 DaaS 공급자 사용

웹 스크래핑과 관련하여 만병통치약은 없기 때문에 PromptCloud 팀은 스크래핑 요구 사항에 따라 모든 회사에 맞춤형 솔루션을 제공합니다. 완전 맞춤형 솔루션을 통해 다음을 업데이트할 수 있습니다.

  • 데이터를 스크랩해야 하는 웹사이트.
  • 데이터 스크래핑 빈도.
  • 추출할 데이터 포인트.
  • 스크랩한 데이터를 사용하려는 메커니즘입니다.

얼마나 많은 소스를 연결하든 당사의 수집기 기능은 데이터를 단일 스트림으로 가져오는 데 도움이 될 수 있습니다.

기업은 워크플로우를 빠르게 가동하고 실행해야 하는 빡빡한 일정을 가지고 있습니다. 우리의 경험은 일단 요구 사항이 있으면 단기간에 스크래핑 파이프라인을 설정하는 데 도움이 됩니다. 또한 종단 간 솔루션을 제공하여 고객이 데이터의 혼돈을 이해할 수 있도록 돕습니다. 편리한 다른 기능은 다음과 같습니다.

  • 클라우드에 배포된 유지 관리 서비스가 없는 완전 관리형.
  • 강력한 SLA로 뒷받침되는 신속한 지원.
  • 데이터가 제시간에 도달할 수 있도록 대기 시간이 짧습니다.
  • 요구 사항에 따른 무제한 확장성.
  • 전체 스크래핑 작업 흐름의 모니터링 및 유지.

사용하는 데이터 양에 따라 요금을 부과하므로 고정 요금에 대해 걱정할 필요가 없습니다. 진정한 DaaS 솔루션과 마찬가지로 월 청구서는 데이터 사용량만을 기준으로 합니다. 따라서 지금 구독하고 단 4단계로 비용을 절감하지 않고 합리적인 가격으로 데이터를 얻으십시오.

  1. 당신은 우리에게 요구 사항을 제공합니다.
  2. 샘플 데이터를 드립니다.
  3. 만족하시면 크롤러 설정을 마무리하겠습니다.
  4. 데이터는 귀하가 선택한 형식과 선호하는 매체를 통해 귀하의 손에 전달됩니다.

따라서 선택은 귀하의 것이며 비용이 최고조에 달하기 전에 웹 스크래핑의 고삐를 손에 쥐어야 할 때입니다.