이미지 크롤러 구축 방법 – 전체 가이드

게시 됨: 2023-01-10
목차 보기
스크랩한 이미지 사용
ML 모델 교육
전자상거래 이미지
텍스트/비디오 콘텐츠 만들기
특정 개인, 이벤트 등의 이미지 찾기
웹에서 이미지 스크랩 관련 문제
설정하기
스크래핑 방지 조치 및 법적 장애물
다양하고 끊임없이 변화하는 웹사이트 레이아웃
불량하거나 사용할 수 없는 이미지
이미지가 있는 웹사이트는 때때로 로드 속도가 느림
DIY 솔루션
DaaS 솔루션 사용의 이점

웹에서 이미지를 스크랩하는 것은 텍스트 콘텐츠를 스크랩하는 것보다 훨씬 어렵습니다. 그 이유는 웹 페이지의 콘텐츠를 선별하고 구체적으로 이미지만 추출해야 하기 때문입니다. 게다가 맥락 없는 이미지는 그다지 도움이 되지 않을 것입니다.

이러한 이미지에 자동 태그가 지정되도록 하려면 이미지 또는 이미지 위 또는 아래에 있는 텍스트 콘텐츠를 추출해야 할 수도 있습니다. 또 다른 요점은 텍스트 데이터를 집계, 재작성 또는 재사용을 위해 분해할 수 있다는 것입니다. 반면에 이미지는 저작권 문제로 인해 재사용이 제한될 수 있습니다. 이는 이미지를 스크랩할 때 직면할 수 있는 문제 중 일부에 불과합니다. 하지만 그것에 대해 알아보기 전에 이미지 스크랩의 가치와 웹에 기반한 오늘날의 데이터 중심 사회에서 이미지 스크랩이 얼마나 중요한지 살펴보겠습니다.

그림: Google의 리버스 이미지 검색 포털

이미지 스크래핑 또는 크롤링은 최근 몇 년 동안 붐을 일으켰으며 Google조차도 크롤링한 데이터를 기반으로 결과를 표시하는 역 이미지 검색 옵션을 제공합니다. 하기 위해

이미지가 올바른 텍스트와 연결되어 있는지 확인하고 개발자 및 웹 페이지 작성자를 위한 몇 가지 지침도 발표했습니다.

그림: Google 이미지 검색 포털에서 이미지 검색

스크랩한 이미지 사용

회사는 다양한 사용 사례를 위해 웹을 크롤링하고 이미지를 스크랩하기를 원할 수 있습니다. 이들은 주로 원시 이미지를 사용하는 두 세트로 나눌 수 있습니다. 보다 성숙한 제품을 만들기 위해 이미지를 사용하여 모델 또는 차트를 구축합니다. 일반적인 사용법 중 일부는 다음과 같습니다.

ML 모델 교육

많은 연구 작업이 수천 장의 사진에서 모델을 교육하여 수행되는 이미지 인식에 사용됩니다. 이에 대한 가장 간단한 예는 ML 알고리즘이 수천 개의 고양이와 개의 이미지에 대해 훈련된 후 98.7%의 정확도로 개와 고양이가 있는 이미지를 성공적으로 식별할 수 있었던 실험입니다.

전자상거래 이미지

가장 큰 이미지 보물 중 하나는 전자 상거래입니다. 소규모 웹사이트는 카탈로그에 추가되는 제품 유형을 결정하기 위해 종종 큰 웹사이트에서 이미지를 스크랩할 수 있습니다. 전자 상거래 이미지는 시장 조사에도 사용할 수 있습니다. 예를 들어 Amazon에서 가장 많이 팔린 티셔츠의 이미지를 스크랩하면 검은색 티셔츠가 가장 수요가 많다는 것을 알 수 있습니다.

텍스트/비디오 콘텐츠 만들기

이전에는 대부분의 사람들이 텍스트 데이터에서 정보를 얻었지만 오늘날 우리가 소비하는 데이터는 텍스트, 오디오, 비디오 및 짧은 비디오와 같은 다양한 형식으로 제공됩니다. 이 콘텐츠에는 많은 이미지가 포함되어 있습니다. 그 중 일부는 외부 소스에서 가져온 것이며 해당 참조가 언급되어 있습니다. 반대로 이 콘텐츠는 추가 다운스트림 사용을 위해 이미지로 스크랩할 수도 있습니다.

밈은 종종 입소문을 타고 인터넷을 강타하는 재미있는 콘텐츠가 포함된 이미지입니다. 최근 몇 년 동안 우리는 웹에서 청중과 연결하기 위해 밈 작가나 밈을 사용하는 마케팅 팀을 고용하는 회사를 보았습니다. 밈과 최신 이미지를 스크랩하면 밈 제작자가 동일한 템플릿을 사용하여 새로운 아이디어나 변형을 생각해 내는 데 도움이 되는 경우가 많습니다.

특정 개인, 이벤트 등의 이미지 찾기

새롭거나 정보를 제공하는 콘텐츠에는 종종 이미지가 필요합니다. 예를 들어 테레사 수녀에 대한 기사를 게시하는 경우 테레사 수녀의 이미지를 추가할 가능성이 높습니다. 이러한 이미지는 쉽게 찾을 수 있습니다. 그러나 한 달에 수천 개의 기사를 게시하고 기사에 사용하기 위해 저작권이 적용되지 않는 이미지가 필요한 출판사라면 심각한 이미지 스크래핑이 필요할 것입니다.

웹에서 이미지 스크랩 관련 문제

설정하기

웹에서 이미지나 데이터를 스크래핑하는 데 있어 주요 장애물 중 하나는 그렇게 할 수 있는 기술 팀이 있다는 것입니다. 두 번째로 인프라 설정입니다. 대부분의 기업이 여러 소스에서 실시간으로 데이터를 필요로 한다는 점을 감안할 때 데이터 스크래핑 설정은 일반적으로 클라우드에 배포됩니다. 이것이 의미하는 바는 팀이 클라우드에 설정하고 장기적으로 유지 관리하는 노하우를 가지고 있어야 한다는 것입니다. 유지 관리에는 버그 수정, 파손, 확장 시 비용 유지가 포함됩니다.

스크래핑 방지 조치 및 법적 장애물

데이터를 스크랩하는 웹사이트에 대한 robots.txt 파일을 가져와야 합니다. 이렇게 하면 해당 웹 사이트에서 설정한 크롤링 규칙을 따를 수 있습니다. 또한 로그인 페이지 밖에 있는 이미지나 저작권 및 재사용 정책이 구체적으로 언급된 이미지를 추적해야 합니다. 유럽의 GDPR 또는 캘리포니아의 CCPA와 같은 지역별 법률은 상황을 더욱 복잡하게 만들 수 있습니다.

다양하고 끊임없이 변화하는 웹사이트 레이아웃

웹 사이트 소유자는 웹 페이지를 고객에게 더 매력적으로 만들기 위해 UI를 빠르게 업그레이드합니다. 이것이 의미하는 바는 웹사이트를 운영하는 최신 기술과 스크래핑을 더욱 복잡하게 만드는 것입니다. 정기적인 업데이트는 UI 업데이트를 푸시할 때마다 코드를 변경해야 할 수도 있음을 의미합니다. 이는 데이터베이스에 새로 스크랩한 이미지가 추가되지 않는 경우에만 알림을 받을 수 있습니다.

불량하거나 사용할 수 없는 이미지

맹목적으로 이미지를 스크랩하면 품질 문제가 발생할 수 있습니다. 이는 해상도, 가시성 및 이미지 일치 자체의 측면일 수 있습니다. 예를 들어 배트맨을 검색하면 영화와 연속극에서 해당 캐릭터를 연기한 배우의 이미지가 많이 검색될 수 있습니다. 연구 또는 비즈니스에 대해 깨끗한 이미지를 설정하려면 올바른 필터를 사용해야 합니다.

이미지가 있는 웹사이트는 때때로 로드 속도가 느림

텍스트는 가볍고 이미지는 무겁습니다. 수많은 이미지가 포함된 웹 페이지를 열면 이미지를 로드하는 데 시간이 걸리는 것을 볼 수 있습니다. 동일한 웹 사이트에서 한 번에 너무 많은 이미지를 스크랩하는 경우 문제가 될 수 있습니다. 완전히 로드되었는지 확인하지 않고 이미지를 다운로드하면 이미지 품질이 저하되거나 빈 이미지가 다운로드될 수 있습니다.

DIY 솔루션

약간의 온라인 조사를 통해 꽤 많은 DIY 옵션을 제공할 수 있습니다. 이들 중 가장 인기있는 것은 다음과 같습니다.

  1. BeautifulSoup과 같은 라이브러리를 사용하여 Python과 같은 언어로 코드를 작성합니다. 그러나 이것은 작은 스크래핑 요구 사항에만 적용됩니다.
  2. 무료 및 유료 옵션으로 제공되는 UI 기반 소프트웨어 사용. 일반적으로 무료 버전에는 많은 제한이 있습니다. 비즈니스 팀이나 제품 팀이 이러한 솔루션을 사용하여 이미지를 스크랩하기를 원하는 경우에도 학습 곡선이 있습니다.
  3. 마우스를 사용하여 웹 페이지에서 원하는 이미지를 지정하고 서비스가 유사한 웹 페이지에서 이미지를 스크랩하는 화면 캡처 기반 이미지 스크래핑 솔루션도 있습니다. 이들은 항상 가장 깨끗한 데이터를 제공하지 않으며 제한된 수 이상의 이미지를 스크랩하려면 비용을 지불해야 합니다.

요컨대 3가지 DIY 솔루션 중 어느 것도 기업을 위해 웹을 크롤링하고 이미지를 스크래핑할 때 언급된 모든 문제를 처리할 수 없습니다.

DaaS 솔루션 사용의 이점

일회성 문제 설명 또는 애완 동물 프로젝트를 위해 웹에서 데이터를 스크랩하는 것은 몇 줄의 Python 코드로 수행할 수 있지만 실시간 데이터 피드를 얻기 위한 엔터프라이즈급 솔루션을 설정하는 것은 쉬운 작업이 아닙니다. 수백 개의 웹 사이트에서 수천 개의 이미지가 필요한 경우에는 훨씬 더 어려울 것입니다. 이것이 바로 PromptCloud가 포춘지 선정 500대 기업과 막 창업한 스타트업 모두에서 사용할 수 있는 맞춤형 이미지 스크래핑 솔루션을 제공하는 이유입니다.

그림: 비즈니스 요구 사항에 대한 PromptCloud 스크래핑 이미지와 관련된 단계

이미지를 위해 스크랩해야 하는 웹사이트와 웹페이지를 알려줄 수 있는 간단한 3단계 프로세스가 있습니다. 특정 검색어와 관련된 이미지를 스크랩할 수도 있습니다. 제공해야 하는 다른 정보는 크롤링 빈도, 이미지 바로 위 또는 아래에서 텍스트를 캡처하려는 경우 스크랩한 이미지를 저장해야 하는 위치 및 액세스 방법입니다. 이미지를 S3 또는 DropBox에 드롭하거나 API를 통해 이미지를 쿼리할 수 있습니다.

요구 사항이 있으면 크롤러를 설정하여 여러 웹 사이트에서 이미지를 스크랩합니다. 우리는 클라우드 설정, 구성 및 합법성을 처리할 것입니다. 설정이 시작되고 실행되면 라이브 시스템이 지정된 전달 방법으로 데이터를 푸시하기 전에 검증할 몇 가지 샘플 데이터를 받게 됩니다.

그 후, 우리는 이미지 스크래핑 시스템을 모니터링하고 크롤러를 업데이트하여 새로운 웹사이트와 웹 페이지는 물론 웹 페이지의 변경 사항을 처리하도록 모든 손상을 연결할 것입니다. 가장 좋은 점은 사용한 데이터 양에 대해서만 비용을 지불한다는 것입니다. 따라서 한 달에 10개의 웹사이트에서 100개의 이미지를 스크랩하면 그에 대한 비용만 지불하면 됩니다. 그리고 다음 달에는 1,000개의 웹사이트에서 10,000개의 이미지를 스크랩한 다음 그에 따라 비용을 지불할 수 있습니다. 이를 통해 우리 서비스는 필요한 데이터의 양에 관계없이 모두가 사용할 수 있는 진정한 클라우드 기반 DaaS 솔루션임을 보장합니다.