Google 스프레드시트를 기본 웹 스크레이퍼로 사용 – PromptCloud 가이드
게시 됨: 2022-11-08웹 스크레이퍼로서의 Google Suite
Google 시트에는 몇 가지 환상적인 기능과 접근성이 있습니다. 특정 데이터 포인트와 섹션을 추출하기 위한 대부분의 무거운 작업을 수행합니다. 웹사이트 데이터에 대한 Google 시트 스크래핑은 가져오기 구문을 사용하고 Google 스크립트 또는 Python 추가 기능에 익숙해지면 작동합니다. 연구에 따르면 웹 스크래핑 문서는 웹사이트와 포럼을 정기적으로 분석하는 사람들에게 가장 적합합니다. 당사의 데이터 엔지니어와 제품 일선 임원은 웹 데이터 스캔을 위해 보다 강력한 경험을 위해 PromptCloud와 같은 제품을 사용합니다. 이 블로그에서는 Google 제품군 공식 사용, 웹사이트에서 데이터를 가져오는 방법 및 Google 시트를 웹 스크레이퍼로 사용하는 데 따른 제한 사항에 대한 정보를 찾을 수 있습니다. 그러나 먼저 데이터를 구조화하는 공식을 살펴보는 것부터 시작하겠습니다.
웹 데이터를 시트로 가져오는 구문
아래는 데이터를 추출하는 데 사용할 수 있는 웹 스크래핑 공식입니다.
XML 가져오기
이 구문은 HTML 및 XML 피드에 구축된 구조화된 URL에서 데이터를 가져오는 데 사용됩니다. 페이지 제목, 날짜 및 저자 이름에 대한 세부 정보를 얻을 수 있습니다. 쿼리를 사용하여 긁어낼 웹 페이지 섹션을 결정할 수 있습니다. 이 기능은 코드를 사용하지 않고 CSV 및 ATOM XML 피드도 지원합니다. 웹 페이지의 URL을 스캔하고 XPath를 사용하여 요소를 탐색할 섹션을 찾습니다. 스캔한 데이터는 XML 문서에 기인할 수 있습니다. 새 Google 시트 문서로 시작하고 데이터를 스크랩하려는 웹페이지의 URL을 추가합니다. 요소의 Xpath를 찾으면 ImportXML 구문을 사용하고 구조화된 웹 데이터를 가져옵니다. 섹션 위로 마우스를 가져간 다음 옵션으로 이동하여 검사를 클릭하고 Xpath 복사를 선택하여 데이터를 새 시트로 추출합니다.
특히 Chrome을 사용하는 경우 약간의 조정으로 시트에 Xpath Url을 소개합니다. 이 브라우저에서 복사한 URL은 항상 경로를 이중 괄호로 묶습니다. 단, 웹사이트를 스크랩하려면 이중괄호를 작은따옴표로 변경해야 합니다. 또한 페이지 제목을 조정하여 시작하고 쿼리를 보내 웹 페이지의 주요 요소를 캡처합니다. 몇 초 안에 쿼리가 구조화된 형식으로 Google 시트의 정보를 반환합니다.
가져오기HTML
이 구문은 주로 목록을 만들고 웹사이트에서 테이블을 가져오는 데 사용됩니다. 이 기능은 테이블을 쉽게 가져올 뿐만 아니라 가져온 데이터를 정기적으로 업데이트합니다. 테이블 태그, 정렬되지 않은 목록 및 텍스트 내의 정렬된 목록 태그와 같은 데이터 포인트에 대한 HTML 구문 스캔은 웹페이지에서 데이터를 복사합니다. HTML을 통해 데이터를 가져오려면 적절한 테이블 인덱싱을 사용하여 Url을 큰따옴표로 묶어야 합니다. 페이지에서 스캔할 테이블이 두 개 이상인 경우 프로세스가 까다로워집니다. 여기에서 개발자 콘솔을 사용하거나 키보드에서 F12를 사용하여 메뉴를 사용하여 스캔을 작동해야 합니다. 요소를 인덱싱하기 위해 콘솔에서 수식을 복사합니다.
특정 열이나 행만 가져오려면 구문의 필터를 사용하여 데이터를 가져올 수 있습니다. 일반적인 Google 슈트 설정으로 문서는 1시간마다 새로고침됩니다. 그러나 실시간 데이터가 필요한 경우 그에 따라 새로 고침 속도를 설정할 수 있습니다. 페이지 새로 고침을 자동화하려면 code.gs 및 myfunction과 같은 트리거를 사용하면 됩니다. 트리거가 작동을 중지하거나 테이블 새로 고침을 중지하는 경우에도 알림을 보냅니다. Google 스프레드시트는 최대 50개의 ImportHTML 반복 요청을 처리할 수 있습니다.
가져오기FEED
이 구문은 페이지의 콘텐츠를 Google 시트로 직접 스캔하는 데 사용됩니다. ImportFeed를 사용하면 RSS 및 데이터를 자동으로 가져오기 위한 세분화된 피드에 액세스할 수 있습니다. 데이터를 복사할 동일한 행을 선택하는 StartRow 및 스캔한 데이터의 양을 수량화하는 NumberRow와 같은 코드를 사용하여 데이터를 가져오기 위한 쿼리를 보냅니다. 셀 범위를 지정하면 지정된 URL 경로를 통해 Atom 피드에서 데이터를 가져옵니다. 이 구문으로 수집된 데이터는 블로그와 기사를 이해하는 데 유용합니다. 쿼리 및 헤더와 같은 인수를 사용하면 크롤러에게 필요한 정보와 경로를 구체적으로 알려줍니다.
ImportData 및 ImportRange
위의 구문인 ImportData는 다른 소스 및 Google 시트에서 데이터를 스캔하고 복사하는 데 사용됩니다. ImportRange는 웹 페이지의 섹션을 복사합니다. 이름에서 알 수 있듯이 가져오기 범위는 독립적인 스프레드시트에서 셀을 복사할 수 있기 때문에 Google 시트에서 가장 중요하고 유용한 기능입니다. 쿼리를 사용하면 다른 데이터 세트와 마찬가지로 데이터를 조회, 필터링 및 정렬할 수 있습니다. Query as a function은 여러 스프레드시트를 처리하는 동안 많은 시간을 절약하고 두 수식과 함께 사용할 수 있습니다. 관찰된 바와 같이 쿼리는 다양한 방식으로 데이터를 조작하는 데 도움이 되며 가져오기 기능은 데이터가 표시되는 방식을 결정합니다.
웹사이트에서 데이터 가져오기
우리는 연구의 노력을 줄이고 웹사이트에서 데이터를 가져오는 방법을 배우기 위해 Google Suite 공식을 사용하는 방법을 보았습니다. 이 두 가지에 대한 실무 경험을 쌓으면 일상적인 작업에 Google 시트를 사용하여 웹 스크래핑을 수행하는 데 자신감을 가질 수 있습니다.
Google 시트: 테이블
웹사이트에서 표를 긁는 것은 쉽지만 올바르게 수행해야 합니다. 빈 셀을 클릭하고 가져오기 구문을 작성하고 스크랩하려는 URL을 붙여넣고 테이블 번호를 URL에 추가합니다. 이 기능을 실행하면 전체 테이블로 채워진 스프레드시트를 볼 수 있습니다. 인덱스 함수 내의 값 배열을 사용하여 행과 열을 필터링합니다.
헤더 및 제목
이 기능은 뉴스 기사 및 최신 블로그의 헤드라인과 제목을 검색하는 데 더 좋습니다. 크롤러를 헤더로 안내할 수 있는 HTML 스크립트 내에서 특정 URL과 식별자를 식별하면. 이 방법은 주제에 대한 의견을 제시하기 위해 스캔할 웹사이트가 50개 이상일 때 유용합니다. 모든 웹사이트는 다르게 구축되기 때문에 식별자 Url은 계속 변경되며, 이때 PromptCloud와 같은 웹 스크래핑 도구가 비즈니스 요구 사항을 추진하는 데 도움이 될 수 있습니다.
콘텐츠 피드
이 기능을 사용하여 웹 사이트, 블로그 및 기사에서 모든 최신 콘텐츠를 가져올 수 있습니다. 상위 블로그 및 최근 블로그에 대한 쿼리를 보내 이 데이터를 필터링할 수 있습니다. 또한 URL에 쿼리를 보내 자신만의 피드 목록을 만듭니다. 이 방법은 경쟁업체가 웹사이트 및 소셜 미디어 페이지에 콘텐츠 업데이트를 게시하는 방법을 추적하기 위해 회사에서 주로 사용합니다.
시트를 스크레이퍼로 사용하는 경우의 제한 사항
Google 시트의 기본 용도는 웹 데이터를 스크랩하는 것이 아닙니다. 따라서 데이터가 스크랩되는 양과 비율을 고려할 때 시트를 사용할 때 제한 사항을 예상할 수 있습니다. 스크래핑 번호가 50행 또는 100개를 넘어서면 Google은 단순히 충돌하거나 오류와 함께 돌아옵니다. 웹 콘텐츠를 이해하고 그에 따라 분류하는 것과 같은 간단한 작업은 Google 기능을 사용하여 정렬됩니다.
결론
Google 시트를 사용하여 H1 데이터, 제목, 설명 및 페이지 링크를 스크랩할 수 있습니다. 웹 페이지에서 메타 제목 및 설명과 같은 페이지 외부 콘텐츠를 가져올 수 있습니다. 가져오기 및 색인 코드를 결합하여 다중 작성자 웹 페이지를 스크랩할 수도 있습니다. 전반적으로 Google 스프레드시트는 수량을 수량화할 수 있고 미리 정의되어 있는 한 웹 데이터를 스크랩하는 데 좋은 경험을 제공합니다. 팀 수준의 소규모 프로젝트에 가장 적합하거나 대학 연구 프로젝트를 수행하는 데 완벽하게 작동합니다. 대규모 프로젝트가 있는 경우 맞춤형 웹 스크래핑을 위해 [email protected] 으로 연락하십시오.