使用 Google 表格作為基本的 Web Scraper – PromptCloud 指南
已發表: 2022-11-08谷歌套件作為網絡爬蟲
谷歌表格有一些很棒的功能和易於訪問。 它完成了提取特定數據點和部分的大部分繁重工作。 通過使用導入語法並熟悉 Google 腳本或 Python 插件來為網站數據抓取 Google 表格。 正如研究所說,網絡抓取文檔最適合定期分析網站和論壇的人。 我們的數據工程師和產品一線主管使用 PromptCloud 等產品來掃描 Web 數據,以獲得更強大的體驗。 在此博客中,您可以找到有關使用 Google 套件公式、如何從網站導入數據以及將 Google 表格用作網絡爬蟲的限制的信息。 但是,首先,讓我們從查看構建數據的公式開始。
將 Web 數據拉入工作表的語法
下面提到的是可用於提取數據的網絡抓取公式。
導入XML
此語法用於從基於 HTML 和 XML 提要構建的結構化 URL 中獲取數據。 您可以獲得有關頁面標題、日期和作者姓名的詳細信息。 使用查詢,您可以決定要抓取網頁的哪個部分。 此功能還支持 CSV 和 ATOM XML 提要,無需使用代碼。 掃描網頁的 Url 並使用 XPath 找到要在元素中導航的部分。 掃描的數據可以歸因於 XML 文檔。 從一個新的 Google 表格文檔開始,然後添加您要從中抓取數據的網頁的 Url。 當您找到元素的 Xpath 時,使用 ImportXML 語法並獲取結構化的 Web 數據。 將鼠標懸停在該部分上,轉到選項,單擊檢查,然後選擇複製 Xpath 以將數據提取到新工作表中。
在工作表中引入 Xpath Url 並進行一些小的調整,尤其是在您使用 Chrome 時。 從該瀏覽器複製的 URL 始終將路徑括在雙括號中。 但是,要抓取網站,必須將雙括號更改為單引號。 此外,調整頁面標題以開始並發送查詢以捕獲網頁的主要元素。 幾秒鐘後,查詢以結構化格式返回 Google 工作表中的信息。
導入HTML
此語法主要用於從網站創建列表和導入表格。 該功能不僅可以輕鬆導入表格,還可以定期更新拉取的數據。 對文本中的表格標籤、無序列表和有序列表標籤等數據點進行 Html 語法掃描,以將數據複製到網頁之外。 對於通過 HTML 導入數據,Url 必須用雙引號括起來並帶有適當的表索引。 如果您在頁面上掃描多個表,則該過程會變得很棘手。 在這裡,您需要使用開發人員控制台或使用鍵盤上的 F12 菜單來操作掃描。 在控制台中復制用於索引元素的公式。
要僅導入特定的列或行,您可以使用語法中的過濾器來獲取數據。 作為一般的 Google 套裝設置,文檔每 1 小時刷新一次。 但是,如果您需要實時數據,則可以相應地設置刷新速度。 要自動刷新頁面,使用像 code.gs 和 myfunction 這樣的觸發器就可以了。 如果觸發器停止工作或停止刷新表,它還會發送通知。 Google 表格最多可以處理 50 個 ImportHTML 重複請求。
進口飼料
此語法用於將頁面中的內容直接掃描到 Google 表格中。 ImportFeed 讓您可以訪問 RSS 和細化提要以自動導入數據。 您發送查詢以導入數據,使用 StartRow 等代碼選擇同一行以復制數據,使用 NumberRow 量化掃描數據量。 當您指定單元格範圍時,數據會通過指定的 Url 路徑從 Atom 提要中導入。 這種語法獲取的數據對於理解博客和文章很有用。 使用查詢和標頭等參數將明確告訴爬蟲需要哪些信息以及來自哪個路徑。
ImportData 和 ImportRange
上述語法 ImportData 用於掃描和復制來自不同來源和 Google 表格的數據。 而 ImportRange 複製網頁的一部分。 顧名思義,導入範圍是谷歌表格中最重要和最有用的功能,因為它可以從獨立的電子表格中復制單元格。 使用查詢,您可以像任何其他數據集一樣查找、過濾和排序數據。 查詢作為一個函數可以在處理多個電子表格時節省大量時間,並且可以串聯使用任何兩個公式。 正如所觀察到的,查詢有助於以多種方式操作數據,而導入功能決定了數據的顯示方式。
從網站導入數據
我們已經了解瞭如何使用 Google Suite 公式來簡化研究工作和學習如何從網站導入數據。 在這兩件事上獲得實踐經驗將使您有信心使用 Google 表格執行網絡抓取以完成日常任務。
谷歌表:表格
從網站上抓取表格很容易,但必須正確執行。 單擊任何空單元格,編寫 Import 語法並粘貼您要抓取的 URL,並將表號添加到 Url。 執行此函數,您將看到填充了整個表格的電子表格。 使用索引函數中的值數組來過濾行和列。
標題和標題
此功能更適合瀏覽新聞文章和最新博客的標題和標題。 一旦您在 HTML 腳本中識別出特定的 Url 和標識符,就可以將爬蟲引導至標頭。 當您要掃描 50 多個網站以就某個主題發表意見時,此方法很有用。 由於每個網站的構建方式都不同,因此標識符 Url 會不斷變化,這時像 PromptCloud 這樣的網絡抓取工具可以幫助推動您的業務需求。
內容提要
此功能可用於從網站、博客和文章中導入所有最近的內容。 您可以通過在熱門博客和最近的博客上發送查詢來過濾掉這些數據。 此外,在 Url 上發送查詢以創建您自己的提要列表。 公司主要使用此方法來跟踪競爭對手如何在其網站和社交媒體頁面上發佈內容更新。
將工作表用作刮板的限制
谷歌表格的基本用途不是抓取網絡數據。 因此,當考慮到數據被抓取的數量和速率時,我們可以預期在使用工作表時會受到限制。 一旦抓取數量超過 50 行或 100 行,Google 就會崩潰或返回錯誤。 使用 Google 功能對簡單的事情進行分類,例如了解 Web 內容並相應地對其進行隔離。
結論
使用 Google 表格,您可以抓取 H1 數據、標題、描述和頁面鏈接。 如此之多,以至於您可以從網頁中提取元標題和描述等頁外內容。 您還可以通過結合導入和索引代碼來抓取多作者網頁。 總體而言,只要數量可以量化且預先定義,Google 電子表格將為您提供良好的網絡數據抓取體驗。 它最適合團隊級別的小型項目,或者非常適合進行大學研究項目。 如果您有大型項目,請聯繫[email protected]進行自定義網頁抓取。