การใช้ Google ชีตเป็น Web Scraper พื้นฐาน – คำแนะนำของ PromptCloud
เผยแพร่แล้ว: 2022-11-08Google Suite เป็น Web Scraper
Google ชีตมีฟังก์ชันการทำงานที่ยอดเยี่ยมและเข้าถึงได้ง่าย มันทำการยกของหนักส่วนใหญ่เพื่อดึงจุดข้อมูลและส่วนที่เฉพาะเจาะจง การขูด Google ชีตสำหรับข้อมูลเว็บไซต์ทำงานโดยใช้ไวยากรณ์การนำเข้าและทำความคุ้นเคยกับสคริปต์ของ Google หรือโปรแกรมเสริม Python จากการวิจัยกล่าวว่าเอกสารการขูดเว็บทำงานได้ดีที่สุดกับผู้ที่วิเคราะห์เว็บไซต์และฟอรัมเป็นประจำ วิศวกรข้อมูลและผู้บริหารผลิตภัณฑ์ส่วนหน้าของเราใช้ผลิตภัณฑ์เช่น PromptCloud เพื่อประสบการณ์ที่แข็งแกร่งยิ่งขึ้นในการสแกนข้อมูลเว็บ ในบล็อกนี้ คุณจะพบข้อมูลเกี่ยวกับการใช้สูตร Google suite วิธีการนำเข้าข้อมูลจากเว็บไซต์ และข้อจำกัดของการใช้ Google ชีตเป็นเว็บสแครปเปอร์ แต่ก่อนอื่น เรามาเริ่มด้วยการดูสูตรสำหรับการจัดโครงสร้างข้อมูลกันก่อน
ไวยากรณ์เพื่อดึงข้อมูลเว็บลงในชีต
ด้านล่างนี้คือสูตรการขูดเว็บที่คุณสามารถใช้เพื่อดึงข้อมูล
ImportXML
ไวยากรณ์นี้ใช้เพื่อรับข้อมูลจาก URL ที่มีโครงสร้างซึ่งสร้างจากฟีด HTML และ XML คุณสามารถดูรายละเอียดเกี่ยวกับชื่อหน้า วันที่ และชื่อผู้แต่งได้ การใช้คิวรีช่วยให้คุณตัดสินใจได้ว่าต้องการขูดส่วนใดของหน้าเว็บ ฟังก์ชันนี้ยังสนับสนุนฟีด CSV และ ATOM XML โดยไม่ต้องใช้โค้ด สแกน URL ของหน้าเว็บและใช้ XPath ค้นหาส่วนเพื่อนำทางผ่านองค์ประกอบต่างๆ ข้อมูลที่สแกนสามารถนำมาประกอบกับเอกสาร XML เริ่มต้นด้วยเอกสาร Google ชีตใหม่ และเพิ่ม URL ของหน้าเว็บที่คุณต้องการขูดข้อมูล เมื่อคุณพบ Xpath ขององค์ประกอบ ให้ใช้ไวยากรณ์ ImportXML และรับข้อมูลเว็บที่มีโครงสร้าง วางเมาส์เหนือส่วนนั้น ไปที่ตัวเลือก คลิกตรวจสอบ แล้วเลือกคัดลอก Xpath เพื่อดึงข้อมูลลงในชีตใหม่
แนะนำ Xpath Url ในชีตด้วยการปรับแต่งเล็กน้อยโดยเฉพาะหากคุณใช้ Chrome URL ที่คัดลอกจากเบราว์เซอร์นี้จะปิดเส้นทางในวงเล็บคู่เสมอ อย่างไรก็ตาม หากต้องการขูดเว็บไซต์ วงเล็บคู่ต้องเปลี่ยนเป็นเครื่องหมายคำพูดเดียว นอกจากนี้ ให้ปรับแต่งชื่อหน้าเพื่อเริ่มต้นและส่งแบบสอบถามเพื่อรวบรวมองค์ประกอบหลักของหน้าเว็บ ในไม่กี่วินาที แบบสอบถามจะส่งคืนข้อมูลใน Google ชีตในรูปแบบที่มีโครงสร้าง
นำเข้าHTML
ไวยากรณ์นี้ใช้เป็นหลักในการสร้างรายการและนำเข้าตารางจากเว็บไซต์ ฟังก์ชันนี้จะไม่เพียงนำเข้าตารางอย่างง่ายดาย แต่ยังอัปเดตข้อมูลที่ดึงมาเป็นระยะๆ ด้วย ไวยากรณ์ Html จะสแกนหาจุดข้อมูล เช่น แท็กตาราง รายการที่ไม่เรียงลำดับ และแท็กรายการที่เรียงลำดับภายในข้อความเพื่อคัดลอกข้อมูลออกจากหน้าเว็บ สำหรับการนำเข้าข้อมูลผ่าน HTML นั้น URL จะต้องอยู่ในเครื่องหมายคำพูดคู่พร้อมการจัดทำดัชนีตารางที่เหมาะสม กระบวนการนี้จะยุ่งยากหากคุณมีตารางที่จะสแกนมากกว่าหนึ่งตารางบนหน้า นี่คือที่ที่คุณจะต้องดำเนินการสแกนโดยใช้คอนโซลนักพัฒนาซอฟต์แวร์หรือเมนูโดยใช้ F12 บนแป้นพิมพ์ คัดลอกสูตรในคอนโซลเพื่อสร้างดัชนีองค์ประกอบ
หากต้องการนำเข้าเฉพาะคอลัมน์หรือแถวที่เฉพาะเจาะจง คุณสามารถใช้ตัวกรองในไวยากรณ์เพื่อดึงข้อมูลได้ ตามการตั้งค่าทั่วไปของ Google เอกสารจะรีเฟรชทุก 1 ชั่วโมง อย่างไรก็ตาม หากคุณต้องการข้อมูลแบบเรียลไทม์ คุณสามารถตั้งค่าความเร็วในการรีเฟรชได้ตามนั้น ในการรีเฟรชหน้าโดยอัตโนมัติ การใช้ทริกเกอร์เช่น code.gs และ myfunction จะช่วยได้ นอกจากนี้ยังส่งการแจ้งเตือนหากทริกเกอร์หยุดทำงานหรือหยุดรีเฟรชตาราง Google ชีตสามารถรองรับคำขอ ImportHTML ซ้ำได้สูงสุด 50 รายการ
นำเข้าFEED
ไวยากรณ์นี้ใช้สำหรับสแกนเนื้อหาจากหน้าไปยัง Google ชีตโดยตรง ImportFeed ให้คุณเข้าถึง RSS และฟีดแบบละเอียดสำหรับการนำเข้าข้อมูลโดยอัตโนมัติ คุณส่งแบบสอบถามเพื่อนำเข้าข้อมูลโดยใช้รหัสเช่น StartRow สำหรับการเลือกแถวเดียวกันเพื่อคัดลอกข้อมูล และ NumberRow เพื่อหาจำนวนข้อมูลที่สแกน เมื่อคุณระบุช่วงของเซลล์ ข้อมูลจะถูกนำเข้าจากฟีด Atom ผ่านเส้นทาง URL ที่ระบุ ข้อมูลที่ได้รับจากไวยากรณ์นี้มีประโยชน์สำหรับการทำความเข้าใจบล็อกและบทความ การใช้อาร์กิวเมนต์ เช่น ข้อความค้นหาและส่วนหัวจะบอกโปรแกรมรวบรวมข้อมูลว่าต้องการข้อมูลใดและจากเส้นทางใด
ImportData และ ImportRange
ไวยากรณ์ข้างต้น ImportData ใช้สำหรับการสแกนและคัดลอกข้อมูลจากแหล่งต่างๆ และ Google ชีต ในขณะที่ ImportRange คัดลอกส่วนของหน้าเว็บ ตามชื่อที่แนะนำ ช่วงการนำเข้าเป็นฟังก์ชันที่สำคัญและมีประโยชน์มากที่สุดใน Google ชีต เนื่องจากสามารถคัดลอกเซลล์จากสเปรดชีตอิสระได้ เมื่อใช้คิวรี คุณสามารถค้นหา กรอง และจัดเรียงข้อมูลได้เหมือนกับชุดข้อมูลอื่นๆ แบบสอบถามเป็นฟังก์ชันช่วยประหยัดเวลาได้มากในขณะที่จัดการกับสเปรดชีตหลาย ๆ อัน และสามารถใช้ควบคู่ไปกับสูตรสองสูตรใดก็ได้ ตามที่สังเกต คิวรีช่วยในการจัดการข้อมูลได้หลายวิธี และฟังก์ชันการนำเข้าจะตัดสินว่าจะแสดงข้อมูลอย่างไร
การนำเข้าข้อมูลจากเว็บไซต์
เราได้เห็นวิธีการใช้สูตรของ Google Suite เพื่อลดความพยายามในการค้นคว้าและเรียนรู้วิธีนำเข้าข้อมูลจากเว็บไซต์ การได้รับประสบการณ์ตรงในสองสิ่งนี้จะทำให้คุณมีความมั่นใจในการขูดเว็บโดยใช้ Google ชีตสำหรับงานประจำวัน
Google ชีต: Tables
การขูดตารางจากเว็บไซต์เป็นเรื่องง่าย แต่ต้องดำเนินการอย่างถูกต้อง คลิกที่เซลล์ว่าง เขียนไวยากรณ์นำเข้า และวาง URL ที่คุณต้องการขูดและเพิ่มหมายเลขตารางลงใน URL ดำเนินการฟังก์ชันนี้ และคุณจะเห็นสเปรดชีตที่เติมด้วยตารางทั้งหมด ใช้อาร์เรย์ของค่าภายในฟังก์ชันดัชนีเพื่อกรองแถวและคอลัมน์
ส่วนหัวและชื่อเรื่อง
ฟังก์ชันนี้เหมาะสำหรับการสแกนพาดหัวข่าวและชื่อบทความข่าวและบล็อกล่าสุด เมื่อคุณระบุ URL เฉพาะและตัวระบุภายในสคริปต์ HTML ที่สามารถนำโปรแกรมรวบรวมข้อมูลไปยังส่วนหัวได้ วิธีนี้มีประโยชน์เมื่อคุณมีเว็บไซต์มากกว่า 50 แห่งให้สแกนเพื่อแสดงความคิดเห็นในหัวข้อ เนื่องจากทุกเว็บไซต์สร้างขึ้นแตกต่างกัน Url ตัวระบุจึงเปลี่ยนแปลงอยู่เสมอ และนั่นคือเวลาที่เครื่องมือขูดเว็บ เช่น PromptCloud สามารถช่วยขับเคลื่อนความต้องการทางธุรกิจของคุณได้
ฟีดเนื้อหา
ฟังก์ชันนี้สามารถใช้เพื่อนำเข้าเนื้อหาล่าสุดทั้งหมดจากเว็บไซต์ บล็อก และบทความ คุณสามารถกรองข้อมูลนี้ออกได้โดยการส่งข้อความค้นหาในบล็อกยอดนิยมและบล็อกล่าสุด ส่งแบบสอบถามใน URL เพื่อสร้างรายการฟีดของคุณเอง บริษัทใช้วิธีนี้เป็นหลักในการติดตามว่าคู่แข่งโพสต์การอัปเดตเนื้อหาบนเว็บไซต์และหน้าโซเชียลมีเดียอย่างไร
ข้อจำกัดของการใช้ชีตเป็นเครื่องขูด
การใช้ Google ชีตเบื้องต้นไม่ได้มีไว้สำหรับขูดข้อมูลเว็บ ดังนั้นเราจึงสามารถคาดหวังข้อ จำกัด ในขณะที่ใช้ชีตเมื่อปริมาณและอัตราการคัดลอกข้อมูลมาพิจารณา ทันทีที่จำนวนการขูดเกิน 50 แถวหรือ 100 Google ก็หยุดทำงานหรือกลับมาพร้อมกับข้อผิดพลาด สิ่งง่ายๆ เช่น การทำความเข้าใจเนื้อหาเว็บและการแยกเนื้อหาตามนั้น จะถูกจัดเรียงโดยใช้ฟังก์ชันต่างๆ ของ Google
บทสรุป
การใช้ Google ชีต คุณสามารถขูดข้อมูล H1 ชื่อ คำอธิบาย และลิงก์ของหน้าได้ มากเสียจนคุณสามารถดึงเนื้อหานอกหน้าเช่นชื่อเมตาและคำอธิบายออกจากหน้าเว็บได้ คุณยังสามารถขูดหน้าเว็บที่มีผู้เขียนหลายคนได้โดยการรวมรหัสนำเข้าและดัชนีเข้าด้วยกัน โดยรวมแล้ว Google สเปรดชีตจะให้ประสบการณ์ที่ดีแก่คุณในการดึงข้อมูลเว็บตราบเท่าที่ปริมาณสามารถวัดได้และมีการกำหนดไว้ล่วงหน้า เหมาะที่สุดสำหรับโครงการขนาดเล็กในระดับทีมหรือทำงานได้ดีที่สุดสำหรับการดำเนินโครงการวิจัยของมหาวิทยาลัย หากคุณมีโครงการขนาดใหญ่ โปรดติดต่อ [email protected] เพื่อทำการขูดเว็บแบบกำหนดเอง