Menggunakan Google Spreadsheet sebagai Pengikis Web Dasar – Panduan PromptCloud

Diterbitkan: 2022-11-08
Daftar Isi menunjukkan
Google Suite sebagai Pengikis Web
Sintaks untuk Menarik Data Web ke dalam Spreadsheet
ImporXML
ImporHTML
ImporFEED
ImportData dan ImportRange
Mengimpor Data dari Situs Web
Google sheet: Tabel
Header dan Judul
Umpan konten
Batasan Menggunakan Lembar sebagai Scraper
Kesimpulan

Google Suite sebagai Pengikis Web

Lembar Google memiliki beberapa fungsi fantastis dan kemudahan aksesibilitas. Itu melakukan sebagian besar pekerjaan berat untuk mengekstraksi titik dan bagian data tertentu. Menggores lembar Google untuk data situs web berfungsi dengan menggunakan sintaks impor dan membiasakan diri Anda dengan skrip Google atau add-on Python. Seperti yang dikatakan penelitian, dokumen pengikisan web bekerja paling baik dengan orang-orang yang menganalisis situs web dan forum secara teratur. Insinyur data dan eksekutif lini depan produk kami menggunakan produk seperti PromptCloud, untuk pengalaman yang lebih andal, untuk memindai data web. Di blog ini, Anda menemukan informasi tentang penggunaan rumus Google suite, cara mengimpor data dari situs web, dan batasan penggunaan Google sheets sebagai pengikis web. Tapi, pertama-tama, mari kita mulai dengan melihat rumus untuk menyusun data.

Sintaks untuk Menarik Data Web ke dalam Spreadsheet

Disebutkan di bawah ini adalah formula pengikisan web yang dapat Anda gunakan untuk mengekstrak data.

ImporXML

Sintaks ini digunakan untuk mendapatkan data dari Url terstruktur yang dibangun di atas umpan HTML dan XML. Anda bisa mendapatkan detail tentang judul halaman, tanggal, dan nama penulis. Dengan menggunakan kueri, Anda dapat memutuskan bagian halaman web mana yang akan dikikis. Fungsi ini juga mendukung umpan XML CSV dan ATOM tanpa menggunakan kode. Pindai Url halaman web dan gunakan XPath temukan bagian untuk menavigasi elemen. Data yang dipindai dapat dikaitkan dengan dokumen XML. Mulailah dengan dokumen lembar Google baru dan tambahkan Url halaman web tempat Anda ingin mengikis datanya. Saat Anda menemukan Xpath elemen, gunakan sintaks ImportXML dan dapatkan data web terstruktur. Arahkan kursor ke bagian tersebut, buka opsi, klik periksa, dan pilih salin Xpath untuk mengekstrak data ke lembar baru.

Perkenalkan Url Xpath di lembar dengan beberapa penyesuaian kecil terutama jika Anda menggunakan Chrome. URL yang disalin dari browser ini selalu menyertakan jalur dalam tanda kurung ganda. Namun, untuk mengikis situs web, tanda kurung ganda harus diubah menjadi tanda kutip tunggal. Juga, atur judul halaman untuk memulai dan kirim kueri untuk menangkap elemen utama halaman web. Dalam beberapa detik, kueri mengembalikan informasi di lembar Google dalam format terstruktur.

ImporHTML

Sintaks ini terutama digunakan untuk membuat daftar dan mengimpor tabel dari situs web. Fungsi ini tidak hanya akan mengimpor tabel dengan mudah tetapi juga akan terus memperbarui data yang ditarik secara berkala. Sintaks HTML memindai titik data seperti tag tabel, daftar tidak berurutan, dan tag daftar terurut dalam teks untuk menyalin data keluar dari halaman web. Untuk mengimpor data melalui HTML, Url harus diapit dalam tanda kutip ganda dengan pengindeksan tabel yang tepat. Prosesnya menjadi rumit jika Anda memiliki lebih dari satu tabel untuk dipindai pada halaman. Di sinilah Anda perlu mengoperasikan pemindaian menggunakan konsol pengembang atau menu menggunakan F12 pada keyboard. Salin rumus di konsol untuk elemen pengindeksan.

Untuk mengimpor hanya kolom atau baris tertentu saja, Anda dapat menggunakan filter dalam sintaks untuk mengambil data. Sebagai setelan Google suit umum, dokumen disegarkan setiap 1 jam. Namun, jika Anda membutuhkan data waktu nyata, Anda dapat mengatur kecepatan refresh yang sesuai. Untuk mengotomatiskan penyegaran halaman, menggunakan pemicu seperti code.gs dan myfunction akan berhasil. Ini juga mengirimkan pemberitahuan jika pemicu berhenti bekerja atau berhenti menyegarkan tabel. Google Spreadsheet dapat menangani hingga 50 permintaan berulang ImportHTML.

ImporFEED

Sintaks ini digunakan untuk memindai konten dari halaman langsung ke lembar Google. ImportFeed memberi Anda akses ke RSS dan umpan granular untuk mengimpor data secara otomatis. Anda mengirim kueri untuk mengimpor data menggunakan kode seperti StartRow untuk memilih baris yang sama untuk menyalin data dan NumberRow untuk menghitung jumlah data yang dipindai. Saat Anda menentukan rentang sel, data akan diimpor dari umpan Atom melalui jalur Url yang ditentukan. Data yang diambil oleh sintaks ini berguna untuk memahami blog dan artikel. Menggunakan argumen seperti kueri dan tajuk akan secara khusus memberi tahu perayap informasi apa yang dibutuhkan dan dari jalur mana.

ImportData dan ImportRange

Sintaks di atas, ImportData digunakan untuk memindai dan menyalin data dari berbagai sumber dan lembar Google. Sedangkan ImportRange menyalin bagian dari halaman web. Seperti namanya, rentang Impor adalah fungsi yang paling penting dan berguna di lembar Google karena dapat menyalin sel dari spreadsheet independen. Dengan menggunakan kueri, Anda dapat mencari, memfilter, dan mengurutkan data seperti kumpulan data lainnya. Kueri sebagai fungsi menghemat banyak waktu saat menangani beberapa spreadsheet dan dapat digunakan bersama-sama untuk dua rumus apa pun. Seperti yang diamati, kueri membantu memanipulasi data dalam berbagai cara dan fungsi impor memutuskan bagaimana data ditampilkan.

Mengimpor Data dari Situs Web

Kami telah melihat cara menggunakan rumus Google Suite untuk memudahkan upaya penelitian dan mempelajari cara mengimpor data dari situs web. Mendapatkan pengalaman langsung dalam dua hal ini akan memberi Anda kepercayaan diri untuk melakukan pengikisan web menggunakan lembar Google untuk tugas sehari-hari.

Google sheet: Tabel

Menggores tabel dari situs web itu mudah, tetapi harus dilakukan dengan benar. Klik pada sel kosong mana pun, tulis sintaks Impor dan rekatkan URL yang ingin Anda gores dan tambahkan nomor tabel ke Url. Jalankan fungsi ini dan Anda akan melihat spreadsheet diisi dengan seluruh tabel. Gunakan larik nilai dalam fungsi indeks untuk memfilter baris dan kolom.

Header dan Judul

Fungsi ini lebih baik untuk memindai melalui headline dan judul artikel berita dan blog terbaru. Setelah Anda mengidentifikasi Url tertentu dan pengidentifikasi dalam skrip HTML yang dapat mengarahkan crawler ke header. Metode ini berguna ketika Anda memiliki lebih dari 50 situs web untuk dipindai untuk membuat opini tentang suatu topik. Karena setiap situs web dibuat secara berbeda, Url pengenal terus berubah, dan saat itulah alat pengikis web seperti PromptCloud dapat membantu mendorong kebutuhan bisnis Anda.

Umpan konten

Fungsi ini dapat digunakan untuk mengimpor semua konten terbaru dari situs web, blog, dan artikel. Anda dapat memfilter data ini dengan mengirimkan kueri di blog teratas dan blog terbaru. Juga, kirim kueri di Url untuk membuat daftar umpan Anda sendiri. Metode ini digunakan terutama oleh perusahaan untuk melacak bagaimana pesaing memposting pembaruan konten di situs web dan halaman media sosial mereka.

Batasan Menggunakan Lembar sebagai Scraper

Penggunaan dasar lembar Google bukan untuk menggores data web. Jadi kita dapat mengharapkan batasan saat menggunakan lembar ketika jumlah dan kecepatan data yang dikikis diperhitungkan. Segera setelah jumlah pengikisan melampaui 50 baris atau 100, Google langsung mogok atau kembali dengan kesalahan. Hal-hal sederhana seperti memahami konten web dan memisahkannya sesuai diurutkan dengan menggunakan fungsi Google.

Kesimpulan

Menggunakan lembar Google Anda dapat mengikis data H1, judul, deskripsi, dan tautan halaman. Sedemikian rupa sehingga Anda dapat mengeluarkan konten di luar halaman seperti judul meta dan deskripsi dari halaman web. Anda juga dapat mengikis halaman web multi-penulis dengan menggabungkan kode impor dan indeks. Secara keseluruhan, spreadsheet Google akan memberikan pengalaman yang baik bagi Anda untuk menggores data web selama jumlahnya dapat diukur dan ditentukan sebelumnya. Ini adalah yang terbaik untuk proyek-proyek kecil di tingkat tim atau bekerja dengan sangat baik untuk melakukan proyek penelitian universitas. Jika Anda memiliki proyek berskala besar, hubungi [email protected] untuk pengikisan web khusus.