Google E-Tablolar'ı Temel Web Kazıyıcı Olarak Kullanma – PromptCloud'un Kılavuzu
Yayınlanan: 2022-11-08Web Kazıyıcı Olarak Google Suite
Google sayfalarının bazı harika işlevleri ve erişilebilirlik kolaylığı vardır. Belirli veri noktalarını ve bölümleri çıkarmak için ağır kaldırmanın çoğunu yapar. Web sitesi verileri için Google sayfalarını kazımak, içe aktarma sözdizimini kullanarak ve kendinizi Google komut dosyasına veya bir Python eklentisine alıştırarak çalışır. Araştırmanın dediği gibi, web kazıma belgeleri, web sitelerini ve forumları düzenli olarak analiz eden kişilerle en iyi sonucu verir. Veri mühendislerimiz ve ürün ön saflarındaki yöneticilerimiz, web verilerini taramak için daha sağlam bir deneyim için PromptCloud gibi ürünleri kullanır. Bu blogda, Google süit formüllerinin kullanımı, web sitelerinden nasıl veri içe aktarılacağı ve Google sayfalarının web kazıyıcı olarak kullanılmasının sınırlamaları hakkında bilgiler bulacaksınız. Ama önce, verileri yapılandırmak için formüllere bakarak başlayalım.
Web Verilerini Sayfalara Çekmek için Sözdizimi
Aşağıda, verileri çıkarmak için kullanabileceğiniz web kazıma formülleri verilmiştir.
ImportXML
Bu sözdizimi, HTML ve XML beslemeleri üzerine kurulu yapılandırılmış bir Url'den veri almak için kullanılır. Sayfa başlıkları, tarihler ve yazar adları hakkında ayrıntılı bilgi alabilirsiniz. Bir sorgu kullanarak, web sayfasının hangi bölümünün kazınacağına karar verebilirsiniz. Bu işlev, kod kullanmadan CSV ve ATOM XML beslemelerini de destekler. Web sayfasının URL'sini tarayın ve XPath kullanarak öğeler arasında gezinme bölümünü bulun. Taranan veriler bir XML belgesine atfedilebilir. Yeni bir Google sayfa belgesiyle başlayın ve verileri sıyırmak istediğiniz web sayfasının URL'sini ekleyin. Öğenin Xpath'ını bulduğunuzda ImportXML sözdizimini kullanın ve yapılandırılmış web verilerini alın. Bölümün üzerine gelin, seçeneklere gidin, incele'ye tıklayın ve verileri yeni sayfaya çıkarmak için Xpath'i kopyala'yı seçin.
Özellikle Chrome kullanıyorsanız, Xpath URL'sini bazı küçük ince ayarlarla sayfalara ekleyin. Bu tarayıcıdan kopyalanan URL'ler yolu her zaman çift parantez içine alır. Ancak, web sitesini sıyırmak için çift parantezler tek bir alıntıyla değiştirilmelidir. Ayrıca, başlamak için sayfa başlığını değiştirin ve web sayfasının ana öğelerini yakalamak için sorguyu gönderin. Birkaç saniye içinde sorgu, Google sayfasındaki bilgileri yapılandırılmış bir biçimde döndürür.
ImportHTML
Bu sözdizimi, büyük ölçüde listeler oluşturmak ve web sitesinden tabloları içe aktarmak için kullanılır. Bu fonksiyon sadece tabloyu kolayca içe aktarmakla kalmayacak, aynı zamanda çekilen verileri düzenli aralıklarla güncellemeye devam edecektir. Verileri web sayfasından kopyalamak için metin içindeki tablo etiketi, sırasız liste ve sıralı liste etiketi gibi veri noktaları için bir Html sözdizimi taraması. Verileri HTML yoluyla içe aktarmak için, URL, uygun tablo indeksleme ile çift tırnak içine alınmalıdır. Sayfada taranacak birden fazla tablonuz varsa işlem zorlaşır. Burada, geliştirici konsolunu veya klavyedeki F12'yi kullanarak menüyü kullanarak taramayı çalıştırmanız gerekecek. Öğeleri indekslemek için formülü konsolda kopyalayın.
Yalnızca belirli sütunları veya satırları içe aktarmak için verileri almak için sözdizimindeki filtreyi kullanabilirsiniz. Genel bir Google kıyafeti ayarı olarak, belge her 1 saatte bir yenilenir. Ancak, gerçek zamanlı verilere ihtiyacınız varsa, yenileme hızını buna göre ayarlayabilirsiniz. Sayfa yenilemeyi otomatikleştirmek için code.gs ve myfunction gibi bir tetikleyici kullanmak işe yarayacaktır. Ayrıca, tetikleyici çalışmayı durdurursa veya tabloları yenilemeyi durdurursa bildirim gönderir. Google E-Tablolar, 50'ye kadar ImportHTML yinelenen isteği işleyebilir.
İthalatFED
Bu sözdizimi, bir sayfadaki içeriği doğrudan Google sayfalarına taramak için kullanılır. ImportFeed, verileri otomatik olarak içe aktarmak için RSS'ye ve ayrıntılı beslemeye erişmenizi sağlar. Verileri kopyalamak için aynı satırı seçmek için StartRow ve taranan veri miktarını ölçmek için NumberRow gibi kodları kullanarak verileri içe aktarmak için bir sorgu gönderirsiniz. Hücre aralığını belirttiğinizde, veriler belirli bir URL yolu aracılığıyla Atom beslemelerinden içe aktarılır. Bu söz dizimi tarafından toplanan veriler, blogları ve makaleleri anlamak için kullanışlıdır. Sorgu ve başlık gibi bağımsız değişkenlerin kullanılması, tarayıcıya özellikle hangi bilgilerin gerekli olduğunu ve hangi yoldan geldiğini söyleyecektir.
ImportData ve ImportRange
Yukarıdaki sözdizimi ImportData, farklı kaynaklardan ve Google sayfalarından veri taramak ve kopyalamak için kullanılır. ImportRange ise web sayfasının bir bölümünü kopyalar. Adından da anlaşılacağı gibi, İçe Aktarma aralığı, bağımsız elektronik tablolardan hücreleri kopyalayabildiğinden, Google sayfalarındaki en önemli ve kullanışlı işlevdir. Bir sorgu kullanarak, diğer veri kümeleri gibi verileri arayabilir, filtreleyebilir ve sıralayabilirsiniz. Bir işlev olarak sorgu, birden çok elektronik tabloyla uğraşırken çok zaman kazandırır ve herhangi iki formül için birlikte kullanılabilir. Görüldüğü gibi, sorgu, verileri çeşitli şekillerde işlemeye yardımcı olur ve içe aktarma işlevi, verilerin nasıl görüntüleneceğine karar verir.
Web Sitelerinden Veri İçe Aktarma
Araştırma çabasını kolaylaştırmak ve web sitelerinden veri almayı öğrenmek için Google Suite formüllerinin nasıl kullanılacağını gördük. Bu iki konuda uygulamalı deneyim kazanmak, günlük görevler için Google sayfalarını kullanarak web kazıma gerçekleştirme konusunda size güven verecektir.
Google sayfası: Tablolar
Web sitesinden tabloları kazımak kolaydır, ancak doğru yapılması gerekir. Herhangi bir boş hücreye tıklayın, İçe Aktarma sözdizimini yazın ve kazımak istediğiniz URL'yi yapıştırın ve tablo numarasını URL'ye ekleyin. Bu işlevi yürütün ve tüm tabloyla doldurulmuş elektronik tabloyu göreceksiniz. Satırları ve sütunları filtrelemek için dizin işlevi içindeki değerler dizisini kullanın.
Başlıklar ve Başlıklar
Bu işlevsellik, haber makalelerinin ve en son blogların başlıklarını ve başlıklarını taramak için daha iyidir. Belirli URL'yi ve tarayıcıyı başlıklara yönlendirebilecek HTML komut dosyasındaki bir tanımlayıcıyı tanımladıktan sonra. Bu yöntem, bir konu hakkında fikir sahibi olmak için taranacak 50'den fazla web siteniz olduğunda kullanışlıdır. Her web sitesi farklı şekilde oluşturulduğundan, tanımlayıcı Url değişmeye devam eder ve işte o zaman PromptCloud gibi bir web kazıma aracı iş ihtiyaçlarınızı karşılamanıza yardımcı olabilir.
İçerik beslemesi
Bu işlev, web sitelerinden, bloglardan ve makalelerden en son içeriği almak için kullanılabilir. En iyi bloglara ve en yeni bloglara sorgu göndererek bu verileri filtreleyebilirsiniz. Ayrıca, kendi besleme listenizi oluşturmak için URL'de bir sorgu gönderin. Bu yöntem büyük ölçüde şirketler tarafından rakiplerin web sitelerinde ve sosyal medya sayfalarında içerik güncellemelerini nasıl yayınladığını takip etmek için kullanılır.
Sayfaları Kazıyıcı Olarak Kullanmanın Sınırlamaları
Google sayfalarının temel kullanımı, web verilerini kazımak için değildir. Bu nedenle, verilerin kazındığı miktar ve hız dikkate alındığında, sayfaları kullanırken sınırlamalar bekleyebiliriz. Kazıma sayısı 50 satırın veya 100 satırın ötesine geçer geçmez Google çöker veya bir hatayla geri döner. Web içeriğini anlamak ve buna göre ayırmak gibi basit şeyler, Google işlevleri kullanılarak sıralanır.
Çözüm
Google sayfalarını kullanarak H1 verilerini, başlıkları, açıklamaları ve sayfa bağlantılarını kazıyabilirsiniz. Öyle ki, bir web sayfasından meta başlıklar ve açıklamalar gibi sayfa dışı içerikleri çıkarabilirsiniz. Ayrıca, içe aktarma ve dizin kodlarını birleştirerek çok yazarlı web sayfalarını kazıyabilirsiniz. Genel olarak, Google e-tablosu, miktar ölçülebilir olduğu ve önceden tanımlandığı sürece, web verilerini kazımak için size iyi bir deneyim sağlayacaktır. Ekip düzeyindeki küçük projeler için en iyisidir veya bir üniversite araştırma projesi yürütmek için mükemmel şekilde çalışır. Büyük ölçekli projeleriniz varsa, özel web kazıma için [email protected] ile iletişime geçin.