Perché le aziende esternalizzano il web scraping a PromptCloud

Pubblicato: 2017-06-24
Mostra il sommario
Crescente complessità dei siti web
Scalabilità del processo di estrazione
Qualità e manutenzione dei dati
Estrazione dei dati senza problemi
Superare la barriera tecnica
Conclusione

Poiché il mondo degli affari sta adottando rapidamente i dati Web per integrare vari casi d'uso che continuano a crescere di numero ogni giorno che passa, si è verificato un picco nella necessità di un servizio di scraping web affidabile. Molti proprietari di aziende spesso commettono l'errore di innamorarsi degli strumenti fai-da-te che affermano di essere le soluzioni magiche per eseguire la scansione dei dati da qualsiasi sito Web sul Web. La prima cosa da sapere sul web scraping è che non esiste una soluzione pronta all'uso in grado di estrarre dati da qualsiasi sito web.

Servizio di web scraping di livello aziendale

Questo non vuol dire che gli strumenti di scraping web fai-da-te là fuori non funzionino, lo fanno. Il problema è che questi strumenti possono funzionare senza problemi solo in un mondo web perfetto, che purtroppo non esiste. Ogni sito Web è diverso in termini di modalità di presentazione dei dati: la navigazione, le pratiche di codifica, l'uso di script dinamici, ecc. creano una grande diversità nel modo in cui sono costruiti i siti Web. Questo è il motivo per cui non è possibile creare uno strumento di web scraping in grado di gestire tutti i siti Web allo stesso modo.

Quando si tratta di web scraping, gli strumenti sono fuori dall'equazione. L'estrazione di dati dal Web dovrebbe idealmente essere un servizio completamente gestito, che abbiamo perfezionato negli ultimi 8 anni. Non devi crederci sulla parola perché gli strumenti di web scraping non sono una buona combinazione per l'estrazione di dati web a livello aziendale.

Abbiamo raccolto alcune delle risposte dei nostri clienti sul motivo per cui hanno deciso di passare al nostro servizio di scraping web gestito, lasciando dietro di sé gli strumenti "Magic".

Crescente complessità dei siti web

Ecco un commento che abbiamo ricevuto di recente su uno dei nostri blog.

“Sto cercando di eseguire la scansione dei dati delle pagine gialle. Ho trovato un elenco di 64 pagine di negozi. Ho aggiunto un selettore per ragione sociale, indirizzo e numero di telefono. Ho fatto clic con il pulsante destro del mouse su ciascun campo per il selettore di ispeziona/copia/copia per il nome, l'indirizzo e il numero di telefono. Ho raschiato l'URL cambiando solo la fine per leggere le pagine/[001-064]. Ho fatto clic su crawl e, con mia sorpresa, gli unici dati raschiati sono stati per la pagina 001. Ho fatto clic sulla scheda multipla in ogni campo del selettore (per nome, indirizzo e telefono). Perché ho ricevuto solo i dati per la prima pagina? Lo strumento di scansione dovrebbe sapere che volevo gli stessi dati per ogni azienda (30 per pagina) per tutte le 64 pagine? Grazie in anticipo."

Il commentatore qui stava cercando di eseguire la scansione dei dati da un sito Web classificato, ma lo strumento che stava utilizzando non riusciva a navigare alle pagine interne in coda e ha solo raschiato la prima pagina. Questo è un problema comune associato agli strumenti di web scraping, tendono a funzionare bene con i siti che utilizzano semplici strutture di navigazione, ma falliscono se il sito utilizza anche una navigazione moderatamente complessa. Con l'obiettivo di migliorare l'esperienza dell'utente, molti siti stanno ora adottando lo scorrimento infinito basato su AJAX, il che lo rende ancora più complesso. Tali pratiche di codifica dinamica renderebbero inutili la maggior parte, se non tutti gli strumenti web scraper.

Ciò che serve qui è una configurazione completamente personalizzabile e un approccio dedicato in cui una combinazione di livelli manuali e automatizzati viene utilizzata per capire come il sito Web riceve le chiamate AJAX in modo da imitarle utilizzando il crawler personalizzato. Poiché la complessità dei siti Web continua ad aumentare nel tempo, la necessità di una soluzione personalizzabile piuttosto che di uno strumento rigido diventa sempre più ovvia.

Scalabilità del processo di estrazione

Ecco una nota testualmente di uno dei nostri clienti su come non è stato possibile ridimensionare il processo dopo aver tentato di creare una configurazione di scansione interna.

Abbiamo costruito tutti i crawler da soli e non sono soddisfatto del modo in cui l'abbiamo fatto e dato che hai una soluzione migliore sarei interessato a parlare. Voglio anche una soluzione in grado di eseguire la scansione di oltre 5000 siti di vendita al dettaglio.

Molti imprenditori sentono il bisogno di reinventare la ruota. Questa è anche meglio conosciuta come la sindrome NIH (Non inventata qui) che è, in termini semplici, l'urgenza di eseguire un processo internamente piuttosto che esternalizzarlo. Naturalmente, ci sono alcuni processi che possono essere eseguiti meglio internamente e un ottimo esempio è l'assistenza clienti; l'esternalizzazione dell'assistenza clienti è una bestemmia.

Tuttavia, il web scraping non è uno di quelli. Poiché le complessità associate all'estrazione di dati Web su larga scala sono troppo di nicchia per essere padroneggiate da un'azienda che non ne è pienamente coinvolta, questo può infatti rivelarsi un errore fatale. Abbiamo notato che molti dei nostri clienti esistenti tentano di costruire raschiatori interni per ricorrere solo in un secondo momento alla nostra soluzione; oltre ad aver perso tempo e fatica preziosi.

È un dato di fatto che chiunque può eseguire la scansione di una singola pagina web. La vera sfida consiste nell'estrarre milioni di pagine Web contemporaneamente ed elaborarle tutte in dati strutturati e leggibili da una macchina. Uno degli USP della nostra soluzione di web scraping è l'aspetto della scalabilità. Con i nostri cluster di server ad alte prestazioni sparsi in diverse aree geografiche, abbiamo creato un'infrastruttura solida per estrarre dati Web su larga scala.

Qualità e manutenzione dei dati

Uno dei nostri clienti era alla ricerca di una soluzione che potesse fornire loro dati di alta qualità poiché lo strumento che stavano utilizzando non riusciva a fornire dati strutturati.

Ad essere assolutamente onesti: al momento stiamo lavorando con un servizio gratuito e tutto funziona abbastanza bene. Possiamo importare i dati da tutte le pagine in un foglio Excel, quindi importarli in podio. Ma a questo punto, non possiamo filtrare le informazioni con successo. Ma siamo in stretto contatto con loro per risolvere questo problema. In realtà, poiché la soluzione attuale è un po' incostante, deve essere ripensata più e più volte. Hai una soluzione pronta all'uso per noi?

L'estrazione di informazioni dal Web di per sé è un processo complesso. Tuttavia, trasformare le informazioni non strutturate disponibili sul Web in dati perfettamente strutturati, puliti e leggibili da una macchina è ancora più difficile. La qualità dei dati è qualcosa di cui siamo orgogliosi e puoi saperne di più su come manteniamo la qualità dei dati dal nostro precedente post sul blog.

Per mettere le cose in prospettiva, i dati non strutturati valgono quanto nessun dato. Se la tua macchina non è in grado di leggerlo, non potresti in alcun modo dare un senso all'enorme quantità di informazioni all'interno dei dati.

Inoltre, non puoi semplicemente creare una configurazione di scansione web perfettamente funzionante e dimenticarla. Il web è di natura altamente dinamica. Il mantenimento della qualità dei dati richiede uno sforzo costante e un attento monitoraggio utilizzando livelli manuali e automatizzati. Questo perché i siti Web cambiano le loro strutture abbastanza frequentemente, il che potrebbe rendere difettoso il crawler o interromperlo, il che influenzerà entrambi i dati di output. La garanzia della qualità dei dati e la manutenzione tempestiva sono parte integrante dell'esecuzione di una configurazione di scansione del Web. In PromptCloud, prendiamo la proprietà end-to-end di questi aspetti.

Estrazione dei dati senza problemi

Di recente abbiamo raccolto feedback dai nostri clienti ed ecco un estratto da una delle risposte.

Avevamo la nostra soluzione e funzionava, ma richiedeva continue modifiche, sottraendo preziose risorse di sviluppo. Credo che l'acquisizione dei dati diventi sempre più complicata, mentre la necessità di acquisire dati tramite scansione è in costante crescita.

Questo cliente, che ora ha completato 5 anni con noi, aveva la propria configurazione di scansione del Web ma voleva eliminare le complicazioni e le seccature del processo. Questa è un'ottima decisione dal punto di vista commerciale. Qualsiasi azienda deve concentrarsi esclusivamente sulla propria offerta principale per crescere e avere successo, soprattutto considerando che la concorrenza è al culmine in tutti i mercati ora. L'installazione, la manutenzione costante e tutte le altre complicazioni che derivano dall'estrazione dei dati web possono facilmente monopolizzare le tue risorse interne, mettendo a dura prova la tua attività nel suo complesso.

Superare la barriera tecnica

Questo recente lead non aveva le competenze tecniche necessarie per impostare ed eseguire autonomamente un progetto di scansione del Web.

Sto pensando che il modo in cui vi useremmo, potenzialmente, è aggiungere siti secondo necessità in base alle richieste dei nostri clienti quando non abbiamo la capacità e l'esperienza per aggiungerli noi stessi. Inoltre, non abbiamo gli URL da cui dovresti estrarre, quindi avremmo bisogno dei siti sottoposti a spider per estrarre tutte le pagine dei prodotti.

Il web scraping è un processo tecnicamente impegnativo, il che significa che avresti bisogno di un team di sviluppatori di talento per configurare e distribuire i crawler su server ottimizzati per eseguire l'estrazione dei dati.

Tuttavia, non tutte le aziende sono pensate per essere esperte nello scraping poiché ognuna ha il proprio obiettivo principale. Se la tecnologia non è il tuo forte, è del tutto comprensibile che dovresti dipendere da un fornitore di servizi per estrarre i dati web per te. Con i nostri anni di esperienza nello spazio dell'estrazione di dati web, siamo ora in grado di intraprendere progetti di scraping web di qualsiasi complessità e scala.

Conclusione

Poiché la domanda di dati web è in aumento nel mondo degli affari, è inevitabile che le aziende inizino a cercare modi migliori per acquisire la miniera d'oro dei dati disponibili sul web. Se osservi i vari aspetti dell'estrazione dei dati web, è chiaro che lasciare la cosa agli specialisti dello scraping è la strada da percorrere.