Uso de Hojas de cálculo de Google como raspador web básico: guía de PromptCloud
Publicado: 2022-11-08Google Suite como Web Scraper
Las hojas de Google tienen algunas funcionalidades fantásticas y facilidad de acceso. Hace la mayor parte del trabajo pesado para extraer secciones y puntos de datos específicos. El raspado de hojas de Google para datos de sitios web funciona utilizando la sintaxis de importación y familiarizándose con el script de Google o un complemento de Python. Como dice la investigación, los documentos de web scraping funcionan mejor con personas que analizan sitios web y foros con regularidad. Nuestros ingenieros de datos y ejecutivos de primera línea de productos usan productos como PromptCloud, para una experiencia más sólida, para escanear datos web. En este blog, encontrará información sobre el uso de las fórmulas de la suite de Google, cómo importar datos de sitios web y las limitaciones del uso de las hojas de Google como raspador web. Pero, primero, comencemos mirando las fórmulas para estructurar los datos.
Sintaxis para extraer datos web en hojas
A continuación se mencionan las fórmulas de raspado web que puede usar para extraer datos.
Importar XML
Esta sintaxis se utiliza para obtener datos de una URL estructurada basada en fuentes HTML y XML. Puede obtener detalles sobre los títulos de las páginas, las fechas y los nombres de los autores. Usando una consulta, puede decidir qué sección de la página web raspar. Esta función también admite fuentes CSV y ATOM XML sin usar un código. Escanee la URL de la página web y, utilizando XPath, busque la sección para navegar por los elementos. Los datos escaneados se pueden atribuir a un documento XML. Comience con un nuevo documento de hoja de Google y agregue la URL de la página web de la que desea extraer los datos. Cuando encuentre el Xpath del elemento, use la sintaxis ImportXML y obtenga datos web estructurados. Pase el cursor sobre la sección, vaya a las opciones, haga clic en inspeccionar y elija copiar XPath para extraer datos en la nueva hoja.
Introduzca la URL de Xpath en las hojas con algunos ajustes menores, especialmente si está utilizando Chrome. Las URL copiadas de este navegador siempre incluyen la ruta entre corchetes dobles. Sin embargo, para raspar el sitio web, los corchetes dobles deben cambiarse a una comilla simple. Además, modifique el título de la página para comenzar y envíe la consulta para capturar los elementos principales de la página web. En unos segundos, la consulta devuelve la información de la hoja de Google en un formato estructurado.
ImportarHTML
Esta sintaxis se usa principalmente para crear listas e importar tablas desde el sitio web. Esta función no solo importará la tabla fácilmente, sino que también mantendrá la actualización de los datos extraídos a intervalos regulares. Un escaneo de sintaxis Html para puntos de datos como etiqueta de tabla, lista desordenada y etiqueta de lista ordenada dentro del texto para copiar los datos fuera de la página web. Para importar datos a través de HTML, la URL debe estar entre comillas dobles con la indexación de tabla adecuada. El proceso se vuelve complicado si tiene más de una tabla para escanear en la página. Aquí es donde necesitará operar el escaneo usando la consola del desarrollador o el menú usando F12 en el teclado. Copie la fórmula en la consola para elementos de indexación.
Para importar solo columnas o filas específicas, puede usar el filtro en la sintaxis para obtener datos. Como configuración general de Google Suit, el documento se actualiza cada 1 hora. Sin embargo, si necesita datos en tiempo real, puede configurar la velocidad de actualización en consecuencia. Para automatizar la actualización de la página, usar un disparador como code.gs y myfunction hará el truco. También envía notificaciones si el activador deja de funcionar o deja de actualizar las tablas. Hojas de cálculo de Google puede manejar hasta 50 solicitudes recurrentes de ImportHTML.
Importar FEED
Esta sintaxis se utiliza para escanear el contenido de una página directamente en las hojas de Google. ImportFeed le brinda acceso a RSS y fuentes granulares para importar datos automáticamente. Envía una consulta para importar los datos usando códigos como StartRow para seleccionar la misma fila para copiar datos y NumberRow para cuantificar la cantidad de datos escaneados. Cuando especifica el rango de celdas, los datos se importan desde fuentes Atom a través de una ruta de URL especificada. Los datos recogidos por esta sintaxis son útiles para comprender blogs y artículos. El uso de argumentos como consulta y encabezado le dirá específicamente al rastreador qué información se necesita y desde qué ruta.
ImportData y ImportRange
La sintaxis anterior, ImportData, se usa para escanear y copiar datos de diferentes fuentes y hojas de Google. Mientras que ImportRange copia una sección de la página web. Como sugiere el nombre, Importar rango es la función más importante y útil en las hojas de cálculo de Google porque puede copiar celdas de hojas de cálculo independientes. Con una consulta, puede buscar, filtrar y ordenar los datos como cualquier otro conjunto de datos. La consulta como función ahorra mucho tiempo al trabajar con varias hojas de cálculo y se puede usar en tándem para dos fórmulas cualesquiera. Como se observó, la consulta ayuda a manipular los datos de múltiples maneras y la funcionalidad de importación decide cómo se muestran los datos.
Importación de datos de sitios web
Hemos visto cómo usar las fórmulas de Google Suite para facilitar el esfuerzo de investigación y aprender a importar datos de sitios web. Obtener experiencia práctica en estas dos cosas le dará la confianza para realizar web scraping utilizando las hojas de Google para las tareas diarias.
Hoja de Google: Tablas
Extraer tablas del sitio web es fácil, pero debe realizarse correctamente. Haga clic en cualquier celda vacía, escriba la sintaxis de importación y pegue la URL que desea raspar y agregue el número de tabla a la URL. Ejecute esta función y verá la hoja de cálculo con una tabla completa. Use la matriz de valores dentro de la función de índice para filtrar las filas y columnas.
Encabezados y Títulos
Esta funcionalidad es mejor para escanear titulares y títulos de artículos de noticias y los blogs más recientes. Una vez que identifique la URL específica y un identificador dentro del script HTML que puede dirigir al rastreador hacia los encabezados. Este método es útil cuando tiene más de 50 sitios web para escanear para hacer una opinión sobre un tema. Dado que cada sitio web se construye de manera diferente, la URL del identificador sigue cambiando, y ahí es cuando una herramienta de web scraping como PromptCloud puede ser de ayuda para impulsar las necesidades de su negocio.
Fuente de contenido
Esta funcionalidad se puede utilizar para importar todo el contenido reciente de sitios web, blogs y artículos. Puede filtrar estos datos enviando consultas en los principales blogs y blogs recientes. Además, envíe una consulta en Url para crear su propia lista de fuentes. Las empresas utilizan principalmente este método para realizar un seguimiento de cómo los competidores publican actualizaciones de contenido en sus sitios web y páginas de redes sociales.
Limitaciones del uso de hojas como raspador
El uso básico de las hojas de Google no es para extraer datos web. Por lo tanto, podemos esperar limitaciones al usar hojas cuando se tiene en cuenta la cantidad y la velocidad a la que se extraen los datos. Tan pronto como el número de raspado supera las 50 filas o las 100, Google simplemente falla o regresa con un error. Las cosas simples como comprender el contenido web y segregarlo en consecuencia se ordenan mediante el uso de las funcionalidades de Google.
Conclusión
Con las hojas de Google, puede extraer datos H1, títulos, descripciones y enlaces de página. Tanto es así que puede extraer contenido fuera de la página, como metatítulos y descripciones de una página web. También puede raspar páginas web de varios autores combinando códigos de importación e índice. En general, la hoja de cálculo de Google le brindará una buena experiencia para recopilar datos web, siempre que la cantidad se pueda cuantificar y esté predefinida. Es mejor para proyectos pequeños a nivel de equipo o funciona perfectamente bien para realizar un proyecto de investigación universitario. Si tiene proyectos a gran escala, comuníquese con [email protected] para un web scraping personalizado.