Сокращение расходов без обходных путей при сборе данных из Интернета

Опубликовано: 2023-02-13
Оглавление показать
Возобновление > Перезапуск
Сервер против бессерверного
Детектор изменений сайта
Автоматизация человеческих задач
Выбирайте общедоступное облако вместо выделенных серверов
Инструмент с открытым исходным кодом
Вопросы соответствия аутсорсинга
Удешевление проверки данных с помощью машин
Пусть масштаб диктует условия
Обновить только то, что изменилось
Использование поставщика DaaS, такого как PromptCloud

Извлечение данных из Интернета без наличия плана сопряжено с риском. Когда вы запутаетесь в сложных веб-сайтах и ​​чистоте данных, ваш бюджет будет быстро превышен. Шансы еще выше, если вы используете облачные ресурсы и не отслеживаете ежедневные расходы. С точки зрения оптимизации затрат вам придется взглянуть на весь рабочий процесс, как правило, включая:

  1. Скрапинг данных из сети.
  2. Очистка и нормализация данных.
  3. Хранение данных на носителе, таком как база данных или корзина S3.
  4. Доступ к данным через вызовы API или прямой доступ к месту хранения.
  5. Возможное шифрование и дешифрование данных (в случае, если данные являются конфиденциальными и высокий уровень безопасности имеет первостепенное значение).
  6. Обработка очищенных данных, чтобы сделать их пригодными для последующих рабочих процессов.

Возобновление > Перезапуск

Во многих случаях, когда вы собираете десятки точек данных на миллионах веб-страниц, ваш код может в какой-то момент сломаться. В большинстве сценариев люди продолжают перезапускать всю задачу — да, это действительно намного проще реализовать и использовать. Однако, применив немного инженерного чуда, возможно, используя механизм кэширования, вы можете быть уверены, что сохраняете контрольную точку всякий раз, когда прерывается задание парсинга. После того, как вы устранили проблему, связанную с поломкой, вы можете продолжить очистку данных, возобновив работу с сохраненной контрольной точки.

Сервер против бессерверного

Этот момент важен для тех, кто парсит данные не в реальном времени, а в пакетном режиме. Например, предположим, что вы очищаете данные с миллиона веб-страниц дважды в день. Каждый раз работа по очистке занимает 2 часа. Таким образом, общее время ежедневного выполнения задачи составляет 2+2=4 часа. Теперь, если у вас есть установка на основе сервера с использованием чего-то вроде экземпляра AWS EC-2, вам будет выставляться счет за 24 часа, если вы не будете каждый раз вручную включать и выключать экземпляр — трудоемкий и простой в беспорядке процесс. вверх процесс. Лучшим вариантом здесь будет использование безсерверной установки, когда у вас есть облачные ресурсы, работающие по запросу, такие как AWS Lambda или Fargate. Таким образом, вы платите только за 4 часа, которые вы потребляете, и в долгосрочной перспективе сэкономите кучу денег. Если вы собираете данные из Интернета с помощью автоматических пауков, работающих круглосуточно и без выходных, вы можете выбрать настройку на основе сервера.

Детектор изменений сайта

Вы можете очищать миллион веб-страниц с 5 веб-сайтов — всего 5 миллионов веб-страниц. Теперь предположим, что два из этих веб-сайтов вносят изменения в пользовательском интерфейсе, и когда вы запускаете поисковый робот, вы получаете неверные данные в своем рабочем процессе. Теперь вам нужно будет потратить как человеко-часы, так и дополнительные вычислительные ресурсы, чтобы определить, какая часть данных непригодна для использования, обновить сканер, а затем снова запустить его для 2 миллионов веб-страниц. Такой ситуации можно было бы легко избежать, если бы вы запустили скрипт детектора изменений, который сообщил бы вам, что внешний вид двух веб-сайтов изменился. Это сэкономит вам время, деньги и даже возможную потерю данных.

Автоматизация человеческих задач

При создании рабочего процесса веб-скрейпинга будет множество задач, которые изначально выполняются вручную. Они могут включать такие этапы, как проверка и проверка данных, очистка данных, форматирование и многое другое. Часто аналитики данных часами и днями запускают сценарии на своих локальных компьютерах. Учитывая большое количество данных, которые они могут обрабатывать, выполнение сценариев также может занять некоторое время. Лучшим вариантом здесь является автоматизация некоторых шагов после получения пульса данных. Со временем вы должны автоматизировать больше задач для повышения эффективности.

Выбирайте общедоступное облако вместо выделенных серверов

Если вы не принимаете решения, используя поток данных, где каждая миллисекунда на счету, вы можете позволить себе использовать общедоступное облако вместо выделенных серверов. Возможно небольшое снижение производительности, но использование выделенных серверов в долгосрочной перспективе может привести к тому, что ваши затраты на парсинг в Интернете резко возрастут без каких-либо ограничений.

Инструмент с открытым исходным кодом

Большинство лицензионных программ стоит бомбу при ежемесячной или годовой подписке. Если вам нужны дополнительные функции, такие как чередование IP-адресов или очистка данных, с вас может взиматься дополнительная плата. Кроме того, большинство этих платных инструментов будут иметь некоторые ограничения, и любое добавление или изменение новых функций может занять несколько месяцев, если они будут одобрены.

Вопросы соответствия аутсорсинга

При сборе данных со всего Интернета вам нужно будет рассмотреть несколько юридических аспектов, таких как

  1. Собираете ли вы какую-либо личную информацию.
  2. Файл robot.txt для этого веб-сайта.
  3. Правила, касающиеся данных, находящихся за страницей входа.
  4. Работа с защищенным авторским правом контентом.
  5. Обеспечение того, чтобы повторное использование контента не нарушало законы.
  6. Зная законы географического положения, из которого вы извлекаете свой контент, и где проживают ваши конечные пользователи.

И более…

Из-за сложности глобальных цифровых законов легко оказаться не на том конце судебного процесса из-за одной оплошности. С другой стороны, не каждая компания будет иметь команду юристов для решения таких вопросов — это будет дорого.

Вместо этого вы можете передать свои юридические требования на аутсорсинг, чтобы иметь возможность обращаться к ним за помощью всякий раз, когда вы настраиваете новый поток веб-скрейпинга или принимаете решение о создании продукта с использованием очищенных данных. Юридические услуги по запросу для веб-скрапинга были бы более целесообразны для малых или средних компаний, тогда как юридические отделы Fortune 500 могут решать такие проблемы внутри компании.

Удешевление проверки данных с помощью машин

Один из вариантов, который могут сделать компании, — использовать сторонние библиотеки для проверки данных вместо привлечения специалистов по данным. Часто десятки аналитиков вручную анализируют необработанные данные, вносят определенные изменения, генерируют новые столбцы и нормализуют данные. Большинство этих действий можно автоматизировать, создав рабочие процессы с помощью таких инструментов, как AWS Step Functions. Эти рабочие процессы могут быть настроены на основе:

  1. Независимо от того, поступают ли ваши данные в виде потокового вещания или пакетов.
  2. Количество данных, которые периодически обрабатываются.
  3. Тип обработки, которую вы хотите выполнить с данными.
  4. Приемлемое время, которое может потребоваться точке данных для прохождения рабочего процесса.
  5. Необходимость механизмов повторной попытки, отката и повторного запуска.

Самым большим преимуществом таких рабочих процессов является то, что если вам действительно нужно некоторое количество ручных проверок, у вас может быть ручной шаг в рабочем процессе, когда человек может просмотреть данные, при необходимости внести изменения и нажать кнопку, чтобы переместить рабочий процесс. к следующему шагу.

Пусть масштаб диктует условия

Лучшее решение для парсинга для корпоративной организации с тысячами сотрудников, работающих в разных странах, может быть неэффективным с точки зрения цены для стартапа с 10 сотрудниками, обслуживающими один город. Следовательно, получение идей от других фирм может оказаться бесполезным. Кроме того, план парсинга в вашей компании может также нуждаться в обновлении по мере увеличения масштаба.

Обновить только то, что изменилось

Предположим, вы собираете данные с веб-сайта электронной коммерции. У вас есть несколько важных данных, таких как описание, свойства, политика возврата, цена, количество отзывов, рейтинги и многое другое. Теперь, если вы регулярно обновляете эти данные, вы можете предпочесть обновлять разные точки данных с разными интервалами. Например, вы можете обновлять цену каждый час, обзоры и рейтинги ежедневно, а остальные данные каждый месяц. Хотя такое изменение выглядит незначительным, но если вы умножите затраты и усилия на несколько миллионов, вы поймете, насколько обновление только того, что вам нужно, может спасти вас.

Использование поставщика DaaS, такого как PromptCloud

Когда речь идет о парсинге веб-страниц, не существует универсального решения, поэтому наша команда в PromptCloud предоставляет индивидуальные решения для каждой компании в зависимости от их требований к парсингу. Наше полностью настраиваемое решение позволяет обновлять:

  • Веб-сайты, с которых вам нужно собрать данные.
  • Частота парсинга данных.
  • Точки данных, которые необходимо извлечь.
  • Механизм, с помощью которого вы хотите использовать очищенные данные.

Независимо от того, сколько источников вы подключаете, наша функция агрегатора поможет вам получить данные в одном потоке.

У компаний плотный график, и им нужно, чтобы рабочие процессы работали быстро. Наш опыт помогает нам настроить конвейеры парсинга в короткие сроки, как только у нас появятся требования. Мы также помогаем клиентам разобраться в хаосе данных, предоставляя комплексные решения. Другие полезные функции:

  • Полностью управляемая служба обслуживания не развернута в облаке.
  • Оперативная поддержка, подкрепленная надежными соглашениями об уровне обслуживания.
  • Низкая задержка, чтобы данные доходили до вас вовремя.
  • Неограниченная масштабируемость в зависимости от ваших требований.
  • Мониторинг и сопровождение всего рабочего процесса парсинга.

Поскольку мы взимаем плату в зависимости от объема потребляемых вами данных, вам не нужно беспокоиться о фиксированных платежах. Как и в случае настоящего решения DaaS, ваш ежемесячный счет основан только на потреблении данных. Так что подпишитесь на нас сейчас и получите данные по разумной цене, не срезая углов, всего за 4 шага:

  1. Вы даете нам требования.
  2. Мы предоставляем вам образцы данных.
  3. Мы завершим настройку сканера, если вы удовлетворены.
  4. Данные попадают к вам в руки в выбранном вами формате и через предпочитаемый носитель.

Так что выбор за вами, и пришло время взять в свои руки бразды веб-скрапинга до того, как ваши расходы достигнут пика.