Что происходит между извлечением данных и визуализацией

Опубликовано: 2017-08-08

Оглавление показать

Методы предварительной обработки данных

Очистка данных

Нормализация данных

Преобразование данных

Вменение пропущенных значений

Идентификация шума

Минимизация задач предварительной обработки

Большие данные продемонстрировали феноменальный рост за последнее десятилетие, и их широкое применение предприятиями в качестве катализатора роста продолжает приносить положительные результаты. Масштабы данных огромны, а объем, скорость и разнообразие данных требуют более эффективной обработки, чтобы сделать их готовыми для машин. Несмотря на то, что существует множество способов извлечения данных, таких как общедоступные API-интерфейсы, настраиваемые службы парсинга веб-страниц , внутренние источники данных и т. д., всегда остается необходимость выполнять некоторую предварительную обработку, чтобы сделать данные идеально подходящими для бизнес-приложений.

предварительная обработка данных

Предварительная обработка данных включает в себя ряд ключевых задач, для решения которых требуется обширная вычислительная инфраструктура, а это, в свою очередь, обеспечит лучшие результаты вашей стратегии работы с большими данными. Кроме того, чистота данных будет определять надежность вашего анализа, и этому следует уделять первостепенное внимание при разработке стратегии обработки данных.

Методы предварительной обработки данных

Поскольку извлеченные данные, как правило, несовершенны с избыточностью и несовершенством, методы предварительной обработки данных являются абсолютной необходимостью. Чем больше наборы данных, тем более сложные механизмы необходимы для их обработки перед анализом и визуализацией . Предварительная обработка подготавливает данные и делает возможным анализ, повышая эффективность результатов. Ниже приведены некоторые из важнейших шагов, связанных с предварительной обработкой данных.

Очистка данных

Очистка данных обычно является первым шагом в обработке данных и выполняется для удаления нежелательных элементов, а также для уменьшения размера наборов данных, что облегчает алгоритмам их анализ. Очистка данных обычно выполняется с использованием методов уменьшения количества экземпляров.

Сокращение количества экземпляров помогает уменьшить размер набора данных без ущерба для качества информации, которую можно извлечь из данных. Он удаляет экземпляры и создает новые, чтобы сделать набор данных компактным. Существует два основных алгоритма сокращения количества экземпляров:

Выбор экземпляра: выбор экземпляра используется для определения лучших примеров из очень большого набора данных с множеством экземпляров, чтобы использовать их в качестве входных данных для системы аналитики. Он направлен на выбор подмножества данных, которое может служить заменой исходного набора данных, полностью выполняя цель. Это также удалит избыточные экземпляры и шум.

Генерация экземпляра: Методы создания экземпляра включают замену исходных данных искусственно сгенерированными данными, чтобы заполнить области в области проблемы без репрезентативных примеров в основных данных. Обычный подход заключается в переименовании примеров, которые кажутся принадлежащими неправильным меткам классов. Таким образом, генерация экземпляра делает данные чистыми и готовыми для алгоритма анализа.

Инструменты, которые вы можете использовать: Drake , DataWrangler , OpenRefine.

Нормализация данных

Нормализация улучшает целостность данных за счет корректировки распределений. Проще говоря, он нормализует каждую строку, чтобы иметь единичную норму. Норма задается параметром p, который обозначает используемую p-норму. Некоторые популярные методы:

StandardScaler: выполняет нормализацию, чтобы каждая функция соответствовала нормальному распределению.

MinMaxScaler: использует два параметра для нормализации каждой функции в определенном диапазоне — верхнюю и нижнюю границу.

ElementwiseProduct: использует скалярный множитель для масштабирования каждой функции.

Инструменты, которые вы можете использовать: Табличный анализатор , BDNA

Преобразование данных

Если набор данных оказывается слишком большим по количеству экземпляров или переменных-предикторов, возникает проблема размерности. Это критическая проблема, которая будет препятствовать функционированию большинства алгоритмов интеллектуального анализа данных и увеличивает стоимость обработки. Существует два популярных метода преобразования данных путем уменьшения размерности — выбор признаков и преобразование пространства.

Выбор функций: это процесс обнаружения и устранения как можно большего количества ненужной информации. FS можно использовать для значительного снижения вероятности случайных корреляций в алгоритмах обучения, которые могут ухудшить их возможности обобщения. FS также сократит пространство поиска, занимаемое функциями, что ускорит процесс обучения и майнинга. Конечная цель состоит в том, чтобы получить подмножество признаков исходной проблемы, которое хорошо ее описывает.

Преобразования пространства: Преобразования пространства работают аналогично выбору объектов. Однако вместо того, чтобы выбирать ценные признаки, техника трансформации пространства создаст новый набор признаков путем объединения оригиналов. Такая комбинация может быть составлена в соответствии с определенными критериями. Методы преобразования пространства в конечном итоге направлены на использование нелинейных отношений между переменными.

Инструменты, которые вы можете использовать: Talend , Pentaho

Вменение пропущенных значений

Одно из распространенных предположений о больших данных состоит в том, что набор данных является полным. На самом деле в большинстве наборов данных есть пропущенные значения, которые часто упускают из виду. Отсутствующие значения — это данные, которые не были извлечены или сохранены из-за бюджетных ограничений, неправильного процесса выборки или других ограничений в процессе извлечения данных. Пропущенные значения нельзя игнорировать, так как это может исказить ваши результаты.

Устранение проблемы с отсутствующими значениями является сложной задачей. Небрежное обращение с ним может легко привести к осложнениям в обработке данных и неправильным выводам.

Есть несколько относительно эффективных подходов к решению проблемы пропущенных значений. Отбрасывание экземпляров, которые могут содержать пропущенные значения, является распространенным, но не очень эффективным, поскольку может привести к систематической ошибке в статистическом анализе. Кроме того, отказ от важной информации не является хорошей идеей. Лучшим и более эффективным методом является использование процедур максимального правдоподобия для моделирования вероятностных функций данных, а также рассмотрение факторов, которые могли привести к отсутствию данных. Методы машинного обучения на сегодняшний день являются наиболее эффективным решением проблемы пропущенных значений.

Идентификация шума

Сбор данных не всегда идеален, но алгоритмы интеллектуального анализа данных всегда предполагают, что это так. Данные с шумом могут серьезно повлиять на качество результатов, решение этой проблемы имеет решающее значение. Шум может повлиять на входные функции, выход или в большинстве случаев и то, и другое. Шум, обнаруженный на входе, называется шумом атрибута, а если шум появляется на выходе, он называется шумом класса. Если на выходе присутствует шум, проблема очень серьезная, и систематическая ошибка в результатах будет очень высокой.

Существует два популярных подхода к удалению шума из наборов данных. Если шум повлиял на маркировку экземпляров, для устранения шума используются методы полировки данных. Другой метод включает использование шумовых фильтров, которые могут идентифицировать и удалять экземпляры с шумом из данных, и это не требует модификации метода интеллектуального анализа данных.

Минимизация задач предварительной обработки

Подготовка данных для вашего алгоритма анализа данных может включать в себя гораздо больше процессов в зависимости от уникальных требований приложения. Однако в большинстве случаев можно избежать базовых процессов, таких как очистка, дедупликация и нормализация, если выбрать правильный источник для извлечения данных. Крайне маловероятно, что необработанный источник может дать вам чистые данные. Что касается извлечения веб-данных, управляемый веб-сервис парсинга, такой как PromptCloud, может предоставить вам чистые и готовые к использованию данные , готовые к подключению к вашей аналитической системе. Поскольку данные, предоставляемые нашим решением DaaS, являются чистыми, вы можете сэкономить все свои усилия для задач обработки данных, специфичных для вашего приложения.