Co się dzieje pomiędzy ekstrakcją danych a wizualizacją?

Opublikowany: 2017-08-08

Spis treści pokaż

Techniki wstępnego przetwarzania danych

Czyszczenie danych

Normalizacja danych

Transformacja danych

Imputacja brakujących wartości

Identyfikacja hałasu

Minimalizacja zadań związanych z przetwarzaniem wstępnym

Big data wykazała fenomenalny wzrost w ciągu ostatniej dekady, a ich szerokie zastosowanie przez firmy jako katalizator wzrostu nadal przynosi pozytywne rezultaty. Skala danych jest ogromna, a ich objętość, prędkość i różnorodność wymagają bardziej wydajnego przetwarzania, aby były gotowe do pracy maszynowej. Chociaż istnieje wiele sposobów wyodrębniania danych, takich jak publiczne interfejsy API, niestandardowe usługi web scrapingu , wewnętrzne źródła danych itp., zawsze pozostanie potrzeba wstępnego przetworzenia, aby dane były idealnie nadające się do zastosowań biznesowych.

wstępne przetwarzanie danych

Wstępne przetwarzanie danych obejmuje zestaw kluczowych zadań, które wymagają rozbudowanej infrastruktury obliczeniowej, a to z kolei utoruje drogę do lepszych wyników strategii big data. Co więcej, czystość danych determinowałaby wiarygodność analizy i należy temu nadać wysoki priorytet podczas wykreślania strategii danych.

Techniki wstępnego przetwarzania danych

Ponieważ wyodrębnione dane są zwykle niedoskonałe z nadmiarowością i niedoskonałościami, techniki wstępnego przetwarzania danych są absolutną koniecznością. Im większe zbiory danych, tym bardziej złożone mechanizmy są potrzebne do ich przetworzenia przed analizą i wizualizacją . Wstępne przetwarzanie przygotowuje dane i umożliwia analizę przy jednoczesnej poprawie efektywności wyników. Poniżej przedstawiono niektóre z kluczowych kroków związanych z wstępnym przetwarzaniem danych.

Czyszczenie danych

Oczyszczenie danych jest zwykle pierwszym krokiem w przetwarzaniu danych i ma na celu usunięcie niechcianych elementów, a także zmniejszenie rozmiaru zbiorów danych, co ułatwi algorytmom ich analizę. Czyszczenie danych odbywa się zwykle przy użyciu technik redukcji instancji.

Redukcja instancji pomaga zmniejszyć rozmiar zestawu danych bez pogarszania jakości informacji, które można wyodrębnić z danych. Usuwa instancje i generuje nowe, aby zestaw danych był kompaktowy. Istnieją dwa główne algorytmy redukcji instancji:

Wybór instancji: Wybór instancji służy do identyfikowania najlepszych przykładów z bardzo dużego zestawu danych z wieloma instancjami w celu wybrania ich jako danych wejściowych do systemu analitycznego. Ma na celu wybranie podzbioru danych, który może zastąpić oryginalny zestaw danych, jednocześnie całkowicie spełniając cel. Usunie również zbędne instancje i szum.

Generowanie instancji: Metody generowania instancji polegają na zastąpieniu oryginalnych danych danymi wygenerowanymi sztucznie w celu wypełnienia obszarów w dziedzinie problemu bez reprezentatywnych przykładów w danych podstawowych. Typowym podejściem jest zmiana etykiety przykładów, które wydają się należeć do niewłaściwych etykiet klas. Generowanie instancji sprawia zatem, że dane są czyste i gotowe do algorytmu analizy.

Narzędzia, których możesz użyć: Drake , DataWrangler , OpenRefine

Normalizacja danych

Normalizacja poprawia integralność danych, dostosowując rozkłady. W prostych słowach normalizuje każdy wiersz, aby miał normę jednostkową. Normę określa parametr p, który oznacza zastosowaną normę p. Niektóre popularne metody to:

StandardScaler: przeprowadza normalizację, tak aby każda funkcja miała rozkład normalny.

MinMaxScaler: Używa dwóch parametrów do normalizacji każdej funkcji do określonego zakresu – górnej i dolnej granicy.

ElementwiseProduct: używa mnożnika skalarnego do skalowania każdej funkcji.

Narzędzia, których możesz użyć: Analizator tabel , BDNA

Transformacja danych

Jeśli zbiór danych okaże się zbyt duży pod względem liczby instancji lub zmiennych predykcyjnych, pojawia się problem wymiarowości. Jest to krytyczna kwestia, która utrudni działanie większości algorytmów eksploracji danych i zwiększy koszty przetwarzania. Istnieją dwie popularne metody przekształcania danych przez redukcję wymiarów — Wybór funkcji i Transformacja przestrzeni.

Wybór funkcji: Jest to proces dostrzegania i eliminowania jak największej ilości niepotrzebnych informacji. FS można wykorzystać do znacznego zmniejszenia prawdopodobieństwa przypadkowych korelacji w uczących się algorytmach, które mogłyby pogorszyć ich możliwości uogólniania. FS zmniejszy również przestrzeń wyszukiwania zajmowaną przez funkcje, przyspieszając w ten sposób proces uczenia się i wydobywania. Ostatecznym celem jest wyprowadzenie podzbioru cech z pierwotnego problemu, który dobrze go opisuje.

Transformacje przestrzeni: transformacje przestrzeni działają podobnie do wyboru funkcji. Jednak zamiast dobierać cenne cechy, technika transformacji przestrzeni stworzy nowy, świeży zestaw cech poprzez połączenie oryginałów. Taka kombinacja może być wykonana w celu spełnienia określonych kryteriów. Techniki transformacji przestrzeni ostatecznie mają na celu wykorzystanie nieliniowych relacji między zmiennymi.

Narzędzia, których możesz użyć: Talend , Pentaho

Imputacja brakujących wartości

Jednym z typowych założeń w przypadku big data jest to, że zestaw danych jest kompletny. W rzeczywistości większość zestawów danych zawiera brakujące wartości, które często są pomijane. Brakujące wartości to dane, które nie zostały wyodrębnione lub zapisane z powodu ograniczeń budżetowych, wadliwego procesu próbkowania lub innych ograniczeń w procesie wyodrębniania danych. Brakujące wartości nie są czymś, co należy zignorować, ponieważ może to zniekształcić wyniki.

Naprawienie problemu brakujących wartości jest trudne. Nieostrożne obchodzenie się z nim może łatwo doprowadzić do komplikacji w przetwarzaniu danych i błędnych wniosków.

Istnieje kilka stosunkowo skutecznych podejść do rozwiązania problemu brakujących wartości. Odrzucanie instancji, które mogą zawierać brakujące wartości, jest powszechne, ale nie jest zbyt skuteczne, ponieważ może prowadzić do błędu w analizach statystycznych. Poza tym odrzucanie krytycznych informacji nie jest dobrym pomysłem. Lepszą i bardziej efektywną metodą jest zastosowanie procedur maksymalnego prawdopodobieństwa do modelowania funkcji prawdopodobieństwa danych przy jednoczesnym uwzględnieniu czynników, które mogły wywołać braki. Techniki uczenia maszynowego są jak dotąd najskuteczniejszym rozwiązaniem problemu brakujących wartości.

Identyfikacja hałasu

Gromadzenie danych nie zawsze jest doskonałe, ale algorytmy eksploracji danych zawsze zakładają, że tak jest. Dane z szumem mogą poważnie wpłynąć na jakość wyników, dlatego rozwiązanie tego problemu ma kluczowe znaczenie. W większości przypadków szum może wpływać na funkcje wejściowe, wyjściowe lub oba. Szum znaleziony na wejściu nazywa się szumem atrybutu, podczas gdy szum wkrada się na wyjście, jest określany jako szum klasy. Jeśli na wyjściu występuje szum, problem jest bardzo poważny, a błąd systematyczny wyników byłby bardzo wysoki.

Istnieją dwa popularne podejścia do usuwania szumu z zestawów danych. Jeśli szum wpłynął na oznakowanie instancji, w celu wyeliminowania szumu stosuje się metody polerowania danych. Druga metoda polega na użyciu filtrów szumu, które mogą identyfikować i usuwać instancje z szumem z danych i nie wymaga to modyfikacji techniki eksploracji danych.

Minimalizacja zadań związanych z przetwarzaniem wstępnym

Przygotowanie danych do algorytmu analizy danych może obejmować o wiele więcej procesów w zależności od unikalnych wymagań aplikacji. Jednak w większości przypadków można uniknąć podstawowych procesów, takich jak czyszczenie, deduplikacja i normalizacja, jeśli wybierzesz odpowiednie źródło ekstrakcji danych. Jest wysoce nieprawdopodobne, że surowe źródło może zapewnić czyste dane. Jeśli chodzi o ekstrakcję danych z sieci, zarządzana usługa przeszukiwania sieci, taka jak PromptCloud, może zapewnić czyste i gotowe do użycia dane , które można podłączyć do systemu analitycznego. Ponieważ dane dostarczane przez nasze rozwiązanie DaaS są czyste, możesz zaoszczędzić swoje wysiłki w zakresie zadań przetwarzania danych specyficznych dla aplikacji.