Was zwischen Datenextraktion und Visualisierung passiert

Veröffentlicht: 2017-08-08

Inhaltsverzeichnis anzeigen

Datenvorverarbeitungstechniken

Datenbereinigung

Datennormalisierung

Datentransformation

Imputation fehlender Werte

Lärmerkennung

Minimierung der Vorverarbeitungsaufgaben

Big Data hat in den letzten zehn Jahren ein phänomenales Wachstum gezeigt, und seine weit verbreitete Anwendung durch Unternehmen als Wachstumskatalysator liefert weiterhin positive Ergebnisse. Die Menge an Daten ist enorm und das Volumen, die Geschwindigkeit und die Vielfalt der Daten erfordern eine effizientere Verarbeitung, um sie maschinenfertig zu machen. Obwohl es eine Vielzahl von Möglichkeiten gibt, Daten zu extrahieren, z. B. öffentliche APIs, benutzerdefinierte Web-Scraping-Dienste , interne Datenquellen usw., bleibt immer die Notwendigkeit, eine gewisse Vorverarbeitung durchzuführen, um die Daten perfekt für Geschäftsanwendungen geeignet zu machen.

Datenvorverarbeitung

Die Vorverarbeitung von Daten umfasst eine Reihe von Schlüsselaufgaben, die eine umfangreiche Recheninfrastruktur erfordern, was wiederum zu besseren Ergebnissen Ihrer Big-Data-Strategie führt. Darüber hinaus würde die Sauberkeit der Daten die Zuverlässigkeit Ihrer Analyse bestimmen, und dies sollte bei der Erstellung Ihrer Datenstrategie hohe Priorität erhalten.

Datenvorverarbeitungstechniken

Da die extrahierten Daten dazu neigen, unvollkommen mit Redundanzen und Unvollkommenheiten zu sein, sind Datenvorverarbeitungstechniken eine absolute Notwendigkeit. Je größer die Datensätze sind, desto komplexere Mechanismen sind erforderlich, um sie vor der Analyse und Visualisierung zu verarbeiten . Die Vorverarbeitung bereitet die Daten auf und macht die Analyse durchführbar, während die Effektivität der Ergebnisse verbessert wird. Im Folgenden sind einige der entscheidenden Schritte bei der Datenvorverarbeitung aufgeführt.

Datenbereinigung

Die Bereinigung der Daten ist normalerweise der erste Schritt bei der Datenverarbeitung und dient dazu, unerwünschte Elemente zu entfernen und die Größe der Datensätze zu reduzieren, was den Algorithmen die Analyse erleichtert. Die Datenbereinigung erfolgt in der Regel mithilfe von Instanzreduktionstechniken.

Die Instanzreduzierung trägt dazu bei, die Größe des Datensatzes zu reduzieren, ohne die Qualität der Erkenntnisse zu beeinträchtigen, die aus den Daten extrahiert werden können. Es entfernt Instanzen und generiert neue, um den Datensatz kompakt zu machen. Es gibt zwei Hauptalgorithmen zur Instanzreduktion:

Instanzauswahl: Die Instanzauswahl wird verwendet, um die besten Beispiele aus einem sehr großen Datensatz mit vielen Instanzen zu identifizieren, um sie als Eingabe für das Analysesystem zu kuratieren. Es zielt darauf ab, eine Teilmenge der Daten auszuwählen, die als Ersatz für den ursprünglichen Datensatz dienen kann, während das Ziel vollständig erfüllt wird. Außerdem werden redundante Instanzen und Rauschen entfernt.

Instanzgenerierung: Methoden der Instanzgenerierung beinhalten das Ersetzen der Originaldaten durch künstlich generierte Daten, um Bereiche in der Domäne eines Problems ohne repräsentative Beispiele in den Stammdaten zu füllen. Ein gängiger Ansatz besteht darin, Beispiele umzubenennen, die scheinbar zu falschen Klassenbezeichnungen gehören. Die Instanzgenerierung macht die Daten somit sauber und bereit für den Analysealgorithmus.

Tools, die Sie verwenden können: Drake , DataWrangler , OpenRefine

Datennormalisierung

Die Normalisierung verbessert die Integrität der Daten, indem die Verteilungen angepasst werden. Mit einfachen Worten, es normalisiert jede Zeile, um eine Einheitsnorm zu haben. Die Norm wird durch den Parameter p spezifiziert, der die verwendete p-Norm bezeichnet. Einige beliebte Methoden sind:

StandardScaler: Führt eine Normalisierung durch, sodass jedes Merkmal einer Normalverteilung folgt.

MinMaxScaler: Verwendet zwei Parameter, um jedes Feature auf einen bestimmten Bereich zu normalisieren – Ober- und Untergrenze.

ElementwiseProduct: Verwendet einen skalaren Multiplikator, um jedes Feature zu skalieren.

Werkzeuge, die Sie verwenden können: Tabellenanalysator , BDNA

Datentransformation

Wenn ein Datensatz in der Anzahl der Instanzen oder Prädiktorvariablen zu groß ist, entsteht ein Dimensionalitätsproblem. Dies ist ein kritisches Problem, das die Funktion der meisten Data-Mining-Algorithmen behindert und die Verarbeitungskosten erhöht. Es gibt zwei gängige Methoden zur Datentransformation durch Dimensionsreduktion – Merkmalsauswahl und Raumtransformation.

Funktionsauswahl: Es ist der Prozess, so viele unnötige Informationen wie möglich zu erkennen und zu eliminieren. FS kann verwendet werden, um die Wahrscheinlichkeit zufälliger Korrelationen in Lernalgorithmen, die ihre Generalisierungsfähigkeiten beeinträchtigen könnten, erheblich zu reduzieren. FS wird auch den von Features belegten Suchraum reduzieren, wodurch der Lern- und Mining-Prozess beschleunigt wird. Das ultimative Ziel besteht darin, eine Teilmenge von Merkmalen aus dem ursprünglichen Problem abzuleiten, die es gut beschreibt.

Raumtransformationen: Raumtransformationen funktionieren ähnlich wie die Feature-Auswahl. Anstatt jedoch die wertvollen Merkmale auszuwählen, wird die Raumumwandlungstechnik einen frischen neuen Satz von Merkmalen erzeugen, indem sie die Originale kombiniert. Eine solche Kombination kann nach bestimmten Kriterien vorgenommen werden. Raumtransformationstechniken zielen letztendlich darauf ab, nichtlineare Beziehungen zwischen den Variablen auszunutzen.

Tools, die Sie verwenden können: Talend , Pentaho

Imputation fehlender Werte

Eine der gängigen Annahmen bei Big Data ist, dass der Datensatz vollständig ist. Tatsächlich weisen die meisten Datensätze fehlende Werte auf, die oft übersehen werden. Fehlende Werte sind Daten, die aufgrund von Budgetbeschränkungen, einem fehlerhaften Stichprobenverfahren oder anderen Einschränkungen im Datenextraktionsprozess nicht extrahiert oder gespeichert wurden. Fehlende Werte sollten nicht ignoriert werden, da sie Ihre Ergebnisse verfälschen könnten.

Das Beheben des Problems mit fehlenden Werten ist eine Herausforderung. Eine unvorsichtige Handhabung könnte leicht zu Komplikationen bei der Datenverarbeitung und falschen Schlussfolgerungen führen.

Es gibt einige relativ effektive Ansätze, um das Problem der fehlenden Werte anzugehen. Das Verwerfen der Instanzen, die möglicherweise fehlende Werte enthalten, ist üblich, aber es ist nicht sehr effektiv, da es zu Verzerrungen in den statistischen Analysen führen könnte. Abgesehen davon ist es keine gute Idee, kritische Informationen zu verwerfen. Eine bessere und effektivere Methode besteht darin, Maximum-Likelihood-Verfahren zu verwenden, um die Wahrscheinlichkeitsfunktionen der Daten zu modellieren und dabei auch die Faktoren zu berücksichtigen, die das Fehlen verursacht haben könnten. Techniken des maschinellen Lernens sind bisher die effektivste Lösung für das Problem der fehlenden Werte.

Lärmerkennung

Die Datenerfassung ist nicht immer perfekt, aber die Data-Mining-Algorithmen würden dies immer annehmen. Daten mit Rauschen können die Qualität der Ergebnisse ernsthaft beeinträchtigen, daher ist es wichtig, dieses Problem anzugehen. Rauschen kann in den meisten Fällen die Eingabefunktionen, die Ausgabe oder beides beeinträchtigen. Das in der Eingabe gefundene Rauschen wird als Attributrauschen bezeichnet. Wenn sich das Rauschen in die Ausgabe einschleicht, wird es als Klassenrauschen bezeichnet. Wenn in der Ausgabe Rauschen vorhanden ist, ist das Problem sehr ernst und die Verzerrung der Ergebnisse wäre sehr hoch.

Es gibt zwei gängige Ansätze, um Rauschen aus den Datensätzen zu entfernen. Wenn das Rauschen die Kennzeichnung von Instanzen beeinflusst hat, werden Datenpolierverfahren verwendet, um das Rauschen zu beseitigen. Die andere Methode beinhaltet die Verwendung von Rauschfiltern, die Instanzen mit Rauschen aus den Daten identifizieren und entfernen können, und dies erfordert keine Änderung der Data-Mining-Technik.

Minimierung der Vorverarbeitungsaufgaben

Die Vorbereitung der Daten für Ihren Datenanalysealgorithmus kann abhängig von den einzigartigen Anforderungen der Anwendung viel mehr Prozesse umfassen. Grundlegende Prozesse wie Bereinigung, Deduplizierung und Normalisierung können jedoch in den meisten Fällen vermieden werden, wenn Sie die richtige Quelle für die Datenextraktion auswählen. Es ist höchst unwahrscheinlich, dass eine Rohquelle Ihnen saubere Daten liefern kann. In Bezug auf die Extraktion von Webdaten kann Ihnen ein verwalteter Web-Scraping-Dienst wie PromptCloud saubere und gebrauchsfertige Daten liefern , die bereit sind, in Ihr Analysesystem eingesteckt zu werden. Da die von unserer DaaS-Lösung bereitgestellten Daten sauber sind, können Sie sich Ihre besten Bemühungen für Ihre anwendungsspezifischen Datenverarbeitungsaufgaben sparen.