データ抽出と可視化の間に何が起こるか

公開: 2017-08-08

目次を見る

データ前処理技術

データクレンジング

データの正規化

データ変換

欠損値代入

ノイズ識別

前処理タスクの最小化

ビッグデータは過去 10 年間で驚異的な成長を遂げており、成長の触媒として企業に広く適用され、引き続きプラスの結果をもたらしています。データの規模は膨大であり、データの量、速度、および多様性を考慮すると、より効率的な処理を行って機械で使用できるようにする必要があります。パブリック API、カスタム Web スクレイピングサービス、内部データソースなど、データを抽出する方法は多数ありますが、ビジネスアプリケーションに完全に適したデータにするために、何らかの前処理を行う必要が常にあります。

データの前処理

データの前処理には、大規模な計算インフラストラクチャを必要とする一連の重要なタスクが含まれます。これにより、ビッグデータ戦略からより良い結果が得られます。さらに、データのクリーン度は分析の信頼性を決定するため、データ戦略を策定する際にはこれを優先する必要があります。

データ前処理技術

抽出されたデータは、冗長性と不完全性によって不完全になる傾向があるため、データの前処理技術は絶対に必要です。データセットが大きくなればなるほど、分析と視覚化の前にデータを処理するためにより複雑なメカニズムが必要になります。前処理はデータを準備し、結果の有効性を改善しながら分析を実行可能にします。以下は、データの前処理に含まれる重要な手順の一部です。

データクレンジング

通常、データのクレンジングはデータ処理の最初のステップであり、不要な要素を削除し、データセットのサイズを縮小するために行われます。これにより、アルゴリズムがデータを分析しやすくなります。通常、データクレンジングは、インスタンス削減手法を使用して行われます。

インスタンス削減は、データから抽出できる洞察の質を損なうことなく、データセットのサイズを削減するのに役立ちます。インスタンスを削除して新しいインスタンスを生成し、データセットをコンパクトにします。 2 つの主要なインスタンス削減アルゴリズムがあります。

インスタンスの選択:インスタンスの選択は、多くのインスタンスを含む非常に大きなデータセットから最適な例を特定し、それらを分析システムの入力としてキュレートするために使用されます。目標を完全に満たしながら、元のデータセットの代わりとして機能できるデータのサブセットを選択することを目的としています。また、冗長なインスタンスとノイズも削除されます。

インスタンス生成:インスタンス生成方法では、マスターデータに代表的な例がない問題のドメイン内の領域を埋めるために、元のデータを人為的に生成されたデータに置き換える必要があります。一般的なアプローチは、間違ったクラスラベルに属しているように見える例にラベルを付け直すことです。したがって、インスタンス生成により、データがクリーンになり、分析アルゴリズムの準備が整います。

使用できるツール: Drake 、 DataWrangler 、 OpenRefine

データの正規化

正規化は、分布を調整することにより、データの整合性を向上させます。簡単に言えば、単位ノルムを持つように各行を正規化します。ノルムは、使用される p ノルムを示すパラメーター p によって指定されます。いくつかの一般的な方法は次のとおりです。

StandardScaler: 各特徴が正規分布に従うように正規化を実行します。

MinMaxScaler: 2 つのパラメーターを使用して、各機能を特定の範囲 (上限と下限) に正規化します。

ElementwiseProduct: スカラー乗数を使用してすべての機能をスケーリングします。

使用できるツール:テーブルアナライザー、 BDNA

データ変換

データセットのインスタンスまたは予測変数の数が多すぎる場合、次元の問題が発生します。これは、ほとんどのデータマイニングアルゴリズムの機能を妨げ、処理コストを増加させる重大な問題です。次元削減によるデータ変換には、特徴選択と空間変換の 2 つの一般的な方法があります。

特徴の選択:不要な情報をできるだけ多く見つけて削除するプロセスです。 FS を使用すると、一般化機能を低下させる可能性のある学習アルゴリズムにおける偶発的な相関の可能性を大幅に減らすことができます。 FS は特徴によって占められる検索スペースも削減するため、学習とマイニングのプロセスが高速化されます。最終的な目標は、それを適切に説明する元の問題から特徴のサブセットを導き出すことです。

空間変換:空間変換は、特徴選択と同様に機能します。 ただし、貴重な機能を選択する代わりに、空間変換手法では、元の機能を組み合わせて新しい機能セットを作成します。この種の組み合わせは、特定の基準に従うために作成できます。空間変換技術は、最終的に変数間の非線形関係を利用することを目的としています。

使用できるツール: Talend 、 Pentaho

欠損値代入

ビッグデータに関する一般的な仮定の 1 つは、データセットが完全であるということです。実際、ほとんどのデータセットには、見落とされがちな欠損値があります。欠損値とは、予算の制限、サンプリングプロセスの誤り、またはデータ抽出プロセスにおけるその他の制限のために、抽出または保存されなかったデータです。欠損値は、結果をゆがめる可能性があるため、無視する必要はありません。

欠損値の問題を修正するのは困難です。細心の注意を払わずに扱うと、データ処理が複雑になり、誤った結論を導き出す可能性があります。

欠損値の問題に取り組むための比較的効果的なアプローチがいくつかあります。欠損値を含む可能性のあるインスタンスを破棄するのが一般的ですが、統計分析に偏りが生じる可能性があるため、あまり効果的ではありません。これとは別に、重要な情報を破棄することはお勧めできません。より適切で効果的な方法は、最尤法を使用してデータの確率関数をモデル化し、欠落を引き起こした可能性のある要因も考慮することです。機械学習技術は、これまでのところ、欠損値の問題に対する最も効果的なソリューションです。

ノイズ識別

データ収集は常に完璧ではありませんが、データマイニングアルゴリズムは常に完全であると想定します。ノイズのあるデータは結果の品質に深刻な影響を与える可能性があるため、この問題に取り組むことが重要です。ほとんどの場合、ノイズは入力機能、出力、またはその両方に影響を与える可能性があります。入力で見つかったノイズは属性ノイズと呼ばれ、ノイズが出力に忍び寄る場合はクラスノイズと呼ばれます。出力にノイズが存在する場合、問題は非常に深刻であり、結果の偏りが非常に高くなります。

データセットからノイズを除去するには、2 つの一般的な方法があります。ノイズがインスタンスのラベル付けに影響を与えた場合、データポリッシングメソッドを使用してノイズを除去します。もう 1 つの方法では、データからノイズのあるインスタンスを識別して削除できるノイズフィルターを使用します。この方法では、データマイニング手法を変更する必要はありません。

前処理タスクの最小化

データ分析アルゴリズム用のデータを準備するには、アプリケーション固有の要求に応じて、さらに多くのプロセスが必要になる場合があります。ただし、データ抽出に適切なソースを選択すれば、ほとんどの場合、クレンジング、重複排除、正規化などの基本的なプロセスを回避できます。生のソースからクリーンなデータが得られる可能性はほとんどありません。 Web データ抽出に関する限り、 PromptCloud のような管理された Web スクレイピングサービスを使用すると、分析システムにプラグインする準備が整った、クリーンですぐに使用できるデータを提供できます。当社の DaaS ソリューションによって提供されるデータはクリーンであるため、アプリケーション固有のデータ処理タスクに最善を尽くすことができます。