데이터 추출과 시각화 사이에 일어나는 일

게시 됨: 2017-08-08
목차
데이터 전처리 기술
데이터 정리
데이터 정규화
데이터 변환
결측값 대치
소음 식별
전처리 작업 최소화

빅 데이터는 지난 10년 동안 경이적인 성장을 보여 왔으며 성장 촉매로서 계속해서 긍정적인 결과를 제공하기 위해 기업에서 널리 적용하고 있습니다. 데이터의 규모는 방대하고 데이터의 양, 속도 및 다양성은 기계에서 사용할 수 있도록 보다 효율적인 처리를 요구합니다. 공개 API, 사용자 지정 웹 스크래핑 서비스 , 내부 데이터 소스 등과 같은 데이터를 추출하는 방법은 다양하지만 데이터를 비즈니스 애플리케이션에 완벽하게 적합하게 만들기 위해 사전 처리를 수행해야 할 필요성이 항상 남아 있습니다.

데이터 전처리

데이터 사전 처리에는 광범위한 컴퓨팅 인프라가 필요한 일련의 주요 작업이 포함되며, 이는 빅 데이터 전략에서 더 나은 결과를 얻을 수 있는 길을 열어줍니다. 또한 데이터의 청결도가 분석의 신뢰성을 결정하므로 데이터 전략을 구성할 때 높은 우선 순위를 부여해야 합니다.

데이터 전처리 기술

추출된 데이터는 중복 및 불완전성이 있는 불완전한 경향이 있기 때문에 데이터 전처리 기술이 절대적으로 필요합니다. 데이터 세트가 클수록 분석 및 시각화 전에 처리하기 위해 더 복잡한 메커니즘이 필요합니다 . 전처리는 데이터를 준비하고 결과의 효율성을 향상시키면서 분석을 실현 가능하게 만듭니다. 다음은 데이터 사전 처리와 관련된 몇 가지 중요한 단계입니다.

데이터 정리

데이터 정리는 일반적으로 데이터 처리의 첫 번째 단계이며 원하지 않는 요소를 제거하고 데이터 세트의 크기를 줄이기 위해 수행되므로 알고리즘에서 더 쉽게 분석할 수 있습니다. 데이터 정리는 일반적으로 인스턴스 축소 기술을 사용하여 수행됩니다.

인스턴스 축소는 데이터에서 추출할 수 있는 통찰력의 품질을 손상시키지 않으면서 데이터 세트의 크기를 줄이는 데 도움이 됩니다. 인스턴스를 제거하고 새 인스턴스를 생성하여 데이터 세트를 압축합니다. 두 가지 주요 인스턴스 축소 알고리즘이 있습니다.

인스턴스 선택: 인스턴스 선택 은 분석 시스템에 대한 입력으로 선별하기 위해 많은 인스턴스가 있는 매우 큰 데이터 세트에서 최상의 예를 식별하는 데 사용됩니다. 목표를 완전히 달성하면서 원본 데이터 세트를 대체할 수 있는 데이터의 하위 집합을 선택하는 것을 목표로 합니다. 또한 중복 인스턴스와 노이즈를 제거합니다.

인스턴스 생성: 인스턴스 생성 방법은 마스터 데이터에 대표 사례가 없는 문제 영역의 영역을 채우기 위해 원본 데이터를 인위적으로 생성된 데이터로 대체하는 방법입니다. 일반적인 접근 방식은 잘못된 클래스 레이블에 속하는 것으로 보이는 예제의 레이블을 다시 지정하는 것입니다. 따라서 인스턴스 생성은 데이터를 정리하고 분석 알고리즘에 사용할 준비가 되도록 합니다.

사용할 수 있는 도구: Drake , DataWrangler , OpenRefine

데이터 정규화

정규화는 분포를 조정하여 데이터의 무결성을 향상시킵니다. 간단히 말해서 각 행을 단위 노름을 갖도록 정규화합니다. 규범은 사용된 p-노름을 나타내는 매개변수 p에 의해 지정됩니다. 몇 가지 인기 있는 방법은 다음과 같습니다.

StandardScaler: 각 특성이 정규 분포를 따르도록 정규화를 수행합니다.

MinMaxScaler: 두 개의 매개변수를 사용하여 각 기능을 특정 범위(상한 및 하한)로 정규화합니다.

ElementwiseProduct: 스칼라 승수를 사용하여 모든 기능을 확장합니다.

사용할 수 있는 도구: 테이블 분석기 , BDNA

데이터 변환

데이터 집합이 인스턴스 또는 예측 변수의 수에서 너무 크면 차원 문제가 발생합니다. 이것은 대부분의 데이터 마이닝 알고리즘의 기능을 방해하고 처리 비용을 증가시키는 중요한 문제입니다. 차원 축소를 통한 데이터 변환에는 두 가지 인기 있는 방법인 기능 선택과 공간 변환이 있습니다.

특징선택 : 불필요한 정보를 최대한 찾아내어 제거하는 과정이다. FS는 일반화 기능을 저하시킬 수 있는 학습 알고리즘에서 우발적인 상관 관계의 가능성을 크게 줄이는 데 사용할 수 있습니다. FS는 또한 기능이 차지하는 검색 공간을 줄여 학습 및 마이닝 프로세스를 더 빠르게 만듭니다. 궁극적인 목표는 이를 잘 설명하는 원래 문제에서 기능의 하위 집합을 도출하는 것입니다.

공간 변환: 공간 변환은 기능 선택과 유사하게 작동합니다. 그러나 가치 있는 기능을 선택하는 대신 공간 변형 기술은 원본을 결합하여 새로운 기능 집합을 생성합니다. 이러한 종류의 조합은 특정 기준을 준수하도록 만들 수 있습니다. 공간 변환 기술은 궁극적으로 변수 간의 비선형 관계를 활용하는 것을 목표로 합니다.

사용할 수 있는 도구: Talend , Pentaho

결측값 대치

빅 데이터에 대한 일반적인 가정 중 하나는 데이터 세트가 완전하다는 것입니다. 사실, 대부분의 데이터 세트에는 종종 간과되는 결측값이 있습니다. 누락된 값은 예산 제한, 잘못된 샘플링 프로세스 또는 데이터 추출 프로세스의 기타 제한으로 인해 추출 또는 저장되지 않은 데이터입니다. 누락된 값은 결과를 왜곡할 수 있으므로 무시할 사항이 아닙니다.

누락된 값 문제를 수정하는 것은 어렵습니다. 최대한 주의하지 않고 처리하면 데이터 처리의 복잡성과 잘못된 결론으로 ​​쉽게 이어질 수 있습니다.

결측값 문제를 해결하는 몇 가지 비교적 효과적인 접근 방식이 있습니다. 누락된 값을 포함할 수 있는 인스턴스를 버리는 것이 일반적이지만 통계 분석에서 편향을 유발할 수 있으므로 그다지 효과적이지 않습니다. 이 외에도 중요한 정보를 버리는 것은 좋은 생각이 아닙니다. 더 우수하고 효과적인 방법은 최대우도 절차를 사용하여 데이터의 확률 함수를 모델링하는 동시에 누락을 유발할 수 있는 요인을 고려하는 것입니다. 머신 러닝 기술은 지금까지 결측값 문제에 대한 가장 효과적인 솔루션입니다.

소음 식별

데이터 수집이 항상 완벽하지는 않지만 데이터 마이닝 알고리즘은 항상 완벽하다고 가정합니다. 노이즈가 있는 데이터는 결과의 품질에 심각한 영향을 줄 수 있으므로 이 문제를 해결하는 것이 중요합니다. 노이즈는 대부분의 경우 입력 기능, 출력 또는 둘 다에 영향을 줄 수 있습니다. 입력에서 발견되는 노이즈를 속성 노이즈라고 하는 반면 노이즈가 출력에 스며들면 클래스 노이즈라고 합니다. 출력에 노이즈가 있으면 문제가 매우 심각하고 결과의 편향이 매우 높아집니다.

데이터 세트에서 노이즈를 제거하는 두 가지 일반적인 접근 방식이 있습니다. 노이즈가 인스턴스의 레이블 지정에 영향을 미쳤다면 데이터 폴리싱 방법을 사용하여 노이즈를 제거합니다. 다른 방법은 데이터에서 노이즈가 있는 인스턴스를 식별하고 제거할 수 있는 노이즈 필터를 사용하는 것이므로 데이터 마이닝 기술을 수정할 필요가 없습니다.

전처리 작업 최소화

데이터 분석 알고리즘을 위한 데이터 준비에는 애플리케이션의 고유한 요구 사항에 따라 더 많은 프로세스가 포함될 수 있습니다. 그러나 데이터 추출을 위한 올바른 소스를 선택하면 대부분의 경우 정리, 중복 제거 및 정규화와 같은 기본 프로세스를 피할 수 있습니다. 원시 소스가 깨끗한 데이터를 제공할 가능성은 거의 없습니다. 웹 데이터 추출에 관한 한 PromptCloud와 같은 관리형 웹 스크래핑 서비스는 분석 시스템에 연결할 준비가 된 깨끗하고 바로 사용할 수 있는 데이터 를 제공할 수 있습니다. 당사의 DaaS 솔루션에서 제공하는 데이터가 깨끗하므로 애플리케이션별 데이터 처리 작업에 대한 최선의 노력을 절약할 수 있습니다.