O que acontece entre extração de dados e visualização

Publicados: 2017-08-08
Índice mostrar
Técnicas de pré-processamento de dados
Limpeza de dados
Normalização de dados
Transformação de dados
Atribuição de valores ausentes
Identificação de ruído
Minimizando as tarefas de pré-processamento

Big data mostrou um crescimento fenomenal na última década e sua aplicação generalizada pelas empresas como um catalisador de crescimento continua a fornecer resultados positivos. A escala de dados é enorme e o volume, a velocidade e a variedade de dados exigem um processamento mais eficiente para torná-lo pronto para a máquina. Embora existam várias maneiras de extrair dados, como APIs públicas, serviços de web scraping personalizados , fontes de dados internas, etc., sempre haveria a necessidade de fazer algum pré-processamento para tornar os dados perfeitamente adequados para aplicativos de negócios.

pré-processamento de dados

O pré-processamento de dados envolve um conjunto de tarefas-chave que demandam extensa infraestrutura computacional e isso, por sua vez, abrirá caminho para melhores resultados de sua estratégia de big data. Além disso, a limpeza dos dados determinaria a confiabilidade de sua análise e isso deve receber alta prioridade ao traçar sua estratégia de dados.

Técnicas de pré-processamento de dados

Como os dados extraídos tendem a ser imperfeitos com redundâncias e imperfeições, técnicas de pré-processamento de dados são uma necessidade absoluta. Quanto maiores os conjuntos de dados, mais mecanismos complexos são necessários para processá-los antes da análise e visualização . O pré-processamento prepara os dados e viabiliza a análise, melhorando a eficácia dos resultados. A seguir estão algumas das etapas cruciais envolvidas no pré-processamento de dados.

Limpeza de dados

A limpeza dos dados geralmente é o primeiro passo no processamento de dados e é feita para remover os elementos indesejados, bem como para reduzir o tamanho dos conjuntos de dados, o que facilitará a análise dos algoritmos. A limpeza de dados geralmente é feita usando técnicas de redução de instância.

A redução de instância ajuda a reduzir o tamanho do conjunto de dados sem comprometer a qualidade dos insights que podem ser extraídos dos dados. Ele remove instâncias e gera novas para tornar o conjunto de dados compacto. Existem dois algoritmos principais de redução de instância:

Seleção de instâncias: a seleção de instâncias é usada para identificar os melhores exemplos de um conjunto de dados muito grande com muitas instâncias, a fim de selecioná-los como entrada para o sistema de análise. Ele visa selecionar um subconjunto de dados que possa atuar como substituto do conjunto de dados original, cumprindo completamente o objetivo. Ele também removerá instâncias redundantes e ruídos.

Geração de instâncias: Os métodos de geração de instâncias envolvem a substituição dos dados originais por dados gerados artificialmente para preencher regiões no domínio de um problema sem exemplos representativos nos dados mestres. Uma abordagem comum é renomear exemplos que parecem pertencer a rótulos de classe errados. A geração de instâncias torna os dados limpos e prontos para o algoritmo de análise.

Ferramentas que você pode usar: Drake , DataWrangler , OpenRefine

Normalização de dados

A normalização melhora a integridade dos dados ajustando as distribuições. Em palavras simples, normaliza cada linha para ter uma norma unitária. A norma é especificada pelo parâmetro p que denota a p-norm utilizada. Alguns métodos populares são:

StandardScaler: Realiza a normalização para que cada recurso siga uma distribuição normal.

MinMaxScaler: Usa dois parâmetros para normalizar cada recurso para um intervalo específico – limite superior e inferior.

ElementwiseProduct: usa um multiplicador escalar para dimensionar cada recurso.

Ferramentas que você pode usar: Analisador de tabela , BDNA

Transformação de dados

Se um conjunto de dados for muito grande no número de instâncias ou variáveis ​​preditoras, surge o problema de dimensionalidade. Este é um problema crítico que obstruirá o funcionamento da maioria dos algoritmos de mineração de dados e aumentará o custo de processamento. Existem dois métodos populares para transformação de dados por redução de dimensionalidade – Seleção de Recursos e Transformação de Espaço.

Seleção de recursos: É o processo de identificar e eliminar o máximo possível de informações desnecessárias. O FS pode ser usado para reduzir significativamente a probabilidade de correlações acidentais em algoritmos de aprendizado que podem degradar seus recursos de generalização. O FS também reduzirá o espaço de pesquisa ocupado por recursos, tornando o processo de aprendizado e mineração mais rápido. O objetivo final é derivar um subconjunto de características do problema original que o descreva bem.

Transformações de espaço: As transformações de espaço funcionam de maneira semelhante à seleção de recursos. No entanto, em vez de selecionar os recursos valiosos, a técnica de transformação do espaço criará um novo conjunto de recursos combinando os originais. Esse tipo de combinação pode ser feito para obedecer a determinados critérios. As técnicas de transformação espacial visam, em última análise, explorar relações não lineares entre as variáveis.

Ferramentas que você pode usar: Talend , Pentaho

Atribuição de valores ausentes

Uma das suposições comuns com big data é que o conjunto de dados está completo. Na verdade, a maioria dos conjuntos de dados tem valores ausentes que geralmente são ignorados. Os valores omissos são dados que não foram extraídos ou armazenados devido a restrições de orçamento, um processo de amostragem defeituoso ou outras limitações no processo de extração de dados. Valores ausentes não devem ser ignorados, pois podem distorcer seus resultados.

Corrigir o problema de valores ausentes é um desafio. Manuseá-lo sem o máximo cuidado pode facilmente levar a complicações no manuseio de dados e a conclusões erradas.

Existem algumas abordagens relativamente eficazes para resolver o problema dos valores omissos. Descartar as instâncias que podem conter valores ausentes é comum, mas não é muito eficaz, pois pode levar a vieses nas análises estatísticas. Além disso, descartar informações críticas não é uma boa ideia. Um método melhor e mais eficaz é usar procedimentos de máxima verossimilhança para modelar as funções de probabilidade dos dados, considerando também os fatores que podem ter induzido a falta. As técnicas de aprendizado de máquina são até agora a solução mais eficaz para o problema de valores ausentes.

Identificação de ruído

A coleta de dados nem sempre é perfeita, mas os algoritmos de mineração de dados sempre assumem que é. Dados com ruído podem afetar seriamente a qualidade dos resultados, abordar esse problema é crucial. O ruído pode afetar os recursos de entrada, saída ou ambos na maioria dos casos. O ruído encontrado na entrada é chamado de ruído de atributo, enquanto se o ruído se arrasta na saída, é chamado de ruído de classe. Se houver ruído na saída, o problema é muito sério e o viés nos resultados seria muito alto.

Existem duas abordagens populares para remover o ruído dos conjuntos de dados. Se o ruído afetou a rotulagem das instâncias, métodos de polimento de dados são usados ​​para eliminar o ruído. O outro método envolve o uso de filtros de ruído que podem identificar e remover instâncias com ruído dos dados e isso não requer modificação da técnica de mineração de dados.

Minimizando as tarefas de pré-processamento

A preparação dos dados para seu algoritmo de análise de dados pode envolver muitos outros processos, dependendo das demandas exclusivas do aplicativo. No entanto, processos básicos como limpeza, desduplicação e normalização podem ser evitados na maioria dos casos se você escolher a fonte certa para extração de dados. É altamente improvável que uma fonte bruta possa fornecer dados limpos. No que diz respeito à extração de dados da Web, um serviço de raspagem da Web gerenciado como o PromptCloud pode fornecer dados limpos e prontos para uso , prontos para serem conectados ao seu sistema de análise. Como os dados fornecidos por nossa solução DaaS são limpos, você pode economizar seus melhores esforços para suas tarefas de processamento de dados específicas do aplicativo.