Ce se întâmplă între extragerea și vizualizarea datelor

Publicat: 2017-08-08
Cuprins arată
Tehnici de pre-procesare a datelor
Curățarea datelor
Normalizarea datelor
Transformarea datelor
Imputarea valorilor lipsă
Identificarea zgomotului
Minimizarea sarcinilor de preprocesare

Big Data a arătat o creștere fenomenală în ultimul deceniu și aplicarea sa pe scară largă de către companii ca catalizator de creștere continuă să ofere rezultate pozitive. Amploarea datelor este masivă, iar volumul, viteza și varietatea datelor necesită o procesare mai eficientă pentru a le face pregătite pentru mașină. Deși există o multitudine de moduri de a extrage date, cum ar fi API-uri publice, servicii personalizate de scraping web , surse interne de date etc., ar rămâne întotdeauna nevoia de a face o preprocesare pentru a face datele perfect potrivite pentru aplicațiile de afaceri.

preprocesarea datelor

Preprocesarea datelor implică un set de sarcini cheie care necesită o infrastructură de calcul extinsă și aceasta, la rândul său, va face loc pentru rezultate mai bune din strategia dvs. de date mari. Mai mult decât atât, curățenia datelor ar determina fiabilitatea analizei dvs. și ar trebui să i se acorde o prioritate ridicată în timpul trasării strategiei dvs. de date.

Tehnici de pre-procesare a datelor

Deoarece datele extrase tind să fie imperfecte, cu redundanțe și imperfecțiuni, tehnicile de pre-procesare a datelor sunt o necesitate absolută. Cu cât seturile de date sunt mai mari, cu atât sunt necesare mecanisme mai complexe pentru a le procesa înainte de analiză și vizualizare . Preprocesarea pregătește datele și face analiza fezabilă, îmbunătățind în același timp eficacitatea rezultatelor. Iată câțiva dintre pașii cruciali implicați în preprocesarea datelor.

Curățarea datelor

Curățarea datelor este de obicei primul pas în procesarea datelor și se face pentru a elimina elementele nedorite, precum și pentru a reduce dimensiunea seturilor de date, ceea ce va ușura analizarea lor de către algoritmi. Curățarea datelor se face de obicei prin utilizarea tehnicilor de reducere a instanțelor.

Reducerea instanțelor ajută la reducerea dimensiunii setului de date fără a compromite calitatea informațiilor care pot fi extrase din date. Îndepărtează instanțe și generează altele noi pentru a face setul de date compact. Există doi algoritmi majori de reducere a instanțelor:

Selectarea instanțelor: Selecția instanțelor este utilizată pentru a identifica cele mai bune exemple dintr-un set de date foarte mare, cu multe instanțe, pentru a le selecta ca intrare pentru sistemul de analiză. Acesta își propune să selecteze un subset de date care poate acționa ca înlocuitor pentru setul de date inițial, în timp ce îndeplinește complet obiectivul. De asemenea, va elimina instanțele redundante și zgomotul.

Generarea instanțelor: Metodele de generare a instanțelor implică înlocuirea datelor originale cu date generate artificial pentru a umple regiunile din domeniul unei probleme fără exemple reprezentative în datele de bază. O abordare comună este reetichetarea exemplelor care par să aparțină unor etichete de clasă greșite. Generarea instanțelor face astfel datele curate și pregătite pentru algoritmul de analiză.

Instrumente pe care le puteți folosi: Drake , DataWrangler , OpenRefine

Normalizarea datelor

Normalizarea îmbunătățește integritatea datelor prin ajustarea distribuțiilor. Cu cuvinte simple, normalizează fiecare rând pentru a avea o normă de unitate. Norma este specificată de parametrul p care denotă norma p utilizată. Unele metode populare sunt:

StandardScaler: Realizează normalizarea astfel încât fiecare caracteristică să urmeze o distribuție normală.

MinMaxScaler: Folosește doi parametri pentru a normaliza fiecare caracteristică la un interval specific - limita superioară și inferioară.

ElementwiseProduct: folosește un multiplicator scalar pentru a scala fiecare caracteristică.

Instrumente pe care le puteți utiliza: analizor de masă , BDNA

Transformarea datelor

Dacă un set de date se întâmplă să fie prea mare în numărul de instanțe sau variabile predictoare, apare problema de dimensionalitate. Aceasta este o problemă critică care va împiedica funcționarea majorității algoritmilor de extragere a datelor și va crește costul procesării. Există două metode populare pentru transformarea datelor prin reducerea dimensionalității - Selectarea caracteristicilor și Transformarea spațiului.

Selectarea caracteristicilor: este procesul de reperare și eliminare a cât mai multor informații inutile. FS poate fi folosit pentru a reduce semnificativ probabilitatea corelațiilor accidentale în algoritmii de învățare care le-ar putea degrada capacitățile de generalizare. FS va reduce, de asemenea, spațiul de căutare ocupat de funcții, făcând astfel procesul de învățare și extragere mai rapid. Scopul final este de a deriva un subset de caracteristici din problema originală care o descrie bine.

Transformări de spațiu: transformările de spațiu funcționează similar cu selecția caracteristicilor. Cu toate acestea, în loc să selecteze caracteristicile valoroase, tehnica de transformare a spațiului va crea un nou set de caracteristici prin combinarea originalelor. Acest tip de combinație poate fi făcută pentru a respecta anumite criterii. Tehnicile de transformare a spațiului urmăresc în cele din urmă exploatarea relațiilor neliniare dintre variabile.

Instrumente pe care le puteți folosi: Talend , Pentaho

Imputarea valorilor lipsă

Una dintre ipotezele comune cu Big Data este că setul de date este complet. De fapt, cele mai multe seturi de date au valori lipsă care sunt adesea trecute cu vederea. Valorile lipsă sunt date care nu au fost extrase sau stocate din cauza restricțiilor bugetare, a unui proces de eșantionare defectuos sau a altor limitări în procesul de extragere a datelor. Lipsa valorilor nu este ceva de ignorat, deoarece ar putea denatura rezultatele.

Remedierea problemei cu valorile lipsă este o provocare. Manipularea acestuia fără cea mai mare atenție ar putea duce cu ușurință la complicații în manipularea datelor și la concluzii greșite.

Există câteva abordări relativ eficiente pentru a aborda problema valorilor lipsă. Eliminarea cazurilor care ar putea conține valori lipsă este cea obișnuită, dar nu este foarte eficientă, deoarece ar putea duce la părtinire în analizele statistice. În afară de aceasta, aruncarea informațiilor critice nu este o idee bună. O metodă mai bună și mai eficientă este de a utiliza proceduri de maximă probabilitate pentru a modela funcțiile de probabilitate ale datelor, luând în considerare și factorii care ar fi putut determina lipsa. Tehnicile de învățare automată sunt până acum cea mai eficientă soluție la problema valorilor lipsă.

Identificarea zgomotului

Colectarea datelor nu este întotdeauna perfectă, dar algoritmii de extragere a datelor ar presupune întotdeauna că este. Datele cu zgomot pot afecta grav calitatea rezultatelor, abordarea acestei probleme este crucială. Zgomotul poate afecta caracteristicile de intrare, de ieșire sau ambele în majoritatea cazurilor. Zgomotul găsit în intrare se numește zgomot de atribut, în timp ce dacă zgomotul se strecoară în ieșire, se numește zgomot de clasă. Dacă zgomotul este prezent în ieșire, problema este foarte gravă și părtinirea rezultatelor ar fi foarte mare.

Există două abordări populare pentru a elimina zgomotul din seturile de date. Dacă zgomotul a afectat etichetarea instanțelor, se folosesc metode de lustruire a datelor pentru a elimina zgomotul. Cealaltă metodă implică utilizarea filtrelor de zgomot care pot identifica și elimina instanțele cu zgomot din date și acest lucru nu necesită modificarea tehnicii de extragere a datelor.

Minimizarea sarcinilor de preprocesare

Pregătirea datelor pentru algoritmul dvs. de analiză a datelor poate implica mult mai multe procese, în funcție de cerințele unice ale aplicației. Cu toate acestea, procesele de bază precum curățarea, deduplicarea și normalizarea pot fi evitate în majoritatea cazurilor dacă alegeți sursa potrivită pentru extragerea datelor. Este foarte puțin probabil ca o sursă brută să vă ofere date curate. În ceea ce privește extragerea datelor web, un serviciu gestionat de web scraping precum PromptCloud vă poate oferi date curate și gata de utilizare, care sunt gata să fie conectate la sistemul dvs. de analiză. Deoarece datele furnizate de soluția noastră DaaS sunt curate, puteți economisi toate eforturile pentru sarcinile de procesare a datelor specifice aplicației.