Veri Çıkarma ve Görselleştirme Arasında Ne Olur?

Yayınlanan: 2017-08-08
İçindekiler gösterisi
Veri ön işleme teknikleri
Veri temizleme
Veri normalleştirme
Veri dönüşümü
Eksik değerler yüklemesi
Gürültü tanımlama
Ön işleme görevlerini en aza indirme

Büyük veri, son on yılda olağanüstü bir büyüme gösterdi ve işletmeler tarafından bir büyüme katalizörü olarak yaygın şekilde uygulanması, olumlu sonuçlar vermeye devam ediyor. Veri ölçeği çok büyüktür ve verilerin hacmi, hızı ve çeşitliliği, onu makineye hazır hale getirmek için daha verimli işleme gerektirir. Genel API'ler, özel web kazıma hizmetleri , dahili veri kaynakları vb. gibi verileri ayıklamanın çok sayıda yolu olmasına rağmen, verileri iş uygulamaları için mükemmel şekilde uygun hale getirmek için her zaman bazı ön işlemlere ihtiyaç duyulacaktır.

veri ön işleme

Verilerin ön işlenmesi, kapsamlı hesaplama altyapısı gerektiren bir dizi kilit görevi içerir ve bu da büyük veri stratejinizden daha iyi sonuçlar almanızı sağlar. Ayrıca, verilerin temizliği, analizinizin güvenilirliğini belirleyecektir ve buna veri stratejinizi çizerken yüksek öncelik verilmelidir.

Veri ön işleme teknikleri

Çıkarılan veriler, fazlalıklar ve kusurlarla kusurlu olma eğiliminde olduğundan, veri ön işleme teknikleri mutlak bir zorunluluktur. Veri kümeleri ne kadar büyük olursa, analiz ve görselleştirmeden önce bunları işlemek için o kadar karmaşık mekanizmalara ihtiyaç duyulur . Ön işleme, verileri hazırlar ve sonuçların etkinliğini arttırırken analizi mümkün kılar. Aşağıda, veri ön işleme ile ilgili önemli adımlardan bazıları verilmiştir.

Veri temizleme

Verilerin temizlenmesi genellikle veri işlemede ilk adımdır ve istenmeyen unsurları ortadan kaldırmak ve veri kümelerinin boyutunu küçültmek için yapılır, bu da algoritmaların analiz etmesini kolaylaştıracaktır. Veri temizleme tipik olarak örnek azaltma teknikleri kullanılarak yapılır.

Örnek azaltma, verilerden çıkarılabilecek içgörülerin kalitesinden ödün vermeden veri kümesinin boyutunun küçültülmesine yardımcı olur. Veri kümesini kompakt hale getirmek için örnekleri kaldırır ve yenilerini oluşturur. İki ana örnek azaltma algoritması vardır:

Örnek seçimi: Örnek seçimi , analitik sistem için girdi olarak küratörlüğünü yapmak amacıyla çok sayıda örnek içeren çok büyük bir veri kümesinden en iyi örnekleri belirlemek için kullanılır. Hedefi tamamen yerine getirirken, orijinal veri kümesinin yerine geçebilecek bir veri alt kümesini seçmeyi amaçlar. Ayrıca gereksiz örnekleri ve gürültüyü de kaldıracaktır.

Örnek oluşturma: Örnek oluşturma yöntemleri, ana verilerde temsili örnekleri olmayan bir sorunun etki alanındaki bölgeleri doldurmak için orijinal verilerin yapay olarak oluşturulmuş verilerle değiştirilmesini içerir. Yaygın bir yaklaşım, yanlış sınıf etiketlerine ait gibi görünen örnekleri yeniden etiketlemektir. Örnek oluşturma, böylece verileri temiz ve analiz algoritması için hazır hale getirir.

Kullanabileceğiniz araçlar : Drake , DataWrangler , OpenRefine

Veri normalleştirme

Normalleştirme, dağılımları ayarlayarak verilerin bütünlüğünü iyileştirir. Basit bir deyişle, her satırı bir birim norma sahip olacak şekilde normalleştirir. Norm, kullanılan p-normunu belirten p parametresi ile belirlenir. Bazı popüler yöntemler şunlardır:

StandardScaler: Her özelliğin normal bir dağılım izlemesi için normalleştirmeyi gerçekleştirir.

MinMaxScaler: Her özelliği belirli bir aralığa normalleştirmek için iki parametre kullanır – üst ve alt sınır.

ElementwiseProduct: Her özelliği ölçeklendirmek için bir skaler çarpanı kullanır.

Kullanabileceğiniz araçlar: Tablo analizörü , BDNA

Veri dönüşümü

Bir veri seti, örnek sayısı veya tahmin değişkenleri açısından çok büyük olursa, boyutluluk sorunu ortaya çıkar. Bu, çoğu veri madenciliği algoritmasının çalışmasını engelleyecek ve işleme maliyetini artıracak kritik bir konudur. Boyut azaltma yoluyla veri dönüşümü için iki popüler yöntem vardır – Özellik Seçimi ve Uzay Dönüşümü.

Özellik seçimi: Mümkün olduğu kadar fazla gereksiz bilgiyi tespit etme ve ortadan kaldırma işlemidir. FS, öğrenme algoritmalarında genelleme yeteneklerini bozabilecek kazara korelasyon olasılığını önemli ölçüde azaltmak için kullanılabilir. FS ayrıca özelliklerin kapladığı arama alanını da kesecek, böylece öğrenme ve madencilik sürecini daha hızlı hale getirecek. Nihai hedef, onu iyi tanımlayan orijinal problemden bir özellikler alt kümesi elde etmektir.

Uzay dönüşümleri: Uzay dönüşümleri, özellik seçimine benzer şekilde çalışır. Ancak, değerli özellikleri seçmek yerine, mekan dönüştürme tekniği orijinalleri birleştirerek yepyeni bir dizi özellik yaratacaktır. Bu tür bir kombinasyon belirli kriterlere uymak için yapılabilir. Uzay dönüşüm teknikleri, nihayetinde değişkenler arasındaki doğrusal olmayan ilişkilerden yararlanmayı amaçlar.

Kullanabileceğiniz araçlar: Talend , Pentaho

Eksik değerler yüklemesi

Büyük veri ile ilgili yaygın varsayımlardan biri veri kümesinin tamamlanmış olmasıdır. Aslında, çoğu veri kümesinde genellikle gözden kaçan eksik değerler vardır. Eksik değerler, bütçe kısıtlamaları, hatalı bir örnekleme süreci veya veri çıkarma sürecindeki diğer sınırlamalar nedeniyle çıkarılmamış veya saklanmamış verilerdir. Eksik değerler, sonuçlarınızı çarpıtabileceği için göz ardı edilecek bir şey değildir.

Eksik değerler sorununu düzeltmek zordur. Son derece dikkatli bir şekilde ele alınması, verilerin işlenmesinde kolayca komplikasyonlara ve yanlış sonuçlara yol açabilir.

Kayıp değerler sorununun üstesinden gelmek için nispeten etkili bazı yaklaşımlar vardır. Eksik değerler içerebilecek örneklerin atılması yaygın olanıdır ancak istatistiksel analizlerde yanlılığa yol açabileceğinden çok etkili değildir. Bunun dışında, kritik bilgileri atmak iyi bir fikir değildir. Daha iyi ve daha etkili bir yöntem, verinin olasılık fonksiyonlarını modellemek için maksimum olabilirlik prosedürlerini kullanırken, aynı zamanda eksikliğe neden olabilecek faktörleri de dikkate almaktır. Makine öğrenimi teknikleri, kayıp değerler sorununa şimdiye kadarki en etkili çözümdür.

Gürültü tanımlama

Veri toplama her zaman mükemmel değildir, ancak veri madenciliği algoritmaları her zaman mükemmel olduğunu varsayar. Gürültülü veriler sonuçların kalitesini ciddi şekilde etkileyebilir, bu sorunu çözmek çok önemlidir. Gürültü, çoğu durumda giriş özelliklerini, çıkışı veya her ikisini de etkileyebilir. Girdide bulunan gürültüye öznitelik gürültüsü denir, oysa gürültü çıktıya girerse buna sınıf gürültüsü denir. Çıktıda gürültü varsa, sorun çok ciddidir ve sonuçlardaki yanlılık çok yüksek olacaktır.

Veri kümelerinden gürültüyü çıkarmak için iki popüler yaklaşım vardır. Gürültü, örneklerin etiketlenmesini etkilemişse, gürültüyü ortadan kaldırmak için veri parlatma yöntemleri kullanılır. Diğer yöntem, verilerden gürültülü örnekleri tanımlayabilen ve kaldırabilen gürültü filtrelerinin kullanılmasını içerir ve bu, veri madenciliği tekniğinin değiştirilmesini gerektirmez.

Ön işleme görevlerini en aza indirme

Veri analizi algoritmanız için verileri hazırlamak, uygulamanın benzersiz taleplerine bağlı olarak daha birçok işlemi içerebilir. Ancak, veri çıkarma için doğru kaynağı seçerseniz çoğu durumda temizleme, veri tekilleştirme ve normalleştirme gibi temel işlemlerden kaçınılabilir. Ham bir kaynağın size temiz veri vermesi pek olası değildir. Web verilerinin çıkarılması söz konusu olduğunda, PromptCloud gibi yönetilen bir web kazıma hizmeti , analitik sisteminize bağlanmaya hazır, temiz ve kullanıma hazır veriler sağlayabilir. DaaS çözümümüz tarafından sağlanan veriler temiz olduğundan, uygulamaya özel veri işleme görevleriniz için elinizden gelenin en iyisini yapabilirsiniz.