Apa yang Terjadi di Antara Ekstraksi Data dan Visualisasi

Diterbitkan: 2017-08-08
Daftar Isi menunjukkan
Teknik pra-pemrosesan data
Pembersihan data
Normalisasi data
Transformasi data
Imputasi nilai yang hilang
Identifikasi kebisingan
Meminimalkan tugas pra-pemrosesan

Data besar telah menunjukkan pertumbuhan yang fenomenal selama dekade terakhir dan penerapannya secara luas oleh bisnis sebagai katalis pertumbuhan terus memberikan hasil yang positif. Skala data sangat besar dan volume, kecepatan, dan variasi data memerlukan pemrosesan yang lebih efisien agar siap untuk mesin. Meskipun ada banyak cara untuk mengekstrak data seperti API publik, layanan pengikisan web kustom , sumber data internal, dll., akan selalu ada kebutuhan untuk melakukan pra-pemrosesan agar data sangat cocok untuk aplikasi bisnis.

pra-pemrosesan data

Pra-pemrosesan data melibatkan serangkaian tugas utama yang menuntut infrastruktur komputasi ekstensif dan ini pada gilirannya akan memberi jalan bagi hasil yang lebih baik dari strategi data besar Anda. Selain itu, kebersihan data akan menentukan keandalan analisis Anda dan ini harus diberikan prioritas tinggi saat merencanakan strategi data Anda.

Teknik pra-pemrosesan data

Karena data yang diekstraksi cenderung tidak sempurna dengan redundansi dan ketidaksempurnaan, teknik pra-pemrosesan data merupakan kebutuhan mutlak. Semakin besar kumpulan data, semakin kompleks mekanisme yang diperlukan untuk memprosesnya sebelum analisis dan visualisasi . Pra-pemrosesan mempersiapkan data dan membuat analisis menjadi layak sambil meningkatkan efektivitas hasil. Berikut ini adalah beberapa langkah penting yang terlibat dalam pra-pemrosesan data.

Pembersihan data

Pembersihan data biasanya merupakan langkah pertama dalam pemrosesan data dan dilakukan untuk menghilangkan elemen yang tidak diinginkan serta mengurangi ukuran kumpulan data, yang akan memudahkan algoritme untuk menganalisisnya. Pembersihan data biasanya dilakukan dengan menggunakan teknik reduksi instan.

Pengurangan instans membantu mengurangi ukuran kumpulan data tanpa mengorbankan kualitas wawasan yang dapat diekstraksi dari data. Ini menghapus instance dan menghasilkan yang baru untuk membuat kumpulan data menjadi ringkas. Ada dua algoritma pengurangan instans utama:

Pemilihan instans: Pemilihan instans digunakan untuk mengidentifikasi contoh terbaik dari kumpulan data yang sangat besar dengan banyak instans untuk menyusunnya sebagai masukan untuk sistem analitik. Ini bertujuan untuk memilih subset data yang dapat bertindak sebagai pengganti set data asli sambil sepenuhnya memenuhi tujuan. Ini juga akan menghapus instance dan noise yang berlebihan.

Pembuatan instance: Metode pembuatan instance melibatkan penggantian data asli dengan data yang dibuat secara artifisial untuk mengisi wilayah dalam domain masalah tanpa contoh representatif dalam data master. Pendekatan umum adalah memberi label ulang pada contoh yang tampaknya termasuk dalam label kelas yang salah. Pembuatan instance membuat data bersih dan siap untuk algoritma analisis.

Alat yang dapat Anda gunakan: Drake , DataWrangler , OpenRefine

Normalisasi data

Normalisasi meningkatkan integritas data dengan menyesuaikan distribusi. Dengan kata sederhana, itu menormalkan setiap baris untuk memiliki norma satuan. Norma ditentukan oleh parameter p yang menunjukkan norma-p yang digunakan. Beberapa metode populer adalah:

StandardScaler: Melakukan normalisasi sehingga setiap fitur mengikuti distribusi normal.

MinMaxScaler: Menggunakan dua parameter untuk menormalkan setiap fitur ke rentang tertentu – batas atas dan bawah.

ElementwiseProduct: Menggunakan pengganda skalar untuk menskalakan setiap fitur.

Alat yang dapat Anda gunakan: Penganalisis tabel , BDNA

Transformasi data

Jika kumpulan data terlalu besar dalam jumlah instance atau variabel prediktor, masalah dimensi muncul. Ini adalah masalah kritis yang akan menghalangi berfungsinya sebagian besar algoritme penambangan data dan meningkatkan biaya pemrosesan. Ada dua metode populer untuk transformasi data dengan pengurangan dimensi – Seleksi Fitur dan Transformasi Ruang.

Seleksi fitur: Ini adalah proses menemukan dan menghilangkan sebanyak mungkin informasi yang tidak perlu. FS dapat digunakan untuk secara signifikan mengurangi kemungkinan korelasi kebetulan dalam algoritma pembelajaran yang dapat menurunkan kemampuan generalisasi mereka. FS juga akan memangkas ruang pencarian yang ditempati oleh fitur, sehingga membuat proses belajar dan menambang lebih cepat. Tujuan utamanya adalah untuk mendapatkan subset fitur dari masalah asli yang menggambarkannya dengan baik.

Transformasi ruang: Transformasi ruang bekerja mirip dengan pemilihan fitur. Namun, alih-alih memilih fitur yang berharga, teknik transformasi ruang akan menciptakan serangkaian fitur baru yang segar dengan menggabungkan yang asli. Kombinasi semacam ini dapat dibuat untuk memenuhi kriteria tertentu. Teknik transformasi ruang pada akhirnya bertujuan untuk memanfaatkan hubungan non-linier antar variabel.

Alat yang dapat Anda gunakan: Talend , Pentaho

Imputasi nilai yang hilang

Salah satu asumsi umum dengan data besar adalah bahwa kumpulan data sudah lengkap. Faktanya, sebagian besar kumpulan data memiliki nilai yang hilang yang sering diabaikan. Nilai yang hilang adalah datum yang belum diekstraksi atau disimpan karena batasan anggaran, proses pengambilan sampel yang salah, atau batasan lain dalam proses ekstraksi data. Nilai yang hilang bukanlah sesuatu yang harus diabaikan karena dapat mengubah hasil Anda.

Memperbaiki masalah nilai yang hilang itu menantang. Penanganan yang tidak hati-hati dapat dengan mudah menyebabkan komplikasi dalam penanganan data dan kesimpulan yang salah.

Ada beberapa pendekatan yang relatif efektif untuk mengatasi masalah nilai yang hilang. Membuang instance yang mungkin mengandung nilai yang hilang adalah hal yang umum tetapi tidak terlalu efektif karena dapat menyebabkan bias dalam analisis statistik. Terlepas dari ini, membuang informasi penting bukanlah ide yang baik. Metode yang lebih baik dan lebih efektif adalah dengan menggunakan prosedur kemungkinan maksimum untuk memodelkan fungsi probabilitas data sambil juga mempertimbangkan faktor-faktor yang dapat menyebabkan hilangnya data tersebut. Teknik pembelajaran mesin sejauh ini merupakan solusi paling efektif untuk masalah nilai yang hilang.

Identifikasi kebisingan

Pengumpulan data tidak selalu sempurna, tetapi algoritma penambangan data akan selalu menganggapnya demikian. Data dengan noise dapat sangat memengaruhi kualitas hasil, mengatasi masalah ini sangat penting. Kebisingan dapat mempengaruhi fitur input, output atau keduanya dalam banyak kasus. Kebisingan yang ditemukan di input disebut derau atribut sedangkan jika derau itu merambat ke output, itu disebut sebagai derau kelas. Jika ada noise di output, masalahnya sangat serius dan bias dalam hasil akan sangat tinggi.

Ada dua pendekatan populer untuk menghilangkan noise dari kumpulan data. Jika derau telah memengaruhi pelabelan instans, metode pemolesan data digunakan untuk menghilangkan derau. Metode lainnya melibatkan penggunaan filter noise yang dapat mengidentifikasi dan menghapus instance dengan noise dari data dan ini tidak memerlukan modifikasi teknik data mining.

Meminimalkan tugas pra-pemrosesan

Mempersiapkan data untuk algoritme analisis data Anda dapat melibatkan lebih banyak proses tergantung pada permintaan unik aplikasi. Namun, proses dasar seperti pembersihan, deduplikasi, dan normalisasi dapat dihindari dalam banyak kasus jika Anda memilih sumber yang tepat untuk ekstraksi data. Sangat tidak mungkin bahwa sumber mentah dapat memberi Anda data yang bersih. Sejauh menyangkut ekstraksi data web, layanan pengikisan web terkelola seperti PromptCloud dapat memberi Anda data yang bersih dan siap pakai yang siap dicolokkan ke sistem analitik Anda. Karena data yang disediakan oleh solusi DaaS kami bersih, Anda dapat menghemat upaya terbaik Anda untuk tugas pemrosesan data khusus aplikasi Anda.