จะเกิดอะไรขึ้นระหว่างการดึงข้อมูลและการแสดงภาพ

เผยแพร่แล้ว: 2017-08-08
สารบัญ แสดง
เทคนิคการประมวลผลข้อมูลล่วงหน้า
การล้างข้อมูล
การปรับข้อมูลให้เป็นมาตรฐาน
การแปลงข้อมูล
การใส่ค่าที่ขาดหายไป
การระบุเสียงรบกวน
ลดงานก่อนการประมวลผลให้น้อยที่สุด

ข้อมูลขนาดใหญ่แสดงให้เห็นถึงการเติบโตอย่างมหัศจรรย์ในช่วงทศวรรษที่ผ่านมา และธุรกิจต่างๆ ก็ได้นำไปใช้อย่างแพร่หลาย เนื่องจากตัวเร่งปฏิกิริยาการเติบโตยังคงให้ผลลัพธ์ที่ดี ขนาดของข้อมูลมีขนาดใหญ่ และปริมาณ ความเร็ว และความหลากหลายของข้อมูลเรียกร้องให้มีการประมวลผลที่มีประสิทธิภาพมากขึ้นเพื่อให้พร้อมสำหรับเครื่อง แม้ว่าจะมีหลายวิธีในการดึงข้อมูล เช่น API สาธารณะ บริการดึงข้อมูล เว็บแบบกำหนดเอง แหล่งข้อมูลภายใน เป็นต้น แต่ก็ยังมีความจำเป็นต้องดำเนินการเตรียมข้อมูลล่วงหน้าเพื่อให้ข้อมูลมีความเหมาะสมอย่างยิ่งสำหรับแอปพลิเคชันทางธุรกิจ

การประมวลผลข้อมูลล่วงหน้า

การประมวลผลข้อมูลล่วงหน้าเกี่ยวข้องกับชุดของงานหลักที่ต้องการโครงสร้างพื้นฐานด้านการคำนวณที่กว้างขวาง และในทางกลับกันก็จะทำให้ได้ผลลัพธ์ที่ดีขึ้นจากกลยุทธ์บิ๊กดาต้าของคุณ ยิ่งไปกว่านั้น ความสะอาดของข้อมูลจะเป็นตัวกำหนดความน่าเชื่อถือของการวิเคราะห์ของคุณ และสิ่งนี้ควรได้รับความสำคัญสูงในขณะที่วางแผนกลยุทธ์ข้อมูลของคุณ

เทคนิคการประมวลผลข้อมูลล่วงหน้า

เนื่องจากข้อมูลที่ดึงออกมามักจะไม่สมบูรณ์ด้วยความซ้ำซ้อนและความไม่สมบูรณ์ เทคนิคการประมวลผลข้อมูลล่วงหน้าจึงมีความจำเป็นอย่างยิ่ง ยิ่งชุดข้อมูลมีขนาดใหญ่เท่าใด กลไกที่ซับซ้อนยิ่งขึ้นก็มีความจำเป็นในการประมวลผลก่อนการวิเคราะห์และ การ แสดง ภาพ การประมวลผลล่วงหน้าจะเตรียมข้อมูลและทำให้การวิเคราะห์เป็นไปได้ในขณะที่ปรับปรุงประสิทธิภาพของผลลัพธ์ ต่อไปนี้เป็นขั้นตอนสำคัญบางส่วนที่เกี่ยวข้องกับการประมวลผลข้อมูลล่วงหน้า

การล้างข้อมูล

การล้างข้อมูลมักเป็นขั้นตอนแรกในการประมวลผลข้อมูล และดำเนินการเพื่อลบองค์ประกอบที่ไม่ต้องการออกไป รวมทั้งลดขนาดของชุดข้อมูล ซึ่งจะทำให้อัลกอริทึมวิเคราะห์ได้ง่ายขึ้น การล้างข้อมูลโดยทั่วไปทำได้โดยใช้เทคนิคการลดอินสแตนซ์

การลดอินสแตนซ์ช่วยลดขนาดของชุดข้อมูลโดยไม่กระทบต่อคุณภาพของข้อมูลเชิงลึกที่สามารถดึงออกมาจากข้อมูลได้ โดยจะลบอินสแตนซ์และสร้างอินสแตนซ์ใหม่เพื่อทำให้ชุดข้อมูลกระชับ มีอัลกอริธึมการลดอินสแตนซ์ที่สำคัญสองประการ:

การเลือกอินส แตนซ์: การเลือก อิน สแตนซ์ ใช้เพื่อระบุตัวอย่างที่ดีที่สุดจากชุดข้อมูลขนาดใหญ่ที่มีอินสแตนซ์จำนวนมาก เพื่อดูแลจัดการให้เป็นอินพุตสำหรับระบบวิเคราะห์ มีจุดมุ่งหมายเพื่อเลือกชุดย่อยของข้อมูลที่สามารถทำหน้าที่แทนชุดข้อมูลเดิมในขณะที่บรรลุเป้าหมายได้อย่างสมบูรณ์ นอกจากนี้ยังจะลบอินสแตนซ์และสัญญาณรบกวนที่ซ้ำซ้อน

การสร้างอินสแตนซ์: วิธีการสร้างอินสแตนซ์เกี่ยวข้องกับการแทนที่ข้อมูลต้นฉบับด้วยข้อมูลที่สร้างขึ้นโดยไม่ได้ตั้งใจ เพื่อเติมเต็มขอบเขตในโดเมนของปัญหาโดยไม่มีตัวอย่างที่เป็นตัวแทนในข้อมูลหลัก วิธีการทั่วไปคือการติดฉลากใหม่ตัวอย่างที่ดูเหมือนจะเป็นของป้ายกำกับคลาสที่ไม่ถูกต้อง การสร้างอินสแตนซ์ทำให้ข้อมูลสะอาดและพร้อมสำหรับอัลกอริธึมการวิเคราะห์

เครื่องมือที่คุณสามารถใช้ได้: Drake , DataWrangler , OpenRefine

การปรับข้อมูลให้เป็นมาตรฐาน

การทำให้เป็นมาตรฐานช่วยเพิ่มความสมบูรณ์ของข้อมูลโดยการปรับการกระจาย พูดง่ายๆ ก็คือ มันทำให้แต่ละแถวเป็นบรรทัดฐานให้มีบรรทัดฐานของหน่วย บรรทัดฐานถูกระบุโดยพารามิเตอร์ p ซึ่งหมายถึง p-norm ที่ใช้ บางวิธีที่นิยมคือ:

StandardScaler: ดำเนินการทำให้เป็นมาตรฐานเพื่อให้แต่ละคุณลักษณะเป็นไปตามการแจกแจงแบบปกติ

MinMaxScaler: ใช้พารามิเตอร์สองตัวเพื่อทำให้แต่ละคุณลักษณะเป็นมาตรฐานในช่วงที่กำหนด – ขอบเขตบนและล่าง

ElementwiseProduct: ใช้ตัวคูณสเกลาร์เพื่อปรับขนาดทุกคุณสมบัติ

เครื่องมือที่คุณสามารถใช้ได้: เครื่องวิเคราะห์ตาราง , BDNA

การแปลงข้อมูล

หากชุดข้อมูลมีจำนวนอินสแตนซ์หรือตัวแปรทำนายมากเกินไป ปัญหามิติจะเกิดขึ้น นี่เป็นปัญหาสำคัญที่จะขัดขวางการทำงานของอัลกอริธึมการทำเหมืองข้อมูลส่วนใหญ่และเพิ่มค่าใช้จ่ายในการประมวลผล มีสองวิธีที่นิยมในการแปลงข้อมูลโดยการลดขนาด - การเลือกคุณลักษณะและการแปลงพื้นที่

การเลือกคุณสมบัติ: เป็นกระบวนการในการจำแนกและกำจัดข้อมูลที่ไม่จำเป็นให้มากที่สุด FS สามารถใช้เพื่อลดความน่าจะเป็นของความสัมพันธ์โดยไม่ได้ตั้งใจในอัลกอริธึมการเรียนรู้ที่อาจลดความสามารถในการทำให้เป็นนัยทั่วไปได้ FS ยังลดพื้นที่การค้นหาที่ถูกครอบครองโดยคุณสมบัติต่างๆ ซึ่งจะทำให้กระบวนการเรียนรู้และการขุดเร็วขึ้น เป้าหมายสูงสุดคือการได้มาซึ่งส่วนย่อยของคุณลักษณะจากปัญหาเดิมที่อธิบายได้ดี

การแปลงอวกาศ: การ แปลงอวกาศทำงานคล้ายกับการเลือกคุณสมบัติ อย่างไรก็ตาม แทนที่จะเลือกคุณสมบัติที่มีคุณค่า เทคนิคการแปลงพื้นที่จะสร้างชุดคุณสมบัติใหม่โดยการรวมต้นฉบับเข้าด้วยกัน การผสมผสานแบบนี้สามารถทำได้เพื่อให้เป็นไปตามเกณฑ์บางอย่าง เทคนิคการแปลงอวกาศมีจุดมุ่งหมายเพื่อใช้ประโยชน์จากความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่างตัวแปร

เครื่องมือที่คุณสามารถใช้ได้: Talend , Pentaho

การใส่ค่าที่ขาดหายไป

สมมติฐานทั่วไปประการหนึ่งเกี่ยวกับข้อมูลขนาดใหญ่คือชุดข้อมูลเสร็จสมบูรณ์ อันที่จริง ชุดข้อมูลส่วนใหญ่มีค่าที่ขาดหายไปซึ่งมักถูกมองข้าม ค่าที่หายไปคือ Datum ที่ไม่ได้แยกหรือจัดเก็บเนื่องจากข้อจำกัดด้านงบประมาณ กระบวนการสุ่มตัวอย่างที่ผิดพลาด หรือข้อจำกัดอื่นๆ ในกระบวนการดึงข้อมูล ค่าที่หายไปไม่ใช่สิ่งที่ต้องละเลยเพราะอาจทำให้ผลลัพธ์ของคุณบิดเบือนได้

การแก้ไขปัญหาค่าที่หายไปเป็นสิ่งที่ท้าทาย การจัดการโดยปราศจากความระมัดระวังสูงสุดอาจนำไปสู่ความยุ่งยากในการจัดการข้อมูลและข้อสรุปที่ผิดพลาดได้อย่างง่ายดาย

มีแนวทางที่ค่อนข้างมีประสิทธิภาพในการแก้ไขปัญหาค่าที่หายไป การละทิ้งอินสแตนซ์ที่อาจมีค่าที่ขาดหายไปเป็นกรณีทั่วไปแต่ไม่ได้ผลมากนัก เนื่องจากอาจนำไปสู่อคติในการวิเคราะห์ทางสถิติ นอกเหนือจากนี้ การละทิ้งข้อมูลที่สำคัญไม่ใช่ความคิดที่ดี วิธีที่ดีกว่าและมีประสิทธิภาพมากขึ้นคือการใช้ขั้นตอนความน่าจะเป็นสูงสุดเพื่อจำลองฟังก์ชันความน่าจะเป็นของข้อมูล ในขณะเดียวกันก็พิจารณาถึงปัจจัยที่อาจทำให้เกิดการสูญหาย เทคนิคแมชชีนเลิร์นนิงเป็นวิธีที่มีประสิทธิภาพมากที่สุดสำหรับปัญหาค่าที่หายไป

การระบุเสียงรบกวน

การรวบรวมข้อมูลไม่ได้สมบูรณ์แบบเสมอไป แต่อัลกอริธึมการขุดข้อมูลมักจะถือว่าเป็นเช่นนั้น ข้อมูลที่มีสัญญาณรบกวนอาจส่งผลกระทบอย่างจริงจังต่อคุณภาพของผลลัพธ์ การแก้ไขปัญหานี้เป็นสิ่งสำคัญ เสียงรบกวนอาจส่งผลต่อคุณสมบัติอินพุต เอาต์พุต หรือทั้งสองอย่างในกรณีส่วนใหญ่ เสียงที่พบในอินพุตเรียกว่าเสียงแอตทริบิวต์ในขณะที่เสียงเล็ดลอดเข้าไปในเอาต์พุตจะเรียกว่าเสียงรบกวนระดับ หากมีสัญญาณรบกวนในเอาต์พุต แสดงว่าปัญหาร้ายแรงมากและอคติในผลลัพธ์จะสูงมาก

มีสองวิธีที่ได้รับความนิยมในการกำจัดสัญญาณรบกวนออกจากชุดข้อมูล หากเสียงรบกวนส่งผลต่อการติดฉลากของอินสแตนซ์ จะใช้วิธีการขัดข้อมูลเพื่อกำจัดสัญญาณรบกวน อีกวิธีหนึ่งเกี่ยวข้องกับการใช้ตัวกรองสัญญาณรบกวนที่สามารถระบุและลบอินสแตนซ์ที่มีสัญญาณรบกวนออกจากข้อมูล และไม่จำเป็นต้องแก้ไขเทคนิคการทำเหมืองข้อมูล

ลดงานก่อนการประมวลผลให้น้อยที่สุด

การเตรียมข้อมูลสำหรับอัลกอริธึมการวิเคราะห์ข้อมูลของคุณอาจเกี่ยวข้องกับกระบวนการอีกมากมาย ขึ้นอยู่กับความต้องการเฉพาะของแอปพลิเคชัน อย่างไรก็ตาม ในกรณีส่วนใหญ่ คุณสามารถหลีกเลี่ยงกระบวนการพื้นฐาน เช่น การล้างข้อมูล การขจัดข้อมูลซ้ำซ้อน และการทำให้เป็นมาตรฐานได้ หากคุณเลือกแหล่งข้อมูลที่ถูกต้องสำหรับการดึงข้อมูล ไม่น่าเป็นไปได้อย่างยิ่งที่แหล่งข้อมูลดิบสามารถให้ข้อมูลที่ชัดเจนแก่คุณได้ เท่าที่เกี่ยวข้องกับการแยกข้อมูล เว็บ บริการจัดการเว็บขูดเช่น PromptCloud สามารถให้ ข้อมูลที่สะอาดและพร้อมใช้งาน ที่พร้อมจะเสียบเข้ากับระบบวิเคราะห์ของคุณ เนื่องจากข้อมูลที่ให้โดยโซลูชัน DaaS ของเรานั้นสะอาด คุณจึงสามารถประหยัดความพยายามอย่างเต็มที่สำหรับงานประมวลผลข้อมูลเฉพาะแอปพลิเคชันของคุณ