วิธีที่แพลตฟอร์มการค้นพบเนื้อหาสามารถต่อสู้กับข่าวปลอมผ่านการขูดเว็บและ AI

เผยแพร่แล้ว: 2017-06-20

สารบัญ แสดง

ปัญหาใหญ่แค่ไหน?

AI ช่วยได้ไหม?

บทบาทของการขูดเว็บ

การเพิ่มเลเยอร์ด้วยตนเอง

ยุคสมัยที่ผู้คนต้องพึ่งพาข่าวจากสื่อดั้งเดิม ตอนนี้พวกเขาถูกโจมตีด้วยข่าวจากสื่อออนไลน์จำนวนมากบนอินเทอร์เน็ต มากจนเป็นข้อมูลล้นเกินสำหรับคนทั่วไปที่มีเวลาจำกัดในการติดตามข่าวสารและเรื่องราวต่างๆ ปัจจุบันโซเชียลมีเดียทำหน้าที่เป็นสื่อกลางสำหรับข่าวสารและยังทำให้ประสบการณ์ของผู้ใช้ดีขึ้นด้วยการปรับแต่งฟีดให้เหมาะกับนิสัยการอ่านของพวกเขา อย่างไรก็ตาม การแพร่กระจายของโซเชียลมีเดียและการเผยแพร่ทางเว็บอย่างมหาศาลนี้มีข้อเสียในตัวของมันเอง

การขูดเว็บข้อมูลข่าวปลอม

ความพร้อมใช้งานอย่างแพร่หลายของระบบการจัดการเนื้อหาที่ใช้งานง่าย เช่น WordPress ทำให้ทุกคนเป็นผู้เผยแพร่เว็บได้ง่ายขึ้น ซึ่งหมายความว่าทุกคนสามารถเขียนและเผยแพร่อะไรก็ได้โดยไม่ต้องถามคำถาม เป็นความจริงที่สิ่งนี้ได้เปิดโอกาสมากมายสำหรับเครือข่ายการเผยแพร่เนื้อหาและบล็อกเกอร์ อย่างไรก็ตาม เช่นเดียวกับกรณีของสิ่งที่ทรงพลังทั้งหมด ความพร้อมใช้งานของเทคโนโลยีการเผยแพร่กำลังถูกใช้ในทางที่ผิดโดยกลุ่มใหญ่เพื่อเผยแพร่ข่าวปลอมด้วยแรงจูงใจที่น่าสะอิดสะเอียน ข่าวปลอมเป็นปัญหาที่ใหญ่กว่าที่ปรากฏบนพื้นผิว มีศักยภาพที่จะสร้างความหายนะในสังคมและแม้กระทั่งส่งผลกระทบต่อธุรกิจและสถานประกอบการอื่น ๆ ในเชิงลบ

ปัญหาใหญ่แค่ไหน?

กล่าวกันว่าการแพร่กระจายของข่าวปลอมทำให้คะแนนเห็นชอบของโดนัลด์ ทรัมป์ ในการเลือกตั้งประธานาธิบดีสหรัฐฯ ครั้งล่าสุด โดยไม่คำนึงถึงความจริงเกี่ยวกับข้อกล่าวหา ข่าวปลอมสามารถส่งผลกระทบต่อความคิดเห็นของมวลชนในลักษณะที่ไม่ดีต่อสุขภาพอย่างไม่ต้องสงสัย การแพร่กระจายของข่าวปลอมสามารถสร้างความไม่ไว้วางใจในสังคมได้ ซึ่งเป็นยาพิษที่ช้าซึ่งสามารถทำหน้าที่เป็นต้นเหตุของความชั่วร้ายทางสังคมอื่นๆ อีกมากมาย ตัวอย่างเช่น ข่าวปลอมอาจส่งเสริมความรุนแรงในชุมชนและสร้างบรรยากาศที่ไม่สงบในชีวิตของผู้คน

มีบางหัวข้อที่สามารถกลายเป็นข่าวปลอมได้อย่างง่ายดาย การใช้อำนาจในทางที่ผิด ความกลัวความแปลกแยก คำถามเกี่ยวกับสงครามและสันติภาพ ฯลฯ สามารถแพร่กระจายได้ง่ายเหมือนไฟป่า สร้างความเสียหายที่ไม่สามารถแก้ไขได้

มีบางกรณีของธุรกิจที่ดำเนินแคมเปญสเมียร์เพื่อโค่นล้มคู่แข่งด้วยการเผยแพร่ข่าวลือเท็จเกี่ยวกับบริษัทโดยมีเป้าหมายเพื่อให้แน่ใจว่าบริษัทที่ได้รับผลกระทบจะสูญเสียลูกค้า

เมื่อไม่นานมานี้ ผู้ลี้ภัยชาวซีเรีย ฟ้อง Facebook หลังจากข่าวปลอมที่เชื่อมโยงเขากับการก่อการร้ายแพร่กระจายบนโซเชียลเน็ตเวิร์ก ภายหลัง Facebook ลบโพสต์ แต่ความเสียหายได้ทำไปแล้ว

แพลตฟอร์มการค้นหาเนื้อหาและไซต์โซเชียลมีเดียอาจตกอยู่ในอันตรายจากการถูกฟ้องร้อง หากปัญหาดังกล่าวยังคงเกิดขึ้น สิ่งนี้จะส่งผลต่อชื่อเสียงของแพลตฟอร์มการค้นพบเนื้อหาที่มีการเผยแพร่ข่าวดังกล่าว ส่งผลให้การมีส่วนร่วมของผู้ใช้ลดลง จากผลกระทบทั้งหมดนี้ ข่าวปลอมเป็นปัญหาใหญ่ที่ต้องแก้ไข

AI ช่วยได้ไหม?

การตรวจจับและต่อสู้กับข่าวปลอมเป็นงานที่ท้าทาย ไม่ต้องสงสัยเลย แน่นอนว่าไม่ใช่วิธีแก้ปัญหาที่ใช้งานได้จริงในการว่าจ้างมนุษย์ให้อ่านทุกโพสต์ที่แชร์บนแพลตฟอร์มการค้นพบเนื้อหาเพื่อประเมินความถูกต้อง น่ายินดีที่เราไม่ได้อยู่ในยุคที่มนุษย์ต้องทำงานหนักอีกต่อไปแล้ว

ปัญญาประดิษฐ์มาไกลจากแนวคิดนิยายวิทยาศาสตร์ที่เคยเป็นมา ตอนนี้เรามีอัลกอริธึมการรู้จำเสียง ภาพ และรูปแบบอันทรงพลัง และพลังในการคำนวณเพื่อใช้งาน

การต่อสู้กับข่าวปลอมโดยใช้ปัญญาประดิษฐ์และการเรียนรู้ด้วยเครื่องจะเป็นวิธีที่ควรพิจารณาในเชิงลึกของปัญหานี้ เพื่อให้เครื่องสามารถตรวจจับข่าวปลอมได้ ก่อนอื่นเราต้องระบุลักษณะทั่วไปของโพสต์ข่าวปลอม เรามาดูกันว่าสิ่งนี้สามารถทำได้อย่างไร

ชื่อเสียงของเว็บไซต์

ชื่อเสียงของเว็บไซต์เป็นหนึ่งในตัวชี้หลักที่สามารถใช้ในการประเมินความถูกต้องของบทความที่เผยแพร่ Google ยักษ์ใหญ่ด้านเสิร์ชเอ็นจิ้นทำได้ดีมากในการจัดอันดับหน้าเว็บใน SERP ของตนโดยคำนึงถึงชื่อเสียงของพวกเขา แม้ว่าเราจะไม่สามารถใช้อัลกอริธึมที่เป็นกรรมสิทธิ์ของ Google เพื่อตรวจจับข่าวปลอม แต่เราสามารถใช้สัญญาณการจัดอันดับของเว็บไซต์อื่นๆ เช่น DA, อันดับของ Alexa และอายุโดเมนเพื่อจัดอันดับหน้าเว็บในระบบตรวจจับข่าวปลอมของเราเอง ไซต์ที่เก่ากว่าที่มีอันดับของ Alexa สูงมักจะเป็นแหล่งที่เชื่อถือได้มากกว่า ในขณะที่ไซต์ที่กลับกันอาจบ่งบอกถึงเว็บไซต์ที่ตื้น

การประมวลผลภาษาธรรมชาติ

การประมวลผลภาษาธรรมชาติในคำจำกัดความที่ง่ายที่สุดคือความสามารถของเครื่องที่จะเข้าใจภาษามนุษย์อย่างแท้จริงและประมวลผลในลักษณะเดียวกับที่มนุษย์ทำ เอ็นจิ้น NLP ถูกสร้างขึ้นโดยการป้อนอัลกอริธึมการเรียนรู้ของเครื่องด้วยตัวข้อความ เพื่อตรวจจับข่าวปลอมอย่างแท้จริง เครื่องจักรต้องสามารถตีความภาษามนุษย์ได้เหมือนกับที่เราทำ เมื่อพูดถึงการตรวจจับข่าวปลอม เอ็นจิ้น NLP จะต้องป้อนข้อมูลข้อความจำนวนมากที่เป็นของจริงและของปลอม จากที่นั่น รหัสข่าวปลอมสามารถถอดรหัสได้ ซึ่งจะทำให้เครื่องสามารถตรวจจับข่าวปลอมได้อย่างแม่นยำ ต่อไปนี้คือสองสิ่งที่อัลกอริทึมสามารถใช้เพื่อระบุโพสต์ข่าวปลอม

ก) ความ สอดคล้องภายใน

บทความปลอมหรือทำให้เข้าใจผิดมักมีความไม่สอดคล้องกันอย่างมากระหว่างส่วนต่างๆ ของโพสต์เอง พูดชื่อเรื่อง เนื้อหา ตัวอย่าง เป็นต้น ระบบ NLP สามารถใช้ในการสแกนและประเมินว่าข้อเท็จจริงที่แสดงในบทความมีความสอดคล้องกันตลอดหรือขัดแย้งกัน

ข) มองหาคำที่โลดโผน

บทความโลดโผนมากเกินไปมักจะเป็นบทความปลอม ระบบประมวลผลภาษาธรรมชาติสามารถใช้เพื่อกำหนดแง่มุมที่เร้าใจของบทความได้จากการใช้คำที่กระตุ้นความรู้สึกในบทความข่าว

บทบาทของการขูดเว็บ

เอ็นจิ้นปัญญาประดิษฐ์ที่สามารถตรวจจับข่าวปลอมนั้นเห็นได้ชัดว่าต้องการข้อมูลจำนวนมากซึ่งจะนำไปฝึกอัลกอริธึมการเรียนรู้ของเครื่อง การดึงข้อมูลจากเว็บไม่ควรเป็นปัญหาเนื่องจากมีเทคโนโลยีขั้นสูงที่สามารถใช้สำหรับการขูดเว็บอย่างมีประสิทธิภาพ อย่างไรก็ตาม เนื่องจากการตรวจจับข่าวปลอมเป็นสิ่งที่ท้าทายในตัวเอง ขอแนะนำให้ใช้โซลูชัน data as a service (DaaS) เช่น PromptCloud เพื่อรับข้อมูลจากสื่อต่างๆ (ทั้งของแท้และของปลอม) เนื่องจากเรารับผิดชอบตั้งแต่ต้นจนจบของกระบวนการดึงข้อมูล คุณจึงสามารถข้ามความซับซ้อนที่เกี่ยวข้องกับการขูดเว็บและรับข้อมูลที่พร้อมใช้งานด้วยต้นทุนที่ต่ำลงอย่างมากเมื่อเทียบกับการคัดลอกภายใน

การเพิ่มเลเยอร์ด้วยตนเอง

เนื่องจากเครื่องระบุตัวชี้นำและตั้งค่าสถานะโพสต์ที่คิดว่าเป็นของปลอม จึงสามารถใช้เลเยอร์มนุษย์ขนาดเล็กเพื่อตรวจสอบสิ่งที่ค้นพบได้ นี่จะเป็นเรื่องง่ายในขณะนี้ที่การยกของหนักทั้งหมดได้เสร็จสิ้นลงโดยระบบ AI แล้ว เมื่อใช้เลเยอร์แบบแมนนวล ระบบจะมีประสิทธิภาพเพียงพอที่จะตรวจจับข่าวปลอมด้วยความแม่นยำสูงมาก สำหรับแพลตฟอร์มการค้นพบเนื้อหาและเว็บไซต์โซเชียลมีเดีย ความสามารถในการกำจัดข่าวปลอมจะพิสูจน์ให้เห็นถึงความจำเป็นในการทำให้ผู้ใช้มีส่วนร่วมตลอดเวลาและผู้ใช้สูญเสียความไว้วางใจในข่าวที่แพร่กระจายบนแพลตฟอร์มดังกล่าว ศักยภาพของ AI และการแยกข้อมูลเว็บในเรื่องนี้มีมากมายและควรใช้เพื่อต่อสู้กับความชั่วร้ายนี้โดยเร็วที่สุด