การตรวจสอบข่าวปลอมภาษาไทยด้วยเทคนิคการประมวลผลภาษาธรรมชาติ

ผู้แต่ง

  • ธัชพิชญ์ ชำนาญกิจ สาขาวิชาวิทยาการคอมพิวเตอร์และระบบสารสนเทศ คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์ กรุงเทพฯ ประเทศไทย
  • ฐิติรัตน์ ศิริบวรรัตนกุล คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์ กรุงเทพฯ ประเทศไทย

คำสำคัญ:

ข่าวปลอม, การตรวจจับข่าวปลอม, การประมวลผลภาษาธรรมชาติ

บทคัดย่อ

งานวิจัยนี้มีจุดประสงค์เพื่อพัฒนาระบบต้นแบบที่เข้าถึงง่าย และสามารถตรวจสอบได้อย่างรวดเร็ว ว่าข้อความหรือบทความภาษาไทยใด ๆ นั้นเป็นข่าวปลอมหรือบทความปลอมหรือไม่ ในการนี้ ผู้วิจัยทำการสร้างฐานข้อมูล Google BigQuery เพื่อเก็บข่าวปลอมภาษาไทยที่รวบรวมมาจากเว็บไซต์และสื่อออนไลน์ ซึ่งเป็นแหล่งรวมการแจ้งเตือนข่าวปลอมในประเทศไทยเอาไว้ จากนั้น จึงใช้เทคนิคการประมวลผลภาษาธรรมชาติในการตัดแบ่งคำในหัวข้อข่าว ตัดประโยค และพิจารณาแยกชนิดของคำ เพื่อสกัดเฉพาะคุณลักษณะสำคัญของข่าวปลอมนั้น ๆ ออกมาเก็บไว้ ในส่วนของการใช้งาน สำหรับผู้ใช้ทั่วไปนั้น อินพุตข่าวภาษาไทยจากผู้ใช้จะถูกนำไปผ่านกระบวนการประมวลผลภาษาธรรมชาติ และผลของการสกัดข้อมูลที่ได้จะถูกนำไปเปรียบเทียบกับข้อมูลในฐานข้อมูลข่าวปลอม โดยระบบจะแสดงผลลัพธ์ข้อมูลในฐานข้อมูล 3 อันดับแรกที่คล้ายกับข้อความอินพุตข่าวจากผู้ใช้มากที่สุด จากผลการทดลองในข้อมูลชุดทดสอบ พบว่า ในจำนวนอินพุตที่เป็นข่าวจริงและข่าวปลอมรวมทั้งหมด 120 ข่าว ระบบต้นแบบสามารถระบุอินพุตที่เป็นข่าวปลอมได้ถูกต้องด้วย precision = 91.84% และ recall = 75.00%

References

Vosoughi, S., Roy, D. and Aral, S., 2018, “The Spread of True and False News Online,” Science, 359 (6380), pp. 1146-1151. https://doi.org/10.1126/science.aap9559

Chulrod, P. and Nontakhamchan, P., 2020, “Prediction Model of the Fake News from Online Social Media with Data Mining,” College of Asia Journal, 10 (4), pp. 121-128. (In Thai)

Srivastava, A., 2020,), “Real Time Fake News Detection Using Machine Learning and NLP,” International Research Journal of Engineering and Technology (IRJET), 7 (6), pp. 3679-3683.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, T. and Polosukhin, I., 2017, “Attention is All You Need,” The 31st International Conference on Neural Information Processing Systems (NIPS’17), Long Beach, California, pp. 6000-6010.

Thota, A., Tilak, P., Ahluwalia, S. and Lohia, N., 2018, “Fake News Detection: A Deep Learning Approach,” SMU Data Science Review, 1 (3), Article No. 10.

Phatthiyaphaibun, W., Chaovavanich, K., Polpanumas, C., Suriyawongkul, A., Lowphansirikul, L. and Chormai, P., 2016, “PyThaiNLP: Thai Natural Language Processing in Python,” Zenodo. http://doi.org/10.5281/zenodo.3519354

Downloads

เผยแพร่แล้ว

2022-06-30

How to Cite

ชำนาญกิจ ธ., & ศิริบวรรัตนกุล ฐ. (2022). การตรวจสอบข่าวปลอมภาษาไทยด้วยเทคนิคการประมวลผลภาษาธรรมชาติ. Science and Engineering Connect, 45(2), 275–287. สืบค้น จาก https://ph04.tci-thaijo.org/index.php/SEC/article/view/10286