การเปรียบเทียบโครงสร้าง CNN สำหรับการจำแนกสำเนียงไทย: VFNet กับโครงสร้าง CNN เชิงอนุกรม
Main Article Content
บทคัดย่อ
งานวิจัยนี้นำเสนอการเปรียบเทียบโครงสร้างของโมเดลโครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) สำหรับการจำแนกสำเนียงภาษาไทย โดยเปรียบเทียบระหว่างสถาปัตยกรรมแบบขนานที่ใช้ตัวกรองหลายขนาดพร้อมกันตามแนวทางของ VFNet: A Convolutional Architecture for Accent Classification [1] กับสถาปัตยกรรมแบบอนุกรมที่เรียงตัวกรองขนาดต่างกันในแต่ละเลเยอร์ (เช่น 3→5→7) อินพุตที่ใช้คือคุณลักษณะ MFCC ที่สกัดจากชุดข้อมูลเสียง Thai Dialect Corpus [2] ผลการทดลองแสดงให้เห็นว่า โมเดลทั้งสองแบบให้ค่า Accuracy และ F1-score ใกล้เคียงกัน อย่างไรก็ตาม เมื่อพิจารณาจำนวนพารามิเตอร์และค่า Cross Entropy Loss พบว่าโครงสร้างแบบอนุกรมบางรูปแบบ เช่น 5→5→5 และ 7→5→3 ให้ผลลัพธ์ที่ดีกว่าทั้งในด้านประสิทธิภาพและความประหยัดทรัพยากร ทั้งนี้ การวิเคราะห์ขนาด Receptive Field (RF) แบบ 2 มิติ ยังช่วยอธิบายได้ว่า โครงสร้างที่มี RF ขนาดกลางจะให้ผลการจำแนกที่ดีกว่าโครงสร้างที่มี RF เล็กหรือใหญ่เกินไป สะท้อนให้เห็นถึงข้อได้เปรียบของการออกแบบสถาปัตยกรรมโมเดลอย่างเหมาะสม สำหรับการใช้งานจริงในสภาพแวดล้อมที่มีข้อจำกัดด้านหน่วยประมวลผลและหน่วยความจำ
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Journal of TCI is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) licence, unless otherwise stated. Please read our Policies page for more information...
เอกสารอ้างอิง
A. Ahmed, P. Tangri, A. Panda, D. Ramani, and S. Karmakar, “VFNet: A Convolutional Architecture for Accent Classification,” in Proc. IEEE 16th India Council Int. Conf. (INDICON), Nov. 1‑4 2019, pp. 1–4.
A. Suwanbandit, B. Naowarat, O. Sangpetch, and E. Chuangsuwanich, “Thai Dialect Corpus and Transfer‑based Curriculum Learning for Dialect ASR,” in Proc. Interspeech 2023, Dublin, Ireland, Aug. 20–24 2023, pp. 4069–4073, doi: 10.21437/Interspeech.2023‑1828.
K. J. Piczak, “Environmental sound classification with convolutional neural networks,” in 2015 IEEE International Workshop on Machine Learning for Signal Processing (MLSP), 2015, pp. 1-6.
Z. Ren, Q. Kong, K. Qian, M. D. Plumbley, and B. W. Schuller, "Attention-based convolutional neural networks for acoustic scene classification," in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop (DCASE2018), 2018, pp. 39-43.
I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. Cambridge, MA: MIT Press, 2016.
Stanford CS231n, “Convolutional Neural Networks for Visual Recognition,” [Online]. Available: http://cs231n.stanford.edu [Accessed: 19‑Jun‑2025].