การศึกษาทดลองเกี่ยวกับการสร้างลายเซ็นโดยใช้เครือข่ายขัดแย้งกำเนิด
คำสำคัญ:
การสร้างลายเซ็น, การเรียนรู้เชิงลึก, เครือข่ายขัดแย้งกำเนิดบทคัดย่อ
ความเป็นมาและวัตถุประสงค์ : ลายเซ็นหรือลายมือชื่อมีความสำคัญอย่างมาก เนื่องจากใช้เป็นสัญลักษณ์ระบุตัวตนของบุคคลได้ โดยทั่วไป การออกแบบลายเซ็นมักอาศัยคำแนะนำจากผู้เชี่ยวชาญหรือนักออกแบบที่มีความสามารถเฉพาะด้าน ขณะที่ในปัจจุบัน มีการนำเทคโนโลยีปัญญาประดิษฐ์มาใช้ในงานตรวจจับลายเซ็นและการสร้างลายมือเขียน งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาการสร้างลายเซ็นจากชื่อภาษาอังกฤษโดยใช้เครือข่ายขัดแย้งกำเนิด (Generative Adversarial Network: GAN)
วิธีดำเนินการวิจัย : งานวิจัยนี้ใช้ชุดข้อมูล IAM Handwriting โดยข้อมูลภาพลายมือเขียนถูกนำเข้าสู่กระบวนการเรียนรู้เชิงลึกโดยใช้ ScrabbleGAN จากนั้น นำลายเซ็นที่สร้างได้มาเปรียบเทียบกับผลลัพธ์จากตัวแบบที่ใช้ Long Short-Term Memory (LSTM) และ Transformer การประเมินผลดำเนินการผ่านการเปรียบเทียบโดยมนุษย์เพื่อพิจารณาความสมจริงของลายเซ็นที่ได้จากแต่ละตัวแบบ
ผลการวิจัย : ผลการทดลองแสดงให้เห็นว่า ScrabbleGAN สามารถสร้างลายเซ็นที่มีความสมจริงในระดับหนึ่ง แต่มีปัญหาในการกำจัดพื้นหลัง ซึ่งส่งผลต่อคุณภาพของลายเซ็นที่ได้ โดยเมื่อนำไปเปรียบเทียบกับตัวแบบ LSTM และ Transformer พบว่า ตัวแบบทั้งสองมีประสิทธิภาพในการลบพื้นหลังได้ดีกว่า นอกจากนี้ ความสมจริงของลายเซ็นที่สร้างโดย ScrabbleGAN ยังมีคุณภาพด้อยกว่าลายเซ็นที่สร้างจาก LSTM
สรุป : การใช้ ScrabbleGAN ในการสร้างลายเซ็นให้ผลลัพธ์ที่มีความสมจริงระดับหนึ่ง แต่ยังมีข้อจำกัดในด้านการกำจัดพื้นหลังและความถูกต้องของรูปแบบลายเซ็น เมื่อเปรียบเทียบกับเทคนิค LSTM และ Transformer ผลการวิจัยนี้ชี้ให้เห็นถึงความเป็นไปได้ของการใช้เครือข่ายขัดแย้งกำเนิดในการสร้างลายเซ็นจากชื่อภาษาอังกฤษ แต่ยังต้องปรับปรุงเพิ่มเติมเพื่อให้ได้ผลลัพธ์ที่น่าพึงพอใจมากขึ้น
การนำไปใช้ประโยชน์ในเชิงปฏิบัติ : ผลลัพธ์จากงานวิจัยนี้สามารถนำไปประยุกต์ใช้ในการพัฒนาระบบสร้างลายเซ็นอัตโนมัติ ซึ่งมีประโยชน์ในงานด้านการลงนามเอกสารอิเล็กทรอนิกส์ การออกแบบลายเซ็นเฉพาะบุคคล และการพัฒนาแอปพลิเคชันที่เกี่ยวข้องกับการสร้างลายมือเขียนด้วยปัญญาประดิษฐ์ นอกจากนี้ ผลการศึกษายังสามารถใช้เป็นแนวทางในการพัฒนาโมเดลสร้างลายเซ็นที่มีคุณภาพสูงขึ้นในอนาคต
References
Diaz, M., Ferrer, M.A., Impedovo, D., Malik, MI., Pirlo, G. and Plamondon, R. 2019. A perspective analysis of handwritten signature technology. ACM Computing Surveys, 51, 1-39. https://doi.org/10.1145/3274658
Fogel, S., Averbuch-Elor, H., Cohen, S., Mazor, S. and Litman, R. 2020. ScrabbleGAN: Semi-supervised varying length handwritten text generation. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4324–4333. https://doi.org/10.1109/CVPR42600.2020.00438
Graves, A. 2014. Generating sequences with recurrent neural networks. arXiv:1308.0850, 43. https://doi.org/10.48550/arXiv.1308.0850
Bhunia, K., Khan, S., Cholakkal, H., Anwer, R.M., Khan, F.S. and Shah, M. 2021. Handwriting transformers. 2021 IEEE/CVF International Conference on Computer Vision, 1066-1074. https://doi.org/10.1109/ICCV48922.2021.00112
Luhman, T. and Luhman, E. 2020. Diffusion models for handwriting generation. arXiv:2011.06704, 17. https://doi.org/10.48550/arXiv.2011.06704
Tan, B.R., Yin, F., Wu, Y.C. and Liu, C.L. 2017. Chinese handwriting generation by neural network based style transformation. Lecture Notes in Computer Science, 10666, 408–419. https://doi.org/10.1007/978-3-319-71607-7_36.
Mustapha, I.B., Hasan, S., Nabus, H. and Shamsuddin, S.M. 2022. Conditional deep convolutional generative adversarial networks for isolated handwritten Arabic character generation. Arabian Journal for Science and Engineering, 47, 1309-1320. https://doi.org/10.1007/s13369-021-05796-0
Ji, B. and Chen, T. 2020. Generative adversarial network for handwritten text. arXiv:1907.11845, 12. https://doi.org/10.48550/arXiv.1907.11845
Marti, U.V. and Bunke, H. 2002. The IAM-database: An English sentence database for offline handwriting recognition. International Journal on Document Analysis and Recognition, 5, 39-46. https://doi.org/10.1007/s100320200071
Brock, A., Donahue, J. and Simonyan, K. 2019. Large scale GAN training for high fidelity natural image synthesis. International Conference on Learning Representations, 6-9 May 2019, New Orleans, LA, USA, 1-35.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN., Kaiser, L. and Polosukhin, I. 2017. Attention is all you need. Conference on Neural Information Processing Systems, 4-9 December 2017, Long Beach, CA, USA, 1-11.
Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B. 2022. High-resolution image synthesis with latent diffusion models. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 18-24 June 2022, New Orleans, Louisiana, 10674-10685. https://doi.org/10.1109/CVPR52688.2022.01042.
Podell, D., English, Z., Lacey, K., Blattmann, A., Dockhorn, T., Müller, J., Penna, J. and Rombach, R. 2024. SDXL: Improving latent diffusion models for high-resolution image synthesis. International Conference on Learning Representations, 7-11 May 2024, Vienna, Austria, 13.
Zhang, J., Huang, J., Jin, S. and Lu, S. 2024. Vision-language models for vision tasks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46, 5625-5644. https://doi.org/10.1109/TPAMI.2024.3369699

Downloads
เผยแพร่แล้ว
How to Cite
ฉบับ
บท
License
Copyright (c) 2025 มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
เนื้อหาของบทความที่ตีพิมพ์ในวารสาร Science and Engineering Connect ในทุกรูปแบบ รวมถึงข้อความ สมการ สูตร ตาราง ภาพ ตลอดจนภาพประกอบในรูปแบบอื่นใด เป็นลิขสิทธิ์ของมหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี การนำเนื้อหา ไม่ว่าจะในรูปแบบใด ของบทความไปใช้ประโยชน์ในเชิงพาณิชย์ ต้องได้รับอนุญาตจากบรรณาธิการวารสารอย่างเป็นลายลักษณ์อักษรก่อนเท่านั้น