Please use this identifier to cite or link to this item: http://cmuir.cmu.ac.th/jspui/handle/6653943832/80098
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorVarin Chouvatut-
dc.contributor.authorHuang, Jiayuen_US
dc.date.accessioned2024-10-12T08:57:48Z-
dc.date.available2024-10-12T08:57:48Z-
dc.date.issued2024-09-04-
dc.identifier.urihttp://cmuir.cmu.ac.th/jspui/handle/6653943832/80098-
dc.description.abstractAs society continues to develop, the number of deaf and hard-of-hearing individuals has been increasing. As a primary mode of communication, sign language plays a vital role in facilitating daily interactions for these individuals, making sign language recognition increasingly important. In this context, artificial intelligence and deep learning have introduced new opportunities and challenges in the field of sign language recognition. Building on existing research, this thesis provides a summary and analysis of commonly used recognition algorithms and neural network models, focusing on isolated words. This thesis identifies and analyzes the issues and challenges associated with sign language video recognition. Given that sign language videos involve vast amounts of data, their processing is resource-intensive. To address this, this thesis proposes a fusion of Residual Networks (ResNet) and Long Short-Term Memory networks (LSTM) tailored for practical considerations. This approach includes detailed preprocessing of sign language videos, model pre-training, feature extraction, and classification, demonstrating strong recognition accuracy on the Chinese Sign Language and the Argentine Sign Language (LSA64) datasets. By recognizing the spatiotemporal characteristics of video data, this thesis further proposes a fusion of R(2+1)D and LSTM networks. This thesis also discusses the advantages and disadvantages of the R(2+1)D networks. It details the feature extraction process for sign language videos, with LSTM networks playing a key role in extracting long-sequence features. The experiments on the CSL and the LSA64 datasets reveal high recognition accuracies up to 96.21% and 99.69%, respectively.en_US
dc.language.isoenen_US
dc.publisherChiang Mai : Graduate School, Chiang Mai Universityen_US
dc.titleMotion recognition for Chinese isolated word sign language based on deep learning methoden_US
dc.title.alternativeการรู้จำการเคลื่อนไหวสำหรับภาษามือแบบคำเอกเทศภาษาจีนบนพื้นฐานของวิธีการเรียนรู้เชิงลึกen_US
dc.typeThesis
thailis.controlvocab.lcshSign language -- Data processing-
thailis.controlvocab.lcshSign language-
thailis.controlvocab.lcshBody language-
thailis.controlvocab.lcshNonverbal communication-
thailis.controlvocab.lcshOptical pattern recognition-
thailis.controlvocab.lcshPattern perception-
thailis.controlvocab.lcshHuman information processing-
thesis.degreemasteren_US
thesis.description.thaiAbstractขณะที่สังคมได้พัฒนาอย่างต่อเนื่องจำนวนของคนหูหนวกและผู้มีความบกพร่องทางการได้ยินได้เพิ่มขึ้นเรื่อย ๆ ด้วยวิธีหลักในการสื่อสารทำให้ภาษามือมีบทบาทที่จำเป็นในการปฏิสัมพันธ์ซึ่งกันสำหรับคนกลุ่มนี้ จึงส่งผลให้การรู้จำภาษามือมีความสำคัญยิ่งขึ้น ในบริบทดังกล่าว ปัญญาประดิษฐ์ และการเรียนรู้เชิงลึก จึงได้นำไปสู่โอกาสและความท้าทายในฟิลด์ของการรู้จำภาษามือ จากงานวิจัยที่มีในปัจจุบัน วิทยานิพนธ์นี้ได้ทำการสรุป และวิเคราะห์อัลกอริทึมในการรู้จำ และตัวแบบโครงข่ายประสาทที่มักถูกใช้โดยทั่วไป โดยโฟกัสที่คำโดดต่าง ๆ วิทยานิพนธ์นี้ได้ระบุ และวิเคราะห์ประเด็น และความท้าทายที่เกี่ยวข้องกับการรู้จำในรูปแบบวิดีโอของภาษามือ เมื่อกำหนดให้วิดีโอภาษามือเกี่ยวข้องกับข้อมูลปริมาณมาก การประมวลผลกับข้อมูลลักษณะ ดังกล่าวจะมีการใช้ทรัพยากรสูง ในการจัดการกับประเด็นดังกล่าว วิทยานิพนธ์นี้ได้เสนอการผสมผสาน Residual Networks (ResNet) และ Long Short-Term Memory Networks (LSTM) ซึ่งออกแบบมาให้สอดคล้องกับการใช้งานจริง วิธีการนี้รวมถึงการประมวลผลเบื้องต้นในรายละเอียด ของวิดีโอภาษามือ การฝึกตัวแบบเบื้องต้น การสกัดคุณลักษณะ และการจำแนกประเภท ซึ่งแสดงให้เห็นถึงความแม่นยำของการรู้จำที่ดี ต่อชุดข้อมูลภาษามือภาษาจีน (CSL) และภาษาอาร์เจนตินา (LSA64) โดยการรู้จำลักษณะเฉพาะเชิงพื้นที่และเวลา (Spatiotemporal Characteristics) ของข้อมูลวิดีโอ วิทยานิพนธ์นี้ได้เสนอการผสมผสานของเครือข่าย R(2+1)D และ LSTM วิทยานิพนธ์นี้ยังได้อภิปรายข้อดี และข้อเสียของเครือข่าย R(2+1)D และอธิบายรายละเอียดของกระบวนการสกัดคุณลักษณะ สำหรับวิดีโอภาษามือโดยมีเครือข่าย LSTM เป็นบทบาทสำคัญในการสกัดคุณลักษณะแบบลำดับยาว การทดลองบนชุดข้อมูล CSL และ LSA64 แสดงถึงความแม่นยำในการรู้จำที่สูงถึง 96.21% และ 99.69% ตามลำดับen_US
Appears in Collections:SCIENCE: Theses

Files in This Item:
File Description SizeFormat 
jiayu-huang 630531023.pdf2.32 MBAdobe PDFView/Open    Request a copy


Items in CMUIR are protected by copyright, with all rights reserved, unless otherwise indicated.