Please use this identifier to cite or link to this item: http://cmuir.cmu.ac.th/jspui/handle/6653943832/79213
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorอารีรัตน์ ตรงรัศมีทอง-
dc.contributor.authorปฏิพน เวียงนาคen_US
dc.date.accessioned2023-11-20T10:21:57Z-
dc.date.available2023-11-20T10:21:57Z-
dc.date.issued2023-09-
dc.identifier.urihttp://cmuir.cmu.ac.th/jspui/handle/6653943832/79213-
dc.description.abstractGathering information from multiple data sources takes a long time to collect, analyze and classify. Furthermore, if the data sources have different data structures, the merged data structure must be able to support such heterogeneity. In addition, semantics must also be considered. This paper proposes automated knowledge integration from heterogeneous data sources, using ontology engineering combined with text analytics. Text stemming is used to preprocess data. Part-of-speech (POS) tagging, Universal Dependencies (UD), and text similarity measurement called cosine similarity are used to analyze and integrate data. The knowledge scopes focus on five perspectives of COVID-19 information: COVID-19, Coronavirus, disease, pandemic, and vaccine. For evaluation, six ontologies were constructed using cosine similarity measurement ranged from 0.5 to 1.0. The data used in each ontology construction contain data related and unrelated to COVID-19 in a ratio of 70 to 30. The six constructed ontologies were evaluated for consistency with the original data. Using cosine similarity with 0.6, precision, recall, and F1-score are 0.80, 0.70, and 0.75, respectively, and the constructed ontology is optimal containing the highest amount of relevant COVID-19 information for this case study.en_US
dc.language.isootheren_US
dc.publisherเชียงใหม่ : บัณฑิตวิทยาลัย มหาวิทยาลัยเชียงใหม่en_US
dc.titleการพัฒนาออนโทโลยีโควิด-19 จากแหล่งข้อมูลที่หลากหลายโดยใช้การวิเคราะห์ข้อความen_US
dc.title.alternativeDevelopment of COVID-19 ontology from multiple data sources using text analyticsen_US
dc.typeIndependent Study (IS)
thailis.controlvocab.thashโครงสร้างข้อมูล (วิทยาการคอมพิวเตอร์)-
thailis.controlvocab.thashออนโทโลยี (การค้นคืนสารสนเทศ)-
thailis.controlvocab.thashโควิด-19 (โรค)-
thesis.degreemasteren_US
thesis.description.thaiAbstractการรวบรวมข้อมูลจากแหล่งข้อมูลที่หลากหลาย เป็นภาระงานที่ต้องใช้ระยะเวลาในการดำเนินการเพื่อรวบรวม วิเคราะห์ และจัดหมวดหมู่ข้อมูลอย่างมาก นอกจากนี้ แต่ละแหล่งข้อมูลที่รวบรวมต่างมีรูปแบบโครงสร้างข้อมูลที่แตกต่างกัน หากต้องการที่จะนำข้อมูลดังกล่าวมาผสาน จะต้องพิจารณารูปแบบการนำเสนอข้อมูลที่สามารถรองรับความหลากหลายดังกล่าวได้ ดังนั้น การค้นคว้าอิสระนี้จึงมีวัตถุประสงค์เพื่อนำเสนอขั้นตอนวิธีสำหรับ การบูรณาการองค์ความรู้แบบอัตโนมัติจากแหล่งข้อมูลที่หลากหลาย (Automated Knowledge Integration from Multiple Data Sources) ด้วยการวัดความละม้ายโคไซน์ (Cosine Similarity) และการประมวลผลภาษาธรรมชาติ (Natural Language Processing: NLP) ซึ่งโรคโคโรนาสายพันธุ์ใหม่ 2019 (Coronavirus Disease 2019: COVID-19) จะถูกกำหนดเป็นขอบเขตขององค์ความรู้สำหรับการค้นคว้าอิสระนี้ สำหรับระเบียบวิธีวิจัยจะประยุกต์หลักการทางวิศวกรรมออนโทโลยี (Ontology Engineering) และการวิเคราะห์ข้อความ ประกอบด้วย การวจีวิภาค (Part of Speech Tagging: POS Tagging) ความขึ้นต่อกันของการกระจายศัพท์สากล (Universal Dependencies: UD) และการลดรูปคำศัพท์ (Text Stemming) นำมาสร้างออน-โทโลยีโควิด-19 และผสานข้อมูลที่รวบรวมได้จากแหล่งข้อมูลที่หลากหลายอย่างอัตโนมัติ สำหรับการประเมินผล จะดำเนินการเตรียมข้อมูลต้นฉบับที่มีความเกี่ยวข้องและไม่มีความเกี่ยวข้องกับโควิด-19 ในอัตราส่วน 70 ต่อ 30 จากนั้นจะดำเนินการสร้างออนโทโลยีโควิด-19 จำนวน 6 ออนโทโลยี ตามช่วงค่าความคล้ายคลึงโคไซน์ที่กำหนด ตั้งแต่ 0.5 ถึง 1.0 เพื่อพิจารณาค่าความคล้ายคลึงโคไซน์ที่เหมาะสมที่สุดสำหรับการพัฒนาออนโทโลยีโควิด-19 จากการดำเนินการ พบว่า ที่ค่าความคล้ายคลึงโคไซน์ เท่ากับ 0.6 เป็นช่วงค่าความคล้ายคลึงโคไซน์ที่เหมาะสมที่สุดสำหรับการสร้างพัฒนาออน-โทโลยีโควิด-19 เนื่องจากเป็นออนโทโลยีที่มีค่า ความแม่นยำ (Precision) การระลึก (Recall) และมาตรวัดเอฟ (F-Measure) ที่สูงกว่าค่าความคล้ายคลึงโคไซน์อื่น ๆ คือ 0.80, 0.70 และ 0.75 ตามลำดับ นอกจากนี้ ออนโทโลยีดังกล่าวมีปริมาณองค์ความรู้ที่เกี่ยวข้องกับข้อมูลโควิด-19 ในปริมาณสูงสุดen_US
Appears in Collections:SCIENCE: Independent Study (IS)

Files in This Item:
File Description SizeFormat 
630532005-ปฏิพน เวียงนาค.pdf12.67 MBAdobe PDFView/Open    Request a copy


Items in CMUIR are protected by copyright, with all rights reserved, unless otherwise indicated.