Please use this identifier to cite or link to this item: http://cmuir.cmu.ac.th/jspui/handle/6653943832/79202
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorPruet Boonma-
dc.contributor.authorSuchada Manowonen_US
dc.date.accessioned2023-11-16T11:02:11Z-
dc.date.available2023-11-16T11:02:11Z-
dc.date.issued2023-10-
dc.identifier.urihttp://cmuir.cmu.ac.th/jspui/handle/6653943832/79202-
dc.description.abstractFlight delays persist as a challenge, which impacting airline and airport productivity, passenger experience, and financial resources. Nowadays, air transportation data predominantly rely on administrative records from various institutions. This study aims to designing and implementing an effective data pipeline system with the capacity to capture high-frequency data from diverse sources through batch processing. This comprehensive pipeline encompasses the entire of end-to-end data pipeline stages; including data sourcing, ingestion, processing, storage, and analysis. The proposed pipeline system extracts data from various datasets, including flight data, airport information, airline details, airplane specifications, and routes. It employs a variety of methods such as web scraping, APIs, and database loading for data ingestion. It efficiently consolidates flight information, transforming and cleaning data and then loading it into a designated destination database. Additionally, this study establishes an automated batch processing platform using Apache Airflow. This platform is characterized by a comprehensive evaluation across three essential aspects; 1. System metrics, including memory and disk usage, 2. Job metrics extracted from Airflow metrics, which are utilized to monitor processes, ensuring smooth execution, 3. Data quality metrics that assess six dimensions – accuracy, validation, completeness, consistency, uniqueness, and timeliness – to ensure the usability of the defined data. Leveraging the flight dataset for data analysis and data visualization, this approach involves the comparison of various base regression models for flight delay prediction. Additionally, flight data dashboards offer data insights. The implications of this multifaceted approach extend to enhancing air transportation statistics, predictive modeling capabilities, and facilitating data-driven decision-making processes.en_US
dc.language.isoenen_US
dc.publisherChiang Mai : Graduate School, Chiang Mai Universityen_US
dc.titleDevelopment of batch data pipeline system for flight delay predictionen_US
dc.title.alternativeการพัฒนาระบบการย้ายข้อมูลแบบชุดสำหรับการพยากรณ์เวลาการล่าช้าของเที่ยวบินen_US
dc.typeIndependent Study (IS)
thailis.controlvocab.lcshAerospace industries-
thailis.controlvocab.lcshAir traffic control-
thailis.controlvocab.lcshAeronautics -- Safety measures-
thailis.controlvocab.lcshInformation storage and retrieval systems -- Aeronautics-
thesis.degreemasteren_US
thesis.description.thaiAbstractอุตสาหกรรมการบินมีการใช้ประโยชน์จากข้อมูลและข้อมูลสารสนเทศมาอย่างยาวนาน เนื่องจากข้อมูลการจราจรทางอากาศเป็นสิ่งสำคัญในหลากหลายภาคส่วนของอุตสาหกรรมการบิน เช่น ด้านเศรษฐกิจ ธุรกิจ ขนส่งสินค้า การท่องเที่ยว และการเดินทางทั้งภาครัฐและเอกชน โดยเฉพาะอย่างยิ่งในด้านการบริการการขนส่งทางอากาศ เพื่อเพิ่มประสิทธิภาพการให้บริการที่ดีขึ้น การจัดการปัญหาการเลื่อนเที่ยวบินหรือเที่ยวบินล่าช้ายังคงเป็นความท้าทายที่มีผลกระทบต่อภาพลักษณ์ของสายการบินและสนามบิน รวมทั้งส่งผลโดยตรงต่อประสิทธิภาพการทำงานของสายการบิน ประสบการณ์การใช้บริการของผู้โดยสาร และทรัพยากรต่าง ๆ ที่สูญเสียไป ซึ่งในปัจจุบันข้อมูลการขนส่งทางอากาศเชิงสถิติมักถูกเก็บไว้ในส่วนของการบริหารข้อมูลจากแต่ละสถาบันเองซึ่งมีหลากหลายแห่ง อย่างไรก็ตามการค้นหาและเรียกใช้ข้อมูลจากแหล่งข้อมูลต่าง ๆ มีความยากลำบากจึงเป็นปัญหาสำคัญที่ควรได้รับการแก้ไข ในการศึกษานี้มุ่งหวังที่จะแก้ไขปัญหานี้โดยการออกแบบและพัฒนาระบบการย้ายข้อมูลที่มีประสิทธิภาพ ที่สามารถรวบรวมข้อมูลการขนส่งทางอากาศจำนวนมากจากหลากหลายแหล่งข้อมูลผ่านกระบวนการประมวลผลแบบกลุ่ม ซึ่งกระบวนการย้ายข้อมูลนี้ประกอบไปด้วยขั้นตอนต่าง ๆ เช่น การรวบรวมข้อมูล การนำเข้าข้อมูล การประมวลผลข้อมูล การจัดเก็บข้อมูล และการวิเคราะห์ข้อมูล ระบบการย้ายข้อมูลนี้ออกแบบและพัฒนาเพื่อรวบรวมข้อมูลจากฐานข้อมูลที่หลากหลาย เช่น ข้อมูลเที่ยวบิน ข้อมูลสนามบิน ข้อมูลสายการบิน และข้อมูลเครื่องบิน เพื่อจัดเตรียมข้อมูลสำหรับการใช้งานอย่างมีประสิทธิภาพโดยใช้วิธีในการรวมรวมข้อมูลต่าง ๆ ตามลักษณะข้อมูล นอกจากนี้ระบบยังมีการประมวลผลแบบกลุ่มอัตโนมัติที่มีการวัดคุณภาพระบบและตรวจสอบคุณสมบัติของชุดข้อมูลระหว่างการทำงาน ซึ่งประกอบไปด้วย 1. การประเมินระบบ มีการวัดการใช้ทรัพยากรของระบบ เช่น การใช้หน่วยความจำและการใช้พื้นที่จัดเก็บข้อมูล 2. การประเมินการทำงานของกระบวนการ ประเมินจากเมตริกจากแพลตฟอร์มอาปาเช่แอร์โฟลเพื่อติดตามแต่ละกระบวนการเพื่อให้การดำเนินงานเรียบร้อย 3. การประเมินคุณภาพข้อมูลทั้งหมดตาม 6 มิติ ประกอบไปด้วย ความแม่นยำ ความถูกต้อง การตรวจสอบ ความสมบูรณ์ ความสม่ำเสมอ ความเป็นเอกลักษณ์ และความเหมาะสมกับเวลา การใช้ประโยชน์จากชุดข้อมูลการบินจากระบบนี้เพื่อใช้สำหรับการวิเคราะห์ข้อมูลและการแสดงผลข้อมูล โดยการวิเคราะห์เที่ยวบินล่าช้าโดยใช้การเปรียบเทียบการเรียนรู้ของเครื่องหลากหลายรูปแบบเพื่อเลือกแบบจำลองที่เหมาะสมกับชุดข้อมูล และรายงานการแสดงผลข้อมูลการบิน ซึ่งสามารถนำไปพัฒนาการระบบขนส่งทางอากาศของหลายภาคส่วนได้ รวมถึงการทำนายเวลาล่าช้าของเที่ยวยังสามารถนำไปใช้ในการช่วยการตัดสินใจในการเดินทางของผู้ใช้บริการen_US
Appears in Collections:ENG: Independent Study (IS)

Files in This Item:
File Description SizeFormat 
640632023-SUCHADA MANOWON.pdf4.12 MBAdobe PDFView/Open    Request a copy


Items in CMUIR are protected by copyright, with all rights reserved, unless otherwise indicated.