Applications of Big Data Analysis for the Worldwide Collection of ETDs
หัวข้อที่น่าสนใจหัวข้อหนึ่งในงานสัมมนาวิชาการ ETD 2018 Taiwan – Beyond the Boundaries of Rims and Oceans : Globalizing Knowledge with ETDs คือ Applications of Big Data Analysis for the Worldwide Collection of ETDs โดย Professor Edward A. Fox : Virginia Tech & Executive Director and Chairman of the Board for NDLTD
หัวข้อนี้ Professor Edward ได้นำเสนอแนวทางการพัฒนา Application รูปแบบต่างๆ เพื่อประมวลผลเนื้อหาจากฐานข้อมูลวิทยานิพนธ์ NDLTD ที่มีรายการวิทยานิพนธ์มากกว่า 5 ล้านรายการ
NTLTD เป็นความร่วมมือของหลายภาคส่วนเพื่อพัฒนาฐานข้อมูลวิทยานิพนธ์ขนาดใหญ่แบบเปิด ส่งผลให้เนื้อหาและข้อมูลต่างๆ ที่จัดเก็บทั้งรายการบรรณานุกรม และเนื้อหาวิทยานิพนธ์สามารถนำมาประมวลผลในมิติต่างๆ ได้
หนึ่งในกลไกที่คณะทำงาน NTLTD ดำเนินการคือ การสกัดข้อมูลจากเอกสารให้อยู่ในรูปของ Visualization ลักษณะต่างๆ เช่น วิเคราะห์หมวดเนื้อหาวิชา วิเคราะห์คำสำคัญของวิทยานิพนธ์ เป็นต้น
ในการดำเนินการนี้ คณะทำงานได้นิยาม Big Data ด้วยองค์ประกอบ 3Vs ได้แก่
- Variety : content elements and types, disciplines, format, languages, levels, styles
- Velocity : peak submission times, urgent need by researchers
- Volume : many millions, large files (images, videos, datasets, etc), worldwide
จะเห็นได้ชัดว่าการดำเนินการเพื่อพัฒนา Big data applications ได้นิยามแนวปฏิบัติที่ชัดเจน และสอดคล้องกับหลัก Vs ทั้ง 3 องค์ประกอบ และใช้กรอบดำเนินการที่เรียกว่า Quality and the Information Life Cycle มาประเมินการทำงานทุกขั้นตอนอย่างชัดเจน
Output ของ Big Data Applications จะสอดคล้องกับ 5S ได้แก่
- Societies
- Scenarios
- Spaces
- Structures
- Streams
โดยมีการออกแบบโครงสร้างทั้งระบบ ดังแผนภาพ
ซึ่งจากแผนภาพจัดได้ว่าเป็นกรอบปฏิบัติที่ดีสำหรับการนำประยุกต์ใช้ในงานต่างๆ ที่ STKS มีส่วนเกี่ยวข้องได้เป็นอย่างดี
ทั้งนี้ยังมีการกำหนดเกณฑ์คุณภาพในมิติต่างๆ ดังนี้
จากการดำเนินการคณะทำงานพบว่ามีประเด็นที่ต้องร่วมปรับเปลี่ยนแนวคิดการออกแบบพัฒนาระบบจากแนวคิด monolithic (monolithic นั้นจะเป็น application เดียวที่รวมเอาทุก services เอาไว้ในตัวเอง แต่ก็ทำให้ผู้ที่พัฒนาระบบงานนั้นรู้สึกท้อเช่นกัน เพราะว่าการเปลี่ยนแปลงอะไรก็ตามเพียงน้อยนิดในส่วนเล็กๆ ของ application นั้น จำเป็นที่จะต้องทำการ rebuilt และ deploy ระบบงานทั้งหมดใหม่ และถ้าหากต้องการที่จะ Scale ระบบก็จำเป็นที่จะต้องทำทั้ง application แทนที่จะทำเฉพาะส่วนที่จำเป็นต้องขยายเท่านั้น) ไปสู่แนวคิด cloud native
Cloud-native คือแนวทางในการพัฒนาหรือรัน Application ให้เกิดประโยชน์สูงสุดจากการใช้ Cloud ลดการจัดการแบบ centralized management ลงในแต่ละ services ไม่จำเป็นที่จะต้องเขียนด้วยภาษาโปรแกรมมิ่งแบบเดียวกันและสามารถเลือกใช้วิธีการเก็บข้อมูลที่แตกต่างกันออกไปตามความเหมาะสมของแต่ละ services ได้ แต่ละ services นั้นไม่จำเป็นที่จะต้องเขียนด้วยภาษาเดียวกัน เพราะ application หรือ service บางอย่าง ถ้าเลือกใช้ภาษาที่ออกแบบมาเพื่อแก้ไขปัญหานั้นๆ โดยเฉพาะก็ย่อมจะดีกว่าใช้ภาษาอื่นในการพัฒนาแน่นอน ทำให้เราสามารถ deploy ได้อย่างอิสระ และสามารถ scale ได้อย่างอิสระเช่นกัน โดยคณะทำงานได้เลือกแนวทาง Cloud-native จากค่าย The Cloud Native Computing Foundation
อย่างไรก็ตามการดำเนินการดังกล่าว ยังต้องใช้เวลาพอสมควร ซึ่งจะมีนักวิจัย นักศึกษาจากมหาวิทยาลัยทั้งในไต้หวัน และต่างประเทศร่วมกันศึกษาแนวทางการดำเนินและนำเสนอในเวทีของ ETD Taiwan ต่อไป







You must be logged in to post a comment.