Applications of Big Data Analysis for the Worldwide Collection of ETDs

หัวข้อที่น่าสนใจหัวข้อหนึ่งในงานสัมมนาวิชาการ ETD 2018 Taiwan – Beyond the Boundaries of Rims and Oceans : Globalizing Knowledge with ETDs คือ Applications of Big Data Analysis for the Worldwide Collection of ETDs โดย Professor Edward A. Fox : Virginia Tech & Executive Director and Chairman of the Board for NDLTD

หัวข้อนี้ Professor Edward ได้นำเสนอแนวทางการพัฒนา Application รูปแบบต่างๆ เพื่อประมวลผลเนื้อหาจากฐานข้อมูลวิทยานิพนธ์ NDLTD ที่มีรายการวิทยานิพนธ์มากกว่า 5 ล้านรายการ

ntltd1

NTLTD เป็นความร่วมมือของหลายภาคส่วนเพื่อพัฒนาฐานข้อมูลวิทยานิพนธ์ขนาดใหญ่แบบเปิด ส่งผลให้เนื้อหาและข้อมูลต่างๆ ที่จัดเก็บทั้งรายการบรรณานุกรม และเนื้อหาวิทยานิพนธ์สามารถนำมาประมวลผลในมิติต่างๆ ได้

หนึ่งในกลไกที่คณะทำงาน NTLTD ดำเนินการคือ การสกัดข้อมูลจากเอกสารให้อยู่ในรูปของ Visualization ลักษณะต่างๆ เช่น วิเคราะห์หมวดเนื้อหาวิชา วิเคราะห์คำสำคัญของวิทยานิพนธ์ เป็นต้น

IMG_20180926_143708

ในการดำเนินการนี้ คณะทำงานได้นิยาม Big Data ด้วยองค์ประกอบ 3Vs ได้แก่

  • Variety : content elements and types, disciplines, format, languages, levels, styles
  • Velocity : peak submission times, urgent need by researchers
  • Volume : many millions, large files (images, videos, datasets, etc), worldwide

จะเห็นได้ชัดว่าการดำเนินการเพื่อพัฒนา Big data applications ได้นิยามแนวปฏิบัติที่ชัดเจน และสอดคล้องกับหลัก Vs ทั้ง 3 องค์ประกอบ และใช้กรอบดำเนินการที่เรียกว่า Quality and the Information Life Cycle มาประเมินการทำงานทุกขั้นตอนอย่างชัดเจน

IMG_20180926_101429

Output ของ Big Data Applications จะสอดคล้องกับ 5S ได้แก่

  • Societies
  • Scenarios
  • Spaces
  • Structures
  • Streams

โดยมีการออกแบบโครงสร้างทั้งระบบ ดังแผนภาพ

IMG_20180926_101722

ซึ่งจากแผนภาพจัดได้ว่าเป็นกรอบปฏิบัติที่ดีสำหรับการนำประยุกต์ใช้ในงานต่างๆ ที่ STKS มีส่วนเกี่ยวข้องได้เป็นอย่างดี

ทั้งนี้ยังมีการกำหนดเกณฑ์คุณภาพในมิติต่างๆ ดังนี้

IMG_20180926_102043

จากการดำเนินการคณะทำงานพบว่ามีประเด็นที่ต้องร่วมปรับเปลี่ยนแนวคิดการออกแบบพัฒนาระบบจากแนวคิด monolithic (monolithic นั้นจะเป็น application เดียวที่รวมเอาทุก services เอาไว้ในตัวเอง แต่ก็ทำให้ผู้ที่พัฒนาระบบงานนั้นรู้สึกท้อเช่นกัน เพราะว่าการเปลี่ยนแปลงอะไรก็ตามเพียงน้อยนิดในส่วนเล็กๆ ของ application นั้น จำเป็นที่จะต้องทำการ rebuilt และ deploy ระบบงานทั้งหมดใหม่ และถ้าหากต้องการที่จะ Scale ระบบก็จำเป็นที่จะต้องทำทั้ง application แทนที่จะทำเฉพาะส่วนที่จำเป็นต้องขยายเท่านั้น) ไปสู่แนวคิด cloud native

IMG_20180926_143857

Cloud-native คือแนวทางในการพัฒนาหรือรัน Application ให้เกิดประโยชน์สูงสุดจากการใช้ Cloud ลดการจัดการแบบ centralized management ลงในแต่ละ services ไม่จำเป็นที่จะต้องเขียนด้วยภาษาโปรแกรมมิ่งแบบเดียวกันและสามารถเลือกใช้วิธีการเก็บข้อมูลที่แตกต่างกันออกไปตามความเหมาะสมของแต่ละ services ได้ แต่ละ services นั้นไม่จำเป็นที่จะต้องเขียนด้วยภาษาเดียวกัน เพราะ application หรือ service บางอย่าง ถ้าเลือกใช้ภาษาที่ออกแบบมาเพื่อแก้ไขปัญหานั้นๆ โดยเฉพาะก็ย่อมจะดีกว่าใช้ภาษาอื่นในการพัฒนาแน่นอน ทำให้เราสามารถ deploy ได้อย่างอิสระ และสามารถ scale ได้อย่างอิสระเช่นกัน โดยคณะทำงานได้เลือกแนวทาง Cloud-native จากค่าย The Cloud Native Computing Foundation

อย่างไรก็ตามการดำเนินการดังกล่าว ยังต้องใช้เวลาพอสมควร ซึ่งจะมีนักวิจัย นักศึกษาจากมหาวิทยาลัยทั้งในไต้หวัน และต่างประเทศร่วมกันศึกษาแนวทางการดำเนินและนำเสนอในเวทีของ ETD Taiwan ต่อไป

Unknown's avatar

ฺBoonlert Aroonpiboon

เก็บบันทึกเรื่องราวและความทรงจำ

You may also like...

Discover more from Boonlert Aroonpiboon

Subscribe now to keep reading and get access to the full archive.

Continue reading