คุณภาพและความน่าเชื่อถือของข้อมูล” เป็นคุณลักษณะของบิ๊กเดต้า big data

คุณภาพและความน่าเชื่อถือของข้อมูล” เป็นคุณลักษณะของบิ๊กเดต้า big data

ในยุคปัจจุบันที่โลกถูกขับเคลื่อนด้วยข้อมูล ผู้คนพึ่งพิงข้อมูลในการตัดสินใจต่างๆ กระบวนการคิดของคนทั่วไปหรือแม้แต่องค์กรต่างๆในทุกวันนี้ส่วนใหญ่อยู่บนฐานของการรวบรวมข้อมูล ประมวลผล เพื่อประกอบการตัดสินใจทำอะไรบางอย่าง

แต่ด้วยความที่ข้อมูลในปัจจุบันมีอยู่มากมายและกระจัดกระจาย คำถามสำคัญ คือ เราจะเข้าถึงข้อมูลมหาศาลเหล่านั้นและใช้ข้อมูลเหล่านั้นให้เป็นประโยชน์ได้อย่างไร จากคำถามดังกล่าวจึงทำให้คนหันมาสนใจสิ่งที่เรียกว่า Big data กันมากขึ้นจนกลายเป็นกระแสสังคมในปัจจุบัน

What is big data?

Big data คือ ข้อมูลที่ประกอบด้วยคุณลักษณะ 4 อย่างคือ

1. Volume — size ของข้อมูลมีขนาดใหญ่ มีปริมาณข้อมูลมาก ซึ่งสามารถเป็นได้ทั้งข้อมูลแบบ offline หรือ online

2. Variety — ข้อมูลมีความหลากหลาย สามารถเป็นได้ทั้งที่มีโครงสร้างและข้อมูลที่ไม่สามารถจับ pattern ได้

3. Velocity — ข้อมูลมีการเปลี่ยนแปลงตลอดเวลาอย่างรวดเร็ว มีการส่งผ่านข้อมูลอย่างต่อเนื่องในลักษณะ streaming ทำให้การวิเคราะห์ข้อมูลแบบ manual มีข้อจำกัด

4. Veracity — ข้อมูลมีความไม่ชัดเจน (untrusted, uncleaned)

โดยรูปแบบของข้อมูลของ big data ก็สามารถเป็นไปได้หลากหลาย ตั้งแต่

1. Behavioral data: ข้อมูลเชิงพฤติกรรมการใช้งานต่างๆเช่น server log, พฤติกรรมการคลิกดูข้อมูล, ข้อมูลการใช้ ATM เป็นต้น

2. Image & sounds: ภาพถ่าย, วีดีโอ, รูปจาก google street view, ภาพถ่ายทางการแพทย์, ลายมือ, ข้อมูลเสียงที่ถูกบันทึกไว้ เป็นต้น

3. Languages: text message, ข้อความที่ถูก tweet, เนื้อหาต่างๆในเว็บไซต์ เป็นต้น

4. Records: ข้อมูลทางการแพทย์, ข้อมูลผลสำรวจที่มีขนาดใหญ่, ข้อมูลทางภาษี เป็นต้น

5. Sensors: ข้อมูลอุณหภูมิ, accelerometer, ข้อมูลทางภูมิศาสตร์ เป็นต้น

Big data analytics

การวิเคราะห์ข้อมูล Big data อาศัยหลักการพื้นฐานบางอย่างเพื่อพัฒนาเป็นเทคนิคในการดึงข้อมูลสำคัญออกจากชุดฐานข้อมูลขนาดใหญ่ที่เต็มไปด้วยข้อมูลหลากหลายรูปแบบ เพื่อนำมาหา pattern ของข้อมูลที่มองไม่เห็นด้วยตาเปล่า หารูปแบบความสัมพันธ์ที่ซ่อนอยู่ หาแนวโน้มการตลาด เทรนด์ความชอบของลูกค้า และข้อมูลอื่นๆที่เป็นประโยชน์ทางธุรกิจ

ผลจากการวิเคราะห์ข้อมูล Big data ทำให้มีข้อมูลที่เป็นข้อเท็จจริงซึ่งผ่านการวิเคราะห์อย่างเป็นระบบเพื่อใช้ประกอบการตัดสินใจ โดยระดับของการวิเคราะห์ก็เป็นได้หลากหลาย แล้วแต่รูปแบบการนำไปใช้งาน

1. Descriptive analytics

เป็นการวิเคราะห์ในระดับที่บอกว่าเกิดอะไรขึ้น จำนวนเท่าไหร่ ถี่แค่ไหน
เกิดเหตุการณ์สำคัญๆตอนไหน ตรงไหนบ้าง เป็นต้น โดยสามารถทำในรูปแบบของ

- Standard report: “เกิดอะไรขึ้น”

- Ad hoc report: “จำนวนเท่าไหร่ บ่อยแค่ไหน ที่ไหน”

- Query: “อะไรคือปัญหาที่แท้จริง”

- Alerts: “ต้องเกิด action อะไร”

2. Predictive analytics

เป็นการวิเคราะห์ในลักษณะที่ซับซ้อนขึ้นไปอีกขั้นหนึ่งคือ เป็นการประเมินว่าจะเกิดอะไรขึ้นต่อไป มีการให้ข้อมูลตัวชี้วัดของผลลัพธ์ที่อาจจะเกิดขึ้นถ้าแนวโน้มยังเป็นอย่างนี้ต่อไป โดยผลการวิเคราะห์อาจออกมาในรูปแบบของ

- Statistical analysis: “ทำไมถึงเกิดเหตุการณ์นี้”

- Randomized testing: “จะเกิดอะไรขึ้นถ้าเราทดลองทำวิธีการนี้”

- Predictive modeling: “จะเกิดอะไรขึ้นต่อไป”

- Optimization: “อะไรคือสถานการณ์ที่ดีที่สุดที่จะเกิดขึ้น”

3. Prescriptive analytics

เป็นการสังเคราะห์ข้อมูลเพื่อวิเคราะห์แนวโน้มและเสนอทางเลือกในการตัดสินใจที่เหมาะสมกับการคาดการณ์บนฐานของข้อมูล

Why big data now?

มีหลายคนที่เกิดคำถามว่าทำไมเรื่อง big data จึงกลายเป็นกระแสในปัจจุบัน อ.ธีรณีได้ให้ความเห็นว่า กระแสนี้เป็นผลที่จากเกิดหลายๆองค์ประกอบ ไม่ว่าจะเป็น

  • Demand for better data เกิดกระแสกดดันภายใต้บริบทของการปฏิรูป สภาวะทางเศรษฐกิจ และนวัตกรรมใหม่ๆ
  • Supply of relevant data at scale มีการแพร่หลายและไหลเวียนของข้อมูลทั้งข้อมูลทางการแพทย์และข้อมูลอื่นๆที่สามารถเข้าถึงได้ทั่วไป
  • Technical capability มีการพัฒนาเทคนิคในการวิเคราะห์ข้อมูลจำนวนมากที่ทันสมัย ทำงานง่ายขึ้นและเข้าถึงได้แพร่หลาย
  • Government catalyzing market change มีแรงส่งจากภาครัฐที่ถูกกดดันให้มีการเปิดเผยข้อมูลให้โปร่งใสจนกระจายไปสู่ภาคธุรกิจอื่นๆ

จากนี้เราคงเห็นเทรนด์ในการใช้ Big Data ในการสร้างสรรนวัตกรรมใหม่ ๆ เกิดขึ้นอีกเรื่อย ๆ เป็นกระแสที่น่าติดตามอีกกระแสหนึ่งเลยทีเดียว

Big Data คืออะไร มีกี่ประเภท มีประโยชน์และความสำคัญอย่างไร มาเรียนรู้เนื้อหาเชิงลึกนี้ไปพร้อมกันได้เลย ถ้าหากพูดถึงการจัดการข้อมูลมูลในรูปแบบเดิมที่มีขนาดใหญ่และซับซ้อนนั้นเมื่อก่อนแทบจะเป็นไปไม่ได้เลยก็ว่าได้ แต่ในปัจจุบันมีข้อมูลมากมายที่ถูกสร้างขึ้นและนำเข้าระบบ Computer จนทำให้ข้อมูลนั้นมีขนาดใหญ่มากขึ้น

คุณสมบัติหรือลักษณะสำคัญมีอะไรบ้าง

การพิจารณาว่าข้อมูลชนิดใดเป็นข้อมูลขนาดใหญ่หรือ Big Data นั้น สามารถวิเคราะห์ได้จากปริมาณของข้อมูล ความเร็ว ความหลากหลาย ความถูกต้องของข้อมูล และคุณค่าของข้อมูลที่ได้มา ซึ่งแต่ละส่วนจะมีรายละเอียดดังนี้

  • ปริมาณข้อมูล (Volume) หมายถึง การนำผลลัพท์ที่ได้จากข้อมูลที่มี จำเป็นต้องใช้ข้อมูลปริมาณมหาศาลในการนำมาประมวลผล ซึ่งเป็นส่วนที่สำคัญมากของการวิเคราะห์
  • ข้อมูลที่หลากหลาย (Variety) หมายถึง รูปแบบของข้อมูลในแต่ประเภทที่มีความหลากหลาย ซึ่งแบ่งออกได้เป็น 2 รูปแบบใหญ่ๆด้วยกัน คือ
  1. ข้อมูลเชิงโครงสร้าง (structured data) คือ ข้อมูลที่ถูกจัดเก็บในรูปแบบตาราง เช่น ไฟล์ excel, หรือ csv เป็นต้น
  2. ข้อมูลที่ไม่มีโครงสร้าง (Unstructured Data) เป็นข้อมูลที่ไม่ได้มีการนิยามโครงสร้างของข้อมูลไว้ มักจะอยู่ในรูปแบบ เช่น ข้อความ รูปภาพ เสียง วีดิทัศน์
  • ความเร็ว (Velocity) หมายถึง ซึ่งในที่นี้จะหมายถึงความเร็วในการเพิ่มขึ้นของข้อมูลจากแหล่งข้อมูลที่มี ซึ่งในส่วนของความเร็วจะเป็นตัวกำหนดศักยภาพของข้อมูล
  • เปลียนแปลงได้ (Variability) หมายถึง ข้อมูลสามารถในการเปลี่ยนแปลงรูปแบบไปตามการใช้งาน หรือสามารถคิดวิเคราะห์ได้จากหลายแง่มุม และรูปแบบในการจัดเก็บข้อมูลก็อาจจะต่างกันออกไปในแต่ละแหล่งของข้อมูล
  • ความถูกต้อง (Veracity) หมายถึง มีความน่าเชื่อถือของแหล่งที่มาข้อมูลและความถูกต้องของชุดข้อมูล มีกระบวนการในการตรวจสอบและยืนยันความถูกต้องของข้อมูล ซึ่งมีความเกี่ยวเนื่องโดยตรงกับผลลัพท์การวิเคราะห์ข้อมูล
  • คุณค่า (Value) หมายถึง ข้อมูลมีประโยชน์และมีความสัมพันธ์ในเชิงธุรกิจ ข้อมูลที่มีประโยชน์จะต้องเกี่ยวข้องกับวัตถุประสงค์ทางธุรกิจ ซึ่งต้องเข้าใจก่อนว่าไม่ใช่ทุกที่มีการเก็บนั้นจะมีปรพโยชน์ในการนำมาวิเคราห์

ตัวอย่างข้อมูล

ปัจจุบันรอบตัวเรานั้นเรียกได้ว่าเข้าสู่ยุคของข้อมูลแบบเต็มรูปแบบแล้วก็ว่าได้ เพราะในแต่ละวันมีข้อมูลที่เพิ่มขึ้นอย่างมหาศาลและหลากหลาย ซึ่งต่อไปนี้เราจะมาดูตัวอย่างของข้อมูลขนาดใหญ่ให้เข้าใจกันได้มากขึ้น

  • ข้อมูลใน Facebook ซึ่งในแต่ละวินาทีนั้นมีปริมาณโพสที่เพิ่มขึ้นมากว่า 54,977 โพสต่อวินาที
  • ข้อมูลทั้งหมดของประชากรที่รัฐบาลในแต่ละประเทศทำการจัดเก็บไว้ เช่น ข้อมูลใบขับขี่ ข้อมูลบัตรประจำตัวประชาชน เป็นต้น
  • ข้อมูลของสภาพภูมิอากาศที่เก็บไว้ เพื่อใช้ในการพยากรณ์อากาศ ศึกษาเกี่ยวกับการเปลี่ยนแปลงไปของสภาพอากาศ หรือไปจนถึงการเข้าใจรูปแบบต่างๆทางธรรมชาติ เป็นต้น
  • ข้อมูลของธนาคารที่มีการเก็บรายการเงินทั้งหมดของธนาคาร เช่น บัญชีเงินฝาก ข้อมูลเครดิตทางการเงิน ข้อมูลการใช้จ่าย ข้อมูลธุรกรรมต่างๆ เป็นต้น

ข้อดีและข้อเสีย

ข้อดี ข้อเสีย
ช่วยให้ตัดสินใจได้ดีขึ้น คุณภาพของข้อมูลนั้นต้องเลือกข้อมูลที่ดีในการนำมาวิเคราะห์
เพิ่มผลผลิตได้มากขึ้น ใช้ความต้องการของฮาร์ดแวร์สูง ไม่ว่าจะเป็นเรื่องของอุปกรณ์ที่ใช้ในการจัดเก็บ หรือระบบเครือข่ายที่ใช้ในการส่งผ่านข้อมูลมูลที่ใหญ่มากขึ้น
ลดต้นทุน ความเสี่ยงด้านความปลอดภัยทางไซเบอร์: การจัดเก็บข้อมูลที่มีความละเอียดอ่อนและจำนวนมากสามารถทำให้บริษัทเป็นเป้าหมายที่น่าดึงดูดยิ่งขึ้นสำหรับผู้โจมตีทางไซเบอร์ ซึ่งสามารถใช้ข้อมูลเพื่อเรียกค่าไถ่หรือเพื่อวัตถุประสงค์ที่ใช้ในทางที่ผิดได้
ปรับปรุงการบริการลูกค้า ปัญหาในการย้ายจากระบบเดิมมาเป็นระบบใหม่ เพื่อให้สามารถรองรับข้อมูลได้ในอนาคต ซึ่งหลายบริษัทเก็บข้อมูลในรูปแบบที่ไม่สามารถนำมาใช้ให้เกิดประโยชน์ได้

หากใครอยากเรียนรู้เกี่ยวกับการนำ Big Data มาใช้ในการทำธุรกิจหรือทางการตลาดนั้นสามารถติดต่อสอบถามมาที่เว็บไซต์หรือไลน์ของ The Wisdom Academy ได้เลย

ที่มาเพิ่มเติม: https://www.zettasphere.com/mind-boggling-stats-for-1-second-of-internet-activity/