การ ทำความ สะอาด ข้อมูล อยู่ ใน ขั้น ตอน ใด ของ การ ประมวล ผล ข้อมูล

การ ทำความ สะอาด ข้อมูล อยู่ ใน ขั้น ตอน ใด ของ การ ประมวล ผล ข้อมูล

“เมื่อเข้าชมเว็บไซต์ เครือข่ายสังคม หรือแอปพลิเคชันสั่งซื้อสินค้า จะมีข้อมูลโฆษณาสินค้า หรือข้อมูลเกี่ยวกับสิ่งที่สนใจปรากฏอยู่เสมอ เนื่องด้วยเทคโนโลยีในปัจจุบัน เว็บไซต์หรือระบบผู้ให้บริการต่างๆ มีการเก็บพฤติกรรมการใช้งานของผู้ใช้ แล้วนำมาวิเคราะห์สิ่งที่มีความสัมพันธ์กับพฤติกรรมผู้ใช้ เทคโนโลยีด้านข้อมูลมีประโยชน์และมีคุณค่ากว่าที่คิด ข้อมูลมีความหลากหลายและมีปริมาณมาก สามารถเข้าถึงได้สะดวก รวดเร็ว และตลอดเวลา ข้อมูลถูกนำมาใช้ประโยชน์เพื่อตัดสินใจ หาคำตอบของปัญหา กำหนดแนวทางการดำเนินการ ตลอดจนนโยบายต่างๆ ในทุกระดับของสังคมตั้งแต่บุคคล ครอบครัว กลุ่มเพื่อน ชุมชน องค์กร และประเทศ จนกล่าวได้ว่าชีวิตประจำวันของเราขับเคลื่อนโดยมีข้อมูลเป็นฐาน”

ข้อมูลดีมีชัยไปกว่าครึ่ง

ถ้าหากนำข้อมูลจำนวนมากมาทำการวิเคราะห์ในเชิงลึก จะค้นพบคุณค่าของข้อมูล ช่วยสร้างมูลค่าในเชิงธุรกิจ หรือส่งผลทางบวกให้กับผู้ใช้ข้อมูลเป็นอย่างมาก

ตัวอย่างที่เกิดขึ้นจริงของการนำข้อมูลไปใช้ประโยชน์

ประธานาธิบดีกับข้อมูลขนาดใหญ่ ผู้ลงสมัครตำแหน่งประธานธิบดีของสหรัฐอเมริกาที่ผ่านมา ทั้งบารัค โอบามา และ โดนัลด์ ทรัมป์ อาศัยข้อมูลขนาดใหญ่ที่วิเคราะห์โดยผู้เชี่ยวชาญ ซึ่งเป็นข้อมูลความชอบส่วนบุคคล อุปนิสัย ของผู้มีสิทธิ์เลือกตั้ง มากำหนดแนวทางการหาเสียงที่มีลักษณะเฉพาะสำหรับกลุ่มบุคคล จนสามารถสร้างรูปแบบการสื่อสารข้อมูลที่เกี่ยวกับการเลือกตั้งที่เข้าถึงผู้มีสิทธิ์เลือกตั้งด้วยวิธีการ เวลา และสถานที่ตรงกับกลุ่มเป้าหมายมากที่สุด (ที่มา: https://www.bbs.unibo.eu/elezioni-il-ruolo-dei-big-data-nelle-campagne-politiche-2/)

“การวิเคราะห์ข้อมูลที่รวบรวมได้นั้น จำเป็นอย่างยิ่งที่ต้องอยู่บนพื้นฐานของจริยธรรม เพื่อความถูกต้องและเกิดประโยชน์กับทุกฝ่ายที่เกี่ยวข้อง”

การนำข้อมูลมาใช้แก้ปัญหา

การนำข้อมูลมาใช้ในการแก้ปัญหาที่สนใจอย่างมีประสิทธิภาพ มีขั้นตอนดังนี้

การ ทำความ สะอาด ข้อมูล อยู่ ใน ขั้น ตอน ใด ของ การ ประมวล ผล ข้อมูล

แต่ละขั้นตอนมีความสัมพันธ์กับขั้นตอนในลำดับก่อนหน้า อย่างไรก็ดี สามารถย้อนกลับไปในขั้นตอนในลำดับต่างๆ ที่อยู่ก่อนหน้าได้ เพื่อปรับปรุงให้กระบวนการมีความสมบูรณ์มากขึ้น

1. การนิยามปัญหา การนิยามปัญหา (Problem Definition) เป็นการตั้งคำถามที่สนใจและต้องการหาคำตอบ ซึ่งควบมีความกระชับและชัดเจน ระบุผลลัพธ์ที่ต้องการจากกระบวนการแก้ไขปัญหาพร้อมรายละเอียด เงื่อนไข สถานการณ์เฉพาะที่เกี่ยวข้องกับปัญหาอย่างครบถ้วน ตัวอย่างเช่น โรงเรียนมีขยะจำนวนมาก ล้นถังขยะ และมีการทิ้งขยะไม่เป็นที่

2. การวิเคราะห์ปัญหา การวิเคราะห์ปัญหา (Problem Analysis) เป็นการทำความเข้าใจปัญหาเพื่อกำหนดสาระสำคัญของปัญหาและข้อมูลที่เกี่ยวข้อง โดยมีการทำความเข้าใจปัญหา ค้นหาสาระสำคัญของปัญหา พิจารณาว่าสิ่งใดเป็นผลลัพธ์จากการแก้ปัญหาและข้อมูลต่างๆ ที่จำเป็นในการหาผลลัพธ์ โดยมีรายละเอียดการดำเนินการที่เกี่ยวข้อง คือ
1. กำหนดข้อมูลหลักที่ใช้ในการประมวลผลเพื่อหาคำตอบ
2. กำหนดปริมาณข้อมูลที่ต้องรวบรวม ให้มีปริมาณที่เพียงพอและเหมาะสมกับการนำไปหาข้อสรุป
3. กำหนดกรอบเวลาในการรวบรวมข้อมูล
4. กำหนดชนิดของข้อมูล รูปแบบข้อมูล หน่วยของข้อมูล
ตัวอย่างเช่น โรงเรียนมีขยะจำนวนมาก โดยวิเคราะห์ข้อมูลที่เกี่ยวข้องทั้งหมด มีจำนวนถังขยะกี่ถัง ตั้งไว้ที่ใดบ้าง มีการทิ้งขยะในแต่ละถังในช่วงเวลาใดมาก-น้อยเท่าใด ความถี่ในการเก็บขยะ พบขยะที่บริเวณอื่นที่ไม่ใช่ถังขยะที่ใดบ้างและปริมาณมากเท่าใด ขยะที่พบเป็นประเภทใด

3. การรวบรวมข้อมูล การรวบรวมข้อมูล (Data Collection) เป็นการได้มาซึ่งข้อมูลที่ถูกต้อง ครบถ้วน และจำเป็นต่อการแก้ปัญหา โดยข้อมูลที่เกี่ยวข้องกับปัญหาอาจมีจำนวน ลักษณะ และประเภทที่แตกต่างกันไป ตามผลจากการวิเคราะห์ปัญหา ซึ่งขั้นตอนการรวบรวมข้อมูลประกอบด้วย

กำหนดแหล่งข้อมูล – ทำการรวบรวมจากแหล่งกำเนิดข้อมูล (ข้อมูลปฐมภูมิ) หรือ รวบรวมจากแหล่งอื่นที่มีการเก็บข้อมูลไว้ (ข้อมูลทุติยภูมิ) หากแหล่งข้อมูลมีความน่าเชื่อถือ สอดคล้องกับเวลา และสถานการณ์ จะช่วยเพิ่มความมั่นใจในความถูกต้องของข้อมูลมากยิ่งขึ้น

กำหนดวิธีการรวบรวมข้อมูล – ขึ้นกับลักษณะข้อมูล แหล่งข้อมูล และปริมาณข้อมูล

กำหนดวิธีการจัดเก็บข้อมูลที่รวบรวมได้ – คำนึงถึงการนำข้อมูลไปใช้ในขั้นตอนการประมวลผลข้อมูล

วิธีการรวบรวมข้อมูล ประกอบด้วย

การสังเกต – เฝ้าดูแล้วจดบันทึกสถานะต่างๆ ที่เกี่ยวกับปัญหาที่สนใจ

การสำรวจ/สอบถาม – ทำแบบสำรวจหรือแบบสอบถามที่ระบุรายละเอียดของข้อมูลที่ต้องการให้ครบถ้วน โดยกำหนดลักษณะคำถามและรูปแบบการตอบคำถามให้ผู้ตอบแบบสอบถามให้ข้อมูลได้ง่ายและถูกต้อง

การสัมภาษณ์ – ใช้คำถามกับผู้รับการสัมภาษณ์ ทำให้ได้คำอธิบายเพิ่มเติม แต่ใช้เวลาและค่าใช้จ่ายค่อนข้างสูง

การสนทนากลุ่ม – เก็บรวบรวมข้อมูลจากกลุ่มเป้าหมายที่คัดเลือกไว้โดยจัดให้มีสนทนากลุ่ม มีผู้ดำเนินการสนทนาเป็นผู้ซักถามประเด็นที่สนใจ

การเก็บรวบรวมข้อมูลดังกล่าว สามารถนำเทคโนโลยีมาประยุกต์ใช้ในการรวบรวมข้อมูลได้แบบอัตโนมัติ เพื่อช่วยลดข้อผิดพลาดในการจดบันทึก อีกทั้งยังสะดวกรวดเร็วในการรวบรวมข้อมูลปริมาณมาก รวมถึงสามารถเข้าถึงผู้ให้ข้อมูลได้อย่างไร้พรมแดน

4. การเตรียมข้อมูล การเตรียมข้อมูล (Data Preparation) เป็นการดำเนินการกับข้อมูลที่รวบรวมมา เพื่อให้เป็นข้อมูลที่มีคุณภาพ พร้อมนำไปประมวลผล อย่างไรก็ตาม ข้อมูลบางส่วนที่ได้จากการรวบรวมอาจจะยังไม่สามารถนำไปประมวลผลได้ในทันที จำเป็นต้องทำความสะอาดข้อมูล (Data Cleansing) ก่อน เช่น ข้อมูลที่มีความซ้ำซ้อน มีค่าหรือลักษณะที่ผิดจากข้อมูลอื่น หรือมีรายการข้อมูลที่ขาดหายไป

แนวทางในการตรวจสอบความผิดปกติของข้อมูล เพื่อทำความสะอาดข้อมูล ประกอบด้วย

ความสมบูรณ์ (Validity) – มีความถูกต้องตามข้อกำหนด
– ข้อมูลและชนิดข้อมูลมีความสอดคล้องกัน เช่น อายุเป็นข้อมูลชนิดตัวเลข ชื่อเป็นข้อมูลชนิดข้อความ
– ข้อมูลมีค่าสอดคล้องกับความเป็นจริง เช่น น้ำหนักต้องไม่เป็นจำนวนลบ วันที่ 30 ต้องไม่ใช่วันในเดือนกุมภาพันธ์
– ข้อมูลบางอย่างจะมีค่าไม่ซ้ำกัน เช่น รหัสประจำตัวนักเรียนในโรงเรียนเดียวกัน เลขทะเบียนรถ
– ข้อมูลบางอย่างต้องไม่เป็นค่าว่าง เช่น ชื่อนักเรียน วันเดือนปีเกิด
– ข้อมูลมีค่าผิดปกติจากข้อมูลค่าอื่น เช่น ข้อมูลอายุของนักเรียน ที่มีนักเรียนอายุ 150 ปี

รูปแบบเดียวกัน (Uniformity) – เก็บในรูปแบบเดียวกัน เช่น น้ำหนักหน่วยเป็นกิโลกรัม รูปแบบปีที่เป็นปีพุทธศักราช

ความครบถ้วน (Completeness) – มีการรวบรวมข้อมูลที่เกี่ยวข้องอย่างครบถ้วน

ความทันสมัย (Timeliness) – มีความสอดคล้องกับเวลา หรือสถานการณ์

5. การประมวลผลข้อมูล การประมวลผลข้อมูล (Data Processing) เป็นการดำเนินการกับข้อมูลเพื่อให้ได้สารสนเทศตามวัตถุประสงค์ โดยอาจได้ข้อค้นพบอื่นที่มีความหมายซ่อนอยู่ นำไปสู่ข้อสรุปที่สอดคล้องกับปัญหาที่กำหนด หรือนำไปใช้ประโยชน์ได้

การวิเคราะห์ข้อมูลนอกจากวิเคราะห์ตามวัตถุประสงคืแล้ว อาจวิเคราะห์เพื่อค้นหาความหมายอื่นที่ซ่อนอยู่ รวมถึงสาระสำคัญที่จะเป็นประโยชน์จากข้อมูล เช่น ความสัมพันธ์ระหว่างข้อมูล ความเชื่อมโยงของข้อมูล รูปแบบที่ปรากฏในข้อมูล ทั้งนี้เพื่อให้สิ่งที่ค้นหามีความชัดเจน ต้องรวบรวมข้อมูลปริมาณที่มากพอจากแหล่งข้อมูลที่เชื่อถือได้

สำหรับการวิเคราะห์ข้อมูลมีหลายวิธี แต่ในที่นี้จะกล่าวถึงเฉพาะการวิเคราะห์เชิงพรรณนา ซึ่งเป็นการดำเนินการกับข้อมูลเชิงปริมาณ เช่น จำนวนเต็มหรือจำนวนจริง โดยการวิเคราะห์เชิงพรรณนา (Descriptive Analysis) เป็นการวิเคราะห์ข้อมูลเพื่ออธิบายคุณลักษณะของชุดข้อมูลที่สนใจ โดยใช้ค่าสถิติ เช่น ค่าเฉลี่ย (Mean), มัธยฐาน (Median), ฐานนิยม (Mode), ร้อยละ (Percentage), ความถี่ (Frequency), พิสัย (Range)

6. การนำเสนอข้อมูล การนำเสนอข้อมูล (Data Presentation) เป็นการนำเสนอข้อสรุปจากการประมวลผลในรูปแบบที่สื่อความหมายอย่างชัดเจน โดยในที่นี้กล่าวถึงการสื่อความหมายข้อมูลในรูปแบบ การทำข้อมูลให้เป็นภาพ (Data Visualization) ซึ่งเป็นการนำเสนอผลลัพธ์ของข้อมูลในรูปแบบที่ช่วยให้ผู้รับสารเข้าใจตรงตามวัตถุประสงค์ของผู้ส่งสาร เช่น การนำเสนอในรูปแผนภูมิ แผนภาพ กราฟ และอินโฟกราฟฟิก

ตัวอย่างสถานการณ์ที่ 1 วิเคราะห์สถานการณ์

สมมตินักเรียนคนหนึ่งได้รับเงินจากผู้ปกครองเป้นจำนวนเท่ากันในทุกๆ วัน เมื่อสำรวจข้อมูลเงินคงเหลือของนักเรียนคนดังกล่าวเป้นเวลา 10 วัน พบว่ามีค่าดังนี้

การ ทำความ สะอาด ข้อมูล อยู่ ใน ขั้น ตอน ใด ของ การ ประมวล ผล ข้อมูล

เมื่อพิจารณาค่าของข้อมูลพบว่า เงินคงเหลือในวันที่ 6 มีค่าแตกต่างจากวันอื่นๆ เราอาจตั้งข้อสังเกตว่ามีความผิดปกติเกิดขึ้นกับข้อมูล ซึ่งเป็นไปได้ใน 2 ลักษณะ คือ เกิดจากการบันทึกข้อมูลผิดพลาด หรือเป็นข้อมูลที่ถูกต้องแล้ว เนื่องจากวันที่ 6 นักเรียนนำเงินไปจ่ายค่าบริการถ่ายรูป 200 บาท แต่นักเรียนลืมจ่าย

ก่อนนำข้อมูลเงินคงเหลือไปประมวลผล เราต้องพิจารณาเพิ่มเติมว่าจะนำข้อมูลของวันที่ 6 ไปเป็นส่วนหนึ่งของการประมวลผลหรือไม่ ทั้งขึ้นอยู่กับความเหมาะสม แล้วแต่กรณี

สถานการณ์ที่ 1 ต้องการนำข้อมูลเงินคงเหลือมาหาค่าเฉลี่ย และความผิดปกติของข้อมูลวันที่ 6 เกิดจากการลืมจ่ายค่าถ่ายรูป 200 บาท จะเห็นได้ว่าการตัดข้อมูลเงินวันที่ 12 ส่งผลให้ค่าเฉลี่ยที่คำนวณได้มีค่าเป็น 27.64 บาท และถ้าใช้ข้อมูลวันที่ 6 จะมีค่าเฉลี่ยเป็น 47.03 บาท ซึ่งอาจพิจารณาได้ว่าค่าเฉลี่ยดังกล่าวเป็นค่าเฉลี่ยที่คลาดเคลื่อนจากข้อมูลจริง เนื่องจากเงิน 200 บาท ไม่ได้เป็นส่วนหนึ่งของรายรับปกติ

สถานการณ์ที่ 2 ต้องการนำข้อมูลเงินคงเหลือมาหาค่าต่ำสุด และความผิดปกติของวันที่ 6 เกิดจากการลืมจ่ายค่าถ่ายภาพ แต่ข้อมูลของวันดังกล่าวมีค่าสูงที่สุด จึงไม่ส่งผลต่อการหาค่าต่ำสุด

การ ทำความ สะอาด ข้อมูล อยู่ ใน ขั้น ตอน ใด ของ การ ประมวล ผล ข้อมูล

ตัวอย่างสถานการณ์ที่ 2 ใช้แผนภูมิแท่งตรวจสอบความผิดปกติ

จากข้อมูลในสถานการณ์ที่ 1 เราสามารถนำข้อมูลมาสร้างแผนภูมิแท่ง เพื่อหาค่าข้อมูล เพื่อการสังเกตที่ง่าย

การ ทำความ สะอาด ข้อมูล อยู่ ใน ขั้น ตอน ใด ของ การ ประมวล ผล ข้อมูล

การตรวจสอบข้อมูลตั้งแต่ขั้นตอนการรวบรวมข้อมูลจะช่วยให้ได้ข้อมูลที่มีคุณภาพ แต่อย่างไรก็ตามข้อมูลอาจมีข้อผิดพลาดอยู่ ดังนั้นการใช้เทคโนโลยีมาช่วยในการเตรียมข้อมูลจะทำให้ได้ข้อมูลที่มีคุณภาพมากยิ่งขึ้น

อ้างอิง :

สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี, “เทคโนโลยี(วิทยาการคำนวณ)”, โรงพิมพ์แห่งจุฬาลงกรณ์มหาวิทยาลัย, ศูนย์หนังสือแห่งจุฬาลงกรณ์มหาวิทยาลัย, 2562 หน้า 78

แนวหน้า, “สกู๊ปแนวหน้า : เลือกตั้งมะกัน2020(1) หลากปัจจัยชี้ขาดชัยชนะ”, https://www.naewna.com/likesara/528210 สืบค้นวันที่ 27 พ.ย. 2563