การชำระข้อมูลคืออะไร?
การชำระข้อมูลเป็นกระบวนการที่จำเป็นสำหรับการเตรียมข้อมูลดิบสำหรับแอปพลิเคชันแมชชีนเลิร์นนิง (ML) และระบบข่าวกรองธุรกิจ (BI) ข้อมูลดิบอาจมีข้อผิดพลาดมาก ซึ่งอาจส่งผลกระทบต่อความถูกต้องของแบบจำลอง ML และนำไปสู่การคาดการณ์ที่ไม่ถูกต้องและผลกระทบเชิงลบต่อธุรกิจได้
ขั้นตอนสำคัญของการชำระข้อมูลรวมถึงการแก้ไขและลบเขตข้อมูลที่ไม่ถูกต้องและไม่สมบูรณ์ การระบุและการลบข้อมูลซ้ำและข้อมูลที่ไม่เกี่ยวข้อง และการแก้ไขการจัดรูปแบบ ค่าที่ขาดหายไป และการสะกดคำผิด
การชำระข้อมูลสำคัญอย่างไร?
เมื่อบริษัทใช้ข้อมูลขับเคลื่อนการตัดสินใจ บริษัทต้องใช้ข้อมูลที่มีความเกี่ยวข้อง ครบถ้วน และถูกต้อง อย่างไรก็ตาม ชุดข้อมูลมักมีข้อผิดพลาดที่จะต้องนำออกก่อนทำการวิเคราะห์ ซึ่งอาจรวมถึงข้อผิดพลาดของการจัดรูปแบบ เช่น วันที่และข้อมูลการเงิน และหน่วยวัดอื่นๆ ที่เขียนไม่ถูกต้อง ซึ่งอาจส่งผลกระทบที่สำคัญต่อการคาดการณ์ได้ ค่าผิดปกติเป็นสิ่งที่น่ากังวลเป็นพิเศษ เนื่องจากผลลัพธ์จะถูกบิดเบือนในทุกกรณี ข้อผิดพลาดของข้อมูลอื่นๆ ที่พบบ่อยนั้นรวมถึงจุดข้อมูลที่เสียหาย ข้อมูลที่ขาดหายไป และการสะกดผิด ข้อมูลที่ผ่านการชำระแล้วสามารถช่วยในแบบจำลอง ML ที่มีความแม่นยำสูง
ข้อมูลที่สะอาดและถูกต้องเป็นสิ่งสำคัญมากสำหรับการฝึกแบบจำลอง ML เนื่องจากการใช้ชุดข้อมูลที่ไม่ดีในการฝึกอาจส่งผลให้เกิดการคาดการณ์ที่ผิดพลาดในแบบจำลองที่นำมาใช้ นี่คือสาเหตุหลักที่นักวิทยาศาสตร์ข้อมูลใช้เวลาส่วนใหญ่ไปกับการเตรียมข้อมูลสำหรับ ML
คุณจะตรวจสอบความสะอาดของข้อมูลของคุณได้อย่างไร
กระบวนการชำระข้อมูลประกอาบด้วยขั้นตอนในการระบุและแก้ไขปัญหาหลายขั้นตอน ขั้นตอนแรกคือการวิเคราะห์ข้อมูลเพื่อระบุหาข้อผิดพลาด ซึ่งอาจต้องใช้เครื่องมือวิเคราะห์เชิงคุณภาพที่ใช้กฎ รูปแบบ และข้อจำกัดต่างๆ เพื่อระบุค่าที่ไม่ถูกต้อง ขั้นตอนต่อไปคือการลบหรือแก้ไขข้อผิดพลาด
ขั้นตอนการชำระข้อมูลทั่วไปจะรวมการแก้ไขสิ่งต่อไปนี้:
- ข้อมูลซ้ำ: ทิ้งข้อมูลที่ซ้ำ
- ข้อมูลที่ไม่เกี่ยวข้อง: ระบุเขตข้อมูลที่สำคัญสำหรับการวิเคราะห์เฉพาะกรณี และลบข้อมูลที่ไม่เกี่ยวข้องออกจากการวิเคราะห์
- ค่าผิดปกติ: ค่าผิดปกติสามารถส่งผลต่อประสิทธิภาพของแบบจำลองได้มาก ดังนั้นจึงต้องระบุค่าผิดปกติและพิจารณาดำเนินการให้เหมาะสม
- ข้อมูลที่ขาดหายไป: ระบุและทิ้งข้อมูลหรือเติมข้อมูลที่ขาดหายไป
- ข้อผิดพลาดเชิงโครงสร้าง: แก้ไขการสะกดผิดและความไม่สอดคล้องกันอื่นๆ และทำให้ข้อมูลสอดคล้องกับรูปแบบหรือแบบแผนทั่วไป
Amazon SageMaker Data Wrangler เป็นคุณสมบัติหนึ่งของ Amazon SageMaker ที่จะช่วยคุณเตรียมข้อมูลสำหรับ ML ได้อย่างรวดเร็วและง่ายดาย ด้วย Amazon SageMaker Data Wrangler คุณสามารถดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์ของการเตรียมข้อมูล รวมถึงการเลือกข้อมูล การชำระข้อมูล การสำรวจ การตรวจจับความเอนเอียง และการแสดงผลเป็นภาพจากอินเทอร์เฟซทางภาพเดียว
เมื่อใช้เครื่องมือคัดเลือกข้อมูล SageMaker Data Wrangler คุณจะสามารถเลือกข้อมูลดิบที่คุณต้องการจากแหล่งที่มาของข้อมูลหลายแหล่ง แล้วนำเข้าข้อมูลได้ด้วยคลิกเดียว เมื่อนำเข้าข้อมูลแล้ว คุณสามารถใช้รายงานคุณภาพข้อมูลและมุมมองเชิงลึกของคุณภาพข้อมูล เพื่อตรวจสอบคุณภาพของข้อมูลและตรวจหาสิ่งผิดปกติโดยอัตโนมัติ เช่น แถวข้อมูลซ้ำและการรั่วไหลของเป้าหมาย SageMaker Data Wrangler ประกอบด้วยเครื่องมือแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมฟีเจอร์ต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ
เพื่อเริ่มต้นใช้งาน SageMaker Data Wrangler โปรดดูการสอนใช้งาน
ขั้นต่อไปของ Data Cleansing
เริ่มต้นการสร้างในคอนโซล
เริ่มต้นสร้างในคอนโซลการจัดการของ AWS
ลงชื่อเข้าใช้
AWS จะสิ้นสุดการรองรับ Internet Explorer ในวันที่ 07/31/2022 เบราว์เซอร์ที่รองรับ ได้แก่ Chrome, Firefox, Edge และ Safari เรียนรู้เพิ่มเติม »
การทำ Data Cleansing และ Database Marketing
เริ่มต้นด้วยการตั้งคำถามว่าสองคำนี้เกี่ยวข้องกันอย่างไร แล้ว Data Cleansing คืออะไรมีประโยชน์อย่างไร ทำเป็นระบบงานหรือ Application เลยดีไหม เดี๋ยวมีคำตอบค่ะ
Database Marketing นักการตลาดสมัยนี้มุ่งเน้นการวิเคราะห์ฐานข้อมูลลูกค้า สำรวจตลาด โดยปลายทางคือต้องการจัดกลุ่มลูกค้าเป็น Segment และจัดกิจกรรมส่งเสริมการตลาดสำหรับลูกค้าแต่ละกลุ่มนั่นเอง แต่หากข้อมูลลูกค้าที่มีไม่ทันสมัยหรือไม่ update จะส่งผลให้ปลายทางคือข้อมูลที่วิเคราะห์ออกมานั้นผิดไปจากความเป็นจริง เป็นเหตุและผลที่ทำให้หลายๆ องค์กรต้องมีการจัดทำ Data Cleansing ทำให้ข้อมูลลูกค้านั้นมีความถูกต้องและเป็นปัจจุบันที่สุด เช่น อาชีพ Lifestyle รสนิยมและความชอบต่างๆ
Data Cleansing ในองค์กรขนาดใหญ่มักดำเนินการปีละครั้งขึ้นอยู่กับประเภทลูกค้า จำแนกเป็นลูกค้า Corporate และลูกค้า Consumer ทั่วไป หากเป็นลูกค้า Corporate ควรมีความถูกต้องของข้อมูลสูงเนื่องจากเป็นกลุ่มที่มี Volume การซื้อขนาดใหญ่ สามารถดำเนินการ update ข้อมูลปีละครั้งและเป็นประจำ ลูกค้า Consumer ทั่วไปนั้น โดยธรรมชาติลูกค้ากลุ่มนี้จะเปลี่ยนแปลงเบอร์โทรหรือที่อยู่ได้ง่าย หากมีงบประมาณเพียงพอที่จะติดตาม update ข้อมูลปีละครั้งได้จะทำให้ผลของการวิเคราะห์ Database Marketing มีความถูกต้องแม่นยำมากขึ้น เนื่องจาก ข้อมูลที่ทำการ Cleansing เรียบร้อยแล้วจะเป็นข้อมูลที่มีคุณภาพคือ มีความครบถ้วน สมบูรณ์ กลั่นกรอง และผ่านการตรวจสอบแล้ว
จากคำถามคำตอบข้างต้นทำให้เราทราบแล้วว่าสองคำนี้เกี่ยวข้องกัน Data Cleansing และ Database Marketing และยังมีอีกหนึ่งคำที่มักไปด้วยกันกับสองคำนี้คือคำว่า ระบบงาน Application CRM, ระบบงาน Application Data Cleansing
เรื่องของระบบงาน งานทั้งหลายทั้งปวงมีระบบก็ย่อมดีกว่าการไม่มีระบบ การทำระบบให้จัดการ Cleansing Data ได้และใช้งานได้ไปนานๆ ได้รับความนิยมมากในปัจจุบัน เพราะพัฒนาระบบขึ้นมาได้แล้วถึงเวลาจะ Clean เมื่อไรก็นำมาดำเนินการได้ตลอดเวลา จัดระบบให้ดีมีการวางข้อมูลเข้า-ออกให้ดี ระบบของท่านก็สามารถใช้ได้หลายสิบปี คุ้มค่ากับการลงทุนมาก
เริ่มต้นจากการออกแบบโครงสร้างข้อมูล (Data Structure) ท่านวิเคราะห์ออกมาเลยว่าข้อมูลใดที่จะจัดเก็บและควรมีข้อมูลอยู่แล้วบ้างบางส่วน ไม่ควรเริ่มต้นจากการตั้งสมมุติฐานวาดฝันข้อมูลว่าจะมีทั้งหมดในอนาคตหลังจากพัฒนาระบบงาน Application Data Cleansing หากเริ่มเช่นนี้งานของท่านก็จะห่างไกลกับความสำเร็จมาก
ขั้นตอนการพัฒนาระบบงาน Application Data Cleansing
- ออกแบบโครงสร้างข้อมูล (Data Structure)
- วิเคราะห์ระบบและจัดทำ Flow, Diagram
- ออกแบบ User Interface
- ดำเนินการพัฒนาโดยเขียนโปรแกรมให้มี Flow ข้อมูลเข้า-ออก และรายงานกราฟสรุป
- จัดทำสิทธิ์หรือ Level การเข้าใช้ข้อมูล
- เมื่อระบบพัฒนาเสร็จ ควรมีการทำ Testing
- จัดทำ System, User Manual
- ทำการ Maintenance ระบบอย่างต่อเนื่อง
สนใจหาผู้ทำ Data cleansing สำรวจตลาด วิจัยตลาด สามารถดูรายละเอียดเพิ่มเติมได้ที่ Database Marketing & ระบบ CRM
ติดตามข่าวสาร บทความเพิ่มเติมที่นี่ News & Article