วิทยาศาสตร์ ข้อมูล เรียนยากไหม

อาชีพ Data Scientist หรือ “นักวิทยาศาสตร์ข้อมูล” เป็นอาชีพที่ทุกคนได้ยินบ่อยและได้ร้บความสนใจมากขึ้น เพราะตัวงานได้โฟกัสกับการแพลน แก้ไขปัญหา ช่วยองค์กรหรือธุรกิจให้บรรลุเป้าหมาย โดยการนำดาต้าที่มีอยู่มาใช้ให้เกิดประโยชน์มากที่สุด

อีกทั้งยังส่งเสริมการจัดการอย่างเป็นระบบด้วย Machine Learning หรือ AI ทำให้สามารถคาดการณ์ความต้องการของตลาด รู้ใจลูกค้าล่วงหน้าได้ และเพิ่มความสะดวกสบายรวดเร็วในแต่ละกระบวนการ เพราะเหตุนี้ทำให้บริษัทต้องการตัวคนที่มีความเชี่ยวชาญด้านนี้จริงๆพอสมควร ฟังดูแล้วอาชีพนี้ก็เหมือนซูเปอร์แมนเลยใช่ไหมคะ

ในบทความนี้ เราจะมารู้จักกับอาชีพ Data Scientist กัน รวมถึงสกิลที่ต้องเรียนรู้สำหรับอาชีพนี้ และแนะนำคอร์สที่น่าสนใจ เพื่อคนที่สนใจอาชีพด้านนี้จะได้ไปเริ่มศึกษากันได้เลยค่า

มาทำความรู้จักอาชีพ นักวิทยาศาสตร์ข้อมูล กันเลย

สารบัญเนื้อหา

Data Scientist คือใคร อาชีพนี้ทำอะไรบ้าง

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
Data Scientist ผู้ค้นพบ solution ของปัญหา [ขอขอบคุณรูปจาก Illustration by Freepik Storyset]

ในยุคที่โลกของเราหมุนไปเร็วขึ้นด้วยเทคโนโลยี ข้อมูลมากมายเกิดขึ้นในทุกเสี้ยววินาที การใช้ประโยชน์จากข้อมูลที่เกิดขึ้นนั้นก็เป็นเรื่องที่ควรทำอย่างยิ่ง โดยคนที่จะมาทำหน้าที่นี้ก็คือ Data Scientist นั่นเอง 

หากจะพูดสั้นๆให้เข้าใจง่ายๆ หน้าที่หลักของ Data Scientist หรือ นักวิทยาศาสตร์ข้อมูล คือ

“การใช้ความรู้ด้านคอมพิวเตอร์ไซน์ เลข สถิติ และความเข้าใจเชิงธุรกิจ เข้ามาสร้างโมเดลในการพัฒนาหรือหาทางออกให้กับปัญหาต่างๆขององค์กร โดยเน้น Machine Learning, AI (Artificial Intelligence), และ Automation”

และสำหรับคนที่รู้สึกว่าอาชีพ Data Scientist กับ Data Analyst มีความคล้ายกันอยู่ แล้วแตกต่างกันอย่างไร ลองอ่านในบทความ Data Scientist กับ Data Analyst แตกต่างกันอย่างไร ทำงานอาชีพไหนดี ได้เลย

Solution ของปัญหาที่ซ่อนอยู่

Solution ที่ Data Scientist คิดขึ้นมานั้นสามารถนำมาแก้ปัญหาต่าง ๆ ภายในหรือทำให้การทำงานในองค์กรมีประสิทธิภาพได้ ซึ่งปัญหาหรือโจทย์ที่ต้องแก้นั้น ก็มีหลากหลายมากตามแต่ละองค์กร

เช่น การสร้างระบบแนะนำสินค้าเพื่อจัดการกับยอดขายที่ลดลงของบริษัท เมื่อเรากดเลือกสินค้าชนิดหนึ่งบนเว็บไซต์ลงในตะกร้า ก็จะมีสินค้าที่มักจะใช้ด้วยกัน หรือหมวดหมู่เดียวกันโผล่ออกมาให้เราเห็น ซึ่งก็อาจกระตุ้นความต้องการในการช้อปปิ้งของเรา และก็เพิ่มโอกาสในการขายก็เป็นได้

หรือการที่เรามีบัตรสะสมแต้มของแบรนด์ต่าง ๆ บริษัทสามารถเก็บข้อมูลและนำไปวิเคราะห์ สร้างโมเดลมาดูว่ากลุ่มลูกค้าแต่ละกลุ่มมีแนวโน้มจะใช้สินค้าประเภทไหนอีก แล้วส่งอีเมล หรืออัพเดทเกี่ยวกับโปรโมชั่นให้กับลูกค้าในกลุ่มนั้น ๆ

Use case ตัวอย่างของงาน Data Scientist

อย่างที่เล่าให้ฟังข้างต้นว่า เป้าหมายของ Data Scientist คือการแก้ปัญหาหรือแก้โจทย์ ในองค์กร โดยใช้สกิลการเขียนโปรแกรม ความรู้ด้านสถิติ และความเข้าใจในเชิงธุรกิจเข้ามาร่วมด้วย แต่ถึงอย่างไรก็ตามปัญหาของแต่ละธุรกิจ หรือองค์กรก็แตกต่างกันมาก ทำให้งานก็แตกต่างกันออกไปตามโจทย์ที่ได้รับ

เราลองมาดูตัวอย่างงานของบริษัทที่เราน่าจะเคยได้ยินชื่อมาบ้าง ว่างาน Data Scientist ทำอะไรได้บ้าง

ตัวอย่างของงาน Data Scientist ใน Amazon

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
Recommendation System ของ Amazon.com [ขอขอบคุณรูปจาก AI Society]

Amazon.com ใช้ Recommendation system ในการแนะนำสินค้าให้กับลูกค้าโดยสำรวจข้อมูลบันทึกการซื้อสินค้าของลูกค้าเอง การซื้อสินค้าของลูกค้าคนอื่น ๆ ที่มีการจับจ่ายใช้สอยคล้ายกัน และเรทการให้คะแนนสินค้าที่เหมือนกันด้วย

นอกจากนี้ Data Scientist ยังสร้างโมเดลทำนายว่าลูกค้าจะมีแนวโน้มสินค้าตัวไหน (Demand Prediction) แล้วส่งสินค้าไปเก็บไว้ในคลังสินค้าที่ใกล้ลูกค้าที่สุด เพื่อที่จะสำรองเอาไว้ในกรณีที่ลูกค้าสั่งซื้ออีกด้วย เป็นการลดค่าใช้จ่ายในการสำรองของ และเพิ่มความพึงพอใจของลูกค้าไปในตัว

ทั้งยังมีการตั้งราคาสินค้าตามหลายปัจจัยเช่น ประวัติการซื้อของเรา ราคาของคู่แข่ง จำนวนสินค้าที่มีอยู่ ทำให้สามารถจัดส่วนลดสำหรับสินค้าที่เป็นที่นิยม และสร้างกำไรจากสินค้าที่ไม่ค่อยฮิตได้

ตัวอย่างของงาน Data Scientist ใน Airbnb

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
Airbnb Insight Dashboard [ขอขอบคุณรูปจาก Inside Airbnb]

Airbnb เป็นบริษัทหนึ่งที่มีข้อมูลเยอะมาก ทั้งข้อมูลของลูกค้า ข้อมูลของเจ้าของที่พัก โฮมสเตย์ ข้อมูลการจอง และ การเยี่ยมชมเว็บไซต์ Data Scientist จึงใช้ข้อมูลในการเพิ่มประสิทธิภาพของการค้นหา และใช้ demographic analytics ในการวิเคราะห์ Bounce rate ว่ามีคนเข้ามาหน้าเว็บไซน์แล้วกดออกเลยมากแค่ไหน แล้วเราจะแก้ปัญหายังไง

เมื่อพบว่าลูกค้าชอบกดเข้ามาแล้วออกเลย หรือชอบคลิกดูลิงค์ประเทศเพื่อนบ้าน จึงทำเวอร์ชั่นใหม่ให้โดยเพิ่มสถานที่เที่ยว จุดหมายปลายทางยอดนิยม ส่งผลให้จำนวนคนเข้าชมเพิ่มขึ้น อยู่ในเว็บไซต์เพิ่มมากขึ้นและก็เพิ่มยอดการจองมากขึ้นนั่นเอง

ตัวอย่างของงาน Data Scientist ใน Spotify

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
Personalized Spotify Playlist [ขอขอบคุณรูปจาก The Startups]

Spotify เป็นแอพที่แนะนำเพลงแบบเฉพาะบุคคลให้กับลูกค้ามากกว่า 100 ล้านคน ดูตัวเลขก็รู้แล้วว่าต้องมีข้อมูลเยอะมาก ถึงขนาด Big Data แน่ ๆ เลยใช้ Machine Learning เพิ่มประสิทธิภาพในการค้นหา แนะนำเพลง และเพิ่มความพึงพอใจของลูกค้า สร้าง playlist พิเศษเฉพาะบุคคลจากลักษณะนิสัยการฟังเพลง และยังมี feature ในการวิเคราะห์หลายตัว

หนึ่งในนั้นทำให้ศิลปินและผู้จัดการสามารถวิเคราะห์การสตีมเพลง ความคิดเห็นของแฟนเพลง จำนวนเพลงฮิตติดชาร์ตที่อยู่ใน playlist ต่าง ๆ ที่สร้างขึ้นได้ นอกจากนี้ยังมี insight เกี่ยวกับเทรนด์ของเพลงที่ถูกปล่อยออกมาให้ชาวโลกได้รับรู้

อยากเป็น Data Scientist ต้องมีความรู้พื้นฐานด้านไหน

สำหรับคนที่อยากเป็น Data Scientist อยากให้ลองศึกษาสกิลพื้นฐานเหล่านี้ดูก่อน จากนั้นลองดูว่าเราขาดสกิลอะไรบ้างก่อนที่จะสมัครงาน โดยอ่านรายละเอียดงานใน Job Description และไปหาเรียนรู้เพิ่มเติมค่ะ เพราะหน้าที่ของ Data Scientist จะแตกต่างกันไปตามแต่ละองค์กร แล้วเดี๋ยวเราจะมีคอร์สเรียนแนะนำให้ในส่วนท้ายของบทความด้วยนะคะ

พื้นฐาน 1) ทักษะการเขียนโปรแกรม Python, R และ SQL

การเขียนโปรแกรมเป็นทักษะหนึ่งที่ควรจะมีของอาชีพ Data Scientist ค่ะ เพราะเราต้องทำงานกับข้อมูลโดยใช้เครื่องมือแตกต่างกันไป โดยที่บางเครื่องมือต้องเขียนโค้ดเยอะ บางเครื่องมือก็มีตัวช่วยทำให้เราไม่ต้องเขียนโค้ดมากเกินไป

Python ภาษาแรกๆที่ Data Scientist ใช้

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
ภาษาโปรแกรมมิ่ง Python

ถือว่าเป็นภาษาที่เป็นที่นิยมมากๆ และเป็นภาษาแรกๆที่ Data Scientist เริ่มใช้เลยก็ว่าได้ เพราะเป็นภาษาที่เราสามารถเรียนรู้ได้ไม่ยาก เนื่องจากมันถูกออกแบบมาเพื่อให้ง่ายต่อการอ่านอย่างเป็นขั้นตอนของมนุษย์ ใช้เขียนโปรแกรมได้หลากหลาย และมี library รองรับมากมาย

library คือโค้ดชุดหนึ่งที่คนอื่นเค้าเขียนเอาไว้ เราสามารถอิมพอร์ตมันเข้ามาไว้ใช้งานได้เพื่อที่ว่าเราจะได้ไม่ต้องทำทุกอย่างด้วยตัวเอง

เราลองมาดูตัวอย่าง library ที่ Data Scientist มือใหม่ใช้บ่อยๆกันค่ะ

  • NumPy: เป็น library ที่มีฟังก์ชั่นเกี่ยวกับคณิตศาสตร์ สถิติ และการคำนวณต่างๆ โดยมักจะจัดการข้อมูลชุด (Array)
  • pandas: เป็น library ที่มีฟังก์ชั่นในการจัดการข้อมูลให้อยู่ในรูปแบบที่เราต้องการ (Data Wrangling) และสามารถเอาไปใช้ต่อได้
  • Matplotlib: เป็น library ที่มีฟังก์ชั่นในการสร้างกราฟทำให้เราเห็นภาพได้แบบง่ายๆ และรวดเร็ว เหมือนกับใน Excel 
  • scikit-learn: เป็น library ที่ได้รับความนิยมมากที่สุดในการสร้างโมเดล Machine Learning ตั้งแต่แบบง่ายๆ จนไปถึงปรับเปลี่ยนค่าพารามิเตอร์เพื่อให้ได้โมเดลที่ดีขึ้น

R ภาษาคู่ใจคนรักสถิติ

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
ภาษาโปรแกรมมิ่ง R

เป็นภาษาหนึ่งที่ได้รับความนิยมในวิเคราะห์ข้อมูล และการคำนวณทางสถิติ ต้องบอกว่าคนชอบสถิติทุกคนถูกใจ R อย่างแน่นอน สามารถทำได้ตั้งแต่การคลีนข้อมูล (Data Wrangling) ตรวจสอบ สำรวจข้อมูลเบื้องต้นเพื่อตั้งสมมติฐาน ก่อนนำไปสร้างโมเดลทางสถิติเพื่อทดสอบสมมติฐาน (Exploration Data Analysis – EDA) รวมถึงการสร้าง Machine Learning

นอกจากใช้คิดคำนวณทั่วไปแล้ว นี้ยังมี Package ไว้เพิ่มความสามารถ คล้ายๆกับ Python อีกด้วย โดยเราต้องติดตั้ง Package แล้วเรียกใช้งานด้วยฟังก์ชั่น library()

ลองมาดูแพคเกจที่เราจะมีโอกาสได้เจอบ่อยๆกันค่ะ

  • dplyr: เป็นแพคเกจที่จัดการ dataframe โดยเฉพาะการเลือกคอลัมน์ ฟิลเตอร์ข้อมูล หรือสุ่มตัวอย่าง
  • lubridate: เป็นแพคเกจที่สามารถแปลงวัน และ เวลาได้ อย่างเช่นเปลี่ยนวันที่แบบตัวเลขไปเป็นตัวย่อของเดือน
  • ggplot2: เป็นแพคเกจยอดนิยมที่สร้างกราฟได้หลายหลาย และมีลูกเล่นเยอะมาก
  • randomForest: เป็นแพคเกจสร้าง Machine Learning โมเดล และยังสามารถเทรนโมเดลแบบ Unsupervised ได้ด้วย
  • caret: เป็นแพคเกจที่มีประโยชน์มากในการเทรนโมเดล Regression ไปจนถึง Classification ซึ่งเป็น Machine Learning
  • shiny: เป็นแพคเกจที่สร้างเว็บแอพพลิเคชั่นได้ สร้าง dashboard บนนั้นได้
  • ggmap: เป็นแพคเกจที่จัดการข้อมูลเชิงพื้นที่ (Spatial Data) และโหลดแผนที่จาก Google Map แล้วรวมเข้า ggplot ได้

ตัวอย่างหนึ่งในชีวิตจริงคือ การวิเคราะห์ Text จากทวิตเตอร์ โดยการเก็บข้อมูลในทวิตเตอร์ผ่านแพคเกจ twitteR แล้วนำมาวิเคราะห์ หา Insight สร้างกราฟ ผ่านแพคเกจ RGoogleAnalytics

ถ้าเพื่อนอ่านมาถึงตรงนี้แล้วรู้สึกอยากเรียน R ขึ้นมาบ้างแล้ว คลิ้กเข้าไปในลิ้งค์นี้ สอนเขียน R Programming เข้าใจง่าย ๆ ใน 20 นาที ได้เลยค่ะ

จะเห็นได้ว่าทั้งสองภาษานี้สามารถทำอะไรได้หลายอย่าง ตั้งแต่การคลีนข้อมูลจนไปถึงสร้างโมเดลที่ซับซ้อนได้

พื้นฐาน 2) มีความเข้าใจเรื่อง Statistics หรือ สถิติ

ต่อให้ Data Scientist จะมีสกิลการเขียนโค้ดที่ยอดเยี่ยมมากแค่ไหน แต่ถ้าไม่เข้าใจสถิติพื้นฐาน ก็จะไม่สามารถตีความ เปรียบเทียบโมเดลที่เราสร้างขึ้นมา หรือแม้แต่สื่อสารผลลัพธ์ให้คนอื่นเข้าใจได้ ซึ่งก็เป็นเรื่องน่าเสียดายมากค่ะ

เพราะฉะนั้นเราลองมาดูคอนเซ็ปต์สำคัญๆที่ Data Scientist มือใหม่ควรทำความเข้าใจกัน ซึ่งก็มี

  • สถิติเชิงพรรณนา (Descriptive Statistics): เพื่อเข้าใจลักษณะของดาต้าที่เรามีอยู่ ทั้งเรื่อง Normal Distribution, ค่าเฉลี่ย (Mean), มัธยฐาน (Median), ฐานนิยม (Mode), ควอไทล์ (Quartile), ค่าแปรปวน (Variance), ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation), ความเบ้ (Skewness) และความโด่ง (Kurtosis) ซึ่งเป็นพื้นฐานทั้งหมด
  • ทฤษฎีความน่าจะเป็น (Probability Theory): ประกอบไปด้วยหลายหัวข้อด้วยกัน เช่น การแจกแจงความน่าจะเป็น (Probability Distribution), นัยสำคัญทางสถิติ (Statistical Significance) และ การทดสอบสมมติฐาน (Hypothesis Testing) เป็นต้น ซึ่งเน้นให้เราเห็นภาพรวมของตัวแปรสุ่ม(Random Variable) และหาค่าความน่าจะเป็นของเหตุการณ์ที่เราสนใจ
  • สถิติแบบเบส์ (ฺBayesian Statistics): เป็นสถิติที่แอดวานซ์ขึ้นมาหน่อย จะทำให้เราเข้าใจเรื่อง Machine Learning ได้มากขึ้น มีคอนเซ็ปเรื่อง ความน่าจะเป็นแบบมีเงื่อนไข (Conditional Probability), Priors และ Posteriors, ภาวะน่าจะเป็นสูงสุด (Maximum Likelihood)

อ่านมาสักพักเริ่มรู้สึกว้าวกันแล้วใช่ไหมคะ แต่ยังไม่หมดแค่นี้ ไปต่อพื้นฐานที่สามเลย

พื้นฐาน 3) AI, Machine learning, Deep learning

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
Machine Learning [ขอขอบคุณรูปจาก Illustration by Freepik Storyset]

เมื่อเรามีพื้นฐานการเขียนโปนแกรม และพอรู้พื้นฐานสถิติบ้างแล้ว ก็ได้เวลาเรียนรู้เรื่องแอดวานซ์ขึ้นมาหน่อยอย่างเรื่องการสร้างโมเดล Machine Learning, Deep Learning และ AI

Machine Learning คืออะไร

Machine learning คือการเรียนรู้ของเครื่องคอมพิวเตอร์จากข้อมูลที่เราป้อนเข้าไป โดยที่มี Data Scientist เป็นผู้ออกแบบ โมเดล หรืออัลกอริทึมขึ้นมา เพื่อที่จะทำนายหรือแก้โจทย์ที่เราตั้งไว้ หลังจากนั้นก็ส่งผลลัพธ์ออกมาเป็นโค้ดหรือตัวเลข เพื่อให้เรานำไปใช้งานต่อ การจะหาโมเดลที่ดีที่สุดสำหรับปัญหานั้น Data Scientist ต้องมีความรู้ด้านสถิติ และจำเป็นต้องออกแบบตัวแปรต่างๆ ทั้งในโมเดลเอง และต้องหาโมเดล อื่นๆ มาเป็นคู่เปรียบเทียบ เพื่อมองหาโมเดลที่เหมาะสมที่สุดในการใช้งานจริง

การที่เรามี Machine Learning ประกอบกับกับการที่เรามีข้อมูลปริมาณมาก หลากหลาย แถมการประมวลผลของคอมพิวเตอร์ก็มีราคาถูกลงและทรงพลังมากขึ้น ทำให้เราสามารถสร้างโมเดลได้โดยอัตโนมัติและอย่างรวดเร็ว ซึ่งก็สามารถวิเคราะห์ข้อมูลที่มีขนาดใหญ่ ซับซ้อน และให้ผลลัพธ์ที่ดีกว่า ส่งผลให้องค์กรมองเห็นช่องทางในการ พัฌนาโปรดัก และมีโอดาสในการสร้างผลกำไร ลบเลี่ยงความเสี่ยงที่จะเกิดขึ้นได้

ความแตกต่างระหว่าง Artificial Intelligence, Machine Learning และ Deep Learning

  • ปัญญาประดิษฐ์ (AI): เป็นศาสตร์หนึ่งที่ทำให้เครื่องจักรฉลาดขึ้นมา โดยเฉพาะเครื่องคอมพิวเตอร์ ทำให้คอมพิวเตอร์เข้าใจความอัจฉริยะของมนุษย์ และ Machine Learning ก็เป็นส่วนหนึ่งของปัญญาประดิษฐ์โดยที่เครื่องสามารถเรียนรู้ได้จากข้อมูลในอดีต
  • การเรียนรู้ของเครื่อง (Machine Learning): ให้เครื่องคอมพิวเตอร์ทำนายสิ่งที่มีโอกาสเกิดขึ้นหรือทำการตัดสินใจ โดยใช้ข้อมูลในอดีตจำนวนมาก ทั้งแบบ structured และแบบ semi-structured เพื่อที่จะได้โมเดลที่มีประสิทธิภาพแม่นยำ โดยที่ไม่ต้องนั่งโปรแกรมตลอด
  • การเรียนรู้เชิงลึก (Deep Learning): เป็นส่วนหนึ่งใน Machine Learning ซึ่งก็จะมีอัลกอริทึมในโมเดลคล้ายๆกันกับ Machine Learning แต่มีอัลกอริทึมหลายชั้นกว่า แต่ละชั้นก็จะมีฟังก์ชั่นกรองข้อมูล ทำให้ข้อมูลที่เข้าไปในโมเดลต่างกันไป หรือพูดให้เข้าใจง่ายๆก็คือ Deep Learning พยายามเลียนแบบการทำงานของสมองมนุษย์นั่นเอง (เพราะคนเราคิดมาก แฮ่~)

ตัวอย่างโมเดล Machine Learning

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
Machine Learning [ขอขอบคุณรูปจาก MathWorks]

ใน Machine Learning เรามีการแบ่งโมเดลเป็น 3 รูปแบบการเรียนรู้หลัก ๆ ดังนี้

  • การเรียนรู้แบบมีผู้สอน (Supervised Learning): เป็นการเรียนรู้แบบให้คอมพิวเตอร์หาคำตอบด้วยตัวเองโดยมี ตัวแปรอิสระ หรือตัวแปรพยากรณ์ (target variable/independent variable) เป็นตัวแบบ input เป้าหมายหลักในการทำนายตัวแปรตาม (dependent variable)
    • ตัวอย่างให้เห็นภาพ: การให้คอมพิวเตอร์แยกรูปให้ออกระหว่างน้องหมากับน้องแมว เราก็ต้องมีตัวแปรอิสระเป็นรูปน้องหมาและน้องแมว ตัวแปรตามเป็นข้อมูลว่ารูปไหนคือน้องหมา รูปไหนคือน้องแมว
    • ตัวอย่างโมเดล: Regression, Decision Tree, Random Forest, KNN และ Logistic Regression
    • ตัวอย่างการใช้งาน: Speech Recognition การมีผู้ช่วยอย่าง Siri, Face Detection การที่ Facebook แท็กหน้าเรา, Image Classification การช่วยคุณหมอตรวจสอบภาพถ่าย X-ray
  • การเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning): ตรงข้ามกับ Supervised Learning โดยที่มีแค่ตัวแปรอิสระ (independent variable) เป็น input และไม่มีกลุ่มเป้าหมายในการทำนาย โดยที่เราต้องแยกกลุ่มของข้อมูลโดยดูความแตกต่างในชุดข้อมูลเอง
    • ตัวอย่างให้เห็นภาพ: การให้คอมพิวเตอร์แยกรูปให้ออกระหว่างน้องหมาสามสายพันธ์ โดยที่ให้สังเกตจากลักษณะ อาจะเป็นลักษณะหู น้ำหนัก ความสูง
    • ตัวอย่างโมเดล: Apriori algorithm, K-Nearest Neighbour และ K-means
    • ตัวอย่างการใช้งาน: Recommender Systems การที่ Amazon แนะนำสินค้าให้เรา, Fraud Detection การที่ธนาคารส่งเมลมาบอกเราเมื่อมีธุรกรรมที่ผิดปกติเกิดขึ้น, Customer Segmentation การยิงแอด จัดโปรให้โดนใจลูกค้าในแต่ละกลุ่ม
  • การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning): เป็นการที่เครื่องสามารถประมวลผลและตัดสินใจเองได้ โดยที่สิ่งแวดล้อม หรือสิ่งรอบๆตัวก็เปลี่ยนไปทุกๆการตัดสินใจ โดยมีการลองผิดลองถูก เก็บประสบการณ์ แล้วหาทางออกที่ดีที่สุด
    • ตัวอย่างให้เห็นภาพ: การให้คอมพิวเตอร์แข่งเล่นหมากล้อมกับคน ยกตัวอย่างเช่น AlphaGo ที่สามารถเอาชนะแชมป์โลกของวงการหมากล้อมได้
    • ตัวอย่างโมเดล: Markov Decision Process, Q-learning
    • ตัวอย่างการใช้งาน: Self-Driving Cars การที่รถยนต์สามารถขับเองได้โดยที่สิ่งต่างๆรอบรถก็เปลี่ยนไปเรื่อยๆ

เงินเดือนพื้นฐานของ Data Scientist ประมาณกี่บาท

วิทยาศาสตร์ ข้อมูล เรียนยากไหม
Data Scientist ได้เงินเท่าไหร่  [ขอขอบคุณรูปจาก Illustration by Freepik Storyset]

มาคุยกันถึงเรื่องเงินเดือนของอาชีพนักวิทยาศาสตร์ข้อมูลกันบ้างนะคะ

สำหรับผู้ที่มีประสบการณ์ ทาง Adecco ซึ่งรวบรวมข้อมูลเงินเดือนในไทยมาจากการประกาศงานทั่วประเทศ สรุปผลมาว่าเงินเดือนสำหรับ Data Scientist ในไทยที่เป็น New Graduate อยู่ที่ 30,000 – 50,000 บาท ต่อเดือน

สำหรับคนที่มีประสบการณ์ 1 -5 ปี ทางทีมงาน DataTH ได้ไปลองค้นคว้าจากเว็บประกาศหางานในไทยมา เงินเดือนของ Data Scientist อยู่ที่ประมาณ 70,000 บาท ขึ้นอยู่กับ industry และประสบการณ์

ส่วนในตลาดต่างประเทศ ข้อมูลจากเว็บไซต์ Payscale ซึ่งรวบรวมเงินเดือนของอาชีพ Data Scientist จากตลาดงานในอเมริกา สรุปผลมาว่าเงินเดือนสำหรับ Data Scientist ที่มีประสบการณ์ 0-1 ปีจะอยู่ที่ $85,000 ต่อปี (2.7 ล้านบาท) และสำคัญผู้ที่มีประสบการณ์ 5 ปีขึ้นไป จะอยู่ที่ $109,000 ต่อปี (3.4 ล้านบาท)

แนะนำคอร์สสำหรับ Data Scientist

เรารวบรวมคอร์สที่น่าสนใจสำหรับ Data Scientist จากคำแนะนำของคนที่ทำงานในด้าน Data Scientist จริง มาให้ด้านล่างนี้แล้วค่า สามารถเลือกเรียนด้านที่ต้องการได้เลย

ทางทีม DataTH เลือกมาเฉพาะคอร์สของ Udemy เนื่องจากคุ้มค่ามาก ช่วงโปร (ซึ่งเค้าจัดบ่อยมาก) จะเหลือประมาณ 300 – 500 บาทต่อคอร์ส และแต่ละคอร์สมีจำนวนชั่วโมงเยอะมาก เรียนกันเต็มอิ่มเลย

ชื่อคอร์สรายละเอียดลิงค์

วิทยาศาสตร์ ข้อมูล เรียนยากไหม

  • หมวดหมู่: Artificial Intelligence, Course, Data Career Guides, Data Science

  • แท็ก: AI, Data Scientist, Deep Learning, Machine Learning, Python, R Programming, Statistics

Meow

Data Engineer ที่ออสเตรเลีย มีความสนใจด้าน Healthcare/Insurance อย่างมาก ชอบตัวเลข Stat Machine learning การสร้างโมเดลทำนายผลและวิเคราะห์ข้อมูลให้ทำประโยชน์ได้จริง

วิทยาการ ข้อมูล หางาน ยาก ไหม

ถ้าพูดถึงอาชีพที่กำลังมาแรงที่สุดในช่วงนี้คงหนีไม่พ้น Data Scientist หรือนักวิทยาศาสตร์ข้อมูล Data Scientist ยังคงเป็นอาชีพที่ขาดแคลน ในไทยมีจำนวนไม่เกิน 400คน เงินเดือนเฉลี่ยสูงถึง 135,000 บาทต่อเดือน

Data Scientist ต้องเรียนคณะอะไร

โดยทั่วไปแล้วผู้ที่ทำงานด้าน Data Scientist ในไทย จะจบการศึกษาปริญญาโทจากคณะวิศวกรรมศาสตร์ คณิตศาสตร์ สารสนเทศข้อมูล และวิทยาการคอมพิวเตอร์ เพราะเป็นคณะที่สอนคณิตศาสตร์ขั้นสูงและการเขียนโปรแกรมคอมพิวเตอร์ ซึ่งมหาวิทยาลัยไทยที่เปิดสอนมีดังต่อไปนี้

วิทยาการข้อมูลมีความสําคัญอย่างไร

วิทยาศาสตร์ข้อมูลช่วยให้ธุรกิจต่างๆ ค้นพบรูปแบบและความสัมพันธ์ใหม่ๆ ที่มีศักยภาพในการเปลี่ยนแปลงองค์กรได้ สามารถเปิดเผยการเปลี่ยนแปลงการจัดการทรัพยากรในต้นทุนต่ำเพื่อสร้างผลกระทบสูงสุดต่ออัตรากำไร ตัวอย่างเช่น บริษัทอีคอมเมิร์ซใช้วิทยาศาสตร์ข้อมูลแล้วค้นพบว่ามีการสอบถามจากลูกค้ามากเกินไปหลังเวลาทำการ การตรวจสอบพบว่า ...