เพื่อน ๆ คงได้รู้จักกันแล้วว่าการวิเคราะห์ข้อมูล คืออะไร กันมาบ้างแล้ว ซึ่งการทำเหมืองข้อมูล หรือ Data Mining นั้นก็ถือเป็นหนึ่งในเทคนิคการวิเคราะห์ข้อมูลที่สำคัญและถูกนำมาใช้กันเป็นอย่างมาก ถือเป็นหลักใหญ่ใจความในการวิเคราะห์ข้อมูลเลยก็ว่าได้ เพราะในปัจจุบันไม่ว่าเราจะทำงานอะไรก็คงหนีไม่พ้น Big Data การเข้าถึงข้อมูลจำนวนมากและทำการวิเคราะห์ในเชิงลึกจึงจำเป็นต้องอาศัยกระบวนการทำเหมืองข้อมูล ในบทความนี้เราจะมาแนะนำให้เพื่อน ๆ ได้รู้จักกับ การทำเหมืองข้อมูลคืออะไร พื้นฐานการทำฉบับเข้าใจง่าย
Data Mining คืออะไร
การทำเหมืองข้อมูล หรือ Data Mining คือกระบวนการวิเคราะห์ โดยมีวัตถุประสงค์เพื่อหารูปแบบ แนวทาง และความสัมพันธ์ของข้อมูลภายใน Big Dataซึ่งเป็นหนึ่งในขั้นตอนของกระบวนการสืบค้นความรู้ที่เป็นประโยชน์และน่าสนใจบนฐานข้อมูลขนาดใหญ่ (Knowledge Discovery from very large Databases หรือ KDD) เนื่องจากข้อมูลที่มีจำนวนมหาศาลที่ยากต่อการวิเคราะห์การทำเหมืองข้อมูลจึงเป็นกระบวนการที่เข้ามาช่วยในการแยกแยะและหาความสัมพันธ์ของข้อมูลเพื่อให้สามารถวิเคราะห์ข้อมูลได้อย่างตรงจุด เปรียบเสมือนการขุดลงไปใต้ดินเพื่อขุดเจาะน้ำมันก็ว่าได้ ซึ่งกระบวนการนี้เรียกได้ว่าเป็นเทคนิคสมัยใหม่ ที่ได้รับความนิยมและถูกใช้อย่างแพร่ในหลากหลายองค์กรในปัจจุบัน
ประเภทของการทำเหมืองข้อมูล
ในการทำเหมืองข้อมูลนั้นจำเป็นต้องเจอกับชนิดของข้อมูลที่หลากหลาย แล้วมีข้อมูลประเภทไหนที่ใช้ในการทำเหมืองข้อมูลบ้าง มาดูกัน
- Relational Database ฐานข้อมูลในรูปแบบของตารางแถวและคอลัมน์ แสดงความสัมพันธ์ของข้อมูลด้วย Entity Relationship Model
- Data Warehouses การรวบรวมข้อมูลจากหลากหลายแหล่งมาไว้ให้อยู่ในรูปแบบเดียวกันและที่เดียวกัน
- Transactional Database ข้อมูลที่ประกอบด้วยทรานเเซกชัน แต่ละทรานเเซกชันแทนด้วยเหตุการณ์ในช่วงเวลาหนึ่ง เช่น ใบเสร็จรับเงิน สลิปโอนเงิน หรือการแสกนบัตรเข้าทำงาน
- Advanced Database ฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น Text File ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web
Data Mining Technique มีอะไรบ้าง
นอกจากรู้ว่าการทำเหมืองข้อมูลคืออะไรแล้ว สิ่งสำคัญที่สุดในการทำเหมืองข้อมูลที่เพื่อน ๆ ต้องรู้ คือ Data Mining Technique มีอะไรบ้างที่จะทำให้การวิเคราะห์ข้อมูลของทุกคนทำได้อย่างตรงจุดมากยิ่งขึ้น โดยอาศัยหลักของ Meachine Leaning เข้ามาช่วย ซึ่งเทคคนิคในการทำเหมืองข้อมูลที่เราจะแนะนำให้กับเพื่อน ๆ จะแบ่งออกเป็น 3 เทคนิคหลัก ๆ ที่ใช้งานในการทำเหมืองข้อมูลก็คือ Classification, Clustering และ Assosiation Rule Mining พร้อมตัวอย่าง Algorithm ที่ใช้ในแต่ละเทคนิค
การจำแนกและพยากรณ์ (Classification & Prediction)
Classification หรือเทคนิคการจำแนกข้อมูล เป็นหนึ่งในเทคนิค Predictive Modeling ที่มีพื้นฐานในการจำแนกข้อมูลโดยมีวัตถุประสงค์ในการทำนายผลลัพธ์ในอนาคตจากข้อมูลที่มีอยู่ โดยจะมีกฎที่ระบุประเภทของผลลัพธ์ไว้เพื่อจำแนก Class ของข้อมูล เช่น การสร้างโมเดล Spam Filltering โดยอาศัยข้อมูลในอดีตว่าคำไหนมีแนวโน้มที่จะเป็น Spam หรือการทำ Sentimental Analysis เพื่อวิเคราะห์ความคิดเห็นของลูกค้า ซึ่งการทำ Classification จำเป็นต้องแบ่งชุดข้อมูลออกเป็น Test set และ Training Set เพื่อทำการเทรนด์โมเดล และทดสอบประสิทธิภาพ
Algorithm ที่ใช้ในการทำ Classification นั้นมีมากมายหลากหลายตัวตั้งแต่พื้นฐานอย่าง K-Nearest Neighbors Algorithm (K-NN) ที่อยู่ในกลุ่มของ Supervised Learningโดยอาศัยหลักการคำนวณเพื่อนบ้างที่ใกล้เคียง หรือก็คือจะตัดสินว่าข้อมูลควรจะอยู่คลาสไหนจากข้อมูลใกล้เคียง ซึ่งจะตรวจสอบข้อมูลในระยะ K แถว วิธีนี้จะเหมาะกับข้อมูลประเภท Norminal เช่น ชาย-หญิง, เชิงบวก-เชิงลบ
อีกหนึ่ง Algorithm ที่มีการใช้งานบ่อย ๆ คือ Naive Bayes Algorithm ซึ่งเป็นการจัดหมวดหมู่โดยการนำหลักการคำนวนความน่าจะเป็นแบบมีเงื่อนไข มาทำนายสิ่งที่จะเกิดขึ้น จากข้อมูลในอดีต โดยอาศัยทฤษฎีของ Bayes ในการแก้ปัญหาโดยคลาสที่เป็นผลลัพธ์จะมีคำตอบได้เพียง 2 อย่างเท่านั้นเช่นทำนายโอกาสที่จะเข้าเว็บไซต์ LearningFeel จากเงื่อนไข มี Wifi, สนใจเกี่ยวกับ Data และ สนใจด้านเทคโนโลยี จะมีคำตอบเพียงแค่เข้าหรือไม่เข้าเท่านั้น ซึ่งจะคำนวนความน่าจะเป็นจากเงื่อนไขทั้ง 3 ในจำนวน Transaction ทั้งหมด
การจัดกล่มข้อมูล (Clustering)
Clustering หรือเทคนิคการจัดกลุ่ม มีวัตถุประสงค์ในการบรรยายข้อมูลมากกว่าการพยากรณ์เพื่อทำนายผลลัพธ์ โดยจะอยู่ในกลุ่มของ Unsupervised Learningที่ทำงานได้โดยที่ไม่ต้องมีผู้สอน ลักษณะของ Clustering Analysis จะเน้นไปที่การจัดกลุ่มข้อมูลที่มีความใกล้เคียงกัน เพื่อลดขนาดหรือมิติของข้อมูลให้มาอยู่เป็นคลัสเตอร์ ทำให้ง่ายต่อการนำข้อมูลไปใช้งานและวิเคราะห์ดำเนินการทางธุรกิจต่อไปได้ ตัวอย่างเช่นการจัดกลุ่มลูกค้าบนแพลตฟอร์มขายเสื้อผ้าตามไซส์เสื้อผ้าที่ใส่ จะช่วยให้เห็นถึงจำนวนลูกค้าในแต่ละขนาด ทำให้สามารถคาดการณ์การนำสินค้ามาขายต่อไป
การทำเหมืองข้อมูลด้วยเทคนิค Clustering มี Algorithm ที่ใช้อยู่ 4 กลุ่มหลัก ๆ ดังนี้
- Partitioning Clustering การจัดกลุ่มโดยการกำหนดจุดกึ่งกลาง (Centroid) และแบ่งข้อมูลไปตามต่ำแหน่งที่ใกล้เคียงกับแต่ละ Centroid ตัวอย่างเช่น K-Mean และ K-Mendroid
- Hierarchical Clustering ที่แบ่งกลุ่มคล้าย ๆ แผนผังต้นไม้แบ่งกลุ่มตามความใกล้เคียงกันของข้อมูล ตัวอย่างเช่น Divisive Algorithm และ Agglomerative Algorithm
- Density-Based Algorithm เป็นการจัดกลุ่มโดยดูตามความหนาแน่นของข้อมูล ตัวอย่างเช่น DBSCAN Algorithm
- Distribution-Based Clustering แบ่งกลุ่มโดยที่รู้ว่าชุดข้อมูลมีการแจกแจงแบบไหน ตัวอย่างเช่น EM Algorithm
กฏความสัมพันธ์ (Association Rule Mining)
กฏความสัมพันธ์ หรือ Association Rule เป็นการศึกษาเพื่อหาลักษณะบางอย่างของข้อมูลที่มีความเกี่ยวข้องหรือไปในทิศทางเดียวกัน โดยมีลักษณะของกฏ ดังนี้
“Antecedent –> Consequent”
Antecedent คือสิ่งที่เกิดขึ้นก่อน และ Consequent คือสิ่งที่เกิดตามมา จึงสรุปกฏความสัมพันธ์ออกมาได้ว่า เมื่อสิ่งหนึ่งเกิดขึ้น จะส่งผลให้เกิดอีกสิ่งหนึ่งตามมา โดยอาศัยค่าสนับสนุน (Support) และ ค่าความเชื่อมั่น (Confidence) เป็นเกณฑ์ในการตัดสิน
การใช้กฏความสัมพันธ์มักใช้งานกับข้อมูลประเภท Transaction ซึ่งรูปแบบที่ทุกคนน่าจะคุ้นเคยกันก็คือ Market-Basket Analysis ถ้าจะให้เห็นภาพชัดเจนยิ่งขึ้นก็คือระบบ Recommendation System บนแพลตฟอร์ม E-commerce ที่จะแนะนำสินค้าจากความสนใจของลูกค้า ซึ่ง Amazon ได้นำ Association Rule ไปใช้สร้างระบบแนะนำสินค้า และผลกำไรถึง 35% จากระบบนี้
Algorithm ในการทำ Association Rule Mining พื้นฐานที่ใช้บ่อย ๆ จะมี Apriori Algorithm ที่จะหา Frequent itemset เพื่อใช้สร้างกฏความสัมพันธ์ และ FP Growth ที่จะใหห้ผลลัพธ์ออกมาใกล้เคียงกับ Apriori แต่จะกินทรัพยากรน้อยกว่า โดยใช้วิธีการที่เรียกว่า FP Tree ในรูปแบบผังต้นไม้
ขั้นตอนในการทำเหมืองข้อมูล
ขั้นตอนในการทำเหมืองข้อมูลนั้นมีขุ้นตอนในการทำที่เป็นมาตรฐานที่เรียกว่า Cross-Industry Standard Process for Data Miningหรือที่เรียกแบบย่อ ๆ ว่า CRISP-DMที่เป็นความร่วมมือระหว่างบริษัท DaimlerChrysler, SPSS และ NCR โดยมีอยู่ 6 ขั้นตอนด้วยกัน
1. Business Understanding
ขั้นตอนแรกคือการทำความเข้าใจธุรกิจ ระบุปัญหาและโอกาสทางธุรกิจ เพื่อแปลงไปเป็นโจทย์เพื่อดำเนินการวิเคราะห์ตามวัตถุประสงค์ได้อย่างเหมาะสม
2. Data Understanding
ปัจจัยสำคัญที่สุดในการทำเหมืองข้อมูลก็คือชุดข้อมูลที่จะนำมาใช้งานนั้นเอง ซึ่งในขั้นตอนนี้เป็นการรวบรวมข้อมูลที่เกี่ยวข้องและทำความเข้าใจ ในการรวบรวมข้อมูลควรพิจารณาแหล่งที่มาของข้อมูล ความถูกต้องและน่าเชื่อถือ ปริมาณและรายละเอียดเหมาะสมกับการทำเหมืองข้อมูลหรือไม่
3. Data Preparation
ขั้นตอนการเตรียมข้อมูลซึ่งเป็นขั้นตอนที่ใช้เวลานานมากที่สุด เพราะว่าถ้าเราจัดเตรียมข้อมูลได้ไม่ดี ผลลัพธ์ที่ได้จะการทำ Data Mining อาจให้ผลลัพธ์ที่ได้ผิดพลาดหรือคลาดเคลื่อน ซึ่งการจัดเตรียมข้อมูลทำได้โดยดารใช้เทคนิด Data Preprocessing 3 ขั้นตอนย่อย ดังนี้
- Data Selection เลือกข้อมูลจากที่เกี่ยวข้องกับเป้าหมายในการวิเคราะห์ที่กำหนดไว้
- Data Cleaning ในชุดข้อมูลขนาดใหญ่ ข้อมูลที่ผิดพลาด ขาดหาย หรือซ้ำซ้อนเป็นสิ่งที่หลีกเลี่ยงไม่ได้ จึงจำเป็นต้องทำความสะอาดข้อมูลเหล่านั้นออกไปอย่างเหมาะสม
- Data Transformation แปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสมกับ Algorithm ที่ต้องการใช้งาน
4. Modeling
อีกหนึ่งขั้นตอนที่สำคัญคือการวิเคราะห์ข้อมูลด้วยเทคนิคการทำเหมืองข้อมูล ซึ่งก็จะเป็นเทคนิคที่กล่าวไว้ข้างต้น ทั้งการทำนายอย่าง Classification หรือการบรรยายอย่าง Clustering ในขั้นตอนนี้อาจมีการทำซ้ำโดยการปรับตัวชี้วัดหรือทดลองทำด้วยอัลกอริทึมหลาย ๆ ตัวเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด บางครั้งอาจใช้เทคนิคหลายรูปแบบ จึงจำเป็นต้องย้อนกลับไปปรับแต่งข้อมูลในขั้นตอน Data Preparation
5. Evaluation
การประเมินและวัดผลคุณภาพของโมเดลการวิเคราะห์ที่สร้างขึ้นจากขั้นตอน Modeling เพื่อประเมิณประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลว่ามีความสามารถคลอบคลุมและตอบโจทย์ทางธุรกิจที่ได้ตั้งไว้ไหม หากสร้างไว้หลายโมเดล ในขั้นตอนนี้จะทำการประเมิณข้อดีข้อด้อยของแต่ละโมเดลเพื่อเปรียบเทียบและเลือกใช้ได้อย่างเหมาะสม
6. Deployment
การนำผลลัพธ์ที่ได้จากการสร้างโมเดลไปใช้งานจริง ดำเนินธุรกิจ แก้ไขปัญหา หรือพัฒนาองค์กรอย่างมีประสิทธิภาพ ตามวัตถุประสงค์ในการจัดทำ
ทำเหมืองข้อมูลได้ยังไงบ้าง
การทำเหมืองข้อมูลในปัจุบันนั้นนอกจากใช้ภาษาคอมพิวเตอร์อย่าง Python หรือ R ยังมีโปรแกรมสำเร็จที่เข้ามาช่วยในการทำงานมากมาย ไม่ว่าจะเป็น WEKA, Orange Canvas, MATLAB หรือ RapidMiner แต่สำหรับมือใหม่ถ้าไม่มีความรู้เรื่องภาษาคอมพิวเตอร์เลย เราก็อยากแนะนำให้ลองใช้งาน RapidMiner Studio เพราะว่าสามารถทดลองใช้งานได้ฟรีเพื่อการศึกษา 1ปี และเป็น GUI แบบ No Code สามารถเลือก Operator แล้วลากเส้นเชื่อมต่อแต่ละขั้นตอนได้แบบง่าย ๆ เลย นอกจากนี้ยังมีเครื่องมือ Data Mining อีกหลากหลายตัวยังไงเพื่อน ๆ สามารถศึกษาเพิ่มเติมได้เลย
RapidMiner : https://altair.com/altair-rapidminer
การทำเหมืองข้อมูลดู ๆ ไปแล้วก็เหมือนจะเป็นทักษะเฉพาะทางที่ค่อนข้างลึกในสายงานของ Data แต่เราบอกเลยว่าถ้าเพื่อน ๆ ได้รู้และเข้าใจไว้แม้จะเป็นแค่พื้นฐานก็ตาม ก็จะสามารถทำงานกับสาย Data ได้อย่างเข้าใจมากยิ่ง และวันหนึ่งถ้าสนใจศึกษาลงลึกมากยิ่งขึ้นก็จะสามารถทำได้โดยง่าย รวมถึง LearningFeel ก็พร้อมที่จะเรียนรู้และเติบโตไปพร้อมกับเพื่อน ๆ ทุกคนเช่นกัน