การทำเหมืองข้อมูลคืออะไร พื้นฐานการทำฉบับเข้าใจง่าย

February 24, 2024
Data
Article, Data, Data Mining

เพื่อน ๆ คงได้รู้จักกันแล้วว่าการวิเคราะห์ข้อมูล คืออะไร กันมาบ้างแล้ว ซึ่งการทำเหมืองข้อมูล หรือ Data Mining นั้นก็ถือเป็นหนึ่งในเทคนิคการวิเคราะห์ข้อมูลที่สำคัญและถูกนำมาใช้กันเป็นอย่างมาก ถือเป็นหลักใหญ่ใจความในการวิเคราะห์ข้อมูลเลยก็ว่าได้ เพราะในปัจจุบันไม่ว่าเราจะทำงานอะไรก็คงหนีไม่พ้น Big Data การเข้าถึงข้อมูลจำนวนมากและทำการวิเคราะห์ในเชิงลึกจึงจำเป็นต้องอาศัยกระบวนการทำเหมืองข้อมูล ในบทความนี้เราจะมาแนะนำให้เพื่อน ๆ ได้รู้จักกับ การทำเหมืองข้อมูลคืออะไร พื้นฐานการทำฉบับเข้าใจง่าย

Data Mining คืออะไร

การทำเหมืองข้อมูล หรือ Data Mining คือกระบวนการวิเคราะห์ โดยมีวัตถุประสงค์เพื่อหารูปแบบ แนวทาง และความสัมพันธ์ของข้อมูลภายใน Big Dataซึ่งเป็นหนึ่งในขั้นตอนของกระบวนการสืบค้นความรู้ที่เป็นประโยชน์และน่าสนใจบนฐานข้อมูลขนาดใหญ่ (Knowledge Discovery from very large Databases หรือ KDD) เนื่องจากข้อมูลที่มีจำนวนมหาศาลที่ยากต่อการวิเคราะห์การทำเหมืองข้อมูลจึงเป็นกระบวนการที่เข้ามาช่วยในการแยกแยะและหาความสัมพันธ์ของข้อมูลเพื่อให้สามารถวิเคราะห์ข้อมูลได้อย่างตรงจุด เปรียบเสมือนการขุดลงไปใต้ดินเพื่อขุดเจาะน้ำมันก็ว่าได้ ซึ่งกระบวนการนี้เรียกได้ว่าเป็นเทคนิคสมัยใหม่ ที่ได้รับความนิยมและถูกใช้อย่างแพร่ในหลากหลายองค์กรในปัจจุบัน

ประเภทของการทำเหมืองข้อมูล

ในการทำเหมืองข้อมูลนั้นจำเป็นต้องเจอกับชนิดของข้อมูลที่หลากหลาย แล้วมีข้อมูลประเภทไหนที่ใช้ในการทำเหมืองข้อมูลบ้าง มาดูกัน

Relational Database ฐานข้อมูลในรูปแบบของตารางแถวและคอลัมน์ แสดงความสัมพันธ์ของข้อมูลด้วย Entity Relationship Model
Data Warehouses การรวบรวมข้อมูลจากหลากหลายแหล่งมาไว้ให้อยู่ในรูปแบบเดียวกันและที่เดียวกัน
Transactional Database ข้อมูลที่ประกอบด้วยทรานเเซกชัน แต่ละทรานเเซกชันแทนด้วยเหตุการณ์ในช่วงเวลาหนึ่ง เช่น ใบเสร็จรับเงิน สลิปโอนเงิน หรือการแสกนบัตรเข้าทำงาน
Advanced Database ฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น Text File ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web

Data Mining Technique มีอะไรบ้าง

นอกจากรู้ว่าการทำเหมืองข้อมูลคืออะไรแล้ว สิ่งสำคัญที่สุดในการทำเหมืองข้อมูลที่เพื่อน ๆ ต้องรู้ คือ Data Mining Technique มีอะไรบ้างที่จะทำให้การวิเคราะห์ข้อมูลของทุกคนทำได้อย่างตรงจุดมากยิ่งขึ้น โดยอาศัยหลักของ Meachine Leaning เข้ามาช่วย ซึ่งเทคคนิคในการทำเหมืองข้อมูลที่เราจะแนะนำให้กับเพื่อน ๆ จะแบ่งออกเป็น 3 เทคนิคหลัก ๆ ที่ใช้งานในการทำเหมืองข้อมูลก็คือ Classification, Clustering และ Assosiation Rule Mining พร้อมตัวอย่าง Algorithm ที่ใช้ในแต่ละเทคนิค

การจำแนกและพยากรณ์ (Classification & Prediction)

Classification หรือเทคนิคการจำแนกข้อมูล เป็นหนึ่งในเทคนิค Predictive Modeling ที่มีพื้นฐานในการจำแนกข้อมูลโดยมีวัตถุประสงค์ในการทำนายผลลัพธ์ในอนาคตจากข้อมูลที่มีอยู่ โดยจะมีกฎที่ระบุประเภทของผลลัพธ์ไว้เพื่อจำแนก Class ของข้อมูล เช่น การสร้างโมเดล Spam Filltering โดยอาศัยข้อมูลในอดีตว่าคำไหนมีแนวโน้มที่จะเป็น Spam หรือการทำ Sentimental Analysis เพื่อวิเคราะห์ความคิดเห็นของลูกค้า ซึ่งการทำ Classification จำเป็นต้องแบ่งชุดข้อมูลออกเป็น Test set และ Training Set เพื่อทำการเทรนด์โมเดล และทดสอบประสิทธิภาพ

Algorithm ที่ใช้ในการทำ Classification นั้นมีมากมายหลากหลายตัวตั้งแต่พื้นฐานอย่าง K-Nearest Neighbors Algorithm (K-NN) ที่อยู่ในกลุ่มของ Supervised Learningโดยอาศัยหลักการคำนวณเพื่อนบ้างที่ใกล้เคียง หรือก็คือจะตัดสินว่าข้อมูลควรจะอยู่คลาสไหนจากข้อมูลใกล้เคียง ซึ่งจะตรวจสอบข้อมูลในระยะ K แถว วิธีนี้จะเหมาะกับข้อมูลประเภท Norminal เช่น ชาย-หญิง, เชิงบวก-เชิงลบ

อีกหนึ่ง Algorithm ที่มีการใช้งานบ่อย ๆ คือ Naive Bayes Algorithm ซึ่งเป็นการจัดหมวดหมู่โดยการนำหลักการคำนวนความน่าจะเป็นแบบมีเงื่อนไข มาทำนายสิ่งที่จะเกิดขึ้น จากข้อมูลในอดีต โดยอาศัยทฤษฎีของ Bayes ในการแก้ปัญหาโดยคลาสที่เป็นผลลัพธ์จะมีคำตอบได้เพียง 2 อย่างเท่านั้นเช่นทำนายโอกาสที่จะเข้าเว็บไซต์ LearningFeel จากเงื่อนไข มี Wifi, สนใจเกี่ยวกับ Data และ สนใจด้านเทคโนโลยี จะมีคำตอบเพียงแค่เข้าหรือไม่เข้าเท่านั้น ซึ่งจะคำนวนความน่าจะเป็นจากเงื่อนไขทั้ง 3 ในจำนวน Transaction ทั้งหมด

การจัดกล่มข้อมูล (Clustering)

Clustering หรือเทคนิคการจัดกลุ่ม มีวัตถุประสงค์ในการบรรยายข้อมูลมากกว่าการพยากรณ์เพื่อทำนายผลลัพธ์ โดยจะอยู่ในกลุ่มของ Unsupervised Learningที่ทำงานได้โดยที่ไม่ต้องมีผู้สอน ลักษณะของ Clustering Analysis จะเน้นไปที่การจัดกลุ่มข้อมูลที่มีความใกล้เคียงกัน เพื่อลดขนาดหรือมิติของข้อมูลให้มาอยู่เป็นคลัสเตอร์ ทำให้ง่ายต่อการนำข้อมูลไปใช้งานและวิเคราะห์ดำเนินการทางธุรกิจต่อไปได้ ตัวอย่างเช่นการจัดกลุ่มลูกค้าบนแพลตฟอร์มขายเสื้อผ้าตามไซส์เสื้อผ้าที่ใส่ จะช่วยให้เห็นถึงจำนวนลูกค้าในแต่ละขนาด ทำให้สามารถคาดการณ์การนำสินค้ามาขายต่อไป

การทำเหมืองข้อมูลด้วยเทคนิค Clustering มี Algorithm ที่ใช้อยู่ 4 กลุ่มหลัก ๆ ดังนี้

Partitioning Clustering การจัดกลุ่มโดยการกำหนดจุดกึ่งกลาง (Centroid) และแบ่งข้อมูลไปตามต่ำแหน่งที่ใกล้เคียงกับแต่ละ Centroid ตัวอย่างเช่น K-Mean และ K-Mendroid
Hierarchical Clustering ที่แบ่งกลุ่มคล้าย ๆ แผนผังต้นไม้แบ่งกลุ่มตามความใกล้เคียงกันของข้อมูล ตัวอย่างเช่น Divisive Algorithm และ Agglomerative Algorithm
Density-Based Algorithm เป็นการจัดกลุ่มโดยดูตามความหนาแน่นของข้อมูล ตัวอย่างเช่น DBSCAN Algorithm
Distribution-Based Clustering แบ่งกลุ่มโดยที่รู้ว่าชุดข้อมูลมีการแจกแจงแบบไหน ตัวอย่างเช่น EM Algorithm

กฏความสัมพันธ์ (Association Rule Mining)

กฏความสัมพันธ์ หรือ Association Rule เป็นการศึกษาเพื่อหาลักษณะบางอย่างของข้อมูลที่มีความเกี่ยวข้องหรือไปในทิศทางเดียวกัน โดยมีลักษณะของกฏ ดังนี้

“Antecedent –> Consequent”

Antecedent คือสิ่งที่เกิดขึ้นก่อน และ Consequent คือสิ่งที่เกิดตามมา จึงสรุปกฏความสัมพันธ์ออกมาได้ว่า เมื่อสิ่งหนึ่งเกิดขึ้น จะส่งผลให้เกิดอีกสิ่งหนึ่งตามมา โดยอาศัยค่าสนับสนุน (Support) และ ค่าความเชื่อมั่น (Confidence) เป็นเกณฑ์ในการตัดสิน

การใช้กฏความสัมพันธ์มักใช้งานกับข้อมูลประเภท Transaction ซึ่งรูปแบบที่ทุกคนน่าจะคุ้นเคยกันก็คือ Market-Basket Analysis ถ้าจะให้เห็นภาพชัดเจนยิ่งขึ้นก็คือระบบ Recommendation System บนแพลตฟอร์ม E-commerce ที่จะแนะนำสินค้าจากความสนใจของลูกค้า ซึ่ง Amazon ได้นำ Association Rule ไปใช้สร้างระบบแนะนำสินค้า และผลกำไรถึง 35% จากระบบนี้

Algorithm ในการทำ Association Rule Mining พื้นฐานที่ใช้บ่อย ๆ จะมี Apriori Algorithm ที่จะหา Frequent itemset เพื่อใช้สร้างกฏความสัมพันธ์ และ FP Growth ที่จะใหห้ผลลัพธ์ออกมาใกล้เคียงกับ Apriori แต่จะกินทรัพยากรน้อยกว่า โดยใช้วิธีการที่เรียกว่า FP Tree ในรูปแบบผังต้นไม้

ขั้นตอนในการทำเหมืองข้อมูล

ขั้นตอนในการทำเหมืองข้อมูลนั้นมีขุ้นตอนในการทำที่เป็นมาตรฐานที่เรียกว่า Cross-Industry Standard Process for Data Miningหรือที่เรียกแบบย่อ ๆ ว่า CRISP-DMที่เป็นความร่วมมือระหว่างบริษัท DaimlerChrysler, SPSS และ NCR โดยมีอยู่ 6 ขั้นตอนด้วยกัน

1. Business Understanding

ขั้นตอนแรกคือการทำความเข้าใจธุรกิจ ระบุปัญหาและโอกาสทางธุรกิจ เพื่อแปลงไปเป็นโจทย์เพื่อดำเนินการวิเคราะห์ตามวัตถุประสงค์ได้อย่างเหมาะสม

2. Data Understanding

ปัจจัยสำคัญที่สุดในการทำเหมืองข้อมูลก็คือชุดข้อมูลที่จะนำมาใช้งานนั้นเอง ซึ่งในขั้นตอนนี้เป็นการรวบรวมข้อมูลที่เกี่ยวข้องและทำความเข้าใจ ในการรวบรวมข้อมูลควรพิจารณาแหล่งที่มาของข้อมูล ความถูกต้องและน่าเชื่อถือ ปริมาณและรายละเอียดเหมาะสมกับการทำเหมืองข้อมูลหรือไม่

3. Data Preparation

ขั้นตอนการเตรียมข้อมูลซึ่งเป็นขั้นตอนที่ใช้เวลานานมากที่สุด เพราะว่าถ้าเราจัดเตรียมข้อมูลได้ไม่ดี ผลลัพธ์ที่ได้จะการทำ Data Mining อาจให้ผลลัพธ์ที่ได้ผิดพลาดหรือคลาดเคลื่อน ซึ่งการจัดเตรียมข้อมูลทำได้โดยดารใช้เทคนิด Data Preprocessing 3 ขั้นตอนย่อย ดังนี้

Data Selection เลือกข้อมูลจากที่เกี่ยวข้องกับเป้าหมายในการวิเคราะห์ที่กำหนดไว้
Data Cleaning ในชุดข้อมูลขนาดใหญ่ ข้อมูลที่ผิดพลาด ขาดหาย หรือซ้ำซ้อนเป็นสิ่งที่หลีกเลี่ยงไม่ได้ จึงจำเป็นต้องทำความสะอาดข้อมูลเหล่านั้นออกไปอย่างเหมาะสม
Data Transformation แปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสมกับ Algorithm ที่ต้องการใช้งาน

4. Modeling

อีกหนึ่งขั้นตอนที่สำคัญคือการวิเคราะห์ข้อมูลด้วยเทคนิคการทำเหมืองข้อมูล ซึ่งก็จะเป็นเทคนิคที่กล่าวไว้ข้างต้น ทั้งการทำนายอย่าง Classification หรือการบรรยายอย่าง Clustering ในขั้นตอนนี้อาจมีการทำซ้ำโดยการปรับตัวชี้วัดหรือทดลองทำด้วยอัลกอริทึมหลาย ๆ ตัวเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด บางครั้งอาจใช้เทคนิคหลายรูปแบบ จึงจำเป็นต้องย้อนกลับไปปรับแต่งข้อมูลในขั้นตอน Data Preparation

5. Evaluation

การประเมินและวัดผลคุณภาพของโมเดลการวิเคราะห์ที่สร้างขึ้นจากขั้นตอน Modeling เพื่อประเมิณประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลว่ามีความสามารถคลอบคลุมและตอบโจทย์ทางธุรกิจที่ได้ตั้งไว้ไหม หากสร้างไว้หลายโมเดล ในขั้นตอนนี้จะทำการประเมิณข้อดีข้อด้อยของแต่ละโมเดลเพื่อเปรียบเทียบและเลือกใช้ได้อย่างเหมาะสม

6. Deployment

การนำผลลัพธ์ที่ได้จากการสร้างโมเดลไปใช้งานจริง ดำเนินธุรกิจ แก้ไขปัญหา หรือพัฒนาองค์กรอย่างมีประสิทธิภาพ ตามวัตถุประสงค์ในการจัดทำ

ทำเหมืองข้อมูลได้ยังไงบ้าง

การทำเหมืองข้อมูลในปัจุบันนั้นนอกจากใช้ภาษาคอมพิวเตอร์อย่าง Python หรือ R ยังมีโปรแกรมสำเร็จที่เข้ามาช่วยในการทำงานมากมาย ไม่ว่าจะเป็น WEKA, Orange Canvas, MATLAB หรือ RapidMiner แต่สำหรับมือใหม่ถ้าไม่มีความรู้เรื่องภาษาคอมพิวเตอร์เลย เราก็อยากแนะนำให้ลองใช้งาน RapidMiner Studio เพราะว่าสามารถทดลองใช้งานได้ฟรีเพื่อการศึกษา 1ปี และเป็น GUI แบบ No Code สามารถเลือก Operator แล้วลากเส้นเชื่อมต่อแต่ละขั้นตอนได้แบบง่าย ๆ เลย นอกจากนี้ยังมีเครื่องมือ Data Mining อีกหลากหลายตัวยังไงเพื่อน ๆ สามารถศึกษาเพิ่มเติมได้เลย

RapidMiner : https://altair.com/altair-rapidminer

การทำเหมืองข้อมูลดู ๆ ไปแล้วก็เหมือนจะเป็นทักษะเฉพาะทางที่ค่อนข้างลึกในสายงานของ Data แต่เราบอกเลยว่าถ้าเพื่อน ๆ ได้รู้และเข้าใจไว้แม้จะเป็นแค่พื้นฐานก็ตาม ก็จะสามารถทำงานกับสาย Data ได้อย่างเข้าใจมากยิ่ง และวันหนึ่งถ้าสนใจศึกษาลงลึกมากยิ่งขึ้นก็จะสามารถทำได้โดยง่าย รวมถึง LearningFeel ก็พร้อมที่จะเรียนรู้และเติบโตไปพร้อมกับเพื่อน ๆ ทุกคนเช่นกัน

Financial

วิธียื่นภาษีออนไลน์ 2568 ฉบับบุคคลลธรรมดา ครบจบทุกขั้นตอน

January 1, 2025January 2, 2025

Financial

เปิดวิธีคำนวณภาษีประจำปี 2568 แบบเข้าใจง่าย ใคร ๆ ก็ทำได้

January 1, 2025January 2, 2025

Data

RapidMiner Studio คืออะไร ทำเหมืองข้อมูลได้ ไม่ต้องพึ่งโค้ด!!

July 12, 2024July 12, 2024

Review

รีวิว Tribit Strombox Micro 2 สุดยอดลำโพงพกพาที่จิ๋วแต่แจ๋ว

June 26, 2024June 28, 2024

Review

รีวิว TUxSA: Digital Business Transformation สาขา Data Science

June 25, 2024July 12, 2024

Data

July 12, 2024July 12, 2024

Data

Classification คืออะไร เจาะลึกเทคนิคสำคัญกับงานสายข้อมูล

March 24, 2024July 12, 2024

Data

March 11, 2024July 12, 2024

Data

February 18, 2024February 18, 2024

Data

พาส่อง!! นักวิเคราะห์ข้อมูล ทำอะไรบ้าง อาชีพยอดฮิตแห่งยุค

February 11, 2024February 11, 2024

Data

สร้าง Dashboard ด้วย Excel ไม่ยากอย่างที่คิด เพื่อชีวิตการทำงานที่ดีขึ้น

January 23, 2024January 23, 2024

Data

January 14, 2024January 14, 2024

Data

January 5, 2024January 23, 2024

Data

December 7, 2023March 24, 2024

Data

December 5, 2023March 3, 2024

Data

December 1, 2023December 11, 2023

Data

November 29, 2023December 11, 2023

การทำเหมืองข้อมูลคืออะไร พื้นฐานการทำฉบับเข้าใจง่าย

Data Mining คืออะไร

ประเภทของการทำเหมืองข้อมูล

Data Mining Technique มีอะไรบ้าง

การจำแนกและพยากรณ์ (Classification & Prediction)

การจัดกล่มข้อมูล (Clustering)

กฏความสัมพันธ์ (Association Rule Mining)

ขั้นตอนในการทำเหมืองข้อมูล

1. Business Understanding

2. Data Understanding

3. Data Preparation

4. Modeling

5. Evaluation

6. Deployment

ทำเหมืองข้อมูลได้ยังไงบ้าง

Related Blog