การทำเหมืองข้อมูลฟังแล้วอาจจะดูเข้าใจได้ยาก ต้องเขียนโค้ดอะไรเยอะแยะหรือเปล่า เราจะบอกกับทุกคนเลยว่า ไม่อีกต่อไป กับ RapidMiner เครื่องมือสุดทรงพลังในงาน Data Mining ที่จะทำให้การทำงานหรือศึกษาเรียนรู้ของเพื่อน ๆ ทำได้ง่ายและรวดเร็วยิ่งขึ้น แล้ว RapidMiner คืออะไร จะเริ่มใช้งานเครื่องมือนี้กันได้ยังไงมาดูไปพร้อม ๆ กันกับ RapidMiner Studio คืออะไร ทำเหมืองข้อมูลได้ ไม่ต้องพึ่งโค้ด!!
RapidMiner Studio คืออะไร ?
RapidMiner Studio คือเครื่องมือ Data Science ครอบคลุมตั้งแต่การเตรียมข้อมูล จนถึงการทำเหมืองข้อมูลด้วยหลากหลายเทคนิค ในรูปแบบ Graphic User Interface (GUI) หน้าตาเรียบง่ายใช้งานสะดวกเพียง Drag&Drop ไม่ต้องพึ่งการเขียนโค้ด ทำให้งานสาย Data ไม่ว่าจะเป็น Data Science Data Engineer และ Big Data นั้นทำได้อย่างสะดวกและรวดเร็วยิ่งขึ้น ช่วยให้ประหยัดเวลาในการเขียนโค้ดลงไป และไปโฟกัสที่การวิเคราะห์ข้อมูลได้ตรงจุดมากขึ้น ทั้งยังเหมาะสำหรับเพื่อน ๆ ที่กำลังเรียนรู้เกี่ยวกับการทำ Data Mining ให้เข้าใจภายรวมได้ง่ายดาย ด้วยแผนสำหรับการศึกษาที่ใช้งานได้ฟรีอีกด้วย
วิธีดาวน์โหลดและเริ่มใช้งาน RapidMiner
เพื่อนหลายคนน่าจะสงสัยว่าไปหาโหลดตัว RapidMiner ในเว็บไซต์แล้วทำไมไม่เจอ เราเลยขออัพเดตให้ฟังก่อนเลยว่าปัจจุบันเขาได้เปลี่ยนชื่อไปใช้เป็น Altair® RapidMiner® ซึ่งจะใช้ตัวซอฟแวร์ที่ชื่อว่า AI Studio โดยเพื่อนทำตามขั้นตอนต่อไปนี้เพื่อดาวน์โหลดและติดตั้งได้เลย
การดาวน์โหลดและติดตั้ง
ขั้นตอนการดาวน์โหลดและติดตั้ง RapidMiner Studio
- เข้าสู่เว็บไซต์: https://altair.com/free-trials
- คลิกที่ Download AI Studio
- สำหรับครั้งแรกกรอกข้อมูลให้ครบถ้วนเพื่อสมัครสมาชิก
- คลิกที่ Download
- หัวข้อ AI Studio เลือกแพลตฟอร์มที่ต้องการ (Window/Mac/Linux)
- หลังจากดาวน์โหลดแล้วติดตั้งได้ทันที
เพียงเท่านี้เพื่อน ๆ ก็จะสามารถใช้ตัว AI Studio ตัวฟรีได้แล้ว แต่จะมีข้อจำกัดด้วยข้อมูลที่ไม่เกิน 10,000 แถวและการใช้งานเครื่องมือหลาย ๆ ส่วน แต่ไม่ต้องกังวลเพราะทาง RapidMiner Studio เขามี License สำหรับการศึกษาให้ใช้งานได้ครบ ๆ แบบฟรี ๆ กันไปเลย มาดูวิธีการขอใช้งานกันได้เลย
ขั้นตอนการขอ RapidMiner Education License
- เข้าสู่เว็บไซต์: https://altair.com/free-trials
- คลิกที่ Download AI Studio
- ล็อคอินด้วยอีเมลที่สมัคร
- คลิกที่ Education Program
- กรอกข้อมูลให้ครบถ้วน (จำเป็นต้องใช้อีเมลมหาวิทยาลัย)
- กด Apply
เพียงเท่านี้เพื่อน ๆ ก็จะสามารถใช้งานตัว AI Studio ได้ครบทุกฟังก์ชั่นแบบฟรี ๆ ไปเลย 1 ปีเต็มซึ่งตรงนี้ก็สามารถต่ออายุได้เรื่อย ๆ ถ้ายังมีอีเมลมหาวิทลัยอยู่เลยหละ แต่ใด ๆ คือเงื่อนไขการใช้งานนั้นเพื่อการศึกษาเท่านั้นจะเอาไปใช้เชิงพาณิชย์ไม่ได้นะ
เริ่มต้นใช้งาน RapidMiner Studio
หลังจากติดตั้ง RapidMiner Studio เสร็จแล้วสำหรับมือใหม่เปิดมาก็น่าจะงงกันเป็นธรรมดา แต่อย่างพึ่งตกใจไป เราจะแนะนำสิ่งที่ต้องทำเป็นครั้งแรกให้กับเพื่อน ๆ ก่อนจะริ่มใช้งานกันตรงนี้เลย
Activate License
สำคัญที่สุดเลยอันดับแรกเพื่อน ๆ จะต้องเชื่อมต่อบัญชีเพื่อปลดล็อค License โดยไปที่เมนู Setting ด้านบนแล้วเลือกหัวข้อ Manage License จะเห็นว่ายังเป็นแบบ Free อยู่ ให้คลิกที่ Sync Licenses from your account แล้วล็อคอินด้วยอีเมลที่ใช้สมัครได้เลย เพียงเท่านี้ตัวซอฟแวร์ก็จะเป็นตัวเต็มแล้ว
ทำความรู้จัก GUI ของ RapidMiner
จะใช้ให้เป็นก็ต้องเข้าใจหน้าตาของเครื่องมือเสียก่อน เพื่อให้เข้าใจง่าย เราจะขออธิบายไล่จากซ้ายไปขวาตามนี้เลย
ด้านซ้าย
Repository: เป็นส่วนในการเก็บ Data และ โปรเจคต่าง ๆ รวมถึงการ Import Data ก็ทำได้จากตรงนี้โดยสามารถสร้าง Respository และ Subfolder เพิ่มเติมได้เช่นกัน
Operators: ส่วนที่รวบรวมเครื่องมือไม่ว่าจะเป็นการนำเข้าข้อมูล ทำความสะอาดข้อมูล Algorithms ต่าง ๆ ในการทำเหมืองข่อมูล ไปจนถึงการวัดผล โดยสามารถค้นหาได้ที่ช่อง Search ได้เลย
ด้านขวา
Parameter: ส่วนในการปรับแต่งค่าต่าง ๆ ใน Operators โดยจะเปลี่ยนไปตาม Operators ที่เลือกในขณะนั้น
Help: คำอธิบาย เปลี่ยนไปตาม Operators ที่เลือก
ส่วนกลาง
View: เมนูจะอยู่ด้านบนให้เพื่อน ๆ เลือกดูการแสดงผลต่าง ๆ ได้โดยแบ่งได้ดังนี้
- Design: แสดงผลขั้นตอนการทำงานของ Operators ในโปรเจค
- Result: แสดงผลลัพธ์จากขั้นตอนจาก Design
- Turbo prep: การคลีนข้อมูลแบบอัตโนมัติ โดยการอัพโหลดข้อมูลเข้าไป
- Auto Model: การสร้างโมเดลอัตโนมัติ สำหรับการวิเคราะห์ข้อมูล
- Interactive Analysis: แสดงผลลัพธ์จาก Auto Model ในรูปแบบ Interactive
Process: Canvas สำหรับวาง Operators ต่าง ๆ และเชื่อมต่อเป็น Process
Data Editor: ส่วนในการจัดการข้อมูลที่ใช้งาน
Import Data
เรื่องพื้นฐานที่สุดแต่ทำได้หลายวิธีเหลือเกินคือการนำเข้าข้อมูลไม่ว่าจะผ่าน Import Data จากในส่วนของ Repository หรือใช้ Operators เพื่อนำเข้าข้อมูล ขั้นตอนก็จะไม่แตกต่างกัน โดยเลือกไฟล์และตั้งค่าชนิดของข้อมูลจะต่างกันตรงที่ถ้าใช้ Operators จะต้องทำการเซฟ Data ลงใน Repository อีกครั้งนึง
ดาวน์โหลด Third-Party Extension
นอกจาก Operators ที่ทาง RapidMiner Studio มีให้เพื่อน ๆ ยังสามารถเลือกใช้งานเครื่องมือจากนักพัฒนาภายนอกได้ด้วย โดยการคลิกที่เมนู Extension ด้านบนแล้วเลือก Marketplace จากนั้นก็ค้นหาเครื่องมือที่ตรงตามความต้องการได้เลย จากนั้นคลิกที่ Select for installation ตามด้วย Install ด้านล่างเป็นอันเสร็จสิ้น
ศัพท์ใน RapidMiner ที่ต้องรู้
ถ้าเพื่อน ๆ สนใจจะไปศึกษาเพิ่มเติมเราก็อยากแนะนำให้รู้จักศัพท์ที่พบได้บ่อย เกี่ยวกับ RapidMinerStudio จะได้ไม่ต้องเรียนรู้ไปงงไป มีอะไรบ้างมาดูกัน
- Repository: เหมือนที่กล่าวไปข้างต้น เปรียบเสมือน Folder ในคอมพิวเตอร์ของเรา ที่จะคอยเก็บข้อมูลโปรเจคต่าง ๆ ใน RapidMiner
- Operators: เครื่องมือที่เป็นองค์ประกอบสำคัญสำหรับการทำงานใน RapidMiner ซึ่งจะรับข้อมูลเข้าผ่าน Port Input และส่งออกผ่าน Output เป็นเหมือนจิ๊กซอวที่จะทำให้ Process สมบรูณ์
- Ports: ส่วนรับและส่งออกข้อมูลของ Operators แต่ละตัว ซึ่งก็จะมีจำนวน Ports ที่แตกต่างกันไปตามแต่ละ Operators สามารถลากเส้นจากพอร์ตเพื่อเชื่อมต่อกันระหว่าง Operators เพื่อส่งข้อมูลเข้าสู่กระบวนการถัดไป
- Process: ขั้นตอนในการวิเคราะห์ข้อมูลเกิดจากการเชื่อมต่อ Operators เข้าด้วยกันหรือจะเรียกว่าเป็น Workflow หรือ Pipeline ก็ได้ ถือเป็นกระบวนการที่สมบรูณ์ที่พร้อมแสดงเป็นผลการวิเคราะห์ได้
- Parameter: ตัวปรับแต่งค่าต่าง ๆ แตกต่างกันไปตาม Operators แต่ละตัว ซึ่งการปรับแต่ง Parameter จะส่งผลต่อผลลัพธ์ในการวิเคราะห์ที่เปลี่ยนแปลงไป
- Performance: การวัดผลโมเดลที่สร้างขึ้นว่ามีความแม่นยำมากน้อยแค่ไหน ก่อนจะนำไปใช้งานจริง
ตัวอย่างการใช้งาน RapidMiner
เราได้สร้างโมเดล Association Rule ด้วย Algorithms FP-Growth อย่างง่ายเป็นตัวอย่างการใช้งาน RapidMiner Studio ให้กับเพื่อน ๆ โดยสามารถดาวน์โหลดและทดลองนำไปรันในโปรแกรม AI Solution กับข้อมูลของทุกคนได้เลย ลองไปปรับแต่ง Parameter และใช้งานดูได้เลย ยังไงก็ลองเอาไปแกะเล่นกันดูนะ
Download: Link
สำหรับเรามองว่าเจ้า AI Studio นั้นไม่ได้แตกต่างจากเดิมมาก แต่ก็ยังเป็นเครื่องมือที่ใช้งานได้ง่ายกว่าการมานั่งเขียนโค้ดเองทั้งหมด และยังทรงพลังใช้งานได้ดีเช่นกัน หลังจากอ่านมาถึงตรงนี้เพื่อน ๆ คงคลายข้อสงสัยว่า RapidMiner Studio คืออะไร จะใช้งานได้ยังไงกันไปบ้างแล้ว นอกจากนี้ยังมีเครื่องมือ Data Mining อีกหลากตัวที่น่าใช้งาน ไว้ LearningFeel จะพามาเจาะลึกการใช้งานสร้างโมเดลต่าง ๆ กันอีกมากมาย รอชมกันได้เลย