ในการทำงานสาย Data นั้นเพื่อน ๆ รู้กันไหมว่าพื้นฐานอะไรที่สำคัญมาก ๆ ชนิดของข้อมูลหรือ Data Types ยังไงหละ แล้วทำไมถึงบอกว่าชนิดของข้อมูลสำคัญกันหละ ก็ต้องตอบเลยว่าถ้าเราไม่รู้เกี่ยวกับ Data Types ชนิดต่าง ๆ แล้วหละก็ เพื่อน ๆ ก็คงนำข้อมูลต่าง ๆ ที่มีไปใช้งานให้เกิดประสิทธิภาพสูงสุดได้ยากแน่ ๆ เลย ในบทความนี้เราจะพาทุกคนมาเรียนรู้และทำความเข้าใจกันอย่างถ่องแท้กับชนิดของข้อมูลคืออะไร พื้นฐานสาย Data ต้องรู้ !!
Data Types คืออะไร?
ก่อนอื่นเลยเราอยากจะให้เพื่อน ๆ ทุกคนรู้จักกันก่อนว่า ชนิดของข้อมูลคืออะไร จะให้พูดกันแบบเข้าใจง่าย ๆ เลยชนิดของข้อมูลก็คือคุณสมบัติหรือลักษณะที่เราใช้ในการระบุประเภทของข้อมูลที่จะนำไปใช้ หรือถูกเก็บในตัวแปรต่าง ๆ ที่กำหนดในแต่ละโปรแกรมคอมพิวเตอร์ โดยแต่ละชนิดของข้อมูลก็จะมีลักษณะการใช้งานที่แตกต่างกัน ซึ่งในแต่ละโปรแกรมหรือภาษาคอมพิวเตอร์ ก็จะมีการใช้ Data Types ที่แตกต่างกันไปบ้างในบทความนี้เราจะมาแนะนำทุกคนให้รู้จักชนิดของข้อมูลในภาษา R และภาษา Python ที่จะเป็นภาษาหลัก ๆ ที่ใช้ในงานสายวิทยาศาสตร์ข้อมูลให้เพื่อน ๆ ได้เรียนรู้กัน
ชนิดของข้อมูลในภาษา Python
สำหรับภาษา Python ที่เป็นหนึ่งในภาษาที่เป็นที่นิยมในงานสาย Data เนื่องจากเป็นภาษาที่ง่ายต่อความเข้าใจ แล้วยังมี Library ที่เหมาะสมกับการจัดการข้อมูลเป็นอย่างมาก โดยในภาษา Python ได้มีการแบ่งชนิดของข้อมูลออกเป็น Numeric, Set, Dictionary, Boolean และ Sequence Types
Numeric
Numeric หรือข้อมูลประเภทตัวเลข ซึ่งมีทั้งการเก็บข้อมูลในรูปแบบจำนวนเต็ม จำนวนจริง และจะนวนเชิงซ้อนดังนี้
- Integers – เรียกอีกอย่างย่อว่า Int คือ ข้อมูลในรูปแบบของจำนวนเต็ม เป็นข้อมูลตัวเลขแบบไม่มีจุดทศนิยม อย่างเช่น 123 ซึ่งในภาษา Python จะมีจำนวนได้เกือบจะไม่จำกัดในทางทฤษฏีถ้าทรัพยากรในอุปกรณ์ของเพื่อน ๆ รองรับไหว
- Float – จำนวนจริงเก็บข้อมูลในรูปแบบของเลขทศนิยมเช่น 15.5 หรือ 10.0 ถ้าเรามองในบางครั้งอาจจะคิดว่าเป็นจำนวนเต็มได้ แต่ในภาษา Python จะมองจำนวนที่มีทศนิยมเป็น Float ทั้งหมด
- Complex – จำนวนเชิงซ้อนเป็นข้อมูลที่ประกอบด้วยส่วนจริงและส่วนจินตภาพ โดยจะต่อท้ายด้วย j เช่น 456+78j ซึ่งโดยทั่วไปจะไม่พบจำนวนเชิงซ้อนในข้อมูลมากนัก เนื่องจากจะใช้ในงานคณิตศาสตร์ขั้นสูงมากกว่า
Sequence Types
- String – Str คือข้อมูลในรูปแบบของตัวอักษรหรือข้อความในการประกาศ String ในภาษา Python จะต้องกำกับด้วยเครื่องหมาย Single quote หรือ Double quote ด้านหน้าและหลังข้อความเสมอ เช่น “LearningFeel” หรือ “11111” ก็จะนับเป็น String และไม่สามารถนพมาคำนวณได้
- List – ข้อมูลที่ถูกเก็บเป็นชุดและเรียงลำดับ โดยสามารถเก็บข้อมูลต่างชนิดกันใน List เดียวกันได้ ถูกกำกับโดยเครื่องหมาย [ ] มี Index ในการระบุตำแหน่งของข้อมูลได้ เช่น ListA = [1, 2, 3, 4, “LearningFeel”] ซึ่ง Index ก็จะเรียงลำดับ 1 ถึง 5 จากซ้ายไปขวาในกรณีนี้
- Tuple – จะมีลักษณะการเก็บข้อมูลคล้ายคลึงกับ List แต่จะเก็บข้อมูลในรูปแบบที่ไม่สามรถเปลี่ยนแปลงได้ ภายใต้เครื่องหมาย ( ) เช่น TupleA = (1, 2, 3, 4, “LearningFeel”)
Boolean
Boolean หรือ ตรรกะคือการเก็บข้อมูลในเชิงตรรกะศาสตร์ มีค่าอยู่เพียง 2 ค่าเท่านั้นคือค่า True และ False หรือค่าจริงกับเท็จ ซึ่งความหมายก็ตรงตัวตามค่าของข้อมูลว่ามีเพียงจริงหรือเท็จเท่านั้น แต่ว่าข้อมูลที่ไม่ใช่ข้อมูลเชิงตรรกะก็ยังสามารถคำนวณแบบ Boolean ได้เหมือนกันหากกำหนดค่าข้อมูลเหล่านั้นให้เป็นจริงหรือเท็จ
Set
Set ถือเป็น Object ที่เก็บข้อมูลที่ไม่ซ้ำกันและไม่จำเป็นต้องเรียงลำดับ ซึ่งจะมีเครื่องหมาย { } กำกับอยู่ ข้อมูลภายใน Set จะเป็น Numeric หรือ String ก็ย่อมได้เช่น SetA = {1,2,3,4,5}, SetB = {A,B,C,D,E} หรือ SetC = {1,B,3,C,5}
Dictionary
Dictionary หรือ Dict จะถูกกำกับด้วย { } เช่นเดียวกับ Set แต่การเก็บข้อมูลจะเก็บเป็นคู่ของค่า Key และ Value โดยคั่นกันด้วยเครื่องหมายโคล่อน (:) และข้อมูลในแต่ละคู่จะต้องไม่ซ้ำกัน เช่น DictA = {1:’a’, 2:’b’, 3:’c’}
ชนิดของข้อมูลในภาษา R
สำหรับภาษา R ก็เรียกได้ว่าเป็นอีกหนึ่งภาษาทีเป็นเครื่องมือสุดทรงพลังในการใช้งานเกี่ยวกับข้อมูลและสถิติทำความเข้าใจได้ง่ายไม่แพ้ภาษา Python เลยโดยในภาษา R มีการแบ่งชนิดของข้อมูลออกเป็น Numeric, Integer, Character, Logical และ R Data Structure
Numeric
ข้อมูล Numeric ในภาษา R คือการเก็บข้อมูลในรูปแบบของตัวเลขทศนิยมเท่านั้น เช่น 3.14 หรือ 10.0 ซึ่งเป็นข้อมูลแบบ Single type ไม่สามารถแบ่งแยกย่อยลงไปได้อีก
Integer
Integer หรือก็คือจำนวนเต็ม เก็บข้อมูลในรูปแบบตัวเลขจำนวนเต็ม เช่น 10, 20 ซึ่งเป็นข้อมูลแบบ Single typeเช่นเดียวกับ Numeric
Character
Character ข้อมูลอีกหนึ่งแบบที่เราคุ้นหน้าคุ้นตากันเป็นอย่างดีเรียกว่าข้อมูลในรูปแบบตัวอักษรหรือข้อความกำกับด้วยเครื่องหมาย Single quote ( ‘ ) หรือ Double quote ( “ ) เช่น “Hello” หรือ “LearningFeel” ในภาษา R จะไม่แบ่งแยกย่อยข้อมูลประเภทตัวอักษรเป็นหลายระดับ หรือกล่าวคือไม่ว่าข้อมูลจะยาวแค่ไหนก็จะมองเป็นหนึ่งข้อความเสมอ
Logical
Logical ในภาษา R ใช้เรียกข้อมูลในเชิงตรรกะหรือ Boolean ที่ให้ค่า True หรือ False แสดงค่าความจริงว่าเป็นจริงหรือเท็จ และใน Logical ของ R ยังมีข้อมูลตรรกะพิเศษอย่างข้อมูลว่า (NA) ซึ่งเกิดขึ้นเมื่อพยายามเข้าถึงหรือคำนวณค่าที่ไม่มีข้อมูล ทำให้ R จะไม่มองว่าเป็นข้อผิดพลาดจนทำให้ต้องหยุดคำนวณ
R Data Structures
ประเภทโครงสร้างข้อมูลในภาษา R หรือเรียกว่าข้อมูลชุด จะเป็นการเก็บข้อมูลเดี่ยวหลาย ๆ ค่าเข้าไว้ในชุดเดียวกัน เพื่อนำไปวิเคราะห์ทางสถิติต่อไปได้ โดยแบ่งออกเป็น Vector, List, Data Frame, Matrix และ Array
- Vector – เป็นโครงสร้างข้อมูลที่เก็บค่าของข้อมูลชนิดเดียวกัน เช่น Numeric, Character หรือ Logical โดยเป็นการนำข้อมูลต่าง ๆ ทำให้เชื่อมถึงกัน ในภาษา R สามารถสร้างเวกเตอร์ได้ด้วยฟังก์ชัน c() เช่น Name <- c(“AA”, “AB”, “AC”)
- List – List จะแตกต่างจากเวกเตอร์ตรงที่สามารถเก็บข้อมูลต่างชนิดกันไว้ในลิสต์เดียวกันได้ หรือก็คือการนำเวกเตอร์มาต่อกันเป็นลิสต์ผ่านฟังก์ชัน list() นั้นเองซึ่งจะช่วยให้เราเรียกดูข้อมูลในแต่ละรายการได้ง่ายมากยิ่งขึ้น
- Data Frame – เป็นการเก็บข้อมูลในรูปแบบที่ใกล้เคียงกับตารางด้วยการที่มีแถว (Row) และ คอลัมน์ (Column) โดยข้อมูลในดาต้าเฟรมไม่จำเป็นที่จะต้องเป็นชนิดเดียวกัน ในภาษา R สามารถสร้าง Data Frame ได้ด้วยฟังก์ชัน data.frame() เช่น ถ้าเราต้องการสร้าง Data Frame เกี่ยวกับอัตราเติบโตของบทความบทเว็บไซต์ LearningFeel จะได้คำสั่งแบบนี้ LeaningFeel_Article <- data.frame(url, title, click, imp) เป็นต้น
- Matrix – จะมีรูปแบบการเก็บข้อมูลที่มีความใกล้เคียงกับ Data Frame แต่ข้อมูลในเมทริกซ์จะต้องเป็นตัวเลขเท่านั้นเพื่อที่จะสามารถนำไปใช้ในการคำนวณต่อไปได้ และในเมทริกซ์จะต้องเป็นข้อมูลชนิดเดียวกันโดยเราจะสร้างเมทริกซ์ด้วยฟังก์ชัน matrix() และกับหนด Row และ Column ด้วยคำสั่ง nrow และ ncol ภายในฟังก์ชั่น เช่น Data <- matrix(c(10, 20, 30, 40), nrow=2, ncol=2) เท่านี้เราก็จะได้ Matrix ขนาด 2×2 แล้วหละ
และนี่คือทั้งหมดที่เราจะให้กับเพื่อน ๆ ได้ในวันนี้ ชนิดของข้อมูลคืออะไร ทุกคนก็คงจะคลายข้อสงสัยไปได้ ซึ่งเอาจริง ๆ แล้วในแต่ละเครื่องมือก็จะมีการเรียกใช้ชนิดของข้อมูลที่แตกต่างกันไป แต่โดยพื้นฐานแล้วเราก็มองว่าชนิดของข้อมูลในทุก ๆ เครื่องมือก็มีรากฐานมาจากจุดเดียวกัน การทำความเข้าใจพื้นฐานจึงเป็นสิ่งที่จะทำให้เพื่อน ๆ เติบโตในสาย Data ได้อย่างแข็งแรง ถ้าเพื่อน ๆ สนใจในเครื่องมือตัวไหนลองศึกษาเพิ่มเติมกันได้เลย ซึ่งทาง LearningFeel ก็จะทยอยทำบทความดี ๆ ออกมาแนะนำเพื่อน ๆ ทุกคนกันอีกอย่างแน่นอน สำหรับวันนี้เราก็หวังว่าทุกคนจะเข้าใจพื้นฐานเรื่องชนิดของข้อมูลเพิ่มขึ้นไม่มากก็น้อย แล้วเจอกันใหม่ในบทความหน้า สวัสดีนะ