Space-chula : Sensing Opportunity from Big Data - 4
รายละเอียดวิชา
- เพื่อทำความเข้าใจในเบื้องต้นเรื่อง Big Data
- มี ตย. บริษัท ที่ใช้ Big Data
- การทำ Cluster Analysis
- มี ตย. กาประยุกต์ใช้กับธุรกิจ
//เหมาะสำหรับคนที่ไม่มีพื้นฐาน Big Data
บทที่ 4
โดยปกติแล้วการทำ Data Analysis ในอดีต ประกอบไปด้วย 3 ขั้นตอน คือ
1.รวบรวมข้อมูล
2.วิเคราะห์ข้อมูล
3.สรุปผล
โดยทำการรวบรวมข้อมูลจากการทำแบบสำรวจ แบบสอบถาม หรือว่าการทดลอง เพื่อสรุปผลให้ได้ผลลัพธ์บางอย่าง และส่งผลให้ข้อมูลที่ได้เยอะเหมือนอย่างสมัยนี้
//แต่ ปัจจุบันเราสามารถเก็บรวบรวมข้อมูลได้อย่างมหาศาลส่งผลให้เราไม่สามารถใช้ 3 ขั้นตอนข้างต้นได้ ในการทำเรื่องนี้เราจะทำการวิเคราะห์ข้อมูลด้วยวิธีอื่น
หลักวิธีการที่มักจะทำในยุค Big Data มี 2 แบบ คือ หาแบบเป็นรูปแบบ และ การพยากรณ์
การหาแบบรูปแบบ หรือ ที่เรียกว่าการหารูปแบบที่ซ่อนอยู่ในตัวข้อมูลจำนวนมหาศาล เราเรียกว่า Descriptive ประกอบไปด้วยหลายเทคนิค เช่น
- Clustering[ ** NOTE: เป็นเทคนิคที่ใช้บ่อย และเป็นเรื่องที่เรากำลังจะศึกษากันต่อ ** ]
- Summarization
- Association Rules
- Suquen Discovery
การหาแบบพยากรณ์ เราเรียกว่า Predictive ประกอบไปด้วยหลายเทคนิค เช่น
- Classification
- Regression
- Time Services
- Perdiction
ข้อมูลที่เราจะทำการรวบรวมนั้น
ในส่วนที่เป็นรูปแบบ เสียง วีดีโอ รูปภาพ ข้อมูล ก่อนที่จะทำการวิเคราะห์ได้นั้นเราจะต้องทำการแปลงข้อมูลมาเก็บไว้ในตารางก่อน เราเรียกว่า Data Matrix
![]() |
| ตาราง 4.1 Data Matrix (แบบพื้นฐานแบบสุดๆ) |
หน่วยข้อมูล คือ หน่วยข้อมูลหรือข้อมูลที่เราเก็บรวบรวมมาหลังจากที่เราทำได้แปลงข้อมูลหรือรวบรวมมาได้แล้ว
เมื่อเราได้ตารางมาแล้วเราสามารถทำการวิเคราะห์ข้อมูลได้ แต่ข้อมูลที่มีตัวแปรต่างกันจะมีวิธีนำมาวิเคราะห์ไม่เหมือนกัน โดยเราสามารถแบ่งข้อมูลออกเป็น 2 ข้อมูล คือ
1. ข้อมูลที่สามารถวัดได้ ( นำมา + - * / เป็นต้น ) เรียกว่า ข้อมูลเชิงประมาณ(Quantitative Variable)
2. ข้อมูลที่ไม่สามารถวัดได้ เรียกว่า ข้อมูลเชิงคุณภาพ(Qualitative Variable)
เมื่อเราได้ตารางมาแล้วเราสามารถทำการวิเคราะห์ข้อมูลได้ แต่ข้อมูลที่มีตัวแปรต่างกันจะมีวิธีนำมาวิเคราะห์ไม่เหมือนกัน โดยเราสามารถแบ่งข้อมูลออกเป็น 2 ข้อมูล คือ
1. ข้อมูลที่สามารถวัดได้ ( นำมา + - * / เป็นต้น ) เรียกว่า ข้อมูลเชิงประมาณ(Quantitative Variable)
2. ข้อมูลที่ไม่สามารถวัดได้ เรียกว่า ข้อมูลเชิงคุณภาพ(Qualitative Variable)
EX จากตารางที่ 4.1 เราสามารถวิเคราหะ์ข้อมูลได้ดังต่อไปนี้
1. ประกอบไป 3 ตัวแปร
2. ประกอบไปด้วย Obsercation 4 แถว
3. ข้อมูลเชิงประมาณ มี 2 ตัวแปร ประกอบไปด้วย คะแนน , รายได้
4. ข้อมูลเชิงคุณภาพ มี 1 ตัวแปร ประกอบไปด้วย เพศ
[ ** NOTE: เราจะไม่ทำการวิเคราะห์แถวที่ 1 คอลัมที่ 1 เพราะ เป็นชื่อ ซึ่งเราไม่สามารถนำชื่อมาวิเคราะห์ทางสถิติได้** ]

ความคิดเห็น
แสดงความคิดเห็น