Space-chula : Sensing Opportunity from Big Data

รายละเอียดวิชา
- เพื่อทำความเข้าใจในเบื้องต้นเรื่อง Big Data
- มี ตย. บริษัท ที่ใช้ Big Data
- การทำ Cluster Analysis
- มี ตย. กาประยุกต์ใช้กับธุรกิจ
//เหมาะสำหรับคนที่ไม่มีพื้นฐาน Big Data

บทที่ 4

โดยปกติแล้วการทำ Data Analysis ในอดีต ประกอบไปด้วย 3 ขั้นตอน คือ

1.รวบรวมข้อมูล

2.วิเคราะห์ข้อมูล

3.สรุปผล

โดยทำการรวบรวมข้อมูลจากการทำแบบสำรวจ แบบสอบถาม หรือว่าการทดลอง เพื่อสรุปผลให้ได้ผลลัพธ์บางอย่าง และส่งผลให้ข้อมูลที่ได้เยอะเหมือนอย่างสมัยนี้

//แต่ ปัจจุบันเราสามารถเก็บรวบรวมข้อมูลได้อย่างมหาศาลส่งผลให้เราไม่สามารถใช้ 3 ขั้นตอนข้างต้นได้ ในการทำเรื่องนี้เราจะทำการวิเคราะห์ข้อมูลด้วยวิธีอื่น

หลักวิธีการที่มักจะทำในยุค Big Data มี 2 แบบ คือ หาแบบเป็นรูปแบบ และ การพยากรณ์

การหาแบบรูปแบบ หรือ ที่เรียกว่าการหารูปแบบที่ซ่อนอยู่ในตัวข้อมูลจำนวนมหาศาล เราเรียกว่า Descriptive ประกอบไปด้วยหลายเทคนิค เช่น

- Clustering[ ** NOTE: เป็นเทคนิคที่ใช้บ่อย และเป็นเรื่องที่เรากำลังจะศึกษากันต่อ ** ]

- Summarization

- Association Rules

- Suquen Discovery

การหาแบบพยากรณ์ เราเรียกว่า Predictive ประกอบไปด้วยหลายเทคนิค เช่น

- Classification

- Regression

- Time Services

- Perdiction

ข้อมูลที่เราจะทำการรวบรวมนั้น

ในส่วนที่เป็นรูปแบบ เสียง วีดีโอ รูปภาพ ข้อมูล ก่อนที่จะทำการวิเคราะห์ได้นั้นเราจะต้องทำการแปลงข้อมูลมาเก็บไว้ในตารางก่อน เราเรียกว่า Data Matrix

ตาราง 4.1 Data Matrix (แบบพื้นฐานแบบสุดๆ)

โดย ตัวแปรนั้น คือในแต่ละคอลัมป์จะให้ตัวแปรที่แตกต่างกันไม่สามารถใช้ซ้ำกันได้ เช่น ชื่อ อายุ รายได้ ความถี่

หน่วยข้อมูล คือ หน่วยข้อมูลหรือข้อมูลที่เราเก็บรวบรวมมาหลังจากที่เราทำได้แปลงข้อมูลหรือรวบรวมมาได้แล้ว

เมื่อเราได้ตารางมาแล้วเราสามารถทำการวิเคราะห์ข้อมูลได้ แต่ข้อมูลที่มีตัวแปรต่างกันจะมีวิธีนำมาวิเคราะห์ไม่เหมือนกัน โดยเราสามารถแบ่งข้อมูลออกเป็น 2 ข้อมูล คือ
1. ข้อมูลที่สามารถวัดได้ ( นำมา + - * / เป็นต้น ) เรียกว่า ข้อมูลเชิงประมาณ(Quantitative Variable)
2. ข้อมูลที่ไม่สามารถวัดได้ เรียกว่า ข้อมูลเชิงคุณภาพ(Qualitative Variable)

EX จากตารางที่ 4.1 เราสามารถวิเคราหะ์ข้อมูลได้ดังต่อไปนี้
1. ประกอบไป 3 ตัวแปร
2. ประกอบไปด้วย Obsercation 4 แถว
3. ข้อมูลเชิงประมาณ มี 2 ตัวแปร ประกอบไปด้วย คะแนน , รายได้
4. ข้อมูลเชิงคุณภาพ มี 1 ตัวแปร ประกอบไปด้วย เพศ

[ ** NOTE: เราจะไม่ทำการวิเคราะห์แถวที่ 1 คอลัมที่ 1 เพราะ เป็นชื่อ ซึ่งเราไม่สามารถนำชื่อมาวิเคราะห์ทางสถิติได้** ]

NOTE

Cluster Analysis

คือ เทคนิคการจัดกลุ่มลูกค้า อย่างเช่น เว็บไซตื NetFlix ซึ่งทำการจัดแบ่งกลุ่มลูกค้าเป็นกลุ่มต่างๆไว้ เพื่อเสนอสินค้าได้ถูกต้องและเหมาะสมกับกลุ่มนั้น โดยเรียกว่า การแบ่งประเภทของลูกค้า( Customer Segmentation ) ก็คือการแบ่งสินค้าออกเป็นกลุ่ม ตามลักษณะของตัวแปรที่เราเก็บมา โดยเป็น 1 ในวิธีการทำแบบ Description

ค้นหาบล็อกนี้

Piya-Myblog