Space-chula : Sensing Opportunity from Big Data - 4

รายละเอียดวิชา                                                                                                                                                   
- เพื่อทำความเข้าใจในเบื้องต้นเรื่อง Big Data
- มี ตย. บริษัท ที่ใช้ Big Data
- การทำ Cluster Analysis
- มี ตย. กาประยุกต์ใช้กับธุรกิจ
//เหมาะสำหรับคนที่ไม่มีพื้นฐาน Big Data

บทที่ 4 

    โดยปกติแล้วการทำ Data Analysis ในอดีต ประกอบไปด้วย 3 ขั้นตอน คือ 
  1.รวบรวมข้อมูล 
  2.วิเคราะห์ข้อมูล 
  3.สรุปผล
    โดยทำการรวบรวมข้อมูลจากการทำแบบสำรวจ แบบสอบถาม หรือว่าการทดลอง เพื่อสรุปผลให้ได้ผลลัพธ์บางอย่าง และส่งผลให้ข้อมูลที่ได้เยอะเหมือนอย่างสมัยนี้
//แต่ ปัจจุบันเราสามารถเก็บรวบรวมข้อมูลได้อย่างมหาศาลส่งผลให้เราไม่สามารถใช้ 3 ขั้นตอนข้างต้นได้ ในการทำเรื่องนี้เราจะทำการวิเคราะห์ข้อมูลด้วยวิธีอื่น

หลักวิธีการที่มักจะทำในยุค Big Data มี 2 แบบ คือ หาแบบเป็นรูปแบบ และ การพยากรณ์

    การหาแบบรูปแบบ หรือ ที่เรียกว่าการหารูปแบบที่ซ่อนอยู่ในตัวข้อมูลจำนวนมหาศาล เราเรียกว่า Descriptive ประกอบไปด้วยหลายเทคนิค เช่น
 - Clustering[ ** NOTE: เป็นเทคนิคที่ใช้บ่อย และเป็นเรื่องที่เรากำลังจะศึกษากันต่อ ** ]
 - Summarization
 - Association Rules
 - Suquen Discovery 
การหาแบบพยากรณ์ เราเรียกว่า Predictive ประกอบไปด้วยหลายเทคนิค เช่น
 - Classification
 - Regression
 - Time Services
 - Perdiction

ข้อมูลที่เราจะทำการรวบรวมนั้น

    ในส่วนที่เป็นรูปแบบ เสียง วีดีโอ รูปภาพ ข้อมูล ก่อนที่จะทำการวิเคราะห์ได้นั้นเราจะต้องทำการแปลงข้อมูลมาเก็บไว้ในตารางก่อน เราเรียกว่า Data Matrix

ตาราง 4.1 Data Matrix (แบบพื้นฐานแบบสุดๆ)
โดย ตัวแปรนั้น คือในแต่ละคอลัมป์จะให้ตัวแปรที่แตกต่างกันไม่สามารถใช้ซ้ำกันได้ เช่น ชื่อ อายุ รายได้ ความถี่ 
      หน่วยข้อมูล คือ  หน่วยข้อมูลหรือข้อมูลที่เราเก็บรวบรวมมาหลังจากที่เราทำได้แปลงข้อมูลหรือรวบรวมมาได้แล้ว

    เมื่อเราได้ตารางมาแล้วเราสามารถทำการวิเคราะห์ข้อมูลได้ แต่ข้อมูลที่มีตัวแปรต่างกันจะมีวิธีนำมาวิเคราะห์ไม่เหมือนกัน โดยเราสามารถแบ่งข้อมูลออกเป็น 2 ข้อมูล คือ
 1. ข้อมูลที่สามารถวัดได้ ( นำมา + - * / เป็นต้น ) เรียกว่า ข้อมูลเชิงประมาณ(Quantitative Variable)
 2. ข้อมูลที่ไม่สามารถวัดได้ เรียกว่า ข้อมูลเชิงคุณภาพ(Qualitative Variable)

EX จากตารางที่ 4.1 เราสามารถวิเคราหะ์ข้อมูลได้ดังต่อไปนี้
 1. ประกอบไป 3 ตัวแปร
 2. ประกอบไปด้วย Obsercation 4 แถว
 3. ข้อมูลเชิงประมาณ มี 2 ตัวแปร ประกอบไปด้วย คะแนน , รายได้
 4. ข้อมูลเชิงคุณภาพ มี 1 ตัวแปร ประกอบไปด้วย เพศ
[ ** NOTE:  เราจะไม่ทำการวิเคราะห์แถวที่ 1 คอลัมที่ 1 เพราะ เป็นชื่อ ซึ่งเราไม่สามารถนำชื่อมาวิเคราะห์ทางสถิติได้** ]

**NOTE**

Cluster Analysis 

    คือ  เทคนิคการจัดกลุ่มลูกค้า อย่างเช่น เว็บไซตื NetFlix ซึ่งทำการจัดแบ่งกลุ่มลูกค้าเป็นกลุ่มต่างๆไว้ เพื่อเสนอสินค้าได้ถูกต้องและเหมาะสมกับกลุ่มนั้น โดยเรียกว่า การแบ่งประเภทของลูกค้า( Customer Segmentation ) ก็คือการแบ่งสินค้าออกเป็นกลุ่ม ตามลักษณะของตัวแปรที่เราเก็บมา โดยเป็น 1 ในวิธีการทำแบบ Description




ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

Space-chula : Sensing Opportunity from Big Data - 1