ความสัมพันธ์ในข้อมูลสองตัวแปร

ความสัมพันธ์ในข้อมูลเชิงปริมาณ

เมื่อมีข้อมูลของตัวแปรสองตัวที่วัดค่าเป็นตัวเลข ซึ่งเรียกว่า ข้อมูลเชิงปริมาณ สิ่งที่น่าสนใจจากข้อมูลนี้ ได้แก่

ตัวแปรทั้งสองเกี่ยวข้องกันหรือไม่
ระดับความสัมพันธ์ของตัวแปรมีมากน้อยเพียงใด
ความสัมพันธ์ของตัวแปรอยู่ในรูปแบบใด
จะคาดคะเนค่าตัวแปรหนึ่งจากอีกตัวแปรได้หรือไม่

เพื่อความสะดวกในการตอบคำถามต่าง ๆ ข้างต้น จะกำหนดให้ตัวแปรหนึ่งเป็น x และอีกตัวแปรเป็น y ตัวอย่างเช่น การสมัครเข้าศึกษาต่อระดับปริญญาโทสาขาวิชาบริหารธุรกิจในหลาย ๆ สถาบัน มักมีข้อกำหนดว่า ผู้สมัครต้องมีคะแนนจากผลการสอบ GMAT (Graduate Management Attitude Test) ประกอบการสมัครด้วย คะแนน GMAT เป็นตัวที่ใช้วัดความรู้ความสามารถของผู้สมัครอย่างหนึ่ง จึงต้องการทราบว่า ผลการเรียนของผู้สมัคร (GPA) ในระดับปริญญาตรีมีความสัมพันธ์กับคะแนน GMAT หรือไม่ หรือจะคาดคะเนคะแนน GMAT จาก GPA ของผู้สมัครได้หรือไม่
ฉะนั้นอาจกำหนดตัวแปร x คือ GPA และตัวแปร y คือ GMAT สมมติเราสังเกตค่าข้อมูลของ x และ y จากผู้สมัครเรียนจำนวน 36 คน ดังนั้นจึงมีคู่ลำดับของค่าสังเกต (x, y) จากผู้สมัครแต่ละคน นั่นคือจะมีค่าสังเกต (x1, y1), (x2, y2), … , (x36, y36) เช่น ผู้สมัครคนหนึ่งมี GPA เป็น 2.68 และได้คะแนน GMAT 414 คะแนน ค่าสังเกตของผู้สมัครก็จะเป็น (2.68, 414) เป็นต้น ข้อมูลของผู้สมัครทั้ง 36 คนแสดงในตาราง

ตารางแสดงข้อมูล GPA และคะแนน GMAT ของผู้สมัครเรียน 36 คน

GPA GMAT GPA GMAT GPA GMAT
3.44 632 2.36 399 2.80 444
3.59 588 2.36 482 3.13 426
3.30 563 2.66 420 3.01 471
3.40 553 2.68 414 2.79 490
3.50 572 2.48 533 2.89 431
3.78 591 2.46 509 2.91 446
3.00 509 2.63 504 2.75 546
3.48 528 2.44 336 2.73 467
3.22 541 2.36 464 3.22 506
3.47 552 2.13 408 3.12 473
3.35 520 2.41 469 3.08 440
3.39 543 2.55 529 3.03 419

การพิจารณาค่าสังเกตุที่เป็นตัวเลขไม่สามารถช่วยให้เห็นความสัมพันธ์ระหว่าง x และ y ได้มากนัก วิธีที่ดีกว่าและเป็นขั้นตอนเริ่มแรกที่สำคัญในการศึกษาความสัมพันธ์ในข้อมูลของสองตัวแปรก็คือ การสร้างกราฟแสดงการกระจายของข้อมูล โดยให้ตัวแปร x อยู่ทางแกนนอน ส่วนตัวแปร y อยู่ทางแกนตั้ง และลงค่าสังเกตุ (x , y) แต่ละคู่ลำดับเป็นจุดบนกราฟนั้น แผนภาพที่ได้จะเรียกว่า แผนภาพการกระจาย (scatter diagram) แผนภาพการกระจายมีประโยชน์มากในการช่วยนำเสนอข้อมูลของสองตัวแปรที่เป็นเชิงปริมาณ ซึ่งจากการพิจารณาแผนภาพการกระจาย จะช่วยให้มองเห็นภาพของรูปแบบความสัมพันธ์ระหว่างตัวแปรได้ดี

ตัวอย่างเช่น จะสังเกตุเห็นได้ว่า จุดต่าง ๆ มีลักษณะการกระจายเป็นแนวเส้นตรง เส้นโค้ง หรือเห็นเป็นเพียงกลุ่มของข้อมูลที่ไม่มีรูปแบบความสัมพันธ์ใด ๆ สำหรับในตัวอย่างเรื่อง GPA และ GMAT ข้างต้น จะสร้างแผนภาพการกระจายของข้อมูลในตาราง ได้ดังภาพ จุดแต่ละจุดแสดงค่า GPA และคะแนน GMAT ของผู้สมัครแต่ละคน จะเห็นว่าจุดกระจายเป็นแนวจากมุมล่างซ้าย สูงขึ้นไปยังมุมบนขวา ซึ่งแสดงว่า ผู้สมัครที่มี GPA ต่ำ ส่วนใหญ่จะได้คะแนน GMAT ต่ำ ในขณะที่ผู้สมัครที่มี GPA สูงส่วนใหญ่จะได้คะแนน GMAT สูง


ที่มา: เอกสารประกอบการสอน มหาวิทยาลัยเกษตรศาสตร์ 2542, วิชาบูรณาการ
หมวดการศึกษาทั่วไป รหัสวิชา 999211 คณิตศาสตร์และคอมพิวเตอร์ในชีวิตประจำวัน