ความสัมพันธ์ในข้อมูลสองตัวแปร

การถดถอยและการคาดคะเนค่า

การที่จะคาดคะเนเงินเดือนเริ่มต้นของบัณฑิตปริญญาตรีที่ไปทำงานในบริษัทเอกชนจากคะแนนเฉลี่ยสะสมหรือ GPA สามารถทำได้หรือไม่ ความเป็นไปได้ในการคาดคะเนขึ้นอยู่กับตัวแปรทั้งสอง ได้แก่ เงินเดือนเริ่มต้นและ GPA ว่ามีความสัมพันธ์กันหรือไม่ เมื่อตัวแปรมีความสัมพันธ์กันมาก การทราบค่าของตัวแปรหนึ่งจะช่วยให้ทำนายค่าของอีกตัวแปรหนึ่งได้ใกล้เคียง แต่ถ้าระดับความสัมพันธ์ไม่สูง สิ่งที่ทราบเกี่ยวกับตัวแปรหนึ่งก็ไม่ช่วยในการคาดเดาค่าของอีกตัวแปรมากนัก

ความเข้าใจในสถานการณ์ต่าง ๆ และความสามารถในการคาดการณ์ล่วงหน้าให้ถูกต้องเป็นประโยชน์อย่างมากในการตัดสินใจ ดังนั้น เมื่อทราบว่าตัวแปรมีความสัมพันธ์กันสูง จึงต้องการหาสมการแสดงความสัมพันธ์ระหว่างตัวแปรที่บอกว่าค่าของตัวแปรที่สนใจเปลี่ยนแปลงตามค่าของตัวแปรอื่นอย่างไร สิ่งที่ได้จากสมการดังกล่าวคือ จะประมาณหรือคาดคะเนค่าของตัวแปรนั้นจากค่าของตัวแปรอื่นได้ ตัวแปรที่สนใจทำนายค่าเรียกว่า ตัวแปรตาม (dependent variable) ส่วนตัวแปรอื่นเรียกว่า ตัวแปรอิสระ (independent variable) ทั้งนี้ คิดว่าตัวแปรอิสระมีอิทธิพลทำให้ตัวแปรตามเปลี่ยนค่าตามไป เช่น ความสูงของบิดาคือตัวแปรอิสระที่มีอิทธิพลต่อความสูงของบุตรชายซึ่งเป็นตัวแปรตาม

ในเรื่องของเงินเดือนและ GPA เงินเดือนเริ่มต้น คือ ตัวแปรตามที่ต้องการคาดคะเนค่าจากตัวแปรอิสระ GPA ถ้ามีข้อมูลเงินเดือนเริ่มต้นและ GPA ของบัณฑิตหลายคนที่ผ่านมา ข้อมูลนั้นนำมาศึกษาหาความสัมพันธ์ระหว่างเงินเดือนเริ่มต้นและ GPA ได้
อย่างไรก็ตาม ในหลาย ๆ กรณีที่เกิดขึ้น ตัวแปรตามมักได้รับอิทธิพลจากตัวแปรอิสระหลายตัว เงินเดือนเริ่มต้นนอกจากจะขึ้นกับ GPA แล้ว ยังอาจขึ้นกับสาขาวิชาและสถาบันที่จบมา เพศ ประเภทของงาน สถานที่ตั้งของบริษัท และตัวแปรอื่น ๆ อีกมาก โดยทั่วไปจะไม่สามารถรวบรวมข้อมูลของปัจจัยทุกอย่างที่เกี่ยวข้องกับตัวแปรตามมาได้หมด การทำนายค่าของตัวแปรตามให้ถูกต้องแน่นอน จึงเป็นไปได้ยาก สำหรับในที่นี้ จะสนใจเฉพาะรูปแบบความสัมพันธ์อย่างง่ายคือ มีตัวแปรอิสระตัวเดียวและลักษณะความสัมพันธ์อยู่ในรูปเส้นตรง การจะทำนายค่าตัวแปรตามให้ใกล้เคียงจึงอยู่ที่สหสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระต้องมีค่าสูง

เพื่อให้สอดคล้องกับแผนภาพการกระจาย ให้ x เป็นตัวแปรอิสระ และ y เป็นตัวแปรตาม ความสัมพันธ์แบบเส้นตรงระหว่างตัวแปร x และ y เขียนเป็นสมการเส้นตรงที่ลักษณะของเส้นกำหนดโดยค่าคงที่ 2 ค่า คือ a และ b ดังนี้

y = a + bx

ตัวอย่างเช่น ผู้ใช้บริการโทรศัพท์มือถือเสียค่าบริการรายเดือน ๆ ละ 500 บาท และค่าโทรศัพท์นาทีละ 3 บาท ดังนั้น สมการเส้นตรงที่ได้ คือ

ค่าใช้บริการโทรศัพท์มือถือต่อเดือน = 500 + (3 x จำนวนนาทีที่ใช้บริการ)

นั่นคือ a = 500 และ b = 3

a คือ y - intercept ซึ่งเป็นความสูงของเส้น (ค่า y) เมื่อ x = 0 และ b คือความชันของเส้นตรงที่บอกอัตราการเปลี่ยนแปลงของค่าตัวแปรตามเมื่อตัวแปรอิสระเปลี่ยนแปลงค่าไป 1 หน่วย กล่าวคือ y จะมีค่าเปลี่ยนไป b หน่วยต่อทุกหน่วยของ x ที่เปลี่ยนค่าไป เครื่องหมายของค่า b สอดคล้องกับค่าสหสัมพันธ์ r โดยจะบอกว่าค่าของตัวแปร x และ y แปรผันตามกันหรือมีทิศทางสวนกัน

b = 0 แสดงว่า ตามสมการเส้นตรงนั้น x ไม่มีผลทำให้ y เปลี่ยนแปลงค่า
b > 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะเพิ่มขึ้น และเมื่อค่า x ลดลง ค่า y จะลดลง
และ b < 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะลดลง และเมื่อค่า x ลดลง ค่า y จะเพิ่มขึ้น

ตัวอย่างลักษณะเส้นตรงที่มีความชันเป็นบวกและลบแสดงในภาพ  1.

ภาพ  1.   กราฟ 2 รูปที่มี intercept และความชันต่างกัน

สมการที่แสดงความสัมพันธ์ระหว่าง x และ y นี้เรียกว่า สมการถดถอย (regression equation) และเส้นตรงที่สร้างขึ้นตามสมการถดถอยเรียกว่า เส้นถดถอย (regression line)
คำว่า การถดถอย มีที่มาจาก Sir Francis Galton ซึ่งเป็นบุคคลแรกที่ใช้คำนี้เมื่อเขาศึกษาความสัมพันธ์ระหว่างความสูงของบุตรชายและบิดา เขาสรุปไว้ในปี ค.ศ. 1885 โดยทั่วไปบุตรชายที่มีบิดาสูงกว่าค่าเฉลี่ยจะสูงกว่าคนอื่น ๆ โดยเฉลี่ย แต่อย่างไรก็ตามเขาจะไม่สูงเท่าบิดาของเขา ในทางกลับกัน บุตรชายที่มีบิดามีความสูงต่ำกว่าค่าเฉลี่ยจะสูงน้อยกว่าคนอื่น ๆ โดยเฉลี่ย แต่เขาก็ยังคงสูงกว่าบิดาของเขา อาจมองการสร้างสมการถดถอยว่าเป็นการนำค่าตัวแปร x ไปอธิบายความผันแปรของค่าตัวแปร y เช่น สมมุติว่าสนใจศึกษาน้ำหนักของผู้หญิง ลองพิจารณาสมการที่แสดงความสัมพันธ์ระหว่างน้ำหนักและความสูงของผู้หญิง ต่อไปนี้

น้ำหนัก (กิโลกรัม) = - 110 + ความสูง (เซนติเมตร)

สมการนี้ได้นำความสูงของผู้หญิงไปช่วยอธิบายว่า เหตุใดผู้หญิงแต่ละคนจึงมีน้ำหนักแตกต่างกัน กล่าวคือ เป็นเพราะแต่ละคนสูงไม่เท่ากัน คนที่สูงมากกว่าคนอื่น 1 เซนติเมตร ควรมีน้ำหนักมากกว่า 1 กิโลกรัม เป็นต้น ทั้งนี้ยังมีปัจจัยอื่นอีกหลายอย่างที่ทำให้ผู้หญิงแต่ละคนมีน้ำหนักไม่เท่ากัน เพราะคนที่สูงเท่ากันก็ยังมีที่น้ำหนักไม่เท่ากัน ดังนั้น หากสามารถหาปัจจัยหรือตัวแปรอิสระต่าง ๆ ไปอธิบายความผันแปรของน้ำหนักได้เพิ่มมากขึ้น ซึ่งหมายถึง หาคำอธิบายของการที่แต่ละคนน้ำหนักแตกต่างกันได้ดีขึ้น การคาดคะเนน้ำหนักก็จะใกล้เคียงขึ้น

การสร้างสมการถดถอย
สมการถดถอยกับขอบเขตการใช้งาน


ที่มา: เอกสารประกอบการสอน มหาวิทยาลัยเกษตรศาสตร์ 2542, วิชาบูรณาการ
หมวดการศึกษาทั่วไป รหัสวิชา 999211 คณิตศาสตร์และคอมพิวเตอร์ในชีวิตประจำวัน