ตัวเลขมหัศจรรย์หนึ่งเดียว ที่กำหนดอนาคตของ AI

หลายคนอาจสงสัยว่า AI รู้ได้อย่างไรว่าอะไร “ดี” หรือ “ไม่ดี” ในสายตามนุษย์? เบื้องหลังความฉลาดของ AI โดยเฉพาะในเรื่องการทำความเข้าใจความชอบและรสนิยมของคนเรา มีกลไกที่น่าทึ่งซ่อนอยู่ ซึ่งสามารถเปลี่ยนความรู้สึกส่วนตัว อย่าง “ฉันชอบอันนี้มากกว่า” ให้กลายเป็น ตัวเลขเพียงหนึ่งเดียว ที่ทรงพลัง

ตัวเลขนี้ไม่ได้เป็นแค่ค่าเฉลี่ย แต่เป็นแกนหลักที่กำหนดว่า AI จะสามารถพัฒนาได้ไกลแค่ไหน ราวกับเป็นเพดานที่จำกัดคุณภาพสูงสุดของมัน

เมื่อความชอบของมนุษย์ กลายเป็นสมการคณิตศาสตร์

แนวคิดเรื่องการเปลี่ยนความรู้สึกให้เป็นตัวเลขนี้ ไม่ใช่เรื่องใหม่ เพิ่งถูกคิดค้นขึ้นมาเมื่อไม่นานมานี้ แต่มีรากฐานมาจากงานวิจัยทางคณิตศาสตร์ในปี 1952 ที่เรียกว่า โมเดลของแบรดลีย์-เทอร์รี (Bradley-Terry model) โมเดลนี้มีความสง่างามและทรงประสิทธิภาพในการเปลี่ยนข้อมูลจากการ เปรียบเทียบเชิงคู่ (pairwise comparison) — เช่น เมื่อคนเราต้องเลือกว่าชอบ A หรือ B มากกว่ากัน — ให้กลายเป็น คะแนนสเกลาร์ (scalar score) สำหรับแต่ละตัวเลือก

ลองนึกภาพว่ามีคนให้เราเลือกว่าชอบกาแฟแก้วไหนมากกว่ากัน ถ้ามีคนจำนวนมากเลือกแก้ว A มากกว่าแก้ว B โมเดลนี้จะสามารถคำนวณออกมาได้ว่ากาแฟแก้ว A ควรมี “คะแนนความชอบ” สูงกว่ากาแฟแก้ว B เท่าไหร่ โดยใช้สมการคณิตศาสตร์ที่เชื่อมโยง ความน่าจะเป็นในการเลือก กับคะแนนเหล่านั้น

เบื้องหลังการทำงานของ Reward Model

ในโลกของ AI โดยเฉพาะอย่างยิ่งในโมเดลภาษาขนาดใหญ่ (LLMs) กลไกนี้ถูกเรียกว่า Reward Model หรือโมเดลให้รางวัล

มันทำงานโดยอาศัยข้อมูลจากมนุษย์ที่คอย เปรียบเทียบ และ ให้ความเห็น กับผลลัพธ์ที่ AI สร้างขึ้นมา เช่น หาก AI สร้างข้อความขึ้นมาสองแบบ คนก็จะถูกขอให้เลือกว่าข้อความไหนดีกว่า ตรงประเด็นกว่า หรือมีความเป็นธรรมชาติมากกว่า

ข้อมูลเหล่านี้จะถูกนำไปฝึกฝน Reward Model ให้เรียนรู้ “รสนิยม” ของมนุษย์จากชุดข้อมูลการเปรียบเทียบจำนวนมหาศาล เพื่อให้โมเดลสามารถ กำหนดค่าคะแนน ให้กับผลลัพธ์ใดๆ ที่ AI สร้างขึ้นมาได้เองในอนาคต

คะแนนนี้เองที่เรียกว่า คะแนนสเกลาร์ เป็นตัวเลขเดี่ยวๆ ที่แสดงถึง “ความดีงาม” หรือ “ความพึงพอใจ” ที่มนุษย์จะได้รับจากผลลัพธ์นั้นๆ ยิ่งคะแนนสูงเท่าไหร่ ก็หมายความว่าผลลัพธ์นั้นยิ่งดีในสายตาของมนุษย์มากเท่านั้น

ทำไม Reward Model ถึงเป็น ‘เพดาน’ คุณภาพของ AI

บทบาทของ Reward Model มีความสำคัญอย่างยิ่งในกระบวนการที่เรียกว่า Reinforcement Learning from Human Feedback (RLHF) ซึ่งเป็นวิธีหลักในการ จัดเรียง (align) AI ให้ทำงานได้สอดคล้องกับความต้องการและค่านิยมของมนุษย์

ลองจินตนาการว่า Reward Model เปรียบเสมือนครูผู้สอนให้กับ AI ถ้าครูมีความรู้ผิดๆ หรือตัดสินใจได้ไม่ดีนัก นักเรียน (AI) ก็จะเรียนรู้ในสิ่งที่ผิดพลาดไปด้วยเช่นกัน

ดังนั้น ความถูกต้องแม่นยำ และ ความละเอียดอ่อน ของ Reward Model จึงเป็น เพดานสูงสุด ที่กำหนดคุณภาพของ AI หาก Reward Model ไม่สามารถสะท้อนความชอบของมนุษย์ได้อย่างสมบูรณ์แบบ หรือมีความเข้าใจที่คลาดเคลื่อน AI ก็จะไม่มีทางก้าวข้ามขีดจำกัดนั้นไปได้

AI จะพยายามสร้างผลลัพธ์ที่ได้รับคะแนนสูงสุดจาก Reward Model เสมอ หากคะแนนที่ Reward Model ให้นั้นไม่ได้สะท้อนความพึงพอใจของมนุษย์จริงๆ AI ก็จะมุ่งเน้นไปที่การสร้างสิ่งที่อาจไม่เป็นประโยชน์ หรือแม้กระทั่งเป็นอันตรายต่อเรา

ในที่สุดแล้ว ความสามารถของ AI ในการทำความเข้าใจและตอบสนองความต้องการของเรา จะขึ้นอยู่กับว่าเราสามารถสร้าง Reward Model ที่ฉลาดและแม่นยำได้มากแค่ไหน นี่คือหนึ่งในความท้าทายที่สำคัญที่สุดในการพัฒนา AI ในปัจจุบัน