AI ฉลาดขึ้น หรือ แค่แต่งตัวเก่งขึ้น? เคล็ดลับเบื้องหลัง ChatGPT ที่ไม่ได้ผ่าตัด แต่แค่ “แต่งหน้า”

AI ฉลาดขึ้น หรือ แค่แต่งตัวเก่งขึ้น? เคล็ดลับเบื้องหลัง ChatGPT ที่ไม่ได้ผ่าตัด แต่แค่ “แต่งหน้า”

หลายคนอาจคิดว่า ChatGPT หรือโมเดลภาษาขนาดใหญ่ (LLM) รุ่นใหม่ๆ นั้นฉลาดกว่ารุ่นก่อนหน้าอย่าง GPT-3 มาก แต่ความจริงแล้วมันอาจไม่ได้ “ฉลาดขึ้น” ในแง่ของความรู้พื้นฐานหรือความสามารถในการให้เหตุผลเชิงลึกขนาดนั้น

สิ่งที่ทำให้โมเดลเหล่านี้ดูเหนือกว่าและใช้งานง่ายขึ้น คือกระบวนการที่เรียกว่า Supervised Fine-Tuning (SFT) ซึ่งเปรียบได้กับการ “แต่งหน้า” ให้กับโมเดล มากกว่าการ “ผ่าตัด” เปลี่ยนแปลงโครงสร้างภายใน

SFT คืออะไร? การฝึกฝนเพื่อความเข้าอกเข้าใจ

Supervised Fine-Tuning (SFT) คือขั้นตอนสำคัญแรกๆ ในการปรับจูนโมเดลภาษาขนาดใหญ่ให้สอดคล้องกับความต้องการและคำสั่งของมนุษย์

หลังจากที่โมเดลถูกฝึกด้วยข้อมูลมหาศาล (pre-training) มาแล้ว SFT จะเข้ามาช่วยสอนให้โมเดล เรียนรู้วิธีการตอบคำถาม และ ปฏิบัติตามคำสั่ง อย่างถูกต้องและเป็นประโยชน์

มันทำได้โดยการป้อนชุดข้อมูลคุณภาพสูงที่ประกอบด้วย “คำสั่ง” และ “คำตอบที่คาดหวัง” ที่มนุษย์กำหนดไว้ให้ เช่น ถามว่า “เขียนบทความสั้นๆ เกี่ยวกับ AI” และมีตัวอย่างคำตอบที่ดีตามมา

ศัลยกรรม (Pre-training) หรือ เมคอัพ (Fine-tuning)?

ลองจินตนาการถึงโมเดล AI เหมือนกับมนุษย์คนหนึ่ง

Pre-training หรือการฝึกเบื้องต้น คือการที่คนๆ นั้นเรียนรู้สิ่งต่างๆ ในโลก สั่งสมความรู้ ประสบการณ์ และเข้าใจภาษา นี่คือ “การผ่าตัดใหญ่” ที่สร้างโครงสร้างสมองและสติปัญญาพื้นฐานขึ้นมา ซึ่งต้องใช้ทรัพยากรและข้อมูลมหาศาลมาก

ส่วน SFT หรือการปรับจูนด้วยการกำกับดูแล คือการที่คนๆ นั้นเรียนรู้มารยาท การวางตัว วิธีการสื่อสารให้เหมาะสมกับสถานการณ์ต่างๆ

มันคือ “การแต่งหน้า” ที่ช่วยเสริมบุคลิกภาพ ปรับปรุงท่าทีให้ดูดี มีเสน่ห์ และเป็นมิตรมากขึ้น ทำให้ดูฉลาดและน่าประทับใจยิ่งขึ้นในการโต้ตอบกับผู้อื่น

ความเข้าใจใหม่: โมเดลไม่ได้ฉลาดขึ้น แต่ตอบโจทย์ได้ดีกว่า

แนวคิดที่เรียกว่า “Shallow Alignment Hypothesis” เสนอว่า SFT ไม่ได้เปลี่ยนความรู้เชิงลึกหรือความสามารถในการให้เหตุผลของโมเดลอย่างถึงแก่น

แต่เป็นการปรับเปลี่ยน วิธีการแสดงออก หรือ พฤติกรรมการตอบสนอง ของโมเดลมากกว่า

กล่าวคือ SFT จะสอนให้โมเดลเลือกใช้ความรู้ที่มีอยู่แล้วในคลังสมอง ให้สอดคล้องกับสิ่งที่มนุษย์ต้องการและชอบ ไม่ใช่การเพิ่มพูนความรู้ใหม่เข้าไปในระบบ

นี่คือเหตุผลว่าทำไม ChatGPT จึงดูเหมือนเข้าใจเรามากขึ้น ให้คำตอบที่เป็นประโยชน์ ไม่ตอบคำถามที่อาจเป็นอันตราย หรือปฏิเสธคำขอที่ไม่เหมาะสม เพราะมันถูก “แต่งหน้า” ให้มีพฤติกรรมดังกล่าว

ประโยชน์ที่จับต้องได้และคุ้มค่า

ข้อดีที่โดดเด่นของ SFT คือ ความคุ้มค่าและประสิทธิภาพ ในการลงทุน

การปรับจูนโมเดลด้วย SFT ไม่ได้ใช้ทรัพยากรหรือข้อมูลจำนวนมหาศาลเหมือนการฝึกเบื้องต้น

ชุดข้อมูลคุณภาพสูงที่มีขนาดเล็กก็สามารถสร้างความแตกต่างอย่างมีนัยสำคัญต่อประสบการณ์ของผู้ใช้งานได้ ทำให้โมเดลสามารถตอบสนองได้ตรงจุดและเป็นประโยชน์มากขึ้นอย่างเห็นได้ชัด

นี่จึงเป็นเทคนิคที่เปิดโอกาสให้ทีมพัฒนาขนาดเล็กก็สามารถปรับปรุงประสิทธิภาพของโมเดล AI ให้ตอบโจทย์การใช้งานเฉพาะทางได้ โดยไม่ต้องแบกรับค่าใช้จ่ายมหาศาลในการสร้างโมเดลตั้งแต่ต้น

ดังนั้น การทำความเข้าใจ Supervised Fine-Tuning จึงเป็นสิ่งสำคัญที่จะช่วยให้มองเห็นภาพรวมว่าอะไรคือปัจจัยที่ทำให้โมเดลภาษาขนาดใหญ่ในปัจจุบันดู “เก่ง” และ “ใช้งานได้จริง” มากกว่าเดิม โดยที่เบื้องหลังอาจไม่ใช่การเพิ่มขีดความสามารถทางปัญญา แต่เป็นการเพิ่มความสามารถในการสื่อสารและปฏิสัมพันธ์กับโลกมนุษย์ได้อย่างลงตัวและมีประสิทธิภาพ