AI ฉลาดแล้วจริงหรือ? แกะรอยความลับที่ทำให้โมเดลเข้าใจ “ลำดับคำ”

ปัญญาประดิษฐ์ในปัจจุบันก้าวหน้าไปไกลมาก

จนสามารถสร้างข้อความ ตอบคำถาม หรือแม้แต่แต่งเรื่องราวที่ซับซ้อนได้อย่างน่าทึ่ง

แต่รู้หรือไม่ว่า กว่าจะมาถึงจุดนี้ โมเดล AI เคยมีปัญหาพื้นฐานที่ทำให้งงกับประโยคง่ายๆ อย่าง “สิงโตกินไฮยีน่า” กับ “ไฮยีน่ากินสิงโต” มาก่อน

แม้จะเป็นคำเดียวกัน แต่แค่สลับตำแหน่ง ความหมาย ก็เปลี่ยนไปคนละเรื่อง

นี่คือช่องโหว่สำคัญที่ต้องได้รับการแก้ไขเพื่อให้ AI เข้าใจโลกได้ลึกซึ้งยิ่งขึ้น

ทำไมลำดับคำสำคัญกว่าที่คิด

ธรรมชาติของภาษามนุษย์นั้น ลำดับคำ มีผลต่อ ความหมาย ของประโยคอย่างมาก

ประโยคเช่น “ฉันรักเธอ” ย่อมแตกต่างจาก “เธอรักฉัน” อย่างสิ้นเชิง

สำหรับมนุษย์ นี่คือเรื่องพื้นๆ ที่เข้าใจได้ทันที

แต่สำหรับ โมเดล AI ประเภท Transformer ซึ่งเป็นหัวใจสำคัญของภาษา AI ยุคใหม่ กลับไม่ใช่เรื่องง่ายอย่างที่คิด

กลไกหลักของ Transformer คือ กลไก Self-Attention

มันถูกออกแบบมาให้มองเห็นความสัมพันธ์ของคำทุกคำในประโยคพร้อมกัน โดยไม่สนว่าคำไหนอยู่ก่อนหรือหลัง

เปรียบเสมือนการมองเห็นถุงใส่คำศัพท์ ที่มีแค่คำว่า “สิงโต”, “กิน”, “ไฮยีน่า” อยู่ข้างใน โดยไม่รู้ว่าคำไหนมาก่อนหรือหลัง

นี่เป็นข้อจำกัดที่ทำให้โมเดลไม่สามารถแยกแยะ ความหมาย ที่แตกต่างกันจาก ลำดับคำ ที่ต่างกันได้

รหัสลับบอกตำแหน่ง: Positional Encoding

เพื่อแก้ปัญหาเรื่องความเข้าใจใน ลำดับคำ นักวิทยาศาสตร์จึงได้คิดค้นเทคนิคที่เรียกว่า Positional Encoding ขึ้นมา

ลองนึกภาพว่าแต่ละคำในประโยคถูกติด “ป้ายรหัสลับ” เอาไว้

ป้ายรหัสลับนี้ไม่ได้บอกแค่ว่าคำนั้นคืออะไร แต่ยังบอกด้วยว่าคำนั้นอยู่ตำแหน่งไหนในประโยค

ยกตัวอย่างเช่น คำว่า “สิงโต” ที่อยู่ต้นประโยค จะมีรหัสบอกตำแหน่งหนึ่ง

ในขณะที่คำว่า “สิงโต” ที่อาจไปอยู่ท้ายประโยคในอีกประโยคหนึ่ง ก็จะมีรหัสบอกตำแหน่งที่แตกต่างกันออกไป

Positional Encoding จะเพิ่ม ข้อมูลตำแหน่ง นี้เข้าไปในข้อมูลของแต่ละคำ

ช่วยให้ โมเดล AI ไม่ได้มองแค่เนื้อหาของคำ แต่ยังเห็น “ที่อยู่” ของคำนั้นๆ ด้วย

ทำให้เมื่อเห็น “สิงโตกินไฮยีน่า” ตัวโมเดลจะเข้าใจว่า “สิงโต” มาก่อน “กิน” และ “ไฮยีน่า” ตามมาทีหลัง

มันจึงสามารถตีความ ความหมาย ของประโยคได้อย่างถูกต้อง

ประเภทของ Positional Encoding และความท้าทาย

Positional Encoding มีหลายวิธีในการทำงาน

วิธีหนึ่งที่นิยมใช้กันคือ Absolute Positional Encoding ซึ่งจะกำหนดค่าตัวเลขหรือรูปแบบทางคณิตศาสตร์ (เช่น ฟังก์ชัน Sine และ Cosine) ที่ไม่ซ้ำกันให้กับแต่ละตำแหน่ง

ตำแหน่งที่ 1 อาจมีรูปแบบหนึ่ง ตำแหน่งที่ 2 ก็มีอีกรูปแบบหนึ่ง ไปเรื่อยๆ

อีกวิธีคือ Relative Positional Encoding ที่ไม่ได้สนใจตำแหน่งสัมบูรณ์ของแต่ละคำ

แต่จะเน้นไปที่ “ระยะห่าง” หรือ “ความสัมพันธ์เชิงตำแหน่ง” ระหว่างคำสองคำแทน

เช่น คำ A อยู่ห่างจากคำ B กี่ตำแหน่ง

ความท้าทายสำคัญคือการจัดการกับ ประโยคยาวๆ หรือ ข้อมูลที่มีความยาวมาก

การเข้ารหัสตำแหน่งต้องสามารถรองรับความยาวที่หลากหลาย และยังคงให้ ข้อมูลตำแหน่ง ที่เป็นประโยชน์ต่อโมเดลได้

นักวิจัยจึงต้องพัฒนาวิธีการที่ซับซ้อนขึ้นเรื่อยๆ เพื่อให้ AI สามารถประมวลผลประโยคที่ยาวเป็นพิเศษได้อย่างมีประสิทธิภาพ

การเพิ่ม Positional Encoding เข้าไปในสถาปัตยกรรมของ Transformer ถือเป็นการปรับปรุงที่สำคัญอย่างยิ่ง

มันคือจิ๊กซอว์ชิ้นเล็กๆ ที่เติมเต็มความสามารถในการเข้าใจภาษาให้กับ โมเดล AI

ทำให้พวกมันไม่เพียงแค่รู้จักคำศัพท์ แต่ยังเข้าใจโครงสร้างและความสัมพันธ์ของคำในประโยคได้อย่างลึกซึ้ง

และนั่นคือเหตุผลสำคัญที่ทำให้เราได้เห็น AI ที่สามารถสื่อสารและสร้างสรรค์ภาษาได้อย่างน่าทึ่งในวันนี้