AI ที่ว่าแม่น 90% พอใช้งานจริง ทำไมไม่เป็นแบบนั้น

หลายคนอาจเคยได้ยินเรื่องราวของระบบ Generative AI ที่ได้รับการทดสอบและประเมินว่ามีความแม่นยำสูงถึง 90% หรือมากกว่านั้น ดูเผินๆ ก็น่าจะเพียงพอสำหรับการนำไปใช้งานจริง

แต่ในความเป็นจริงแล้ว เมื่อระบบเหล่านี้ถูกนำไปปรับใช้ในสภาพแวดล้อมจริง ประสิทธิภาพที่แท้จริงกลับแตกต่างออกไปอย่างสิ้นเชิงจากตัวเลขที่เคยเห็นในห้องทดลอง บทความนี้จะชวนมาเจาะลึกถึงสาเหตุว่าทำไม ความแม่นยำ ที่เห็นในตอนพัฒนากับตอนใช้งานจริงถึงได้ต่างกันราวฟ้ากับเหว

ความแม่นยำในห้องทดลองกับโลกจริง แตกต่างกันลิบลับ

การวัด ความแม่นยำ ในสภาพแวดล้อมที่ควบคุมได้ มักใช้ชุดข้อมูลที่เตรียมไว้เป็นอย่างดี มีรูปแบบที่ชัดเจนและจำกัด ซึ่งแตกต่างจากโลกแห่งความเป็นจริงที่เต็มไปด้วยความซับซ้อน ความหลากหลาย และความไม่แน่นอน

ผู้ใช้งานจริงมักป้อนคำถามหรือคำสั่งที่ไม่ได้อยู่ในชุดข้อมูลทดสอบ หรือมี บริบท ที่ซับซ้อนกว่ามาก ทำให้ AI ที่เคยดูแม่นยำในตอนแรก กลับแสดงผลลัพธ์ที่ไม่ถูกต้องหรือไม่เป็นประโยชน์เอาเสียเลย

นี่คือความท้าทายที่นักพัฒนา AI ต้องเผชิญ

ข้อจำกัดด้านบริบทและการสนทนาหลายรอบ

ระบบ Generative AI มีข้อจำกัดในเรื่องของ บริบท การจดจำข้อมูลจากบทสนทนาในอดีต หรือที่เรียกว่า “Context Window” นั้นมีขีดจำกัด

เมื่อบทสนทนายาวขึ้นหรือซับซ้อนขึ้น AI อาจ “ลืม” ข้อมูลสำคัญที่เคยพูดคุยกันไปแล้ว ทำให้การตอบสนองผิดเพี้ยนไปได้

นอกจากนี้ ปัญหา การสนทนาหลายรอบ (Multi-turn Conversation) ยังเป็นอีกอุปสรรคสำคัญ

ในแต่ละรอบของการโต้ตอบ ประสิทธิภาพของ AI อาจลดลงเรื่อยๆ เพราะต้องพยายามทำความเข้าใจและเชื่อมโยงข้อมูลจากประวัติการสนทนาที่ยาวขึ้นเรื่อยๆ ซึ่งไม่ใช่เรื่องง่ายสำหรับเทคโนโลยีในปัจจุบัน

ปัญหาการสร้างข้อมูลหลอน (Hallucination) และข้อมูลไม่ทันสมัย

หนึ่งในปัญหาที่ใหญ่ที่สุดของ Generative AI คือการสร้างข้อมูลที่ดูเหมือนจริงแต่เป็นเท็จ หรือที่เรียกว่า Hallucination

เมื่อ AI ไม่มีความรู้หรือข้อมูลที่เพียงพอ แทนที่จะตอบว่าไม่รู้ กลับสร้างข้อมูลขึ้นมาเอง ทำให้ผู้ใช้งานได้รับข้อมูลที่ผิดพลาด ซึ่งเป็นอันตรายอย่างยิ่งในการใช้งานจริง

อีกประเด็นคือเรื่องของ ข้อมูลไม่ทันสมัย ระบบ AI ถูกฝึกด้วยข้อมูล ณ ช่วงเวลาหนึ่ง การเปลี่ยนแปลงของข้อมูลในโลกจริง หรือข้อมูลใหม่ๆ ที่เกิดขึ้น อาจทำให้ AI ให้คำตอบที่ล้าสมัยหรือไม่ถูกต้อง

แม้จะมีเทคนิคอย่าง RAG (Retrieval Augmented Generation) เข้ามาช่วยดึงข้อมูลล่าสุดจากภายนอก แต่ก็ไม่ใช่ยาวิเศษที่จะแก้ปัญหาได้ทั้งหมด

การทดสอบที่ครอบคลุมคือหัวใจสำคัญ

เพื่อให้ AI ทำงานได้ดีในโลกจริง การทดสอบต้องมีความครอบคลุมและหลากหลายมากกว่าแค่การวัดความแม่นยำพื้นฐาน

จำเป็นต้องมีการทดสอบที่เรียกว่า Negative testing คือการทดสอบในสิ่งที่ระบบไม่ควรทำ หรือไม่ควรตอบ ซึ่งสำคัญไม่แพ้การทดสอบสิ่งที่ระบบควรทำ

การทดสอบต้องจำลองสถานการณ์การใช้งานจริงให้มากที่สุด รวมถึงการป้อนคำถามที่คลุมเครือ ซับซ้อน หรือแม้แต่คำถามที่อยู่นอกเหนือความสามารถของ AI เพื่อให้เข้าใจขีดจำกัดและปรับปรุงแก้ไขได้ก่อนนำไปใช้งานจริง

การสร้างระบบ Generative AI ที่ประสบความสำเร็จอย่างแท้จริง ไม่ได้ขึ้นอยู่กับตัวเลขความแม่นยำสูงลิบในห้องทดลองเพียงอย่างเดียว แต่ต้องอาศัยความเข้าใจอย่างลึกซึ้งถึงพฤติกรรมผู้ใช้งาน ข้อจำกัดของเทคโนโลยี และการปรับปรุงอย่างต่อเนื่องตามผลลัพธ์ที่ได้จากการใช้งานจริงในสภาพแวดล้อมที่ไม่สมบูรณ์แบบ