ปฏิวัติการมองเห็นของ AI: เมื่อคอมพิวเตอร์เริ่ม “จดจำ” และ “คิดทบทวน” ได้

โลกของปัญญาประดิษฐ์ด้านการมองเห็น (Computer Vision) มีวิวัฒนาการที่น่าทึ่งตลอดหลายทศวรรษที่ผ่านมา

จากยุคแรกที่ใช้การวิเคราะห์คุณสมบัติภาพแบบดั้งเดิม สู่ยุคทองของ โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNNs) ที่ปฏิวัติการจดจำรูปภาพด้วยความสามารถในการเรียนรู้คุณลักษณะเฉพาะของภาพได้อย่างยอดเยี่ยม

อย่างไรก็ตาม CNNs ก็ยังมีข้อจำกัดในการทำความเข้าใจบริบทภาพโดยรวมขนาดใหญ่

จากนั้นเทคโนโลยีก็ก้าวมาถึง Vision Transformers (ViTs) ที่เข้ามาเปลี่ยนเกมอีกครั้ง ViTs ใช้กลไกที่เรียกว่า Self-Attention ทำให้สามารถประมวลผลและทำความเข้าใจความสัมพันธ์ของทุกส่วนในภาพได้พร้อมกัน ไม่ได้มองแค่จุดใดจุดหนึ่งอีกต่อไป

นี่คือการก้าวข้ามขีดจำกัดด้านบริบทที่ CNNs เคยมี ทำให้ ViTs กลายเป็นมาตรฐานใหม่ในหลายงานด้านการมองเห็น

ข้อจำกัดของ ViTs ที่กำลังถูกแก้ไข

แม้ ViTs จะทรงพลัง แต่ก็ไม่ได้ไร้ที่ติ

ประการแรกคือเรื่องของ ต้นทุนการคำนวณ ViTs ต้องประมวลผลความสัมพันธ์ระหว่างทุกพิกเซลในภาพ ซึ่งทำให้ประสิทธิภาพการทำงานลดลงอย่างมากเมื่อขนาดภาพใหญ่ขึ้น กลายเป็นความท้าทายสำหรับภาพความละเอียดสูง

ประการที่สองและสำคัญไม่แพ้กันคือ ViTs โดยพื้นฐานแล้วจะประมวลผลภาพทีละภาพแบบ แยกส่วน เหมือนคอมพิวเตอร์ที่เห็นสิ่งหนึ่งแล้วลืมไปทันทีเมื่อเจอสิ่งใหม่

มันไม่มี “หน่วยความจำ” ที่จะจดจำสิ่งที่เคยเห็น หรือ “คิดทบทวน” ซ้ำเกี่ยวกับสิ่งที่กำลังเห็นอยู่

ลองนึกภาพว่ามนุษย์เรามองเห็นสิ่งต่าง ๆ เราไม่ได้มองแล้วจบไปเลย แต่เราจะจำได้ว่าเมื่อกี้เห็นอะไร และถ้าสงสัยก็สามารถมองซ้ำ คิดทบทวน เพื่อทำความเข้าใจให้ลึกซึ้งยิ่งขึ้น

นี่คือสิ่งที่ ViTs ทั่วไปยังขาดอยู่

Recurrent Vision Transformers (RVTs): เพิ่มความจำและการคิดทบทวนให้ AI

เพื่อเติมเต็มช่องว่างนี้ นักวิจัยจึงได้พัฒนาแนวคิดใหม่ที่เรียกว่า Recurrent Vision Transformers (RVTs)

แก่นแท้ของ RVTs คือการผสานรวม กลไกหน่วยความจำแบบวนซ้ำ (Recurrent Mechanism) เข้ากับสถาปัตยกรรม Transformer

โมเดล RVTs จะไม่เพียงแค่ประมวลผลภาพปัจจุบัน แต่ยังคงรักษา “สถานะภายใน” หรือ “หน่วยความจำ” ที่สะท้อนถึงการรับรู้จากภาพก่อนหน้า หรือจากการประมวลผลซ้ำ ๆ ในภาพเดียวกัน

หน่วยความจำนี้จะถูกอัปเดตอย่างต่อเนื่อง และส่งผลต่อการตีความข้อมูลใหม่ หรือช่วยให้โมเดลสามารถ “คิดทบทวน” หรือ “ทำความเข้าใจซ้ำ” เกี่ยวกับภาพเดิมได้หลายครั้ง เพื่อกลั่นกรองผลลัพธ์ให้แม่นยำยิ่งขึ้น

เหมือนสมองคนเราที่สามารถมองและไตร่ตรองซ้ำได้

ประโยชน์อันมหาศาลของ RVTs

การเพิ่มความสามารถในการจดจำและคิดทบทวนนี้เปิดประตูสู่การประยุกต์ใช้ที่น่าตื่นเต้น

ประสิทธิภาพที่เหนือกว่า RVTs สามารถทำความเข้าใจสถานการณ์ที่ซับซ้อน คลุมเครือ หรือเป็นลำดับได้อย่างยอดเยี่ยม โดยเฉพาะอย่างยิ่งในงานที่เกี่ยวข้องกับ วิดีโอ หรือ ภาพเคลื่อนไหว

โมเดลจะสามารถติดตามวัตถุได้อย่างแม่นยำขึ้น เข้าใจการเปลี่ยนแปลงของฉาก หรือคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต

นอกจากนี้ยังช่วยให้ AI มี ความยืดหยุ่นและทนทาน ต่อสิ่งรบกวน เช่น การบดบังบางส่วนของวัตถุ เพราะสามารถใช้ข้อมูลจากหน่วยความจำมาช่วยเติมเต็มช่องว่างที่ขาดหายไปได้

สิ่งนี้มีความสำคัญอย่างยิ่งในแวดวงอย่าง การขับขี่อัตโนมัติ หรือ การวิเคราะห์ภาพทางการแพทย์ ที่ต้องการความแม่นยำและความน่าเชื่อถือสูงสุด

RVTs กำลังกำหนดนิยามใหม่ของความสามารถในการมองเห็นของ AI

การผสานรวม “หน่วยความจำ” และ “การคิดทบทวน” เข้ากับ Transformer ไม่เพียงช่วยปรับปรุงประสิทธิภาพเท่านั้น แต่ยังผลักดันให้ AI ก้าวเข้าใกล้ความเข้าใจโลกแบบองค์รวมเช่นเดียวกับสิ่งมีชีวิตมากยิ่งขึ้น

เทคโนโลยีนี้กำลังปูทางไปสู่ระบบ AI ที่ฉลาดล้ำและตอบสนองได้ดีกว่าเดิม