ปลดล็อกศักยภาพ AI: รันโมเดลภาษาขนาดใหญ่บนการ์ดจอแค่ 4GB ทำได้จริงหรือ?

วงการ AI กำลังก้าวหน้าอย่างรวดเร็ว โดยเฉพาะ โมเดลภาษาขนาดใหญ่ (LLMs) ที่มีความสามารถน่าทึ่ง

แต่ปัญหาใหญ่ที่หลายคนเจอ คือการ์ดจอธรรมดาที่เรามีอยู่นั้น หน่วยความจำวิดีโอ (VRAM) ไม่เพียงพอต่อการรันโมเดลเหล่านี้เลย

แล้วจะดีแค่ไหนถ้าเราสามารถใช้งาน LLMs ระดับ 70 พันล้านพารามิเตอร์ ได้บนการ์ดจอที่มี VRAM เพียง 4GB เท่านั้น

นี่คือความก้าวหน้าครั้งสำคัญที่ทำให้ AI เข้าถึงได้ง่ายขึ้นมาก

โมเดลภาษาขนาดใหญ่ (LLMs) ที่มีพารามิเตอร์มหาศาลอย่าง 70 พันล้านนั้นต้องการ VRAM ในปริมาณสูงมาก เพื่อเก็บข้อมูลน้ำหนักของโมเดล

โดยปกติ โมเดลขนาดนี้ต้องใช้ VRAM อย่างน้อย 80GB ซึ่งเกินความสามารถของการ์ดจอทั่วไปที่คนส่วนใหญ่มี เช่น 4GB, 8GB หรือ 12GB

ทำให้ LLMs ทรงพลังเหล่านี้กลายเป็นเรื่องไกลตัวสำหรับนักพัฒนาและผู้ใช้งานทั่วไปที่มีงบประมาณจำกัด

ที่ผ่านมามีความพยายามหลายวิธีเพื่อลดภาระของ VRAM

วิธีแรกคือ การควอนไทซ์ (Quantization) ที่ลดความละเอียดข้อมูลน้ำหนักโมเดลลง

แม้จะช่วยลดขนาดโมเดลได้มาก แต่สำหรับ LLMs ขนาด 70B ก็ยังต้องการ VRAM ประมาณ 35GB ซึ่งเกินขีดความสามารถของการ์ดจอทั่วไปอยู่ดี

อีกวิธีคือ การออฟโหลด (Offloading) โดยย้ายส่วนที่ไม่ใช้งานของโมเดลไปเก็บไว้ใน RAM ของ CPU แล้วค่อยโหลดกลับมาเมื่อจำเป็น

แม้วิธีนี้จะช่วยให้โมเดลทำงานได้ แต่ก็แลกมาด้วย ความเร็วที่ลดลงอย่างมหาศาล

เพราะการส่งข้อมูลไปมาระหว่าง CPU RAM และ GPU VRAM นั้นช้ามาก ทำให้การประมวลผลติดขัด

แนวคิดพลิกเกมคือการสังเกตว่า LLMs ไม่ได้ใช้ทุกส่วนของโมเดลพร้อมกัน

ในขณะประมวลผลแต่ละโทเค็น โมเดลจะเปิดใช้งาน เลเยอร์ (layers) ตามลำดับ

มีเพียง “ส่วนที่กำลังทำงาน” เท่านั้นที่จำเป็นต้องอยู่ใน VRAM ณ เวลานั้น

ด้วยแนวคิดนี้ จึงพัฒนาเทคนิคที่คล้ายกับ “หน่วยความจำเสมือน” ของระบบปฏิบัติการ

โดยแบ่งโมเดลออกเป็น บล็อก (blocks) ย่อยๆ

แล้วโหลดเฉพาะบล็อกที่ กำลังจะถูกใช้งาน เข้าไปใน VRAM ของ GPU เท่านั้น

ส่วนบล็อกที่ยังไม่ถึงคิว หรือถูกใช้งานไปแล้ว จะถูกย้ายกลับไปเก็บใน CPU RAM ชั่วคราว

กระบวนการ “สลับเปลี่ยน (swapping)” บล็อกข้อมูลไปมาระหว่าง CPU RAM และ GPU VRAM จะเกิดขึ้นอย่างต่อเนื่อง

ทำให้ GPU ที่มี VRAM น้อย เช่น 4GB ก็สามารถ “หลอก” ตัวเองให้รันโมเดลขนาดใหญ่ 70B ได้อย่างน่าทึ่ง

ประโยชน์หลักของเทคนิคนี้คือ ช่วยให้เข้าถึงเทคโนโลยี LLMs ระดับสูงได้กว้างขวางขึ้น

ผู้ใช้งานที่มีฮาร์ดแวร์จำกัด ไม่ว่าจะเป็นนักพัฒนา นักวิจัย หรือผู้สนใจทั่วไป

สามารถทดลองและใช้งานโมเดลภาษาขนาดใหญ่ที่เคยเข้าถึงไม่ได้ ให้รันบนเครื่องของตัวเองได้จริง

อย่างไรก็ตาม วิธีนี้มี ข้อจำกัดที่สำคัญ คือ ความหน่วง (latency) หรือความช้าในการประมวลผลที่เพิ่มขึ้น

เนื่องจากต้องใช้เวลาสลับข้อมูลบล็อกต่างๆ ไปมาระหว่าง CPU RAM และ GPU VRAM ตลอดเวลา

ดังนั้น แม้จะรันโมเดลได้ ก็อาจไม่ได้เร็วเท่าการรันบนการ์ดจอที่มี VRAM เพียงพอจริงๆ

แต่ถึงอย่างนั้น นี่ก็เป็น ก้าวสำคัญที่ทำให้ LLMs ทรงพลัง เหล่านี้เข้าถึงได้ง่ายขึ้นมาก

และเปิดโอกาสให้เกิดนวัตกรรมและการทดลองใหม่ๆ ที่ไม่เคยเกิดขึ้นมาก่อนบนฮาร์ดแวร์ทั่วไป

นับเป็นความหวังใหม่ในการทำให้ AI เป็นของทุกคนอย่างแท้จริง