ปฏิวัติการดึงข้อมูล: เมื่อ RAG ไม่จำเป็นต้องใช้ Vector เสมอไป

ในยุคที่ AI พัฒนาไปอย่างก้าวกระโดด RAG (Retrieval Augmented Generation) ได้กลายเป็นเทคโนโลยีสำคัญที่ช่วยให้โมเดลภาษาขนาดใหญ่ หรือ LLM ฉลาดขึ้นมาก

RAG ทำหน้าที่คล้ายสมองเสริม ให้ LLM เข้าถึงข้อมูลภายนอกได้อย่างรวดเร็ว

เพื่อนำมาประกอบการสร้างคำตอบ ทำให้คำตอบแม่นยำ ทันสมัย และลดการสร้างข้อมูลเท็จ (hallucination)

โดยทั่วไป ระบบ RAG จะพึ่งพา “Vector” เป็นหลัก

ข้อมูลจะถูกแปลงเป็น Vector Embeddings ซึ่งเป็นตัวเลขที่แสดงความหมาย และจัดเก็บใน Vector Database

เพื่อให้ LLM ค้นหาข้อมูลที่เกี่ยวข้องกับคำถามได้อย่างรวดเร็วผ่านการเปรียบเทียบ Vector

ทำไมต้องคิดใหม่? ปัญหาของ RAG แบบเดิม

แม้ Vector RAG จะทรงพลัง แต่ก็มีข้อจำกัด

ความซับซ้อนในการจัดการ และการใช้ ทรัพยากร จำนวนมาก ทั้งค่าใช้จ่ายในการจัดเก็บ ประมวลผล และเวลาในการค้นหา (latency) เป็นอุปสรรคสำคัญ

บางครั้ง Vector RAG อาจไม่เหมาะกับข้อมูลที่มีโครงสร้างชัดเจน หรือต้องการความแม่นยำเฉพาะเจาะจงสูง

ปัญหา “lost in the middle” ที่ข้อมูลสำคัญถูกกลบด้วยข้อมูลอื่นที่ไม่เกี่ยว ก็เกิดขึ้นได้

สำรวจทางเลือกใหม่: Vectorless RAG คืออะไร

แนวคิด Vectorless RAG จึงเกิดขึ้นมาเพื่อแก้ไขข้อจำกัดเหล่านี้

คือการดึงข้อมูลเพื่อเสริม LLM โดยไม่ต้องพึ่งพา Vector Embeddings เลย

นี่คือการพลิกโฉมวิธีคิด ที่จะช่วยลดความซับซ้อน ลดค่าใช้จ่าย และเพิ่มความแม่นยำในการดึงข้อมูลสำหรับบางกรณี

เปิดประตูสู่การสร้างระบบ AI ที่ยืดหยุ่นและตอบสนองความต้องการที่หลากหลายยิ่งขึ้น

วิธีการทำงานของ Vectorless RAG

แล้วเราจะดึงข้อมูลโดยไม่ใช้ Vector ได้อย่างไร? มีหลายวิธีที่น่าสนใจ:

1. LLM-as-a-Retriever:

แนวคิดนี้ใช้ความสามารถของ LLM เองในการทำหน้าที่ดึงข้อมูล

LLM สามารถเข้าใจคำถาม แล้วสร้างคำค้นหาที่เหมาะสม หรือแม้แต่สร้างคำสั่ง SQL เพื่อดึงข้อมูลจาก ฐานข้อมูลที่มีโครงสร้าง โดยตรง

วิธีนี้ใช้ความเข้าใจเชิงความหมายของ LLM เพื่อหาข้อมูลที่ตรงประเด็นอย่างชาญฉลาดและยืดหยุ่น

2. ระบบ Rule-Based (กฎเกณฑ์):

สำหรับข้อมูลที่มีโครงสร้างแน่นอน หรือต้องการผลลัพธ์ที่แม่นยำตามกฎเกณฑ์

การใช้ระบบที่อิงตาม กฎ เช่น การค้นหาด้วยคำหลัก, การจับคู่รูปแบบ, การใช้ regular expressions สามารถดึงข้อมูลได้อย่างรวดเร็วและตรงไปตรงมา

วิธีนี้เหมาะกับข้อมูลที่มีความกำกวมต่ำ และต้องการความถูกต้องแบบ 100%

3. Knowledge Graphs (กราฟความรู้):

Knowledge Graph จัดเก็บข้อมูลในรูปแบบของโครงข่ายของเอนทิตีและความสัมพันธ์ระหว่างกัน

การดึงข้อมูลคือการสำรวจความเชื่อมโยงในกราฟ เพื่อค้นหาข้อมูลที่สัมพันธ์กันอย่างเป็นระบบ

มันให้ความสามารถในการอธิบายที่ดีเยี่ยม และเหมาะสำหรับข้อมูลที่มีความสัมพันธ์เชิงซับซ้อน

4. Hybrid Approaches (ลูกผสม):

บางครั้งการผสมผสานหลายวิธีเข้าด้วยกันก็เป็นทางออกที่ดีที่สุด

อาจใช้ Rule-Based ในการกรองข้อมูลเบื้องต้น แล้วส่งข้อมูลที่กรองแล้วให้ LLM วิเคราะห์ต่อ

หรือใช้ Knowledge Graph เพื่อระบุเอนทิตีหลัก แล้วใช้ LLM สร้างคำตอบจากข้อมูลที่ได้มา

ประโยชน์ที่ได้รับจากการไม่ใช้ Vector

การหันมาใช้ Vectorless RAG มอบข้อดีหลายประการ

ระบบจะมีความ เรียบง่าย มากขึ้นในบางแง่มุม และช่วยลด ค่าใช้จ่าย ลงได้มาก

ประสิทธิภาพ อาจดีขึ้นสำหรับบางกรณี โดยเฉพาะเมื่อต้องการความแม่นยำสูง หรือเมื่อข้อมูลมีโครงสร้างที่ชัดเจน

การควบคุมกระบวนการดึงข้อมูลทำได้ละเอียดกว่า และสามารถ อธิบายผลลัพธ์ ได้ง่ายขึ้นด้วย

แนวคิดนี้แสดงให้เห็นว่าโลกของ AI ยังมีทางเลือกและวิธีการใหม่ๆ ให้เราสำรวจ เพื่อสร้างสรรค์นวัตกรรมที่ตอบโจทย์และมีประสิทธิภาพสูงสุดในการใช้งานจริง