كيف تبني المختبرات اليابانية أنظمة RAG أفضل

قاعدة بيانات المتجهات (vector database) الخاصة بك تعيد أجزاءً (chunks) ذات صلة. نموذج التضمين (embedding model) الخاص بك يحقق نتائج عالية في الاختبارات المرجعية. ولكن عندما يطرح المستخدم سؤالاً معقداً، يعطي النظام إجابة عديمة الفائدة.

هذا فشل في بنية الاسترجاع (retrieval architecture). ضبط نموذج اللغة الكبير (LLM) الخاص بك لن يحل هذه المشكلة.

وجد فريق بحث ياباني حلاً؛ حيث قاموا ببناء نظام RAG يعتمد على الرسم البياني للمعرفة (knowledge graph). أدى هذا النهج إلى تحسين الدقة في المهام العلمية بنسبة 90%.

تكمن المشكلة في نظام RAG التقليدي في التشابه الدلالي (semantic similarity). فقد يبدو جزء يتحدث عن طي البروتين (protein folding) مشابهاً لاستعلام حول CRISPR، لكن التشابه لا يعني بالضرورة الصلة بالموضوع.

يستخدم الفريق الياباني علاقات الكيانات (entity relationships) بدلاً من مجرد أجزاء نصية. فهم يستخرجون:

  • كيانات مثل البروتينات أو الباحثين
  • علاقات مثل "يثبط" أو "يستشهد بـ"
  • سمات مثل درجات الثقة

يستخدمون عملية مكونة من مرحلتين. أولاً، يحددون الرسوم البيانية الفرعية (subgraphs) ذات الصلة. ثانياً، يسترجعون النصوص المرتبطة بتلك الكيانات. هذا يمنع الانحراف الدلالي (semantic drift)؛ فأنت تسترجع السياق، وليس مجرد كلمات متشابهة.

بناء GraphRAG أصعب من بناء RAG التقليدي. أنت بحاجة إلى:

  • مسارات استخراج الكيانات (entity extraction pipelines)
  • تصنيف العلاقات
  • بنية تحتية لتخزين الرسوم البيانية
  • محركات استعلام هجينة

الخطر الأكبر هو الصيانة. فالرسوم البيانية "تتعفن" إذا لم تقم بتحديثها. لقد تعلمت هذا بالطريقة الصعبة في عام 2023؛ حيث قمت ببناء نظام RAG قانوني بدقة عالية، لكنني فشلت في بناء آلية تحديث. بعد ستة أشهر، أصبحت البيانات قديمة، وانخفضت الدقة من 94% إلى 71%.

كيف تبنيه بشكل صحيح:

  • ابدأ بتصنيف للكيانات (entity taxonomy). اختر من 20 إلى 30 نوعاً مهماً.
  • استخدم الاسترجاع الهجين (hybrid retrieval) منذ اليوم الأول. استخدم الرسوم البيانية للعلاقات والمتجهات للمواضيع.
  • ابنِ مسار الصيانة الخاص بك أولاً. خطط لكيفية قيام المستندات الجديدة بتحديث الرسم البياني.
  • قم بقياس سلاسل الاستدلال (reasoning chains). تتبع عدد الخطوات التي يتخذها النظام للإجابة.

إذا كنت تعمل في مجالات العلوم أو القانون أو الطب، فإن تكلفة الصيانة تستحق العناء. أما بالنسبة للأسئلة الشائعة البسيطة، فإن نظام RAG التقليدي يكفي.

اسأل نفسك هذا: ما هي نسبة استعلاماتك التي تسأل عن العلاقات؟ إذا كان أكثر من 40% من مستخدميك يسألون عن كيفية ارتباط الأشياء ببعضها، فأنت بحاجة إلى رسم بياني.

المصدر: https://dev.to/xu_xu_b2179aa8fc958d531d1/how-japans-research-labs-are-building-rag-systems-that-actually-work-and-what-western-teams-keep-21b2

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi