طرق تقسيم النصوص (Chunking) المختلفة لتقنية RAG

تمتلك النماذج اللغوية الكبيرة (LLMs) حدوداً لعدد الرموز (tokens). ولحل هذه المشكلة، يتم استخدام عملية تقسيم النصوص (chunking)، حيث تقوم هذه العملية بتجزئة النصوص الطويلة إلى قطع أصغر. يساعد هذا نموذجك على معالجة البيانات دون استنفاد الذاكرة.

إذا كنت تستخدم تقنية التوليد المعزز بالاسترجاع (RAG)، فإن تقسيم النصوص يعد أمراً حيوياً. توفر تقنية RAG للنماذج مصدراً للمعلومات الصحيحة لمنع الهلوسة (hallucinations). تقوم بتحويل النص إلى أرقام تُسمى "التضمينات" (embeddings) وتخزينها في قاعدة بيانات متجهة (vector database).

تعتمد جودة البحث الخاص بك على جودة القطع (chunks) التي قمت بتقسيمها. إذا كانت القطع كبيرة جداً أو صغيرة جداً، سيفشل الذكاء الاصطناعي في العثور على الإجابة الصحيحة.

إليك خمس طرق لتقسيم بياناتك:

  • التقسيم بحجم ثابت (Fixed-Size Chunking) تعتمد هذه الطريقة على تقسيم النص عند عدد محدد من الحروف. وهي طريقة سريعة وغير مكلفة، ومع ذلك، فهي تفتقر إلى فهم السياق، وغالباً ما تقطع الجمل في منتصفها.

  • التقسيم المتكرر للرموز (Recursive Character Splitting) هذا هو المعيار السائد في الصناعة. تستخدم هذه الطريقة تسلسلاً هرمياً من الفواصل مثل الأسطر الجديدة والمسافات، وتحاول إبقاء الجمل المرتبطة ببعضها في كتلة واحدة. استخدم هذه الطريقة للمقالات العامة.

  • التقسيم الخاص بالمستند (Document-Specific Chunking) تنظر هذه الطريقة إلى بنية ملفك؛ حيث تستخدم وسوم HTML أو عناوين Markdown لتحديد الحدود. يحافظ هذا الأسلوب على سلامة الأكواد البرمجية أو الأقسام المحددة.

  • التقسيم الدلالي (Semantic Chunking) تعتمد هذه الطريقة على المعنى بدلاً من عدد الحروف، حيث تجمع الجمل التي تناقش نفس الموضوع، مما يؤدي إلى إنشاء قطع تلتزم بموضوع واحد. تتطلب هذه الطريقة نموذج تضمين (embedding model) لتعمل.

  • التقسيم المعتمد على الوكيل (Agentic Chunking) يقوم وكيل ذكاء اصطناعي (AI agent) بقراءة النص لتحديد مكان التقسيم. يتأكد الوكيل مما إذا كانت الفكرة مكتملة قبل الانتقال لما بعدها. هذه هي الطريقة الأكثر دقة، ولكنها أيضاً الأبطأ والأعلى تكلفة.

مقارنة سريعة:

الثابت (Fixed-Size): الأفضل للنماذج الأولية. سهلة جداً. التكلفة $0. • المتكرر (Recursive): الأفضل للنصوص العامة. سهلة. التكلفة $0. • المستند (Document): الأفضل للأكواد أو HTML. صعوبة متوسطة. التكلفة $0. • الدلالي (Semantic): الأفضل للأبحاث العميقة. صعبة. تكلفة منخفضة. • المعتمد على الوكيل (Agentic): الأفضل للدقة العالية. صعبة جداً. تكلفة عالية.

إن اختيار الاستراتيجية الصحيحة يغير نتائج الذكاء الاصطناعي الخاصة بك. سأشارك المزيد من التفاصيل حول هذه الطرق قريباً.

المصدر: https://dev.to/yashbhoskar/different-chunking-methods-for-rag-j4g

مجتمع التعلم الاختياري: https://t.me/GyaanSetuAi