طرق تقسيم النصوص المختلفة لتقنية RAG

Translated for your language. اقرأ الأصل.

AI-assisted draft.

GyaanSetu Editorialالأسبوع الماضي2دقيقة قراءة

طرق تقسيم النصوص (Chunking) المختلفة لتقنية RAG

تمتلك النماذج اللغوية الكبيرة (LLMs) حدوداً لعدد الرموز (tokens). ولحل هذه المشكلة، يتم استخدام عملية تقسيم النصوص (chunking)، حيث تقوم هذه العملية بتجزئة النصوص الطويلة إلى قطع أصغر. يساعد هذا نموذجك على معالجة البيانات دون استنفاد الذاكرة.

إذا كنت تستخدم تقنية التوليد المعزز بالاسترجاع (RAG)، فإن تقسيم النصوص يعد أمراً حيوياً. توفر تقنية RAG للنماذج مصدراً للمعلومات الصحيحة لمنع الهلوسة (hallucinations). تقوم بتحويل النص إلى أرقام تُسمى "التضمينات" (embeddings) وتخزينها في قاعدة بيانات متجهة (vector database).

تعتمد جودة البحث الخاص بك على جودة القطع (chunks) التي قمت بتقسيمها. إذا كانت القطع كبيرة جداً أو صغيرة جداً، سيفشل الذكاء الاصطناعي في العثور على الإجابة الصحيحة.

إليك خمس طرق لتقسيم بياناتك:

التقسيم بحجم ثابت (Fixed-Size Chunking) تعتمد هذه الطريقة على تقسيم النص عند عدد محدد من الحروف. وهي طريقة سريعة وغير مكلفة، ومع ذلك، فهي تفتقر إلى فهم السياق، وغالباً ما تقطع الجمل في منتصفها.
التقسيم المتكرر للرموز (Recursive Character Splitting) هذا هو المعيار السائد في الصناعة. تستخدم هذه الطريقة تسلسلاً هرمياً من الفواصل مثل الأسطر الجديدة والمسافات، وتحاول إبقاء الجمل المرتبطة ببعضها في كتلة واحدة. استخدم هذه الطريقة للمقالات العامة.
التقسيم الخاص بالمستند (Document-Specific Chunking) تنظر هذه الطريقة إلى بنية ملفك؛ حيث تستخدم وسوم HTML أو عناوين Markdown لتحديد الحدود. يحافظ هذا الأسلوب على سلامة الأكواد البرمجية أو الأقسام المحددة.
التقسيم الدلالي (Semantic Chunking) تعتمد هذه الطريقة على المعنى بدلاً من عدد الحروف، حيث تجمع الجمل التي تناقش نفس الموضوع، مما يؤدي إلى إنشاء قطع تلتزم بموضوع واحد. تتطلب هذه الطريقة نموذج تضمين (embedding model) لتعمل.
التقسيم المعتمد على الوكيل (Agentic Chunking) يقوم وكيل ذكاء اصطناعي (AI agent) بقراءة النص لتحديد مكان التقسيم. يتأكد الوكيل مما إذا كانت الفكرة مكتملة قبل الانتقال لما بعدها. هذه هي الطريقة الأكثر دقة، ولكنها أيضاً الأبطأ والأعلى تكلفة.

مقارنة سريعة:

• الثابت (Fixed-Size): الأفضل للنماذج الأولية. سهلة جداً. التكلفة $0. • المتكرر (Recursive): الأفضل للنصوص العامة. سهلة. التكلفة $0. • المستند (Document): الأفضل للأكواد أو HTML. صعوبة متوسطة. التكلفة $0. • الدلالي (Semantic): الأفضل للأبحاث العميقة. صعبة. تكلفة منخفضة. • المعتمد على الوكيل (Agentic): الأفضل للدقة العالية. صعبة جداً. تكلفة عالية.

إن اختيار الاستراتيجية الصحيحة يغير نتائج الذكاء الاصطناعي الخاصة بك. سأشارك المزيد من التفاصيل حول هذه الطرق قريباً.

المصدر: https://dev.to/yashbhoskar/different-chunking-methods-for-rag-j4g

مجتمع التعلم الاختياري: https://t.me/GyaanSetuAi

طرق تقسيم النصوص المختلفة لتقنية RAG

طرق تقسيم النصوص (Chunking) المختلفة لتقنية RAG

متابعة القراءة

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

لماذا يهلوس نظام RAG الخاص بك

استراتيجيات تجزئة RAG: تقسيم المستندات لتحسين عملية الاسترجاع

MCP + RAG: Why I Stopped Building Complex RAG Systems

تقنيات RAG المتقدمة ليست أفضل بالضرورة، بل هي أفضل في بعض الأحيان.