RAG Chunking Strategies: Split Documents for Better Retrieval

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialwiki iliyopita2min read

RAG Chunking Strategies: Split Documents for Better Retrieval

In this article

Mbinu za Kugawanya (Chunking) za RAG: Gawanya Nyaraka kwa ajili ya Upataji Bora wa Taarifa

Mapungufu mengi ya RAG hutokea kutokana na jinsi unavyogawanya nyaraka zako.

Ikiwa upataji wako wa taarifa ni duni, usibadilishe prompt yako au LLM yako kwanza. Angalia vipande (chunks) vyako. Ikiwa taarifa sahihi ipo kwenye kanzidata yako lakini mfumo haziwezi kuipata, basi mbinu yako ya kugawanya (chunking strategy) ndiyo pengine ina tatizo.

Kugawanya vibaya husababisha matatizo makuu matatu:

• Kukatika kwa mipaka (Boundary truncation): Sentensi yenye jibu hukatwa katika vipande viwili. Hakuna kipande chochote chenye taarifa za kutosha ili kuendana na swali. • Kupungua kwa muktadha (Context dilution): Kipande kikubwa kina sentensi moja muhimu na kumi zisizo na maana. Maandishi ya ziada hupunguza nguvu ya ishara ya kimaana (semantic signal). • Ukosefu wa metadata: Vipande vinakosa taarifa kuhusu chanzo au tarehe yake, jambo linalofanya utafutaji wa kuchuja (filtered search) usiwezekane.

Tumia mbinu hizi nne kurekebisha mfumo wako (pipeline):

1. Fixed-size chunking

Ni bora kwa maandishi marefu na endelevu kama ripoti au makala. • Tumia tokeni 256 hadi 512. • Weka mwingiliano (overlap) wa 10% hadi 15% ili kuzuia sentensi kukatwa.

2. Semantic chunking

Ni bora kwa maandishi yenye msongamano mkubwa wa taarifa kama maswali yanayoulizwa mara kwa mara (FAQs) au nyaraka za msaada. • Hugawanya maandishi kulingana na mabadiliko ya mada badala ya idadi ya tokeni. • Hii huweka mawazo kamili pamoja.

3. Structural chunking

Ni bora kwa nyaraka za kiufundi, Markdown, au HTML. • Hugawanya maandishi kulingana na vichwa vya habari (H1, H2, H3). • Hii huongeza metadata ili uweze kuchuja upataji wa taarifa kwa sehemu.

4. Hierarchical (Parent-Child) chunking

Ni bora kwa mifumo ya uzalishaji (production systems) inayohitaji usahihi na muktadha kwa pamoja. • Tengeneza vipande vidogo vya mtoto (child chunks) (tokeni 64-128) kwa ajili ya utafutaji sahihi wa vector. • Viunganishe na vipande vikubwa vya mzazi (parent chunks) (tokeni 512-1024) ili LLM iweze kusoma. • Hii inakupa faida za pande zote mbili.

Jinsi ya kuchagua ukubwa wako:

• 128–256 tokeni: Nzuri kwa kutafuta ukweli (fact-lookup) na nyaraka za kiufundi. • 256–512 tokeni: Hatua nzuri ya kuanzia kwa matumizi ya jumla. • 512–1024 tokeni: Tumia kwa maswali marefu ya uchambuzi.

Kanuni ya dhahabu: Kila mara jaribu mbinu yako kabla ya kuituma (ship).

Tengeneza seti ya maswali halisi 30 hadi 50. Weka maelezo ya majibu sahihi. Pima recall@3 yako. Usibadilishe embedding model yako mpaka recall yako ifike zaidi ya 80%.

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi

RAG Chunking Strategies: Split Documents for Better Retrieval

Mbinu za Kugawanya (Chunking) za RAG: Gawanya Nyaraka kwa ajili ya Upataji Bora wa Taarifa

1. Fixed-size chunking

2. Semantic chunking

3. Structural chunking

4. Hierarchical (Parent-Child) chunking

Continue reading

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

Nilijenga Bot ya Maswali na Majibu ya Code kwa kutumia RAG: Nini Kilifanya Kazi na Nini Kilishindwa

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

Mbinu Tofauti za Chunking kwa RAG