Mbinu za Kugawanya (Chunking) za RAG: Gawanya Nyaraka kwa ajili ya Upataji Bora wa Taarifa

Mapungufu mengi ya RAG hutokea kutokana na jinsi unavyogawanya nyaraka zako.

Ikiwa upataji wako wa taarifa ni duni, usibadilishe prompt yako au LLM yako kwanza. Angalia vipande (chunks) vyako. Ikiwa taarifa sahihi ipo kwenye kanzidata yako lakini mfumo haziwezi kuipata, basi mbinu yako ya kugawanya (chunking strategy) ndiyo pengine ina tatizo.

Kugawanya vibaya husababisha matatizo makuu matatu:

Kukatika kwa mipaka (Boundary truncation): Sentensi yenye jibu hukatwa katika vipande viwili. Hakuna kipande chochote chenye taarifa za kutosha ili kuendana na swali. • Kupungua kwa muktadha (Context dilution): Kipande kikubwa kina sentensi moja muhimu na kumi zisizo na maana. Maandishi ya ziada hupunguza nguvu ya ishara ya kimaana (semantic signal). • Ukosefu wa metadata: Vipande vinakosa taarifa kuhusu chanzo au tarehe yake, jambo linalofanya utafutaji wa kuchuja (filtered search) usiwezekane.

Tumia mbinu hizi nne kurekebisha mfumo wako (pipeline):

1. Fixed-size chunking

Ni bora kwa maandishi marefu na endelevu kama ripoti au makala. • Tumia tokeni 256 hadi 512. • Weka mwingiliano (overlap) wa 10% hadi 15% ili kuzuia sentensi kukatwa.

2. Semantic chunking

Ni bora kwa maandishi yenye msongamano mkubwa wa taarifa kama maswali yanayoulizwa mara kwa mara (FAQs) au nyaraka za msaada. • Hugawanya maandishi kulingana na mabadiliko ya mada badala ya idadi ya tokeni. • Hii huweka mawazo kamili pamoja.

3. Structural chunking

Ni bora kwa nyaraka za kiufundi, Markdown, au HTML. • Hugawanya maandishi kulingana na vichwa vya habari (H1, H2, H3). • Hii huongeza metadata ili uweze kuchuja upataji wa taarifa kwa sehemu.

4. Hierarchical (Parent-Child) chunking

Ni bora kwa mifumo ya uzalishaji (production systems) inayohitaji usahihi na muktadha kwa pamoja. • Tengeneza vipande vidogo vya mtoto (child chunks) (tokeni 64-128) kwa ajili ya utafutaji sahihi wa vector. • Viunganishe na vipande vikubwa vya mzazi (parent chunks) (tokeni 512-1024) ili LLM iweze kusoma. • Hii inakupa faida za pande zote mbili.

Jinsi ya kuchagua ukubwa wako:

128–256 tokeni: Nzuri kwa kutafuta ukweli (fact-lookup) na nyaraka za kiufundi. • 256–512 tokeni: Hatua nzuri ya kuanzia kwa matumizi ya jumla. • 512–1024 tokeni: Tumia kwa maswali marefu ya uchambuzi.

Kanuni ya dhahabu: Kila mara jaribu mbinu yako kabla ya kuituma (ship).

Tengeneza seti ya maswali halisi 30 hadi 50. Weka maelezo ya majibu sahihi. Pima recall@3 yako. Usibadilishe embedding model yako mpaka recall yako ifike zaidi ya 80%.

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi