RAG ચંકિંગ વ્યૂહરચનાઓ: વધુ સારા રિટ્રીવલ માટે દસ્તાવેજોને વિભાજિત કરો

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialગયા અઠવાડિયે2min read

In this article

RAG ચંકિંગ વ્યૂહરચનાઓ: વધુ સારા રિટ્રીવલ માટે દસ્તાવેજોને વિભાજિત કરો

મોટાભાગની RAG નિષ્ફળતાઓ તમારા દસ્તાવેજોને તમે કેવી રીતે વિભાજિત કરો છો તેના કારણે થાય છે.

જો તમારું રિટ્રીવલ નબળું હોય, તો સૌથી પહેલા તમારો પ્રોમ્પ્ટ અથવા તમારું LLM બદલશો નહીં. તમારા ચંક્સ તપાસો. જો સાચી માહિતી તમારા ડેટાબેઝમાં હોય પરંતુ સિસ્ટમ તેને શોધી શકતી નથી, તો તમારી ચંકિંગ વ્યૂહરચના કદાચ સમસ્યા હોઈ શકે છે.

ખરાબ ચંકિંગ ત્રણ મુખ્ય સમસ્યાઓ પેદા કરે છે:

• બાઉન્ડ્રી ટ્રંકેશન (Boundary truncation): જવાબ ધરાવતું વાક્ય બે ભાગમાં વહેંચાઈ જાય છે. બંનેમાંથી કોઈ પણ ભાગ પાસે ક્વેરી સાથે મેળ ખાવા માટે પૂરતી માહિતી હોતી નથી. • કોન્ટેક્સ્ટ ડાયલ્યુશન (Context dilution): એક મોટા ચંકમાં એક સુસંગત વાક્ય અને દસ બિનઉપયોગી વાક્યો હોય છે. વધારાનું લખાણ સેમેન્ટિક સિગ્નલને નબળું પાડે છે. • મિસિંગ મેટાડેટા (Missing metadata): ચંક્સમાં તેમના સ્ત્રોત અથવા તારીખ વિશેની માહિતીનો અભાવ હોય છે, જેના કારણે ફિલ્ટર કરેલી શોધ અશક્ય બને છે.

તમારા પાઇપલાઇનને સુધારવા માટે આ ચાર વ્યૂહરચનાઓનો ઉપયોગ કરો:

1. ફિક્સ્ડ-સાઇઝ ચંકિંગ (Fixed-size chunking)

રિપોર્ટ્સ અથવા લેખો જેવા લાંબા, સતત લખાણ માટે શ્રેષ્ઠ. • 256 થી 512 ટોકન્સનો ઉપયોગ કરો. • વાક્યો વિભાજિત થતા અટકાવવા માટે 10% થી 15% ઓવરલેપ સેટ કરો.

2. સેમેન્ટિક ચંકિંગ (Semantic chunking)

FAQs અથવા સપોર્ટ ડોક્યુમેન્ટ્સ જેવા ઉચ્ચ-ઘનતા ધરાવતા લખાણ માટે શ્રેષ્ઠ. • તે ટોકન કાઉન્ટને બદલે વિષયના ફેરફાર (topic shifts) ના આધારે લખાણને વિભાજિત કરે છે. • આ સંપૂર્ણ વિચારોને એકસાથે રાખે છે.

3. સ્ટ્રક્ચરલ ચંકિંગ (Structural chunking)

ટેકનિકલ ડોક્યુમેન્ટ્સ, Markdown અથવા HTML માટે શ્રેષ્ઠ. • તે હેડર્સ (H1, H2, H3) ના આધારે લખાણને વિભાજિત કરે છે. • આ મેટાડેટા ઉમેરે છે જેથી તમે સેક્શન મુજબ રિટ્રીવલ ફિલ્ટર કરી શકો.

4. હાયરાર્કિકલ (પેરેન્ટ-ચાઇલ્ડ) ચંકિંગ (Hierarchical (Parent-Child) chunking)

ચોકસાઈ અને કોન્ટેક્સ્ટ બંનેની જરૂર હોય તેવી પ્રોડક્શન સિસ્ટમ્સ માટે શ્રેષ્ઠ. • ચોક્કસ વેક્ટર સર્ચ માટે નાના ચાઇલ્ડ ચંક્સ (64-128 ટોકન્સ) બનાવો. • LLM દ્વારા વાંચવા માટે તેમને મોટા પેરેન્ટ ચંક્સ (512-1024 ટોકન્સ) સાથે લિંક કરો. • આ તમને બંનેના શ્રેષ્ઠ ફાયદા આપે છે.

તમારો સાઇઝ કેવી રીતે પસંદ કરવો:

• 128–256 ટોકન્સ: ફેક્ટ-લુકઅપ અને ટેકનિકલ ડોક્યુમેન્ટ્સ માટે સારું. • 256–512 ટોકન્સ: સામાન્ય ઉપયોગ માટે એક મજબૂત શરૂઆતનું બિંદુ. • 512–1024 ટોકન્સ: લાંબા સ્વરૂપના વિશ્લેષણાત્મક પ્રશ્નો માટે ઉપયોગ કરો.

સુવર્ણ નિયમ: તમારી વ્યૂહરચનાને શિપ કરતા પહેલા હંમેશા તેનું પરીક્ષણ કરો.

30 થી 50 વાસ્તવિક ક્વેરીઝનો સેટ બનાવો. સાચા જવાબોને એનોટેટ કરો. તમારું recall@3 માપો. જ્યાં સુધી તમારું recall 80% થી ઉપર ન આવે ત્યાં સુધી તમારું એમ્બેડિંગ મોડેલ બદલશો નહીં.

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi

RAG ચંકિંગ વ્યૂહરચનાઓ: વધુ સારા રિટ્રીવલ માટે દસ્તાવેજોને વિભાજિત કરો

RAG ચંકિંગ વ્યૂહરચનાઓ: વધુ સારા રિટ્રીવલ માટે દસ્તાવેજોને વિભાજિત કરો

1. ફિક્સ્ડ-સાઇઝ ચંકિંગ (Fixed-size chunking)

2. સેમેન્ટિક ચંકિંગ (Semantic chunking)

3. સ્ટ્રક્ચરલ ચંકિંગ (Structural chunking)

4. હાયરાર્કિકલ (પેરેન્ટ-ચાઇલ્ડ) ચંકિંગ (Hierarchical (Parent-Child) chunking)

Continue reading

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

મેં RAG સાથે કોડ Q&A બોટ બનાવ્યો: શું સફળ રહ્યું અને શું નિષ્ફળ ગયું

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

RAG માટે વિવિધ ચંકિંગ પદ્ધતિઓ