RAG ચંકિંગ વ્યૂહરચનાઓ: વધુ સારા રિટ્રીવલ માટે દસ્તાવેજોને વિભાજિત કરો
મોટાભાગની RAG નિષ્ફળતાઓ તમારા દસ્તાવેજોને તમે કેવી રીતે વિભાજિત કરો છો તેના કારણે થાય છે.
જો તમારું રિટ્રીવલ નબળું હોય, તો સૌથી પહેલા તમારો પ્રોમ્પ્ટ અથવા તમારું LLM બદલશો નહીં. તમારા ચંક્સ તપાસો. જો સાચી માહિતી તમારા ડેટાબેઝમાં હોય પરંતુ સિસ્ટમ તેને શોધી શકતી નથી, તો તમારી ચંકિંગ વ્યૂહરચના કદાચ સમસ્યા હોઈ શકે છે.
ખરાબ ચંકિંગ ત્રણ મુખ્ય સમસ્યાઓ પેદા કરે છે:
• બાઉન્ડ્રી ટ્રંકેશન (Boundary truncation): જવાબ ધરાવતું વાક્ય બે ભાગમાં વહેંચાઈ જાય છે. બંનેમાંથી કોઈ પણ ભાગ પાસે ક્વેરી સાથે મેળ ખાવા માટે પૂરતી માહિતી હોતી નથી. • કોન્ટેક્સ્ટ ડાયલ્યુશન (Context dilution): એક મોટા ચંકમાં એક સુસંગત વાક્ય અને દસ બિનઉપયોગી વાક્યો હોય છે. વધારાનું લખાણ સેમેન્ટિક સિગ્નલને નબળું પાડે છે. • મિસિંગ મેટાડેટા (Missing metadata): ચંક્સમાં તેમના સ્ત્રોત અથવા તારીખ વિશેની માહિતીનો અભાવ હોય છે, જેના કારણે ફિલ્ટર કરેલી શોધ અશક્ય બને છે.
તમારા પાઇપલાઇનને સુધારવા માટે આ ચાર વ્યૂહરચનાઓનો ઉપયોગ કરો:
1. ફિક્સ્ડ-સાઇઝ ચંકિંગ (Fixed-size chunking)
રિપોર્ટ્સ અથવા લેખો જેવા લાંબા, સતત લખાણ માટે શ્રેષ્ઠ. • 256 થી 512 ટોકન્સનો ઉપયોગ કરો. • વાક્યો વિભાજિત થતા અટકાવવા માટે 10% થી 15% ઓવરલેપ સેટ કરો.
2. સેમેન્ટિક ચંકિંગ (Semantic chunking)
FAQs અથવા સપોર્ટ ડોક્યુમેન્ટ્સ જેવા ઉચ્ચ-ઘનતા ધરાવતા લખાણ માટે શ્રેષ્ઠ. • તે ટોકન કાઉન્ટને બદલે વિષયના ફેરફાર (topic shifts) ના આધારે લખાણને વિભાજિત કરે છે. • આ સંપૂર્ણ વિચારોને એકસાથે રાખે છે.
3. સ્ટ્રક્ચરલ ચંકિંગ (Structural chunking)
ટેકનિકલ ડોક્યુમેન્ટ્સ, Markdown અથવા HTML માટે શ્રેષ્ઠ. • તે હેડર્સ (H1, H2, H3) ના આધારે લખાણને વિભાજિત કરે છે. • આ મેટાડેટા ઉમેરે છે જેથી તમે સેક્શન મુજબ રિટ્રીવલ ફિલ્ટર કરી શકો.
4. હાયરાર્કિકલ (પેરેન્ટ-ચાઇલ્ડ) ચંકિંગ (Hierarchical (Parent-Child) chunking)
ચોકસાઈ અને કોન્ટેક્સ્ટ બંનેની જરૂર હોય તેવી પ્રોડક્શન સિસ્ટમ્સ માટે શ્રેષ્ઠ. • ચોક્કસ વેક્ટર સર્ચ માટે નાના ચાઇલ્ડ ચંક્સ (64-128 ટોકન્સ) બનાવો. • LLM દ્વારા વાંચવા માટે તેમને મોટા પેરેન્ટ ચંક્સ (512-1024 ટોકન્સ) સાથે લિંક કરો. • આ તમને બંનેના શ્રેષ્ઠ ફાયદા આપે છે.
તમારો સાઇઝ કેવી રીતે પસંદ કરવો:
• 128–256 ટોકન્સ: ફેક્ટ-લુકઅપ અને ટેકનિકલ ડોક્યુમેન્ટ્સ માટે સારું. • 256–512 ટોકન્સ: સામાન્ય ઉપયોગ માટે એક મજબૂત શરૂઆતનું બિંદુ. • 512–1024 ટોકન્સ: લાંબા સ્વરૂપના વિશ્લેષણાત્મક પ્રશ્નો માટે ઉપયોગ કરો.
સુવર્ણ નિયમ: તમારી વ્યૂહરચનાને શિપ કરતા પહેલા હંમેશા તેનું પરીક્ષણ કરો.
30 થી 50 વાસ્તવિક ક્વેરીઝનો સેટ બનાવો. સાચા જવાબોને એનોટેટ કરો. તમારું recall@3 માપો. જ્યાં સુધી તમારું recall 80% થી ઉપર ન આવે ત્યાં સુધી તમારું એમ્બેડિંગ મોડેલ બદલશો નહીં.
Optional learning community: https://t.me/GyaanSetuAi
