𝗛𝗼𝘄 𝗝𝗮𝗽𝗮𝗻𝗲𝘀𝗲 𝗟𝗮𝗯𝘀 𝗕𝘂𝗶𝗹𝗱 𝗕𝗲𝘁𝘁𝗲𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

તમારું વેક્ટર ડેટાબેઝ સુસંગત ચંક્સ (chunks) પરત કરે છે. તમારું એમ્બેડિંગ મોડેલ બેન્ચમાર્ક પર ઊંચા સ્કોર મેળવે છે. પરંતુ જ્યારે વપરાશકર્તા કોઈ જટિલ પ્રશ્ન પૂછે છે, ત્યારે સિસ્ટમ નકામો જવાબ આપે છે.

આ રિટ્રીવલ આર્કિટેક્ચરની નિષ્ફળતા છે. તમારા LLM ને ટ્યુન કરવાથી આ સમસ્યાનું નિરાકરણ નહીં આવે.

જાપાનીઝ સંશોધન ટીમે આનો ઉકેલ શોધી કાઢ્યો છે. તેઓએ નોલેજ ગ્રાફ (knowledge graph) RAG સિસ્ટમ બનાવી. આ અભિગમે વૈજ્ઞાનિક કાર્યોમાં ચોકસાઈમાં 90% સુધારો કર્યો.

સ્ટાન્ડર્ડ RAG સાથેની સમસ્યા સેમેન્ટિક સિમિલારિટી (semantic similarity) છે. પ્રોટીન ફોલ્ડિંગ વિશેનો ચંક CRISPR વિશેના ક્વેરી જેવો દેખાઈ શકે છે. પરંતુ સમાનતાનો અર્થ સુસંગતતા (relevance) નથી.

જાપાનીઝ ટીમ માત્ર ટેક્સ્ટ ચંક્સને બદલે એન્ટિટી રિલેશનશિપ્સ (entity relationships) નો ઉપયોગ કરે છે. તેઓ આ બાબતો કાઢે છે:

  • પ્રોટીન અથવા સંશોધકો જેવી એન્ટિટીઝ (Entities)
  • 'અટકાવે છે' (inhibits) અથવા 'સંદર્ભ આપે છે' (cites) જેવા સંબંધો (Relationships)
  • કોન્ફિડન્સ સ્કોર જેવા એટ્રિબ્યુટ્સ (Attributes)

તેઓ બે તબક્કાની પ્રક્રિયાનો ઉપયોગ કરે છે. પ્રથમ, તેઓ સુસંગત સબગ્રાફ્સ (subgraphs) ઓળખે છે. બીજું, તેઓ તે એન્ટિટીઝ સાથે જોડાયેલા ટેક્સ્ટને રિટ્રીવ કરે છે. આ સેમેન્ટિક ડ્રિફ્ટ (semantic drift) ને અટકાવે છે. તમે માત્ર સમાન શબ્દો જ નહીં, પણ સંદર્ભ (context) રિટ્રીવ કરો છો.

GraphRAG બનાવવું સ્ટાન્ડર્ડ RAG કરતા વધુ મુશ્કેલ છે. તમારે જરૂર પડશે:

  • એન્ટિટી એક્સટ્રેક્શન પાઇપલાઇન્સ (Entity extraction pipelines)
  • રિલેશનશિપ ક્લાસિફિકેશન (Relationship classification)
  • ગ્રાફ સ્ટોરેજ ઇન્ફ્રાસ્ટ્રક્ચર (Graph storage infrastructure)
  • હાઇબ્રિડ ક્વેરી એન્જિન્સ (Hybrid query engines)

સૌથી મોટું જોખમ મેન્ટેનન્સ (maintenance) છે. જો તમે ગ્રાફ્સને અપડેટ ન કરો તો તે બગડી જાય છે. મેં 2023 માં આનો કડવો અનુભવ કર્યો હતો. મેં ઉચ્ચ ચોકસાઈ સાથે એક લીગલ RAG સિસ્ટમ બનાવી હતી. હું અપડેટ મિકેનિઝમ બનાવવામાં નિષ્ફળ રહ્યો હતો. છ મહિના પછી, ડેટા જૂનો (stale) થઈ ગયો હતો. ચોકસાઈ 94% થી ઘટીને 71% થઈ ગઈ હતી.

તેને યોગ્ય રીતે કેવી રીતે બનાવવું:

  • એન્ટિટી ટેક્સનોમી (entity taxonomy) થી શરૂઆત કરો. 20 થી 30 મહત્વપૂર્ણ પ્રકારો પસંદ કરો.
  • પહેલા દિવસથી હાઇબ્રિડ રિટ્રીવલનો ઉપયોગ કરો. સંબંધો માટે ગ્રાફ્સ અને વિષયો માટે વેક્ટર્સનો ઉપયોગ કરો.
  • સૌ પ્રથમ તમારી મેન્ટેનન્સ પાઇપલાઇન બનાવો. નવા દસ્તાવેજો ગ્રાફને કેવી રીતે અપડેટ કરશે તેનું આયોજન કરો.
  • રીઝનિંગ ચેઇન્સ (reasoning chains) માપો. સિસ્ટમ જવાબ આપવા માટે કેટલા સ્ટેપ્સ લે છે તેના પર નજર રાખો.

જો તમે વિજ્ઞાન, કાયદો અથવા તબીબી ક્ષેત્રમાં કામ કરતા હોવ, તો મેન્ટેનન્સનો ખર્ચ વસૂલવા જેવો છે. સાદા FAQs માટે, સ્ટાન્ડર્ડ RAG પૂરતું છે.

તમારી જાતને આ પૂછો: તમારા ક્વેરીઝમાંથી કેટલા ટકા સંબંધો વિશે પૂછે છે? જો તમારા 40% થી વધુ વપરાશકર્તાઓ વસ્તુઓ કેવી રીતે સંબંધિત છે તે પૂછતા હોય, તો તમારે ગ્રાફની જરૂર છે.

Source: https://dev.to/xu_xu_b2179aa8fc958d531d1/how-japans-research-labs-are-building-rag-systems-that-actually-work-and-what-western-teams-keep-21b2

Optional learning community: https://t.me/GyaanSetuAi