𝗗𝗼𝗺𝗮𝗶𝗻-𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻

പൊതുവായ ആവശ്യങ്ങൾക്കായി ഉപയോഗിക്കുന്ന എംബെഡിംഗ് മോഡലുകൾ പലപ്പോഴും പ്രത്യേക വിഷയങ്ങളിലുള്ള (specialized) ടെക്സ്റ്റുകൾ കൈകാര്യം ചെയ്യുന്നതിൽ പരാജയപ്പെടാറുണ്ട്.

എന്റെ അടുത്തകാലത്തെ ESG പ്രോജക്റ്റിൽ, OpenAI-യുടെ ada-002 മോഡൽ ഉപയോഗിച്ചത് രണ്ട് പ്രധാന പ്രശ്നങ്ങൾക്ക് കാരണമായി:

  • 18% പ്രസക്തമായ ഉള്ളടക്കം കണ്ടെത്താൻ കഴിഞ്ഞില്ല.
  • 12% ഫലങ്ങളും തെറ്റായിരുന്നു. ഉദാഹരണത്തിന്, "Scope 1 emissions" എന്ന് തിരഞ്ഞപ്പോൾ "Scope 3 emissions" എന്ന ഫലമാണ് ലഭിച്ചത്.

പ്രശ്നം സിമിലാരിറ്റി ത്രെഷോൾഡിൽ (similarity threshold) ആയിരുന്നില്ല. അത് സെമാന്റിക് ഡ്രിഫ്റ്റ് (semantic drift) ആയിരുന്നു. ESG, നിയമപരമായ (legal), അല്ലെങ്കിൽ മെഡിക്കൽ ടെക്സ്റ്റുകൾ പോലുള്ള പ്രത്യേക മേഖലകളിലെ സൂക്ഷ്മമായ വ്യത്യാസങ്ങൾ പൊതുവായ മോഡലുകൾക്ക് മനസ്സിലാക്കാൻ കഴിയില്ല.

ഇത് പരിഹരിക്കാനുള്ള മൂന്ന് പാളികളുള്ള (three-layer) പരിഹാരം ഇതാ.

𝟭. 𝗠𝗼𝗱𝗲𝗹 𝗦𝗲𝗹𝗲𝗰𝘁𝗶𝗼𝗻 ഞങ്ങൾ നാല് മോഡലുകൾ പരീക്ഷിച്ചു. BGE-M3 സ്വയം ഹോസ്റ്റ് ചെയ്യുന്നത് ലാഭകരമാണെന്ന് തോന്നാമെങ്കിലും, GPU സെർവർ ചിലവുകളും വികസന സമയവും കാരണം യഥാർത്ഥത്തിൽ ഇത് 6 മടങ്ങ് കൂടുതൽ ചിലവേറിയതായിരുന്നു.

ഞങ്ങൾ text-embedding-3-large തിരഞ്ഞെടുത്തത് ഇവ കാരണമാണ്:

  • ഇത് 91% റീക്കോൾ (recall) കൈവരിച്ചു.
  • നീളമുള്ള ടെക്സ്റ്റുകളിൽ ഇത് സ്ഥിരത നിലനിർത്തുന്നു.
  • ഇത് മികച്ച ROI നൽകുന്നു.

𝟮. 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗗𝗿𝗶𝗳𝘁 𝗠𝗶𝘁𝗶𝗴𝗮𝘁𝗶𝗼𝗻 മികച്ച മോഡലുകൾ പോലും "low-carbon"-ഉം "zero-carbon"-ഉം തമ്മിൽ തെറ്റായി മനസ്സിലാക്കുന്നു. ഇതിനായി ഞാൻ മൂന്ന് ഘട്ടങ്ങളുള്ള ഒരു ഓഗ്മെന്റേഷൻ സ്ട്രാറ്റജി നടപ്പിലാക്കി:

  • ഡൊമെയ്ൻ ഡിക്ഷണറി: നിർവചനങ്ങളും "ഇതിൽ നിന്നും വ്യത്യസ്തം" (distinct from) എന്ന നിയമങ്ങളും അടങ്ങിയ 500-ലധികം പദങ്ങളുടെ ഒരു മാപ്പ്.
  • പ്രോംപ്റ്റ് ഹിന്റ്സ്: എൻകോഡിംഗ് സമയത്ത് ഡിക്ഷണറി കോൺടെക്സ്റ്റ് മോഡലിലേക്ക് നൽകുന്നു.
  • പോസ്റ്റ്-റിട്രീവൽ റീറാൻക്കിംഗ്: സമാന പദങ്ങൾക്ക് (synonyms) കൂടുതൽ സ്കോർ നൽകുകയും ബന്ധമില്ലാത്ത പദങ്ങൾക്ക് സ്കോർ കുറയ്ക്കുകയും ചെയ്യുന്നു.

ഇത് ഞങ്ങളുടെ ഫാൽസ് പോസിറ്റീവ് നിരക്ക് (false positive rate) 12%-ൽ നിന്ന് 3% ആയി കുറച്ചു.

𝟯. 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻 വെക്റ്റർ സിമിലാരിറ്റി അളക്കുന്നത് ഗണിതപരമായ അകലമാണ് (mathematical distance), ബിസിനസ്സ് പ്രസക്തിയല്ല. കൃത്യത ഉറപ്പാക്കാൻ ഞാൻ ഒരു ഡ്യുവൽ-ചെക്ക് സിസ്റ്റം ചേർത്തു:

  • ലെയർ 1: കീവേഡ് ഹാർഡ് മാച്ച് (Keyword hard match). ഫലത്തിൽ ആവശ്യമായ പ്രധാന പദങ്ങൾ ഉണ്ടായിരിക്കണം.
  • ലെയർ 2: LLM സെമാന്റിക് ക്രോസ്-വാലിഡേഷൻ. നൽകിയിരിക്കുന്ന വിവരങ്ങൾ (chunk) യഥാർത്ഥത്തിൽ ചോദ്യത്തിന് ഉത്തരം നൽകുന്നുണ്ടോ എന്ന് ഒരു LLM പരിശോധിക്കുന്നു.
  • ലെയർ 3: മാനുവൽ സ്പോട്ട്-ചെക്കുകൾ. സിസ്റ്റത്തിന്റെ ഗുണനിലവാരം കുറയാതിരിക്കാൻ പ്രതിമാസ പരിശോധനകൾ.

ഇത് കൃത്യത 70%-ൽ നിന്ന് 94% ആയി ഉയർത്തി.

𝗧𝗵𝗲 𝗧𝗮𝗸𝗲𝗮𝘄𝗮𝘆 നിങ്ങളുടെ ഡാറ്റയിൽ പ്രത്യേക സാങ്കേതിക പദങ്ങൾ (specialized jargon) ഉപയോഗിക്കുന്നുണ്ടെങ്കിൽ, ഒരു വെക്റ്റർ സെർച്ചിൽ മാത്രം ആശ്രയിക്കരുത്. ഗണിതപരമായ സാമ്യതയിൽ നിന്ന് ബിസിനസ്സ് പ്രസക്തിയിലേക്ക് മാറാൻ നിങ്ങൾക്ക് ഒരു ഡിക്ഷണറി, ഡൊമെയ്ൻ ഹിന്റ്സ്, കൂടാതെ ഒരു ഡ്യുവൽ-വാലിഡേഷൻ ലെയർ എന്നിവ ആവശ്യമാണ്.

സ്രോതസ്സ്: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi