മിസ്‌ട്രൽ ലാർജ് വേഴ്സസ് മിസ്‌ട്രൽ മീഡിയം: പ്രൊഡക്ഷനിൽ നിന്നുള്ള സിടിഒ കുറിപ്പുകൾ

📅3 hours ago⏱1 min read

𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗟𝗮𝗿𝗴𝗲 𝘃𝘀 𝗠𝗶𝘀𝘁𝗿𝗮𝗹 𝗠𝗲𝗱𝗶𝘂𝗺: 𝗖𝗧𝗢 𝗡𝗼𝘁𝗲𝘀 𝗙𝗿𝗼𝗺 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

മൂന്ന് മാസം മുമ്പ്, ഞാൻ ഒരു LLM ഫീച്ചർ പുറത്തിറക്കി. അതിനുശേഷം ബില്ല് വന്നു.

ഞാൻ ഒരു തെറ്റ് ചെയ്തു എന്ന് എനിക്ക് മനസ്സിലായി. Mistral Medium ഉപയോഗിക്കേണ്ട സ്ഥാനത്ത് ഞാൻ Mistral Large ആണ് ഉപയോഗിച്ചത്. ഇത് ആവശ്യത്തിലധികം ഏകദേശം 4 മടങ്ങ് അധികം ചിലവാകാൻ കാരണമായി.

നിങ്ങൾ ഒരു സ്റ്റാർട്ടപ്പ് നടത്തുന്നുണ്ടെങ്കിൽ, വെറും തോന്നലുകളുടെ (vibes) അടിസ്ഥാനത്തിൽ ആർക്കിടെക്ചർ തീരുമാനങ്ങൾ എടുക്കാൻ കഴിയില്ല. നിങ്ങൾ അവ ROI അടിസ്ഥാനത്തിൽ വേണം എടുക്കാൻ.

ആ തെറ്റ് ലളിതമാണ്. വലിയ മോഡലുകൾ എപ്പോഴും മികച്ചതാണെന്ന് ഞാൻ കരുതി. ഞാൻ തെറ്റിദ്ധരിച്ചു.

ഇപ്പോൾ ഞാൻ LLM ചിലവുകൾ കൈകാര്യം ചെയ്യുന്നത് ഇങ്ങനെയാണ്:

ജോലിയുടെ സങ്കീർണ്ണത തരംതിരിക്കുക (Classify task complexity)

ലളിതമായ ക്ലാസിഫിക്കേഷനോ എക്സ്ട്രാക്ഷനോ (extraction) ആണെങ്കിൽ ചെറിയ മോഡലുകൾ ഉപയോഗിക്കുക.
മൾട്ടി-സ്റ്റെപ്പ് റീസണിംഗിന് (multi-step reasoning) മാത്രം വലിയ മോഡലുകൾ ഉപയോഗിക്കുക.

ടോക്കൺ വോളിയം (token volume) കണക്കാക്കുക

നിങ്ങളുടെ ലോഗുകൾ പരിശോധിക്കുക.
വളർച്ച മുൻകൂട്ടി കാണുക.
ഡിപ്ലോയ് ചെയ്യുന്നതിന് മുമ്പ് കണക്കുകൾ കൃത്യമായി പരിശോധിക്കുക.

യഥാർത്ഥ മൂല്യനിർണ്ണയങ്ങളിലൂടെ (evals) അളക്കുക

നിങ്ങളുടെ ഉൾവിളികളെ (gut feeling) മാത്രം വിശ്വസിക്കരുത്.
രണ്ട് മോഡലുകളിലൂടെയും ടെസ്റ്റ് സെറ്റുകൾ പ്രവർത്തിപ്പിച്ചു നോക്കുക.
നിങ്ങളുടെ ഉൽപ്പന്നത്തിന് പ്രധാനപ്പെട്ട മെട്രിക്സുകൾ താരതമ്യം ചെയ്യുക.

എന്റെ ജോലികളിൽ 70 ശതമാനത്തിനും Mistral Medium മതിയാകും. സപ്പോർട്ട് ടിക്കറ്റ് ക്ലാസിഫിക്കേഷൻ ഇത് കൃത്യമായി ചെയ്യുന്നു. Large ഉപയോഗിക്കുന്ന ചിലവിന്റെ മൂന്നിലൊന്ന് മാത്രമേ ഇതിന് ചെലവ് വരുന്നുള്ളൂ. ഉയർന്ന തലത്തിലുള്ള റീസണിംഗ് ജോലികൾക്കായി ഞാൻ Large മാറ്റിവെക്കുന്നു.

ഞാൻ വെണ്ടർ ലോക്ക്-ഇൻ (vendor lock-in) ഒഴിവാക്കുന്നുമുണ്ട്. പല മോഡലുകളും ഉപയോഗിക്കാൻ ഞാൻ ഒരു യൂണിഫൈഡ് എൻഡ്പോയിന്റ് (unified endpoint) ഉപയോഗിക്കുന്നു. ഒരു പ്രൊവൈഡർ വില കൂട്ടിയാൽ, മിനിറ്റുകൾക്കുള്ളിൽ എനിക്ക് മോഡലുകൾ മാറ്റാൻ കഴിയും. ഇത് എന്റെ റൺവേയെ (runway) സംരക്ഷിക്കുന്നു.

CTO-കൾക്കുള്ള എന്റെ ഉപദേശം:

ബില്ലുകൾ കുറയ്ക്കാൻ കാര്യക്ഷമമായി കാഷെ (cache) ഉപയോഗിക്കുക.
ഉപഭോക്താക്കളുടെ അനുഭവം മെച്ചപ്പെടുത്താൻ റെസ്‌പോൺസുകൾ സ്ട്രീം (stream) ചെയ്യുക.
സിസ്റ്റം ഓഫ് ആകാതിരിക്കാൻ ഫാള்பാക്ക് ലോജിക് (fallback logic) നിർമ്മിക്കുക.
പ്രോംപ്റ്റ് ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിന് മുമ്പ് മോഡൽ തിരഞ്ഞെടുക്കുക.
ഓരോ ജോലിക്കും കോൺടെക്സ്റ്റ് വിൻഡോ (context window) ആവശ്യകതകൾ പരിശോധിക്കുക.

ചെറിയ ചുറ്റിക ആവശ്യമുള്ള ജോലികൾക്കായി വലിയ ചുറ്റിക ഉപയോഗിക്കുന്നത് നിർത്തുക. കാര്യക്ഷമത മത്സരപരമായ നേട്ടങ്ങൾ നൽകുന്നു. ഇത് ഉപഭോക്താക്കൾക്ക് മികച്ച ഫീച്ചറുകളും കുറഞ്ഞ വിലയും വാഗ്ദാനം ചെയ്യാൻ നിങ്ങളെ സഹായിക്കുന്നു.

Source: https://dev.to/gentlenode/mistral-large-vs-mistral-medium-cto-notes-from-production-280f

മിസ്‌ട്രൽ ലാർജ് വേഴ്സസ് മിസ്‌ട്രൽ മീഡിയം: പ്രൊഡക്ഷനിൽ നിന്നുള്ള സിടിഒ കുറിപ്പുകൾ

Continue reading

AI SaaS-ന് വേണ്ടിയുള്ള LLM ഗേറ്റ്‌വേകൾ

ക്ലൗഡ് കോസ്റ്റ് മാനേജ്‌മെന്റ് vs ഒപ്റ്റിമൈസേഷൻ

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗔𝗻 𝗟𝗟𝗠 𝗔𝗻𝗱 𝗧𝗵𝗲𝗻 𝗦𝗮𝗶𝗱 𝗡𝗼

കാര്യക്ഷമമായ LLM സർവിംഗിലേക്ക്

𝗠𝗩𝗣 𝘃𝘀 𝗠𝗟𝗣: 𝗛𝗼𝘄 𝘁𝗼 𝗣𝗶𝗰𝗸 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗟𝗮𝘂𝗻𝗰𝗵 𝗦𝘁𝗿𝗮𝘁𝗲𝗴𝘆