AI വിനോദരംഗത്തിന് പിന്നിലെ യഥാർത്ഥ ആർക്കിടെക്ചർ

AI എഴുത്തുകാരെയോ സ്റ്റുഡിയോകളെയോ മാറ്റിസ്ഥാപിക്കുമോ എന്ന് ചോദിക്കുന്നത് നിർത്തുക. ആ ചോദ്യങ്ങൾ ഒന്നും നിർമ്മിക്കാൻ നിങ്ങളെ സഹായിക്കില്ല.

നിങ്ങൾ ഒരു എഞ്ചിനീയറോ ആർക്കിടെക്റ്റോ ആണെങ്കിൽ, നിങ്ങൾ മറ്റൊരു ചോദ്യമാണ് ചോദിക്കേണ്ടത്. ഉള്ളടക്കം ഒരിക്കൽ നിർമ്മിച്ച് വിതരണം ചെയ്യുന്നതിന് പകരം, ആവശ്യാനുസരണം (on demand) നിർമ്മിക്കുമ്പോൾ അതിന്റെ ബാക്കെൻഡ് (backend) എങ്ങനെയായിരിക്കും?

മോഡൽ എന്നത് എളുപ്പമുള്ള ഭാഗമാണ്. ലേറ്റൻസി (latency), പ്രൊവനൻസ് (provenance), ചിലവ് (cost) എന്നിവയാണ് പ്രയാസകരമായ ഭാഗങ്ങൾ.

  1. ഇന്ററാക്റ്റിവിറ്റി എന്നത് ഒരു സ്ട്രീമിംഗ് പ്രശ്നമാണ്

ബാച്ച് ജനറേഷൻ എളുപ്പമാണ്. നിങ്ങൾക്ക് ഒരു ക്ലിപ്പ് രാത്രികൊണ്ട് റെൻഡർ ചെയ്യാം. എന്നാൽ ഒരു ഉപയോക്താവ് ഒരു കഥാപാത്രവുമായി സംവദിക്കുമ്പോൾ, അതിന്റെ പ്രതികരണം 200ms-നുള്ളിൽ നടക്കണം.

ഈ ലക്ഷ്യത്തിലെത്താൻ, നിങ്ങൾക്ക് വെറുതെ ഒരു API വിളിച്ചാൽ മാത്രം പോരാ. നിങ്ങൾ ഒരു ലേറ്റൻസി ബജറ്റ് (latency budget) കൈകാര്യം ചെയ്യണം:

  • നെറ്റ്‌വർക്ക് റൗണ്ട് ട്രിപ്പ്: 40ms
  • ടോക്കണൈസേഷൻ: 10ms
  • മോഡൽ ഇൻഫറൻസ്: 110ms
  • പോസ്റ്റ്-പ്രോസസ്സിംഗ്: 25ms
  • ജിറ്റർ മാർജിൻ: 15ms

നിങ്ങൾക്ക് എഡ്ജ് പ്ലേസ്‌മെന്റ് (edge placement), KV-cache റീയൂസ്, സ്പെക്കുലേറ്റീവ് ഡീകോഡിംഗ് (speculative decoding) എന്നിവ ആവശ്യമാണ്. നിങ്ങളുടെ AI പ്രോജക്റ്റ് ഇപ്പോൾ ഒരു ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റംസ് (distributed systems) പ്രോജക്റ്റായി മാറുന്നു.

  1. പ്രൊവനൻസ് എന്നത് പിന്നീട് ചിന്തിക്കേണ്ട ഒന്നല്ല

ഉള്ളടക്കം സിന്തറ്റിക് (synthetic) ആണെങ്കിൽ, അത് ആരാണ് നിർമ്മിച്ചതെന്നും എന്തിനെ ഉപയോഗിച്ചാണ് പരിശീലിപ്പിച്ചതെന്നും നിങ്ങൾ അറിഞ്ഞിരിക്കണം. ഇത് പിന്നീട് ശരിയാക്കാൻ കഴിയില്ല. ലിനയേജ് (lineage) ഇല്ലാതെ നിങ്ങൾ ദശലക്ഷക്കണക്കിന് അസറ്റുകൾ നിർമ്മിച്ചാൽ, ആ ചരിത്രം എന്നെന്നേക്കുമായി നഷ്ടപ്പെടും.

നിങ്ങളുടെ ഡാറ്റാ മോഡലിൽ തന്നെ പ്രൊവനൻസ് ഉൾപ്പെടുത്തണം. ജനറേഷൻ സമയത്ത് തന്നെ അറ്റ്രിബ്യൂഷനും (attribution) സിഗ്നേച്ചറുകളും രേഖപ്പെടുത്തുക. അവ നിങ്ങളുടെ സ്കീമയിൽ (schema) സൂക്ഷിക്കുക. ഇത് നിയമപരമായോ റോയൽറ്റി സംബന്ധമായോ ഉള്ള ചോദ്യങ്ങൾക്ക് വേഗത്തിൽ മറുപടി നൽകാൻ നിങ്ങളെ സഹായിക്കും.

  1. സാമ്പത്തികശാസ്ത്രം എന്നത് ഒരു നിർമ്മാണ പ്രശ്നമാണ്

ജനറേറ്റീവ് ടെക്സ്റ്റ് ടോക്കണുകൾക്ക് (token) അനുസരിച്ചുള്ള ചിലവ് ഉപയോഗിക്കുന്നു. ജനറേറ്റീവ് വീഡിയോ മിനിറ്റുകൾക്ക് അനുസരിച്ചുള്ള ചിലവ് ഉപയോഗിക്കുന്നു.

ഒരു മിനിറ്റ് 4K വീഡിയോയ്ക്ക് GPU-സെക്കൻഡുകളിൽ യഥാർത്ഥ ചിലവുണ്ട്. മിക്ക കമ്പനികളും മികച്ച രീതിയിൽ തോന്നിക്കുന്ന പൈലറ്റ് പ്രോജക്റ്റുകൾ നടത്തുന്നുണ്ടെങ്കിലും, ചിലവ് വളരെ കൂടുതലായതിനാൽ അവ വലിയ തോതിൽ (scale) നടപ്പിലാക്കാൻ കഴിയാതെ വരുന്നു.

വിജയിക്കണമെങ്കിൽ, ഒരു ഫാക്ടറി പോലെ നിങ്ങളുടെ ഇൻഫറൻസ് (inference) ക്രമീകരിക്കണം. യൂട്ടിലൈസേഷനും (utilization) യീൽഡും (yield) ട്രാക്ക് ചെയ്യുക. നിങ്ങളുടെ ഗുണനിലവാരത്തിന് അനുയോജ്യമായ ഏറ്റവും ചെറിയ മോഡൽ ഉപയോഗിക്കുക. പണം ലാഭിക്കാൻ ജനറേറ്റ് ചെയ്ത സെഗ്‌മെന്റുകൾ കാഷെ (cache) ചെയ്യുക.

മോഡലുകൾ വാർത്തകളിൽ ഇടംപിടിക്കുന്നുണ്ടാകാം. എന്നാൽ യഥാർത്ഥത്തിൽ എന്ത് വിപണിയിലെത്തുന്നു എന്ന് തീരുമാനിക്കുന്നത് ആർക്കിടെക്ചർ ആണ്.

നിങ്ങളുടെ അടുത്ത ഡിസൈൻ റിവ്യൂവിനായുള്ള സംഗ്രഹം:

  • ഇന്ററാക്റ്റിവിറ്റിയെ ഒരു സ്ട്രീമിംഗ് സിസ്റ്റംസ് വെല്ലുവിളിയായി കാണുക.
  • ആദ്യ ദിവസം മുതൽ പ്രൊവനൻസ് എന്നത് സൈൻ ചെയ്തതും സ്റ്റോർ ചെയ്തതുമായ ഒരു ഫീൽഡ് ആക്കുക.
  • നിങ്ങളുടെ ഫീച്ചർ നിലനിൽക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കാൻ ഡെലിവർ ചെയ്ത ഓരോ മിനിറ്റിനും വരുന്ന ചിലവ് അളക്കുക.

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi