AI വിനോദരംഗത്തിന് പിന്നിലെ യഥാർത്ഥ ആർക്കിടെക്ചർ

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ആഴ്ച മുമ്പ്2min read

AI വിനോദരംഗത്തിന് പിന്നിലെ യഥാർത്ഥ ആർക്കിടെക്ചർ

AI എഴുത്തുകാരെയോ സ്റ്റുഡിയോകളെയോ മാറ്റിസ്ഥാപിക്കുമോ എന്ന് ചോദിക്കുന്നത് നിർത്തുക. ആ ചോദ്യങ്ങൾ ഒന്നും നിർമ്മിക്കാൻ നിങ്ങളെ സഹായിക്കില്ല.

നിങ്ങൾ ഒരു എഞ്ചിനീയറോ ആർക്കിടെക്റ്റോ ആണെങ്കിൽ, നിങ്ങൾ മറ്റൊരു ചോദ്യമാണ് ചോദിക്കേണ്ടത്. ഉള്ളടക്കം ഒരിക്കൽ നിർമ്മിച്ച് വിതരണം ചെയ്യുന്നതിന് പകരം, ആവശ്യാനുസരണം (on demand) നിർമ്മിക്കുമ്പോൾ അതിന്റെ ബാക്കെൻഡ് (backend) എങ്ങനെയായിരിക്കും?

മോഡൽ എന്നത് എളുപ്പമുള്ള ഭാഗമാണ്. ലേറ്റൻസി (latency), പ്രൊവനൻസ് (provenance), ചിലവ് (cost) എന്നിവയാണ് പ്രയാസകരമായ ഭാഗങ്ങൾ.

ഇന്ററാക്റ്റിവിറ്റി എന്നത് ഒരു സ്ട്രീമിംഗ് പ്രശ്നമാണ്

ബാച്ച് ജനറേഷൻ എളുപ്പമാണ്. നിങ്ങൾക്ക് ഒരു ക്ലിപ്പ് രാത്രികൊണ്ട് റെൻഡർ ചെയ്യാം. എന്നാൽ ഒരു ഉപയോക്താവ് ഒരു കഥാപാത്രവുമായി സംവദിക്കുമ്പോൾ, അതിന്റെ പ്രതികരണം 200ms-നുള്ളിൽ നടക്കണം.

ഈ ലക്ഷ്യത്തിലെത്താൻ, നിങ്ങൾക്ക് വെറുതെ ഒരു API വിളിച്ചാൽ മാത്രം പോരാ. നിങ്ങൾ ഒരു ലേറ്റൻസി ബജറ്റ് (latency budget) കൈകാര്യം ചെയ്യണം:

നെറ്റ്‌വർക്ക് റൗണ്ട് ട്രിപ്പ്: 40ms
ടോക്കണൈസേഷൻ: 10ms
മോഡൽ ഇൻഫറൻസ്: 110ms
പോസ്റ്റ്-പ്രോസസ്സിംഗ്: 25ms
ജിറ്റർ മാർജിൻ: 15ms

നിങ്ങൾക്ക് എഡ്ജ് പ്ലേസ്‌മെന്റ് (edge placement), KV-cache റീയൂസ്, സ്പെക്കുലേറ്റീവ് ഡീകോഡിംഗ് (speculative decoding) എന്നിവ ആവശ്യമാണ്. നിങ്ങളുടെ AI പ്രോജക്റ്റ് ഇപ്പോൾ ഒരു ഡിസ്ട്രിബ്യൂട്ടഡ് സിസ്റ്റംസ് (distributed systems) പ്രോജക്റ്റായി മാറുന്നു.

പ്രൊവനൻസ് എന്നത് പിന്നീട് ചിന്തിക്കേണ്ട ഒന്നല്ല

ഉള്ളടക്കം സിന്തറ്റിക് (synthetic) ആണെങ്കിൽ, അത് ആരാണ് നിർമ്മിച്ചതെന്നും എന്തിനെ ഉപയോഗിച്ചാണ് പരിശീലിപ്പിച്ചതെന്നും നിങ്ങൾ അറിഞ്ഞിരിക്കണം. ഇത് പിന്നീട് ശരിയാക്കാൻ കഴിയില്ല. ലിനയേജ് (lineage) ഇല്ലാതെ നിങ്ങൾ ദശലക്ഷക്കണക്കിന് അസറ്റുകൾ നിർമ്മിച്ചാൽ, ആ ചരിത്രം എന്നെന്നേക്കുമായി നഷ്ടപ്പെടും.

നിങ്ങളുടെ ഡാറ്റാ മോഡലിൽ തന്നെ പ്രൊവനൻസ് ഉൾപ്പെടുത്തണം. ജനറേഷൻ സമയത്ത് തന്നെ അറ്റ്രിബ്യൂഷനും (attribution) സിഗ്നേച്ചറുകളും രേഖപ്പെടുത്തുക. അവ നിങ്ങളുടെ സ്കീമയിൽ (schema) സൂക്ഷിക്കുക. ഇത് നിയമപരമായോ റോയൽറ്റി സംബന്ധമായോ ഉള്ള ചോദ്യങ്ങൾക്ക് വേഗത്തിൽ മറുപടി നൽകാൻ നിങ്ങളെ സഹായിക്കും.

സാമ്പത്തികശാസ്ത്രം എന്നത് ഒരു നിർമ്മാണ പ്രശ്നമാണ്

ജനറേറ്റീവ് ടെക്സ്റ്റ് ടോക്കണുകൾക്ക് (token) അനുസരിച്ചുള്ള ചിലവ് ഉപയോഗിക്കുന്നു. ജനറേറ്റീവ് വീഡിയോ മിനിറ്റുകൾക്ക് അനുസരിച്ചുള്ള ചിലവ് ഉപയോഗിക്കുന്നു.

ഒരു മിനിറ്റ് 4K വീഡിയോയ്ക്ക് GPU-സെക്കൻഡുകളിൽ യഥാർത്ഥ ചിലവുണ്ട്. മിക്ക കമ്പനികളും മികച്ച രീതിയിൽ തോന്നിക്കുന്ന പൈലറ്റ് പ്രോജക്റ്റുകൾ നടത്തുന്നുണ്ടെങ്കിലും, ചിലവ് വളരെ കൂടുതലായതിനാൽ അവ വലിയ തോതിൽ (scale) നടപ്പിലാക്കാൻ കഴിയാതെ വരുന്നു.

വിജയിക്കണമെങ്കിൽ, ഒരു ഫാക്ടറി പോലെ നിങ്ങളുടെ ഇൻഫറൻസ് (inference) ക്രമീകരിക്കണം. യൂട്ടിലൈസേഷനും (utilization) യീൽഡും (yield) ട്രാക്ക് ചെയ്യുക. നിങ്ങളുടെ ഗുണനിലവാരത്തിന് അനുയോജ്യമായ ഏറ്റവും ചെറിയ മോഡൽ ഉപയോഗിക്കുക. പണം ലാഭിക്കാൻ ജനറേറ്റ് ചെയ്ത സെഗ്‌മെന്റുകൾ കാഷെ (cache) ചെയ്യുക.

മോഡലുകൾ വാർത്തകളിൽ ഇടംപിടിക്കുന്നുണ്ടാകാം. എന്നാൽ യഥാർത്ഥത്തിൽ എന്ത് വിപണിയിലെത്തുന്നു എന്ന് തീരുമാനിക്കുന്നത് ആർക്കിടെക്ചർ ആണ്.

നിങ്ങളുടെ അടുത്ത ഡിസൈൻ റിവ്യൂവിനായുള്ള സംഗ്രഹം:

ഇന്ററാക്റ്റിവിറ്റിയെ ഒരു സ്ട്രീമിംഗ് സിസ്റ്റംസ് വെല്ലുവിളിയായി കാണുക.
ആദ്യ ദിവസം മുതൽ പ്രൊവനൻസ് എന്നത് സൈൻ ചെയ്തതും സ്റ്റോർ ചെയ്തതുമായ ഒരു ഫീൽഡ് ആക്കുക.
നിങ്ങളുടെ ഫീച്ചർ നിലനിൽക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കാൻ ഡെലിവർ ചെയ്ത ഓരോ മിനിറ്റിനും വരുന്ന ചിലവ് അളക്കുക.

Source: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

Optional learning community: https://t.me/GyaanSetuAi

AI വിനോദരംഗത്തിന് പിന്നിലെ യഥാർത്ഥ ആർക്കിടെക്ചർ

Continue reading

𝗧𝗵𝗲 𝗠𝗼𝗿𝗲 𝗔𝗜 𝗪𝗿𝗶𝘁𝗲𝘀 𝗖𝗼𝗱𝗲, 𝗧𝗵𝗲 𝗠𝗼𝗿𝗲 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗠𝗮𝘁𝘁𝗲𝗿𝘀

The Frontend Engineer Will Not Be Replaced by AI

ഡെവലപ്പർ: ടെക്നീഷ്യനിൽ നിന്ന് പ്രൊഡക്റ്റ് ആർക്കിടെക്റ്റിലേക്ക്