AI ਮਨੋਰੰਜਨ ਦੇ ਪਿੱਛੇ ਦਾ ਅਸਲੀ ਆਰਕੀਟੈਕਚਰ

Translated for your language. Read the original.

AI-assisted draft.

AI ਮਨੋਰੰਜਨ ਦੇ ਪਿੱਛੇ ਅਸਲ ਆਰਕੀਟੈਕਚਰ

ਇਹ ਪੁੱਛਣਾ ਬੰਦ ਕਰੋ ਕਿ ਕੀ AI ਲੇਖਕਾਂ ਜਾਂ ਸਟੂਡੀਓਜ਼ ਦੀ ਜਗ੍ਹਾ ਲੈ ਲਵੇਗਾ। ਇਹ ਸਵਾਲ ਤੁਹਾਨੂੰ ਕੁਝ ਵੀ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਨਹੀਂ ਕਰਦੇ।

ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਇੰਜੀਨੀਅਰ ਜਾਂ ਆਰਕੀਟੈਕਟ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਇੱਕ ਵੱਖਰਾ ਸਵਾਲ ਪੁੱਛਣਾ ਚਾਹੀਦਾ ਹੈ। ਜਦੋਂ ਸਮੱਗਰੀ (content) ਇੱਕ ਵਾਰ ਬਣਾ ਕੇ ਵੰਡਣ ਦੀ ਬਜਾਏ ਮੰਗ ਅਨੁਸਾਰ (on demand) ਤਿਆਰ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਬੈਕਐਂਡ (backend) ਕਿਹੋ ਜਿਹਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ?

ਮਾਡਲ ਸੌਖਾ ਹਿੱਸਾ ਹੈ। ਮੁਸ਼ਕਲ ਹਿੱਸੇ ਲੇਟੈਂਸੀ (latency), ਪ੍ਰੋਵੇਨੈਂਸ (provenance), ਅਤੇ ਲਾਗਤ (cost) ਹਨ।

ਇੰਟਰਐਕਟੀਵਿਟੀ (Interactivity) ਇੱਕ ਸਟ੍ਰੀਮਿੰਗ ਸਮੱਸਿਆ ਹੈ

ਬੈਚ ਜਨਰੇਸ਼ਨ (Batch generation) ਸੌਖੀ ਹੈ। ਤੁਸੀਂ ਰਾਤੋ-ਰਾਤ ਇੱਕ ਕਲਿੱਪ ਰੈਂਡਰ ਕਰ ਸਕਦੇ ਹੋ। ਪਰ ਜੇਕਰ ਕੋਈ ਯੂਜ਼ਰ ਕਿਸੇ ਪਾਤਰ (character) ਨਾਲ ਇੰਟਰਐਕਟ ਕਰਦਾ ਹੈ, ਤਾਂ ਜਵਾਬ 200ms ਦੇ ਅੰਦਰ ਮਿਲਣਾ ਚਾਹੀਦਾ ਹੈ।

ਇਸ ਟੀਚੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਤੁਸੀਂ ਸਿਰਫ਼ ਇੱਕ API ਕਾਲ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਤੁਹਾਨੂੰ ਲੇਟੈਂਸੀ ਬਜਟ (latency budget) ਦਾ ਪ੍ਰਬੰਧ ਕਰਨਾ ਹੋਵੇਗਾ:

ਨੈੱਟਵਰਕ ਰਾਊਂਡ ਟ੍ਰਿਪ: 40ms
ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ (Tokenization): 10ms
ਮਾਡਲ ਇਨਫਰੈਂਸ (Model inference): 110ms
ਪੋਸਟ-ਪ੍ਰੋਸੈਸਿੰਗ (Post-processing): 25ms
ਜਿੱਟਰ ਮਾਰਜਿਨ (Jitter margin): 15ms

ਤੁਹਾਨੂੰ edge placement, KV-cache reuse, ਅਤੇ speculative decoding ਦੀ ਲੋੜ ਹੈ। ਤੁਹਾਡਾ AI ਪ੍ਰੋਜੈਕਟ ਹੁਣ ਇੱਕ ਡਿਸਟ੍ਰੀਬਿਊਟਡ ਸਿਸਟਮ (distributed systems) ਪ੍ਰੋਜੈਕਟ ਹੈ।

ਪ੍ਰੋਵੇਨੈਂਸ (Provenance) ਕੋਈ ਬਾਅਦ ਵਾਲੀ ਸੋਚ ਨਹੀਂ ਹੈ

ਜਦੋਂ ਸਮੱਗਰੀ ਸਿੰਥੈਟਿਕ (synthetic) ਹੁੰਦੀ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਪਤਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਸਨੂੰ ਕਿਸਨੇ ਬਣਾਇਆ ਅਤੇ ਇਸਨੂੰ ਕਿਸਨੇ ਟ੍ਰੇਨ ਕੀਤਾ। ਤੁਸੀਂ ਇਸਨੂੰ ਬਾਅਦ ਵਿੱਚ ਠੀਕ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਜੇਕਰ ਤੁਸੀਂ ਲੀਨੇਜ (lineage) ਤੋਂ ਬਿਨਾਂ ਲੱਖਾਂ ਐਸੇਟਸ (assets) ਤਿਆਰ ਕਰਦੇ ਹੋ, ਤਾਂ ਉਹ ਇਤਿਹਾਸ ਹਮੇਸ਼ਾ ਲਈ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ।

ਤੁਹਾਨੂੰ ਆਪਣੇ ਡੇਟਾ ਮਾਡਲ ਵਿੱਚ ਪ੍ਰੋਵੇਨੈਂਸ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਜਨਰੇਸ਼ਨ ਦੇ ਸਮੇਂ ਹੀ ਐਟਰੀਬਿਊਸ਼ਨ (attribution) ਅਤੇ ਸਿਗਨੇਚਰ ਕੈਪਚਰ ਕਰੋ। ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਸਕੀਮਾ (schema) ਵਿੱਚ ਸਟੋਰ ਕਰੋ। ਇਹ ਤੁਹਾਨੂੰ ਕਵੈਰੀ ਸਪੀਡ (query speed) 'ਤੇ ਕਾਨੂੰਨੀ ਜਾਂ ਰਾਇਲਟੀ ਦੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

ਅਰਥ ਸ਼ਾਸਤਰ ਇੱਕ ਨਿਰਮਾਣ ਸਮੱਸਿਆ ਹੈ

ਜਨਰੇਟਿਵ ਟੈਕਸਟ (Generative text) ਵਿੱਚ ਟੋਕਨ ਅਨੁਸਾਰ ਲਾਗਤ ਲੱਗਦੀ ਹੈ। ਜਨਰੇਟਿਵ ਵੀਡੀਓ ਵਿੱਚ ਪ੍ਰਤੀ ਮਿੰਟ ਲਾਗਤ ਲੱਗਦੀ ਹੈ।

4K ਵੀਡੀਓ ਦੇ ਇੱਕ ਮਿੰਟ ਦੀ ਅਸਲ ਲਾਗਤ GPU-ਸੈਕਿੰਡਾਂ ਵਿੱਚ ਹੁੰਦੀ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਕੰਪਨੀਆਂ ਅਜਿਹੇ ਪਾਇਲਟ (pilots) ਚਲਾਉਂਦੀਆਂ ਹਨ ਜੋ ਦੇਖਣ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਲੱਗਦੇ ਹਨ ਪਰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਅਸਫਲ ਹੋ ਜਾਂਦੇ ਹਨ ਕਿਉਂਕਿ ਲਾਗਤ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੁੰਦੀ ਹੈ।

ਜਿੱਤਣ ਲਈ, ਤੁਹਾਨੂੰ ਆਪਣੇ ਇਨਫਰੈਂਸ (inference) ਨੂੰ ਇੱਕ ਫੈਕਟਰੀ ਵਾਂਗ ਮਾਪੋ (instrument)। ਯੂਟੀਲਾਈਜ਼ੇਸ਼ਨ (utilization) ਅਤੇ ਢਲਾਈ (yield) ਨੂੰ ਟ੍ਰੈਕ ਕਰੋ। ਉਹ ਸਭ ਤੋਂ ਛੋਟਾ ਮਾਡਲ ਵਰਤੋ ਜੋ ਤੁਹਾਡੇ ਕੁਆਲਿਟੀ ਬਾਰ (quality bar) ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੋਵੇ। ਪੈਸੇ ਬਚਾਉਣ ਲਈ ਜਨਰੇਟ ਕੀਤੇ ਗਏ ਸੈਗਮੈਂਟਸ ਨੂੰ ਕੈਸ਼ (cache) ਕਰੋ।

ਮਾਡਲ ਸੁਰਖੀਆਂ (headlines) ਖਿੱਚਦਾ ਹੈ। ਆਰਕੀਟੈਕਚਰ ਇਹ ਤੈਅ ਕਰਦਾ ਹੈ ਕਿ ਅਸਲ ਵਿੱਚ ਕੀ ਸ਼ਿਪ (ship) ਹੋਵੇਗਾ।

ਤੁਹਾਡੇ ਅਗਲੇ ਡਿਜ਼ਾਈਨ ਰਿਵਿਊ ਲਈ ਸਾਰਾਂਸ਼:

ਇੰਟਰਐਕਟੀਵਿਟੀ ਨੂੰ ਇੱਕ ਸਟ੍ਰੀਮਿੰਗ ਸਿਸਟਮ ਚੁਣੌਤੀ ਵਜੋਂ ਲਓ।
ਪਹਿਲੇ ਦਿਨ ਤੋਂ ਹੀ ਪ੍ਰੋਵੇਨੈਂਸ ਨੂੰ ਇੱਕ ਸਾਈਨ ਕੀਤਾ ਹੋਇਆ, ਸਟੋਰਡ ਫੀਲਡ ਬਣਾਓ।
ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਤੁਹਾਡਾ ਫੀਚਰ ਟਿਕ ਸਕਦਾ ਹੈ, ਪ੍ਰਤੀ ਡਿਲੀਵਰ ਕੀਤਾ ਮਿੰਟ ਲਾਗਤ ਨੂੰ ਮਾਪੋ।

ਸਰੋਤ: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

AI ਮਨੋਰੰਜਨ ਦੇ ਪਿੱਛੇ ਦਾ ਅਸਲੀ ਆਰਕੀਟੈਕਚਰ

Continue reading

𝗧𝗵𝗲 𝗠𝗼𝗿𝗲 𝗔𝗜 𝗪𝗿𝗶𝘁𝗲𝘀 𝗖𝗼𝗱𝗲, 𝗧𝗵𝗲 𝗠𝗼𝗿𝗲 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗠𝗮𝘁𝘁𝗲𝗿𝘀

The Frontend Engineer Will Not Be Replaced by AI

ਡਿਵੈਲਪਰ: ਟੈਕਨੀਸ਼ੀਅਨ ਤੋਂ ਪ੍ਰੋਡਕਟ ਆਰਕੀਟੈਕਟ ਤੱਕ