AI ਮਨੋਰੰਜਨ ਦੇ ਪਿੱਛੇ ਅਸਲ ਆਰਕੀਟੈਕਚਰ

ਇਹ ਪੁੱਛਣਾ ਬੰਦ ਕਰੋ ਕਿ ਕੀ AI ਲੇਖਕਾਂ ਜਾਂ ਸਟੂਡੀਓਜ਼ ਦੀ ਜਗ੍ਹਾ ਲੈ ਲਵੇਗਾ। ਇਹ ਸਵਾਲ ਤੁਹਾਨੂੰ ਕੁਝ ਵੀ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਨਹੀਂ ਕਰਦੇ।

ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਇੰਜੀਨੀਅਰ ਜਾਂ ਆਰਕੀਟੈਕਟ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਇੱਕ ਵੱਖਰਾ ਸਵਾਲ ਪੁੱਛਣਾ ਚਾਹੀਦਾ ਹੈ। ਜਦੋਂ ਸਮੱਗਰੀ (content) ਇੱਕ ਵਾਰ ਬਣਾ ਕੇ ਵੰਡਣ ਦੀ ਬਜਾਏ ਮੰਗ ਅਨੁਸਾਰ (on demand) ਤਿਆਰ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ਬੈਕਐਂਡ (backend) ਕਿਹੋ ਜਿਹਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ?

ਮਾਡਲ ਸੌਖਾ ਹਿੱਸਾ ਹੈ। ਮੁਸ਼ਕਲ ਹਿੱਸੇ ਲੇਟੈਂਸੀ (latency), ਪ੍ਰੋਵੇਨੈਂਸ (provenance), ਅਤੇ ਲਾਗਤ (cost) ਹਨ।

  1. ਇੰਟਰਐਕਟੀਵਿਟੀ (Interactivity) ਇੱਕ ਸਟ੍ਰੀਮਿੰਗ ਸਮੱਸਿਆ ਹੈ

ਬੈਚ ਜਨਰੇਸ਼ਨ (Batch generation) ਸੌਖੀ ਹੈ। ਤੁਸੀਂ ਰਾਤੋ-ਰਾਤ ਇੱਕ ਕਲਿੱਪ ਰੈਂਡਰ ਕਰ ਸਕਦੇ ਹੋ। ਪਰ ਜੇਕਰ ਕੋਈ ਯੂਜ਼ਰ ਕਿਸੇ ਪਾਤਰ (character) ਨਾਲ ਇੰਟਰਐਕਟ ਕਰਦਾ ਹੈ, ਤਾਂ ਜਵਾਬ 200ms ਦੇ ਅੰਦਰ ਮਿਲਣਾ ਚਾਹੀਦਾ ਹੈ।

ਇਸ ਟੀਚੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਤੁਸੀਂ ਸਿਰਫ਼ ਇੱਕ API ਕਾਲ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਤੁਹਾਨੂੰ ਲੇਟੈਂਸੀ ਬਜਟ (latency budget) ਦਾ ਪ੍ਰਬੰਧ ਕਰਨਾ ਹੋਵੇਗਾ:

  • ਨੈੱਟਵਰਕ ਰਾਊਂਡ ਟ੍ਰਿਪ: 40ms
  • ਟੋਕਨਾਈਜ਼ੇਸ਼ਨ (Tokenization): 10ms
  • ਮਾਡਲ ਇਨਫਰੈਂਸ (Model inference): 110ms
  • ਪੋਸਟ-ਪ੍ਰੋਸੈਸਿੰਗ (Post-processing): 25ms
  • ਜਿੱਟਰ ਮਾਰਜਿਨ (Jitter margin): 15ms

ਤੁਹਾਨੂੰ edge placement, KV-cache reuse, ਅਤੇ speculative decoding ਦੀ ਲੋੜ ਹੈ। ਤੁਹਾਡਾ AI ਪ੍ਰੋਜੈਕਟ ਹੁਣ ਇੱਕ ਡਿਸਟ੍ਰੀਬਿਊਟਡ ਸਿਸਟਮ (distributed systems) ਪ੍ਰੋਜੈਕਟ ਹੈ।

  1. ਪ੍ਰੋਵੇਨੈਂਸ (Provenance) ਕੋਈ ਬਾਅਦ ਵਾਲੀ ਸੋਚ ਨਹੀਂ ਹੈ

ਜਦੋਂ ਸਮੱਗਰੀ ਸਿੰਥੈਟਿਕ (synthetic) ਹੁੰਦੀ ਹੈ, ਤਾਂ ਤੁਹਾਨੂੰ ਪਤਾ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਇਸਨੂੰ ਕਿਸਨੇ ਬਣਾਇਆ ਅਤੇ ਇਸਨੂੰ ਕਿਸਨੇ ਟ੍ਰੇਨ ਕੀਤਾ। ਤੁਸੀਂ ਇਸਨੂੰ ਬਾਅਦ ਵਿੱਚ ਠੀਕ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਜੇਕਰ ਤੁਸੀਂ ਲੀਨੇਜ (lineage) ਤੋਂ ਬਿਨਾਂ ਲੱਖਾਂ ਐਸੇਟਸ (assets) ਤਿਆਰ ਕਰਦੇ ਹੋ, ਤਾਂ ਉਹ ਇਤਿਹਾਸ ਹਮੇਸ਼ਾ ਲਈ ਖਤਮ ਹੋ ਜਾਂਦਾ ਹੈ।

ਤੁਹਾਨੂੰ ਆਪਣੇ ਡੇਟਾ ਮਾਡਲ ਵਿੱਚ ਪ੍ਰੋਵੇਨੈਂਸ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਜਨਰੇਸ਼ਨ ਦੇ ਸਮੇਂ ਹੀ ਐਟਰੀਬਿਊਸ਼ਨ (attribution) ਅਤੇ ਸਿਗਨੇਚਰ ਕੈਪਚਰ ਕਰੋ। ਉਹਨਾਂ ਨੂੰ ਆਪਣੇ ਸਕੀਮਾ (schema) ਵਿੱਚ ਸਟੋਰ ਕਰੋ। ਇਹ ਤੁਹਾਨੂੰ ਕਵੈਰੀ ਸਪੀਡ (query speed) 'ਤੇ ਕਾਨੂੰਨੀ ਜਾਂ ਰਾਇਲਟੀ ਦੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

  1. ਅਰਥ ਸ਼ਾਸਤਰ ਇੱਕ ਨਿਰਮਾਣ ਸਮੱਸਿਆ ਹੈ

ਜਨਰੇਟਿਵ ਟੈਕਸਟ (Generative text) ਵਿੱਚ ਟੋਕਨ ਅਨੁਸਾਰ ਲਾਗਤ ਲੱਗਦੀ ਹੈ। ਜਨਰੇਟਿਵ ਵੀਡੀਓ ਵਿੱਚ ਪ੍ਰਤੀ ਮਿੰਟ ਲਾਗਤ ਲੱਗਦੀ ਹੈ।

4K ਵੀਡੀਓ ਦੇ ਇੱਕ ਮਿੰਟ ਦੀ ਅਸਲ ਲਾਗਤ GPU-ਸੈਕਿੰਡਾਂ ਵਿੱਚ ਹੁੰਦੀ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਕੰਪਨੀਆਂ ਅਜਿਹੇ ਪਾਇਲਟ (pilots) ਚਲਾਉਂਦੀਆਂ ਹਨ ਜੋ ਦੇਖਣ ਵਿੱਚ ਬਹੁਤ ਵਧੀਆ ਲੱਗਦੇ ਹਨ ਪਰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਅਸਫਲ ਹੋ ਜਾਂਦੇ ਹਨ ਕਿਉਂਕਿ ਲਾਗਤ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੁੰਦੀ ਹੈ।

ਜਿੱਤਣ ਲਈ, ਤੁਹਾਨੂੰ ਆਪਣੇ ਇਨਫਰੈਂਸ (inference) ਨੂੰ ਇੱਕ ਫੈਕਟਰੀ ਵਾਂਗ ਮਾਪੋ (instrument)। ਯੂਟੀਲਾਈਜ਼ੇਸ਼ਨ (utilization) ਅਤੇ ਢਲਾਈ (yield) ਨੂੰ ਟ੍ਰੈਕ ਕਰੋ। ਉਹ ਸਭ ਤੋਂ ਛੋਟਾ ਮਾਡਲ ਵਰਤੋ ਜੋ ਤੁਹਾਡੇ ਕੁਆਲਿਟੀ ਬਾਰ (quality bar) ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੋਵੇ। ਪੈਸੇ ਬਚਾਉਣ ਲਈ ਜਨਰੇਟ ਕੀਤੇ ਗਏ ਸੈਗਮੈਂਟਸ ਨੂੰ ਕੈਸ਼ (cache) ਕਰੋ।

ਮਾਡਲ ਸੁਰਖੀਆਂ (headlines) ਖਿੱਚਦਾ ਹੈ। ਆਰਕੀਟੈਕਚਰ ਇਹ ਤੈਅ ਕਰਦਾ ਹੈ ਕਿ ਅਸਲ ਵਿੱਚ ਕੀ ਸ਼ਿਪ (ship) ਹੋਵੇਗਾ।

ਤੁਹਾਡੇ ਅਗਲੇ ਡਿਜ਼ਾਈਨ ਰਿਵਿਊ ਲਈ ਸਾਰਾਂਸ਼:

  • ਇੰਟਰਐਕਟੀਵਿਟੀ ਨੂੰ ਇੱਕ ਸਟ੍ਰੀਮਿੰਗ ਸਿਸਟਮ ਚੁਣੌਤੀ ਵਜੋਂ ਲਓ।
  • ਪਹਿਲੇ ਦਿਨ ਤੋਂ ਹੀ ਪ੍ਰੋਵੇਨੈਂਸ ਨੂੰ ਇੱਕ ਸਾਈਨ ਕੀਤਾ ਹੋਇਆ, ਸਟੋਰਡ ਫੀਲਡ ਬਣਾਓ।
  • ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਤੁਹਾਡਾ ਫੀਚਰ ਟਿਕ ਸਕਦਾ ਹੈ, ਪ੍ਰਤੀ ਡਿਲੀਵਰ ਕੀਤਾ ਮਿੰਟ ਲਾਗਤ ਨੂੰ ਮਾਪੋ।

ਸਰੋਤ: https://dev.to/sauvast/the-real-architecture-behind-ai-entertainment-latency-provenance-and-cost-per-minute-bg9

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi