ਤੁਹਾਡੇ ਏਜੰਟ ਟੋਕਨ ਕਿਉਂ ਖ਼ਤਮ ਕਰ ਰਹੇ ਹਨ

ਤੁਸੀਂ ਇੱਕ ਕੋਡਿੰਗ ਏਜੰਟ ਤਾਇਨਾਤ ਕੀਤਾ ਹੈ। ਇਹ ਟਿਕਟਾਂ ਖਿੱਚਦਾ ਹੈ ਅਤੇ PRs ਫਾਈਲ ਕਰਦਾ ਹੈ। ਇਹ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ।

ਫਿਰ ਬਿੱਲ ਆਉਂਦਾ ਹੈ।

ਏਜੰਟ ਨੇ ਤੁਹਾਡੀ ਯੋਜਨਾ ਨਾਲੋਂ ਵੱਧ ਪੈਸਾ ਖ਼ਰਚ ਕੀਤਾ ਹੈ। ਤੁਹਾਨੂੰ ਨਹੀਂ ਪਤਾ ਕਿ ਕਿਉਂ। ਇਹ ਪ੍ਰਤੀ ਟਿਕਟ ਮਾਡਲ ਨੂੰ 50 ਵਾਰ ਕਾਲ ਕਰਦਾ ਹੈ। ਕੁਝ ਕਾਲਾਂ ਹੌਲੀ ਰੀਟ੍ਰਾਈਜ਼ (retries) ਹਨ। ਕੁਝ ਇੱਕੋ ਸੰਦਰਭ (context) ਦੀਆਂ ਵਾਰ-ਵਾਰ ਪੜ੍ਹਨ ਵਾਲੀਆਂ ਫਾਲਤੂ ਕਾਲਾਂ ਹਨ।

ਇਹ ਮਾਡਲ ਦੀ ਸਮੱਸਿਆ ਨਹੀਂ ਹੈ। ਇਹ ਇਨਫਰਾਸਟ੍ਰਕਚਰ (infrastructure) ਦੀ ਸਮੱਸਿਆ ਹੈ। ਤੁਹਾਡੀ ਟੀਮ ਕੋਲ ਖ਼ਰਚੇ ਦੀ ਸਪਸ਼ਟ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੈ। ਤੁਹਾਡੇ ਕੋਲ ਕਿਸੇ ਕੰਟਰੋਲ ਤੋਂ ਬਾਹਰ ਹੋਏ ਏਜੰਟ ਨੂੰ ਤੁਹਾਡਾ ਬਜਟ ਖ਼ਤਮ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਰੋਕਣ ਦਾ ਕੋਈ ਤਰੀਕਾ ਨਹੀਂ ਹੈ।

ਏਜੰਟ ਲੂਪਸ (loops) ਹੁੰਦੇ ਹਨ। ਉਹ ਇੱਕ ਕੰਮ ਪੜ੍ਹਦੇ ਹਨ, ਇੱਕ ਟੂਲ ਨੂੰ ਕਾਲ ਕਰਦੇ ਹਨ, ਆਊਟਪੁੱਟ ਪੜ੍ਹਦੇ ਹਨ, ਅਤੇ ਇਸੇ ਨੂੰ ਦੁਹਰਾਉਂਦੇ ਹਨ। ਹਰ ਕਦਮ ਟੋਕਨਾਂ ਦੀ ਲਾਗਤ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਕੋਈ ਏਜੰਟ ਹਰ ਵਾਰ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ (system prompt) ਨੂੰ ਦੁਬਾਰਾ ਪੜ੍ਹਦਾ ਹੈ, ਤਾਂ ਲਾਗਤ ਤੇਜ਼ੀ ਨਾਲ ਵਧਦੀ ਹੈ। ਇੱਕ ਛੋਟੀ ਜਿਹੀ ਬੱਗ (bug) ਸੈਂਕੜੇ ਵਾਧੂ ਪੜ੍ਹਨਾਂ ਦਾ ਕਾਰਨ ਬਣ ਸਕਦੀ ਹੈ।

ਤੁਸੀਂ ਸਿਰਫ਼ ਬਿੱਲ ਦੇਖਦੇ ਹੋ, ਕਾਲਾਂ ਨਹੀਂ। ਇਹ ਬਹੁਤ ਦੇਰ ਹੋ ਚੁੱਕੀ ਹੁੰਦੀ ਹੈ।

ਸਫਲ ਟੀਮਾਂ ਪਹਿਲੇ ਦਿਨ ਤੋਂ ਹੀ ਲਾਗਤ ਕੰਟਰੋਲ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਉਹ ਇਹਨਾਂ ਤਰੀਕਿਆਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ:

ਪ੍ਰੋਡਕਸ਼ਨ (production) ਵਿੱਚ ਏਜੰਟਾਂ ਨੂੰ ਚਲਾਉਣ ਲਈ, ਤੁਹਾਨੂੰ ਲੋੜ ਹੈ:

ਜੇਕਰ ਤੁਸੀਂ ਇਹਨਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਅੰਨ੍ਹੇਵਾਹ ਕੰਮ ਕਰ ਰਹੇ ਹੋ।

LiteLLM ਇਸ ਤੋਂ ਬਚਣ ਲਈ ਇੱਕ ਖਾਸ ਪੈਟਰਨ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ:

ਜੇਕਰ ਤੁਸੀਂ ਇਹਨਾਂ ਟੂਲਸ ਤੋਂ ਬਿਨਾਂ ਏਜੰਟ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਤੁਹਾਨੂੰ ਲਾਗਤ ਵਿੱਚ ਭਾਰੀ ਵਾਧੇ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪਵੇਗਾ। ਏਜੰਟ ਉਦੋਂ ਤੱਕ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ ਜਦੋਂ ਤੱਕ ਇਹ ਕਿਸੇ ਐਜ ਕੇਸ (edge case) ਜਾਂ ਲੂਪ ਵਿੱਚ ਨਹੀਂ ਫਸਦਾ। ਉਦੋਂ ਤੱਕ, ਪੈਸਾ ਖ਼ਤਮ ਹੋ ਚੁੱਕਾ ਹੁੰਦਾ ਹੈ।

ਹੁਣ ਇਹ ਕਦਮ ਚੁੱਕੋ:

ਅਜਿਹਾ ਇਨਫਰਾਸਟ੍ਰਕਚਰ ਬਣਾਓ ਜੋ ਭਰੋਸੇਮੰਦ ਏਜੰਟਾਂ ਨੂੰ ਮਹਿੰਗੀਆਂ ਗਲਤੀਆਂ ਤੋਂ ਵੱਖ ਕਰਦਾ ਹੋਵੇ।

ਸਰੋਤ: https://dev.to/paultwist/why-your-agents-are-silently-burning-tokens-and-how-to-stop-them-7g8 ਵਿਕਲਪੀ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi