ਏਜੰਟ ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਕੰਪਿਊਟ ਅਲੋਕੇਸ਼ਨ ਸਮੱਸਿਆ ਹੈ
ਤਿੰਨ ਸੁਤੰਤਰ ਸਮੂਹਾਂ ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ AI ਏਜੰਟ ਡਿਜ਼ਾਈਨ ਲਈ ਇੱਕੋ ਜਿਹਾ ਨਤੀਜਾ ਕੱਢਿਆ ਹੈ।
Anthropic ਨੇ advisor strategy 'ਤੇ ਇੱਕ ਬਲੌਗ ਪੋਸਟ ਜਾਰੀ ਕੀਤੀ ਹੈ। ਉਹ ਮੁੱਖ ਲੂਪ ਚਲਾਉਣ ਲਈ ਇੱਕ ਸਸਤੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਉਹ ਮਹਿੰਗੇ ਮਾਡਲ ਨੂੰ ਉਦੋਂ ਹੀ ਕਾਲ ਕਰਦੇ ਹਨ ਜਦੋਂ ਸਸਤਾ ਮਾਡਲ ਅਟਕ ਜਾਂਦਾ ਹੈ। BrowseComp ਵਿੱਚ ਇਸ ਸੈੱਟਅੱਪ ਨੇ ਸਭ ਕੁਝ ਕਰਨ ਲਈ ਇੱਕ top-tier ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਲਾਗਤ ਦੇ ਸਿਰਫ਼ 15% 'ਤੇ 41.2% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।
Shopify ਦੇ Tobi Lutke ਨੇ X 'ਤੇ ਇੱਕ ਅਜਿਹਾ ਹੀ ਸੈੱਟਅੱਪ ਸਾਂਝਾ ਕੀਤਾ। ਉਹ ਖੋਜ ਲਈ ਇੱਕ local ਮਾਡਲ ਚਲਾਉਂਦੇ ਹਨ ਅਤੇ ਇੱਕ frontier ਮਾਡਲ ਨੂੰ advisor ਵਜੋਂ ਵਰਤਦੇ ਹਨ। ਡਿਵੈਲਪਰਾਂ ਨੇ ਕੁਝ ਹੀ ਘੰਟਿਆਂ ਵਿੱਚ ਇਸਦੇ open-source ਵਰਜਨ ਤਿਆਰ ਕਰ ਲਏ।
HazyResearch ਨੇ ਇੱਕ compressor-predictor framework 'ਤੇ ਇੱਕ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ। ਇੱਕ ਛੋਟਾ ਮਾਡਲ ਇੱਕ ਵੱਡੇ ਮਾਡਲ ਲਈ context ਨੂੰ distilled ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਉਹ ਤਰਕ ਕਰ ਸਕੇ। ਉਹਨਾਂ ਦੇ ਸਿਸਟਮ ਨੇ 26% ਲਾਗਤ 'ਤੇ 99% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।
ਇਹ ਇਕੱਠਾ ਹੋਣਾ ਕੋਈ ਇਤਫ਼ਾਕ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਖਾਸ ਡਿਜ਼ਾਈਨ ਕਾਨੂੰਨ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ: cost-curve frame।
ਮੈਂ ਇਸ ਲੜੀ ਵਿੱਚ ਤਿੰਨ ਪਰਤਾਂ (layers) ਰਾਹੀਂ ਇਸ frame ਦੀ ਵਕਾਲਤ ਕੀਤੀ ਹੈ:
- Layer 1 (Retrieval): ਕਿਉਂ ਜ਼ਿਆਦਾਤਰ ਕੋਡ ਕੰਮਾਂ ਲਈ tool-loops, RAG ਨਾਲੋਂ ਬਿਹਤਰ ਹਨ।
- Layer 2 (Storage): ਕਿਉਂ symbol graphs ਲਈ SQLite, vector databases ਨਾਲੋਂ ਬਿਹਤਰ ਹੈ।
- Layer 3 (Orchestration): ਕਿਉਂ ਮਾਡਲ ਦੀ ਚੋਣ ਲਈ advisor strategy ਜਿੱਤਦੀ ਹੈ।
ਤਰਕ ਇੱਕੋ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਏਜੰਟ ਕੰਮਾਂ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਘੱਟ-ਮੁੱਲ ਵਾਲੇ ਕੰਮ (low-value operations) ਅਤੇ ਕੁਝ ਉੱਚ-ਮੁੱਲ ਵਾਲੇ ਫੈਸਲੇ (high-value decisions) ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ।
ਜੇਕਰ ਤੁਸੀਂ ਹਰ token ਲਈ ਇੱਕ ਮਹਿੰਗੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ context ਪੜ੍ਹਨ ਜਾਂ text format ਕਰਨ ਵਰਗੇ ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮਾਂ 'ਤੇ ਪੈਸਾ ਬਰਬਾਦ ਕਰਦੇ ਹੋ। Advisor strategy ਇਹਨਾਂ ਰਸਤਿਆਂ ਨੂੰ ਵੱਖ ਕਰਦੀ ਹੈ। ਤੁਸੀਂ ਵੱਡੇ ਕੰਮਾਂ ਲਈ ਇੱਕ ਸਸਤਾ executor ਵਰਤਦੇ ਹੋ ਅਤੇ