𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁'𝘀 𝗧𝗼𝗸𝗲𝗻 𝗕𝗶𝗹𝗹 𝗯𝘆 𝟲𝟮% 𝗶𝗻 𝗢𝗻𝗲 𝗪𝗲𝗲𝗸𝗲𝗻𝗱
AI ajanımın görev başına maliyeti 5,40$ idi. Bu maliyeti bir hafta sonunda görev başına 2,05$'a düşürdüm. Kaliteden ödün vermeden bu %62'lik düşüşü sağladım.
İşte bunu nasıl yaptığım.
Sorun: Ajanım bir araştırma döngüsü çalıştırıyor. Web'de arama yapıyor, sayfaları kazıyor (scrape ediyor) ve özetler yazıyor. Üç farklı şekilde token tüketiyordu:
- Bağlam doldurma (Context stuffing): Modele 50.000 karakterlik sayfaların tamamını gönderiyordum. Oysa sadece 2.000 karaktere ihtiyacım vardı. Tek bir iğneyi bulmak için tüm samanlığın parasını ödüyordum.
- Gereksiz uzun istemler (Verbose prompts): Sistem istemlerim aynı talimatları üç kez tekrarlıyordu. Modelin her seferinde kendi kelimelerimi yeniden okuması için ödeme yapıyordum.
- Pahalı modelleri aşırı kullanmak: Tek bir paragrafı özetlemek gibi basit görevler için üst düzey muhakeme (reasoning) modelleri kullanıyordum.
Çözümler:
Göndermeden önce filtreleyin Sayfaların tamamını göndermek yerine artık metni parçalara (chunk) ayırıyorum. Önce ilgili kısımları buluyorum. Ardından sadece bu kısımları modele gönderiyorum. Bu, sayfa başına girdi token sayısını 12.500'den 3.200'e düşürdü.
Sistem istemini budayın Gereksiz talimatları sildim. Modelin zaten bildiği araç açıklamalarını çıkardım. Modern modeller bunu varsayılan olarak yaptığı için "adım adım düşün" gibi kalıplaşmış ifadeleri kullanmayı bıraktım.
Kademeli model yönlendirme Her şey için tek bir model kullanmayı bıraktım. Görevleri üç seviyeye ayırdım:
- Çıkarım (Extraction): Ucuz, küçük bir model kullanın.
- Sentez (Synthesis): Üst düzey bir muhakeme modeli kullanın.
- Biçimlendirme (Formatting): Ucuz, küçük bir model kullanın.
50 görevlik bir testin sonuçları:
- Görev başına maliyet: 5,40$'dan 2,05$'a
- Gecikme (Latency): 41sn'den 28sn'ye
- Atıf kapsamı (Citation coverage): %67'den %89'a
Ajan daha akıllı değil. İş akışı (pipeline) sadece daha verimli.
Üretim aşamasındaki (production) ajanlarınız için üç ders:
- Katı bir token bütçesi belirleyin. Limit aşılırsa görevi sonlandırın.
- Sonuçlarınızı önbelleğe alın (cache). Aynı URL'yi iki kez kazımayın.
- Her şeyi günlüğe kaydedin (log). Hangi adımın tam olarak en çok paraya mal olduğunu bilmelisiniz.
Kalite düştüğünde daha büyük modellere yönelmeyi bırakın. Daha dar bağlamlı (tighter context) daha küçük modeller kullanmaya başlayın.
Kaynak: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1
İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi