Hambatan AI Agent Saya Bukan pada Modelnya. Melainkan pada Arsitekturnya.

Tiga bulan lalu, alur kerja klien mengalami kendala.

Saya menggunakan satu agent untuk klasifikasi dokumen, penandaan (tagging), dan ringkasan. Ini berjalan lancar untuk 50 dokumen per hari. Lalu volumenya melonjak menjadi 500.

Agent tersebut membutuhkan waktu 40 menit per batch. Ia tidak bisa berskala (scale). Ia mengalami crash.

Saya tidak beralih ke model yang lebih besar. Sebaliknya, saya membagi agent tersebut menjadi tiga peran khusus. Peran-peran ini dijalankan secara paralel.

Throughput meningkat dari 40 menit menjadi 4 menit. Modelnya tetap sama. Arsitekturnya yang berubah.

Kebanyakan pengembang melakukan kesalahan dengan membangun agent yang bersifat sekuensial. Satu agent melakukan segalanya secara berurutan.

Jika Anda memiliki 500 dokumen dan tiga tugas per dokumen, Anda melakukan 1.500 panggilan LLM satu demi satu. Bahkan dengan waktu 2 detik per panggilan, Anda harus menunggu selama 50 menit. Model Anda menghabiskan sebagian besar waktunya hanya untuk menunggu.

Solusinya adalah menggunakan agent khusus yang berjalan secara konkuren (concurrently).

  • Gunakan system prompt yang lebih kecil dan terfokus.
  • Jalankan tugas-tugas independen di waktu yang sama.
  • Gunakan dispatcher untuk mengelola tugas.

Agent khusus lebih cepat dan lebih murah. Model kecil dengan prompt yang ketat akan mengalahkan model umum yang besar dalam tugas-tugas spesifik.

Namun, jangan melakukan paralelisasi pada segalanya. Hindari kesalahan-kesalahan berikut:

  • Jangan memparalelkan tugas yang saling bergantung satu sama lain. Jika tugas B membutuhkan output dari tugas A, Anda harus menjalankannya secara berurutan.
  • Jangan memparalelkan tugas-tugas kecil. Overhead dalam mengelola agent mungkin memakan waktu lebih lama daripada tugas itu sendiri.
  • Jangan abaikan kecepatan retrieval. Jika sistem Anda lambat karena pencarian database (database lookups), memparalelkan panggilan LLM tidak akan membantu.

Ikuti langkah-langkah ini untuk melakukan scaling:

  • Profil sistem Anda terlebih dahulu. Cari tahu di mana waktu sebenarnya terbuang.
  • Gunakan agent khusus untuk peran tertentu.
  • Petakan dependency graph Anda sebelum menulis kode.

Membangun AI agent melibatkan dua masalah yang berbeda. Satu adalah apa yang dilakukan agent tersebut. Yang lainnya adalah bagaimana agent tersebut masuk ke dalam sistem Anda.

Sistem produksi hidup atau mati karena masalah kedua tersebut.

Jika Anda mencapai batas limit, jangan hanya membeli model yang lebih besar. Gambar peta sistem Anda terlebih dahulu. Anda mungkin akan menemukan bahwa arsitekturnya adalah masalah yang sebenarnya.

Sumber: https://dev.to/mrclaw207/my-ai-agent-bottleneck-wasnt-the-model-it-was-the-architecture-2h9m

Komunitas belajar opsional: https://t.me/GyaanSetuAi