Memberikan Otak Semantik pada AgentGateway

Routing agen AI saya dulunya berantakan.

Saya membangun agen AI pribadi bernama Pi. Ia berjalan 24/7 dari ruang tamu saya. Untuk menghemat biaya, saya menggunakan tiga model berbeda:

  • Ollama (Lokal) untuk coding.
  • OpenAI untuk penalaran mendalam.
  • Gemini untuk tugas-tugas cepat.

Untuk memilih model yang tepat, saya menggunakan skrip Python dengan daftar kata kunci. Itu hanyalah rangkaian if-else sederhana.

Sistem ini terus-menerus gagal. Jika pengguna bertanya tentang pola Rust tanpa menggunakan kata kunci spesifik saya, router mengirimkannya ke model yang salah. Jika pengguna berbicara bahasa Hindi, sistemnya rusak.

Hasilnya buruk:

  • 18% permintaan dikirim ke model yang salah.
  • Saya membuang-buang uang untuk API mahal demi tugas-tugas sederhana.
  • Saya harus memperbarui kata kunci secara manual setiap minggu.

Saya membutuhkan sistem yang memahami makna, bukan sekadar kata kunci.

Saya beralih ke vLLM Semantic Router dengan AgentGateway. Ini mengubah segalanya.

Alih-alih menggunakan skrip Python, Semantic Router bekerja sebagai Envoy sidecar. Ia menggunakan model embedding kecil berukuran 130MB untuk memahami maksud dari setiap prompt. Anda tidak perlu menulis kata kunci. Anda cukup menulis deskripsi tentang apa yang dilakukan setiap model dalam file YAML.

Hasilnya setelah dua minggu:

  • Permintaan yang salah diarahkan turun dari 18% menjadi 3%.
  • Latensi routing turun dari 45ms menjadi 1ms.
  • Biaya API bulanan turun dari $24 menjadi $14.
  • Pemeliharaan kini nol.

Router menggunakan embedding untuk membandingkan prompt Anda dengan deskripsi model Anda. Jika Anda mendeskripsikan sebuah model sebagai spesialis coding, router akan mengirimkan prompt coding ke sana secara otomatis. Ia bahkan berfungsi di berbagai bahasa yang berbeda.

Jika router gagal, sistem tetap online. Saya mengonfigurasi kebijakan fail-open. Jika router crash, permintaan akan dialihkan ke Gemini secara otomatis. Agen tersebut tidak pernah berhenti bekerja.

Saya bahkan menemukan dan membantu memperbaiki dua bug dalam kode sumber terkait dukungan ARM64 pada Apple Silicon. Beginilah seharusnya cara kerja open source. Anda menemukan masalah, menyumbangkan perbaikan, dan seluruh komunitas menjadi lebih baik.

Jika Anda membangun agen AI, berhentilah menggunakan pencocokan kata kunci. Gunakan semantic routing untuk mengontrol biaya dan meningkatkan jawaban Anda.

Source: https://dev.to/anup_sharma_86fa94612fe3c/giving-agentgateway-a-semantic-brain-with-vllm-semantic-router-inside-my-homelab-542f

Optional learning community: https://t.me/GyaanSetuAi