𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

Translated for your language. Read the original.

AI-assisted draft.

kemarin2min read

Memberikan Otak Semantik pada AgentGateway

Routing agen AI saya dulunya berantakan.

Saya membangun agen AI pribadi bernama Pi. Ia berjalan 24/7 dari ruang tamu saya. Untuk menghemat biaya, saya menggunakan tiga model berbeda:

Ollama (Lokal) untuk coding.
OpenAI untuk penalaran mendalam.
Gemini untuk tugas-tugas cepat.

Untuk memilih model yang tepat, saya menggunakan skrip Python dengan daftar kata kunci. Itu hanyalah rangkaian if-else sederhana.

Sistem ini terus-menerus gagal. Jika pengguna bertanya tentang pola Rust tanpa menggunakan kata kunci spesifik saya, router mengirimkannya ke model yang salah. Jika pengguna berbicara bahasa Hindi, sistemnya rusak.

Hasilnya buruk:

18% permintaan dikirim ke model yang salah.
Saya membuang-buang uang untuk API mahal demi tugas-tugas sederhana.
Saya harus memperbarui kata kunci secara manual setiap minggu.

Saya membutuhkan sistem yang memahami makna, bukan sekadar kata kunci.

Saya beralih ke vLLM Semantic Router dengan AgentGateway. Ini mengubah segalanya.

Alih-alih menggunakan skrip Python, Semantic Router bekerja sebagai Envoy sidecar. Ia menggunakan model embedding kecil berukuran 130MB untuk memahami maksud dari setiap prompt. Anda tidak perlu menulis kata kunci. Anda cukup menulis deskripsi tentang apa yang dilakukan setiap model dalam file YAML.

Hasilnya setelah dua minggu:

Permintaan yang salah diarahkan turun dari 18% menjadi 3%.
Latensi routing turun dari 45ms menjadi 1ms.
Biaya API bulanan turun dari $24 menjadi $14.
Pemeliharaan kini nol.

Router menggunakan embedding untuk membandingkan prompt Anda dengan deskripsi model Anda. Jika Anda mendeskripsikan sebuah model sebagai spesialis coding, router akan mengirimkan prompt coding ke sana secara otomatis. Ia bahkan berfungsi di berbagai bahasa yang berbeda.

Jika router gagal, sistem tetap online. Saya mengonfigurasi kebijakan fail-open. Jika router crash, permintaan akan dialihkan ke Gemini secara otomatis. Agen tersebut tidak pernah berhenti bekerja.

Saya bahkan menemukan dan membantu memperbaiki dua bug dalam kode sumber terkait dukungan ARM64 pada Apple Silicon. Beginilah seharusnya cara kerja open source. Anda menemukan masalah, menyumbangkan perbaikan, dan seluruh komunitas menjadi lebih baik.

Jika Anda membangun agen AI, berhentilah menggunakan pencocokan kata kunci. Gunakan semantic routing untuk mengontrol biaya dan meningkatkan jawaban Anda.

Source: https://dev.to/anup_sharma_86fa94612fe3c/giving-agentgateway-a-semantic-brain-with-vllm-semantic-router-inside-my-homelab-542f

Optional learning community: https://t.me/GyaanSetuAi

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

Continue reading

Saya Membangun Agen AI Saya Sendiri. Inilah yang Tidak Pernah Diberitahukan kepada Anda.

AI Gateway: Sistem Saraf Pusat untuk LLM Perusahaan

Membangun Agen Coding AI Lokal yang Aman dengan Node.js

𝗟𝗟𝗠 𝗚𝗮𝘁𝗲𝘄𝗮𝘆𝘀: 𝗥𝗼𝘂𝘁𝗶𝗻𝗴, 𝗙𝗮𝗹𝗹𝗯𝗮𝗰𝗸𝘀, 𝗔𝗻𝗱 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗖𝗮𝗰𝗵𝗶𝗻𝗴

Dari Prompt ke Agen AI: Panduan untuk Pengembang Frontend