𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

Việc điều hướng agent AI của tôi từng là một mớ hỗn độn.

Tôi đã xây dựng một agent AI cá nhân tên là Pi. Nó chạy 24/7 ngay tại phòng khách nhà tôi. Để tiết kiệm chi phí, tôi đã sử dụng ba mô hình khác nhau:

  • Ollama (Local) để lập trình.
  • OpenAI để suy luận chuyên sâu.
  • Gemini cho các tác vụ nhanh.

Để chọn đúng mô hình, tôi đã sử dụng một script Python với các danh sách từ khóa. Đó chỉ là một chuỗi if-else đơn giản.

Nó liên tục thất bại. Nếu người dùng hỏi về các pattern trong Rust mà không sử dụng các từ khóa cụ thể của tôi, bộ điều hướng sẽ gửi yêu cầu đến sai mô hình. Nếu người dùng nói tiếng Hindi, nó sẽ bị lỗi.

Kết quả thật tệ:

  • 18% yêu cầu được gửi đến sai mô hình.
  • Tôi lãng phí tiền vào các API đắt đỏ cho những tác vụ đơn giản.
  • Tôi phải cập nhật từ khóa thủ công hàng tuần.

Tôi cần một hệ thống hiểu được ý nghĩa, chứ không chỉ là từ khóa.

Tôi đã chuyển sang sử dụng vLLM Semantic Router kết hợp với AgentGateway. Điều này đã thay đổi mọi thứ.

Thay vì dùng script Python, Semantic Router hoạt động như một Envoy sidecar. Nó sử dụng một mô hình embedding nhỏ chỉ 130MB để hiểu ý định (intent) của mọi prompt. Bạn không cần viết từ khóa. Bạn chỉ cần viết mô tả về chức năng của từng mô hình trong một file YAML.

Kết quả sau hai tuần:

  • Tỷ lệ yêu cầu bị điều hướng sai giảm từ 18% xuống còn 3%.
  • Độ trễ điều hướng giảm từ 45ms xuống còn 1ms.
  • Chi phí API hàng tháng giảm từ $24 xuống còn $14.
  • Việc bảo trì hiện tại bằng không.

Bộ điều hướng sử dụng embeddings để so sánh prompt của bạn với các mô tả mô hình. Nếu bạn mô tả một mô hình là chuyên gia lập trình, bộ điều hướng sẽ tự động gửi các prompt lập trình đến đó. Nó thậm chí còn hoạt động tốt trên nhiều ngôn ngữ khác nhau.

Nếu bộ điều hướng gặp lỗi, hệ thống vẫn hoạt động bình thường. Tôi đã cấu hình chính sách fail-open. Nếu bộ điều hướng bị sập, các yêu cầu sẽ tự động chuyển sang Gemini. Agent không bao giờ ngừng hoạt động.

Tôi thậm chí còn tìm thấy và giúp sửa hai lỗi trong mã nguồn liên quan đến hỗ trợ ARM64 trên Apple Silicon. Đây chính là cách mã nguồn mở nên vận hành. Bạn tìm thấy một vấn đề, đóng góp bản sửa lỗi, và cả cộng đồng sẽ trở nên tốt hơn.

Nếu bạn đang xây dựng các AI agent, hãy ngừng sử dụng phương pháp so khớp từ khóa (keyword matching). Hãy sử dụng semantic routing để kiểm soát chi phí và cải thiện chất lượng câu trả lời.

Nguồn: https://dev.to/anup_sharma_86fa94612fe3c/giving-agentgateway-a-semantic-brain-with-vllm-semantic-router-inside-my-homelab-542f

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi