Tôi đã cắt giảm 62% hóa đơn token cho AI Agent của mình chỉ trong một cuối tuần

AI agent của tôi tốn 5,40 USD cho mỗi tác vụ. Tôi đã giảm chi phí đó xuống còn 2,05 USD mỗi tác vụ chỉ trong một cuối tuần. Tôi đã đạt được mức giảm 62% này mà không làm giảm chất lượng.

Dưới đây là cách tôi đã làm.

Vấn đề: AI agent của tôi chạy một vòng lặp nghiên cứu. Nó tìm kiếm trên web, cào dữ liệu các trang và viết tóm tắt. Nó đang tiêu tốn token theo ba cách:

  • Nhồi nhét ngữ cảnh (Context stuffing): Tôi đã gửi toàn bộ các trang dài 50.000 ký tự cho mô hình. Trong khi tôi chỉ cần 2.000 ký tự. Tôi đã phải trả tiền cho cả một đống cỏ khô chỉ để tìm một cây kim.
  • Prompt rườm rà (Verbose prompts): Các system prompt của tôi lặp lại cùng một chỉ dẫn tới ba lần. Tôi đã phải trả tiền để mô hình đọc đi đọc lại chính những lời của mình mỗi lần chạy.
  • Lạm dụng các mô hình đắt tiền: Tôi đã sử dụng các mô hình suy luận cấp cao cho các tác vụ đơn giản như tóm tắt một đoạn văn duy nhất.

Các giải pháp:

  1. Lọc trước khi gửi Thay vì gửi toàn bộ trang, giờ đây tôi chia nhỏ văn bản thành các đoạn (chunk). Tôi tìm các phần liên quan trước, sau đó mới chỉ gửi những phần đó cho mô hình. Điều này đã giúp giảm lượng input token từ 12.500 xuống còn 3.200 mỗi trang.

  2. Cắt tỉa system prompt Tôi đã xóa các chỉ dẫn dư thừa. Tôi loại bỏ các mô tả công cụ mà mô hình đã biết. Tôi ngừng sử dụng các câu mẫu (boilerplate) như "think step-by-step" vì các mô hình hiện đại đã mặc định thực hiện việc này.

  3. Điều hướng mô hình theo phân tầng (Tiered model routing) Tôi đã ngừng sử dụng một mô hình cho mọi thứ. Tôi chia các tác vụ thành ba cấp độ:

  • Trích xuất (Extraction): Sử dụng mô hình nhỏ, rẻ tiền.
  • Tổng hợp (Synthesis): Sử dụng mô hình suy luận cấp cao.
  • Định dạng (Formatting): Sử dụng mô hình nhỏ, rẻ tiền.

Kết quả từ một bài kiểm tra với 50 tác vụ:

  • Chi phí mỗi tác vụ: 5,40 USD xuống 2,05 USD
  • Độ trễ (Latency): 41 giây xuống 28 giây
  • Độ bao phủ trích dẫn (Citation coverage): 67% lên 89%

AI agent không thông minh hơn. Chỉ là quy trình (pipeline) hiệu quả hơn thôi.

Ba bài học cho các AI agent trong môi trường production của bạn:

  • Thiết lập ngân sách token cố định. Dừng tác vụ nếu nó vượt quá giới hạn của bạn.
  • Lưu bộ nhớ đệm (cache) kết quả. Đừng cào cùng một URL hai lần.
  • Ghi nhật ký (log) mọi thứ. Bạn phải biết chính xác bước nào đang tiêu tốn nhiều tiền nhất.

Đừng vội tìm đến các mô hình lớn hơn khi chất lượng giảm sút. Hãy bắt đầu sử dụng các mô hình nhỏ hơn với ngữ cảnh chặt chẽ hơn.

Nguồn: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi