Hóa đơn AI của bạn không phải là vấn đề về mô hình. Đó là vấn đề về kiến trúc.

Nếu chi phí LLM của bạn đang tăng cao, có lẽ bạn muốn chuyển sang một mô hình rẻ hơn. Bạn có thể chuyển từ GPT-4 sang GPT-4-mini. Điều này giúp ích một chút, nhưng hiếm khi giải quyết được vấn đề thực sự.

Vấn đề thực sự nằm ở quy trình làm việc (workflow) của bạn. Hầu hết mọi người đều điều hướng mọi bước qua một LLM. Họ sử dụng khả năng suy luận ngôn ngữ cho những tác vụ không thực sự cần đến nó.

Mọi quy trình AI đều có bốn phần:

• Trigger (Kích hoạt): Bắt đầu công việc. Chi phí gần như bằng không. • Deterministic ML: Phân loại hoặc chấm điểm dữ liệu. Việc này rất rẻ. • LLM: Đọc, viết và suy luận. Việc này rất đắt đỏ. • Tool/API: Truy xuất hoặc ghi dữ liệu. Việc này rất rẻ.

Khoảng cách giữa Deterministic ML và một LLM là rất lớn. Một LLM có thể tốn kém hơn gấp 100 đến 1000 lần so với một bộ phân loại (classifier) đơn giản. Nếu bạn không chọn đúng công cụ cho từng bước, bạn sẽ mặc định sử dụng công cụ đắt tiền nhất.

Hãy nhìn vào một hệ thống phiếu hỗ trợ (support ticket).

Một hệ thống xây dựng kém sẽ gửi toàn bộ nội dung phiếu đến một LLM. Nó yêu cầu LLM phân loại ý định, điều hướng phiếu, soạn thảo câu trả lời và cập nhật CRM. Điều này quá đắt đỏ. Việc phân loại không cần đến LLM. Nó chỉ cần một mô hình đơn giản để ánh xạ văn bản vào một danh mục.

Một hệ thống xây dựng tốt hơn sẽ trông như thế này:

  1. Trigger: Một phiếu hỗ trợ được gửi đến.
  2. Deterministic ML: Một mô hình nhanh và rẻ sẽ quyết định xem phiếu đó thuộc về thanh toán, kỹ thuật, hay thư rác.
  3. LLM: Chỉ được sử dụng để soạn thảo câu trả lời cho các phiếu hợp lệ.
  4. Tool/API: Hệ thống cập nhật CRM.

Trong phiên bản này, các phiếu thư rác không bao giờ chạm tới LLM. Bạn sẽ ngừng phải trả "thuế LLM" cho những tác vụ vô ích.

Nếu bạn điều hướng kiến trúc của mình một cách chính xác, bạn sẽ loại bỏ được những lệnh gọi đắt đỏ nhất ngay cả trước khi thay đổi mô hình.

Hãy thực hiện các bước sau để giảm chi phí của bạn:

  • Lập bản đồ quy trình làm việc của bạn. Xác định bước nào cần suy luận thực sự và bước nào chỉ là phân loại hoặc trích xuất thông tin.
  • Đưa các bước mang tính định hướng (deterministic) ra khỏi prompt. Sử dụng các phương pháp nhanh hơn, rẻ hơn để điều hướng và chấm điểm.
  • Kiểm soát (Gate) LLM. Đừng tạo phản hồi cho những tác vụ không yêu cầu chúng.
  • Đánh giá kích thước mô hình sau cùng. Chỉ chọn một mô hình nhỏ hơn cho bước tạo nội dung (generation) sau khi kiến trúc của bạn đã được tinh gọn.

Đừng tranh cãi về việc mô hình nào rẻ nhất trên mỗi token nữa. Hãy bắt đầu xây dựng các kiến trúc chỉ sử dụng "động cơ" đắt đỏ khi thực sự cần thiết.

Source: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

Optional learning community: https://t.me/GyaanSetuAi