Tôi đã thực hiện benchmark Qwen so với GPT-4o

Tôi đã phải đối mặt với hóa đơn hàng tháng lên tới 4.200 USD từ OpenAI cho một tác vụ đơn giản. Điều này buộc tôi phải thử nghiệm các mô hình khác.

Tôi đã dành sáu tuần để so sánh Qwen và GPT-4o. Tôi đã sử dụng 1.247 câu lệnh (prompt) thuộc năm danh mục:

Kết quả cho thấy chi phí cao hơn không phải lúc nào cũng đồng nghĩa với chất lượng cao hơn.

Kết quả dữ liệu:

Tôi đã so sánh năm mô hình với GPT-4o. Dưới đây là điểm trung bình có trọng số:

Khoảng cách giữa GPT-4o và Qwen3-32B là rất nhỏ trong các tác vụ phân loại. Tuy nhiên, GPT-4o chiến thắng áp đảo trong khả năng suy luận.

Tác động về chi phí:

Tôi đã dự tính chi phí dựa trên 47 triệu token đầu vào và 12 triệu token đầu ra mỗi tháng.

Hóa đơn 4.200 USD của tôi lẽ ra chỉ mất 339 USD nếu đạt được chất lượng tương đương.

Cách tôi khắc phục quy trình (pipeline) của mình:

Tôi đã chuyển sang một hệ thống định tuyến phân tầng (tiered routing system). Tôi sử dụng một mô hình nhỏ để đánh giá độ khó của tác vụ.

Tôi cũng đã thêm cơ chế lưu trữ ngữ nghĩa (semantic caching). Điều này cho phép tôi tái sử dụng các phản hồi cho các truy vấn tương tự. Nó đã giúp giảm 40% số lần gọi LLM của tôi.

Hướng dẫn ra quyết định của tôi:

Các mô hình rẻ hơn thường cũng có độ trễ (latency) tốt hơn. Nếu người dùng của bạn cần phản hồi nhanh, hãy kiểm tra số token mỗi giây (tokens per second) trước khi lựa chọn.

Nguồn: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a