Tôi đã thực hiện benchmark Qwen so với GPT-4o
Tôi đã phải đối mặt với hóa đơn hàng tháng lên tới 4.200 USD từ OpenAI cho một tác vụ đơn giản. Điều này buộc tôi phải thử nghiệm các mô hình khác.
Tôi đã dành sáu tuần để so sánh Qwen và GPT-4o. Tôi đã sử dụng 1.247 câu lệnh (prompt) thuộc năm danh mục:
- Phân loại (Classification)
- Trích xuất (Extraction)
- Tóm tắt (Summarization)
- Tạo mã (Code generation)
- Suy luận (Reasoning)
Kết quả cho thấy chi phí cao hơn không phải lúc nào cũng đồng nghĩa với chất lượng cao hơn.
Kết quả dữ liệu:
Tôi đã so sánh năm mô hình với GPT-4o. Dưới đây là điểm trung bình có trọng số:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
Khoảng cách giữa GPT-4o và Qwen3-32B là rất nhỏ trong các tác vụ phân loại. Tuy nhiên, GPT-4o chiến thắng áp đảo trong khả năng suy luận.
Tác động về chi phí:
Tôi đã dự tính chi phí dựa trên 47 triệu token đầu vào và 12 triệu token đầu ra mỗi tháng.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
Hóa đơn 4.200 USD của tôi lẽ ra chỉ mất 339 USD nếu đạt được chất lượng tương đương.
Cách tôi khắc phục quy trình (pipeline) của mình:
Tôi đã chuyển sang một hệ thống định tuyến phân tầng (tiered routing system). Tôi sử dụng một mô hình nhỏ để đánh giá độ khó của tác vụ.
- Các tác vụ dễ sẽ được chuyển đến DeepSeek V4 Flash.
- Các tác vụ trung bình sẽ được chuyển đến Qwen3-32B.
- Các tác vụ khó sẽ được chuyển đến DeepSeek V4 Pro hoặc GPT-4o.
Tôi cũng đã thêm cơ chế lưu trữ ngữ nghĩa (semantic caching). Điều này cho phép tôi tái sử dụng các phản hồi cho các truy vấn tương tự. Nó đã giúp giảm 40% số lần gọi LLM của tôi.
Hướng dẫn ra quyết định của tôi:
- Nếu bạn cần chất lượng hàng đầu và có ngân sách linh hoạt: Hãy sử dụng GPT-4o hoặc DeepSeek V4 Pro.
- Nếu bạn cần chất lượng nhưng muốn tiết kiệm tiền: Hãy sử dụng Qwen3-32B với định tuyến thông minh.
- Nếu chi phí là ưu tiên duy nhất của bạn: Hãy sử dụng DeepSeek V4 Flash.
- Nếu bạn có quy mô cực lớn và các tác vụ đơn giản: Hãy sử dụng GLM-4 Plus.
Các mô hình rẻ hơn thường cũng có độ trễ (latency) tốt hơn. Nếu người dùng của bạn cần phản hồi nhanh, hãy kiểm tra số token mỗi giây (tokens per second) trước khi lựa chọn.
Nguồn: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a