𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

Tôi đã thực hiện benchmark Qwen so với GPT-4o

Tôi đã phải đối mặt với hóa đơn hàng tháng lên tới 4.200 USD từ OpenAI cho một tác vụ đơn giản. Điều này buộc tôi phải thử nghiệm các mô hình khác.

Tôi đã dành sáu tuần để so sánh Qwen và GPT-4o. Tôi đã sử dụng 1.247 câu lệnh (prompt) thuộc năm danh mục:

Phân loại (Classification)
Trích xuất (Extraction)
Tóm tắt (Summarization)
Tạo mã (Code generation)
Suy luận (Reasoning)

Kết quả cho thấy chi phí cao hơn không phải lúc nào cũng đồng nghĩa với chất lượng cao hơn.

Kết quả dữ liệu:

Tôi đã so sánh năm mô hình với GPT-4o. Dưới đây là điểm trung bình có trọng số:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

Khoảng cách giữa GPT-4o và Qwen3-32B là rất nhỏ trong các tác vụ phân loại. Tuy nhiên, GPT-4o chiến thắng áp đảo trong khả năng suy luận.

Tác động về chi phí:

Tôi đã dự tính chi phí dựa trên 47 triệu token đầu vào và 12 triệu token đầu ra mỗi tháng.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

Hóa đơn 4.200 USD của tôi lẽ ra chỉ mất 339 USD nếu đạt được chất lượng tương đương.

Cách tôi khắc phục quy trình (pipeline) của mình:

Tôi đã chuyển sang một hệ thống định tuyến phân tầng (tiered routing system). Tôi sử dụng một mô hình nhỏ để đánh giá độ khó của tác vụ.

Các tác vụ dễ sẽ được chuyển đến DeepSeek V4 Flash.
Các tác vụ trung bình sẽ được chuyển đến Qwen3-32B.
Các tác vụ khó sẽ được chuyển đến DeepSeek V4 Pro hoặc GPT-4o.

Tôi cũng đã thêm cơ chế lưu trữ ngữ nghĩa (semantic caching). Điều này cho phép tôi tái sử dụng các phản hồi cho các truy vấn tương tự. Nó đã giúp giảm 40% số lần gọi LLM của tôi.

Hướng dẫn ra quyết định của tôi:

Nếu bạn cần chất lượng hàng đầu và có ngân sách linh hoạt: Hãy sử dụng GPT-4o hoặc DeepSeek V4 Pro.
Nếu bạn cần chất lượng nhưng muốn tiết kiệm tiền: Hãy sử dụng Qwen3-32B với định tuyến thông minh.
Nếu chi phí là ưu tiên duy nhất của bạn: Hãy sử dụng DeepSeek V4 Flash.
Nếu bạn có quy mô cực lớn và các tác vụ đơn giản: Hãy sử dụng GLM-4 Plus.

Các mô hình rẻ hơn thường cũng có độ trễ (latency) tốt hơn. Nếu người dùng của bạn cần phản hồi nhanh, hãy kiểm tra số token mỗi giây (tokens per second) trước khi lựa chọn.

Nguồn: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

Cách tôi xây dựng chatbot AI cho WordPress với ngân sách hạn hẹp

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀