ನಾನು GPT-4o ವಿರುದ್ಧ Qwen ಅನ್ನು ಬೆಂಚ್ಮಾರ್ಕ್ ಮಾಡಿದೆ
ಒಂದು ಸರಳ ಕೆಲಸಕ್ಕಾಗಿ OpenAI ನಿಂದ ನನಗೆ ತಿಂಗಳಿಗೆ $4,200 ಬಿಲ್ ಬಂದಿತು. ಇದು ನನ್ನನ್ನು ಇತರ ಮಾಡೆಲ್ಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಪ್ರೇರೇಪಿಸಿತು.
ನಾನು Qwen ಮತ್ತು GPT-4o ಅನ್ನು ಹೋಲಿಸಲು ಆರು ವಾರಗಳನ್ನು ಕಳೆದಿದ್ದೇನೆ. ನಾನು ಐದು ವರ್ಗಗಳಲ್ಲಿ 1,247 ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಬಳಸಿದೆ:
- ವರ್ಗೀಕರಣ (Classification)
- ಹೊರತೆಗೆಯುವಿಕೆ (Extraction)
- ಸಾರಾಂಶ (Summarization)
- ಕೋಡ್ ಜನರೇಷನ್ (Code generation)
- ತಾರ್ಕಿಕತೆ (Reasoning)
ಹೆಚ್ಚಿನ ವೆಚ್ಚವೆಂದರೆ ಯಾವಾಗಲೂ ಹೆಚ್ಚಿನ ಗುಣಮಟ್ಟ ಎಂದರ್ಥವಲ್ಲ ಎಂದು ಫಲಿತಾಂಶಗಳು ತೋರಿಸುತ್ತವೆ.
ದತ್ತಾಂಶದ ಫಲಿತಾಂಶಗಳು:
ನಾನು GPT-4o ವಿರುದ್ಧ ಐದು ಮಾಡೆಲ್ಗಳನ್ನು ಹೋಲಿಸಿದೆ. ಅವುಗಳ ವೇಟೆಡ್ ಸರಾಸರಿ ಸ್ಕೋರ್ಗಳು ಇಲ್ಲಿವೆ:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
ವರ್ಗೀಕರಣದ ಕಾರ್ಯಗಳಲ್ಲಿ GPT-4o ಮತ್ತು Qwen3-32B ನಡುವಿನ ವ್ಯತ್ಯಾಸವು ಕಡಿಮೆ ಇದೆ. ಆದಾಗ್ಯೂ, ತಾರ್ಕಿಕತೆಯ ವಿಷಯದಲ್ಲಿ GPT-4o ಗಮನಾರ್ಹವಾಗಿ ಗೆಲ್ಲುತ್ತದೆ.
ವೆಚ್ಚದ ಪ್ರಭಾವ:
ನಾನು ತಿಂಗಳಿಗೆ 47 ಮಿಲಿಯನ್ ಇನ್ಪುಟ್ ಟೋಕನ್ಗಳು ಮತ್ತು 12 ಮಿಲಿಯನ್ ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳ ಆಧಾರದ ಮೇಲೆ ವೆಚ್ಚವನ್ನು ಅಂದಾಜಿಸಿದೆ.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
ಅದೇ ಗುಣಮಟ್ಟದೊಂದಿಗೆ ನನ್ನ $4,200 ಬಿಲ್ ಅನ್ನು $339 ಕ್ಕೆ ತರಬಹುದಿತ್ತು.
ನಾನು ನನ್ನ ಪೈಪ್ಲೈನ್ ಅನ್ನು ಹೇಗೆ ಸರಿಪಡಿಸಿದೆ:
ನಾನು ಹಂತ ಹಂತದ ರೂಟಿಂಗ್ ಸಿಸ್ಟಮ್ಗೆ (tiered routing system) ಬದಲಾದೆ. ಕಾರ್ಯದ ಕಠಿಣತೆಯನ್ನು ನಿರ್ಧರಿಸಲು ನಾನು ಸಣ್ಣ ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸುತ್ತೇನೆ.
- ಸುಲಭವಾದ ಕಾರ್ಯಗಳನ್ನು DeepSeek V4 Flash ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ.
- ಮಧ್ಯಮ ಕಾರ್ಯಗಳನ್ನು Qwen3-32B ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ.
- ಕಠಿಣ ಕಾರ್ಯಗಳನ್ನು DeepSeek V4 Pro ಅಥವಾ GPT-4o ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ.
ನಾನು ಸೆಮ್ಯಾಂಟಿಕ್ ಕ್ಯಾಷಿಂಗ್ (semantic caching) ಅನ್ನು ಸಹ ಸೇರಿಸಿದ್ದೇನೆ. ಇದು ಒಂದೇ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಮರುಬಳಕೆ ಮಾಡಲು ನನಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಇದು ನನ್ನ LLM ಬಳಕೆಯನ್ನು (hits) 40% ಕಡಿಮೆ ಮಾಡಿದೆ.
ನನ್ನ ನಿರ್ಧಾರ ಮಾರ್ಗದರ್ಶಿ:
- ನಿಮಗೆ ಅತ್ಯುತ್ತಮ ಗುಣಮಟ್ಟ ಬೇಕಿದ್ದರೆ ಮತ್ತು ಬಜೆಟ್ ಹೊಂದಾಣಿಕೆಯಾಗುವಂತಿದ್ದರೆ: GPT-4o ಅಥವಾ DeepSeek V4 Pro ಬಳಸಿ.
- ನಿಮಗೆ ಗುಣಮಟ್ಟ ಬೇಕು ಆದರೆ ಹಣ ಉಳಿಸಲು ಬಯಸಿದರೆ: ಸ್ಮಾರ್ಟ್ ರೂಟಿಂಗ್ನೊಂದಿಗೆ Qwen3-32B ಬಳಸಿ.
- ವೆಚ್ಚವೇ ನಿಮ್ಮ ಏಕೈಕ ಆದ್ಯತೆಯಾಗಿದ್ದರೆ: DeepSeek V4 Flash ಬಳಸಿ.
- ನೀವು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಕೆಲಸ ಮತ್ತು ಸರಳ ಕಾರ್ಯಗಳನ್ನು ಹೊಂದಿದ್ದರೆ: GLM-4 Plus ಬಳಸಿ.
ಅಗ್ಗದ ಮಾಡೆಲ್ಗಳು ಹೆಚ್ಚಾಗಿ ಉತ್ತಮ ವಿಳಂಬತೆ (latency) ಹೊಂದಿವೆ. ನಿಮ್ಮ ಬಳಕೆದಾರರಿಗೆ ವೇಗದ ಪ್ರತಿಕ್ರಿಯೆಗಳು ಬೇಕಿದ್ದರೆ, ಆಯ್ಕೆ ಮಾಡುವ ಮೊದಲು ಸೆಕೆಂಡಿಗೆ ಎಷ್ಟು ಟೋಕನ್ಗಳು (tokens per second) ಎಂಬುದನ್ನು ಪರಿಶೀಲಿಸಿ.
ಮೂಲ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a