ನಾನು GPT-4o ವಿರುದ್ಧ Qwen ಅನ್ನು ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮಾಡಿದೆ

ಒಂದು ಸರಳ ಕೆಲಸಕ್ಕಾಗಿ OpenAI ನಿಂದ ನನಗೆ ತಿಂಗಳಿಗೆ $4,200 ಬಿಲ್ ಬಂದಿತು. ಇದು ನನ್ನನ್ನು ಇತರ ಮಾಡೆಲ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಪ್ರೇರೇಪಿಸಿತು.

ನಾನು Qwen ಮತ್ತು GPT-4o ಅನ್ನು ಹೋಲಿಸಲು ಆರು ವಾರಗಳನ್ನು ಕಳೆದಿದ್ದೇನೆ. ನಾನು ಐದು ವರ್ಗಗಳಲ್ಲಿ 1,247 ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಬಳಸಿದೆ:

ಹೆಚ್ಚಿನ ವೆಚ್ಚವೆಂದರೆ ಯಾವಾಗಲೂ ಹೆಚ್ಚಿನ ಗುಣಮಟ್ಟ ಎಂದರ್ಥವಲ್ಲ ಎಂದು ಫಲಿತಾಂಶಗಳು ತೋರಿಸುತ್ತವೆ.

ದತ್ತಾಂಶದ ಫಲಿತಾಂಶಗಳು:

ನಾನು GPT-4o ವಿರುದ್ಧ ಐದು ಮಾಡೆಲ್‌ಗಳನ್ನು ಹೋಲಿಸಿದೆ. ಅವುಗಳ ವೇಟೆಡ್ ಸರಾಸರಿ ಸ್ಕೋರ್‌ಗಳು ಇಲ್ಲಿವೆ:

ವರ್ಗೀಕರಣದ ಕಾರ್ಯಗಳಲ್ಲಿ GPT-4o ಮತ್ತು Qwen3-32B ನಡುವಿನ ವ್ಯತ್ಯಾಸವು ಕಡಿಮೆ ಇದೆ. ಆದಾಗ್ಯೂ, ತಾರ್ಕಿಕತೆಯ ವಿಷಯದಲ್ಲಿ GPT-4o ಗಮನಾರ್ಹವಾಗಿ ಗೆಲ್ಲುತ್ತದೆ.

ವೆಚ್ಚದ ಪ್ರಭಾವ:

ನಾನು ತಿಂಗಳಿಗೆ 47 ಮಿಲಿಯನ್ ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳು ಮತ್ತು 12 ಮಿಲಿಯನ್ ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳ ಆಧಾರದ ಮೇಲೆ ವೆಚ್ಚವನ್ನು ಅಂದಾಜಿಸಿದೆ.

ಅದೇ ಗುಣಮಟ್ಟದೊಂದಿಗೆ ನನ್ನ $4,200 ಬಿಲ್ ಅನ್ನು $339 ಕ್ಕೆ ತರಬಹುದಿತ್ತು.

ನಾನು ನನ್ನ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಹೇಗೆ ಸರಿಪಡಿಸಿದೆ:

ನಾನು ಹಂತ ಹಂತದ ರೂಟಿಂಗ್ ಸಿಸ್ಟಮ್‌ಗೆ (tiered routing system) ಬದಲಾದೆ. ಕಾರ್ಯದ ಕಠಿಣತೆಯನ್ನು ನಿರ್ಧರಿಸಲು ನಾನು ಸಣ್ಣ ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸುತ್ತೇನೆ.

ನಾನು ಸೆಮ್ಯಾಂಟಿಕ್ ಕ್ಯಾಷಿಂಗ್ (semantic caching) ಅನ್ನು ಸಹ ಸೇರಿಸಿದ್ದೇನೆ. ಇದು ಒಂದೇ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಮರುಬಳಕೆ ಮಾಡಲು ನನಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಇದು ನನ್ನ LLM ಬಳಕೆಯನ್ನು (hits) 40% ಕಡಿಮೆ ಮಾಡಿದೆ.

ನನ್ನ ನಿರ್ಧಾರ ಮಾರ್ಗದರ್ಶಿ:

ಅಗ್ಗದ ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ಉತ್ತಮ ವಿಳಂಬತೆ (latency) ಹೊಂದಿವೆ. ನಿಮ್ಮ ಬಳಕೆದಾರರಿಗೆ ವೇಗದ ಪ್ರತಿಕ್ರಿಯೆಗಳು ಬೇಕಿದ್ದರೆ, ಆಯ್ಕೆ ಮಾಡುವ ಮೊದಲು ಸೆಕೆಂಡಿಗೆ ಎಷ್ಟು ಟೋಕನ್‌ಗಳು (tokens per second) ಎಂಬುದನ್ನು ಪರಿಶೀಲಿಸಿ.

ಮೂಲ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a