𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

ನಾನು GPT-4o ವಿರುದ್ಧ Qwen ಅನ್ನು ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮಾಡಿದೆ

ಒಂದು ಸರಳ ಕೆಲಸಕ್ಕಾಗಿ OpenAI ನಿಂದ ನನಗೆ ತಿಂಗಳಿಗೆ $4,200 ಬಿಲ್ ಬಂದಿತು. ಇದು ನನ್ನನ್ನು ಇತರ ಮಾಡೆಲ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಪ್ರೇರೇಪಿಸಿತು.

ನಾನು Qwen ಮತ್ತು GPT-4o ಅನ್ನು ಹೋಲಿಸಲು ಆರು ವಾರಗಳನ್ನು ಕಳೆದಿದ್ದೇನೆ. ನಾನು ಐದು ವರ್ಗಗಳಲ್ಲಿ 1,247 ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಬಳಸಿದೆ:

ವರ್ಗೀಕರಣ (Classification)
ಹೊರತೆಗೆಯುವಿಕೆ (Extraction)
ಸಾರಾಂಶ (Summarization)
ಕೋಡ್ ಜನರೇಷನ್ (Code generation)
ತಾರ್ಕಿಕತೆ (Reasoning)

ಹೆಚ್ಚಿನ ವೆಚ್ಚವೆಂದರೆ ಯಾವಾಗಲೂ ಹೆಚ್ಚಿನ ಗುಣಮಟ್ಟ ಎಂದರ್ಥವಲ್ಲ ಎಂದು ಫಲಿತಾಂಶಗಳು ತೋರಿಸುತ್ತವೆ.

ದತ್ತಾಂಶದ ಫಲಿತಾಂಶಗಳು:

ನಾನು GPT-4o ವಿರುದ್ಧ ಐದು ಮಾಡೆಲ್‌ಗಳನ್ನು ಹೋಲಿಸಿದೆ. ಅವುಗಳ ವೇಟೆಡ್ ಸರಾಸರಿ ಸ್ಕೋರ್‌ಗಳು ಇಲ್ಲಿವೆ:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

ವರ್ಗೀಕರಣದ ಕಾರ್ಯಗಳಲ್ಲಿ GPT-4o ಮತ್ತು Qwen3-32B ನಡುವಿನ ವ್ಯತ್ಯಾಸವು ಕಡಿಮೆ ಇದೆ. ಆದಾಗ್ಯೂ, ತಾರ್ಕಿಕತೆಯ ವಿಷಯದಲ್ಲಿ GPT-4o ಗಮನಾರ್ಹವಾಗಿ ಗೆಲ್ಲುತ್ತದೆ.

ವೆಚ್ಚದ ಪ್ರಭಾವ:

ನಾನು ತಿಂಗಳಿಗೆ 47 ಮಿಲಿಯನ್ ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳು ಮತ್ತು 12 ಮಿಲಿಯನ್ ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳ ಆಧಾರದ ಮೇಲೆ ವೆಚ್ಚವನ್ನು ಅಂದಾಜಿಸಿದೆ.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

ಅದೇ ಗುಣಮಟ್ಟದೊಂದಿಗೆ ನನ್ನ $4,200 ಬಿಲ್ ಅನ್ನು $339 ಕ್ಕೆ ತರಬಹುದಿತ್ತು.

ನಾನು ನನ್ನ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಹೇಗೆ ಸರಿಪಡಿಸಿದೆ:

ನಾನು ಹಂತ ಹಂತದ ರೂಟಿಂಗ್ ಸಿಸ್ಟಮ್‌ಗೆ (tiered routing system) ಬದಲಾದೆ. ಕಾರ್ಯದ ಕಠಿಣತೆಯನ್ನು ನಿರ್ಧರಿಸಲು ನಾನು ಸಣ್ಣ ಮಾಡೆಲ್ ಅನ್ನು ಬಳಸುತ್ತೇನೆ.

ಸುಲಭವಾದ ಕಾರ್ಯಗಳನ್ನು DeepSeek V4 Flash ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ.
ಮಧ್ಯಮ ಕಾರ್ಯಗಳನ್ನು Qwen3-32B ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ.
ಕಠಿಣ ಕಾರ್ಯಗಳನ್ನು DeepSeek V4 Pro ಅಥವಾ GPT-4o ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ.

ನಾನು ಸೆಮ್ಯಾಂಟಿಕ್ ಕ್ಯಾಷಿಂಗ್ (semantic caching) ಅನ್ನು ಸಹ ಸೇರಿಸಿದ್ದೇನೆ. ಇದು ಒಂದೇ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳಿಗೆ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಮರುಬಳಕೆ ಮಾಡಲು ನನಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಇದು ನನ್ನ LLM ಬಳಕೆಯನ್ನು (hits) 40% ಕಡಿಮೆ ಮಾಡಿದೆ.

ನನ್ನ ನಿರ್ಧಾರ ಮಾರ್ಗದರ್ಶಿ:

ನಿಮಗೆ ಅತ್ಯುತ್ತಮ ಗುಣಮಟ್ಟ ಬೇಕಿದ್ದರೆ ಮತ್ತು ಬಜೆಟ್ ಹೊಂದಾಣಿಕೆಯಾಗುವಂತಿದ್ದರೆ: GPT-4o ಅಥವಾ DeepSeek V4 Pro ಬಳಸಿ.
ನಿಮಗೆ ಗುಣಮಟ್ಟ ಬೇಕು ಆದರೆ ಹಣ ಉಳಿಸಲು ಬಯಸಿದರೆ: ಸ್ಮಾರ್ಟ್ ರೂಟಿಂಗ್‌ನೊಂದಿಗೆ Qwen3-32B ಬಳಸಿ.
ವೆಚ್ಚವೇ ನಿಮ್ಮ ಏಕೈಕ ಆದ್ಯತೆಯಾಗಿದ್ದರೆ: DeepSeek V4 Flash ಬಳಸಿ.
ನೀವು ದೊಡ್ಡ ಪ್ರಮಾಣದ ಕೆಲಸ ಮತ್ತು ಸರಳ ಕಾರ್ಯಗಳನ್ನು ಹೊಂದಿದ್ದರೆ: GLM-4 Plus ಬಳಸಿ.

ಅಗ್ಗದ ಮಾಡೆಲ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ಉತ್ತಮ ವಿಳಂಬತೆ (latency) ಹೊಂದಿವೆ. ನಿಮ್ಮ ಬಳಕೆದಾರರಿಗೆ ವೇಗದ ಪ್ರತಿಕ್ರಿಯೆಗಳು ಬೇಕಿದ್ದರೆ, ಆಯ್ಕೆ ಮಾಡುವ ಮೊದಲು ಸೆಕೆಂಡಿಗೆ ಎಷ್ಟು ಟೋಕನ್‌ಗಳು (tokens per second) ಎಂಬುದನ್ನು ಪರಿಶೀಲಿಸಿ.

ಮೂಲ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

ಈ RAG ಸೆಟಪ್ ಮೂಲಕ ನಾನು ನನ್ನ AI ವೆಚ್ಚವನ್ನು 60% ಹೇಗೆ ಕಡಿಮೆ ಮಾಡಿದೆ

ಕಡಿಮೆ ಬಜೆಟ್‌ನಲ್ಲಿ ನಾನು ಹೇಗೆ ವರ್ಡ್‌ಪ್ರೆಸ್ AI ಚಾಟ್‌ಬಾಟ್ ನಿರ್ಮಿಸಿದೆ

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀