GPT-4o-க்கு எதிராக Qwen-ஐ பெஞ்ச்மார்க் செய்தேன்

📅3 hours ago⏱2 min read

நான் Qwen-ஐ GPT-4o உடன் ஒப்பிட்டுச் சோதித்தேன்

ஒரு எளிய பணிக்காக OpenAI மூலம் எனக்கு மாதம் $4,200 கட்டணம் வந்தது. இது என்னை மற்ற மாடல்களைச் சோதித்துப் பார்க்கத் தூண்டியது.

Qwen மற்றும் GPT-4o ஆகியவற்றை ஒப்பிட்டுப் பார்க்க நான் ஆறு வாரங்கள் செலவிட்டேன். ஐந்து பிரிவுகளில் மொத்தம் 1,247 ப்ராம்ப்ட்களை (prompts) நான் பயன்படுத்தினேன்:

வகைப்படுத்துதல் (Classification)
பிரித்தெடுத்தல் (Extraction)
சுருக்கம் செய்தல் (Summarization)
குறியீடு உருவாக்கம் (Code generation)
பகுத்தறிவு (Reasoning)

அதிக செலவு என்பது எப்போதும் அதிகத் தரத்தைக் குறிப்பதில்லை என்பதை முடிவுகள் காட்டுகின்றன.

தரவு முடிவுகள்:

நான் ஐந்து மாடல்களை GPT-4o உடன் ஒப்பிட்டேன். அவற்றின் சராசரி மதிப்பெண்கள் (weighted average scores) இதோ:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

வகைப்படுத்துதல் பணிகளில் GPT-4o மற்றும் Qwen3-32B இடையிலான வித்தியாசம் மிகக் குறைவு. இருப்பினும், பகுத்தறிவு (reasoning) பணிகளில் GPT-4o கணிசமான வெற்றியைப் பெறுகிறது.

செலவுத் தாக்கம்:

மாதம் 47 மில்லியன் உள்ளீட்டு டோக்கன்கள் (input tokens) மற்றும் 12 மில்லியன் வெளியீட்டு டோக்கன்கள் (output tokens) ஆகியவற்றின் அடிப்படையில் நான் செலவுகளைக் கணக்கிட்டேன்.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

அதே தரத்துடன் எனது $4,200 கட்டணத்தை $339 ஆகக் குறைத்திருக்க முடியும்.

எனது பைப்லைனை (pipeline) நான் எவ்வாறு சரி செய்தேன்:

நான் ஒரு அடுக்கு வழித்தட முறைக்கு (tiered routing system) மாறினேன். பணியின் கடினத்தன்மையைத் தீர்மானிக்க நான் ஒரு சிறிய மாடலைப் பயன்படுத்துகிறேன்.

எளிதான பணிகள் DeepSeek V4 Flash-க்குச் செல்லும்.
நடுத்தரப் பணிகள் Qwen3-32B-க்குச் செல்லும்.
கடினமான பணிகள் DeepSeek V4 Pro அல்லது GPT-4o-க்குச் செல்லும்.

நான் 'semantic caching'-ஐயும் சேர்த்தேன். இது ஒரே மாதிரியான வினவல்களுக்குப் பதில்களை மீண்டும் பயன்படுத்த அனுமதிக்கிறது. இது எனது LLM பயன்பாட்டைக் (hits) 40% குறைத்தது.

எனது முடிவு வழிகாட்டி:

உங்களுக்கு மிக உயர்ந்த தரம் தேவை மற்றும் நெகிழ்வான பட்ஜெட் இருந்தால்: GPT-4o அல்லது DeepSeek V4 Pro-வைப் பயன்படுத்தவும்.
உங்களுக்குத் தரம் தேவை ஆனால் பணத்தைச் சேமிக்க விரும்பினால்: ஸ்மார்ட் ரூட்டிங் (smart routing) மூலம் Qwen3-32B-வைப் பயன்படுத்தவும்.
செலவு மட்டுமே உங்கள் முன்னுரிமை என்றால்: DeepSeek V4 Flash-ஐப் பயன்படுத்தவும்.
உங்களிடம் மிகப்பெரிய அளவிலான பணிகள் மற்றும் எளிமையான பணிகள் இருந்தால்: GLM-4 Plus-ஐப் பயன்படுத்தவும்.

மலிவான மாடல்கள் பெரும்பாலும் சிறந்த தாமத நேரத்தையும் (latency) கொண்டுள்ளன. உங்கள் பயனர்களுக்கு விரைவான பதில்கள் தேவைப்பட்டால், தேர்ந்தெடுப்பதற்கு முன் 'tokens per second'-ஐச் சரிபார்க்கவும்.

ஆதாரம்: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

GPT-4o-க்கு எதிராக Qwen-ஐ பெஞ்ச்மார்க் செய்தேன்

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

குறைந்த செலவில் நான் எப்படி ஒரு வேர்ட்பிரஸ் AI சாட்போட்டை உருவாக்கினேன்

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀