ผมได้ทำการทดสอบประสิทธิภาพ (Benchmark) ของ Qwen เปรียบเทียบกับ GPT-4o
ผมต้องเผชิญกับบิลค่าใช้จ่ายรายเดือนจาก OpenAI สูงถึง 4,200 ดอลลาร์สำหรับงานง่ายๆ งานหนึ่ง สิ่งนี้ทำให้ผมต้องทดสอบโมเดลอื่นๆ
ผมใช้เวลาหกสัปดาห์ในการเปรียบเทียบ Qwen และ GPT-4o โดยใช้ Prompt ทั้งหมด 1,247 รายการ แบ่งเป็น 5 หมวดหมู่:
- การจำแนกประเภท (Classification)
- การสกัดข้อมูล (Extraction)
- การสรุปความ (Summarization)
- การสร้างโค้ด (Code generation)
- การใช้เหตุผล (Reasoning)
ผลลัพธ์แสดงให้เห็นว่าค่าใช้จ่ายที่สูงกว่าไม่ได้หมายความว่าคุณภาพจะสูงกว่าเสมอไป
ผลลัพธ์ของข้อมูล:
ผมได้เปรียบเทียบโมเดล 5 รุ่นกับ GPT-4o และนี่คือคะแนนเฉลี่ยถ่วงน้ำหนัก:
- GPT-4o: 0.