Claude Sonnet 5: ประสิทธิภาพที่สูงขึ้นอาจบดบังการกระโดดขึ้นของราคาอย่างมีนัยสำคัญ
Claude Sonnet 5 รุ่นล่าสุดจาก Anthropic มอบผลลัพธ์ด้าน Benchmark ที่น่าประทับใจ แต่กลับมาพร้อมกับภาระทางการเงินที่ซ่อนอยู่สำหรับนักพัฒนา แม้ว่าอัตราค่าบริการต่อ Token อย่างเป็นทางการจะยังคงเดิม แต่ข้อมูลใหม่บ่งชี้ว่าความยาวในการตอบ (verbosity) และพฤติกรรมแบบเอเจนต์ (agentic behavior) ที่เพิ่มขึ้นของโมเดล ส่งผลให้ต้นทุนจริงต่อหนึ่งงาน (cost per task) พุ่งสูงขึ้นอย่างมีนัยสำคัญ
ความฉลาดที่เพิ่มขึ้น เทียบกับ การบริโภค Token
จากดัชนี Artificial Analysis Intelligence Index v4.1 พบว่า Claude Sonnet 5 ได้บรรลุความสำเร็จทางเทคนิคครั้งสำคัญ โดยทำคะแนนได้ 53 คะแนน ครองอันดับ 5 ของโลก ร่วมกับ GPT-5.5 (high) และทำผลงานได้ดีกว่ารุ่นก่อนหน้าอย่าง Sonnet 4.6 ที่ทำได้ 47 คะแนน การก้าวกระโดดของประสิทธิภาพนี้เห็นได้ชัดใน Benchmark เฉพาะทางหลายตัว รวมถึงคะแนนที่เพิ่มขึ้น 9 คะแนนใน Terminal-Bench v2.1 และเพิ่มขึ้น 10 คะแนนใน Humanity's Last Exam
อย่างไรก็ตาม ความฉลาดที่เพิ่มขึ้นนี้ต้องแลกมาด้วยการบริโภค Token ที่สูงมาก ใน Benchmark งานด้านความรู้ที่ใช้เอเจนต์เป็นฐาน เช่น AA-Briefcase และ GDPval-AA พบว่า Sonnet 5 มีการรัน agent loops มากกว่า Sonnet 4.6 ถึงประมาณ 3 เท่า และเมื่อตั้งค่าประสิทธิภาพสูงสุด โมเดลจะใช้ output tokens ต่อหนึ่งงานเพิ่มขึ้นประมาณ 40% เมื่อเทียบกับรุ่นก่อนหน้า
ภาพลวงตาของราคา Token ที่คงที่
หากมองเพียงผิวเผิน Anthropic ยังคงโครงสร้างราคาเดิมไว้ คือ $3 ต่อหนึ่งล้าน input tokens และ $15 ต่อหนึ่งล้าน output tokens ซึ่งถูกกว่าระดับ Opus 4.8 ที่มีราคา $5 และ $25 ตามลำดับอย่างเห็นได้ชัด แต่ทว่า "ต้นทุนต่อหนึ่งงาน" (cost per task) กลับบอกเล่าเรื่องราวที่ต่างออกไป
Artificial Analysis รายงานว่า งานโดยเฉลี่ยใน Intelligence Index มีต้นทุน $2.29 เมื่อใช้ Sonnet 5 ในขณะที่ Opus 4.8 ซึ่งมีราคาแพงกว่า กลับมีต้นทุนเพียง $1.97 สำหรับนักพัฒนาที่เปลี่ยนจาก Sonnet 4.6 ซึ่งมีต้นทุนประมาณ $1.20 ต่อหนึ่งงาน การเปลี่ยนมาใช้ Sonnet 5 จึงหมายถึงค่าใช้จ่ายในการดำเนินงานที่เพิ่มขึ้นเกือบเท่าตัว รูปแบบนี้สะท้อนถึงการเปิดตัวรุ่นก่อนหน้า เช่น Opus 4.7 ที่การเปลี่ยนแปลง tokenizer ส่งผลให้ต้นทุนเพิ่มขึ้นถึง 37.4% แม้ว่าอัตราค่าบริการจะ "ไม่เปลี่ยนแปลง" ก็ตาม
แรงกดดันจากการแข่งขันและความจำเป็นด้านความโปร่งใส
แม้ว่า Sonnet 5 จะโดดเด่นในงานด้านเอเจนต์บางประเภท แต่ยังคงประสบปัญหาในการใช้เหตุผลทางฟิสิกส์ระดับสูง โดยใน Benchmark CritPt จาก Argonne National Labs โมเดลทำคะแนนได้เพียง 17% ซึ่งตามหลังยักษ์ใหญ่อย่าง GLM-5.2, Claude Fable 5 และ GPT-5.5
ช่องว่างด้านประสิทธิภาพและโครงสร้างต้นทุนที่สูงขึ้นนี้ทำให้ Anthropic ตกอยู่ในสถานการณ์ที่ยากลำบาก เนื่องจากคู่แข่งจากจีนอย่าง Deepseek V4 Pro และ GLM-5.2 นำเสนอประสิทธิภาพระดับกลางที่ใกล้เคียงกันในราคาเพียงเศษเสี้ยวเดียว ดังนั้น "ราคาที่แฝงอยู่" ของตระกูล Claude จึงกลายเป็นปัจจัยสำคัญต่อการนำไปใช้ในระดับองค์กร อุตสาหกรรมกำลังมุ่งไปสู่ความต้องการตัวชี้วัดที่มีความโปร่งใสมากขึ้น เช่น ต้นทุนต่อหนึ่งงานมาตรฐาน แทนที่จะพึ่งพาเพียงจำนวน token ดิบ ซึ่งไม่สามารถสะท้อนภาระการประมวลผลที่แท้จริงของเวิร์กโฟลว์แบบเอเจนต์ได้อีกต่อไป
สรุปประเด็นสำคัญ
- ต้นทุนที่เพิ่มขึ้นอย่างแฝงอยู่: แม้จะมีอัตราค่าบริการ Token เท่าเดิม แต่ Sonnet 5 มีราคาต่อหนึ่งงานแพงกว่า Sonnet 4.6 ประมาณ 90% เนื่องจากการบริโภค Token ที่เพิ่มขึ้น
- ประสิทธิภาพด้าน Benchmark: Sonnet 5 ครองอันดับ 5 ของโลกด้วยคะแนน 53 คะแนน โดยแสดงให้เห็นถึงความก้าวหน้าอย่างมหาศาลในด้าน agent loops และ Benchmark เฉพาะทางอย่าง SciCode และ Terminal-Bench
- ความเหลื่อมล้ำด้านราคา: Sonnet 5 ที่ดูเหมือนจะ "ถูกกว่า" แท้จริงแล้วมีต้นทุนต่อหนึ่งงาน ($2.29) สูงกว่า Opus 4.8 รุ่นพรีเมียม ($1.97) เมื่อวัดจาก Benchmark ด้านความฉลาดในโลกความเป็นจริง
