CEO ของ Snowflake: GLM-5.2 เทียบชั้น Claude Opus 4.7 ในราคาที่ถูกกว่ามหาศาล
ผลการทดสอบประสิทธิภาพ (benchmark) ล่าสุดโดย Snowflake ได้สร้างความสั่นสะเทือนไปทั่วอุตสาหกรรม AI โดยเผยให้เห็นว่า GLM-5.2 จากจีนสามารถแข่งขันกับโมเดลชั้นนำจากตะวันตกในงานเขียนโค้ดเฉพาะทางได้ แม้ว่า Claude Opus 4.7 จะยังคงความได้เปรียบทางเทคนิคอยู่ แต่ความแตกต่างด้านราคาที่มหาศาลนี้บ่งชี้ถึงการเปลี่ยนแปลงที่กำลังจะเกิดขึ้นในด้านเศรษฐศาสตร์ของโมเดลภาษาขนาดใหญ่ (LLMs)
การทดสอบประสิทธิภาพ: ความเท่าเทียมในการเขียนโค้ดในสภาพแวดล้อมที่ซับซ้อน
Sridhar Ramaswamy CEO ของ Snowflake ได้นำการทดสอบที่เข้มงวดซึ่งประกอบด้วย 103 งานที่แตกต่างกัน เพื่อประเมินการสร้างโค้ดทั้งในสภาพแวดล้อมของ DuckDB และ Snowflake ผลลัพธ์ที่ได้นั้นใกล้เคียงกันอย่างน่าประหลาดใจ โดยเมื่อให้โอกาสทำได้ 3 ครั้งต่อหนึ่งงาน GLM-5.2 สามารถแก้โจทย์ได้สำเร็จ 66% ซึ่งตามหลัง Claude Opus 4.7 ที่มีอัตราความสำเร็จ 67% เพียงเล็กน้อยเท่านั้น
อย่างไรก็ตาม รายละเอียดของประสิทธิภาพแสดงให้เห็นถึงความแตกต่างในด้านความน่าเชื่อถือ โดย Opus 4.7 แสดงให้เห็นถึงความสม่ำเสมอที่เหนือกว่าด้วยความแม่นยำในการพยายามครั้งแรกที่ 53.7% เมื่อเทียบกับ 47.6% ของ GLM-5.2 นอกจากนี้ โมเดลจากจีนยังมีแนวโน้มที่จะ "คิดมากเกินไป" (over-think) หรือวนลูปผ่านกระบวนการที่ไม่จำเป็น ในกรณีที่น่าสังเกตกรณีหนึ่ง GLM-5.2 ได้เรียกใช้เครื่องมือ (tool calls) ถึง 411 ครั้ง ตลอดระยะเวลา 24 นาที ทั้งการตรวจสอบจำนวนแถว, การกระจายตัวของข้อมูล และค่าว่าง (null values) แต่กลับล้มเหลวในการพยายามทั้งสามครั้ง ในทางตรงกันข้าม Opus 4.7 สามารถแก้โจทย์เดียวกันได้ในเวลาเพียง 9 นาที โดยใช้การเรียกใช้เครื่องมือเพียง 49 ครั้งเท่านั้น
เศรษฐศาสตร์ของ AI: แรงกดดันด้านราคาจากจีน
แม้ว่า Opus 4.7 จะเป็นโมเดลที่มีประสิทธิภาพและมีความสม่ำเสมอมากกว่า แต่ประเด็นสำคัญที่แท้จริงอยู่ที่เศรษฐศาสตร์ต่อหน่วย ความแตกต่างด้านราคาระหว่างโมเดลเรือธงจากตะวันตกและ GLM-5.2 นั้นน่าตกใจ และอาจเปลี่ยนแปลงการคำนวณ ROI สำหรับการปรับใช้ AI ในระดับองค์กรไปอย่างสิ้นเชิง
ตามราคาอย่างเป็นทางการของ Zhipu นั้น GLM-5.2 มีราคา 1.40 ดอลลาร์ต่อหนึ่งล้าน input tokens และ 4.40 ดอลลาร์ต่อหนึ่งล้าน output tokens เพื่อให้เห็นภาพชัดเจนขึ้น:
- Claude Opus 4.7: $5.00 (Input) / $25.00 (Output)
- GPT-5.5: $5.00 (Input) / $30.00 (Output)
แม้ว่า GLM-5.2 จะ "ใช้ token มากกว่า" (token-hungry) โดยเฉลี่ยมีการรัน 99 ครั้งต่อหนึ่งงาน เมื่อเทียบกับ 80 ครั้งของ Opus และใช้ไปถึง 860 ล้าน tokens เทียบกับ 439 ล้าน tokens ของ Opus แต่ก็ยังคงมีราคาที่ถูกกว่าอย่างมีนัยสำคัญ รูปแบบการตั้งราคานี้ถือเป็นความท้าทายโดยตรงต่อกลยุทธ์การทำกำไรสูง (high-margin) ที่ OpenAI และ Anthropic ใช้อยู่ในปัจจุบัน
ทำไมเรื่องนี้จึงสำคัญต่อภูมิทัศน์ของ AI
การเกิดขึ้นของโมเดลที่มีความสามารถสูงแต่ราคาต่ำอย่าง GLM-5.2 ทำหน้าที่เป็นบททดสอบความแข็งแกร่ง (stress test) สำหรับ "ฟองสบู่ AI" มูลค่าบริษัทที่มหาศาลของห้องแล็บ AI ในตะวันตกนั้นตั้งอยู่บนสมมติฐานของการเติบโตของรายได้ที่รวดเร็วและมีอัตรากำไรสูง หากนักพัฒนาและองค์กรต่างๆ เปลี่ยนไปใช้ทางเลือกที่ราคาถูกกว่ามากสำหรับงานที่มีความถี่สูง เช่น การเขียนโค้ดและวิศวกรรมข้อมูล กระแสรายได้ที่คาดการณ์ไว้สำหรับโมเดลเรือธงอาจเผชิญกับการหดตัวอย่างรุนแรง
ในขณะที่ Snowflake กำลังเตรียมเปิดให้ลูกค้าสามารถใช้งาน GLM-5.2 ได้ อุตสาหกรรมกำลังเคลื่อนเข้าสู่ความเป็นจริงที่ว่า "ความฉลาด" จะไม่ใช่สินค้าฟุ่มเฟือยอีกต่อไป แต่จะเป็นสาธารณูปโภคพื้นฐานที่มีการแข่งขันด้านราคา (commoditized utility)
สรุปประเด็นสำคัญ
- ความเท่าเทียมในการแข่งขัน: GLM-5.2 ทำอัตราความสำเร็จได้ 66% ในการทดสอบการเขียนโค้ด Snowflake/DuckDB ที่ซับซ้อน ซึ่งเกือบเทียบเท่ากับ 67% ของ Claude Opus 4.7
- ช่องว่างด้านประสิทธิภาพ: แม้ GLM-5.2 จะมีความสามารถสูง แต่ก็มีประสิทธิภาพน้อยกว่า โดยต้องใช้การเรียกใช้เครื่องมือ (tool calls) มากกว่า และใช้ปริมาณ token สูงกว่าเพื่อให้ได้คำตอบ
- การหยุดชะงักทางเศรษฐกิจ: GLM-5.2 เสนอราคา output token ในราคาเพียงประมาณ 1/5 ถึง 1/7 ของราคา Claude Opus 4.7 หรือ GPT-5.5 ซึ่งสร้างแรงกดดันด้านราคาอย่างหนักต่อผู้ให้บริการ AI ในตะวันตก
