Anthropic เปิดตัว Claude Sonnet 5: พรมแดนใหม่ของ Agentic AI

Anthropic ได้เปิดตัว Claude Sonnet 5 อย่างเป็นทางการ ซึ่งเป็นโมเดลทรงพลังที่ออกแบบมาเพื่อลดช่องว่างด้านประสิทธิภาพระหว่างซีรีส์ AI ระดับกลางและระดับเรือธง (flagship) ด้วยการให้ความสำคัญกับความสามารถด้าน Agentic—ความสามารถในการใช้เครื่องมือ การท่องเว็บ และการดำเนินการตามแผนงานที่ซับซ้อน—การเปิดตัวครั้งนี้ถือเป็นสัญญาณของการเปลี่ยนผ่านไปสู่เวิร์กโฟลว์ AI แบบอัตโนมัติ

การลดช่องว่างกับซีรีส์ Opus

แง่มุมที่น่าทึ่งที่สุดของ Sonnet 5 คือความสามารถที่ใกล้เคียงกับประสิทธิภาพของ Opus 4.8 ซึ่งมีขนาดใหญ่กว่าและมีราคาแพงกว่ามาก ในการทดสอบประสิทธิภาพ (benchmarks) ที่ล้ำสมัย Sonnet 5 ได้พิสูจน์ให้เห็นว่าโมเดล "ขนาดกลาง" สามารถจัดการกับงานที่เคยสงวนไว้สำหรับปัญญาประดิษฐ์ระดับแนวหน้า (frontier-class intelligence) ได้แล้ว

ในการทดสอบการใช้เหตุผลแบบสหวิทยาการ Humanity's Last Exam Sonnet 5 ทำคะแนนได้ 57.4% เมื่อใช้เครื่องมือ ซึ่งเกือบจะเทียบเท่ากับคะแนน 57.9% ของ Opus 4.8 และที่น่าประทับใจที่สุดคือ ในการทดสอบงานด้านความรู้ในโลกความเป็นจริงอย่าง GDPval-AA v2 Sonnet 5 กลับทำคะแนนแซงหน้า Opus 4.8 โดยทำได้ 1,618 คะแนน เมื่อเทียบกับ 1,615 คะแนนของโมเดลระดับเรือธง สิ่งนี้บ่งชี้ว่าสำหรับเวิร์กโฟลว์ที่เน้นความรู้เฉพาะทาง ประสิทธิภาพของ Sonnet 5 อาจมีน้ำหนักมากกว่าขนาดอันมหาศาลของซีรีส์ Opus

ก้าวกระโดดครั้งใหญ่ในประสิทธิภาพด้าน Agentic

Anthropic ได้ออกแบบ Sonnet 5 มาโดยเฉพาะเพื่อให้เป็นโมเดลที่มีความเป็น "agentic" มากที่สุดเท่าที่เคยมีมา ซึ่งหมายความว่าโมเดลนี้ได้รับการปรับแต่งมาเพื่อโต้ตอบกับสภาพแวดล้อมต่างๆ เช่น เว็บเบราว์เซอร์และเทอร์มินัล (terminals) เพื่อบรรลุวัตถุประสงค์ที่มีหลายขั้นตอน ข้อมูลแสดงให้เห็นถึงการก้าวกระโดดอย่างมีนัยสำคัญเมื่อเทียบกับรุ่นก่อนหน้าอย่าง Sonnet 4.6:

  • SWE-bench Pro (Agentic Coding): Sonnet 5 ทำได้ถึง 63.2% เพิ่มขึ้นจาก 58.1% ใน Sonnet 4.6 (ตามหลัง Opus 4.8 ที่ 69.2%)
  • Terminal-Bench 2.1: ก้าวกระโดดครั้งใหญ่สู่ 80.4% เมื่อเทียบกับ 67.0% ของ Sonnet 4.6
  • OSWorld-Verified (Computer Use): โมเดลทำคะแนนได้ 81.2% ซึ่งแซงหน้า 78.5% ที่บันทึกไว้ในเวอร์ชันก่อนหน้า

การจัดการกับข้อจำกัดด้านความปลอดภัยทางไซเบอร์และความปลอดภัย

การเปิดตัวครั้งนี้เกิดขึ้นในช่วงเวลาที่ละเอียดอ่อนสำหรับ Anthropic หลังจากที่รัฐบาลสหรัฐฯ ได้ออกมาตรการจำกัดการใช้งานโมเดล Mythos 5 และ Fable 5 ของพวกเขาเนื่องจากความกังวลด้านความปลอดภัยทางไซเบอร์ เพื่อหลีกเลี่ยงอุปสรรคในลักษณะเดียวกัน Anthropic จึงได้ตรวจสอบให้แน่ใจว่า Sonnet 5 ไม่ได้ถูกฝึกฝนด้วยงานด้านความปลอดภัยทางไซเบอร์โดยเฉพาะ

แม้ว่า Sonnet 5 จะแสดงอัตราการควบคุมบางส่วน (partial control rate) ในการประเมินการเจาะระบบ (exploit evaluations) ที่สูงกว่า Sonnet 4.6 เล็กน้อย (13.2%) แต่ก็ยังมีความสามารถในการเขียนซอฟต์แวร์เจาะระบบ (software exploits) น้อยกว่า Opus 4.8 หรือ Mythos 5 อย่างมีนัยสำคัญ เพื่อลดความเสี่ยง Anthropic ได้ติดตั้งระบบป้องกันภัยไซเบอร์แบบเรียลไทม์เป็นค่าเริ่มต้น ควบคู่ไปกับการปรับปรุงการป้องกันการโจมตีแบบ prompt injection และการลดพฤติกรรมแบบ "sycophantic" (แนวโน้มที่จะเออออไปตามความผิดพลาดของผู้ใช้)

การเปิดใช้งานและ "Token Paradox"

Claude Sonnet 5 พร้อมใช้งานแล้วผ่าน Claude Platform และ API (ในชื่อ claude-sonnet-5) โดยมาพร้อมกับหน้าต่างบริบท (context window) ขนาดหนึ่งล้านโทเคน และข้อมูลการฝึกฝนล่าสุดถึงเดือนมกราคม 2026

แม้ว่า Anthropic จะเสนอราคาช่วงแนะนำ—2 ดอลลาร์ต่อหนึ่งล้านอินพุตโทเคน และ 10 ดอลลาร์ต่อหนึ่งล้านเอาต์พุตโทเคน จนถึงวันที่ 31 สิงหาคม 2026—แต่นักพัฒนาควรระวังเรื่อง "token paradox" เนื่องจากโมเดลมีความเป็น agentic มากขึ้นและมีการใช้เหตุผลแบบวนซ้ำ (iterative reasoning) มากขึ้น จึงอาจใช้โทเคนในการทำงานหนึ่งอย่างมากกว่าเวอร์ชันก่อนหน้าอย่างมาก ซึ่งอาจทำให้ต้นทุนรวมสูงขึ้นจนหักล้างกับราคาต่อโทเคนที่ถูกลงได้

สรุปประเด็นสำคัญ

  • ความเท่าเทียมด้านประสิทธิภาพ: Sonnet 5 มีประสิทธิภาพเทียบเท่าหรือแม้แต่เหนือกว่า Opus 4.8 ซึ่งเป็นโมเดลระดับเรือธง ในการทดสอบด้านการใช้เหตุผลและงานด้านความรู้เฉพาะทาง
  • เน้นความเป็น Agentic: โมเดลแสดงให้เห็นถึงการพัฒนาอย่างมหาศาลในการเขียนโค้ด (SWE-bench) และการโต้ตอบผ่านเทอร์มินัล ทำให้เหมาะสำหรับการใช้เครื่องมือแบบอัตโนมัติ
  • ความปลอดภัยเชิงกลยุทธ์: Anthropic ให้ความสำคัญกับระบบป้องกันภัยไซเบอร์ที่ติดตั้งมาในตัว เพื่อสร้างความแตกต่างระหว่างโมเดลนี้กับโมเดลระดับแนวหน้าที่มีความเสี่ยงสูงและเป็นที่ถกเถียงมากกว่า