ผลทดสอบ AA-Briefcase Benchmark ใหม่ เผยให้เห็นความยากลำบากของ AI ในการทำงานด้านความรู้ (Knowledge Work) ที่แท้จริง

แม้ว่าโมเดลภาษาขนาดใหญ่ (LLMs) จะดูเหมือนมีความสามารถเพิ่มขึ้นในการประเมินผลมาตรฐาน แต่ข้อมูลใหม่ชี้ให้เห็นว่าพวกมันยังคงไม่พร้อมสำหรับความซับซ้อนของสภาพแวดล้อมในการทำงานระดับมืออาชีพ ผลทดสอบ (benchmark) ที่ล้ำสมัยได้เผยให้เห็นช่องว่างขนาดใหญ่ระหว่างการจดจำรูปแบบ (pattern recognition) กับการปฏิบัติงานด้านความรู้ (knowledge work) ที่ต้องอาศัยหลายขั้นตอนและมีความหนาแน่นของข้อมูลสูง

AA-Briefcase Benchmark: การจำลองโลกแห่งความเป็นจริง

ผลทดสอบ AI แบบดั้งเดิมมักพึ่งพาคำถามที่แยกส่วนกันหรือชุดข้อมูลแบบคงที่ ซึ่งไม่สะท้อนถึงความเป็นจริงที่วุ่นวายของสำนักงานสมัยใหม่ เพื่อปิดช่องว่างนี้ Artificial Analysis จึงได้นำเสนอ AA-Briefcase benchmark ซึ่งเป็นกรอบการทดสอบที่เข้มงวดซึ่งออกแบบมาเพื่อจำลองโครงการระยะยาวที่กินเวลาหลายสัปดาห์

แทนที่จะเป็นเพียงคำสั่ง (prompts) ง่ายๆ โมเดลจะได้รับมอบหมายให้จัดการกับไฟล์ต้นทางที่กระจัดกระจายหลายพันไฟล์ ซึ่งรวมถึงข้อความใน Slack, ชุดอีเมล, บันทึกการประชุม และการส่งออกข้อมูลขนาดใหญ่ สิ่งนี้กำหนดให้โมเดลต้องใช้การให้เหตุผลระดับสูง การสังเคราะห์จุดข้อมูลที่แตกต่างกัน และการรักษาบริบทท่ามกลางชุดข้อมูลขนาดใหญ่ที่ไม่มีโครงสร้าง ซึ่งเป็นทักษะที่จำเป็นสำหรับนักวิเคราะห์ ทนายความ และวิศวกร

ทำไมแม้แต่โมเดลระดับท็อปก็ยังล้มเหลว

ผลลัพธ์ที่ได้นั้นน่าตกใจสำหรับผู้ที่คาดหวังความเป็นอิสระของ AI ในที่ทำงานในทันที แม้แต่โมเดลที่ล้ำสมัยที่สุดที่ได้รับการทดสอบอย่าง Anthropic’s Claude Fable 5 ก็สามารถแก้โจทย์ที่ได้รับมอบหมายได้สำเร็จอย่างสมบูรณ์เพียง 3 เปอร์เซ็นต์ เท่านั้น ผลทดสอบเผยให้เห็นว่าใน 31 จาก 91 งานเฉพาะเจาะจง ไม่มีโมเดลใดเลยที่สามารถทำคะแนนผ่านเกณฑ์ได้ถึง 50 เปอร์เซ็นต์

งานวิจัยนี้ชี้ให้เห็นถึงการเปลี่ยนแปลงที่น่าสนใจในลักษณะที่ AI ล้มเหลวเมื่อระดับความฉลาดเพิ่มขึ้น โมเดลที่ "อ่อนแอกว่า" มักจะประสบกับความล้มเหลวแบบ "เสียงดัง" (loud failures): พวกมันติดขัดในการปฏิบัติงานขั้นพื้นฐาน มองข้ามไฟล์ที่เกี่ยวข้องไปโดยสิ้นเชิง หรือสร้างผลลัพธ์ที่ไม่สามารถนำไปใช้งานได้จริง ในทางตรงกันข้าม โมเดลที่ "แข็งแกร่งกว่า" อย่าง Claude Fable 5 กลับล้มเหลวแบบ "เงียบๆ" (quietly) โมเดลระดับสูงเหล่านี้สามารถตอบสนองความต้องการที่ชัดเจนและรักษาการจัดรูปแบบที่เป็นมืออาชีพได้ แต่พวกมันกลับสอบตกในการทดสอบการให้เหตุผลเชิงลึก เนื่องจากพลาดรายละเอียดที่ละเอียดอ่อนซึ่งจะค้นพบได้ก็ต่อเมื่อนำข้อมูลจากแหล่งที่มาหลายแห่งที่ไม่เกี่ยวข้องกันมาปะติดปะต่อกันเท่านั้น

ความเหลื่อมล้ำทางเศรษฐกิจของประสิทธิภาพ AI

นอกเหนือจากข้อบกพร่องทางเทคนิคแล้ว ผลทดสอบนี้ยังชี้ให้เห็นถึงความเหลื่อมล้ำทางเศรษฐกิจอย่างมหาศาลในภูมิทัศน์ของ LLM ในปัจจุบัน โดยมีช่องว่างด้านราคาที่น่าตกใจระหว่างโมเดลต่างๆ เมื่อวัดจากต้นทุนในการทำงานให้สำเร็จ

ประสิทธิภาพมีความแตกต่างกันอย่างมหาศาล: DeepSeek V4 Flash ทำงานเสร็จสิ้นด้วยต้นทุนประมาณ $0.04 ต่อภารกิจ ในขณะที่ Claude Fable 5 ซึ่งมีประสิทธิภาพสูงสุด มีต้นทุนสูงกว่า $31 ต่อภารกิจ นี่คือความแตกต่างด้านราคาถึง 800 เท่า ซึ่งถือเป็นความท้าทายครั้งสำคัญสำหรับผู้ก่อตั้งและองค์กรที่พยายามขยายขนาดการใช้งาน AI agent โดยไม่ให้เกิดต้นทุนการดำเนินงานที่สูงจนไม่สามารถแบกรับได้

นัยสำคัญต่อภูมิทัศน์ของ AI

ผลการศึกษาจาก AA-Briefcase ทำหน้าที่เป็นเครื่องเตือนใจให้กลับสู่ความเป็นจริงสำหรับวงจรการโฆษณาเกินจริง (hype cycle) ของ "AI Agent" เพื่อให้ AI เปลี่ยนผ่านจากการเป็นเพียงผู้ช่วยสนทนาไปสู่การเป็นพนักงานด้านความรู้ (knowledge worker) ที่เชื่อถือได้ โมเดลต่างๆ จะต้องพัฒนาไปไกลกว่าแค่การดึงข้อมูล (retrieval) ไปสู่การสังเคราะห์ข้อมูลเชิงลึกข้ามบริบท (cross-contextual synthesis) สำหรับนักพัฒนาและผู้นำด้านเทคโนโลยี เป้าหมายไม่ใช่เพียงแค่การเพิ่มจำนวนพารามิเตอร์อีกต่อไป แต่คือการปรับปรุงความสามารถในการจัดการกับงานด้านการใช้เหตุผลที่กระจัดกระจายและต้องใช้ระยะเวลานาน (long-horizon reasoning) ให้มีความแม่นยำสูงขึ้นและมีต้นทุนส่วนเพิ่ม (marginal costs) ที่ต่ำลง

บทสรุปสำคัญ

  • ช่องว่างด้านประสิทธิภาพที่มหาศาล: แม้แต่โมเดลระดับแนวหน้า (frontier models) อย่าง Claude Fable 5 ก็มีอัตราความสำเร็จที่สมบูรณ์เพียง 3% เท่านั้น ในงานด้านความรู้ที่ซับซ้อนและมาจากหลายแหล่งข้อมูล
  • วิวัฒนาการของความผิดพลาด: ในขณะที่โมเดลระดับล่างล้มเหลวในการปฏิบัติงานขั้นพื้นฐาน โมเดลระดับสูงกลับล้มเหลวผ่านความผิดพลาดแบบ "เงียบ" (quiet errors) โดยการมองข้ามรายละเอียดที่ละเอียดอ่อนซึ่งซ่อนอยู่ในชุดข้อมูลที่กระจัดกระจาย
  • ความผันผวนของต้นทุนที่รุนแรง: มีความเหลื่อมล้ำด้านต้นทุนในการทำงานต่อภารกิจสูงถึง 800 เท่า ระหว่างโมเดลที่ราคาประหยัดอย่าง DeepSeek V4 Flash และโมเดลระดับพรีเมียมอย่าง Claude Fable 5