ทำไมเกณฑ์มาตรฐาน AI (Benchmarks) ทั่วไปจึงประเมินความสามารถของ Agent ต่ำกว่าความเป็นจริงอย่างเป็นระบบ
วิธีการประเมิน AI ในปัจจุบันไม่สามารถดึงศักยภาพที่แท้จริงของโมเดลระดับแนวหน้า (frontier models) ออกมาได้ โดยมักจะเข้าใจผิดว่าการขาดงบประมาณในการประมวลผล (computational budget) คือการขาดความฉลาด สถาบันความปลอดภัย AI (AISI) ของสหราชอาณาจักรได้เปิดเผยว่า ประสิทธิภาพของ AI agent ไม่ใช่คะแนนที่คงที่ แต่เป็นเส้นโค้งการขยายตัว (scaling curve) ที่พุ่งสูงขึ้นอย่างรวดเร็วเมื่อมีการเพิ่มการประมวลผลในช่วงเวลาทดสอบ (test-time compute)
เส้นโค้งความสัมพันธ์ระหว่างการประมวลผลและความสามารถ (The Compute-Capability Curve)
ข้อค้นพบหลักจากการวิจัยของ AISI คือ อัตราความสำเร็จของ AI agent นั้นมีความเชื่อมโยงอย่างแยกไม่ออกกับ "test-time compute" หรือปริมาณพลังการประมวลผลและจำนวนโทเคน (tokens) ที่ agent ได้รับอนุญาตให้ใช้ในขณะที่ทำงาน เมื่อนักวิจัยกำหนดเพดานงบประมาณที่ตายตัวในการประเมิน พวกเขากำลังวัดความสามารถขั้นต่ำของโมเดล แทนที่จะเป็นศักยภาพสูงสุดของมัน
ปรากฏการณ์นี้เห็นได้ชัดในหลายโดเมนที่มีความสำคัญสูง ในงานด้านวิศวกรรมซอฟต์แวร์ที่ใช้เกณฑ์มาตรฐานอย่าง TerminalBench 2.0 และ SWE-Bench Pro อัตราความสำเร็จพุ่งสูงขึ้นประมาณ 25% เมื่อเพิ่มงบประมาณโทเคนจากหนึ่งล้านเป็นสิบล้านโทเคน ในทำนองเดียวกัน งานด้านคณิตศาสตร์และวิชาการใน "Humanity's Last Exam" มีอัตราความสำเร็จเพิ่มขึ้น 22% เมื่องบประมาณไปถึงห้าล้านโทเคน
กฎกำลัง (Power Law) ของระยะเวลาการทำงานระหว่างมนุษย์กับ AI
การศึกษานี้ได้สร้างความสัมพันธ์โดยตรงระหว่างเวลาที่ผู้เชี่ยวชาญที่เป็นมนุษย์ต้องใช้ในงานหนึ่งๆ กับปริมาณการใช้โทเคนที่ AI agent ต้องใช้ ความสัมพันธ์นี้เป็นไปตามกฎกำลัง (power law): งานที่มนุษย์ใช้เวลาหนึ่งนาทีอาจต้องใช้โทเคนหลายพันโทเคนสำหรับ agent ในขณะที่งานที่ใช้เวลาหนึ่งชั่วโมงอาจต้องใช้ถึงหลายล้านโทเคน
สิ่งนี้สร้างจุดบอดขนาดใหญ่ในการทดสอบปัจจุบัน ตัวอย่างเช่น งานด้านความมั่นคงปลอดภัยไซเบอร์ของ AISI ที่ชื่อว่า "The Last Ones" ต้องใช้ความเชี่ยวชาญของมนุษย์ประมาณ 20 ชั่วโมง ไม่มีโมเดลใดที่ผ่านการทดสอบโดยสถาบันสามารถแก้โจทย์นี้ได้โดยใช้โทเคนน้อยกว่า 30 ล้านโทเคน การใช้การประเมินแบบมาตรฐานที่มีงบประมาณต่ำกว่า จึงเป็นการตัดงานที่ซับซ้อนและสำคัญที่สุดออกจากกระบวนการวัดผลโดยปริยาย
ความก้าวหน้าที่เร่งตัวขึ้นและแกนหลัก 3 ด้านของการพัฒนา
AISI ระบุว่า "ขอบเขตเวลา" (time horizon) ของโมเดลระดับแนวหน้า ซึ่งก็คือความซับซ้อนของงานที่พวกมันสามารถจัดการได้ กำลังขยายตัวเร็วกว่าที่เคยคาดไว้มาก แม้ว่าการประมาณการก่อนหน้านี้จะระบุว่าขอบเขตเวลาสำหรับงานด้านไซเบอร์จะเพิ่มขึ้นเป็นสองเท่าในทุกๆ 4.7 เดือน ภายใต้งบประมาณโทเคนที่คงที่ 2.5 ล้านโทเคน แต่อัตราดังกล่าวจะเร่งตัวขึ้นอย่างมีนัยสำคัญเมื่อมีงบประมาณที่สูงขึ้น โดยที่ระดับ 50 ล้านโทเคน อัตราการเพิ่มขึ้นเป็นสองเท่าจะเร็วขึ้นเป็นทุกๆ 40 ถึง 50 วัน
โมเดลรุ่นใหม่ๆ (เช่น ซีรีส์ GPT และ Claude ที่ถูกนำมาทดสอบ) แสดงให้เห็นถึงการพัฒนาใน 3 มิติที่เฉพาะเจาะจง:
- Reach (การเข้าถึง): ความสามารถในการจัดการกับงานที่ยากขึ้นเรื่อยๆ
- Reliability (ความน่าเชื่อถือ): ความสามารถในการแก้โจทย์เดิมได้อย่างสม่ำเสมอมากขึ้น
- Efficiency (ประสิทธิภาพ): ความสามารถในการแก้โจทย์โดยใช้โทเคนน้อยลง
นัยสำคัญต่อความปลอดภัยและการนำ AI ไปใช้งาน
งานวิจัยนี้เปลี่ยนกระบวนทัศน์ของการประเมิน AI จาก "คะแนนที่คงที่" ไปสู่ "เส้นโค้งที่คำนึงถึงการประมวลผล" (compute-aware curves) สำหรับนักพัฒนาและผู้ก่อตั้ง นี่หมายความว่าประโยชน์ของโมเดลไม่ได้ขึ้นอยู่กับการฝึกฝน (training) เพียงอย่างเดียว แต่ขึ้นอยู่กับปริมาณการประมวลผลขณะใช้งาน (inference compute) ที่ถูกจัดสรรให้ในระหว่างการใช้งานจริงด้วย
เมื่อต้นทุนต่อโทเคนลดลงอย่างต่อเนื่อง ความสามารถที่เคยดูเหมือนจะไม่คุ้มค่าในเชิงเศรษฐกิจจะกลายเป็นมาตรฐาน สำหรับความปลอดภัยและความมั่นคงของ AI นี่หมายความว่าความเสี่ยงที่เกี่ยวข้องกับ autonomous agents เช่น การโจมตีทางไซเบอร์ที่ซับซ้อน อาจถูกประเมินต่ำกว่าความเป็นจริงอย่างมาก หากหน่วยงานกำกับดูแลและบริษัทต่างๆ ยังคงพึ่งพาเกณฑ์มาตรฐานแบบเดิมที่มีงบประมาณต่ำ
สรุปประเด็นสำคัญ
- เกณฑ์มาตรฐาน (Benchmarks) อาจทำให้เข้าใจผิด: การกำหนดงบประมาณโทเคนแบบตายตัวจะวัดได้เพียงประสิทธิภาพขั้นต่ำของโมเดล ซึ่งเป็นการประเมินเพดานความสามารถสูงสุดที่ AI agent จะทำได้ต่ำกว่าความเป็นจริงอย่างเป็นระบบ
- การประมวลผลช่วยขยายความสามารถ: อัตราความสำเร็จในด้านวิศวกรรมซอฟต์แวร์และคณิตศาสตร์พุ่งสูงขึ้นอย่างมากเมื่อเพิ่มงบประมาณการประมวลผลในช่วงเวลาทดสอบ
- อัตราการ "เพิ่มขึ้นเป็นสองเท่า" กำลังเร่งตัวขึ้น: เมื่อมีงบประมาณการประมวลผลที่สูงขึ้น อัตราที่โมเดลระดับแนวหน้าจะเชี่ยวชาญในงานที่ซับซ้อนจะชันกว่าที่เคยประมาณการไว้มาก
