มีเพียง 3 โมเดล AI เท่านั้นที่รอดชีวิตจากการจำลองการทำสตาร์ทอัพ 500 วัน
เอเจนต์ AI ในปัจจุบันมีความเชี่ยวชาญในงานเฉพาะด้าน แต่ยังคงประสบปัญหาในการคิดเชิงกลยุทธ์ที่ซับซ้อนและมีระยะยาวซึ่งจำเป็นต่อการบริหารธุรกิจ Benchmark ใหม่ที่ชื่อว่า CEO-Bench เผยให้เห็นว่า ในขณะที่โมเดลภาษาขนาดใหญ่ (LLMs) ส่วนใหญ่ล้มละลายภายใน 500 วันจำลอง แต่มีเพียงไม่กี่โมเดลเท่านั้นที่เริ่มแสดงสัญญาณของ "steering intelligence" (ความฉลาดในการควบคุมทิศทาง)
ขอแนะนำ CEO-Bench: บททดสอบขั้นสูงสุดของความฉลาดเชิงกลยุทธ์
นักวิจัยได้ก้าวข้ามการทดสอบการเขียน prompt แบบง่ายๆ ไปสู่การพัฒนา CEO-Bench ซึ่งเป็นการจำลองที่เข้มงวดซึ่งออกแบบมาเพื่อวัดความสามารถของเอเจนต์ในการนำพาองค์กรทั้งหมดไปสู่เป้าหมายระยะยาว ใน Benchmark นี้ เอเจนต์ AI จะเข้าควบคุม "NovaMind" ซึ่งเป็นบริษัทซอฟต์แวร์แบบสมัครสมาชิกสมมติ โดยเริ่มต้นด้วยเงินทุน 1 ล้านดอลลาร์และไม่มีลูกค้าเลย
สภาพแวดล้อมถูกออกแบบมาเพื่อเลียนแบบความผันผวนของโลกแห่งความเป็นจริง เอเจนต์จะต้องโต้ตอบกับ Python API ที่ประกอบด้วยเครื่องมือ 34 ชนิด และฐานข้อมูล 19 ตาราง ซึ่งกำหนดให้พวกเขาต้องเขียนโค้ดและ SQL queries ขึ้นมาเองเพื่อทำการตัดสินใจ ความเสี่ยงนั้นสูงมาก: หากยอดเงินสดของบริษัทลดลงต่ำกว่าศูนย์ ณ จุดใดก็ตามในช่วงระยะเวลา 500 วัน การจำลองจะสิ้นสุดลงด้วยการล้มละลาย
ความซับซ้อนเกิดขึ้นจากวงจรการตอบสนองที่ล่าช้า (delayed feedback loops) ต่างจากเอเจนต์ที่เน้นการทำงานเฉพาะอย่าง CEO ต้องบริหารจัดการทั้งระยะเวลาการวิจัยและพัฒนา (R&D), วัฏจักรตลาด และความคาดหวังของลูกค้าที่เปลี่ยนแปลงไป การตัดสินใจในวันที่ 10 เช่น การใช้จ่ายด้านโฆษณาหรือระดับราคา อาจไม่ส่งผลลัพธ์ที่เห็นได้ชัดในการเติบโตของผู้สมัครสมาชิกหรือกระแสเงินสดจนกว่าจะผ่านไปหลายสัปดาห์
วิกฤตการล้มละลาย: ทำไมโมเดลส่วนใหญ่ถึงล้มเหลว
ผลลัพธ์จากการทดสอบโมเดลทั้ง 14 โมเดลนั้นน่าตกใจ แม้ว่าโมเดลส่วนใหญ่จะสามารถปฏิบัติตามคำสั่งพื้นฐานได้ แต่พวกเขากลับขาดกลยุทธ์ระยะยาวที่สอดคล้องกันซึ่งจำเป็นต่อการรักษาความสามารถในการชำระหนี้ เอเจนต์ส่วนใหญ่ไม่สามารถรับมือกับความไม่แน่นอนของตลาดและล้มละลายไปก่อนจะถึงกำหนด 500 วัน
ในการเปรียบเทียบที่น่าทึ่ง Heuristic แบบใช้กฎพื้นฐาน (rule-based heuristic) ซึ่งเป็นโปรแกรมที่ไม่ใช่ AI ที่ใช้การตั้งราคาคงที่และการปรับกำลังการผลิตขั้นพื้นฐาน สามารถทำรายได้ถึง 15.76 ล้านดอลลาร์ ซึ่งทำผลงานได้ดีกว่า LLM เกือบทุกตัวที่นำมาทดสอบ เป็นการพิสูจน์ว่า "ความฉลาด" ที่ปราศจากทิศทาง มักจะด้อยกว่าแผนธุรกิจพื้นฐานที่มีวินัย
สามผู้ยิ่งใหญ่: Claude และ GPT นำทัพ
มีเพียงสามโมเดลเท่านั้นที่สามารถจบการจำลองโดยมีเงินทุนมากกว่า 1 ล้านดอลลาร์เริ่มต้น โมเดลเหล่านี้แสดงให้เห็นถึงความสามารถในการค้นหาข้อมูลที่ซ่อนอยู่และคาดการณ์กระแสเงินสดในอนาคต:
- Claude Fable 5: ผู้ทำผลงานได้สูงสุด โดยทำเงินได้สูงถึง 47.15 ล้านดอลลาร์อย่างน่าตกใจ และแสดงให้เห็นถึงความสม่ำเสมอมากที่สุดในการทดสอบหลายครั้ง
- Claude Opus 4.8: ทำได้ 27.8 ล้านดอลลาร์ โดยแสดงความซับซ้อนในระดับสูงด้วยการสร้างการจำลองภายในของตัวเองเพื่อจำลองกลุ่มลูกค้า (customer cohorts)
- GPT-5.5: ทำได้ 21.3 ล้านดอลลาร์ โดยประสบความสำเร็จจากการวิเคราะห์ประวัติการเจรจาเพื่อค้นหาความพึงพอใจที่ซ่อนอยู่ของลูกค้า
ที่น่าสนใจคือ โมเดลเหล่านี้ใช้เส้นทางสู่ความสำเร็จที่แตกต่างกัน ในขณะที่ Opus 4.8 มุ่งเน้นไปที่การหาลูกค้าใหม่ในช่วงแรกอย่างรวดเร็ว GPT-5.5 ให้ความสำคัญกับการรักษาฐานลูกค้าที่มั่นคง ในทางตรงกันข้าม โมเดลอย่าง Claude Opus 4.7 กลับใช้แนวคิดแบบ "ผู้เอาตัวรอด" (survivalist) โดยทำเพียงแค่ลดต้นทุนเพื่อหลีกเลี่ยงการล้มละลายโดยไม่เคยสร้างกำไรที่มีนัยสำคัญเลย
ทำไมเรื่องนี้จึงสำคัญต่ออนาคตของ AI
ช่องว่างระหว่างเอเจนต์ที่ทำผลงานได้ดีที่สุด (47.15 ล้านดอลลาร์) และขีดจำกัดสูงสุดทางทฤษฎีของการจำลอง (2.2 พันล้านดอลลาร์) บ่งชี้ว่า "steering intelligence" ของ AI ยังอยู่ในช่วงเริ่มต้น สำหรับนักพัฒนาและผู้ก่อตั้ง Benchmark นี้เน้นย้ำว่าพรมแดนถัดไปของ AI ไม่ใช่แค่การใช้เหตุผลที่ดีขึ้น แต่คือการตระหนักรู้ด้านเวลา (temporal awareness) ที่ดีขึ้น ซึ่งก็คือความสามารถในการจัดการทรัพยากรและความคาดหวังในช่วงเวลาที่ยาวนานและไม่แน่นอน
สรุปประเด็นสำคัญ
- ช่องว่างเชิงกลยุทธ์: โมเดล AI ส่วนใหญ่ในปัจจุบันยังขาด "steering intelligence" ในการจัดการวัฏจักรธุรกิจระยะยาว โดยส่วนใหญ่ไม่ผ่านการทดสอบการเอาตัวรอด 500 วัน
- ผู้ทำผลงานสูงสุด: มีเพียง Claude Fable 5, Claude Opus 4.8 และ GPT-5.5 เท่านั้นที่สามารถขยายเงินทุนของบริษัทให้มากกว่า 1 ล้านดอลลาร์เริ่มต้นได้สำเร็จ
- เกณฑ์มาตรฐานแบบ Heuristic: อัลกอริทึมแบบใช้กฎพื้นฐานที่ไม่ใช่ AI ทำผลงานได้ดีกว่า LLM เกือบทั้งหมด ซึ่งเน้นย้ำว่าความสม่ำเสมอเชิงกลยุทธ์มีความสำคัญมากกว่าพลังในการประมวลผลดิบ
