สถาปัตยกรรมเอเจนต์คือปัญหาการจัดสรรทรัพยากรคำนวณ

กลุ่มอิสระสามกลุ่มเพิ่งจะมาถึงข้อสรุปเดียวกันในการออกแบบ AI agent

Anthropic ได้เผยแพร่บล็อกโพสต์เกี่ยวกับกลยุทธ์ advisor พวกเขาใช้โมเดลราคาถูกในการรันลูปหลัก และจะเรียกใช้โมเดลราคาแพงก็ต่อเมื่อโมเดลราคาถูกติดขัดเท่านั้น การตั้งค่านี้ที่ BrowseComp ทำความแม่นยำได้ถึง 41.2% โดยใช้ต้นทุนเพียง 15% เมื่อเทียบกับการใช้โมเดลระดับท็อปสำหรับทุกอย่าง

Tobi Lutke จาก Shopify ได้แชร์การตั้งค่าที่คล้ายกันบน X เขาใช้โมเดลในเครื่อง (local model) สำหรับการวิจัย และใช้ frontier model เป็นที่ปรึกษา นักพัฒนาสามารถสร้างเวอร์ชัน open-source ของสิ่งนี้ได้ภายในไม่กี่ชั่วโมง

HazyResearch ได้ตีพิมพ์งานวิจัยเกี่ยวกับโครงสร้างแบบ compressor-predictor โดยโมเดลขนาดเล็กจะทำการกลั่นกรองบริบท (distill context) เพื่อให้โมเดลขนาดใหญ่ใช้ในการคิดวิเคราะห์ ระบบของพวกเขาสามารถรักษาความแม่นยำไว้ได้ถึง 99% โดยใช้ต้นทุนเพียง 26%

การบรรจบกันนี้ไม่ใช่เรื่องบังเอิญ แต่มันเป็นไปตามกฎการออกแบบเฉพาะอย่างหนึ่ง นั่นคือ cost-curve frame

ผมได้นำเสนอแนวคิดนี้ผ่านสามเลเยอร์ในซีรีส์นี้:

ตรรกะเดียวกันนี้คือ งานส่วนใหญ่ของ agent ประกอบด้วยการดำเนินการที่มีมูลค่าต่ำจำนวนมาก และการตัดสินใจที่มีมูลค่าสูงเพียงไม่กี่ครั้ง

หากคุณใช้โมเดลราคาแพงสำหรับทุกๆ token คุณจะเสียเงินไปกับงานประจำวัน เช่น การอ่านบริบทหรือการจัดรูปแบบข้อความ กลยุทธ์ advisor จะแยกเส้นทางเหล่านี้ออกจากกัน คุณใช้ executor ราคาถูกสำหรับงานส่วนใหญ่ และใช้ advisor ราคาแพงเฉพาะในจุดตัดสินใจที่สำคัญเท่านั้น

หากคุณกำลังสร้าง agent โปรดระวังความท้าทายทางวิศวกรรมสามประการนี้:

รูปแบบนี้เป็นเรื่องจริงเพราะมันมีประสิทธิภาพ เลิกจ่ายค่า token ในราคา frontier-model สำหรับงานที่ไม่จำเป็นต้องใช้มันได้แล้ว

Source: https://dev.to/harrisonsec/agent-architecture-is-a-compute-allocation-problem-the-advisor-strategy-cost-curve-frame-recursed-d34

Optional learning community: https://t.me/GyaanSetuAi