สถาปัตยกรรมเอเจนต์คือปัญหาการจัดสรรทรัพยากรคำนวณ
กลุ่มอิสระสามกลุ่มเพิ่งจะมาถึงข้อสรุปเดียวกันในการออกแบบ AI agent
Anthropic ได้เผยแพร่บล็อกโพสต์เกี่ยวกับกลยุทธ์ advisor พวกเขาใช้โมเดลราคาถูกในการรันลูปหลัก และจะเรียกใช้โมเดลราคาแพงก็ต่อเมื่อโมเดลราคาถูกติดขัดเท่านั้น การตั้งค่านี้ที่ BrowseComp ทำความแม่นยำได้ถึง 41.2% โดยใช้ต้นทุนเพียง 15% เมื่อเทียบกับการใช้โมเดลระดับท็อปสำหรับทุกอย่าง
Tobi Lutke จาก Shopify ได้แชร์การตั้งค่าที่คล้ายกันบน X เขาใช้โมเดลในเครื่อง (local model) สำหรับการวิจัย และใช้ frontier model เป็นที่ปรึกษา นักพัฒนาสามารถสร้างเวอร์ชัน open-source ของสิ่งนี้ได้ภายในไม่กี่ชั่วโมง
HazyResearch ได้ตีพิมพ์งานวิจัยเกี่ยวกับโครงสร้างแบบ compressor-predictor โดยโมเดลขนาดเล็กจะทำการกลั่นกรองบริบท (distill context) เพื่อให้โมเดลขนาดใหญ่ใช้ในการคิดวิเคราะห์ ระบบของพวกเขาสามารถรักษาความแม่นยำไว้ได้ถึง 99% โดยใช้ต้นทุนเพียง 26%
การบรรจบกันนี้ไม่ใช่เรื่องบังเอิญ แต่มันเป็นไปตามกฎการออกแบบเฉพาะอย่างหนึ่ง นั่นคือ cost-curve frame
ผมได้นำเสนอแนวคิดนี้ผ่านสามเลเยอร์ในซีรีส์นี้:
- Layer 1 (Retrieval): ทำไม tool-loops ถึงดีกว่า RAG สำหรับงานเขียนโค้ดส่วนใหญ่
- Layer 2 (Storage): ทำไม SQLite ถึงดีกว่า vector databases สำหรับ symbol graphs
- Layer 3 (Orchestration): ทำไมกลยุทธ์ advisor ถึงชนะในการเลือกโมเดล
ตรรกะเดียวกันนี้คือ งานส่วนใหญ่ของ agent ประกอบด้วยการดำเนินการที่มีมูลค่าต่ำจำนวนมาก และการตัดสินใจที่มีมูลค่าสูงเพียงไม่กี่ครั้ง
หากคุณใช้โมเดลราคาแพงสำหรับทุกๆ token คุณจะเสียเงินไปกับงานประจำวัน เช่น การอ่านบริบทหรือการจัดรูปแบบข้อความ กลยุทธ์ advisor จะแยกเส้นทางเหล่านี้ออกจากกัน คุณใช้ executor ราคาถูกสำหรับงานส่วนใหญ่ และใช้ advisor ราคาแพงเฉพาะในจุดตัดสินใจที่สำคัญเท่านั้น
หากคุณกำลังสร้าง agent โปรดระวังความท้าทายทางวิศวกรรมสามประการนี้:
- Data Egress: การส่งบริบทไปยัง advisor ที่อยู่ระยะไกลอาจทำให้ข้อมูลที่ละเอียดอ่อนรั่วไหลได้ ควรใช้เลเยอร์สำหรับการปกปิดข้อมูล (redaction layer)
- Escalation Policy: การตัดสินใจว่าจะเรียก advisor เมื่อใดนั้นเป็นเรื่องยาก หากเรียกเร็วเกินไปจะสิ้นเปลืองเงิน หากเรียกช้าเกินไปจะเสียเวลา
- Handoff Design: advisor ควรให้แผนงานสั้นๆ ไม่ใช่คำตอบที่สมบูรณ์แบบ
รูปแบบนี้เป็นเรื่องจริงเพราะมันมีประสิทธิภาพ เลิกจ่ายค่า token ในราคา frontier-model สำหรับงานที่ไม่จำเป็นต้องใช้มันได้แล้ว
Optional learning community: https://t.me/GyaanSetuAi