𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

📅3 hours ago⏱2 min read

In this article

ทำไมเอเจนต์ของคุณถึงเผาผลาญโทเคน

คุณได้ติดตั้ง coding agent ตัวหนึ่ง มันดึงตั๋ว (tickets) และส่ง PR ได้อย่างราบรื่น และทำงานได้ดี

จากนั้น บิลค่าใช้จ่ายก็ส่งมาถึง

เอเจนต์ใช้เงินมากกว่าที่คุณวางแผนไว้ และคุณก็ไม่รู้ว่าเพราะอะไร มันเรียกใช้งานโมเดลถึง 50 ครั้งต่อหนึ่งตั๋ว บางการเรียกใช้งานเป็นการลองใหม่ (retries) ที่ล่าช้า และบางครั้งก็เป็นการอ่านบริบท (context) เดิมซ้ำซ้อน

นี่ไม่ใช่ปัญหาที่ตัวโมเดล แต่เป็นปัญหาที่โครงสร้างพื้นฐาน (infrastructure) ทีมของคุณขาดความสามารถในการมองเห็น (visibility) รายจ่าย และคุณไม่มีวิธีหยุดเอเจนต์ที่ทำงานผิดปกติ (runaway agent) ก่อนที่มันจะเผาผลาญงบประมาณของคุณจนหมด

เอเจนต์ทำงานเป็นลูป (loops) พวกมันอ่านงาน เรียกใช้เครื่องมือ อ่านผลลัพธ์ และทำซ้ำไปเรื่อยๆ แต่ละขั้นตอนมีค่าใช้จ่ายเป็นโทเคน หากเอเจนต์ต้องอ่าน system prompt ซ้ำใหม่ในทุกรอบ ค่าใช้จ่ายจะพุ่งสูงขึ้นอย่างรวดเร็ว บั๊กเพียงเล็กน้อยอาจนำไปสู่การอ่านข้อมูลซ้ำซ้อนเพิ่มขึ้นหลายร้อยครั้ง

คุณเห็นแค่บิล แต่ไม่เห็นการเรียกใช้งาน (calls) ซึ่งนั่นมันสายเกินไปแล้ว

ทีมที่ประสบความสำเร็จจะสร้างระบบควบคุมค่าใช้จ่ายตั้งแต่วันแรก โดยใช้วิธีการเหล่านี้:

กำหนดเพดานงบประมาณรายเดือน
บันทึก (log) ว่าเอเจนต์ตัวไหนและงานใดเป็นตัวกระตุ้นการเรียกใช้งานในแต่ละครั้ง
สามารถตอบได้ว่าทำไมงานหนึ่งถึงมีค่าใช้จ่ายมากกว่าอีกงานหนึ่ง

ในการรันเอเจนต์ในระบบ production คุณจำเป็นต้องมี:

การติดตามรายเอเจนต์ (Per-agent tracking): ทราบค่าใช้จ่ายต่อผู้ใช้และต่อหนึ่งงาน
Virtual keys: แยกทีมออกจากกันเพื่อไม่ให้ผู้พัฒนาเพียงคนเดียวใช้จนหมดงบประมาณ
การควบคุมงบประมาณ (Budget controls): กำหนดขีดจำกัดที่ชัดเจน (hard limits) เอเจนต์ควรแจ้งเตือนคุณหรือหยุดรับงานเมื่อถึงขีดจำกัดที่ตั้งไว้
ความสามารถในการมองเห็นรายจ่าย (Spend visibility): ใช้แดชบอร์ดเพื่อดูแนวโน้มและค่าใช้จ่ายเฉลี่ยต่อหนึ่งงาน
บันทึกรายละเอียด (Detailed logs): ดูการกระจายตัวของประเภทการเรียกใช้งาน

หากคุณพลาดสิ่งเหล่านี้ คุณก็เหมือนทำงานแบบตาบอด

LiteLLM ใช้รูปแบบเฉพาะเพื่อหลีกเลี่ยงปัญหานี้:

การแยกส่วนสมองและแซนด์บ็อกซ์ (Brain and sandbox split): ส่วนการใช้เหตุผล (reasoning) ทำงานในที่หนึ่ง และส่วนการประมวลผล (execution) ทำงานในอีกที่หนึ่ง วิธีนี้จะช่วยหยุดการอ่านข้อมูลซ้ำซ้อนอย่างต่อเนื่อง
อินเทอร์เฟซเครื่องมือที่ชัดเจน (Clear tool interfaces): ใช้การกำหนดโครงสร้าง (structured definitions) แทนการใช้ข้อความยาวๆ
การติดตามผ่านเกตเวย์ (Gateway tracking): ทุกการเรียกใช้งานจะผ่านเกตเวย์ที่มี ID สำหรับเอเจนต์และทีม
การบังคับใช้งบประมาณ (Enforced budgets): เอเจนต์จะตรวจสอบงบประมาณที่เหลืออยู่ก่อนเริ่มงานเสมอ

หากคุณสร้างเอเจนต์โดยไม่มีเครื่องมือเหล่านี้ คุณจะต้องเผชิญกับค่าใช้จ่ายที่พุ่งสูงขึ้นอย่างรวดเร็ว เอเจนต์อาจทำงานได้ดีจนกระทั่งมันไปเจอกับกรณีขอบเขต (edge case) หรือติดลูป ซึ่งเมื่อถึงตอนนั้น เงินของคุณก็หมดไปแล้ว

เริ่มทำตามขั้นตอนเหล่านี้ทันที:

ตรวจสอบ (Audit) บิล API ล่าสุดของคุณ
ติดตั้งระบบติดตาม (Instrument) ทุกการเรียกใช้งานด้วย agent ID และ task ID
กำหนดเพดานงบประมาณตั้งแต่วันนี้
บันทึก (Log) การเรียกใช้เครื่องมือเพื่อหาการลองใหม่ (retries) ที่ล้มเหลว
ตรวจสอบรูปแบบการเรียกใช้งานทุกสัปดาห์

สร้างโครงสร้างพื้นฐานที่แยกเอเจนต์ที่เชื่อถือได้ออกจากความผิดพลาดที่มีราคาแพง

ทำไมเอเจนต์ของคุณถึงเผาผลาญโทเคนอย่างเงียบๆ และวิธีหยุดยั้งพวกมัน

หากคุณเคยสร้างเอเจนต์ที่ขับเคลื่อนด้วย LLM คุณน่าจะเคยพบกับปัญหา "ลูปไม่สิ้นสุด" (infinite loop) คุณมอบหมายงานให้เอเจนต์ มันเริ่มคิด มันดำเนินการ และสังเกตผลลัพธ์ จากนั้น... มันก็ทำซ้ำ

บางครั้งมันก็ทำงานได้อย่างสมบูรณ์แบบ แต่ในบางครั้ง มันกลับติดอยู่ในลูป โดยการคิดหรือดำเนินการแบบเดิมซ้ำแล้วซ้ำเล่า และในขณะที่มันติดอยู่ในลูปนั้น มันไม่ได้แค่เสียเวลาเท่านั้น แต่มันกำลังเผาผลาญเครดิต API ของคุณไปด้วย

ต้นทุนที่ซ่อนอยู่ของ Agentic Loops

เมื่อเราพูดถึงเอเจนต์ เรามักจะหมายถึงรูปแบบ ReAct (Reason + Act) โดยเอเจนต์จะทำตามวงจรดังนี้:

Thought: เอเจนต์ตัดสินใจว่าจะทำอะไรต่อไป
Action: เอเจนต์ดำเนินการบางอย่าง (เช่น ค้นหาเว็บ, เรียกใช้เครื่องมือ)
Observation: เอเจนต์ดูผลลัพธ์จากการดำเนินการ

ปัญหาคือวงจรนี้สามารถกลายเป็นลูปไม่สิ้นสุดได้ หาก "Thought" ของเอเจนต์ไม่นำไปสู่ "Action" ที่ประสบความสำเร็จ หรือ "Observation" ที่ชัดเจนซึ่งช่วยให้เข้าใกล้เป้าหมายมากขึ้น มันอาจจะแค่พยายามทำสิ่งเดิมซ้ำอีกครั้ง

ทำไมสิ่งนี้ถึงเกิดขึ้น?

มีหลายเหตุผลที่ทำให้เอเจนต์ติดลูป:

คำสั่งที่ไม่ชัดเจน (Vague Instructions): พรอมต์ไม่ได้กำหนดไว้อย่างชัดเจนว่างานเสร็จสิ้นเมื่อใด
เครื่องมือทำงานผิดพลาด (Tool Failures): เครื่องมือส่งคืนข้อผิดพลาดหรือผลลัพธ์ที่ไม่คาดคิด ซึ่งเอเจนต์ไม่รู้วิธีจัดการ
การหลอน (Hallucinations): เอเจนต์ "คิด" ว่ามันได้ทำบางอย่างไปแล้วทั้งที่ยังไม่ได้ทำ หรือมันหลอนผลลัพธ์ของเครื่องมือขึ้นมาเอง
ขีดจำกัดของหน้าต่างบริบท (Context Window Limits): เมื่อการสนทนายาวขึ้น เอเจนต์จะเริ่มสูญเสียการติดตามความพยายามครั้งก่อนๆ ของมัน

วิธีหยุดการเผาผลาญโทเคน

1. กำหนดขีดจำกัดจำนวนรอบสูงสุด (Set a Maximum Iteration Limit)

วิธีที่ง่ายที่สุดในการป้องกันลูปไม่สิ้นสุดคือการกำหนดขีดจำกัดที่แน่นอนสำหรับจำนวนรอบที่เอเจนต์สามารถดำเนินการได้

# ตัวอย่างการกำหนดขีดจำกัดจำนวนรอบสูงสุด
agent_executor = AgentExecutor(agent=agent, tools=tools, max_iterations=5)

2. ใช้การตรวจสอบการใช้งานโทเคน (Implement Token Usage Monitoring)

อย่ารอ

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

ทำไมเอเจนต์ของคุณถึงเผาผลาญโทเคนอย่างเงียบๆ และวิธีหยุดยั้งพวกมัน

ต้นทุนที่ซ่อนอยู่ของ Agentic Loops

ทำไมสิ่งนี้ถึงเกิดขึ้น?

วิธีหยุดการเผาผลาญโทเคน

1. กำหนดขีดจำกัดจำนวนรอบสูงสุด (Set a Maximum Iteration Limit)

2. ใช้การตรวจสอบการใช้งานโทเคน (Implement Token Usage Monitoring)

Continue reading

𝗟𝗼𝘄𝗲𝗿 𝗔𝗚𝗘𝗡𝗧 𝗖𝗢𝗠𝗣𝗨𝗧𝗘 𝗖𝗢𝗦𝗧𝗦

𝗕𝗼𝘂𝗻𝗱𝗲𝗱 𝗥𝗲𝘁𝗿𝗶𝗲𝘀 𝗙𝗼𝗿 𝗔𝗴𝗲𝗻𝘁 𝗧𝗼𝗼𝗹 𝗖𝗮𝗹𝗹𝘀

𝗠𝗖𝗣 𝗗𝗶𝗿𝘁𝘆 𝗦𝗲𝗰𝗿𝗲𝘁: 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗜𝘀 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

𝗧𝗵𝗲 𝗠𝗖𝗣 𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗧𝗮𝘅

ต้นทุนของ AI Agent คือสัญญาณแบบ Runtime