ผมวางระบบ AI Fallback Runbook หลังจากระบบล่มนาน 19 วัน
โมเดลหลักของคุณใช้งานไม่ได้นาน 19 วัน ในชั่วโมงแรกเวิร์กโฟลว์ของคุณจะทำอย่างไร?
มันจะล้มเหลว? มันจะหยุดชะงัก? หรือมันจะเปลี่ยนเส้นทางไปยังตัวสำรองและทำงานต่อไป?
หากคุณตอบคำถามนี้ไม่ได้ แสดงว่าคุณไม่มีแผนรับมือเพื่อความยืดหยุ่น (resilience plan) คุณแค่กำลังพึ่งดวง และดวงมักจะหมดลงในเวลาที่คุณต้องการมันมากที่สุด
Fable 5 ออฟไลน์ไป 19 วันเนื่องจากมาตรการควบคุมการส่งออก หลังจากระบบกลับมาใช้งานได้ ผมได้กลับมาตรวจสอบการตั้งค่าของตัวเอง และพบช่องโหว่ ผมจึงเขียน runbook ขึ้นมาเพื่อแก้ไขมัน
อย่ารอให้เกิดเหตุการณ์ระบบล่มครั้งต่อไปถึงค่อยเขียนสิ่งนี้ จงใช้ 3 ส่วนนี้เพื่อสร้างเกราะป้องกันของคุณ
- สร้างนโยบายการกำหนดเส้นทาง (routing policy)
การพูดว่า "เราใช้ Claude" ไม่ใช่นโยบาย แต่มันคือค่าเริ่มต้น
นโยบายที่แท้จริงคือแผนที่ มันจะตัดสินใจว่างานไหนควรส่งไปที่โมเดลใด งานปริมาณมาก (bulk tasks) ให้ส่งไปที่โมเดลราคาถูก งานเอเจนต์ที่ซับซ้อน (complex agent tasks) ให้ส่งไปที่โมเดลที่มีความสามารถในการใช้เหตุผลสูง (high-reasoning models)
ย้ายแผนที่นี้จากในหัวของคุณมาไว้ในไฟล์ โดยใช้โครงสร้าง YAML ดังนี้:
- bulk_classify: primary is Haiku, fallback is Gemini Flash
- long_agent_run: primary is Opus, fallback is Sonnet
- code_review: primary is Sonnet, fallback is GPT
เมื่อโมเดลหลักหายไป ตัว router จะรู้ทันทีว่าต้องส่งงานไปที่ไหน โดยที่ไม่มีใครต้องมานั่งแก้ปัญหาเฉพาะหน้าตอนตี 2
- สำรองทรัพยากรของคุณไว้ (Bank your reserves)
เวิร์กโฟลว์บางอย่างหยุดไม่ได้ สำหรับงานเหล่านี้ คุณต้องมีการสำรองไว้
Plan-banking หมายถึงการสร้างผลลัพธ์ (outputs) ไว้ล่วงหน้าในขณะที่โมเดลยังใช้งานได้และมีราคาถูก แล้วเก็บผลลัพธ์เหล่านี้ไว้ใช้ในช่วงที่ระบบขัดข้อง (blackout)
ให้คิดซะว่าเหมือนกับการถนอมอาหารในฤดูร้อนเพื่อเก็บไว้กินในช่วงพายุฤดูหนาว
อย่าสำรองทุกอย่าง เพราะมันจะสิ้นเปลืองพื้นที่จัดเก็บ ให้สำรองเฉพาะ 2 หรือ 3 เวิร์กโฟลว์ที่สำคัญจริงๆ ซึ่งหากหยุดชะงักจะส่งผลเสียต่อธุรกิจของคุณเท่านั้น
- ทำการทดสอบ canary รายสัปดาห์
โมเดลสำรองที่คุณไม่เคยทดสอบเลยก็เป็นแค่การคาดเดา คุณต้องพิสูจน์ให้ได้ว่าตัวสำรองใช้งานได้จริงก่อนที่ระบบจะล่ม
ตั้งการทดสอบรายสัปดาห์ขึ้นมา ลองรัน prompt ที่สำคัญกับโมเดลสำรองของคุณ หากอัตราการผ่าน (pass rate) ต่ำกว่าเกณฑ์ที่กำหนด ให้ส่งการแจ้งเตือนทันที
คุณควรจะพบข้อผิดพลาดในวันพฤหัสบดีที่เงียบสงบ ไม่ใช่ในช่วงที่ระบบปิดตัวลงนาน 19 วัน
ความเสี่ยงนั้นมีอยู่จริง กฎระเบียบของรัฐบาลสามารถเพิกถอนใบอนุญาตได้ทุกเมื่อ คุณไม่สามารถคาดเดาได้ว่าโมเดลไหนจะถูกจำกัดการใช้งานเป็นรายต่อไป สิ่งที่คุณทำได้คือการกระจายความเสี่ยงโดยการใช้ผู้ให้บริการมากกว่าหนึ่งราย
ขั้นตอนเหล่านี้มีต้นทุนต่ำในวันที่สถานการณ์ปกติ แต่จะเป็นเรื่องที่เป็นไปไม่ได้เลยหากคุณต้องทำท่ามกลางความตื่นตระหนก
ในสามข้อนี้ มีข้อไหนที่คุณเขียนบันทึกไว้แล้วบ้างในวันนี้? ไม่ใช่แค่ "เราน่าจะทำได้" แต่ผมหมายถึง "เขียนไว้แล้วจริงๆ ในตอนนี้"
แผนที่การกำหนดเส้นทาง (routing map) ของผมพร้อมอยู่แล้ว แต่การทดสอบ canary จากแหล่งที่สองของผมเพิ่งจะมีขึ้นเมื่อสัปดาห์ที่แล้วนี่เอง
Optional learning community: https://t.me/GyaanSetuAi
