ผมวางระบบ AI Fallback Runbook หลังจากระบบล่มนาน 19 วัน

โมเดลหลักของคุณใช้งานไม่ได้นาน 19 วัน ในชั่วโมงแรกเวิร์กโฟลว์ของคุณจะทำอย่างไร?

มันจะล้มเหลว? มันจะหยุดชะงัก? หรือมันจะเปลี่ยนเส้นทางไปยังตัวสำรองและทำงานต่อไป?

หากคุณตอบคำถามนี้ไม่ได้ แสดงว่าคุณไม่มีแผนรับมือเพื่อความยืดหยุ่น (resilience plan) คุณแค่กำลังพึ่งดวง และดวงมักจะหมดลงในเวลาที่คุณต้องการมันมากที่สุด

Fable 5 ออฟไลน์ไป 19 วันเนื่องจากมาตรการควบคุมการส่งออก หลังจากระบบกลับมาใช้งานได้ ผมได้กลับมาตรวจสอบการตั้งค่าของตัวเอง และพบช่องโหว่ ผมจึงเขียน runbook ขึ้นมาเพื่อแก้ไขมัน

อย่ารอให้เกิดเหตุการณ์ระบบล่มครั้งต่อไปถึงค่อยเขียนสิ่งนี้ จงใช้ 3 ส่วนนี้เพื่อสร้างเกราะป้องกันของคุณ

  1. สร้างนโยบายการกำหนดเส้นทาง (routing policy)

การพูดว่า "เราใช้ Claude" ไม่ใช่นโยบาย แต่มันคือค่าเริ่มต้น

นโยบายที่แท้จริงคือแผนที่ มันจะตัดสินใจว่างานไหนควรส่งไปที่โมเดลใด งานปริมาณมาก (bulk tasks) ให้ส่งไปที่โมเดลราคาถูก งานเอเจนต์ที่ซับซ้อน (complex agent tasks) ให้ส่งไปที่โมเดลที่มีความสามารถในการใช้เหตุผลสูง (high-reasoning models)

ย้ายแผนที่นี้จากในหัวของคุณมาไว้ในไฟล์ โดยใช้โครงสร้าง YAML ดังนี้:

  • bulk_classify: primary is Haiku, fallback is Gemini Flash
  • long_agent_run: primary is Opus, fallback is Sonnet
  • code_review: primary is Sonnet, fallback is GPT

เมื่อโมเดลหลักหายไป ตัว router จะรู้ทันทีว่าต้องส่งงานไปที่ไหน โดยที่ไม่มีใครต้องมานั่งแก้ปัญหาเฉพาะหน้าตอนตี 2

  1. สำรองทรัพยากรของคุณไว้ (Bank your reserves)

เวิร์กโฟลว์บางอย่างหยุดไม่ได้ สำหรับงานเหล่านี้ คุณต้องมีการสำรองไว้

Plan-banking หมายถึงการสร้างผลลัพธ์ (outputs) ไว้ล่วงหน้าในขณะที่โมเดลยังใช้งานได้และมีราคาถูก แล้วเก็บผลลัพธ์เหล่านี้ไว้ใช้ในช่วงที่ระบบขัดข้อง (blackout)

ให้คิดซะว่าเหมือนกับการถนอมอาหารในฤดูร้อนเพื่อเก็บไว้กินในช่วงพายุฤดูหนาว

อย่าสำรองทุกอย่าง เพราะมันจะสิ้นเปลืองพื้นที่จัดเก็บ ให้สำรองเฉพาะ 2 หรือ 3 เวิร์กโฟลว์ที่สำคัญจริงๆ ซึ่งหากหยุดชะงักจะส่งผลเสียต่อธุรกิจของคุณเท่านั้น

  1. ทำการทดสอบ canary รายสัปดาห์

โมเดลสำรองที่คุณไม่เคยทดสอบเลยก็เป็นแค่การคาดเดา คุณต้องพิสูจน์ให้ได้ว่าตัวสำรองใช้งานได้จริงก่อนที่ระบบจะล่ม

ตั้งการทดสอบรายสัปดาห์ขึ้นมา ลองรัน prompt ที่สำคัญกับโมเดลสำรองของคุณ หากอัตราการผ่าน (pass rate) ต่ำกว่าเกณฑ์ที่กำหนด ให้ส่งการแจ้งเตือนทันที

คุณควรจะพบข้อผิดพลาดในวันพฤหัสบดีที่เงียบสงบ ไม่ใช่ในช่วงที่ระบบปิดตัวลงนาน 19 วัน

ความเสี่ยงนั้นมีอยู่จริง กฎระเบียบของรัฐบาลสามารถเพิกถอนใบอนุญาตได้ทุกเมื่อ คุณไม่สามารถคาดเดาได้ว่าโมเดลไหนจะถูกจำกัดการใช้งานเป็นรายต่อไป สิ่งที่คุณทำได้คือการกระจายความเสี่ยงโดยการใช้ผู้ให้บริการมากกว่าหนึ่งราย

ขั้นตอนเหล่านี้มีต้นทุนต่ำในวันที่สถานการณ์ปกติ แต่จะเป็นเรื่องที่เป็นไปไม่ได้เลยหากคุณต้องทำท่ามกลางความตื่นตระหนก

ในสามข้อนี้ มีข้อไหนที่คุณเขียนบันทึกไว้แล้วบ้างในวันนี้? ไม่ใช่แค่ "เราน่าจะทำได้" แต่ผมหมายถึง "เขียนไว้แล้วจริงๆ ในตอนนี้"

แผนที่การกำหนดเส้นทาง (routing map) ของผมพร้อมอยู่แล้ว แต่การทดสอบ canary จากแหล่งที่สองของผมเพิ่งจะมีขึ้นเมื่อสัปดาห์ที่แล้วนี่เอง

Source: https://dev.to/itskondrat/i-wired-an-ai-fallback-runbook-after-a-19-day-outage-heres-all-3-parts-579d

Optional learning community: https://t.me/GyaanSetuAi