ทีมของคุณไม่ต้องการโมเดล AI ที่ดีกว่าเดิมในสัปดาห์นี้
เลิกมองหาโมเดล AI ใหม่ๆ ได้แล้ว สิ่งที่คุณต้องอัปเกรดจริงๆ คือเวิร์กโฟลว์ (workflow) ของคุณ
ทีมส่วนใหญ่มักจะโฟกัสว่าโมเดลไหนดูฉลาดกว่ากัน พวกเขาทำเบนช์มาร์ก (benchmark) รุ่นใหม่ๆ และถกเถียงกันเรื่องความฉลาด แต่ถ้าคุณสร้างระบบด้วย LLMs คุณจะรู้ว่าปัญหาที่แท้จริงคืออะไร ปัญหาไม่ใช่โค้ดที่ไม่ดี แต่ปัญหาคือการดำเนินการ (execution) ที่ไม่ดีต่างหาก
คุณจะพบปัญหาเหล่านี้:
- ลูปของ Agent ที่หยุดทำงานกลางคันในขณะที่กำลังทำภารกิจ
- คำสั่งขออนุมัติ (approval prompts) ที่ทำให้คนสับสน
- สายโซ่ของบริบท (context chains) ที่ขาดตอนระหว่างการลองใหม่ (retries)
- มนุษย์ต้องมาตามแก้ปัญหาเพราะระบบอัตโนมัติสูญเสียสถานะ (state) ของมันไป
ความฉลาดกำลังเพิ่มขึ้น แต่การควบคุมการดำเนินงาน (operational control) กลับตามไม่ทัน เรากำลังเข้าสู่ยุคของ "ภาษีการประสานงาน" (orchestration tax) หากคุณไม่วางแผนรับมือ คุณจะต้องจ่ายบทเรียนด้วยระบบล่มและการล้มเหลวที่ตรวจจับไม่ได้ (silent failures)
ผลลัพธ์จาก AI แทบจะไม่ใช่ผลิตภัณฑ์ขั้นสุดท้าย แต่มันคือขั้นตอนกลางในระบบที่ใหญ่กว่า คุณต้องตอบคำถามเหล่านี้ให้ได้:
- งานสามารถทำต่อได้ไหมหลังจากหมดเวลา (timeout)?
- เราสามารถตรวจสอบ (audit) ทุกการอนุมัติได้หรือไม่?
- เราสามารถรันขั้นตอนซ้ำได้โดยไม่เกิดการกระทำที่ซ้ำซ้อนหรือไม่?
- มนุษย์สามารถเข้ามาควบคุมแทนได้ในระหว่างที่ระบบกำลังทำงานอยู่หรือไม่?
วิศวกรอาวุโสแก้ปัญหาเหล่านี้มานานหลายปีแล้วในระบบการชำระเงินและงานเบื้องหลัง (background jobs) เราใช้ idempotency keys, checkpoints และ transaction logs AI ไม่ได้สร้างปัญหาเหล่านี้ขึ้นมาใหม่ แต่มันแค่ทำให้ปัญหาเหล่านี้เกิดขึ้นเร็วขึ้นเท่านั้น
อย่าเพิ่งเลือกโมเดลก่อนที่คุณจะเลือกสัญญาการดำเนินการ (execution contract) นั่นเหมือนกับการเลือกเครื่องยนต์รถแข่งให้กับรถที่ไม่มีเบรก
สร้างเวิร์กโฟลว์ที่เชื่อถือได้ด้วยขั้นตอนเหล่านี้:
แบ่งงาน AI ออกเป็นขั้นตอนย่อยๆ อย่าใช้พรอมต์ (prompt) ขนาดใหญ่เพียงอันเดียว ให้แบ่งย่อยออกมา: รวบรวมบริบท, เสนอการเปลี่ยนแปลง, รันการตรวจสอบ, ขออนุมัติ และดำเนินการเปลี่ยนแปลง
ใช้การจัดเก็บข้อมูลที่คงทน (durable storage) ใช้ฐานข้อมูลเพื่อติดตามสถานะ, ขั้นตอน และจำนวนครั้งที่พยายาม หากตัวทำงาน (worker) ค้าง คุณจะสามารถกู้คืนจากสถานะ (state) ไม่ใช่จากหน่วยความจำ (memory)
บังคับใช้ idempotency ทุกการกระทำที่เปลี่ยนแปลงข้อมูลจำเป็นต้องมีคีย์ที่คงที่ หากขั้นตอนหนึ่งถูกรันสองครั้ง ผลลัพธ์จะต้องยังคงเดิม
จัดการสิทธิ์ด้วยการแบ่งระดับ (tiers) เลิกขออนุมัติอยู่ตลอดเวลา ให้สร้างระดับขึ้นมา:
- ระดับ 0: งานอ่านอย่างเดียว (อนุมัติอัตโนมัติ)
- ระดับ 1: การเขียนที่มีความเสี่ยงต่ำ (อนุมัติแบบเป็นชุด)
- ระดับ 2: งานที่มีผลกระทบสูง (ต้องมีมนุษย์ตรวจสอบ)
- ติดตามตัวชี้วัดการดำเนินงาน (operational metrics) เลิกดูแค่ค่าความหน่วง (latency) และต้นทุน แต่ให้ติดตามอัตราการหมดเวลา (timeout rates), ความสำเร็จในการลองใหม่ (retry success) และความถี่ในการย้อนกลับ (rollback frequency)
ทีม AI ที่เก่งที่สุดจะไม่โอ้อวดเรื่องพรอมต์วิเศษ แต่พวกเขาจะรันไปป์ไลน์ (pipelines) ที่น่าเบื่อ คงทน และตรวจสอบได้ จุดแข็งของพวกเขาไม่ใช่โมเดล แต่คือวิศวกรรมระบบที่มีระเบียบวินัย
Source: https://dev.to/chrisbuildsonline/your-team-doesnt-need-a-better-ai-model-this-week-29l4
Optional learning community: https://t.me/GyaanSetuAi
