MLOps สำหรับ LLM: กรณีศึกษาของ Dresscode
การเปลี่ยนจาก Proof of Concept ไปสู่ผลิตภัณฑ์จริงนั้นเป็นเรื่องยาก
ผมได้สร้าง Dresscode ซึ่งเป็น AI Stylist โดยใช้ Gemma 4 ในการเปลี่ยนตู้เสื้อผ้าให้เป็นรูปแบบดิจิทัล และแนะนำชุดแต่งกายตามสภาพอากาศแบบเรียลไทม์
ไอเดียที่ยอดเยี่ยมต้องการมากกว่าแค่โมเดล แต่มันต้องการ MLOps
MLOps ช่วยให้ AI ของคุณมีความแม่นยำ เชื่อถือได้ และมีค่าใช้จ่ายในการรันที่ต่ำ นี่คือ Pipeline 7 ขั้นตอนที่ผมใช้ในการ Scale AI
การนำเข้าและวิศวกรรมข้อมูล (Data Ingestion and Engineering) ข้อมูลดิบนั้นมีความยุ่งเหยิง สำหรับ Dresscode ผู้ใช้จะอัปโหลดรูปภาพความละเอียดสูง • Ingestion: เราย้ายรูปภาพไปยัง Cloud Storage ผ่าน API • Engineering: เราบีบอัดรูปภาพจากสมาร์ทโฟนขนาด 12MB เพื่อประหยัดค่าใช้จ่ายและเพิ่มความเร็วในการประมวลผล นอกจากนี้เรายังลบ Metadata ออกเพื่อความเป็นส่วนตัว • Text Cleaning: เราทำความสะอาดข้อมูลจาก Weather API เพื่อให้ Prompt สั้นและมีประสิทธิภาพ
Feature Store Feature คือรายละเอียดเฉพาะเจาะจงที่ AI ใช้ในการตัดสินใจ • สำหรับรูปภาพ: เราจัดเก็บ Mathematical Embeddings (เวกเตอร์) ซึ่งช่วยป้องกันไม่ให้เราต้องประมวลผลรูปภาพเดิมซ้ำสองครั้ง • สำหรับสภาพอากาศ: เราแปลงข้อมูลดิบให้เป็นหมวดหมู่ เช่น "หนาว" หรือ "ฝนตก" • ประโยชน์: Feature Store ช่วยให้คุณดึงรายละเอียดเหล่านี้มาใช้ได้ทันที แทนที่จะต้องคำนวณใหม่ทุกครั้ง
การฝึกฝนโมเดลและการทดลอง (Model Training and Experimentation) เราไม่ได้ฝึก Gemma 4 ตั้งแต่เริ่มต้น แต่เรามุ่งเน้นไปที่ Prompt Engineering และการประเมินผล • Experimentation: เราทดสอบ System Prompt รูปแบบต่างๆ เพื่อให้แน่ใจว่า AI จะส่งผลลัพธ์ออกมาเป็น JSON ที่สะอาด • CI (Continuous Integration): เราใช้ "Golden Dataset" ซึ่งเป็นรูปภาพ 100 รูป ทุกครั้งที่เราเปลี่ยน Prompt ระบบจะตรวจสอบว่าความแม่นยำยังคงสูงกว่า 95% หรือไม่
Model Registry ให้คิดว่านี่คือ App Store สำหรับโมเดลของคุณ • เราจัดเก็บ Prompt และการตั้งค่าโมเดล (Model Configurations) แบบแบ่งเวอร์ชัน • หาก Prompt ใหม่ทำให้ AI แนะนำให้ใส่เสื้อโค้ทในฤดูร้อน เราสามารถคลิก "Rollback" เพื่อกลับไปยังเวอร์ชันที่เสถียรได้ทันที
การปรับใช้และการให้บริการอย่างต่อเนื่อง (Continuous Deployment and Serving) นี่คือวิธีที่คุณนำโมเดลไปถึงมือผู้ใช้ • Visual Tasks: เราใช้ Asynchronous Queues ผู้ใช้จะอัปโหลดรูปภาพ และเราจะประมวลผลในเบื้องหลังเพื่อให้แอปยังคงทำงานได้อย่างรวดเร็ว • Text Tasks: เราใช้ Token Streaming ซึ่งจะแสดงคำแนะนำการแต่งกายทีละคำ เพื่อไม่ให้ผู้ใช้ต้องจ้องมองหน้าจอโหลดค้างไว้
การตรวจสอบอย่างต่อเนื่อง (Continuous Monitoring) AI สามารถเสื่อมประสิทธิภาพลงได้เมื่อเวลาผ่านไป เราจึงตรวจสอบ 3 สิ่งนี้: • System Performance: ค่า Latency เพิ่มขึ้นหรือไม่? • Data Drift: ผู้ใช้กำลังอัปโหลดรูปแบบรูปภาพใหม่ๆ ที่เราไม่ได้คาดคิดไว้หรือไม่? • Model Accuracy: AI เริ่มเกิดอาการ Hallucinate โดยแนะนำสิ่งของที่ผู้ใช้ไม่ได้เป็นเจ้าของหรือไม่?
วงจรการตอบกลับ (The Feedback Loop) ระบบต้องเรียนรู้จากความผิดพลาด เราจะเก็บข้อมูลการแก้ไขของผู้ใช้และป้อนข้อมูลนั้นกลับไปยังขั้นตอนแรกเพื่อนำไปฝึกฝนใหม่และปรับปรุงโมเดลให้ดีขึ้น
MLOps เปลี่ยน Demo ที่ดูเจ๋ง ให้กลายเป็นเครื่องมือระดับมืออาชีพ
Source: https://dev.to/saad4software/mlops-for-llm-a-case-study-on-dresscode-3joj
Optional learning community: https://t.me/GyaanSetuAi
