6 Lỗi Mà Chỉ Có Mô Hình Trực Tuyến Mới Có Thể Dạy Chúng Ta
Các bài kiểm tra ngoại tuyến là cần thiết. Nhưng chúng là chưa đủ.
Tôi đã xây dựng AgentOps Debugger để theo dõi việc tuân thủ môi trường tại Peru. Nó sử dụng Qwen-plus trên Qwen Cloud để tìm kiếm hồ sơ và viết báo cáo.
Tôi đã thiết kế hệ thống theo hướng ưu tiên ngoại tuyến (offline-first). 315 bài kiểm tra của tôi đã chạy mà không cần bất kỳ lệnh gọi mạng nào. Tất cả các bài kiểm tra đều vượt qua. Nhưng khi tôi chuyển sang mô hình trực tuyến trên Alibaba Cloud, hệ thống đã bị lỗi.
Mã nguồn thì ổn. Vấn đề nằm ở đầu ra của mô hình.
Dưới đây là sáu bài học từ những thất bại thực tế của mô hình:
• Sai lệch nhãn (Label Mismatch) Schema mong đợi "completed" hoặc "failed." Mô hình lại gửi về "success" hoặc "done." Trình phân tích (parser) đã từ chối các câu trả lời hữu ích chỉ vì một từ duy nhất. Cách khắc phục: Sử dụng các bộ tiền xử lý linh hoạt để chuẩn hóa các từ đồng nghĩa.
• Kế hoạch suy thoái (Degenerate Plans) Bộ lập kế hoạch đôi khi không trả về gì cả. Ứng dụng đã cố gắng biến sự im lặng này thành một phản hồi bình thường. Điều này tạo ra các câu trả lời giả mạo. Cách khắc phục: Thêm một bộ thông dịch kế hoạch. Nếu kế hoạch trống, hãy báo cho người dùng biết hệ thống không thể lập kế hoạch thay vì đưa ra thông tin sai lệch.
• Sự trôi dạt Schema (Schema Drift) Mô hình đã thay đổi tên trường từ "documentTitle" thành "title." Nó cũng trộn lẫn các nhãn tiếng Anh và tiếng Tây Ban Nha. Cách khắc phục: Sử dụng ánh xạ bí danh (alias mapping) và cứu vãn các phần hợp lệ. Nếu một trích dẫn bị lỗi, hãy giữ lại bốn trích dẫn còn lại.
• Các tác vụ không khớp (Unpaired Tasks) Mô hình yêu cầu lưu báo cáo trước khi nó kịp soạn thảo báo cáo đó. Logic thì an toàn, nhưng trải nghiệm người dùng đã bị hỏng. Cách khắc phục: Mã nguồn phải phát hiện các bước còn thiếu và tự động chèn chúng vào.
• Lỗi lặp (Loop Errors) Mô hình liên tục đặt cùng một câu hỏi làm rõ ngay cả sau khi người dùng đã trả lời. Cách khắc phục: Chuyển việc giải quyết thực thể (entity resolution) từ mô hình sang mã nguồn. Một khi người dùng đã cung cấp dữ liệu, hệ thống sẽ xử lý phần còn lại một cách xác định (deterministically).
• Sự mơ hồ giả tạo (False Ambiguity) Mô hình khẳng định tên công ty là mơ hồ trong khi thực tế không phải vậy. Điều này đã làm gián đoạn quy trình làm việc. Cách khắc phục: Hãy để mô hình gợi ý về sự mơ hồ, nhưng hãy để dữ liệu quyết định xem sự mơ hồ đó có thật hay không.
Nguyên tắc chính: Hãy để LLM dẫn chuyện, nhưng đừng để nó nắm quyền quyết định các kết quả có cấu trúc.
Mô hình nên xử lý ý định, lập kế hoạch và ngôn ngữ. Mã nguồn phải xử lý việc giải quyết thực thể, dữ liệu biểu đồ và lắp ráp báo cáo.
Một hệ thống trở nên đáng tin cậy khi bạn có thể truy xuất mọi kết luận về một hồ sơ cụ thể. Hãy dùng mô hình để kể chuyện, nhưng hãy dùng mã nguồn của bạn để tìm ra sự thật.
Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5
Optional learning community: https://t.me/GyaanSetuAi
