SkillOpt của Microsoft giúp tăng cường hiệu suất GPT-5.5 thông qua tối ưu hóa Markdown
Microsoft và các nhà nghiên cứu từ ba trường đại học Trung Quốc đã công bố SkillOpt, một phương pháp đột phá coi các tệp Markdown hướng dẫn là các tham số có thể huấn luyện. Bằng cách tối ưu hóa các tài liệu "kỹ năng" này, các nhà nghiên cứu đã đạt được mức tăng hiệu suất khổng lồ lên tới 23 điểm cho GPT-5.5 trong các tác vụ quy trình.
Coi văn bản là các trọng số có thể huấn luyện
Trong bối cảnh AI hiện nay, "kỹ năng" (skills)—các hướng dẫn mô-đun giúp dẫn dắt các tác nhân (agents) thực hiện các quy trình cụ thể, quy tắc sử dụng công cụ và định dạng đầu ra—đang trở thành tiêu chuẩn ngành. Trong khi các công ty như Anthropic sử dụng chúng để tăng cường Claude, các tài liệu này theo truyền thống thường được viết bởi con người hoặc được tạo ra trong một lần chạy duy nhất bởi một LLM. Cả hai phương pháp này đều không hoạt động như một bộ tối ưu hóa (optimizer) thực thụ.
SkillOpt thay đổi mô hình này bằng cách coi một tệp Markdown là một trạng thái có thể huấn luyện bên ngoài cho một mô hình mục tiêu đã được đóng băng (frozen). Thay vì cập nhật trọng số của mô hình, một mô hình ngôn ngữ "bộ tối ưu hóa" thứ hai sẽ phân tích nhật ký thực thi để xác định các lỗi và thành công lặp đi lặp lại. Bộ tối ưu hóa này đề xuất các chỉnh sửa chính xác—thêm, xóa hoặc thay thế các đoạn văn cụ thể—trong một tài liệu Markdown. Quan trọng là, những thay đổi này chỉ được chấp nhận nếu chúng mang lại những cải thiện có thể đo lường được trên một tập kiểm định (validation set) độc lập.
Áp dụng các khái niệm Deep Learning vào văn xuôi
Sự tài tình của SkillOpt nằm ở cách nó ánh xạ các cơ chế deep learning truyền thống vào việc tối ưu hóa ở cấp độ văn bản. Các nhà nghiên cứu đã triển khai một số cơ chế kiểm soát tinh vi để đảm bảo tính ổn định:
- Learning Rate và Schedulers: Tỷ lệ học (learning rate) giới hạn số lượng chỉnh sửa được phép trong mỗi bước, trong khi bộ lập lịch (scheduler) thu nhỏ kích thước chỉnh sửa qua các epoch huấn luyện để ngăn chặn sự biến động.
- Negative Feedback Buffers: Các chỉnh sửa bị từ chối được lưu trữ trong một bộ đệm, đóng vai trò là các ví dụ tiêu cực giúp ngăn bộ tối ưu hóa lặp lại cùng một sai lầm.
- Gradient Smoothing: Một cơ chế "cập nhật chậm" ở cuối mỗi epoch giúp duy trì các hướng chỉnh sửa ổn định, mô phỏng cách làm mượt gradient (gradient smoothing) giúp ổn định quá trình huấn luyện mạng thần kinh truyền thống.
Sự tách biệt các mối quan tâm này có nghĩa là các công việc nặng nhọc nhất diễn ra trong quá trình huấn luyện. Tại thời điểm suy luận (inference time), mô hình mục tiêu vẫn duy trì sự nhẹ nhàng, chỉ đơn giản là nhận một tệp Markdown nhỏ gọn từ 300 đến 2.000 tokens làm ngữ cảnh.
Sự thống trị trên các điểm chuẩn và khả năng chuyển đổi giữa các mô hình
Các kết quả thực nghiệm rất đáng kể. Thử nghiệm trên sáu bộ tiêu chuẩn (benchmarks) — bao gồm tìm kiếm, toán học, bảng tính và hành động hiện thân (embodied action) — SkillOpt liên tục vượt trội hơn các kỹ năng được viết tay và các phương pháp chuyên dụng như TextGrad và EvoSkill. Trên GPT-5.5 trong chế độ chat trực tiếp, phương pháp này đã mang lại mức tăng hiệu suất trung bình khoảng 23 điểm.
Một trong những phát hiện có sức ảnh hưởng nhất là khả năng chuyển đổi (transferability) của phương pháp này. Một kỹ năng được tối ưu hóa cho một mô hình lớn như GPT-5.5 có thể được áp dụng cho các mô hình nhỏ hơn nhiều, chẳng hạn như Qwen3.5-4B, giúp cung cấp cho chúng kiến thức quy trình (procedural knowledge) mà chúng còn thiếu trong các trọng số gốc (native weights). Hơn nữa, các kỹ năng không phụ thuộc vào môi trường; một kỹ năng bảng tính được huấn luyện trong vòng lặp Codex có thể hoạt động mượt mà trong Claude Code mà không cần huấn luyện lại.
Ví dụ, trong các tác vụ bảng tính, kỹ năng được tối ưu hóa sẽ học cách kiểm tra cấu trúc bảng tính trước và ghi trực tiếp các giá trị đã được tính toán thay vì dựa vào các công thức. Trong các tác vụ AI hiện thân như ALFWorld, kỹ năng này học cách duy trì nhật ký các vị trí đã đi qua để đảm bảo các mục tiêu được hoàn thành theo đúng thứ tự.
Những điểm chính cần lưu ý
- Tối ưu hóa dựa trên văn bản: SkillOpt coi các tệp hướng dẫn Markdown là các trạng thái có thể huấn luyện, sử dụng một LLM thứ hai để tối ưu hóa chúng tương tự như các trọng số mô hình.
- Cải thiện hiệu suất mạnh mẽ: Phương pháp này đã giúp tăng hiệu suất của GPT-5.5 trung bình 23 điểm trên các bộ tiêu chuẩn quy trình, đặc biệt xuất sắc trong các tác vụ sử dụng công cụ và định dạng nghiêm ngặt.
- Hiệu quả và có khả năng chuyển đổi: Các kỹ năng được tối ưu hóa rất gọn nhẹ (dưới 2.000 token) và có thể được chuyển từ các mô hình lớn sang các mô hình nhỏ hơn hoặc giữa các môi trường tác nhân (agent) khác nhau.