𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲
Đừng đoán mò xem trợ lý lập trình của bạn có hoạt động hiệu quả hay không. Việc chỉ nhìn lướt qua kết quả không phải là một chiến lược. Bạn cần một phương pháp để so sánh các mô hình bằng dữ liệu thực tế.
Một bài đánh giá hiệu năng tốt sẽ kiểm tra ba lĩnh vực cụ thể:
- Unit tests: Các hàm ngắn với các bài kiểm tra ẩn.
- Project generation: Xây dựng một kho lưu trữ (repo) nhỏ từ một bản đặc tả.
- Debugging: Sửa mã lỗi và các lỗi kiểm thử.
Bạn có thể sử dụng bộ công cụ OpenAI Evals để tự động hóa việc này. Nó bao gồm 75 tác vụ trên các ngôn ngữ Python, JavaScript và Go. Công cụ này hoạt động với bất kỳ mô hình nào tương thích với API.
Hãy làm theo các bước sau để xây dựng quy trình làm việc của bạn:
Clone kho lưu trữ: git clone https://github.com/openai/evals.git
Thiết lập môi trường: python3 -m venv .venv source .venv/bin/activate pip install -e .
Tạo tệp
models.yamlđể liệt kê các mô hình của bạn. Bạn có thể kiểm tra các mô hình được lưu trữ (hosted models) như Claude hoặc Gemini cùng với các mô hình mã nguồn mở như Mistral.Chạy các bài kiểm tra: python -m evals.legacy.run_all --model-config models.yaml
Công cụ này sẽ tạo ra một tệp CSV. Hãy tải tệp này vào một bảng tính để theo dõi các chỉ số sau:
- Độ chính xác trung bình.
- Khoảng tin cậy.
- Độ trễ trung bình.
- Chi phí trên mỗi 1k token.
Dữ liệu giúp bạn đưa ra các lựa chọn triển khai tốt hơn.
- Nhu cầu độ chính xác cao: Sử dụng Claude-Opus để tạo mã nguồn quan trọng.
- Nhu cầu độ trễ thấp: Sử dụng Mistral-7B cho các thiết bị cạnh (edge devices) hoặc các gợi ý nhanh.
- Nhu cầu cân bằng: Sử dụng phương pháp tiếp cận hỗn hợp. Chuyển các tác vụ dễ cho Gemini và các tác vụ phức tạp cho Claude.
Các mô hình thay đổi rất nhanh. Hãy thiết lập một quy trình chạy tự động hàng tuần. Nếu độ chính xác giảm hơn 5%, bạn sẽ biết ngay lập tức.
Hãy biến những cảm nhận mơ hồ thành những con số cụ thể cho các bên liên quan (stakeholders).
Source: https://dev.to/mrclaw207/benchmarking-llms-for-coding-in-2026-a-practical-guide-1ioh
Optional learning community: https://t.me/GyaanSetuAi