𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

Đừng đoán mò xem trợ lý lập trình của bạn có hoạt động hiệu quả hay không. Việc chỉ nhìn lướt qua kết quả không phải là một chiến lược. Bạn cần một phương pháp để so sánh các mô hình bằng dữ liệu thực tế.

Một bài đánh giá hiệu năng tốt sẽ kiểm tra ba lĩnh vực cụ thể:

Unit tests: Các hàm ngắn với các bài kiểm tra ẩn.
Project generation: Xây dựng một kho lưu trữ (repo) nhỏ từ một bản đặc tả.
Debugging: Sửa mã lỗi và các lỗi kiểm thử.

Bạn có thể sử dụng bộ công cụ OpenAI Evals để tự động hóa việc này. Nó bao gồm 75 tác vụ trên các ngôn ngữ Python, JavaScript và Go. Công cụ này hoạt động với bất kỳ mô hình nào tương thích với API.

Hãy làm theo các bước sau để xây dựng quy trình làm việc của bạn:

Clone kho lưu trữ: git clone https://github.com/openai/evals.git
Thiết lập môi trường: python3 -m venv .venv source .venv/bin/activate pip install -e .
Tạo tệp models.yaml để liệt kê các mô hình của bạn. Bạn có thể kiểm tra các mô hình được lưu trữ (hosted models) như Claude hoặc Gemini cùng với các mô hình mã nguồn mở như Mistral.
Chạy các bài kiểm tra: python -m evals.legacy.run_all --model-config models.yaml

Công cụ này sẽ tạo ra một tệp CSV. Hãy tải tệp này vào một bảng tính để theo dõi các chỉ số sau:

Độ chính xác trung bình.
Khoảng tin cậy.
Độ trễ trung bình.
Chi phí trên mỗi 1k token.

Dữ liệu giúp bạn đưa ra các lựa chọn triển khai tốt hơn.

Nhu cầu độ chính xác cao: Sử dụng Claude-Opus để tạo mã nguồn quan trọng.
Nhu cầu độ trễ thấp: Sử dụng Mistral-7B cho các thiết bị cạnh (edge devices) hoặc các gợi ý nhanh.
Nhu cầu cân bằng: Sử dụng phương pháp tiếp cận hỗn hợp. Chuyển các tác vụ dễ cho Gemini và các tác vụ phức tạp cho Claude.

Các mô hình thay đổi rất nhanh. Hãy thiết lập một quy trình chạy tự động hàng tuần. Nếu độ chính xác giảm hơn 5%, bạn sẽ biết ngay lập tức.

Hãy biến những cảm nhận mơ hồ thành những con số cụ thể cho các bên liên quan (stakeholders).

Source: https://dev.to/mrclaw207/benchmarking-llms-for-coding-in-2026-a-practical-guide-1ioh

Optional learning community: https://t.me/GyaanSetuAi

𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

Xây dựng công cụ Review Code AI cục bộ với Ollama

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀