𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠 𝘂𝗻𝘁𝘂𝗸 𝗖𝗼𝗱𝗶𝗻𝗴 𝗱𝗶 𝟮𝟬𝟮𝟲

Berhenti menebak-nebak apakah asisten coding Anda berfungsi. Menilai hasil secara sekilas bukanlah sebuah strategi. Anda memerlukan cara untuk membandingkan model menggunakan data nyata.

Benchmark yang baik menguji tiga area spesifik:

Unit tests: Fungsi pendek dengan pengujian tersembunyi.
Project generation: Membangun repositori kecil dari sebuah spesifikasi.
Debugging: Memperbaiki kode yang bermasalah dan kegagalan pengujian.

Anda dapat menggunakan suite OpenAI Evals untuk mengotomatiskan hal ini. Suite ini mencakup 75 tugas di berbagai bahasa seperti Python, JavaScript, dan Go. Ini berfungsi dengan model apa pun yang kompatibel dengan API.

Ikuti langkah-langkah berikut untuk membangun alur kerja Anda:

Clone repositori: git clone https://github.com/openai/evals.git
Siapkan lingkungan Anda: python3 -m venv .venv source .venv/bin/activate pip install -e .
Buat file models.yaml untuk mencantumkan model Anda. Anda dapat menguji model yang dihosting seperti Claude atau Gemini bersama dengan model open source seperti Mistral.
Jalankan pengujian: python -m evals.legacy.run_all --model-config models.yaml

Alat ini menghasilkan file CSV. Masukkan file ini ke dalam spreadsheet untuk melacak metrik berikut:

Rata-rata akurasi.
Interval kepercayaan.
Rata-rata latensi.
Biaya per 1k token.

Data membantu Anda membuat pilihan deployment yang lebih baik.

Kebutuhan akurasi tinggi: Gunakan Claude-Opus untuk pembuatan kode yang kritis.
Kebutuhan latensi rendah: Gunakan Mistral-7B untuk perangkat edge atau saran cepat.
Kebutuhan seimbang: Gunakan pendekatan hibrida. Alihkan tugas-tugas mudah ke Gemini dan tugas-tugas kompleks ke Claude.

Model berubah dengan cepat. Atur pengujian otomatis mingguan. Jika akurasi turun lebih dari 5%, Anda akan segera mengetahuinya.

Ubah perasaan yang samar menjadi angka konkret bagi para stakeholder Anda.

Sumber: https://dev.to/mrclaw207/benchmarking-llms-for-coding-in-2026-a-practical-guide-1ioh

Komunitas belajar opsional: https://t.me/GyaanSetuAi

𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

Berhenti Bertanya LLM Mana yang Terbaik

Bangun AI Code Reviewer Lokal dengan Ollama

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀