Coding Kualitas Frontier dengan Biaya Rendah
Anda dapat memperoleh skor coding kualitas frontier dengan biaya yang jauh lebih murah.
Kami membangun sistem yang menggunakan model lokal murah untuk sebagian besar tugas. Sistem ini hanya mengirimkan masalah sulit ke model frontier. Metode ini berhasil karena strukturnya, bukan hanya karena ukuran modelnya.
Cara kerja arsitekturnya:
- Dua saluran: Saluran kapabilitas (model lokal murah) dan saluran struktur (gerbang verifikasi).
- Verifikasi: Penjaga (guards) memutuskan apakah sebuah jawaban dapat dipercaya.
- Eskalasi: Jika penjaga gagal, sistem memindahkan permintaan ke model frontier.
- Cache: Lapisan cache mencegah penyelesaian ulang untuk pengulangan yang persis sama.
Hasil dari pengujian HumanEval+ kami:
- Skor kaskade penuh: 94,5% ditambah ketepatan (correctness).
- Skor model lokal saja: 84,8% ditambah ketepatan (correctness).
- Saluran struktur menambah sekitar 10 poin akurasi.
Kami menguji pentingnya struktur melalui studi ablasi:
- Sistem penuh: 100% benar.
- Verifikasi dihapus: 75% benar.
- Penjaga dihapus: 50% benar.
Ketepatan turun setengahnya saat Anda menghapus penjaga. Ini membuktikan bahwa struktur inilah yang membawa keandalan.
Keuntungan biaya:
- Biaya campuran: $0,00201 per permintaan.
- Biaya frontier: $0,017 per permintaan.
- Sistem kami sekitar 8x lebih murah daripada menggunakan model frontier untuk setiap permintaan.
- 91% permintaan dilayani oleh model lokal.
Catatan tentang konteks panjang:
Lapisan kompresi kami menggunakan 165 token dibandingkan dengan 28.000 token untuk konteks mentah. Ini adalah peningkatan efisiensi yang masif. Kami mencapai batas infrastruktur pada 208 ribu token, tetapi ini adalah pengaturan, bukan kegagalan model.
Apa yang belum kami buktikan:
Kami belum memiliki angka tolok ukur (benchmark) long-horizon resmi. Kami telah membangun runner untuk RULER dan SWE-bench, tetapi kami belum menjalankannya dalam sandbox yang bersih. Kami belum mengklaim hasil resmi untuk performa long-horizon.
Ringkasan klaim kami:
Sistem kami menyamai skor coding frontier sambil menggunakan model lokal yang murah. Ini mengurangi biaya sebesar 8x. Keandalannya berasal dari saluran struktur kami.
Komunitas belajar opsional: https://t.me/GyaanSetuAi
