Tanpa Kehilangan Kualiti, Tetapi Tidak Percuma: Bila Speculative Decoding Berfungsi

Speculative Decoding adalah topik hangat dalam inferens LLM.

Syarikat seperti DSpark mendakwa peningkatan kelajuan sebanyak 60% hingga 85%. Google juga menerbitkan penyelidikan mengenai kaedah ini.

Konsepnya mudah: Model draf yang kecil menulis token. Model sasaran yang besar mengesahkannya dalam satu laluan. Ini menjadikan penjanaan lebih pantas.

Tetapi sebagai seorang jurutera, anda mesti bertanya dua soalan:

  • Adakah ia meningkatkan halusinasi?
  • Adakah model tambahan itu membazirkan sumber pengkomputeran?

Mari kita lihat faktanya.

Pertama, kualitinya adalah lossless (tanpa kehilangan kualiti). Model sasaran mengesahkan setiap token. Jika model draf melakukan kesilapan pada token ke-3, model sasaran akan menolaknya dan menjana semula dari titik tersebut. Hasilnya adalah identikal secara matematik dengan model sasaran sahaja. Ia tidak membesarkan lagi halusinasi.

Kedua, kosnya adalah nyata. Model kecil jauh lebih murah untuk dijalankan berbanding model besar. Model 7B mungkin menelan kos 1/10 daripada model 70B.

Speculative Decoding adalah satu pertaruhan.

  • Dalam kejayaan penuh (full hit), anda menjimatkan pengkomputeran yang besar.
  • Dalam kegagalan penuh (full miss), anda rugi. Anda menjalankan model draf ditambah dengan langkah model sasaran tambahan. Ini lebih lambat daripada inferens standard.

Untuk menang, anda mesti mengikut peraturan ini: Purata bilangan token yang diterima mestilah lebih besar daripada 1 ditambah dengan overhead model draf.

Jika model draf anda lemah dalam tugasan tertentu, kadar penerimaan anda akan menurun. Jika ia jatuh terlalu rendah, Speculative Decoding akan menjadikan sistem anda lebih lambat.

Cara untuk memutuskan sama ada anda patut menggunakannya:

  1. Ukur kadar penerimaan anda. Jangan percaya penanda aras (benchmark) generik. Gunakan data dan tugasan anda sendiri.
  2. Semak jenis tugasan anda. Gunakan untuk tugasan yang boleh diramal seperti pelengkapan kod (code completion). Elakkan untuk tugasan yang tidak boleh diramal seperti penulisan kreatif.
  3. Pantau kependaman (latency) p99 anda. Kegagalan penuh menyebabkan lonjakan kependaman.

Pengoptimuman terbaik bukanlah yang sentiasa menang. Ia adalah pengoptimuman yang anda tahu bila masanya untuk dimatikan.

Gunakan apabila kadar kejayaan (hit rate) adalah tinggi. Berhenti menggunakannya apabila kadar kejayaan merosot.

Sumber: https://dev.to/zxpmail/lossless-but-not-free-the-lossless-but-not-free-when-speculative-decoding-actually-pays-off-1c2g

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi