Mengatasi Ralat Pengekodan dalam Penandaarasan LLM Tempatan

📅4 hours ago⏱1 min read

𝗥𝗲𝘀𝗼𝗹𝘃𝗶𝗻𝗴 𝗘𝗻𝗰𝗼𝗱𝗶𝗻𝗴 𝗘𝗿𝗿𝗼𝗿𝘀 𝗶𝗻 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 -> Menyelesaikan Ralat Pengekodan dalam Penanda Aras LLM Tempatan

Saya ingin membina satu alat untuk menukar dan membuat penanda aras model LLM tempatan. Saya juga menambah banyak soalan penanda aras bahasa Korea untuk mengujinya dengan lebih baik.

Segalanya berjalan lancar sehinggalah saya menjalankan penanda aras tersebut. Saya terus-menerus melihat ralat ini: UnicodeEncodeError: 'cp949' codec can't encode characters.

Saya menyangka masalahnya terletak pada kod Python saya. Saya cuba menukar tetapan pengekodan saya kepada utf-8. Saya cuba menyahkod (decoding) rentetan secara manual. Tiada apa yang berjaya selama berjam-jam.

Masalah sebenarnya bukan pada skrip saya. Pekerja (worker) LLM tempatan cuba menyimpan respons model menggunakan pengekodan lalai sistem. Pada Windows, ini selalunya adalah CP949. Apabila pekerja tersebut cuba menyimpan aksara Korea menggunakan CP949, ia gagal.

Penyelesaiannya mudah. Saya menukar pekerja tersebut untuk menggunakan utf-8 secara eksplisit semasa menyimpan fail.

Saya juga membina sistem automatik untuk menguruskan proses ini. Ia mengikut langkah-langkah berikut:

Memuat turun model calon.
Menjalankan penanda aras pada model terbaik semasa.
Menguji semua model calon baharu.
Memilih dan mengesyorkan model terbaik berdasarkan skor.

Melalui automasi ini, saya mendapati bahawa Gemma2:2b berprestasi jauh lebih baik daripada model EXAONE untuk tugasan bahasa Korea. Ia memberikan jawapan yang lebih semula jadi dan hasil kreatif yang lebih baik pada kelajuan yang sama.

Pengajaran yang diperoleh:

Jangan sesekali bergantung pada pengekodan lalai sistem. Sentiasa gunakan utf-8 untuk I/O fail.
Apabila menggunakan json.dump dengan teks Korea, gunakan ensure_ascii=False dan nyatakan utf-8.
Jika anda melihat ralat pengekodan, periksa keseluruhan sistem dan logik penyimpanan fail, bukan sekadar kod anda sahaja.
Gunakan automasi untuk mencari model terbaik bagi keperluan khusus anda.

Sumber: https://dev.to/junhee916/resolving-cp949-errors-in-local-llm-benchmarking-and-building-an-automatic-model-recommendation-128g

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Mengatasi Ralat Pengekodan dalam Penandaarasan LLM Tempatan

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬