𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴𝗶𝗺𝗮𝗱𝗵ī 𝗘𝗻𝗰𝗼𝗱𝗶𝗻𝗴 𝗧𝗿𝘂𝘁īn𝗰𝗵𝗲 𝗡𝗶𝗿ā𝗸𝗮𝗿𝗮ṇ 𝗞𝗮𝗿𝗮ṇ𝗲

मला लोकल LLM मॉडेल्स बदलण्यासाठी आणि त्यांचे बेंचमार्किंग करण्यासाठी एक टूल तयार करायचे होते. त्यांना अधिक चांगल्या प्रकारे तपासण्यासाठी मी त्यात अनेक कोरियन बेंचमार्क प्रश्न देखील जोडले.

जोपर्यंत मी बेंचमार्क्स चालवले नाहीत तोपर्यंत सर्व काही ठीक चालले होते. मला वारंवार ही त्रुटी दिसत होती: UnicodeEncodeError: 'cp949' codec can't encode characters.

मला वाटले की समस्या माझ्या Python कोडमध्ये आहे. मी माझ्या एन्कोडिंग सेटिंग्ज utf-8 मध्ये बदलण्याचा प्रयत्न केला. मी स्ट्रिंग्स मॅन्युअली डिकोड करण्याचा प्रयत्न केला. तासनतास प्रयत्न करूनही काहीच उपयोग झाला नाही.

खरी समस्या माझ्या स्क्रिप्टमध्ये नव्हती. लोकल LLM वर्कर सिस्टिमच्या डिफॉल्ट एन्कोडिंगचा वापर करून मॉडेलचे प्रतिसाद सेव्ह करण्याचा प्रयत्न करत होता. Windows वर, हे सहसा CP949 असते. जेव्हा वर्करने CP949 वापरून कोरियन अक्षरे सेव्ह करण्याचा प्रयत्न केला, तेव्हा ते अयशस्वी झाले.

उपाय सोपा होता. मी फाईल्स सेव्ह करताना वर्करला स्पष्टपणे utf-8 वापरण्यास बदलले.

मी ही प्रक्रिया व्यवस्थापित करण्यासाठी एक ऑटोमेटेड सिस्टम देखील तयार केली आहे. ती खालील पायऱ्यांचे अनुसरण करते:

या ऑटोमेशनद्वारे, मला असे आढळले की कोरियन भाषा कार्यांसाठी Gemma2:2b हे EXAONE मॉडेलपेक्षा खूप चांगले काम करते. ते समान वेगाने अधिक नैसर्गिक उत्तरे आणि चांगले सर्जनशील निकाल देते.

शिकलेले धडे:

स्रोत: https://dev.to/junhee916/resolving-cp949-errors-in-local-llm-benchmarking-and-building-an-automatic-model-recommendation-128g

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi