رفع خطاهای انکودینگ در بنچمارک‌گیری مدل‌های LLM محلی

📅4 hours ago⏱1 min read

رفع خطاهای انکودینگ (Encoding) در بنچمارک‌گیری مدل‌های محلی LLM

قصد داشتم ابزاری برای جابه‌جایی و بنچمارک‌گیری مدل‌های محلی LLM بسازم. همچنین برای تست بهتر آن‌ها، سوالات بنچمارک کره‌ای زیادی را اضافه کردم.

همه چیز خوب کار می‌کرد تا اینکه بنچمارک‌ها را اجرا کردم. مدام با این خطا مواجه می‌شدم: UnicodeEncodeError: 'cp949' codec can't encode characters.

فکر کردم مشکل از کد پایتون من است. سعی کردم تنظیمات انکودینگ را به utf-8 تغییر دهم. سعی کردم رشته‌ها را به صورت دستی دیکود کنم. ساعت‌ها تلاش کردم اما هیچ‌کدام جواب نداد.

مشکل اصلی اسکریپت من نبود. ورکر (worker) مدل محلی سعی می‌کرد پاسخ‌های مدل را با استفاده از انکودینگ پیش‌فرض سیستم ذخیره کند. در ویندوز، این انکودینگ اغلب CP949 است. وقتی ورکر سعی می‌کرد کاراکترهای کره‌ای را با استفاده از CP949 ذخیره کند، با شکست مواجه می‌شد.

راه حل ساده بود. ورکر را طوری تغییر دادم که هنگام ذخیره فایل‌ها، صراحتاً از utf-8 استفاده کند.

همچنین یک سیستم خودکار برای مدیریت این فرآیند ساختم. این سیستم مراحل زیر را دنبال می‌کند:

دانلود مدل‌های کاندید.
اجرای بنچمارک روی بهترین مدل فعلی.
تست تمام مدل‌های کاندید جدید.
انتخاب و پیشنهاد بهترین مدل بر اساس امتیازات.

از طریق این اتوماسیون، متوجه شدم که Gemma2:2b در انجام وظایف مربوط به زبان کره‌ای بسیار بهتر از مدل EXAONE عمل می‌کند. این مدل در سرعت مشابه، پاسخ‌های طبیعی‌تر و نتایج خلاقانه‌تری ارائه می‌دهد.

درس‌های آموخته شده:

هرگز به انکودینگ پیش‌فرض سیستم تکیه نکنید. همیشه برای عملیات ورودی/خروجی فایل (file I/O) از utf-8 استفاده کنید.
هنگام استفاده از json.dump با متن کره‌ای، از ensure_ascii=False استفاده کرده و utf-8 را مشخص کنید.
اگر با خطاهای انکودینگ مواجه شدید، کل سیستم و منطق ذخیره‌سازی فایل را بررسی کنید، نه فقط کد بلافاصله در اختیار خودتان را.
از اتوماسیون برای یافتن بهترین مدل‌ها متناسب با نیازهای خاص خود استفاده کنید.

Source: https://dev.to/junhee916/resolving-cp949-errors-in-local-llm-benchmarking-and-building-an-automatic-model-recommendation-128g

Optional learning community: https://t.me/GyaanSetuAi

رفع خطاهای انکودینگ در بنچمارک‌گیری مدل‌های LLM محلی

رفع خطاهای انکودینگ (Encoding) در بنچمارک‌گیری مدل‌های محلی LLM

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬