Вирішення помилок кодування під час бенчмаркінгу локальних LLM

📅4 hours ago⏱1 min read

Вирішення помилок кодування під час бенчмаркінгу локальних LLM

Я хотів створити інструмент для перемикання та бенчмаркінгу локальних моделей LLM. Також я додав багато корейських тестових запитань, щоб краще їх протестувати.

Все працювало добре, поки я не запустив бенчмарки. Я постійно бачив цю помилку: UnicodeEncodeError: 'cp949' codec can't encode characters.

Я думав, що проблема у моєму Python-коді. Я намагався змінити налаштування кодування на utf-8. Я намагався декодувати рядки вручну. Протягом кількох годин нічого не допомагало.

Справжня проблема була не в моєму скрипті. Воркер локальної LLM намагався зберегти відповіді моделі, використовуючи системне кодування за замовчуванням. У Windows це часто CP949. Коли воркер намагався зберегти корейські символи за допомогою CP949, ставалася помилка.

Виправлення було простим. Я налаштував воркер так, щоб він явно використовував utf-8 під час збереження файлів.

Я також створив автоматизовану систему для керування цим процесом. Вона виконує такі кроки:

Заванта

Вирішення помилок кодування під час бенчмаркінгу локальних LLM

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗟𝗹𝗮𝗺𝗮.𝗰𝗽𝗽 𝗡𝗼𝘄 𝗠𝗮𝘁𝗰𝗵𝗲𝘀 𝘃𝗟𝗟𝗠 𝗦𝗽𝗲𝗲𝗱

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬