Я запустил LLM локально на своем ASUS ROG Ally

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial3 дня назад2мин чтения

Я запустил LLM локально на своем ASUS ROG Ally

Я несколько недель запускал локальную ИИ-модель на своем ASUS ROG Ally. Я думал, это будет забавным проектом, но вместо этого это стало уроком по изучению аппаратных ограничений.

Я не использовал его как замену облачным сервисам. Я использовал его как специализированный инструмент для небольших задач. Вот что я узнал о запуске ИИ на портативных устройствах.

The Memory Barrier

Портативные устройства используют унифицированную архитектуру памяти (Unified Memory Architecture). Это означает, что процессор (CPU) и видеокарта (GPU) используют одну и ту же оперативную память. По умолчанию видеокарте выделяется лишь крошечная часть памяти.

Если ваша модель не помещается в этот объем, система переключается на процессор. Из-за этого генерация становится мучительно медленной.

The Fix:

Зайдите в BIOS.
Вручную увеличьте объем UMA frame buffer.
Я выставил себе 4 ГБ. Это изменение помогло больше, чем любые другие настройки.

What Doesn't Work

Я пробовал использовать zRAM, чтобы выжать максимум из памяти. Не вышло. Большинство ИИ-моделей используют файлы формата GGUF, которые уже сжаты. Их нельзя сжать еще сильнее, чтобы освободить место.

Я также пробовал использовать файл подкачки (disk swap). Подкачка не ускоряет работу. Она делает её невозможной. Если ваша модель полагается на подкачку на диске, вы будете видеть лишь по одному слову в несколько секунд.

Единственная причина держать подкачку включенной — предотвратить завершение процесса системой, когда оперативная память закончится.

Tips for Smooth Runs

Если ответы ИИ кажутся прерывистыми или «дергаными», проверьте настройки ядра Linux.

Уменьшите значение vm.swappiness.
Это предотвратит преждевременный перенос данных из памяти в подкачку.
Благодаря этому генерация становится стабильной, а не прерывистой.

Model Choice is about Use-Case

Большинство людей ищут самую быструю модель. Я же выбрал модель помедленнее, но более точную.

Если вы общаетесь в режиме реального времени, вам нужна скорость.
Если вы запускаете фонового агента, вам нужно качество.

Я использую свою конфигурацию для фоновых задач. Я отправляю запрос и проверяю результат позже. Поскольку я не смотрю на экран, мне неважно, займет ли ответ 40 секунд вместо 8. Мне нужен лучший ответ, а не самый быстрый.

Избегайте моделей с рассуждением (reasoning models) на портативных устройствах. Процесс пошагового мышления занимает слишком много времени на слабом железе. Прирост качества часто не стоит ожидания.

What this is Good For

Устройство с 16 ГБ памяти отлично подходит для:

Набросков коротких электронных писем.
Проверки небольших фрагментов кода.
Грубого планирования дня.
Приватных задач, которые не должны покидать вашу локальную сеть.

Оно плохо подходит для:

Длинных документов.
Глубоких исследований.
Сложных проектов по программированию.

Локальный ИИ — это инструмент, а не чудо. Он идеален для рутинной, легкой работы.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi

Я запустил LLM локально на своем ASUS ROG Ally

Продолжить чтение

Правильный подход к построению архитектуры ИИ

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

Ваш ИИ кажется медленным? Возможно, он не глупый.

Локальный ИИ: как запускать модели с открытым исходным кодом локально