Я запустил LLM локально на своем ASUS ROG Ally
Я несколько недель запускал локальную ИИ-модель на своем ASUS ROG Ally. Я думал, это будет забавным проектом, но вместо этого это стало уроком по изучению аппаратных ограничений.
Я не использовал его как замену облачным сервисам. Я использовал его как специализированный инструмент для небольших задач. Вот что я узнал о запуске ИИ на портативных устройствах.
The Memory Barrier
Портативные устройства используют унифицированную архитектуру памяти (Unified Memory Architecture). Это означает, что процессор (CPU) и видеокарта (GPU) используют одну и ту же оперативную память. По умолчанию видеокарте выделяется лишь крошечная часть памяти.
Если ваша модель не помещается в этот объем, система переключается на процессор. Из-за этого генерация становится мучительно медленной.
The Fix:
- Зайдите в BIOS.
- Вручную увеличьте объем UMA frame buffer.
- Я выставил себе 4 ГБ. Это изменение помогло больше, чем любые другие настройки.
What Doesn't Work
Я пробовал использовать zRAM, чтобы выжать максимум из памяти. Не вышло. Большинство ИИ-моделей используют файлы формата GGUF, которые уже сжаты. Их нельзя сжать еще сильнее, чтобы освободить место.
Я также пробовал использовать файл подкачки (disk swap). Подкачка не ускоряет работу. Она делает её невозможной. Если ваша модель полагается на подкачку на диске, вы будете видеть лишь по одному слову в несколько секунд.
Единственная причина держать подкачку включенной — предотвратить завершение процесса системой, когда оперативная память закончится.
Tips for Smooth Runs
Если ответы ИИ кажутся прерывистыми или «дергаными», проверьте настройки ядра Linux.
- Уменьшите значение
vm.swappiness. - Это предотвратит преждевременный перенос данных из памяти в подкачку.
- Благодаря этому генерация становится стабильной, а не прерывистой.
Model Choice is about Use-Case
Большинство людей ищут самую быструю модель. Я же выбрал модель помедленнее, но более точную.
- Если вы общаетесь в режиме реального времени, вам нужна скорость.
- Если вы запускаете фонового агента, вам нужно качество.
Я использую свою конфигурацию для фоновых задач. Я отправляю запрос и проверяю результат позже. Поскольку я не смотрю на экран, мне неважно, займет ли ответ 40 секунд вместо 8. Мне нужен лучший ответ, а не самый быстрый.
Избегайте моделей с рассуждением (reasoning models) на портативных устройствах. Процесс пошагового мышления занимает слишком много времени на слабом железе. Прирост качества часто не стоит ожидания.
What this is Good For
Устройство с 16 ГБ памяти отлично подходит для:
- Набросков коротких электронных писем.
- Проверки небольших фрагментов кода.
- Грубого планирования дня.
- Приватных задач, которые не должны покидать вашу локальную сеть.
Оно плохо подходит для:
- Длинных документов.
- Глубоких исследований.
- Сложных проектов по программированию.
Локальный ИИ — это инструмент, а не чудо. Он идеален для рутинной, легкой работы.
Optional learning community: https://t.me/GyaanSetuAi
