Я запустил LLM локально на своем ASUS ROG Ally

Я несколько недель запускал локальную ИИ-модель на своем ASUS ROG Ally. Я думал, это будет забавным проектом, но вместо этого это стало уроком по изучению аппаратных ограничений.

Я не использовал его как замену облачным сервисам. Я использовал его как специализированный инструмент для небольших задач. Вот что я узнал о запуске ИИ на портативных устройствах.

The Memory Barrier

Портативные устройства используют унифицированную архитектуру памяти (Unified Memory Architecture). Это означает, что процессор (CPU) и видеокарта (GPU) используют одну и ту же оперативную память. По умолчанию видеокарте выделяется лишь крошечная часть памяти.

Если ваша модель не помещается в этот объем, система переключается на процессор. Из-за этого генерация становится мучительно медленной.

The Fix:

  • Зайдите в BIOS.
  • Вручную увеличьте объем UMA frame buffer.
  • Я выставил себе 4 ГБ. Это изменение помогло больше, чем любые другие настройки.

What Doesn't Work

Я пробовал использовать zRAM, чтобы выжать максимум из памяти. Не вышло. Большинство ИИ-моделей используют файлы формата GGUF, которые уже сжаты. Их нельзя сжать еще сильнее, чтобы освободить место.

Я также пробовал использовать файл подкачки (disk swap). Подкачка не ускоряет работу. Она делает её невозможной. Если ваша модель полагается на подкачку на диске, вы будете видеть лишь по одному слову в несколько секунд.

Единственная причина держать подкачку включенной — предотвратить завершение процесса системой, когда оперативная память закончится.

Tips for Smooth Runs

Если ответы ИИ кажутся прерывистыми или «дергаными», проверьте настройки ядра Linux.

  • Уменьшите значение vm.swappiness.
  • Это предотвратит преждевременный перенос данных из памяти в подкачку.
  • Благодаря этому генерация становится стабильной, а не прерывистой.

Model Choice is about Use-Case

Большинство людей ищут самую быструю модель. Я же выбрал модель помедленнее, но более точную.

  • Если вы общаетесь в режиме реального времени, вам нужна скорость.
  • Если вы запускаете фонового агента, вам нужно качество.

Я использую свою конфигурацию для фоновых задач. Я отправляю запрос и проверяю результат позже. Поскольку я не смотрю на экран, мне неважно, займет ли ответ 40 секунд вместо 8. Мне нужен лучший ответ, а не самый быстрый.

Избегайте моделей с рассуждением (reasoning models) на портативных устройствах. Процесс пошагового мышления занимает слишком много времени на слабом железе. Прирост качества часто не стоит ожидания.

What this is Good For

Устройство с 16 ГБ памяти отлично подходит для:

  • Набросков коротких электронных писем.
  • Проверки небольших фрагментов кода.
  • Грубого планирования дня.
  • Приватных задач, которые не должны покидать вашу локальную сеть.

Оно плохо подходит для:

  • Длинных документов.
  • Глубоких исследований.
  • Сложных проектов по программированию.

Локальный ИИ — это инструмент, а не чудо. Он идеален для рутинной, легкой работы.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi