Uruchomiłem LLM lokalnie na moim ASUS ROG Ally

Przez kilka tygodni uruchamiałem lokalny model AI na moim ASUS ROG Ally. Myślałem, że to będzie fajny projekt. Zamiast tego stało się to lekcją o ograniczeniach sprzętowych.

Nie używałem go jako zamiennika chmury. Używałem go jako wyspecjalizowanego narzędzia do małych zadań. Oto czego dowiedziałem się o uruchamianiu AI na urządzeniach przenośnych.

Bariera pamięci

Urządzenia przenośne korzystają z architektury Unified Memory Architecture. Oznacza to, że CPU i GPU współdzielą tę samą pamięć RAM. Domyślnie GPU otrzymuje bardzo małą część pamięci.

Jeśli Twój model nie mieści się w tej części, system korzysta z CPU. Powoduje to, że generowanie tekstu jest boleśnie wolne.

Rozwiązanie:

  • Wejdź do BIOS-u.
  • Ręcznie zwiększ UMA frame buffer.
  • Zwiększyłem swój do 4 GB. Ta zmiana pomogła bardziej niż jakakolwiek inna modyfikacja.

Co nie działa

Próbowałem użyć zRAM, aby wycisnąć więcej z mojej pamięci. Nie udało się. Większość modeli AI korzysta z plików GGUF, które są już skompresowane. Nie można ich skompresować bardziej, aby zyskać miejsce.

Próbowałem też użyć swapu na dysku. Swap nie przyspiesza działania. Sprawia, że urządzenie staje się bezużyteczne. Jeśli Twój model polega na swapie na dysku, będziesz widzieć tylko jedno słowo co kilka sekund.

Jedynym powodem, by pozostawić włączony swap, jest zapobieganie zabijaniu procesu przez system w przypadku braku pamięci RAM.

Porady dla płynnego działania

Jeśli generowany przez AI tekst wydaje się rwany lub skaczący, sprawdź ustawienia jądra Linux.

  • Obniż wartość vm.swappiness.
  • Zapobiega to zbyt wczesnemu przenoszeniu pamięci do swapu przez system.
  • Dzięki temu generowanie wydaje się stabilne, a nie rwane.

Wybór modelu zależy od zastosowania

Większość ludzi szuka najszybszego modelu. Ja zamiast tego wybrałem wolniejszy, ale bardziej precyzyjny model.

  • Jeśli czatujesz w czasie rzeczywistym, potrzebujesz szybkości.
  • Jeśli uruchamiasz agenta działającego w tle, potrzebujesz jakości.

Swojej konfiguracji używam do zadań w tle. Wysyłam zapytanie i sprawdzam wynik później. Ponieważ nie patrzę w ekran, nie obchodzi mnie, czy odpowiedź zajmie 40 sekund zamiast 8. Chcę najlepszej odpowiedzi, a nie najszybszej.

Unikaj modeli typu reasoning na urządzeniach przenośnych. Proces myślenia krok po kroku zajmuje zbyt dużo czasu na słabszym sprzęcie. Zysk jakościowy często nie jest wart czekania.

Do czego to się nadaje

Urządzenie z 16 GB RAM świetnie nadaje się do:

  • Pisania szkiców krótkich e-maili.
  • Przeglądania małych fragmentów kodu.
  • Ogólnego planowania dnia.
  • Prywatnych zadań, które nie powinny opuszczać Twojej sieci.

Nie nadaje się do:

  • Długich dokumentów.
  • Dogłębnych badań.
  • Złożonych projektów programistycznych.

Lokalne AI to narzędzie, a nie cud. Jest idealne do rutynowej, lekkiej pracy.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi