I Ran an LLM Locally on my ASUS ROG Ally

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialprzedwczoraj2min read

I Ran an LLM Locally on my ASUS ROG Ally

In this article

Uruchomiłem LLM lokalnie na moim ASUS ROG Ally

Przez kilka tygodni uruchamiałem lokalny model AI na moim ASUS ROG Ally. Myślałem, że to będzie fajny projekt. Zamiast tego stało się to lekcją o ograniczeniach sprzętowych.

Nie używałem go jako zamiennika chmury. Używałem go jako wyspecjalizowanego narzędzia do małych zadań. Oto czego dowiedziałem się o uruchamianiu AI na urządzeniach przenośnych.

Bariera pamięci

Urządzenia przenośne korzystają z architektury Unified Memory Architecture. Oznacza to, że CPU i GPU współdzielą tę samą pamięć RAM. Domyślnie GPU otrzymuje bardzo małą część pamięci.

Jeśli Twój model nie mieści się w tej części, system korzysta z CPU. Powoduje to, że generowanie tekstu jest boleśnie wolne.

Rozwiązanie:

Wejdź do BIOS-u.
Ręcznie zwiększ UMA frame buffer.
Zwiększyłem swój do 4 GB. Ta zmiana pomogła bardziej niż jakakolwiek inna modyfikacja.

Co nie działa

Próbowałem użyć zRAM, aby wycisnąć więcej z mojej pamięci. Nie udało się. Większość modeli AI korzysta z plików GGUF, które są już skompresowane. Nie można ich skompresować bardziej, aby zyskać miejsce.

Próbowałem też użyć swapu na dysku. Swap nie przyspiesza działania. Sprawia, że urządzenie staje się bezużyteczne. Jeśli Twój model polega na swapie na dysku, będziesz widzieć tylko jedno słowo co kilka sekund.

Jedynym powodem, by pozostawić włączony swap, jest zapobieganie zabijaniu procesu przez system w przypadku braku pamięci RAM.

Porady dla płynnego działania

Jeśli generowany przez AI tekst wydaje się rwany lub skaczący, sprawdź ustawienia jądra Linux.

Obniż wartość vm.swappiness.
Zapobiega to zbyt wczesnemu przenoszeniu pamięci do swapu przez system.
Dzięki temu generowanie wydaje się stabilne, a nie rwane.

Wybór modelu zależy od zastosowania

Większość ludzi szuka najszybszego modelu. Ja zamiast tego wybrałem wolniejszy, ale bardziej precyzyjny model.

Jeśli czatujesz w czasie rzeczywistym, potrzebujesz szybkości.
Jeśli uruchamiasz agenta działającego w tle, potrzebujesz jakości.

Swojej konfiguracji używam do zadań w tle. Wysyłam zapytanie i sprawdzam wynik później. Ponieważ nie patrzę w ekran, nie obchodzi mnie, czy odpowiedź zajmie 40 sekund zamiast 8. Chcę najlepszej odpowiedzi, a nie najszybszej.

Unikaj modeli typu reasoning na urządzeniach przenośnych. Proces myślenia krok po kroku zajmuje zbyt dużo czasu na słabszym sprzęcie. Zysk jakościowy często nie jest wart czekania.

Do czego to się nadaje

Urządzenie z 16 GB RAM świetnie nadaje się do:

Pisania szkiców krótkich e-maili.
Przeglądania małych fragmentów kodu.
Ogólnego planowania dnia.
Prywatnych zadań, które nie powinny opuszczać Twojej sieci.

Nie nadaje się do:

Długich dokumentów.
Dogłębnych badań.
Złożonych projektów programistycznych.

Lokalne AI to narzędzie, a nie cud. Jest idealne do rutynowej, lekkiej pracy.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optional learning community: https://t.me/GyaanSetuAi

I Ran an LLM Locally on my ASUS ROG Ally

Uruchomiłem LLM lokalnie na moim ASUS ROG Ally

Bariera pamięci

Co nie działa

Porady dla płynnego działania

Wybór modelu zależy od zastosowania

Do czego to się nadaje

Continue reading

Właściwy sposób budowania architektury AI

Jak zmniejszyłem nasze rachunki za AI API o połowę, zachowując 99% SLA

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

Lokalna AI: Jak uruchamiać modele open source lokalnie