Ich habe ein LLM lokal auf meinem ASUS ROG Ally laufen lassen

Translated for your language. Original lesen.

AI-assisted draft.

GyaanSetu Editorialvorgestern2Min. Lesezeit

Ich habe ein LLM lokal auf meinem ASUS ROG Ally laufen lassen

In diesem Artikel

Ich habe ein LLM lokal auf meinem ASUS ROG Ally ausgeführt

Ich habe einige Wochen lang ein lokales KI-Modell auf meinem ASUS ROG Ally laufen lassen. Ich dachte, es wäre ein lustiges Projekt. Stattdessen wurde es zu einer Lektion über Hardware-Limits.

Ich habe es nicht als Ersatz für die Cloud genutzt, sondern als spezialisiertes Werkzeug für kleine Aufgaben. Hier ist das, was ich darüber gelernt habe, KI auf Handheld-Hardware auszuführen.

Die Speicherbarriere

Handhelds nutzen eine Unified Memory Architecture. Das bedeutet, dass sich CPU und GPU denselben RAM teilen. Standardmäßig erhält die GPU nur einen winzigen Teil des Speichers.

Wenn dein Modell nicht in diesen Bereich passt, nutzt das System die CPU. Das macht die Generierung quälend langsam.

Die Lösung:

Geh ins BIOS.
Erhöhe manuell den UMA-Frame-Buffer.
Ich habe meinen auf 4 GB erhöht. Diese Änderung hat mehr geholfen als jeder andere Optimierungsschritt.

Was nicht funktioniert

Ich habe versucht, zRAM zu nutzen, um mehr aus meinem Speicher herauszuholen. Es ist fehlgeschlagen. Die meisten KI-Modelle verwenden GGUF-Dateien, die bereits komprimiert sind. Man kann sie nicht weiter komprimieren, um Platz zu sparen.

Ich habe auch versucht, Disk-Swap zur Unterstützung zu nutzen. Swap macht die Dinge nicht schneller. Es macht sie unbrauchbar. Wenn dein Modell auf Disk-Swap angewiesen ist, wirst du nur alle paar Sekunden ein einziges Wort sehen.

Der einzige Grund, Swap aktiviert zu lassen, ist zu verhindern, dass das System deinen Prozess beendet, wenn der RAM voll ist.

Tipps für reibungslose Abläufe

Wenn die KI-Ausgabe abgehackt oder ruckelig wirkt, überprüfe deine Linux-Kernel-Einstellungen.

Senke deinen vm.swappiness-Wert.
Das verhindert, dass das System Speicher zu früh in den Swap auslagert.
Dadurch fühlt sich die Generierung stabil an, anstatt zu ruckeln.

Die Modellwahl hängt vom Anwendungsfall ab

Die meisten Leute suchen nach dem schnellsten Modell. Ich habe mich stattdessen für ein langsameres, aber präziseres Modell entschieden.

Wenn du in Echtzeit chattest, brauchst du Geschwindigkeit.
Wenn du einen Hintergrund-Agenten ausführst, brauchst du Qualität.

Ich nutze mein Setup für Hintergrundaufgaben. Ich sende eine Anfrage und überprüfe das Ergebnis später. Da ich nicht auf den Bildschirm starre, ist es mir egal, ob eine Antwort 40 statt 8 Sekunden dauert. Ich will die beste Antwort, nicht die schnellste.

Vermeide Reasoning-Modelle auf Handhelds. Der schrittweise Denkprozess benötigt auf schwacher Hardware zu viel Zeit. Der Qualitätsgewinn ist die Wartezeit oft nicht wert.

Wofür das gut geeignet ist

Ein 16-GB-Gerät ist großartig für:

Entwürfe für kurze E-Mails.
Überprüfung kleiner Code-Schnipsel.
Grobe Tagesplanung.
Private Aufgaben, die dein Netzwerk nicht verlassen sollten.

Es ist schlecht für:

Lange Dokumente.
Tiefgehende Recherche.
Komplexe Coding-Projekte.

Lokale KI ist ein Werkzeug, kein Wunder. Sie ist perfekt für routinemäßige, leichte Aufgaben.

Source: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Optionale Lern-Community: https://t.me/GyaanSetuAi

Ich habe ein LLM lokal auf meinem ASUS ROG Ally laufen lassen

Ich habe ein LLM lokal auf meinem ASUS ROG Ally ausgeführt

Die Speicherbarriere

Was nicht funktioniert

Tipps für reibungslose Abläufe

Die Modellwahl hängt vom Anwendungsfall ab

Wofür das gut geeignet ist

Weiterlesen

Der richtige Weg zum Aufbau einer KI-Architektur

Wie ich unsere KI-API-Kosten halbiert habe und dabei p99-SLAs einhielt

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

Lokale KI: So führen Sie Open-Source-Modelle lokal aus