Saya Menjalankan LLM Secara Tempatan pada ASUS ROG Ally Saya

Saya telah menjalankan model AI tempatan pada ASUS ROG Ally saya selama beberapa minggu. Saya fikir ia akan menjadi projek yang menyeronokkan. Sebaliknya, ia menjadi satu pengajaran tentang had perkakasan.

Saya tidak menggunakannya sebagai pengganti awan (cloud). Saya menggunakannya sebagai alat khusus untuk tugasan kecil. Berikut adalah apa yang saya pelajari tentang menjalankan AI pada perkakasan pegang tangan (handheld).

Halangan Memori

Peranti pegang tangan menggunakan Seni Bina Memori Bersatu (Unified Memory Architecture). Ini bermakna CPU dan GPU berkongsi RAM yang sama. Secara lalai, GPU hanya mendapat sebahagian kecil memori.

Jika model anda tidak muat dalam bahagian tersebut, sistem akan menggunakan CPU. Ini menjadikan proses penjanaan (generation) sangat perlahan.

Penyelesaiannya:

  • Masuk ke dalam BIOS anda.
  • Tingkatkan UMA frame buffer secara manual.
  • Saya menetapkannya kepada 4 GB. Perubahan ini membantu lebih daripada sebarang pelarasan lain.

Apa Yang Tidak Berkesan

Saya cuba menggunakan zRAM untuk memaksimumkan memori saya. Ia gagal. Kebanyakan model AI menggunakan fail GGUF yang sudah pun dimampatkan. Anda tidak boleh memampatkannya lagi untuk mendapatkan ruang tambahan.

Saya juga cuba menggunakan disk swap untuk membantu. Swap tidak mempercepatkan keadaan. Ia menjadikannya tidak boleh digunakan. Jika model anda bergantung pada disk swap, anda hanya akan melihat satu perkataan setiap beberapa saat.

Satu-satunya sebab untuk mengekalkan swap yang diaktifkan adalah untuk menghalang sistem daripada menghentikan proses anda apabila RAM habis.

Tip untuk Kelancaran

Jika output AI anda terasa tersekat-sekat atau tidak lancar, semak tetapan kernel Linux anda.

  • Rendahkan nilai vm.swappiness anda.
  • Ini menghalang sistem daripada memindahkan memori ke swap terlalu awal.
  • Ia menjadikan proses penjanaan terasa stabil dan bukannya tersangkut-sangkut.

Pemilihan Model Bergantung pada Kes Penggunaan

Kebanyakan orang mencari model yang terpantas. Sebaliknya, saya memilih model yang lebih perlahan tetapi lebih tepat.

  • Jika anda berbual secara masa nyata (real time), anda memerlukan kelajuan.
  • Jika anda menjalankan ejen latar belakang, anda memerlukan kualiti.

Saya menggunakan tetapan saya untuk tugasan latar belakang. Saya menghantar permintaan dan menyemak hasilnya kemudian. Oleh kerana saya tidak memerhatikan skrin, saya tidak kisah jika respons mengambil masa 40 saat berbanding 8 saat. Saya mahukan jawapan terbaik, bukan yang terpantas.

Elakkan model penaakulan (reasoning models) pada peranti pegang tangan. Proses pemikiran langkah demi langkah mengambil masa yang terlalu lama pada perkakasan yang lemah. Peningkatan kualiti selalunya tidak berbaloi dengan penantian tersebut.

Kegunaan Yang Sesuai

Peranti 16 GB sangat bagus untuk:

  • Merangka e-mel pendek.
  • Menyemak petikan kod (code snippets) yang kecil.
  • Perancangan harian secara kasar.
  • Tugasan peribadi yang tidak sepatutnya keluar dari rangkaian anda.

Ia tidak sesuai untuk:

  • Dokumen panjang.
  • Penyelidikan mendalam.
  • Projek pengkodan yang kompleks.

AI tempatan adalah satu alat, bukan satu keajaiban. Ia sangat sesuai untuk kerja rutin yang ringan.

Sumber: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi