Saya Menjalankan LLM Secara Tempatan pada ASUS ROG Ally Saya

Translated for your language. Read the original.

AI-assisted draft.

Saya telah menjalankan model AI tempatan pada ASUS ROG Ally saya selama beberapa minggu. Saya fikir ia akan menjadi projek yang menyeronokkan. Sebaliknya, ia menjadi satu pengajaran tentang had perkakasan.

Saya tidak menggunakannya sebagai pengganti awan (cloud). Saya menggunakannya sebagai alat khusus untuk tugasan kecil. Berikut adalah apa yang saya pelajari tentang menjalankan AI pada perkakasan pegang tangan (handheld).

Halangan Memori

Peranti pegang tangan menggunakan Seni Bina Memori Bersatu (Unified Memory Architecture). Ini bermakna CPU dan GPU berkongsi RAM yang sama. Secara lalai, GPU hanya mendapat sebahagian kecil memori.

Jika model anda tidak muat dalam bahagian tersebut, sistem akan menggunakan CPU. Ini menjadikan proses penjanaan (generation) sangat perlahan.

Penyelesaiannya:

Masuk ke dalam BIOS anda.
Tingkatkan UMA frame buffer secara manual.
Saya menetapkannya kepada 4 GB. Perubahan ini membantu lebih daripada sebarang pelarasan lain.

Apa Yang Tidak Berkesan

Saya cuba menggunakan zRAM untuk memaksimumkan memori saya. Ia gagal. Kebanyakan model AI menggunakan fail GGUF yang sudah pun dimampatkan. Anda tidak boleh memampatkannya lagi untuk mendapatkan ruang tambahan.

Saya juga cuba menggunakan disk swap untuk membantu. Swap tidak mempercepatkan keadaan. Ia menjadikannya tidak boleh digunakan. Jika model anda bergantung pada disk swap, anda hanya akan melihat satu perkataan setiap beberapa saat.

Satu-satunya sebab untuk mengekalkan swap yang diaktifkan adalah untuk menghalang sistem daripada menghentikan proses anda apabila RAM habis.

Tip untuk Kelancaran

Jika output AI anda terasa tersekat-sekat atau tidak lancar, semak tetapan kernel Linux anda.

Rendahkan nilai vm.swappiness anda.
Ini menghalang sistem daripada memindahkan memori ke swap terlalu awal.
Ia menjadikan proses penjanaan terasa stabil dan bukannya tersangkut-sangkut.

Pemilihan Model Bergantung pada Kes Penggunaan

Kebanyakan orang mencari model yang terpantas. Sebaliknya, saya memilih model yang lebih perlahan tetapi lebih tepat.

Jika anda berbual secara masa nyata (real time), anda memerlukan kelajuan.
Jika anda menjalankan ejen latar belakang, anda memerlukan kualiti.

Saya menggunakan tetapan saya untuk tugasan latar belakang. Saya menghantar permintaan dan menyemak hasilnya kemudian. Oleh kerana saya tidak memerhatikan skrin, saya tidak kisah jika respons mengambil masa 40 saat berbanding 8 saat. Saya mahukan jawapan terbaik, bukan yang terpantas.

Elakkan model penaakulan (reasoning models) pada peranti pegang tangan. Proses pemikiran langkah demi langkah mengambil masa yang terlalu lama pada perkakasan yang lemah. Peningkatan kualiti selalunya tidak berbaloi dengan penantian tersebut.

Kegunaan Yang Sesuai

Peranti 16 GB sangat bagus untuk:

Merangka e-mel pendek.
Menyemak petikan kod (code snippets) yang kecil.
Perancangan harian secara kasar.
Tugasan peribadi yang tidak sepatutnya keluar dari rangkaian anda.

Ia tidak sesuai untuk:

Dokumen panjang.
Penyelidikan mendalam.
Projek pengkodan yang kompleks.

AI tempatan adalah satu alat, bukan satu keajaiban. Ia sangat sesuai untuk kerja rutin yang ringan.

Sumber: https://dev.to/frankydzoro/i-ran-an-llm-locally-on-my-asus-rog-ally-and-heres-what-i-actually-learned-3o6j

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Saya Menjalankan LLM Secara Tempatan pada ASUS ROG Ally Saya

Continue reading

𝗧𝗵𝗲 𝗥𝗶𝗴𝗵𝗍 𝗪𝗮𝘆 𝗧𝗼 𝗕𝗎𝗶𝗹𝗱 𝗔𝗡 𝗔𝗜 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝗍𝗎𝗿𝗲

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗢𝘂𝗿 𝗔𝗜 𝗔𝗣𝗜 𝗕𝗶𝗹𝗹 𝗶𝗻 𝗛𝗮𝗹𝗳 𝗪𝗵𝗶𝗹𝗲 𝗛𝗶𝘁𝘁𝗶𝗻𝗴 𝗽𝟵𝟵 𝗦𝗟𝗔𝘀

𝗚𝗶𝘃𝗶𝗻𝗴 𝗔𝗴𝗲𝗻𝘁𝗚𝗮𝘁𝗲𝘄𝗮𝘆 𝗮 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗕𝗿𝗮𝗶𝗻

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗳𝗲𝗲𝗹𝘀 𝘀𝗹𝗼𝘄? 𝗠𝗮𝘆𝗯𝗲 𝗶𝘁'𝘀 𝗻𝗼𝘁 𝗱𝘂𝗺𝗯.

AI Tempatan: Cara Menjalankan Model Sumber Terbuka Secara Tempatan