Batu, Kertas, Silikon: Bagaimana Saya Menjalankan Model AI 235B pada Sebuah MacBook

Kebanyakan orang mengatakan anda tidak boleh menjalankan model AI termaju pada perkakasan pengguna.

Untuk menjalankan model seperti Qwen3-235B, anda memerlukan 470 GB RAM. Sebuah Mac Studio kelas atasan hanya mempunyai 192 GB. Industri menyarankan anda untuk menyewa GPU awan sebagai ganti.

Saya seorang pembangun web, bukan jurutera sistem. Saya tidak bekerja dengan kernel GPU atau memori tahap rendah. Tetapi saya mempunyai satu persoalan: Bagaimana jika anda hanya memuatkan bahagian model yang benar-benar diaktifkan?

Dalam model Mixture of Experts (MoE), kebanyakan parameter kekal tidak aktif pada kebanyakan masa. Saya memutuskan untuk membina satu sistem yang memuatkan pemberat (weights) sejurus sebelum ia diperlukan.

Saya menggunakan ejen AI untuk membantu saya menulis kod C++. Saya membawa rasa ingin tahu, manakala ejen tersebut membawa kedalaman pelaksanaan.

Inspirasi saya datang daripada satu kertas kerja satelit oleh Filippo Biondi. Beliau menggunakan radar untuk melihat bahagian dalam Piramid Agung Giza. Radar tidak dapat menembusi batu, tetapi ia boleh mengukur getaran yang dihasilkan oleh batu apabila diketuk. Beliau mengukur getaran tersebut untuk memetakan bahagian dalam.

Saya menerapkan logik ini kepada memori AI.

Saya menamakannya S-MoE (Seismic Mixture of Experts). Ia berfungsi menggunakan tiga aliran:

• The Scout: Bahagian model yang ringan yang berjalan dalam RAM. Ia meramalkan pakar (experts) mana yang akan diaktifkan seterusnya. • The Streamer: Satu bebenang (thread) I/O yang memuatkan blok pakar khusus tersebut daripada SSD anda ke dalam memori. • The GPU: Melaksanakan pengiraan matematik menggunakan pemberat yang baru tiba.

Sistem ini menggunakan Direct I/O untuk memintas cache OS. Ia tidak menggunakan sebarang peruntukan heap semasa masa larian (runtime). Ia mengelakkan semua mutex OS.

Hasilnya? Sebuah Mac 16 GB dan sebuah Mac 512 GB akan menghasilkan tahap kecerdasan yang sama tepat daripada model 235B. Satu cuma lebih pantas daripada yang lain.

Halangan memori (memory wall) dalam AI adalah satu andaian perisian, bukannya hukum alam. Anda boleh menjalankan model termaju pada perkakasan yang anda miliki sekarang.

S-MoE adalah sumber terbuka.

Sumber: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi