Batu, Kertas, Silikon: Bagaimana Saya Menjalankan Model AI 235B di MacBook

Kebanyakan orang mengatakan Anda tidak bisa menjalankan model AI mutakhir pada perangkat keras konsumen.

Untuk menjalankan model seperti Qwen3-235B, Anda membutuhkan RAM sebesar 470 GB. Mac Studio kelas atas hanya memiliki 192 GB. Industri menyarankan Anda untuk menyewa GPU cloud sebagai gantinya.

Saya adalah seorang pengembang web, bukan insinyur sistem. Saya tidak bekerja dengan kernel GPU atau memori tingkat rendah. Namun saya punya sebuah pertanyaan: Bagaimana jika Anda hanya memuat bagian-bagian model yang benar-benar aktif?

Dalam model Mixture of Experts (MoE), sebagian besar parameter tetap diam hampir sepanjang waktu. Saya memutuskan untuk membangun sistem yang memuat bobot (weights) tepat sebelum dibutuhkan.

Saya menggunakan agen AI untuk membantu saya menulis kode C++. Saya membawa rasa ingin tahu, dan agen tersebut membawa kedalaman implementasi.

Inspirasi saya datang dari sebuah makalah satelit oleh Filippo Biondi. Ia menggunakan radar untuk melihat bagian dalam Piramida Agung Giza. Radar tidak dapat menembus batu, tetapi ia dapat mengukur getaran yang dihasilkan batu saat terkena hantaman. Ia mengukur getaran tersebut untuk memetakan bagian dalamnya.

Saya menerapkan logika ini ke memori AI.

Saya menyebutnya S-MoE (Seismic Mixture of Experts). Ini bekerja menggunakan tiga aliran:

• The Scout: Bagian model yang ringan yang berjalan di RAM. Ia memprediksi ahli mana yang akan aktif selanjutnya. • The Streamer: Sebuah thread I/O yang memuat blok ahli spesifik tersebut dari SSD ke dalam memori. • The GPU: Mengeksekusi perhitungan matematika menggunakan bobot yang baru saja tiba.

Sistem ini menggunakan Direct I/O untuk melewati cache OS. Ia tidak menggunakan alokasi heap saat runtime. Ia menghindari semua mutex OS.

Hasilnya? Mac 16 GB dan Mac 512 GB akan menghasilkan kecerdasan yang persis sama dari model 235B. Yang satu hanya lebih cepat dari yang lain.

Hambatan memori (memory wall) di sekitar AI adalah asumsi perangkat lunak, bukan hukum alam. Anda dapat menjalankan model mutakhir pada perangkat keras yang sudah Anda miliki.

S-MoE bersifat open source.

Sumber: https://dev.to/melasistema/rock-paper-silicon-how-a-web-developer-used-a-satellite-hack-and-an-ai-agent-to-ask-a-ridiculous-5am1

Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi