Kertas Kerja AI Teratas di Hugging Face
AI sedang berkembang pesat dalam tiga arah. Ejen menjadi lebih pintar. Penjanaan video menjadi lebih fleksibel. Model multimodal menjadi lebih cekap.
Berikut adalah 10 kertas kerja AI paling penting daripada Hugging Face hari ini.
Sistem Memori Ejen Kebanyakan ejen kekurangan cara yang berkesan untuk mengingati sejarah pengguna atau rancangan tugasan. Kertas kerja ini mengendalikan memori seperti sistem pengurusan data. Ia menggunakan modul untuk penyimpanan, pengambilan, dan kemas kini. Ini sangat penting untuk pembantu AI jangka panjang dan tutor peribadi.
DomainShuttle: Penjanaan Video yang Konsisten Menjana video dengan watak yang sama adalah sukar. Kertas kerja ini menggunakan pemodelan sedar-domain (domain-aware modeling) untuk mengekalkan konsistensi subjek merentasi pelbagai babak. Ini membantu dalam pemasaran dan produksi filem.
DanceOPD: Penjanaan Imej Serba Boleh Daripada mempunyai banyak model untuk tugasan yang berbeza, kertas kerja ini menyuling pelbagai kemahiran pakar ke dalam satu model pelajar. Anda boleh menggunakannya untuk penyuntingan imej sehenti seperti menukar latar belakang atau menambah objek.
ShutterMuse: Panduan Fotografi Masa Nyata Kebanyakan AI memberi tumpuan kepada penyuntingan selepas foto diambil. Kertas kerja ini memberi tumpuan kepada saat rakaman. Ia mencadangkan komposisi dan gaya (pose) yang lebih baik secara masa nyata. Ia boleh digunakan dalam aplikasi kamera telefon pintar.
ViQ: Representasi Visual yang Cekap Model multimodal sering menggunakan terlalu banyak memori untuk imej. ViQ menggunakan token visual terkuantisasi (quantized visual tokens) untuk memastikan model kekal ringan dan pantas. Ini membolehkan pemprosesan resolusi tinggi pada peranti yang lebih kecil.
Model Bahasa Difusi Kebanyakan LLM membaca dari kiri ke kanan. Kertas kerja ini menggunakan difusi untuk menjana teks dengan menghilangkan hingar (denoising) pada token bertopeng (masked tokens). Ia berprestasi lebih baik dalam tugasan penaakulan yang kompleks dan sangat sesuai untuk penyuntingan kod.
Kecerdasan Kod Multimodal AI kini boleh menulis kod dengan melihat imej seperti GUI atau carta. Tinjauan ini memberi tumpuan kepada pengesahan sama ada kod yang dijana benar-benar berfungsi. Ini merupakan langkah besar untuk pembangunan web automatik.
Qwen-Image-Agent Arahan teks (text prompts) selalunya terlalu pendek untuk menghasilkan imej yang hebat. Sistem ini bertindak sebagai ejen. Ia merancang, mencari, dan menggunakan memori untuk membina konteks sebelum melukis. Ia membawa kita daripada teks-ke-imej kepada ejen penjanaan imej.
MVTrack4Gen: Konsistensi Geometri Video Video sering mempunyai bentuk yang terpesong apabila kamera bergerak. Kertas kerja ini menggunakan penjejakan pelbagai pandangan (multi-view tracking) untuk memastikan konsistensi geometri. Ini sangat penting untuk kandungan AR, VR, dan 3D.
OPID: Latihan Ejen yang Cekap Melatih ejen dengan pembelajaran pengukuhan (reinforcement learning) adalah perlahan. OPID menggunakan tugasan yang telah selesai untuk mengajar ejen kemahiran perantara. Ini menjadikan pembelajaran jauh lebih pantas untuk ejen pengekodan dan web.
Ringkasan Trend:
- Ejen menjadi sistem yang lengkap dengan memori dan perancangan.
- Penjanaan bergerak ke arah konteks dan konsistensi yang lebih baik.
- Representasi data yang cekap adalah kunci untuk AI berskala besar.
- Difusi sedang berkembang daripada imej kepada model bahasa.
Sumber: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-26-197k
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi
