Top AI Papers on Hugging Face

AI berkembang pesat ke tiga arah. Agen menjadi lebih cerdas. Generasi video menjadi lebih fleksibel. Model multimodal menjadi lebih efisien.

Berikut adalah 10 makalah AI terpenting dari Hugging Face hari ini.

  1. Agent Memory Systems Sebagian besar agen tidak memiliki cara nyata untuk mengingat riwayat pengguna atau rencana tugas. Makalah ini memperlakukan memori layaknya sebuah sistem manajemen data. Ia menggunakan modul untuk penyimpanan, pengambilan, dan pembaruan. Hal ini sangat penting bagi asisten AI jangka panjang dan tutor pribadi.

  2. DomainShuttle: Consistent Video Generation Menghasilkan video dengan karakter yang sama itu sulit. Makalah ini menggunakan pemodelan sadar-domain (domain-aware modeling) untuk menjaga subjek tetap konsisten di berbagai adegan yang berbeda. Ini membantu dalam pemasaran dan produksi film.

  3. DanceOPD: All-in-One Image Generation Alih-alih menggunakan banyak model untuk berbagai tugas, makalah ini menyuling berbagai keahlian pakar ke dalam satu model siswa (student model). Anda dapat menggunakannya untuk pengeditan gambar satu pintu seperti mengubah latar belakang atau menambahkan objek.

  4. ShutterMuse: Real-Time Photography Guide Sebagian besar AI berfokus pada pengeditan setelah foto diambil. Makalah ini berfokus pada momen pengambilan gambar. Ia menyarankan komposisi dan pose yang lebih baik secara real-time. Ini bisa diterapkan pada aplikasi kamera smartphone.

  5. ViQ: Efficient Visual Representation Model multimodal sering kali menggunakan terlalu banyak memori untuk gambar. ViQ menggunakan token visual terkuantisasi (quantized visual tokens) agar model tetap ringan dan cepat. Hal ini memungkinkan pemrosesan resolusi tinggi pada perangkat yang lebih kecil.

  6. Diffusion Language Models Sebagian besar LLM membaca dari kiri ke kanan. Makalah ini menggunakan difusi untuk menghasilkan teks dengan menghilangkan derau (denoising) pada token yang tersembunyi (masked tokens). Ia bekerja lebih baik pada tugas penalaran yang kompleks dan sangat bagus untuk pengeditan kode.

  7. Multimodal Code Intelligence AI sekarang dapat menulis kode dengan melihat gambar seperti GUI atau bagan. Survei ini berfokus pada verifikasi apakah kode yang dihasilkan benar-benar berfungsi. Ini adalah langkah besar bagi pengembangan web otomatis.

  8. Qwen-Image-Agent Prompt teks sering kali terlalu pendek untuk menghasilkan gambar yang luar biasa. Sistem ini bertindak sebagai agen. Ia merencanakan, mencari, dan menggunakan memori untuk membangun konteks sebelum menggambar. Ini membawa kita dari text-to-image menuju agen generasi gambar.

  9. MVTrack4Gen: Geometric Video Consistency Video sering kali memiliki bentuk yang terdistorsi saat kamera bergerak. Makalah ini menggunakan pelacakan multi-pandangan (multi-view tracking) untuk memastikan konsistensi geometris. Hal ini sangat penting untuk konten AR, VR, dan 3D.

  10. OPID: Efficient Agent Training Melatih agen dengan reinforcement learning memakan waktu lama. OPID menggunakan tugas-tugas yang telah selesai untuk mengajarkan keterampilan menengah kepada agen. Hal ini membuat pembelajaran jauh lebih cepat untuk agen pengkodean dan web.

Summary of Trends:

  • Agen menjadi sistem yang lengkap dengan memori dan perencanaan.
  • Generasi bergerak menuju konteks dan konsistensi yang lebih baik.
  • Representasi data yang efisien adalah kunci bagi AI skala besar.
  • Difusi sedang merambah dari gambar ke dalam model bahasa.

Source: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-26-197k

Optional learning community: https://t.me/GyaanSetuAi