Makalah AI Teratas di Hugging Face - 2026-06-25
AI sedang beralih dari sekadar menjawab pertanyaan menjadi mengambil tindakan di dunia nyata. Tren saat ini berfokus pada agen, sistem memori, dan model multimodal waktu nyata.
Berikut adalah 10 makalah penelitian teratas yang perlu Anda ketahui:
• Qwen-AgentWorld (2606.24597) Sebagian besar agen belajar dalam simulasi yang terbatas. Makalah ini menggunakan model dunia bahasa (language world model). Agen membayangkan lingkungan melalui teks untuk mempelajari tindakan. Hal ini membantu membangun asisten AI yang dapat merencanakan sesuatu untuk jangka panjang.
• MemoryData (2606.24775) Agen membutuhkan memori jangka panjang untuk mengingat pengguna dan tugas-tugas sebelumnya. Makalah ini memperlakukan memori sebagai masalah manajemen data. Ia menciptakan kerangka kerja untuk mengevaluasi bagaimana agen menyimpan, mengambil, dan memperbarui informasi.
• NatureBench (2606.24530) Tolok ukur pengodean biasanya menguji tugas-tugas teknis. NatureBench menguji apakah AI dapat mendukung penemuan ilmiah. Ini menunjukkan bahwa agen saat ini adalah insinyur yang hebat, tetapi belum menjadi ilmuwan yang kreatif.
• DomainShuttle (2606.26058) Model text-to-video sering kali kesulitan menjaga konsistensi subjek. Makalah ini membantu model mempertahankan orang atau objek tertentu di berbagai domain video yang berbeda. Hal ini sangat penting untuk pemasaran yang dipersonalisasi.
• MemGUI-Agent (2606.19926) Agen seluler sering kali gagal saat menjalankan tugas panjang seperti memesan tiket pesawat. Makalah ini memperkenalkan manajemen konteks proaktif. Ia memperlakukan pengelolaan informasi sebagai langkah aktif dalam rantai tindakan.
• ShutterMuse (2606.25763) Sebagian besar alat foto AI bekerja setelah Anda mengambil gambar. ShutterMuse memberikan panduan waktu nyata mengenai komposisi dan pose saat Anda memotret. Ia bertindak sebagai kopilot fotografi.
• Wan-Streamer (2606.25041) Model multimodal sering kali terlalu lambat untuk interaksi langsung. Proyek ini membangun model streaming end-to-end untuk audio, video, dan teks. Tujuannya adalah latensi rendah dalam panggilan video dan host AI.
• Multimodal LLM for Code (2606.15932) Kecerdasan kode kini memerlukan pemahaman terhadap gambar, bagan, dan GUI. Survei ini memetakan bagaimana AI dapat menganalisis data visual untuk menulis atau memverifikasi kode.
• AOHP (2606.23449) Sebagian besar agen berjalan di atas OS. AOHP membangun sistem operasi berbasis agen (agent-native) yang berbasis Android. Hal ini menjadikan AI sebagai bagian inti dari ponsel, bukan sekadar aplikasi biasa.
• Masked Diffusion Language Model (2606.25331) Sebagian besar model menghasilkan teks dari kiri ke kanan. Makalah ini mengeksplorasi perhatian dua arah (bidirectional attention) menggunakan difusi. Ini menghasilkan hasil yang kompetitif dalam tugas matematika dan pengodean.
Era AI berikutnya bukan hanya tentang pemahaman. Ini adalah tentang mengingat, mensimulasikan, dan berinteraksi secara real-time.
Sumber: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi
