برترین مقالات هوش مصنوعی در Hugging Face - ۲۰۲۶-۰۶-۲۵

هوش مصنوعی در حال گذار از پاسخگویی به سوالات به سمت انجام اقدامات در دنیای واقعی است. روندهای فعلی بر عامل‌ها (agents)، سیستم‌های حافظه و مدل‌های چندوجهی (multimodal) در لحظه تمرکز دارند.

در اینجا ۱۰ مقاله پژوهشی برتر که باید بشناسید آورده شده است:

• Qwen-AgentWorld (2606.24597) اکثر عامل‌ها در شبیه‌سازی‌های محدود یاد می‌گیرند. این مقاله از یک مدل دنیای زبانی استفاده می‌کند. عامل، محیط‌ها را از طریق متن تصور می‌کند تا اقدامات را بیاموزد. این امر به ساخت دستیارهای هوش مصنوعی که برای بلندمدت برنامه‌ریزی می‌کنند، کمک می‌کند.

• MemoryData (2606.24775) عامل‌ها برای به خاطر سپردن کاربران و وظایف گذشته به حافظه بلندمدت نیاز دارند. این مقاله با حافظه به عنوان یک مسئله مدیریت داده برخورد می‌کند. این پژوهش چارچوبی برای ارزیابی نحوه ذخیره‌سازی، بازیابی و به‌روزرسانی اطلاعات توسط عامل‌ها ایجاد می‌کند.

• NatureBench (2606.24530) بنچمارک‌های کدنویسی معمولاً وظایف فنی را آزمایش می‌کنند. NatureBench بررسی می‌کند که آیا هوش مصنوعی می‌تواند از اکتشافات علمی پشتیبانی کند یا خیر. این مقاله نشان می‌دهد که عامل‌های فعلی مهندسان فوق‌العاده‌ای هستند اما هنوز دانشمندان خلاقی نیستند.

• DomainShuttle (2606.26058) مدل‌های تبدیل متن به ویدیو (Text-to-video) اغلب در حفظ ثبات سوژه با مشکل مواجه هستند. این مقاله به مدل‌ها کمک می‌کند تا یک شخص یا شیء خاص را در دامنه‌های مختلف ویدئویی ثابت نگه دارند. این موضوع برای بازاریابی شخصی‌سازی‌شده حیاتی است.

• MemGUI-Agent (2606.19926) عامل‌های موبایل اغلب در طول وظایف طولانی مانند رزرو پرواز شکست می‌خورند. این مقاله مدیریت پیش‌دستانه بافت (proactive context management) را معرفی می‌کند. این پژوهش مدیریت اطلاعات را به عنوان یک گام فعال در زنجیره اقدامات در نظر می‌گیرد.

• ShutterMuse (2606.25763) اکثر ابزارهای عکس هوش مصنوعی پس از گرفتن عکس کار می‌کنند. ShutterMuse در حین عکاسی، راهنمایی‌های لحظه‌ای در مورد ترکیب‌بندی و ژست‌گیری ارائه می‌دهد. این ابزار مانند یک کمک‌خلبان (copilot) عکاسی عمل می‌کند.

• Wan-Streamer (2606.25041) مدل‌های چندوجهی اغلب برای تعامل زنده بسیار کند هستند. این پروژه یک مدل استریمینگ سرتاسری (end-to-end) برای صدا، ویدیو و متن می‌سازد. هدف آن کاهش تأخیر در تماس‌های ویدئویی و میزبان‌های هوش مصنوعی است.

• Multimodal LLM for Code (2606.15932) هوش کدنویسی اکنون نیازمند درک تصاویر، نمودارها و رابط‌های کاربری گرافیکی (GUIs) است. این مقاله مروری ترسیم می‌کند که چگونه هوش مصنوعی می‌تواند داده‌های بصری را برای نوشتن یا تأیید کد تحلیل کند.

• AOHP (2606.23449) اکثر عامل‌ها روی یک سیستم‌عامل اجرا می‌شوند. AOHP یک سیستم‌عامل بومیِ عامل (agent-native) بر پایه اندروید می‌سازد. این کار باعث می‌شود هوش مصنوعی به جای یک اپلیکیشن ساده، به بخش اصلی گوشی تبدیل شود.

• Masked Diffusion Language Model (2606.25331) اکثر مدل‌ها متن را از چپ به راست تولید می‌کنند. این مقاله توجه دوطرفه (bidirectional attention) را با استفاده از انتشار (diffusion) بررسی می‌کند. این مدل نتایج رقابتی در وظایف ریاضی و کدنویسی ارائه می‌دهد.

عصر بعدی هوش مصنوعی فقط درباره درک کردن نیست؛ بلکه درباره به خاطر سپردن، شبیه‌سازی و تعامل در لحظه است.

منبع: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi