برترین مقالات هوش مصنوعی در Hugging Face - ۲۰۲۶-۰۶-۲۵
هوش مصنوعی در حال گذار از پاسخگویی به سوالات به سمت انجام اقدامات در دنیای واقعی است. روندهای فعلی بر عاملها (agents)، سیستمهای حافظه و مدلهای چندوجهی (multimodal) در لحظه تمرکز دارند.
در اینجا ۱۰ مقاله پژوهشی برتر که باید بشناسید آورده شده است:
• Qwen-AgentWorld (2606.24597) اکثر عاملها در شبیهسازیهای محدود یاد میگیرند. این مقاله از یک مدل دنیای زبانی استفاده میکند. عامل، محیطها را از طریق متن تصور میکند تا اقدامات را بیاموزد. این امر به ساخت دستیارهای هوش مصنوعی که برای بلندمدت برنامهریزی میکنند، کمک میکند.
• MemoryData (2606.24775) عاملها برای به خاطر سپردن کاربران و وظایف گذشته به حافظه بلندمدت نیاز دارند. این مقاله با حافظه به عنوان یک مسئله مدیریت داده برخورد میکند. این پژوهش چارچوبی برای ارزیابی نحوه ذخیرهسازی، بازیابی و بهروزرسانی اطلاعات توسط عاملها ایجاد میکند.
• NatureBench (2606.24530) بنچمارکهای کدنویسی معمولاً وظایف فنی را آزمایش میکنند. NatureBench بررسی میکند که آیا هوش مصنوعی میتواند از اکتشافات علمی پشتیبانی کند یا خیر. این مقاله نشان میدهد که عاملهای فعلی مهندسان فوقالعادهای هستند اما هنوز دانشمندان خلاقی نیستند.
• DomainShuttle (2606.26058) مدلهای تبدیل متن به ویدیو (Text-to-video) اغلب در حفظ ثبات سوژه با مشکل مواجه هستند. این مقاله به مدلها کمک میکند تا یک شخص یا شیء خاص را در دامنههای مختلف ویدئویی ثابت نگه دارند. این موضوع برای بازاریابی شخصیسازیشده حیاتی است.
• MemGUI-Agent (2606.19926) عاملهای موبایل اغلب در طول وظایف طولانی مانند رزرو پرواز شکست میخورند. این مقاله مدیریت پیشدستانه بافت (proactive context management) را معرفی میکند. این پژوهش مدیریت اطلاعات را به عنوان یک گام فعال در زنجیره اقدامات در نظر میگیرد.
• ShutterMuse (2606.25763) اکثر ابزارهای عکس هوش مصنوعی پس از گرفتن عکس کار میکنند. ShutterMuse در حین عکاسی، راهنماییهای لحظهای در مورد ترکیببندی و ژستگیری ارائه میدهد. این ابزار مانند یک کمکخلبان (copilot) عکاسی عمل میکند.
• Wan-Streamer (2606.25041) مدلهای چندوجهی اغلب برای تعامل زنده بسیار کند هستند. این پروژه یک مدل استریمینگ سرتاسری (end-to-end) برای صدا، ویدیو و متن میسازد. هدف آن کاهش تأخیر در تماسهای ویدئویی و میزبانهای هوش مصنوعی است.
• Multimodal LLM for Code (2606.15932) هوش کدنویسی اکنون نیازمند درک تصاویر، نمودارها و رابطهای کاربری گرافیکی (GUIs) است. این مقاله مروری ترسیم میکند که چگونه هوش مصنوعی میتواند دادههای بصری را برای نوشتن یا تأیید کد تحلیل کند.
• AOHP (2606.23449) اکثر عاملها روی یک سیستمعامل اجرا میشوند. AOHP یک سیستمعامل بومیِ عامل (agent-native) بر پایه اندروید میسازد. این کار باعث میشود هوش مصنوعی به جای یک اپلیکیشن ساده، به بخش اصلی گوشی تبدیل شود.
• Masked Diffusion Language Model (2606.25331) اکثر مدلها متن را از چپ به راست تولید میکنند. این مقاله توجه دوطرفه (bidirectional attention) را با استفاده از انتشار (diffusion) بررسی میکند. این مدل نتایج رقابتی در وظایف ریاضی و کدنویسی ارائه میدهد.
عصر بعدی هوش مصنوعی فقط درباره درک کردن نیست؛ بلکه درباره به خاطر سپردن، شبیهسازی و تعامل در لحظه است.
منبع: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi
