Hugging Face 'ਤੇ ਚੋਟੀ ਦੇ AI ਪੇਪਰ
AI ਹੁਣ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਾਲੇ ਮਾਡਲਾਂ ਤੋਂ ਅਜਿਹੇ ਸਿਸਟਮਾਂ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ ਜੋ ਕਾਰਵਾਈ (action) ਕਰ ਸਕਦੇ ਹਨ। ਉਹ ਹੁਣ ਅਸਲ ਸੰਦਰਭਾਂ (contexts) ਦੇ ਅਧਾਰ 'ਤੇ ਯਾਦ ਰੱਖਣਾ, ਅਨੁਕੂਲਿਤ ਹੋਣਾ ਅਤੇ ਨਿਰਮਾਣ ਕਰਨਾ ਸਿੱਖ ਰਹੇ ਹਨ।
ਅੱਜ Hugging Face ਤੋਂ ਚੋਟੀ ਦੇ 10 AI ਪੇਪਰ ਇੱਥੇ ਦਿੱਤੇ ਗਏ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ 4 ਮੁੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਵੰਡਿਆ ਗਿਆ ਹੈ:
1. Agent Memory ਅਤੇ Reasoning
• MemoryData (Paper ID: 2606.24775) ਜ਼ਿਆਦਾਤਰ agents ਕੋਲ ਲੰਬੇ ਸਮੇਂ ਦੀ ਯਾਦਦਾਸ਼ਤ (long-term memory) ਦੀ ਕਮੀ ਹੁੰਦੀ ਹੈ। ਇਹ ਪੇਪਰ ਯਾਦਦਾਸ਼ਤ ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਡਾਟਾਬੇਸ ਦੀ ਬਜਾਏ ਡਾਟਾ ਪ੍ਰਬੰਧਨ (data management) ਦੀ ਸਮੱਸਿਆ ਵਜੋਂ ਦੇਖਦਾ ਹੈ। ਇਹ ਇੱਕ ਅਜਿਹਾ ਫਰੇਮਵਰਕ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਇਹ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ ਕਿ agents ਸਮੇਂ ਦੇ ਨਾਲ ਸਹੀ ਰਹਿਣ ਲਈ ਜਾਣਕਾਰੀ ਨੂੰ ਕਿਵੇਂ ਸਟੋਰ, ਰਿਟ੍ਰੀਵ (retrieve) ਅਤੇ ਅਪਡੇਟ ਕਰਦੇ ਹਨ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਨਿੱਜੀ ਚੈਟਬੋਟਸ ਅਤੇ ਲੰਬੇ ਸਮੇਂ ਦੇ ਖੋਜ ਸਹਾਇਕ (research assistants)।
• OPID (Paper ID: 2606.26790) Reinforcement learning ਨਾਲ agents ਨੂੰ ਸਿਖਲਾਈ ਦੇਣਾ ਮੁਸ਼ਕਲ ਹੈ ਕਿਉਂਕਿ ਇਨਾਮ (rewards) ਬਹੁਤ ਘੱਟ ਮਿਲਦੇ ਹਨ। OPID ਵਿਸਤ੍ਰਿਤ ਹੁਨਰ ਕੱਢਣ ਲਈ ਪੂਰੇ ਕੀਤੇ ਗਏ ਕੰਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ agents ਨੂੰ ਸਿਰਫ਼ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਦੀ ਬਜਾਏ ਖਾਸ ਕਦਮ ਸਿੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਵੈੱਬ agents ਅਤੇ ਟਾਸਕ ਆਟੋਮੇਸ਼ਨ।
• Qwen-Image-Agent ਗੁੰਝਲਦਾਰ ਤਸਵੀਰਾਂ ਲਈ ਅਕਸਰ ਇੱਕ ਸਧਾਰਨ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ (text prompt) ਕਾਫ਼ੀ ਨਹੀਂ ਹੁੰਦਾ। ਇਹ agent ਤਸਵੀਰ ਬਣਾਉਣ ਤੋਂ ਪਹਿਲਾਂ ਯੋਜਨਾਬੰਦੀ ਅਤੇ ਤਰਕ ਰਾਹੀਂ ਇੱਕ ਪੂਰਾ ਸੰਦਰਭ (context) ਤਿਆਰ ਕਰਦਾ ਹੈ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਮਾਰਕੀਟਿੰਗ ਡਿਜ਼ਾਈਨ ਅਤੇ ਪੇਸ਼ੇਵਰ ਪ੍ਰੋਡਕਟ ਫੋਟੋਗ੍ਰਾਫੀ।
• The Verification Horizon ਕੋਡਿੰਗ agents ਵਿੱਚ, ਰਿਵਾਰਡ ਸਿਗਨਲ (reward signals) ਨੂੰ ਹੈਕ ਕਰਨਾ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ। ਇਹ ਪੇਪਰ ਦਲੀਲ ਦਿੰਦਾ ਹੈ ਕਿ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਹਿਣ ਲਈ ਵੈਰੀਫਿਕੇਸ਼ਨ ਸਿਸਟਮਾਂ ਨੂੰ agent ਦੇ ਨਾਲ-ਨਾਲ ਵਿਕਸਿਤ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਖੁਦਮੁਖਤਿਆਰ (autonomous) ਸਾਫਟਵੇਅਰ agents ਅਤੇ ਕੋਡਿੰਗ ਕੋਪਾਇਲਟਸ।
2. Image ਅਤੇ Video Generation
• DanceOPD ਬਹੁਤ ਸਾਰੇ ਮਾਡਲਾਂ ਨੂੰ image generation ਅਤੇ image editing ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਬਣਾਉਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ। DanceOPD ਇੱਕ distillation ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਇੱਕ ਮਾਡਲ ਨੂੰ ਕਈ ਰਚਨਾਤਮਕ ਹੁਨਰ ਸਿਖਾਏ ਜਾ ਸਕਣ ਬਿਨਾਂ ਇੱਕ ਦੂਜੇ ਵਿੱਚ ਦਖਲ ਦਿੱਤੇ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਆਲ-ਇਨ-ਵਨ ਰਚਨਾਤਮਕ ਡਿਜ਼ਾਈਨ ਟੂਲਸ।
• DomainShuttle (Paper ID: 2606.26058) ਖਾਸ ਲੋਕਾਂ ਜਾਂ ਜਾਨਵਰਾਂ ਦੇ ਵੀਡੀਓ ਬਣਾਉਣਾ ਮੁਸ਼ਕਲ ਹੈ। DomainShuttle ਵਿਸ਼ੇ ਦੀ ਪਛਾਣ (subject identity) ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਭਾਵੇਂ ਸਟਾਈਲ ਜਾਂ ਬੈਕਗ੍ਰਾਊਂਡ ਬਦਲ ਜਾਵੇ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਨਿੱਜੀ ਵੀਡੀਓ ਇਸ਼ਤਿਹਾਰ ਅਤੇ ਵਰਚੁਅਲ ਇਨਫਲੂਐਂਸਰ।
• MVTrack4Gen (Paper ID: 2606.26087) AI ਵੀਡੀਓਜ਼ ਵਿੱਚ ਅਕਸਰ ਵੱਖ-ਵੱਖ ਐਂਗਲਜ਼ ਵਿਚਕਾਰ ਜਿਓਮੈਟ੍ਰਿਕ ਇਕਸਾਰਤਾ (geometric consistency) ਦੀ ਕਮੀ ਹੁੰਦੀ ਹੈ। ਇਹ ਪੇਪਰ ਹਰ ਪੱਖ ਤੋਂ ਹਰਕਤ ਨੂੰ ਅਸਲੀ ਦਿਖਾਉਣ ਲਈ multi-view tracking ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): AR/VR ਅਤੇ ਮੂਵੀ ਪ੍ਰੋਡਕਸ਼ਨ।
• ViQ (Paper ID: 2606.27313) ਵਿਜ਼ੂਅਲ ਟੋਕਨ ਅਕਸਰ ਅਰਥ ਸਮਝਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਸਮੇਂ ਵੇਰਵੇ ਗੁਆ ਲੈਂਦੇ ਹਨ। ViQ ਇੱਕ ਅਜਿਹਾ ਤਰੀਕਾ ਬਣਾਉਂਦਾ ਹੈ ਜਿਸ ਨਾਲ ਇੱਕ ਫਰੇਮਵਰਕ ਵਿੱਚ ਉੱਚ-ਪੱਧਰੀ ਅਰਥ ਅਤੇ ਘੱਟ-ਪੱਧਰੀ ਵੇਰਵੇ ਦੋਵੇਂ ਰੱਖੇ ਜਾ ਸਕਣ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਹਾਈ-ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਇਮੇਜ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਰਿਟ੍ਰੀਵਲ।
3. Robotics ਅਤੇ Real-World Interaction
• ICWM ਰੋਬੋਟਾਂ ਨੂੰ ਹਰ ਰੋਜ਼ ਨਵੇਂ ਰਗੜ (friction) ਅਤੇ ਭਾਰ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ। ਦੁਬਾਰਾ ਸਿਖਲਾਈ (retraining) ਦੇਣ ਦੀ ਬਜਾਏ, ICWM ਰੋਬੋਟਾਂ ਨੂੰ ਆਪਣੇ ਵਾਤਾਵਰਣ ਦੀ ਖੋਜ ਕਰਨ ਅਤੇ ਸੰਦਰਭ ਰਾਹੀਂ ਤੁਰੰਤ ਅਨੁਕੂਲਿਤ ਹੋਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਉਦਯੋਗਿਕ ਰੋਬੋਟ ਅਤੇ ਵੇਅਰਹਾਊਸ ਆਟੋਮੇਸ਼ਨ।
4. User-Centric AI
• ShutterMuse (Paper ID: 2606.25763) ਜ਼ਿਆਦਾਤਰ AI ਫੋਟੋ ਖਿੱਚਣ ਤੋਂ ਬਾਅਦ ਮਦਦ ਕਰਦੇ ਹਨ। ShutterMuse ਫੋਟੋ ਖਿੱਚਣ ਦੌਰਾਨ ਹੀ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਕੰਪੋਜ਼ੀਸ਼ਨ ਅਤੇ ਪੋਜ਼ ਸੁਝਾ ਕੇ ਮਦਦ ਕਰਦਾ ਹੈ। ਵਰਤੋਂ ਦਾ ਮਾਮਲਾ (Use case): ਸਮਾਰਟ ਕੈਮਰਾ ਐਪਸ ਅਤੇ ਮੋਬਾਈਲ ਫੋਟੋਗ੍ਰਾਫੀ ਸਹਾਇਕ।
ਤਿੰਨ ਮੁੱਖ ਰੁਝਾਨ:
- Agents ਜੋ ਯੋਜਨਾ ਬਣਾਉਂਦੇ ਹਨ, ਯਾਦ ਰੱਖਦੇ ਹਨ ਅਤੇ ਆਪਣੇ ਆਪ ਨੂੰ ਸੁਧਾਰਦੇ ਹਨ।
- Generative media ਜੋ ਵਿਸ਼ੇ ਅਤੇ ਜਿਓਮੈਟ੍ਰਿਕ ਇਕਸਾਰਤਾ ਨੂੰ ਬਣਾਈ ਰੱਖਦਾ ਹੈ।
- ਸਿਸਟਮ ਜੋ ਲਗਾਤਾਰ ਰੀਟ੍ਰੇਨਿੰਗ ਦੀ ਲੋੜ ਦੀ ਬਜਾਏ ਸੰਦਰਭ ਅਨੁਸਾਰ ਅਨੁਕੂਲਿਤ ਹੁੰਦੇ ਹਨ।
ਸਰੋਤ: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-28-2eg
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi
