Hugging Face ನಲ್ಲಿನ ಪ್ರಮುಖ AI ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳು - 2026-06-25

AI ಕೇವಲ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸುವುದರಿಂದ ಹೊರಬಂದು, ನೈಜ ಪ್ರಪಂಚದಲ್ಲಿ ಕಾರ್ಯಗಳನ್ನು ಮಾಡುವತ್ತ ಬದಲಾಗುತ್ತಿದೆ. ಪ್ರಸ್ತುತ ಪ್ರವೃತ್ತಿಗಳು ಏಜೆಂಟ್‌ಗಳು (agents), ಮೆಮೊರಿ ಸಿಸ್ಟಮ್‌ಗಳು ಮತ್ತು ರಿಯಲ್-ಟೈಮ್ ಮಲ್ಟಿಮೋಡಲ್ ಮಾಡೆಲ್‌ಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿವೆ.

ನೀವು ತಿಳಿದುಕೊಳ್ಳಲೇಬೇಕಾದ ಪ್ರಮುಖ 10 ಸಂಶೋಧನಾ ಪ್ರಬಂಧಗಳು ಇಲ್ಲಿವೆ:

• Qwen-AgentWorld (2606.24597) ಹೆಚ್ಚಿನ ಏಜೆಂಟ್‌ಗಳು ಸೀಮಿತ ಸಿಮ್ಯುಲೇಶನ್‌ಗಳಲ್ಲಿ ಕಲಿಯುತ್ತವೆ. ಈ ಪ್ರಬಂಧವು 'ಲ್ಯಾಂಗ್ವೇಜ್ ವರ್ಲ್ಡ್ ಮಾಡೆಲ್' ಅನ್ನು ಬಳಸುತ್ತದೆ. ಏಜೆಂಟ್ ಕಾರ್ಯಗಳನ್ನು ಕಲಿಯಲು ಪಠ್ಯದ ಮೂಲಕ ಪರಿಸರಗಳನ್ನು ಕಲ್ಪಿಸಿಕೊಳ್ಳುತ್ತದೆ. ಇದು ದೀರ್ಘಾವಧಿಯ ಯೋಜನೆಗಳನ್ನು ರೂಪಿಸುವ AI ಸಹಾಯಕರನ್ನು ನಿರ್ಮಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

• MemoryData (2606.24775) ಬಳಕೆದಾರರನ್ನು ಮತ್ತು ಹಿಂದಿನ ಕಾರ್ಯಗಳನ್ನು ನೆನಪಿಟ್ಟುಕೊಳ್ಳಲು ಏಜೆಂಟ್‌ಗಳಿಗೆ ದೀರ್ಘಕಾಲದ ನೆನಪಿನ ಶಕ್ತಿ (long-term memory) ಅಗತ್ಯವಿದೆ. ಈ ಪ್ರಬಂಧವು ಮೆಮೊರಿಯನ್ನು ಡೇಟಾ ನಿರ್ವಹಣೆಯ ಸಮಸ್ಯೆಯಾಗಿ ಪರಿಗಣಿಸುತ್ತದೆ. ಏಜೆಂಟ್‌ಗಳು ಮಾಹಿತಿಯನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸುತ್ತವೆ, ಮರಳಿ ಪಡೆಯುತ್ತವೆ ಮತ್ತು ಅಪ್‌ಡೇಟ್ ಮಾಡುತ್ತವೆ ಎಂಬುದನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ಇದು ಒಂದು ಚೌಕಟ್ಟನ್ನು (framework) ಸೃಷ್ಟಿಸುತ್ತದೆ.

• NatureBench (2606.24530) ಕೋಡಿಂಗ್ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ತಾಂತ್ರಿಕ ಕಾರ್ಯಗಳನ್ನು ಪರೀಕ್ಷಿಸುತ್ತವೆ. NatureBench, AI ವಿಜ್ಞಾನದ ಸಂಶೋಧನೆಗೆ ಬೆಂಬಲ ನೀಡಬಲ್ಲದೇ ಎಂದು ಪರೀಕ್ಷಿಸುತ್ತದೆ. ಪ್ರಸ್ತುತ ಏಜೆಂಟ್‌ಗಳು ಉತ್ತಮ ಎಂಜಿನಿಯರ್‌ಗಳಾಗಿದ್ದರೂ, ಇನ್ನೂ ಸೃಜನಶೀಲ ವಿಜ್ಞಾನಿಗಳಾಗಿಲ್ಲ ಎಂಬುದನ್ನು ಇದು ತೋರಿಸುತ್ತದೆ.

• DomainShuttle (2606.26058) Text-to-video ಮಾಡೆಲ್‌ಗಳು ವಿಷಯದ (subject) ಸ್ಥಿರತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ಹೆಚ್ಚಾಗಿ ಕಷ್ಟಪಡುತ್ತವೆ. ಈ ಪ್ರಬಂಧವು ವಿಭಿನ್ನ ವೀಡಿಯೊ ಡೊಮೇನ್‌ಗಳಲ್ಲಿ ನಿರ್ದಿಷ್ಟ ವ್ಯಕ್ತಿ ಅಥವಾ ವಸ್ತುವನ್ನು ಉಳಿಸಿಕೊಳ್ಳಲು ಮಾಡೆಲ್‌ಗಳಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಇದು ವೈಯಕ್ತಿಕಗೊಳಿಸಿದ ಮಾರ್ಕೆಟಿಂಗ್‌ಗೆ (personalized marketing) ಅತ್ಯಗತ್ಯವಾಗಿದೆ.

• MemGUI-Agent (2606.19926) ವಿಮಾನ ಟಿಕೆಟ್ ಬುಕಿಂಗ್‌ನಂತಹ ದೀರ್ಘಾವಧಿಯ ಕಾರ್ಯಗಳ ಸಮಯದಲ್ಲಿ ಮೊಬೈಲ್ ಏಜೆಂಟ್‌ಗಳು ಹೆಚ್ಚಾಗಿ ವಿಫಲವಾಗುತ್ತವೆ. ಈ ಪ್ರಬಂಧವು 'ಪ್ರೊಆಕ್ಟಿವ್ ಕಾಂಟೆಕ್ಸ್ಟ್ ಮ್ಯಾನೇಜ್‌ಮೆಂಟ್' ಅನ್ನು ಪರಿಚಯಿಸುತ್ತದೆ. ಇದು ಮಾಹಿತಿಯ ನಿರ್ವಹಣೆಯನ್ನು ಕ್ರಿಯೆಯ ಸರಪಳಿಯಲ್ಲಿ (action chain) ಒಂದು ಸಕ್ರಿಯ ಹಂತವಾಗಿ ಪರಿಗಣಿಸುತ್ತದೆ.

• ShutterMuse (2606.25763) ಹೆಚ್ಚಿನ AI ಫೋಟೋ ಪರಿಕರಗಳು ನೀವು ಚಿತ್ರ ತೆಗೆದ ನಂತರ ಕೆಲಸ ಮಾಡುತ್ತವೆ. ShutterMuse ನೀವು ಫೋಟೋ ತೆಗೆಯುವಾಗ ಕಾಂಪೋಸಿಷನ್ ಮತ್ತು ಪೋಸಿಂಗ್ ಬಗ್ಗೆ ನೈಜ-ಸಮಯದ (real-time) ಮಾರ್ಗದರ್ಶನವನ್ನು ನೀಡುತ್ತದೆ. ಇದು ಫೋಟೋಗ್ರಫಿ ಕೋ-ಪೈಲಟ್ ಆಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

• Wan-Streamer (2606.25041) ಮಲ್ಟಿಮೋಡಲ್ ಮಾಡೆಲ್‌ಗಳು ಲೈವ್ ಸಂವಹನಕ್ಕಾಗಿ ಹೆಚ್ಚಾಗಿ ತುಂಬಾ ನಿಧಾನವಾಗಿರುತ್ತವೆ. ಈ ಯೋಜನೆಯು ಆಡಿಯೋ, ವೀಡಿಯೊ ಮತ್ತು ಪಠ್ಯಕ್ಕಾಗಿ ಎಂಡ್-ಟು-ಎಂಡ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಮಾಡೆಲ್ ಅನ್ನು ನಿರ್ಮಿಸುತ್ತದೆ. ಇದು ವೀಡಿಯೊ ಕರೆಗಳು ಮತ್ತು AI ಹೋಸ್ಟ್‌ಗಳಲ್ಲಿ ಕಡಿಮೆ ವಿಳಂಬವನ್ನು (low latency) ಗುರಿಯಾಗಿಸಿಕೊಂಡಿದೆ.

• Multimodal LLM for Code (2606.15932) ಕೋಡ್ ಇಂಟೆಲಿಜೆನ್ಸ್‌ಗೆ ಈಗ ಚಿತ್ರಗಳು, ಚಾರ್ಟ್‌ಗಳು ಮತ್ತು GUIಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಅಗತ್ಯವಾಗಿದೆ. AI ಹೇಗೆ ದೃಶ್ಯ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸಿ ಕೋಡ್ ಬರೆಯಬಹುದು ಅಥವಾ ಪರಿಶೀಲಿಸಬಹುದು ಎಂಬುದನ್ನು ಈ ಸಮೀಕ್ಷೆಯು ವಿವರಿಸುತ್ತದೆ.

• AOHP (2606.23449) ಹೆಚ್ಚಿನ ಏಜೆಂಟ್‌ಗಳು OS ಮೇಲೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. AOHP ಆಂಡ್ರಾಯ್ಡ್ ಆಧಾರಿತ ಏಜೆಂಟ್-ನೇಟಿವ್ ಆಪರೇಟಿಂಗ್ ಸಿಸ್ಟಮ್ ಅನ್ನು ನಿರ್ಮಿಸುತ್ತದೆ. ಇದು AI ಅನ್ನು ಕೇವಲ ಮತ್ತೊಂದು ಆಪ್ ಆಗಿರಿಸುವ ಬದಲು ಫೋನ್‌ನ ಒಂದು ಪ್ರಮುಖ ಭಾಗವಾಗಿಸುತ್ತದೆ.

• Masked Diffusion Language Model (2606.25331) ಹೆಚ್ಚಿನ ಮಾಡೆಲ್‌ಗಳು ಎಡದಿಂದ ಬಲಕ್ಕೆ ಪಠ್ಯವನ್ನು ಸೃಷ್ಟಿಸುತ್ತವೆ. ಈ ಪ್ರಬಂಧವು ಡಿಫ್ಯೂಷನ್ ಬಳಸಿ ಬೈಡೈರೆಕ್ಷನಲ್ ಅಟೆನ್ಷನ್ (bidirectional attention) ಅನ್ನು ಅನ್ವೇಷಿಸುತ್ತದೆ. ಇದು ಗಣಿತ ಮತ್ತು ಕೋಡಿಂಗ್ ಕಾರ್ಯಗಳಲ್ಲಿ ಸ್ಪರ್ಧಾತ್ಮಕ ಫಲಿತಾಂಶಗಳನ್ನು ನೀಡುತ್ತದೆ.

AI ನ ಮುಂದಿನ ಯುಗವು ಕೇವಲ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವ ಬಗ್ಗೆ ಮಾತ್ರವಲ್ಲ. ಇದು ನೆನಪಿಟ್ಟುಕೊಳ್ಳುವುದು, ಸಿಮ್ಯುಲೇಟ್ ಮಾಡುವುದು ಮತ್ತು ನೈಜ ಸಮಯದಲ್ಲಿ ಸಂವಹನ ನಡೆಸುವ ಬಗ್ಗೆಯಾಗಿದೆ.

ಮೂಲ: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi