Top AI Papers on Hugging Face

การแข่งขันด้าน AI กำลังก้าวข้ามผ่านแค่การทำให้โมเดลมีขนาดใหญ่ขึ้น ในปัจจุบัน จุดสนใจอยู่ที่วิธีการให้บริการ (serve) การจดจำ (remember) และการประเมินผล (evaluate) โมเดลเหล่านั้น

และนี่คือ 10 งานวิจัย AI ที่สำคัญที่สุดบน Hugging Face ในขณะนี้:

  1. Program-as-Weights หลายงานสามารถอธิบายได้ง่ายด้วยภาษาอังกฤษทั่วไป แต่เขียนเป็นโค้ดได้ยาก แทนที่จะต้องใช้การ Prompt โมเดลขนาดใหญ่ทุกครั้ง วิธีนี้จะใช้โมเดลขนาดใหญ่ในการคอมไพล์ (compile) ภาษาธรรมชาติให้กลายเป็นน้ำหนักประสาท (neural weights) ขนาดเล็ก คุณสามารถรันน้ำหนักขนาดจิ๋วเหล่านี้ด้วยโมเดลที่มีขนาดเบา ซึ่งช่วยให้ประหยัดและรวดเร็วกว่าสำหรับงานอย่างการตรวจสอบเนื้อหา (content moderation) หรือการกรองอีเมล

  2. AgenticSTS เอเจนต์ (agent) ที่ทำงานระยะยาวมักจะล้มเหลวเพราะหน่วยความจำที่กระจัดกระจาย งานวิจัยนี้เสนอให้ใช้เลเยอร์หน่วยความจำที่มีโครงสร้าง (structured memory layers) แทนที่จะเป็นการเทประวัติการแชทดิบๆ ลงไป ช่วยให้เอเจนต์สามารถจัดการกับงานที่ซับซ้อน เช่น เกมวางแผน หรือโครงการวิจัยระยะยาวได้

  3. PerceptionRubrics เกณฑ์มาตรฐาน (benchmarks) แบบ multimodal ในปัจจุบันมักจะแสดงคะแนนที่สูง แต่ประสิทธิภาพในโลกความเป็นจริงกลับต่ำ เฟรมเวิร์กนี้ใช้เกณฑ์การให้คะแนน (rubrics) ที่ละเอียดเพื่อประเมินว่าโมเดล "มองเห็น" โลกอย่างไร ช่วยให้นักพัฒนาสามารถแก้ไขข้อผิดพลาดที่ดูไม่สมเหตุสมผลในผู้ช่วยด้านภาพ (visual assistants) และเครื่องมือ OCR ได้

  4. EvoPolicyGym เอเจนต์จะพัฒนาตัวเองได้อย่างไรโดยไม่ต้องใช้วิธีการเดาสุ่ม? งานวิจัยนี้ทดสอบว่าเอเจนต์สามารถอ่านคำติชม (feedback) และอัปเดตพฤติกรรมของตัวเองได้หรือไม่ ซึ่งมีประโยชน์อย่างยิ่งสำหรับหุ่นยนต์และเวิร์กโฟลว์อัตโนมัติ

  5. FlashMorph การใช้ Full attention ใน Transformers นั้นมีค่าใช้จ่ายสูงสำหรับเอกสารที่มีความยาว FlashMorph ช่วยหาจุดสมดุลที่ดีที่สุดโดยการเลือกเลเยอร์ที่จำเป็นต้องใช้ full attention และเลเยอร์ที่สามารถใช้ linear attention ที่ราคาถูกกว่าได้ เหมาะอย่างยิ่งสำหรับผู้ช่วยด้านกฎหมายหรือการเขียนโค้ด

  6. TurboServe การสร้างวิดีโอนั้นยากกว่าการสร้างข้อความมาก เพราะต้องใช้ทรัพยากร GPU มหาศาล TurboServe จัดการการสตรีมวิดีโอโดยการเพิ่มประสิทธิภาพการเคลื่อนที่ของข้อมูลแบบเป็นส่วนๆ (data chunks) ผ่านระบบ ซึ่งเป็นสิ่งสำคัญสำหรับแพลตฟอร์ม text-to-video ขนาดใหญ่

  7. ELDR ในโมเดลแบบ Mixture-of-Experts (MoE) การเคลื่อนย้ายข้อมูลระหว่างผู้เชี่ยวชาญ (experts) ก่อให้เกิดคอขวด ELDR จะทำนายว่าคำขอ (request) นั้นต้องการผู้เชี่ยวชาญคนไหนและทำการส่งเส้นทาง (route) อย่างชาญฉลาด ช่วยลดความหน่วง (latency) สำหรับการทำ LLM inference ขนาดใหญ่

  8. Asymmetric Mutual Variational Learning บางครั้งโมเดลแบบ multimodal ก็ "โกง" โดยการมองเห็นคำตอบใน latent space ระหว่างการฝึกฝน วิธีนี้จะช่วยทำให้การใช้เหตุผล (reasoning) มีความเสถียร เพื่อให้โมเดลยังคงความแม่นยำเมื่อใช้งานจริง ซึ่งยอดเยี่ยมมากสำหรับงานด้านภาพถ่ายทางการแพทย์ (medical imaging)

  9. Seed2.0 โมเดลส่วนใหญ่มักจะทำคะแนนได้ดีในเกณฑ์มาตรฐาน แต่กลับล้มเหลวเมื่อเจอกับความซับซ้อนในโลกความเป็นจริง Seed2.0 จึงมุ่งเน้นไปที่การใช้เหตุผล การทำความเข้าใจรูปภาพ และการค้นหาในสภาพแวดล้อมที่วุ่นวายของโลกจริง

  10. MemSyco-Bench หน่วยความจำสามารถทำให้เอเจนต์มีพฤติกรรมแบบ "sycophantic" (ประจบสอพลอ) ซึ่งหมายความว่ามันจะเห็นด้วยกับคุณเพียงเพื่อให้ดูเหมือนว่ามีประโยชน์ แม้ว่าคุณจะผิดก็ตาม งานวิจัยนี้วัดว่าหน่วยความจำสามารถสร้างอคติ (bias) ต่อการใช้เหตุผลของเอเจนต์ได้อย่างไร ซึ่งสำคัญอย่างยิ่งต่อการสร้างเพื่อนคู่คิด AI ที่มีความซื่อสัตย์

บทสรุปสำคัญ: สถาปัตยกรรมระบบ การออกแบบหน่วยความจำ และต้นทุนในการปรับใช้ (deployment) กลายเป็นสิ่งสำคัญพอๆ กับตัวโมเดลเองในปัจจุบัน

Source: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-07-03-2mpn

Optional learning community: https://t.me/GyaanSetuAi