𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 در تحلیل ریاضی به امتیاز ۱۶٪ رسید

مدل‌های فعلی هوش مصنوعی در ریاضیات پیشرفته با دشواری روبرو هستند.

یک بنچمارک جدید به نام MA-ProofBench، اثبات قضیه در تحلیل ریاضی را مورد آزمایش قرار می‌دهد. نتایج نشان‌دهنده شکافی عظیم در مهارت‌های استدلال است.

GPT-5.5 با این امتیازها در آزمایش‌ها پیشتاز بود:

۱۶٪ در مسائل مقطع کارشناسی (سطح I).
۵٪ در مسائل مقطع دکتری (سطح II).

اکثر مدل‌های دیگر در مسائل سطح دکتری، امتیازی نزدیک به ۰٪ کسب کردند.

این بنچمارک شامل ۲۰۰ قضیه در ۶ موضوع مختلف است. این موضوعات شامل نظریه اندازه و آنالیز مختلط است.

محققان دو دلیل اصلی برای شکست مدل‌ها یافتند:

توهمات Mathlib: مدل‌ها کدهای Lean می‌نویسند که درست به نظر می‌رسند اما از ابزارهای غیرموجود استفاده می‌کنند.
اثبات‌های ناقص: مدل‌ها اثبات را به درستی شروع می‌کنند اما در رسیدن به پایان آن شکست می‌خورند.

همچنین شکافی بین استدلال غیررسمی و رسمی وجود دارد. مدل‌ها زمانی که به جای کدهای سخت‌گیرانه از زبان طبیعی استفاده می‌کنند، عملکرد بهتری دارند.

امتیازات پایین در ریاضیات سطح دکتری، نشان‌دهنده سقفی برای هوش مصنوعی فعلی است. مدل‌های پیشرو امروزی فاقد عمق لازم برای اثبات‌های رسمی و دقیق در آنالیز هستند.

این بنچمارک ردیابی خواهد کرد که آیا مدل‌های آینده OpenAI یا Anthropic می‌توانند از مرز ۲۰٪ در مسائل دشوارتر عبور کنند یا خیر.

منبع: https://arxiv.org

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

استدلال هوش مصنوعی به عنوان یک نقطه تعادل

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

وقتی یک پایان‌نامه دست‌نویس، ۹۹ درصد هوش مصنوعی می‌شود