𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

MA-ProofBench: GPT-5.5 משיג 16% בניתוח מתמטי

מודלי AI נוכחיים מתקשים במתמטיקה מתקדמת.

מדד ביצועים (benchmark) חדש בשם MA-ProofBench בוחן הוכחת משפטים בניתוח מתמטי. התוצאות מראות פער עצום ביכולות ההסקה.

GPT-5.5 הוביל את הבדיקות עם הציונים הבאים:

16% בבעיות ברמת תואר ראשון (Level I).
5% בבעיות ברמת דוקטורט (Level II).

רוב המודלים האחרים קיבלו ציון קרוב ל-0% בבעיות ברמת דוקטורט.

המדד כולל 200 משפטים ב-6 נושאים. נושאים אלו כוללים תורת המידה ואנליזה מרוכבת.

חוקרים מצאו שתי סיבות עיקריות לכך שהמודלים נכשלים:

הזיות Mathlib: מודלים כותבים קוד Lean שנראה נכון אך משתמש בכלים שאינם קיימים.
הוכחות לא שלמות: מודלים מתחילים הוכחה בצורה נכונה אך נכשלים בהגעה לסיומה.

קיים גם פער בין הסקה לא פורמלית להסקה פורמלית. מודלים מתפקדים טוב יותר כאשר הם משתמשים בשפה טבעית במקום בקוד קשיח.

הציונים הנמוכים במתמטיקה ברמת דוקטורט מראים על מגבלת תקרה עבור ה-AI הנוכחי. למודלי הקצה (frontier models) של היום חסר העומק הנדרש להוכחות פורמליות קפדניות בניתוח.

מדד זה יעקוב אחר השאלה האם מודלים עתידיים של OpenAI או Anthropic יוכלו לחצות את רף ה-20% בבעיות קשות יותר.

מקור: https://arxiv.org

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗥𝗲𝗮𝘀𝗼𝗻𝗶𝗻𝗴 𝗔𝘀 𝗔𝗻 𝗘𝗾𝘂𝗶𝗹𝗶𝗯𝗿𝗶𝘂𝗺 𝗣𝗼𝗶𝗻𝘁

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗪𝗵𝗲𝗻 𝗮 𝗛𝗮𝗻𝗱𝘄𝗿𝗶𝘁𝘁𝗲𝗻 𝗧𝗵𝗲𝘀𝗶𝘀 𝗕𝗲𝗰𝗼𝗺𝗲𝘀 𝟵𝟵 𝗣𝗲𝗿𝗰𝗲𝗻𝘁 𝗔𝗜