MA-ProofBench: GPT-5.5 משיג 16% בניתוח מתמטי
מודלי AI נוכחיים מתקשים במתמטיקה מתקדמת.
מדד ביצועים (benchmark) חדש בשם MA-ProofBench בוחן הוכחת משפטים בניתוח מתמטי. התוצאות מראות פער עצום ביכולות ההסקה.
GPT-5.5 הוביל את הבדיקות עם הציונים הבאים:
- 16% בבעיות ברמת תואר ראשון (Level I).
- 5% בבעיות ברמת דוקטורט (Level II).
רוב המודלים האחרים קיבלו ציון קרוב ל-0% בבעיות ברמת דוקטורט.
המדד כולל 200 משפטים ב-6 נושאים. נושאים אלו כוללים תורת המידה ואנליזה מרוכבת.
חוקרים מצאו שתי סיבות עיקריות לכך שהמודלים נכשלים:
- הזיות Mathlib: מודלים כותבים קוד Lean שנראה נכון אך משתמש בכלים שאינם קיימים.
- הוכחות לא שלמות: מודלים מתחילים הוכחה בצורה נכונה אך נכשלים בהגעה לסיומה.
קיים גם פער בין הסקה לא פורמלית להסקה פורמלית. מודלים מתפקדים טוב יותר כאשר הם משתמשים בשפה טבעית במקום בקוד קשיח.
הציונים הנמוכים במתמטיקה ברמת דוקטורט מראים על מגבלת תקרה עבור ה-AI הנוכחי. למודלי הקצה (frontier models) של היום חסר העומק הנדרש להוכחות פורמליות קפדניות בניתוח.
מדד זה יעקוב אחר השאלה האם מודלים עתידיים של OpenAI או Anthropic יוכלו לחצות את רף ה-20% בבעיות קשות יותר.
מקור: https://arxiv.org
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi