𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

בחינת ביצועים (Benchmarking) של LLMs לכתיבת קוד ב-2026

הפסיקו לנחש אם עוזר הכתיבה שלכם עובד. הערכה ויזואלית של הפלטים אינה אסטרטגיה. אתם זקוקים לדרך להשוות בין מודלים באמצעות נתונים אמיתיים.

בנצ'מרק טוב בוחן שלושה תחומים ספציפיים:

ניתן להשתמש בחבילת OpenAI Evals כדי להפוך את התהליך לאוטומטי. היא כוללת 75 משימות ב-Python, JavaScript ו-Go. היא עובדת עם כל מודל שתואם ל-API.

עקבו אחר הצעדים הבאים כדי לבנות את תהליך העבודה שלכם:

שכפלו את המאגר: git clone https://github.com/openai/evals.git
הגדירו את הסביבה שלכם: python3 -m venv .venv source .venv/bin/activate pip install -e .
צרו קובץ models.yaml כדי לרשום את המודלים שלכם. תוכלו לבחון מודלים מאוחסנים כמו Claude או Gemini לצד מודלים בקוד פתוח כמו Mistral.
הריצו את הבדיקות: python -m evals.legacy.run_all --model-config models.yaml

הכלי מייצר קובץ CSV. טענו את הקובץ הזה לגיליון אלקטרוני כדי לעקוב אחר המדדים הבאים:

נתונים עוזרים לכם לקבל החלטות פריסה (deployment) טובות יותר.

צרכים של דיוק גבוה: השתמשו ב-Claude-Opus ליצירת קוד קריטי.
צרכים של שיהוי נמוך: השתמשו ב-Mistral-7B עבור מכשירי קצה (edge devices) או הצעות מהירות.
צרכים מאוזנים: השתמשו בגישה היברידית. הפנו משימות קלות ל-Gemini ומשימות מורכבות ל-Claude.

מודלים משתנים במהירות. הגדירו הרצה אוטומטית שבועית. אם הדיוק יורד ביותר מ-5%, תדעו זאת מיד.

הפכו תחושות מעורפלות למספרים קונקרטיים עבור בעלי העניין שלכם.

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

Continue reading