הצוות שלך לא צריך מודל AI טוב יותר השבוע

תפסיקו לחפש מודלים חדשים של AI. השדרוג האמיתי שאתם צריכים הוא תהליך העבודה (workflow) שלכם.

רוב הצוותים מתמקדים בשאלה איזה מודל מרגיש חכם יותר. הם מבצעים בדיקות השוואה (benchmarks) לגרסאות חדשות ומתווכחים על רמת האינטליגנציה. אבל אם אתם בונים עם LLMs, אתם יודעים מה הכאב האמיתי. הבעיה היא לא קוד גרוע. הבעיה היא ביצוע גרוע.

אתם רואים את הבעיות האלו:

  • לולאות סוכנים (Agent loops) שנעצרות באמצע משימה.
  • הנחיות אישור (Approval prompts) שמבלבלות אנשים.
  • שרשראות הקשר (Context chains) שנשברות במהלך ניסיונות חוזרים (retries).
  • בני אדם שמנקים אחרי האוטומציה כי היא איבדה את המצב (state) שלה.

האינטליגנציה עולה, אבל השליטה התפעולית מפגרת מאחור. אנחנו נכנסים לעידן של "מס הניהול" (orchestration tax). אם לא תתכננו לכך, תשלמו על זה באמצעות השבתות וכשלים שקטים.

הפלט של ה-AI הוא לעיתים רחוקות המוצר הסופי. הוא שלב ביניים במערכת גדולה יותר. אתם חייבים לפתור את השאלות הבאות:

  • האם המשימה יכולה להתחדש לאחר פקיעת זמן (timeout)?
  • האם אנחנו יכולים לבצע ביקורת (audit) על כל אישור?
  • האם אנחנו יכולים להריץ שלבים מחדש מבלי לבצע פעולות כפולות?
  • האם בן אדם יכול לקחת פיקוד באמצע התהליך?

מהנדסים בכירים פתרו את הבעיות האלו כבר לפני שנים בתחומי התשלומים והתהליכים ברקע (background jobs). השתמשנו במפתחות אידמפוטנטיות (idempotency keys), נקודות בקרה (checkpoints) ויומני טרנזקציות (transaction logs). ה-AI לא המציא את הבעיות האלו. הוא רק גרם להן לקרות מהר יותר.

אל תבחרו מודל לפני שתבחרו את חוזה הביצוע (execution contract) שלכם. זה כמו לבחור מנוע למרוץ עבור מכונית בלי בלמים.

בנו תהליך עבודה אמין באמצעות השלבים הבאים:

  1. חלקו את עבודת ה-AI לשלבים קטנים אל תשתמשו ב-prompt אחד ענק. פרקו אותו: איסוף הקשר, הצעה לשינוי, הרצת בדיקות, בקשת אישור ויישום השינוי.

  2. השתמשו באחסון עמיד (durable storage) השתמשו במסד נתונים כדי לעקוב אחר סטטוס, שלבים ומספר ניסיונות. אם עובד (worker) קורס, אתם משחזרים מהמצב (state) ולא מהזיכרון (memory).

  3. אכיפת אידמפוטנטיות (idempotency) לכל פעולה שמשנה נתונים חייב להיות מפתח יציב. אם שלב רץ פעמיים, התוצאה חייבת להישאר זהה.

  4. ניהול הרשאות באמצעות רמות (tiers) הפסיקו לבקש אישורים תמידיים. צרו רמות:

  • Tier 0: משימות לקריאה בלבד (מאושרות אוטומטית).
  • Tier 1: כתיבות בסיכון נמוך (אישור אצווה/batched).
  • Tier 2: משימות בעלות השפעה גבוהה (נקודת בקרה אנושית).
  1. מעקב אחר מדדים תפעוליים הפסיקו להסתכל רק על שיהוי (latency) ועלות. עקבו אחר שיעורי timeout, הצלחת ניסיונות חוזרים (retry success) ותדירות ביטולים (rollback frequency).

צוותי ה-AI הטובים ביותר לא יתרברבו ב-"prompts קסומים". הם יריצו צינורות עבודה (pipelines) משעממים, עמידים וניתנים לצפייה (observable). היתרון שלהם הוא לא המודל. היתרון שלהם הוא הנדסת מערכות ממושמעת.

Source: https://dev.to/chrisbuildsonline/your-team-doesnt-need-a-better-ai-model-this-week-29l4

Optional learning community: https://t.me/GyaanSetuAi