איך אני מריץ מספר אפליקציות לבד: ה-Agent Harness

אני בונה ומתחזק מספר אפליקציות קטנות בעצמי. אין לי שותף, אין לי עובדים ואין לי קבלני משנה. אני משתמש באדם אחד ובקבוצה של סוכני AI.

אנשים חושבים ש-AI עוזר לי לתכנת מהר יותר. זה לא הסוד.

הסוד הוא שאני אף פעם לא נותן ל-AI להצהיר שמשימה הושלמה בלי הוכחה. כשעובדים לבד, הסכנה היא לא עבודה איטית. הסכנה היא להיות טועה בביטחון עצמי.

AI יגיד לך שהבדיקות עברו גם אם הוא מעולם לא הריץ אותן. הוא יגיד שפיצ'ר הסתיים כשהוא רק כתב שם של פונקציה. בלי קולגה שיפספס טעויות, "נראה טוב" אחד רע יכול להרוס לך את האפליקציה.

בניתי מערכת שנקראת ה-harness. היא הופכת השלמה כוזבת ליקרה. היא משתמשת בסוכנים ייעודיים ובשערי אימות (verification gates) כדי לוודא שה-AI אומר את האמת.

כך זה עובד:

• סוכנים ייעודיים: במקום עוזר אחד, אני משתמש בארבעים סוכנים ייעודיים. אחד סוקר קוד Flutter. אחד בודק אבטחה. אחד מריץ בדיקות. אחד מבצע ביקורת מציאות על ידי השוואת טענות מול שינויים בפועל. • עבודה מבודדת: הסוכנים עובדים בסביבות נפרדות וזמניות. הם לא יכולים לדרוס אחד את השני. • יתירות (Redundancy): אני משתמש במספר סוקרים עבור כל שינוי. סוקר אחד עלול לפספס באג. שלושה סוקרים עם מטרות שונות בתוספת ספקן ימצאו אותו. • תהליכי עבודה קבועים (Fixed Pipelines): כל משימה עוקבת אחר מסלול קשיח:

  • תכנון המשימות.
  • יישום השינוי.
  • הרצת הקוד בפועל. אני לא מקבל "אני חושב שזה עובד". אני מקבל רק פלט (output) ממשי.
  • ביקורת מציאות (Reality audit). סוכן נפרד בודק אם הקוד תואם לטענה.
  • סקירה (Review). מומחה שפה בודק את העבודה.
  • שער אימות (Verify gate). מעבר אחרון שבודק שינויים אמיתיים וזליגות אבטחה. הוא מחזיר PASS או REJECT.

המערכת הזו עוצרת את השקרים שהייתי נוהג לספר לעצמי.

"זה אמור לעבוד" נכשל בשלב הביצוע. "בוצע" נכשל בביקורת המציאות אם הקוד הוא רק מעטפת ריקה. "הכל ירוק" נכשל אם אזהרה מוסתרת.

אני משתמש גם במערכת זיכרון בעלת שלוש שכבות. היא משתמשת באינדקס קצר, הערות לטווח ארוך וחיפוש בטקסט מלא. זה מונע מה-AI לנחש איך הגדרתי דברים בעבר.

הכלל החשוב ביותר הוא זה: אני אוטומטיזציה של העבודה, אבל אני אף פעם לא אוטומטיזציה של השיפוט.

• פרסום הוא ידני. אני לוחץ על הכפתור. • עלייה לאוויר דורשת אותי. אני מאשר כל תשלום או הגדרת שחרור. • שום דבר לא מתמזג (merges) במקרה של כישלון. build שבור חוסם הכל.

המינוף של ה-AI מגיע מאוטומציה של משימות. הבטיחות מגיעה מהסירוב לאוטומציה של החלטות.

כשעובדים לבד, המשאב היקר ביותר הוא אמון. אתה חייב לסמוך על כך שמה שפרסמת הוא מה שהתכוונת לפרסם.

תתחילו בקטן. מצאו את הטעות שאתם עושים הכי הרבה פעמים. בנו בדיקה אחת שהופכת את הטעות הזו לבלתי אפשרית.

Source: https://dev.to/pi-maker/how-i-run-a-handful-of-apps-solo-the-agent-harness-explained-512i

Optional learning community: https://t.me/GyaanSetuAi