Probably מגייסת 9 מיליון דולר כדי להילחם בהזיות של LLM באמצעות הנדסה מדויקת

ככל שמודלי שפה גדולים (LLMs) משתלבים יותר ויותר בתהליכי עבודה מקצועיים, התעשייה מתמודדת עם מכשול מתמיד: הנטייה של אפילו המודלים המתקדמים ביותר להזות (hallucinate). הסטארט-אפ Probably מתמודד עם האתגר הזה בראש בראש, לאחר שגייס 9 מיליון דולר בסיבוב Seed בהובלת Andreessen Horowitz, במטרה לבנות גישה קפדנית ודטרמיניסטית יותר לאמינות בינה מלאכותית.

בתנועה לעבר דיוק של 99.99%

המשימה המרכזית של Probably, בהובלת המייסד Peter Elias, היא לגשר על הפער בין הטבע ההסתברותי של LLMs לבין תקן הדיוק של 99.99% המצופה ממערכות דטרמיניסטיות. בסביבות בעלות סיכון גבוה, טעות עובדתית אחת יכולה להפוך כלי AI לחסר תועלת. כדי לפתור זאת, Probably מתרחקת מהרעיון שהדיוק הוא פונקציה של גודל המודל בלבד, ובמקום זאת מתמקדת ב-"harness engineering".

המוצר המוביל של החברה הוא כלי למדעי הנתונים (data science) שנועד להפיק תובנות ממאגרי נתונים מורכבים. בניגוד לצ'אטבוטים סטנדרטיים המספקים תגובות שיחתיות, הכלי של Probably מספק לכל תשובה ציטוט ספציפי וסימני ביקורת (audit trail) שקופים, מה שמאפשר למשתמשים לאמת את הלוגיקה שמאחורי כל פלט.

ארכיטקטורת ה-"Data Science Mech Suit"

במקום להסתמך אך ורק על יכולות ההסקה של מודל עצום, Probably משתמשת במה ש-Elias מכנה "data science mech suit". ארכיטקטורה זו מתפקדת כמערכת רתמות מורכבת, שבה הפלט הראשוני של ה-LLM נבחן מיד על ידי ולידטור (validator) דטרמיניסטי.

אם ה-LLM מייצר תוצאה שאינה תואמת באופן מושלם את מאגר הנתונים הבסיסי, הולידטור דוחה אותה. באופן מכריע, ה-LLM מאומן ספציפית מול הולידטור הזה, מה שיוצר מערכת של לולאה סגורה (closed-loop) המותאמת למהירות ושלמות עובדתית. גישה זו פועלת על עיקרון יסוד: על ידי זיקוק ההקשר וצמצום עמימות באמצעות הנדסה, ניתן לאלץ את המודל "לעשות את הדבר הנכון" מבלי לדרוש כוח מחשוב גס (brute force) עצום.

יעילות באמצעות מודלים קטנים ומקומיים יותר

אחת המשמעויות הטכניות המשמעותיות ביותר של הגישה של Probably היא היכולת להשתמש במודלים קטנים ויעילים יותר. מכיוון שה-"mech suit" מבצע את העבודה הקשה של האימות וזיקוק ההקשר, המערכת יכולה לפעול על מודלים שהם "ארבע דרגות חלשים יותר ממודלי קצה (frontier models)".

This shift has massive economic and operational benefits:

Challenging the Big AI Lab Incentive Model

Elias points out a structural misalignment in the current AI landscape: major AI labs are incentivized to build massive, general-purpose models that require frequent user corrections. Since these labs often charge based on token usage, more errors and more follow-up queries can actually increase revenue. By focusing on precision and "reducing ambiguity" through engineering rather than scale, Probably is carving out a niche for mission-critical AI applications where reliability is the only metric that matters.

Key Takeaways