משבר האמינות בזיהוי בינה מלאכותית: חלק מהכלים עוברים, אחרים נכשלים לחלוטין

מחקר שנערך לאחרונה על ידי ה-Authors Guild חשף פער עצום באמינות של גלאי כתיבה מבוססי בינה מלאכותית (AI), וגילה כי בעוד שחלק מהכלים מדויקים ביותר, אחרים פגומים מיסודם. חוסר היציבות הזה מהווה איום משמעותי על כותבים מקצועיים שפרנסתם תלויה בהוכחה שעבודתם נכתבה על ידי אדם.

פער הביצועים: משלמות לכשל מוחלט

ה-Authors Guild ערכו מבחן קפדני באמצעות עשרה מאמרים שפורסמו בין השנים 2020 ל-2022 — שנים לפני שהבינה המלאכותית היוצרת (Generative AI) הפכה לתופעה שכיחה. באמצעות שימוש בטקסט אנושי מ"עידן טרום-AI", המחקר סיפק נקודת ייחוס נקייה למדידת שיעורי התוצאות החיוביות השגויות (false positive rates).

התוצאות היו קיצוניות. Pangram ו-Grammarly הוכחו כאמינים ביותר, וזיהו נכונה כל טקסט שנכתב על ידי אדם כטקסט אנושי (ציון AI של 0.0%). גם Originality.ai הציג ביצועים חזקים ושמר על דיוק גבוה בכל הפרמטרים.

בניגוד מוחלט, Sidekicker.ai נכשל באופן דרמטי. כל מאמר אנושי במבחן סומן כ"נוצר ברובו על ידי AI", כאשר שני מאמרים ספציפיים קיבלו ציון AI של 100%. גם ZeroGPT התברר כלא אמין, שכן דיווח לעיתים קרובות על אחוזי AI גבוהים עבור טקסטים שהיו אנושיים ללא ספק, כמו המאמר על "פרס פוליצר של ארדריץ" (Erdrich Pulitzer Prize), אותו סימן בהסתברות של 76.3% ל-AI.

פרדוקס הכתיבה המקצועית

המחקר מדגיש פרדוקס טכני מטריד: ככל שהכותב האנושי מיומן יותר, כך גדל הסיכוי שהוא יסומן על ידי גלאים פגומים. כתיבה מקצועית נשענת על בהירות, תמציתיות ודיוק — בדיוק התבניות הסטטיסטיות שמודלי שפה גדולים (LLMs) אומנו לחקות.

מכיוון שמודלי AI מאומנים על פרוזה אנושית באיכות גבוהה, ה"טביעת אצבע" של משפט שנכתב במיומנות יכולה להיראות כמעט זהה למשפט שנוצר על ידי AI. מצב זה יוצר סביבה בעלת סיכון גבוה, שבה כותב שהשקיע עשורים בחידוד המקצוע שלו עלול לאבד חוזים או לפגוע במוניטין שלו בשל תוצאה חיובית שגויה של כלי כמו Sidekicker.

בעיית ה"קופסה השחורה" ועתיד הזיהוי

אפילו הכלים המצליחים עומדים בפני ביקורת בנוגע לשקיפות. מנכ"ל Pangram, מקס ספרו (Max Spero), ציין כי הגלאי שלו פועל למעשה כ"קופסה שחורה", כלומר הוא אינו יכול לספק הסבר מפורט מדוע טקסט מסוים סומן. בעוד שהוא טוען שבני אדם כותבים עם יותר גיוון ומבנה טיעוני מאשר האחידות של LLM, המחסור ביכולת פרשנות (interpretability) נותר מכשול עבור יכולת האחריותיות (accountability).

יתרה מכך, ההצלחה של Pangram ו-Grammarly במבחן זה מוכיחה בעיקר שהם טובים בהימנעות מתוצאות חיוביות שגויות (אי-סימון בני אדם). זה לא בהכרח מבטיח שהם יעילים באותה מידה בתפיסת AI (זיהוי טקסט מכונה).

בעוד התעשייה נאבקת להבחין בין "שימוש ב-AI כדי לכתוב" לבין "שימוש ב-AI כדי לחשוב", ה-Authors Guild מזהיר כי כלי זיהוי לעולם לא צריכים להוות את הבסיס היחיד להחלטות מקצועיות.

נקודות מפתח

  • שונות קיצונית בדיוק: בעוד ש-Pangram ו-Grammarly השיגו שיעור של 0% תוצאות חיוביות שגויות במבחן, Sidekicker.ai סימן 100% מהטקסט האנושי כנוצר על ידי AI.
  • הקנס המקצועי: כתיבה אנושית מדויקת ואיכותית חולקת דמיון סטטיסטי עם תוצרים של AI, מה שהופך כותבים מומחים לפגיעים לשגיאות זיהוי.
  • קריאה לפיקוח אנושי: ה-Authors Guild ממליץ למוציאים לאור להשתמש בגלאים רק ככלים משלימים ולאפשר לכותבים הזדמנות להגן על עבודתם.