أزمة موثوقية كشف الذكاء الاصطناعي: بعض الأدوات تنجح، وأخرى تفشل تماماً

كشفت دراسة حديثة أجرتها نقابة المؤلفين (Authors Guild) عن تفاوت هائل في موثوقية أدوات كشف الكتابة بواسطة الذكاء الاصطناعي، حيث أظهرت أنه بينما تتميز بعض الأدوات بدقة عالية، فإن أدوات أخرى تعاني من عيوب جوهرية. ويشكل هذا التقلب تهديداً كبيراً للكتاب المحترفين الذين تعتمد سبل عيشهم على إثبات أن أعمالهم من صنع البشر.

فجوة الأداء: من المثالية إلى الفشل الذريع

أجرت نقابة المؤلفين اختباراً صارماً باستخدام عشر مقالات نُشرت بين عامي 2020 و2022—أي قبل سنوات من تحول الذكاء الاصطناعي التوليدي إلى ظاهرة سائدة. ومن خلال استخدام نصوص بشرية من "عصر ما قبل الذكاء الاصطناعي"، وفرت الدراسة خط أساس نقياً لقياس معدلات الإيجابيات الكاذبة.

كانت النتائج متباينة للغاية. فقد برزت Pangram و Grammarly كأكثر الأدوات موثوقية، حيث حددت كل نص مكتوب بواسطة البشر بشكل صحيح على أنه بشري (بنسبة 0.0% كدرجة ذكاء اصطناعي). كما قدمت Originality.ai أداءً قوياً، وحافظت على دقة عالية في جميع المجالات.

وفي تناقض صارخ، فشلت Sidekicker.ai فشلاً ذريعاً؛ إذ تم تصنيف كل مقال بشري في الاختبار على أنه "مُنشأ غالباً بواسطة الذكاء الاصطناعي"، مع حصول مقالين محددين على درجة ذكاء اصطناعي بنسبة 100%. كما أثبت ZeroGPT عدم موثوقيته، حيث سجل تكراراً نسباً عالية للذكاء الاصطناعي في نصوص بشرية لا شك فيها، مثل مقال "جائزة إردريش بوليتزر" (Erdrich Pulitzer Prize)، الذي صنفه باحتمالية ذكاء اصطناعي بلغت 76.3%.

مفارقة الكتابة الاحترافية

تسلط الدراسة الضوء على مفارقة تقنية مقلقة: فكلما كان الكاتب البشري أكثر مهارة، زاد احتمال تصنيفه من قبل أدوات الكشف المعيبة. تعتمد الكتابة الاحترافية على الوضوح، والإيجاز، والدقة—وهي الأنماط الإحصائية ذاتها التي تدربت نماذج اللغات الكبيرة (LLMs) على محاكاتها.

ولأن نماذج الذكاء الاصطناعي تتدرب على نصوص بشرية عالية الجودة، فإن "البصمة" الخاصة بجملة مكتوبة ببراعة قد تبدو متطابقة تقريباً مع جملة منشأة بواسطة الذكاء الاصطناعي. وهذا يخلق بيئة عالية المخاطر، حيث يمكن لكاتب قضى عقوداً في صقل حرفته أن يفقد عقوداً أو يتضرر سمعته بسبب نتيجة إيجابية كاذبة من أداة مثل Sidekicker.

مشكلة "الصندوق الأسود" ومستقبل الكشف

حتى الأدوات الناجحة تواجه انتقادات تتعلق بالشفافية. فقد أشار ماكس سبيرو، الرئيس التنفيذي لشركة Pangram، إلى أن أداة الكشف الخاصة به تعمل أساساً كـ "صندوق أسود"، مما يعني أنها لا تستطيع تقديم تفسير مفصل لسبب تصنيف نص معين. وبينما يجادل بأن البشر يكتبون بتنوع وهيكلية حجاجية أكبر من النمط الموحد لنماذج اللغات الكبيرة، فإن غياب القابلية للتفسير يظل عقبة أمام المساءلة.

علاوة على ذلك، فإن نجاح Pangram و Grammarly في هذا الاختبار يثبت في المقام الأول براعتهما في تجنب الإيجابيات الكاذبة (أي عدم تصنيف البشر كذكاء اصطناعي)، لكنه لا يضمن بالضرورة أنهما بنفس الفعالية في كشف الذكاء الاصطناعي (تحديد النصوص الآلية).

ومع صراع الصناعة للتمييز بين "استخدام الذكاء الاصطناعي للكتابة" و"استخدام الذكاء الاصطناعي للتفكير"، تحذر نقابة المؤلفين من ألا تكون أدوات الكشف هي الأساس الوحيد لاتخاذ القرارات المهنية.

خلاصات رئيسية

  • تباين شديد في الدقة: بينما حققت Pangram و Grammarly معدل 0% في الإيجابيات الكاذبة في الاختبار، قامت Sidekicker.ai بتصنيف 100% من النصوص البشرية على أنها منشأة بواسطة الذكاء الاصطناعي.
  • الضريبة المهنية: تشترك الكتابة البشرية الدقيقة وعالية الجودة في تشابهات إحصائية مع مخرجات الذكاء الاصطناعي، مما يجعل الكتاب الخبراء عرضة لأخطاء الكشف.
  • الدعوة إلى الإشراف البشري: تنصح نقابة المؤلفين الناشرين باستخدام أدوات الكشف كأدوات تكميلية فقط، ومنح الكتاب فرصة للدفاع عن أعمالهم.