بررسی هوش علمی در LLMها

پژوهشگران می‌خواهند بدانند که آیا مدل‌های زبانی بزرگ (Large Language Models) دارای هوش علمی هستند یا خیر.

بیشتر آزمون‌ها بر حقایق ساده تمرکز دارند. این مطالعه از جریان‌های کاری (workflows) همسو با نحوه کار دانشمندان واقعی استفاده می‌کند.

پژوهشگران نحوه مدیریت استدلال‌های علمی پیچیده توسط مدل‌ها را مورد آزمایش قرار دادند.

یافته‌های کلیدی:

  • مدل‌های فعلی در مواجهه با جریان‌های کاری علمی طولانی با مشکل روبرو هستند.
  • خطاهای استدلالی در طول فرآیندهای چندمرحله‌ای رخ می‌دهند.
  • همسویی با روش‌های علمی باعث بهبود دقت می‌شود.

برای درک محدودیت‌های هوش مصنوعی در پژوهش، باید به این جریان‌های کاری توجه کنید. بنچمارک‌های استاندارد تصویر کاملی را ارائه نمی‌دهند.

منبع: https://dev.to/paperium/probing-scientific-general-intelligence-of-llms-with-scientist-aligned-workflows-26el

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi