بررسی هوش علمی در LLMها
پژوهشگران میخواهند بدانند که آیا مدلهای زبانی بزرگ (Large Language Models) دارای هوش علمی هستند یا خیر.
بیشتر آزمونها بر حقایق ساده تمرکز دارند. این مطالعه از جریانهای کاری (workflows) همسو با نحوه کار دانشمندان واقعی استفاده میکند.
پژوهشگران نحوه مدیریت استدلالهای علمی پیچیده توسط مدلها را مورد آزمایش قرار دادند.
یافتههای کلیدی:
- مدلهای فعلی در مواجهه با جریانهای کاری علمی طولانی با مشکل روبرو هستند.
- خطاهای استدلالی در طول فرآیندهای چندمرحلهای رخ میدهند.
- همسویی با روشهای علمی باعث بهبود دقت میشود.
برای درک محدودیتهای هوش مصنوعی در پژوهش، باید به این جریانهای کاری توجه کنید. بنچمارکهای استاندارد تصویر کاملی را ارائه نمیدهند.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi