مدل‌های زبانی می‌توانند ببینند

مدل‌های متنی اغلب با چیدمان بصری مشکل دارند. آن‌ها کلمات را می‌نویسند اما درک نمی‌کنند که آن کلمات روی صفحه نمایش چگونه به نظر می‌رسند.

تحقیقات جدید این موضوع را تغییر می‌دهد. اکنون می‌توانید کنترل‌های بصری را در فرآیند تولید متن ادغام کنید. این کار به مدل‌ها اجازه می‌دهد در حین نوشتن، ببینند.

نحوه عملکرد:

  • مدل در طول فرآیند بازخورد بصری دریافت می‌کند.
  • متن را برای انطباق با چیدمان‌های خاص تنظیم می‌کند.
  • معنای زبانی را با جایگذاری مکانی پیوند می‌دهد.

این امر نحوه مدیریت داده‌های ساختاریافته توسط هوش مصنوعی را بهبود می‌بخشد. همچنین به طراحی UI و قالب‌بندی اسناد کمک می‌کند.

دیگر نیازی نیست مدل‌های متنی را از ابزارهای بصری جدا کنید. می‌توانید از یک سیستم برای مدیریت هر دو استفاده کنید.

منبع: https://dev.to/paperium/language-models-can-see-plugging-visual-controls-in-text-generation-aml

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi